曾祥瑞。
4月9日,在山东省青岛市康养领域具身机器人暨智能康复类产品训练验证中心,训练师在指导机器人练习抓取物体。
新华社发
在中关村展示中心常设展上,一台配备了灵巧手的机器人在展示穿针引线。
新华社发
搭载电子皮肤的机器人“灵巧手”。
□ 长江日报记者李煦
5月23日下午,华中科技大学机械科学与工程学院教授、博士生导师曾祥瑞,做客第709期武汉“名家论坛”,以《是“竞争者”还是“好搭档”》为题,介绍人形机器人发展现状与未来展望。
“名家论坛”由武汉市委宣传部、武汉市文化和旅游局主办,武汉图书馆承办,江汉区科协支持。当天论坛结束后,长江日报《读+》周刊专访了曾祥瑞教授。
■ 他每天面对“笨笨的”机器人
这期论坛关注度很高,现场几乎座无虚席,曾祥瑞教授讲得深入浅出,听众很感兴趣。
在互动环节发生了有趣的事情。举手要求发问的主要是青少年,他们提问的内容却颇为“老成”——机器人会不会取代人类?机器人会用在战场上吗?面对机器人,人类是应该焦虑,还是应该期待?
曾祥瑞尤其欣赏“焦虑或期待”的问题。他说:“这个问题很有深度,我们开发机器人的目标,其实是希望所有的人都不那么焦虑,但人工智能和机器人的发展现在确实给一些岗位带来了冲击,这是很难避免的。我觉得我们要对自己有信心,不管你现在是做什么的,不管你现在在什么位置,你现在多大年纪,我们人总能做到和机器人不一样的事情。而对于现在的小朋友来讲,我觉得你们完全不用担心这样的问题。现在的教育改革,包括各类科创实验班,就是为了让大家能去发掘需求,去解决问题,去提升创造价值的能力。人类的创造性永远都会高于机器人。”
一位初中生模样的听众发问:“机器人能给自己充电吗?”
这似乎是在问,机器人能否完成充电动作;但也可能是在问一件深刻得多的事情——机器人有没有生命意识,它会知道自己电量不足,主动给自己充电换电吗?
从某种意义上说,“拔插头”似乎是人类制约人工智能、制约机器人的终极手段。如果AI及其控制下的机器人能够感觉到“快饿死了”,要主动“觅食”,人类是该高兴呢?还是该恐惧呢?
长江日报记者还在琢磨,只见曾祥瑞微笑着回答:“机器人可以给自己充电,有一些扫地机器人都可以做到这一点。不仅有能给自己充电的机器人,还有能给自己换电池的机器人,一台机器人从另外一台机器人背后把电池抽出来,换一个新的电池给它,这些现在都已经实现了。”
在专访环节,记者向曾教授提出了关于“拔插头”的疑问。他表示,每天下班时,都会给机器人“关机”;然后每天上班来,第一眼看到的景象就是机器人瘫在椅子上或者坐在箱子里。
记者问:“是不是因为你每天看到的机器人都笨笨的,所以你不担心它?”
曾教授回答:“现在机器人肯定不行,差得比较远;它变聪明了也不要紧,聪明了就来帮我们。”
■ 一次开三把锁,机器人成功率不到一半
曾祥瑞的工作内容之一,就是让机器人变“聪明”;用专业术语来说,就是研究人形机器人专用的大模型。现在的语言大模型聊天还可以,但是用到机器人身上就不大行。
曾祥瑞解释说:人们经常打交道的多模态模型,可以识别文字、图像和声音,但是比较慢。大家和AI聊天时能够体会到,要是打开深度思考的功能,对方可能要思考个几秒甚至十几秒才能回答,在现实场景中,我们不可能每次都等这么久。
机器人大模型还要能识别动作、环境和场景。这不仅需要专门的算法,还需要大量数据,包括具身物理知识。这方面,机器人还差得很远。在曾祥瑞设想的未来场景中,也有“采访机器人”,可以举着个麦克风与采访对象交流。但是就以记者进门寒暄打招呼、自我介绍后落座采访的过程为例,机器人大概率做不好这个极其简单的事情。
曾祥瑞告诉记者,机器人执行“长序列”的任务时,会遇到两个问题。首先,每个动作单独的成功率,哪怕都是90%,那么连续两个动作的成功率就是90%×90%=81%,3个动作的成功率就只有90%×90%×90%=72.9%,一连串动作连起来之后,成功率越来越低。第二,上一个动作是否已经完成,是否应该去重新再做一遍,是否应该进入下一个动作?这需要判断,目前没有足够多的数据教机器人去处理所有这些不同的情况衔接。
除了“长序列”困难,还有“泛化”困难,也就是生活中无处不在的“随机”:现场多一个人怎么办?座椅方位变化了怎么办?等等。
正如科技评论者所说,在春晚等场合进行表演,那只是在可控环境中完成一套事先编程好的固定动作;现实所需要的,是在复杂环境中持续、稳定、智能地完成任务,这是两套根本不同的技术逻辑。前者可以通过密集试错,把一套动作最终打磨到几乎完美,这是对确定性任务的极致优化;真实世界不可控,没有彩排,没有工程师在后台实时修正,地面摩擦变化、物体位置偏差、突发干扰、人类行为随机性,都会改变系统状态。从会跳舞到会干活,中间跨越的不是动作难度,而是稳定的智能体系。
曾祥瑞正在努力攻克这些困难。他们训练、测试机器人的方式之一,是“开锁”。“我们在网上买来二十几种不同的锁,有的锁要摁一下、弹出来、再去拧,有的是要先拿钥匙拧一下,每把锁都不一样,然后让机器人学着打开这些锁,现在一次连开三把锁也还比较困难。”
记者问:“如果机器人看到人类开三把锁的视频演示,它能够自己把这个动作复现出来吗?”
曾教授说:“我们在做这样的研究,具体要看锁的难度,总体来讲成功率还不很理想,10次里可能5次都不行,成功率不到一半。”
每天面对这样的机器人,曾祥瑞自然希望机器人能够“再聪明点”。
■ 印度纺织工“助力”机器人
很多人都在以自己的方式助力机器人变聪明。今年4月,据印度媒体报道,当地纺织厂工人在缝制服装时佩戴着头戴式摄像头设备。视频显示,这些轻便的摄像头记录着他们整个班次工人的手部动作和操作。工人说,他们被要求在工作时间佩戴这些设备。
参与收集此类数据的公司称,这些叠衣服、缝布料、操作缝纫机的“第一人称视角视频片段”将被处理成数据集,供AI公司用于训练人工智能和机器人系统。
据报道,全球各地都有工人在从事这种劳动,相关的数据采集、标注公司和分派任务的零工平台等,已经形成了一条完整的产业链。数据采集公司表示,工人担心自己是在帮助训练未来可能取代他们的机器人,这种忧虑是真实存在的,但这些机器人也可以被用于人们不愿做的工作,或者进入人类不易到达的场所。
数据采集不仅覆盖工厂车间,还包括了居家场景。公司付费让人们录制切水果和蔬菜、处理餐具、叠衣服等日常任务视频。这方面最值钱的数据,据称是美国家庭生活日常场景,因为美国家用机器人有很大的盈利前景。
而在4月11日,杭州“六小龙”之一的宇树科技发布视频显示,旗下H1机器人再度刷新人形机器人全球奔跑最快纪录,速度达到每秒10米,逼近“百米飞人”博尔特的巅峰速度。2009年8月16日,牙买加运动员博尔特跑出9.58秒(相当于每秒10.44米)的百米世界纪录,至今尚未被打破。宇树科技创始人王兴兴说过,“运动能力是所有机器人真正干活的先决必要条件”。
可是8天后的北京亦庄,人形机器人半程马拉松比赛中,此前被看好夺冠的宇树科技H1机器人在比赛中失去平衡摔倒,被抬离赛道。夺冠的前三名机器人则打破了乌干达名将基普利莫3月创下的57分20秒人类男子半马世界纪录。
据介绍,此次参赛队伍从去年的20支增至100多支,在全程21公里的比赛中,近半数机器人在穿越复杂地形时采用了自主导航,而非依赖遥控操作。102支参赛队伍中,只有47支完成比赛,真正依靠自主导航跑完全程的更少。评论者认为:“机器人此前多半停留在演示层面。能走路,能搬运,能做几个标准动作,但一旦离开实验室就容易失控。此次比赛的意义,在于把技术放进一个连续、开放、不可预测的环境里。马拉松不是短时间的爆发,而是对稳定性和持续性的考验……机器人在长时间运行中的可靠性,在复杂任务中的适应能力,在成本上的可负担性,依然是摆在行业面前的关键问题。”
【访谈】
人手的灵巧,机器人还够学
■ 人形机器人现在最大的用途是表演
读+:有人说,人形机器人现在最大的用途是表演。春晚上的那些人形机器人,动作都是事先编程的,是反复调试过的一套固定表演动作。机器人在日常生活工作场景中用处不大。是这样吗?为什么会这样?
曾祥瑞:目前确实如此。机器人的运动与操作是两类不同的问题,需要不同的技术。
现在人形机器人在跑、跳、翻跟头、格斗踢腿这些方面都能做得非常好。可以说在运动能力方面,现在大部分的机器人都还可以。
操作指的是机器人去操作其他的物体,对目前的人形机器人而言,操作还是一件比较困难的事情,大部分人形机器人只能做一些相对简单的操作,而且很多操作的成功率目前看来也还不高。就拿烹饪机器人来说,如果是做固定的几种菜,或者像做煎饼馃子那样做一个确定的动作,这些还是可以实现的,但是让它分拣一筐青椒、一筐胡萝卜、一筐茄子,它可能没法保证。青椒会软,茄子会滑,它不能保证每次都抓取成功。
原因首先是没有“灵巧手”。人手是非常灵巧和精密的,手的皮肤能感知到力量、形变、温度和纹理,这些目前在机器上还很难完整复现出来。可能个别的单点指标,机器人能做得比人好,比如说测很精密的压感。但是要同时感知所有这些东西,机器人的“手”就做不到了。除了感知能力,人的手在运动方面也非常灵活,可以做出很微小的动作。此外,人的手柔软、有弹性,人手有指纹,有时候还有茧,茧也有茧的作用,所有这些在机器人上复现出来都是很难的,都还没有做到。
第二个是算法和数据。现在很多人工智能的技术都要靠大量的数据去支撑,但是对机器人而言,没有那么多与“手”相关的数据,所以在算法方面做这些带有泛化的操作也有难度。
总的来说,让人形机器人模拟人去“操作”,还有很多困难,所以现在只能看到一些有限的演示。
除此之外,人形机器人要真正派上实际用场,还需要交互能力,理解人类语言、执行动作,有些服务型岗位,可能还需要反复和人类沟通,并了解人类的动作、表情、意图。这方面目前在技术上还没有完全实现。
■ “叠衣服”是机器人一大挑战
读+:跑马拉松和叠衣服,对于人形机器人来说,哪一个更难?难在何处?
曾祥瑞:叠衣服更难。就像上面说的,跑马拉松属于运动,叠衣服属于操作。操作比运动难。
操作衣服,比操作别的东西比如方向盘更复杂一些。为什么?方向盘这种零件,在建模的时候,我们可以把它简化为一个不变形的“刚性体”。对于刚性的系统,物理上建模与仿真很容易,技术上已经弄得很明白。但是衣服、毛巾是柔性体,它会变形;它怎么变形,又和外界施加什么样的力、力的方向以及本身材质有关;而且它不是随便乱变,衣服你不可能把它撕开,必须顺着来,它有些地方可能会硬一些,有些地方有缝线,有些地方包了一个边,有的地方又很软。这个模型就很复杂。
而且每个人的衣服不一样,人能够很轻松地知道每件衣服应该怎么抓起来,每件衣服应该叠成什么形状,但对机器人来讲就是个难题。
如果你看国际上一些头部企业的机器人叠衣服视频,你会发现,很多机器人叠的都是纯色T恤,这是最好叠的。首先,T恤是最好叠的衣服;然后,纯色、同一材质,对机器人来讲,它的识别、抓取、折叠等操作都会容易一些。
目前来看,大家一般都是大量采集人类叠衣服的数据,采了足够量的数据之后,对模型进行训练,这里可能还涉及要不要具有语言理解能力,因为叠衣服可以有语言指令,当然也可能不用语言。总之,叠衣服是一个很大的挑战。
■ 武汉“电子皮肤”产业独领风骚
读+:武汉在人形机器人方面,地位怎么样?
曾祥瑞:人们常说的武汉的科教优势、人才优势,我就不重复了。与叠衣服相关的“电子皮肤”产业,武汉很有优势。
今年5月15日,华威科柔性智能传感器生产一期项目在葛店国家经开区正式开工。项目建成后,企业电子皮肤年产能将突破千万片,成为全球首个千万片级机器人触觉传感器量产基地。华威科的人形机器人“电子皮肤”市场占有率超过70%,出货量稳居行业首位,产品已配套多款主流整机。
搭载电子皮肤的机器人“灵巧手”,一平方厘米里面集成了近100个触觉点,通过压力的控制,不仅可以拿起豆腐,而且豆腐不会被抓碎。电子皮肤除了用在机器人手上,还可装在汽车的座椅里面,感知人的姿态、动作和压力,并随之调整改变。去年6月,华威科200万片车规级产能在葛店达产,截至目前配套灵巧手超1.8万台,并率先将柔性触觉大规模导入汽车智能座舱,首年出货逾百万片。今年订单同比增长300%,现有产能趋紧,扩产势在必行。
目前的人形机器人产业,如果是做整机的,确实面临挑战;但是像“电子皮肤”这样在产业链上提供支持,前景可观。
读+:美国未来学家凯文·凯利认为,人形机器人的前景有限,因为其携带的电池通常不能提供很长的续航时间,而一旦解决了电池续航问题,电池本身就可能变成一种高能量包,成为新的威胁。对此您怎么看?
曾祥瑞:电池我不担心。电池的功率密度、安全技术都会进步。你看中国新能源汽车发展这么好,电池的技术进步是很快的。我觉得对机器人来讲,电池、能源的技术进步速度可能比具身智能进步速度还快,我们只要有一些投入,很快就能有符合人形机器人要求的电池。我预计,在符合人形机器人要求的大模型出现之前,电池技术应该就能达到要求,我对此很有信心。至于安全威胁,这么多新能源汽车都在外面跑,新能源汽车的电池大得多,大家也觉得挺好。