湖南大学博士生导师、机器人视觉感知与控制技术国家工程研究中心副主任梁桥康:

让机器人更像人,最难设计的是“智慧”

长江日报 2024年08月27日

    梁桥康

    《机器人智能视觉感知与深度学习应用》

    梁桥康 秦海 项韶 著

    机械工业出版社

    □ 记者马梦娅

    ■ 让“钢筋铁骨”具备逻辑和理解力

    在人形机器人的制造上,人类仅有短短的百年制造历史。

    1893年,加拿大人乔治·摩尔设计了能行走的机器;1927年,为了推广新研发的Knowles tube电子管,美国西屋电器工程师温斯利制造了一个名为“Herbert Televox”的人形机器人;1933年,温斯利带领团队又发明了一款名为Elektro的机器人。

    当然,这些制造尝试在今天看来都很简陋。但技术的简陋,阻挡不了人类对人形机器人的想象。从两千多年前偃师造出“人形机器人”舞者的传说,再到中世纪以来西方用齿轮机械造出的各类“人形”设备,再到更多哲学上的思考——人类对人形机器人的千年想象,也只有在最近的几十年里,特别是最近几年,才终于看到实现的可能。

    梁桥康和他的团队研究机器人视觉感知与控制相关技术已经三十余年了。在中国工程院院士,机器人技术与智能控制专家王耀南院士的带领下,他们建成了湖南大学机器人视觉感知与控制技术国家工程研究中心。梁桥康介绍说:“我们一直在做三件事情,第一是给机器人装上明亮的眼睛,也就是给它配上视觉系统;第二是给机器人配上聪慧的大脑,结合现在的大模型,将机器人的智能水平提升;第三是给机器人配上灵巧的手脚,就是完善它的作业机构、行走机构,以及运动机构。”

    这些年来的研究给梁桥康带来的最大感受是,机器人的智能化程度在不断提升。传统的机器人做一些重复性的繁琐工作,已经完成它们的使命了。现在能够震撼到大家的机器人,是灵巧性非常高、功能很强大的智能具身机器人。让“钢筋铁骨”具备逻辑和理解能力。以往机器人需要依靠专家和工程师来实现这一能力,现在则基于大模型的知识图谱,使机器人在复杂环境下更聪明、更听话地执行多种任务。

    梁桥康举了个例子,北京人形机器人创新中心设计身高1.63米、体重43公斤的国产人形机器人“天工”,她上斜坡、爬楼梯、过障碍等这些动作都应对得很轻松。细心观察,“天工”的跑步姿态还有些“柔美”。北京人形机器人创新中心用来训练“天工”的数据采集自女性,采用“基于状态记忆的预测型强化模仿学习”,这是自主研发的全新学习方法。目前,“天工”已实现以每小时6公里的速度稳定奔跑。

    梁桥康说,我们人类学习走路,是从小牵着大人的手,慢慢地学习如何迈步、跨越障碍;训练机器人的方式是完全不一样的,它需要在很多虚拟仿真的环境里面受到训练,再将训练结果加载到机器人的本体中,在反复多次的数据中训练,它才能掌握多种技能。

    ■ 国产人形机器人产业将飞速发展

    其实自20世纪80年代起,我国国内几所科研院校就陆续开始人形机器人的研发工作,其中国防科技大学在1990年,研制出了我国首台两足步行机器人。这仅仅比本田1986年开发双足机器人E0晚了四年。而人形机器人要想走得稳,双足行走能力是根本。

    2000年,我国独立研制的第一台具有人类外形、能模拟人类基本动作的人形机器人在国防科技大学问世。这台定名为“先行者”的类人型机器人,不但具有与人类似的头部、眼睛、脖颈、身躯、双臂与两足,而且具备了一定的语言功能。

    梁桥康表示,虽然现在国内的一些研发团队都在做人形机器人的研究,也取得了很多的成果,但整体水平还是和国外发达国家有一定差距。但我相信未来我们可以迎头赶上,目前来看,我们的机器人在视觉传导、语音识别、自动导航等关键技术上已经取得非常好的成果了。

    他表示,一方面是国家非常重视科技产业,国内的科研院所和公司都把自己的资源汇聚在智能科技发展上;另一方面,中国的制造能力、产业配套能力非常强,中国是全球最大的工业机器人市场,工业机器人的装机量也位居全球第一。梁桥康说:“我相信在未来,我们的人形机器人肯定也能够做到全球领先的程度。”

    【访谈】

    AI界春晚——2024世界人工智能大会(2024WAIC)7月4日在上海开幕。25款人形机器人齐亮相,几十个国产大模型花式炫技。

    大家对这次展览的印象出奇地统一——“一半机器人、一半大模型”。

    今年新设的机器人专区是整个展览的人气王,25个人形机器人、各种灵活的机械臂、穿梭在过道中送水的机器狗,还有能够帮你成为超能人——两只手指头就能搬起沙袋的外骨骼。

    当大模型赋予了机器人一个超级外脑,机器人的很多能力也在迅速解锁。具身智能,简单说来就是具备人工智能的机器人。许多业界专家认为人形机器人可能会成为未来的主流。

    《读+》记者专访湖南大学博士生导师、机器人视觉感知与控制技术国家工程研究中心副主任梁桥康,请他聊聊具身智能机器人将给我们的生活带来怎样的变化。面对复杂的物理世界,机器人也在进化成长,成为更“懂”我们的生活伙伴。

    ■ 人形机器人是又一个颠覆性产品

    读+:请您聊聊具身智能这个概念。具身智能是什么?具身智能机器人又是什么?

    梁桥康:随着ChatGPT、Sora、Llama等大模型不断地获得惊艳的效果,大家对人工智能和大模型越来越关注。同时,人们也越来越期望人工智能在实际的工作生活中起到更大的作用,因此,具身智能作为一种典型的新质生产力技术支撑获得了空前的重视。正如中国工程院院士、中国人工智能学会监事长蒋昌俊所说“要实现真正的通用人工智能,需要赋予AI在真实物理世界中交互的能力。这意味着要让AI拥有实体,像人类一样具备感知、思考和行动能力”。

    具身智能这个概念主要是区别于一般智能(intelligence)或“离身智能”而被提出的。一般我们日常所说的智能就是个体或者系统能体现出理解、推理、学习等能力的一种性质,在人工智能这个体系中则是强调对事物的理解与推理计算的能力。

    具身智能正如其名字“具身”一样,更加强调个体或者系统与真实物理环境进行交互的一种智能。具体来说是指智能体基于自我中心的视角,通过自身与环境的交互来理解世界,制定决策并在物理世界中执行动作的能力。

    根据中国计算机学会的定义,具身智能实质是强调有物理身体的智能体通过与物理环境进行交互,从而获得智能的人工智能研究范式。

    我觉得具身智能机器人通常拥有更加高级的感知和控制系统,能够自主地理解周围环境,还具备能够根据环境反馈和人机自然交互进行自我调整和学习的能力,最终实现在复杂结构环境下灵活自主地完成任务。当前非常热门的人形机器人就是具身智能机器人的典型代表,如特斯拉的Optimus、波士顿动力的Atlas、宇树H1、傅利叶智能GR-1等人形机器人,这些人形机器人通常具有仿人形态、先进的感知和认知学习能力、高度的灵活和机动性,强大的交互能力等特点,有望作为通用的智能装备广泛应用于工业和家庭场景。

    举一个生活中的例子,我们经常能看到有终端能识别物体的种类并搜索到对应的商品,这是基于人类事先标注的经验来获得的能力。而具身智能机器人区别于简单的识别与定位,能做到去理解如何分装物品并进行实际操作。比如它看到了没封装好的快递可以将其重新封装,看到了完整的快递就会把它摆放至合理的地点——这就是我们说的与环境产生交互的能力,它能把环境的信息收集起来,并从中产生意图,且自主制定决策来执行相关的动作。

    读+:智能机器人是与人类共处的伴侣、帮手,我们已经有扫地机器人,帮助学习、写作的AI工具等,将智能机器人设计成人形的原因是什么?

    梁桥康:与传统机器人不一样,人形机器人不只长得像人,有人一样的肢体运动能力,更有类似人的感知、学习能力,被认为是继电脑、智能手机、新能源汽车之后的又一个颠覆性产品。

    关于人形机器人的工作,其实很早就有相关的研究。最近波士顿动力的阿特拉斯机器人和特斯拉的擎天柱这些机器人出来之后,一下子就把人形机器人推向了风口。

    首先我们看一下机器人robot这个单词,它是由捷克作家卡雷尔·恰佩克在1921年出版的科幻小说《罗素姆的万能机器人》中首次使用。剧中一位名叫罗素姆的哲学家研制出一种机器人,被资本家大批制造来充当劳动力。这些大批制造的机器人外貌与人类相差无几,并可以自行思考,然而一场机器人灭绝人类的叛变计划正在进行……该剧于1921年在布拉格演出,轰动了欧洲。卡雷尔·恰佩克作品中创造了“robot”(机器人)一词。这个词源于捷克语的“robota”,意思是“苦力”。之后该词被欧洲各国语言吸收而成为世界性的名词。

    它反映了什么?它反映人类一开始就希望制造出像人一样的机器人,它主要也是来代替人类工作的,只是它受到了技术发展的一些约束。

    科学家首先发明的机器人是工业机器人,它其实也是仿人的,只不过它不是仿造了整体的人形,它是模拟人的一个执行部件——手臂。现在咱们在汽车制造车间看到的那些工业手臂,就是模仿人类的手臂,可以代替我们去做一些重复性的动作。

    我们目前设计的人形机器人,不仅仅是为了某一个单一的任务,而是综合性的智能发展。我认为有以下几层含义,第一是赋予身体智能,让机器人能去做这些事情。第二层,机器人跟物理世界交互的过程中提升智能,像我们人一样,在锻炼中变得更强。第三,机器人要具备主体性,无论视觉、触觉,刚刚提到的多模态输入,都属于我这个身体。例如,我要避让的东西,你要去碰撞,这就矛盾了——它和大模型是不一样的,它是有主观性在其中的。

    ■ 比程序和算法更难设计的是“智慧”

    读+:我们是否可以这样粗浅地想——将那些有不同功能的机器人全部集结在一个“智能大脑”里,再把它做成人形,就设计出人形机器人了?

    梁桥康:其实大概的含义也是这样的,我们将它做成人的构型,然后加上大模型,再加上具身智能——但实际上现在的技术水平在很大程度上还没有达到这么高的水平。

    拿我们最容易理解的来说,现在人形构型的设计中,机器人仿人的步态的设计需要平稳地控制,这一点就难倒了很多的团队。

    现在做得好的,比如波士顿动力公司设计的机器人,它可以后空翻,还可以做一些非常复杂的跳跃翻转动作,其中沉淀了几十年的技术研发。

    再比如,不少公司研制出很多触觉传感器,再把触觉的传感器装到机器人的手上,装到一只灵巧手上。灵巧手的自由度就跟人手一样灵活,它的自由度可能稍微比人少一点,但一样可以做抓东西、捏东西、敲键盘等事情。在执行的过程中,机器人敲击键盘的那一刻或者它拿到东西的那一刻,如果有触觉信号的话,它能切实地感觉到“我摸到这个东西了”——达到这一步骤也并非易事。

    读+:在您看来,这里面的关键在于什么?

    梁桥康:我们可以用算法和程序指挥一台机器人如何行走,例如关节部位出力大一点,使腿部往上抬,接触到地面,得到一个电流反馈信号……它一直在大脑里做大量的计算,从千千万万个选择里选出最好的下一步。

    但那些看起来更像是所谓智慧的东西,仅靠这些算法就不行了,如果想让机器人变得像人一样强大,还需要大脑的加持。

    在虚拟世界里,物理规律会比较简单,它的传感器可以被认为无比强大。在现实世界中,要感受什么东西,你得去触碰、去真切地感受到这些力度,再通过物理反应、化学反应,最后传到神经信号,在大脑里形成。

    在人工智能和机器人领域,有个著名的莫拉维克悖论(Moravec's paradox),这个理念是由汉斯·莫拉维克、罗德尼·布鲁克斯、马文·明斯基等人于1980年代所阐释,以奥地利机器人学家汉斯·莫拉维克的名字命名的。他们说,利用计算机执行看似困难的高级推理任务变得越来越容易且简单。同时,对于计算机系统来说,涉及人体感官运动技能的简单任务(例如,四处走动,然后从鞋里捡一块棉绒)可能相当困难。

    和传统假设不同,人类所独有的高阶智慧能力只需要非常少的计算能力,例如推理,但是无意识的技能和直觉却需要极大的运算能力。这大概就是我们目前遇到的最大难点,怎样与大模型为代表的人工智能去融合,是现在机器人开发团队的主流研究方向。

    读+:如果有这种趋于完美的人形机器人,您认为它会首先出现在什么领域里?

    梁桥康:在我看来,人形的具身智能机器人可能出现的场景会是在服务领域。比如家居养老、医疗助老助残这样的领域,这些领域急切地需要一些人形机器人去进行服务。例如日本一些人形机器人公司的定标就是助老助残。

    大模型的快速发展为机器人在各个领域的广泛应用带来了巨大潜力,肯定会成为家庭保姆、助理甚至养老护理等机器人的得力助手。个人认为,不久之后,为我们完成简单但繁琐的家务工作的家庭助理机器人肯定会出现,但是作为与人类接触更加深入的家庭保姆可能还有较远的路要走,包括但不限于相关技术的发展、技术可靠性的验证、伦理道德的审核、安全性的保障等等。我们应确保家庭养老机器人的广泛应用既符合社会价值观,又保障用户利益。

    此外,还需要考虑机器人的成本问题,就目前看,一台能够自主完成这些功能的机器人,它的造价并不低,如何让制造工艺更加成熟,维护和保养成本更加便捷,降低机器人成本,也是有待考虑的问题。

    但我相信,从长远的发展来看,这一天的到来不会太晚。

    读+:除了技术方面,人形机器人之所以制作成人形,是否也反映了情绪价值方面的需求?

    梁桥康:其实刚才提到的康养问题已经在某种意义上揭开了这个话题,人形机器人除了照顾老年人之外,还能带给老年人情绪价值。实际上,不只是老年人,不同年龄段的人的精神需求或者不同群体的精神需求其实可以高度定制化,可以人设定制化,声音定制化,可以定义性别。例如,年轻人期待有虚拟恋人陪伴,作家期待有机器助手出现等等。

    要实现这种情绪价值的需求,需要更丰富更繁杂的数据,如多模态的信息融合,它有微表情,它有气味,它有身体语言。这种数据能被训练吗?这还是我们的畅想。

    在我看来,具身智能机器人不是人类的平替,而是一个很独特的存在,是我们的机器人伙伴,它和人类之间发生着一种良好互动。

    ■ 数据飞轮让机器人更“懂”我们

    读+:近年来,大模型在开发过程会自我超越,不断前进。具身智能机器人有怎样的进化趋势?

    梁桥康:目前来说,大模型的不断更新发展离不开大量用户对大模型的使用。这是一个正向循环的过程,使用模型的人越多,模型所产生的数据就越多,而这些数据则又可以被拿来进行新的训练,继而让研发人员可以对大模型进行进一步的开发。不过这些数据仅停留在语言符号图像的层面,与机器人所面对的真实物理世界是有一定区别的。

    如何创建简单易开发的可理解世界的基础模型是一个关键,快速产生高质量数据的方法的开发也是一个关键。现在的一个观点是采用数据飞轮的方式来高效产生数据,也就是让同类机器人根据其传感器和已学习的经验来不断自动与环境来产生交互,交互的数据结果再回传给机器人的训练系统,如此往复,就像飞轮一样旋转起来。

    总体而言,具身智能机器人未来会变得更加自主和智能,由单个个体的智能变为群体智能,由单方向的数据投喂变为持续学习和自我进化,由单功能的工具发展为通用的智能终端,由适应简单的工作环境变为复杂的非结构环境。

    具身智能机器人作为一种新兴技术,正逐渐在多个领域展现出其潜力和应用价值,包括工业制造、家政服务、医疗领域、教育行业、抢险救灾、航空航天等。在未来,我们可能在工厂、快递驿站、家庭、医院、学校等公共场所都能普遍看到具身智能机器人为我们服务,这也是我们科研工作者所不断追求和探索的意义所在。

    读+:它会越来越“懂”我们吗?它会产生意识吗?

    梁桥康:随着技术的发展与更新,具身智能机器人一定是会具备越来越强的理解环境、理解人类意图的能力。机器人会不会产生意识,目前学术界对此的认知众说纷纭,有的研究者认为自顶向下的方式才是最终产生具有意识的人工智能的归宿,也有人认为像现在大模型取得的成果证明了自底向上这种数据驱动的方式才是正确的技术路线,并且不用太久就能产生具有意识的人工智能。随着相关领域技术的不断进步和成熟,具身智能机器人的感知、理解和决策能力将不断提升,通过持续的学习与进化,它们会越来越“懂”我们的需求和环境变化,并通过本体执行相应工作,完成指定任务。

    在我看来,产生意识这样的属性从目前的技术水平来说还是有着相当的距离,短期内应该是无法实现的。在未来的研究过程中,我们需要深入探讨意识的科学基础,并考虑相应的伦理和法律问题。