新闻:18510528811 广告:18510528811

人形机器人打开“具身智能”蓝图

2024-06-13 来源:经济参考报

  从搬运重物到端茶倒水,从进厂打工到做饭叠衣……当大模型为机器人注入“灵魂”,人形机器人“进化”加速。业内人士指出,人形机器人工业场景的落地最快今年或明年就能在部分试点实现,“入户”则将在10年左右。


  变化——迈入“人形时代”


  近期,国产人形机器人领域动作频频:全球首例纯电驱全尺寸人形机器人“天工”首次在北京人形机器人创新中心实现“拟人奔跑”、瞄准老年人陪护市场的人形机器人Unitree G1问世、工业版人形机器人Walker S进入蔚来总装车间“实训”当起“见习厂工”……


  不止中国,站上风口的人形机器人,正在席卷全球一二级市场。从创业公司到科技巨头,从软件平台到硬件开发,都在竞相入场。当英伟达、特斯拉、微软纷纷以实际行动表示“看涨”后,高盛重新调整了对2035年人形机器人全球市场规模的预期:从60亿美元上调至380亿美元。


  “一条千亿元规模的赛道,三个因素缺一不可:市场需求的驱动、产业链条的完备、核心技术的突破。”优必选副总裁、研究院执行院长焦继超说,“机器人+大模型”落地提速的今天,技术、资本、市场实现具身智能的热情,掀起广阔的想象空间。


  老龄化社会、少子化社会的叠加,以及劳动力的相对短缺,激发了社会对人形机器人的切实需求。“制造业(如汽车组装、零部件排序)及特殊作业(如高空作业、危险任务)方面,人形机器人能完成高风险、重复性的脏活、苦活、累活,降低相关岗位的伤病率、死亡率,提升职业满意度,因此市场对人形机器人的到来充满期待。”北京大学计算机学院博士生导师、北大-银河通用具身智能联合实验室主任王鹤说。


  记者来到北京人形机器人创新中心,迎面遇见一位身材颀长的机器人正在爬楼梯。这个名为“天工”的人形机器人不仅拥有聪明的脑、灵巧的手,丝滑的动作间还透着些许“柔美”,就连外形都与人类贴近:身高1.63米、体重43公斤。当工程师向“她”发出指令,只见“天工”上半身略向前倾,手臂配合腿部移动加大摆动,竟迈开小步跑了起来。


  深耕机器人20余年的北京人形机器人创新中心总经理熊友军相信,通用机器人的未来形态一定是“人形”。


  过去传统的仅从事单一操作的专用机器人,如焊接机器人、打磨机器人,本质上是一个自动化设备,仅需执行人提前写好的固定程序,因此形态上只需要一条腿或一只臂。


  “而大模型为机器人注入‘灵魂’后,机器人获得了前所未有的感知、理解、推理、决策能力,能完成复杂环境的多元任务。一方面,人类社会的基础设施、场景构建、工具设计,均是基于人类的物理特性进行开发,‘人形’可降低适配成本、快速适应环境;另一方面,未来通用机器人的终极目标是走入人类生活、服务人类,‘人形’是与人交互最自然、体验最优的形态。”熊友军说。


  进化——实现“知行合一”


  这届“人形机器人”妙在何处?


  相较于过去一只机械臂,已“实训”下车间的国产人形机器人Walker S用丝滑行动给出答案:“她”的一双敏捷手对准车头精准贴上车标,一双灵巧脚带动躯干协调地自动走位到每个座椅进行安全带的拉伸检测,一双“慧眼”还能对准车门、车身表面进行缺陷检测。


  “这届人形机器人的飞跃性突破是‘知行合一’。表现为‘聪明脑’指挥‘敏捷手’‘灵巧脚’,使机器人行动起来更加自主、灵活,且能在学习中不断进化。”科大讯飞机器人首席科学家季超说。


  何来“聪明脑”“敏捷手”“灵巧脚”?


  “一方面,大模型的迭代使‘大脑’更加聪明;另一方面,人形机器人软硬件能力的提升,使运动更加灵活。两股力量牵引人形机器人的进化。”季超说。


  看上去,大模型有了“身体”,机器人也有了“大脑”。往里看,其实是大模型的感知推理能力,融入了机器人的具身能力。


  这些类人的能力又是如何实现的?


  “源自三个部分:感知、规划、执行。”王鹤说,从技术实现角度,如果拿人来类比,不仅需要人类智慧的核心大脑,也关系到负责运动控制的小脑。


  人形机器人的“大脑”负责感知、理解、规划。“当我们对机器人说‘我渴了’,机器人首先会理解并拆解意图,然后分步骤进行规划设计:比如,第一步寻找水在哪里,第二步思考如何打开冰箱门、从冰箱中取出水、关上冰箱门,第三步递送到我们面前。这每一步,包括理解语义、任务规划,都在‘大脑’中进行。”王鹤举例说。


  人形机器人“小脑”的使命则是运动控制、任务执行。王鹤进一步解释,“例如,如何找到冰箱位置、避开路障走过去,用多大的力去伸手拉门、冰箱门开到多大,以及行走的每一步如何调动四肢与躯干、实现手眼脚协调运动,‘小脑’实现的任务是当前研发的难点。”


  “技术路线上,今天的人形机器人已经越来越接近人类思考、决策、执行的过程。”熊友军说,过去的认知是通过语音交互、视觉识别,以自然语言理解的方式或传统的人工智能方式实现,现在则使用VLA(视觉语言动作)这样的多模态大模型来完成“大脑”功能。过去的运动控制是通过模型优化的方式,而现在人形机器人的跑、跳则更多是基于强化学习、模仿学习来实现“小脑”与“躯干”的功能。


  大模型的迭代为机器人带来的革命性变化在于,它不仅应用于“大脑”的理解、推理、规划之中,也将融入到“小脑”“躯干”参与的感知与执行过程。


  人形机器人拥有更加强大的泛化能力后,将更好地与物理世界交互,进一步降低部署成本、应用门槛,这也是具身智能前进的方向。“具身智能强调智能体与物理世界的交互与反馈,服务于现实场景,解决人类的实际诉求。”焦继超说。


  演化——“入户”十年可期


  人形机器人以“洪荒之力”模仿并复刻人类智能,但它终究不是人类。


  莫拉维克悖论指出,人类独有的高阶智慧对机器而言只需要极少的运算,如推理,而人类无意识的技能与直觉却需要机器耗费极大的运算能力,如接住抛物。


  “眼下,人形机器人的能力瓶颈并非在于‘大脑’的感知、理解、判断,而恰恰是缺乏类似人类‘小脑’的泛化执行能力。”王鹤说,这一瓶颈导致的问题就是人形机器人“干活”不够快、不够敏捷。


  这一瓶颈的根源是高质量数据的匮乏。“机器人‘大脑’所需数据可从互联网的文本、图像中获得,而‘小脑’所需的数据少之又少。有限的来源之一是国外部分企业采取的人工遥控机器训练的方式,采集到的数据既难、又贵、且慢。”王鹤说。


  高精度模拟真实世界的物理场景、于仿真环境里合成的数据不失为一种有效的解决方案。比如,合成灵巧手模拟真实世界抓取物体进行训练采集到的数据,然后在真实环境里测试、泛化,能破解机器人“小脑”所需的数据“投喂”问题。


  还有专家指出,实时性、推理速度也是当前具身智能面临的另一瓶颈。目前,基于大模型的机器人控制在线决策至少需50毫秒,一般延迟为1至5秒,无法满足工业场景3至10毫秒的需要。


  “人形机器人是一块难啃的硬骨头,它的突破一定需要时间的积累和技术的沉淀。大规模量产、商业化也都是挑战。”多位受访者表示,尽管人形机器人的成长速度肉眼可见,但距离产业爆发的“iPhone时刻”还有距离。


  “可以确定的是,人形机器人率先在工业场景落地,接下来是应用于商业场景,最后是进入千家万户。其中,工业场景的落地最快今年或明年就能在部分试点实现,人形机器人‘入户’在10年左右实现。”熊友军说。


  焦继超给出一组数据:目前,中国是全球申请人形机器人技术专利最多的国家,共计6618件。“这将为我国人形机器人产业稳步向好发展夯实基础。”


  “什么时候我们能做到‘类脑模型’,把所有模态数据一股脑放入数据集中,还能响应足够敏捷,听得懂语义、解析得了意图,也就真正实现了具身智能,这也是我们将着力解决的问题。”王鹤说。



编辑:黄 敏

审核:袁 野