中经记者 李玉洋 上海报道

又一开源具身智能机器人项目出现了。
《中国经营报》记者注意到,近日,国内唯一的专门针对机器人开发者的全球性盛会“ROSCon China 2025大会”推出开源具身智能机器人项目,开源内容包括一款双足机器人硬件、软件算法和相关配套开发者课程,预计于2026年第一季度上线。
在ROSCon China大会主席、华东师范大学教授张新宇看来,操作系统是整个机器人技术的基石。“机器人操作系统(ROS)从2007年对外发布,至今已经走过了近20个年头。最早从高校起步,现在逐渐被产业界接受。”张新宇表示,ROS构建了整个机器人社群与产业生态,也是一个加速器。
当前机器人领域最火热的赛道,莫过于人形机器人/具身智能,而中国拥有较为完整的机器人产业链。国家地方共建具身智能机器人创新中心相关负责人刘益彰指出,2024年全国人形机器人销量仅数百台,而今年全年的销量预计将跃升至约20000台,呈现爆发式增长。
就在11月2日举行的第十五届全国运动会火炬传递活动中,乐聚机器人研发的“夸父”人形机器人作为特殊火炬手亮相,手握1.6千克重量的火炬,完成第二棒与第三棒之间的传递。那么,透过ROSCon China 2025,外界能看到人形机器人的商业化路径与未来图景是怎样的?
对此,刘益彰表示,从当前行业发展阶段来看,“危险场景替代”与“情感陪伴”是人形机器人实现商业化的两大关键路径。
具身智能的研究领域
对于具身智能的理解,中国工程院院士、中国人工智能学会副理事长何友院士表示,具身智能就是具有身体的智能体,而机器人属于典型的具身智能。
“具身智能是一个智能大脑配合多个不同形状的身体来完成物理世界的不同任务。目前具身研究有四大领域:一是具身感知、估测、识别和操作;二是具身智能体与人类、物体之间的交互;三是具身智能体在物理世界中的方案;四是具身世界模型,在逻辑中创建与真实环境相似的世界模型。”何友表示。
提及具身智能大模型,何友进一步指出,为了应对多任务学习需要高流量模型,而Transformer无法高效地实时运行的问题,谷歌发布了机器人版模型ChatGPT RT-1,展示出较强的泛化能力和鲁棒性,且可以执行长期任务;而RT-2更是具有智能涌现能力,包括对新对象解释、命令、推理的能力。
在何友看来,谷歌DeedMind 9月25日所发布的具有智能基座模型Gemini Robotics1.5,目标是打造具备模拟推理能力的具身智能模型,其采用了VLA(Vision-Language-Action,视觉—语言—动作)模型和ER(Embodied Reasoning,具身推理)模型分工执行。
“具身智能的平台软件架构都有所谓的慢系统、快系统概念,在人形机器人产品上,慢系统主要是大语言模型、视觉大模型的任务级推理;快一点的、更高层的是视觉对环境的感知、理解,包括传统的视觉算法、CNN深度视觉的模型、3D人体模型,以及传统的机器视觉。而基于Transformer的CLIP、SAM、Grounding DINO等大模型也在这层,主要对周围环境进行语意感知和理解。”英特尔边缘计算事业部的具身智能资深架构师杨洪表示。
杨洪指出,速度要求更高的快系统,主要是传统的运动规划,甚至包括底层的实时控制。运动规划这方面用得比较多的3D定位导航、视觉定位导航,传统的机械臂的运动控制,包括人形机器人的全身步态控制,他们的控制周期要求都比较高。
“最下层的就涉及了机器人机械控制的实时性,比如传统非线性的模型预测控制、轨迹优化、轨迹差补、轨迹顺滑。另外像电机控制、实时的运动控制,这些一般控制周期在500Hz以上,甚至达到1000Hz。”他说。
杨洪还指出,目前人形机器人主流的计算平台一般采用“大脑+小脑”的实现思路,就是用小脑控制运动的部分,实时运动控制和运动规划部分用大脑做上层感知。“小脑部分大家一般倾向于CPU做,要么是ARM平台,要么是基于X86的CPU架构去做;大脑这部分就会用各种各样的AI加速器,像英伟达的GPU。”
VLA模型的未来发展方向
对于具身智能的VLA模型,杨洪认为这是一个端到端的大模型,可以直接基于视觉输入,直接输出用于机器人运动控制的数据。
“这种端到端的大模型从上到下整个包在一个大模型里,整体计算更加复杂。”杨洪表示,“因为这种复杂性,不同的工作负载跑在不同的计算单元上,比如底层的运动控制和运动规划部分,目前是传统算法,跑在CPU上,上层的CNN算法、视觉感知和视觉大模型、大语言模型一般会跑在GPU上。”
而地瓜机器人算法副总裁何泳澔也有类似的观点。“VLA,我们业内默认它是一个端到端的模型。”何泳澔指出,当前大家逐步发现端到端对数据的要求非常高,所以有了分层式架构的探索,里面有名的就是快慢系统,应用得也比较多。
“从模型成本来讲,VLA主要是解决Manipulation(操控)的问题。”何泳澔指出,VLA模型存在以下不足:一是泛化能力和通用性有限,二是数据规模现在比较少,三是硬件构型没有标准,一定程度上为数据的收集带来很大困难。
对于数据采集这方面,何泳澔表示主要分两块。“第一块是真机采集,目前主要依靠摇操作,又可以分成动捕设备去采集全身相关的数据;第二块是仿真,这在具身智能时代是非常关键的,甚至比自动驾驶时代更为关键。”他说,目前面向具身智能的主流仿真器有RoboTwin2.0、RoboVerse和DISCOVERSE。
对于VLA模型的技术的未来展望,何泳澔表示:“第一还是要提到数据,当前阶段VLA一定缺少大量高质量数据;第二是模型,现在也处于非常初级的阶段;第三是硬件,它的精度和稳定性还有很大的提升空间。”
至于更具体的模型的未来可能发展方向,何泳澔认为,3D空间、记忆表达、思维链等这些方案引入,还会用更多模态的传感器去输入,再引入强化学习和世界模型。
(编辑:吴清 审核:李正豪 校对:翟军)
4001102288 欢迎批评指正
All Rights Reserved 新浪公司 版权所有
