机器人全程自主收拾客厅:端到端390亿估值量子位
估值高达390亿美元、英伟达持续看好的Figure,刚刚放出了最新进展,引来大量网友围观。
这次,其机器人能够完全自主、端到端全流程整理客厅了。
只见它先是喷洒消毒液擦拭了茶几(毛巾撩到肩膀头子好好笑):
接着将茶几和沙发上的杂物拾起,归置到了收纳桶中:
随后又把抱枕一一摆正:
最后,它甚至拿起遥控器,精准按下了关机键,还强迫症似的把遥控器也摆摆好:
网友看完这一套行云流水的操作,纷纷让团队赶快安排现场直播演示。
还有网友认为,难的并不是让机器人移动物体,而在于让它理解你喜欢的是什么样子。
值得一提的是,背后支撑这一突破的,正是Figure团队自主研发的具身大脑Helix 02。
就在一个月前,搭载该系统的Figure 03机器人,已在家庭厨房场景中完成了从洗碗机取盘到放入橱柜的整套自主操作。
近4分钟,机器人全程没有重置、无人为干预、也没有遥操作,将行走、抓取、搬运、放置等61个操作一气呵成:
据了解,此次解锁客厅整理新任务,团队并未新增算法,也未进行特殊场景的工程适配,仅通过补充最新场景数据,便让Helix 02系统成功掌握了这一复杂日常任务。
仅补充新数据,Helix 02就能掌握全新任务
Helix 02于一个多月前发布。它是一套单神经网络系统,能够直接通过像素控制全身,支撑机器人在整间屋子内完成灵活且长周期的自主任务。
具体来说,Helix 02打造了一个统一的视觉—运动神经网络——
一个统一全身行走—操作的一体化VLA模型(A Unified Whole-Body Loco-Manipulation VLA)。
它把机载的全部传感器、视觉、触觉与本体感知直接接到所有执行器上,让机器人把“感觉、思考、行动”当成一件事来做。
实现这一点的关键,在于Figure在去年2月发布的Helix双(快慢)系统架构基础上,引入了一个新的System 0,用于全身控制。
至此,Helix 02形成了一套从像素到扭矩(torque)的紧密层级系统:
System 2:慢系统,负责高层语义推理——理解场景、理解语言,并将任务拆解为一系列行为目标。
System 1:快系统,以200 Hz的频率进行快速思考,将感知结果转化为全身关节目标。
System 0:以1kHz的频率执行,负责平衡、接触处理以及全身协调执行。
System 0是一个学习得到的全身控制器:它基于1000多小时的人类运动数据训练,并结合了仿真到现实(sim-to-real)的强化学习。
System 0用一个神经网络先验,替代了109504行手工编写的C++控制代码,负责把每一个动作执行得稳定、自然且可控。
从定位上看,System 0是一个面向人形机器人的全身控制基础模型,不为某一个具体动作服务。它学习的也不是“如何走路”或“如何伸手”,而是一种更底层的先验:人在保持平衡与稳定的前提下,通常是怎么运动的。
这也是Helix 02的物理具身核心所在——
当上层系统在规划“做什么”时,System 0负责保证“身体能不能顺利、稳定地把这件事做出来”。
与传统做法中为行走、转向、下蹲、伸手分别设计奖励函数不同,System 0直接从大规模、多样化的人类运动数据中,学习对人类动作的整体跟踪能力。
在复现这些动作的过程中,策略自然学会了如何在各种行为之间协调受力、调整姿态并维持平衡,从而覆盖通用行走—操作所需的完整能力范围。
如果说System 0解决的是“全身动作执行的时候保持稳定”,那System 1解决的就是:所有感知信息,如何变成可执行的全身动作。
Helix 02中,System 1接入了全部传感器,并直接控制整台机器人:


