清华开源世界模型:性能碾压硅谷标杆量子位
国产开源具身世界模型,直接秒了Pi-0.5,而且还是几位清华硕、博士研究生领衔推出的。
这就是由生数科技联合清华大学,正式开源的大一统世界模型——Motus。
项目主要负责人,是来自清华大学计算机系朱军教授TSAIL实验室的二年级硕士生毕弘喆和三年级博士生谭恒楷。
之所以说是大一统,是因为Motus在架构上,直接把VLA(视觉-语言-动作)、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式,首次实现了“看-想-动”的完美闭环。
而且在50项通用任务的测试中,Motus的绝对成功率比国际顶尖的Pi-0.5提升了35%以上,最高提升幅度甚至达到了40%!
在Motus的加持之下,现在的机器人已经具备了预测未来的能力。
瞧,Cloudflare人机验证任务,机器人可以轻松拿捏:
不难看出,面对形状不规则的曲面鼠标,Motus控制的机械臂不仅能精准识别,还能根据鼠标与屏幕点击框的距离,平稳连续地移动,最后极度精准地完成点击。
再如长程多步推理的孔明棋任务,Motus同样展现出了严密的逻辑闭环,一步步解开棋局:
再来看一个堪称是机器人噩梦的任务——叠衣服:
衣服这种柔性物体的形变是过程中持续不断发生的,但在Motus手下,整个过程丝滑顺畅,就像有了人类的触觉和预判一样。
可以说,Motus的出现,率先在具身智能领域发现了Scaling Law,直接复刻了当年GPT-2被定义为“无监督多任务学习者”的奇迹。
很多CTO、创始人们看完之后直呼“妙哉”:
这是互联网视频学习与现实世界机器人之间的巧妙桥梁。
Motus的Latent Action范式太妙了。统一的VLA架构消除了机器人学中的模型碎片化,这才是真正的突破。
将感知、预测和行动统一在智能体内部确实是实质性的进展。
包括此前大火的英伟达Cosmos policy、DreamZero这些工作,被认为是颠覆了VLA的范式,转向WA(World Action Models)或VA(Vision Action)范式;但其核心思想与Motus相近,大同小异。
目前,Motus的代码、模型权重已全部开源。
那么接下来,我们就来扒一扒这个大一统世界模型是如何实现的。
一个架构统一了五种范式
在过去,具身智能领域可以说是散装的。
因为像VLA、世界模型、视频生成、逆动力学、视频-动作联合预测等模型,很难有机地凑成一个整体。
而Motus最大的亮点,在一个框架内把这五种范式全包圆了。
大一统背后的技术,便是Mixture-of-Transformer(MoT)架构,配合Tri-model Joint Attention(三模态联合注意力)机制。
简单来说,通过这种方式,Motus相当于把三个专家攒到了一起:
理解专家(大脑):基于Qwen-VL,负责看懂环境和指令;
视频生成专家(想象力):基于Wan 2.2,负责推演未来画面;
动作专家(小脑):负责具体的运动控制。
通过Tri-model Joint Attention,这三位专家可以在同一个注意力层里实时交换信息。
这就赋予了机器人一种很像人类的能力:不仅能看见(感知),还能在脑海里想象动作发生后的未来画面(预测),从而反过来倒推现在该做什么动作(决策)。
这正是我们刚才提到的“看—想—动”闭环。
但要训练这样一个全能模型,光在模型框架层面下功夫还是不够的——数据,也是一个老大难的问题。
因为机器人真机数据太贵、太少,而互联网上虽然有海量的视频,却只有画面,没有动作标签(Action Label)。
为了解决这个问题,Motus采取的策略便是潜动作(Latent Action)。
研究团队利用光流技术(Optical Flow),捕捉视频里像素级的运动轨迹,然后提出了一种Delta Action机制,将这些像素的变化翻译成机器人的动作趋势。
这个思路可以说是比较巧妙,就像是让机器人看武侠片学功夫。
虽然没有人手把手教(没有真机数据标签),但机器人通过观察视频里高手的动作轨迹(光流),看多了自然就懂了招式和发力方向(潜动作)。
由此,上至昂贵的真机数据,下至浩如烟海的互联网视频、人类第一视角视频(Egocentric Video),Motus全都能吃进去,从中提取通用的物理交互先验。
除此之外,基于数据金字塔和潜动作,Motus还构建了一套三阶段训练流程,逐步将通用的物理动力学常识“蒸馏”为精确的机器人控制能力:
视频生成预训练。利用多机器人轨迹和人类操作视频来微调视频生成专家,使其能根据条件帧和语言指令生成合理的机器人操作视频。
潜动作预训练。在冻结VLM的情况下,用视频、语言和潜动作同时预训练三个专家,将通用的运动先验充分地注入Motus中。
特定本体微调。利用目标机器人的真机数据对Motus进行整体微调,将模型适应到特定场景下的下游任务,例如RoboTwin仿真和真机机械臂抓取。
Scaling Law在物理世界跑通了


