刚刚,国产AI双冠王新智元

4/29/2026

世界模型黑马横空出世!就在刚刚,生数科技的MotuBrain零宣发登顶双榜,直接打通「看懂世界+执行行动」,而且不同的是,他们把World Action Model适配多个头部机器人本体,完成多个长程任务,这是国产AI的硬核突围!从此,具身智能彻底迈入新纪元。

就在刚刚,世界模型圈又闯出一匹黑马!

悄无声息地,它就拿下了两个世界第一。

在WorldArena中,总体EWM Score达到63.77,排名第一(截至本月中旬左右)。

在RoboTwin2.0的Clean和Randomized两个场景下,它分别拿下了95.8和96.1,同样排名第一。

而且,它是百分百的零宣发。

这些荣誉,属于同一个模型——MotuBrain。

它出现得极其反常:没有Logo、没有发布会、没有融资稿,连X账号都是新注册的。

就这么一声不响地,同时爬上了两个国际权威榜单的顶端。

更离谱的是,这两个榜单彼此根本不挨着——一个考「你能不能真正看懂世界」,一个考「你能不能在世界里稳定干活」。

过去几年,行业把它们叫作「两个极点」:做世界模型的看得懂、动不了;做VLA的能动手、想不远。

同时拿下两个第一,业内前所未有。

具身圈猜测刷屏:这是阿里「快乐生蚝」翻版?字节憋的大招?或者华为的暗手?还是李飞飞World Labs的中国分舵?

直到谜底揭开,所有人都没想到——国产生成式AI公司生数科技。

而且他们没有止步与此,现在已经把world action model适配多个头部机器人本体,应对多种任务、建模多个长程任务。

这是工业级的demo,和其他的刷榜模型绝对不一样。

神秘面纱揭开

国产AI领先硅谷巨头

事情得从去年12月说起。

那时候,生数科技联合清华大学开源了一款叫Motus的大一统世界模型。

论文链接:https://arxiv.org/abs/2512.13030

项目主页:https://motus-robotics.github.io/motus

Motubrain官网:https://www.shengshu.com/zh/motubrain

才刚刚发布,Motus就已经在圈内小小震动了一下。

因为它在架构上把五种本来彼此割裂的具身智能范式,拧成了一个「看-想-动」的闭环:

VLA(视觉-语言-动作)、世界模型、视频生成、逆动力学、视频-动作联合预测。

这种统一世界-动作建模,通过一个模型统一建模视频「video」与动作「action」,使之前彼此割裂的5种方法都成为同一建模框架下的不同推理模式。

与以往方法不同,Motus联合建模「视频」和「动作」,学到的不再是机械反应,而是任务目标、环境变化、以及动作会带来什么后果这三者之间的深层世界知识。这让它更能适应新环境和新任务。

Motus引入「潜动作」机制,能从无标签的互联网视频、人类操作视频中提取通用的「运动规律」。

潜动作变分自编码器 (Latent Action VAE)。 这是一种基于光流的表征方式,通过变分自编码器架构将视觉动力学(visual dynamics)与控制信号相衔接

这让它可以利用近乎无限的海量数据来预训练,极大丰富了先验知识。

具身数据金字塔。 展示了从互联网数据(第一层)到目标机器人演示数据(第六层)的六级数据层级结构,其任务相关性和数据质量随层级逐级提升。

基于「专家混合」,Motus引入了混合Transformer (Mixture-of-Transformer, MoT) 架构,巧妙融合了视频生成、语义理解、动作生成三个已有的高性能基座模型。

这相当于让模型同时拥有了「想象力」、「理解力」和「执行力」。

Motus表现出了正向的规模效应,即学习的任务越多、数据越丰富,模型掌握的可迁移世界知识就越多,在新任务上的平均成功率反而越高。

这是它学到了通用规律而非死记硬背的有力证据。

Scroll for more