一家做视频的公司,造了个机器人通用大脑量子位

4/30/2026

一家做视频的公司,造了个机器人通用大脑。

这不是段子,是真事。

区别于传统的专用机器人大脑,这个“大脑”既具备世界模型的预测推演能力,又能输出行动指令,真正做到“知行合一”。

大脑模型名叫MotuBrain,4月中旬悄悄登顶两个国际benchmark,却无人知晓来历,让具身圈大佬们猜了三周。

刚刚,生数科技主动认领了。

没错,是那个做了Vidu、让央视动漫用AI拍西游的公司。

两个国际benchmark,一个测试“能不能看懂物理世界”,一个考验“能不能真的动手干活”。

就像一个人一边参加物理竞赛,一边考叉车实操证,4月中旬,MotuBrain两门都拿了全场最高分。

成绩单亮出来,还是实打实的登顶:

在WorldArena上,MotuBrain运动质量第一、动作平滑度第一;

在RoboTwin2.0上,它也是唯一一个在随机环境下,平均分超过95的模型。

这是什么概念?过去几年,能把其中一个测试做到极致已属不易。

同时登顶?之前还没人做到过。

但现在,生数科技告诉你:一个MotuBrain模型就够了。

视频公司跨界指挥机器人,听起来蛮有趣。

实际内里也是大有乾坤:具身智能的未来需要World Action Model(世界动作模型),而后者必须建立在视频模型对物理世界的理解之上。

一段汽车漂移的视频,模型要看懂车为什么拐弯、轮胎为什么冒烟、下一秒会往哪走。

这也不难理解视频公司闯入具身世界背后的逻辑了。

双榜吊打,这个机器人大脑有多强?

MotuBrain悄无声息地同时登顶WorldArena和RoboTwin2.0,不少具身大佬都被这个神秘模型勾起好奇心,疯狂打听到底是谁家做的。

有媒体扒出X平台上倒是有个账号,但刚注册,简介空空。

“子弹”飞了快三周,4月29日,生数科技主动跑出来认领:是我。

回头来看,线索其实早就埋下了。

2025年12月,生数科技正式开源通用基座世界模型Motus,这是其在物理世界智能方向的一次试水。

四个月时间不到,生数又进化了。

MotuBrain作为全面升级的商业模型版本,继承了Motus完整核心技术架构,并完成关键能力突破。

验证实力的第一站:WorldArena。这是业界公认的World Model能力测试场。

它不看你模型生成的视频好不好看,而是看你的模型能不能真正理解物理世界:

一个物体被推一下会朝哪个方向运动?两个物体碰撞后会发生什么?连续动作的轨迹是否平滑、是否符合真实物理规律?

EWM Score是这个榜单的综合评分,Motion Quality、Flow Score、Motion Smoothness这些维度分别考察动作的真实性、连续性和平滑度。

△数据统计截至4月21日

在这三个直接对应“动作质量”的维度上,MotuBrain全部拿下第一。

这意味着它不是靠某个单项指标刷分,而是在物理规律的理解和模拟上做到了全面领先。

RoboTwin2.0则是Action Model的硬核考场。

它给模型设置了50个不同的任务,覆盖抓取、放置、推、拉、旋转等多种操作类型,还分两种环境进行测试:

一是Clean场景,标准实验室环境,物体位置、光线、背景都是固定的;

二是Randomized场景,会引入随机的扰动,比如物体位置随机偏移,灯光颜色随机变化,甚至桌子角度都可能微调。这考验的是模型能不能泛化到没见过的条件。

MotuBrain在两个场景下,分别达到95.8和96.1,均排名第一。

它也是该榜单上唯一一个在随机环境下,平均分超过95的模型。

拆开50个具体任务看,MotuBrain九成任务超过90分,一半任务更是拿到了满分100分。这已经不是领先了,这叫断崖式领先。

两个顶级榜单,一个测“理解世界”,一个测“在世界中行动”。

想要同时取得成绩,业内默认这是“统一场”级别的难题。

因为两边的技术栈和评估方式完全不同,能把其中一个做到极致就已经是顶级水平。

但MotuBrain双榜吊打,至少在benchmark层面验证了一件事:

把预测世界和驱动行动统一在同一个模型里,这条路是走得通的。

真机演示:AI干活开始“带脑子”了

从榜单成绩看,MotuBrain拥有更接近通用机器人大脑的能力特征,它不是单项任务的“偶然强”,而是跨任务、跨场景的泛化能力都强。

一段真机演示足以直观印证。

从生数科技发布的Demo看,没有复杂的上层VLM加持,也没有预设动作脚本,却将MotuBrain的4个核心能力完整呈现,看完只剩震撼!

这段不足3分钟视频,用3台不同型号的仿人形机器人,演示了5种任务:插花、整理沙发、服务一场火锅局、调酒、整理洗漱台。

没错,MotuBrain的第一个能力就是一脑多型,它不是为某一种机器人量身定制,而是面向多机器人本体设计的统一智能底座。

它在不同形态、不同自由度、不同传感器的机器人上都能跑,而且接入的机器人种类越多,数据和场景越丰富,模型表现越好。

仅从Demo展示的这三台机器人身上,我们也能看到一个模型是怎么拿捏全场景任务的。

插花、整理沙发,别看在这几项任务里算“简单”的,恰恰是最考验长程任务建模能力的操作。

我们能看到,机器人精准抓取三支花,分别稳稳插入花瓶后,顺势拿起浇水壶,对着花枝均匀喷洒清水,整个过程非常丝滑,没有停顿。

也能看到它精准识别出散落的衣物和错位的靠枕,先将衣物逐一拾起、规整放入洗衣篮,再将歪歪扭扭的靠枕摆回原位。

全程动作轻柔且高效,没有出现衣物掉落、靠枕摆放歪斜的情况。

这就是MotuBrain一脑贯通能力的体现。

不同于传统机器人仅能完成2-3个原子动作的Demo展示,MotuBrain的一个World Action Model可完成10个原子动作级别的复杂长程任务。

无论是插花还是整理沙发,机器人面对的不再是一个个孤立动作,而是一项需要持续推进的完整任务。

如果你以为这就够了,先别急着叫好,大招还在后面。

最让人眼前一亮的,当属服务一场火锅局。机器人被要求从锅中舀取一份丸子放入碗中,同时倒一杯果汁。

这一次,它左右手同时“开工”,互不干扰、配合默契。

一个小细节是,起初勺子放在锅里,机器人用左手握住勺柄,没有立刻捞取,而是先判断了一下漏勺中有没有物体,然后重新伸向锅中舀取丸子,盛入面前的碗中。

别小瞧这个不起眼的动作,需要机器人「理解」勺子是空的,同时能自主「预测」并重新执行捞取动作。

多数机器人是“看到什么就做什么”。而在这个取丸子场景里,如果换成传统指令式机器人,它只会按脚本执行“舀→放”的动作。

一旦勺子初始是空的,它要么卡住,要么盲目重复,却不知道“为什么空”。

Scroll for more