一家做视频的公司,造了个机器人通用大脑量子位
一家做视频的公司,造了个机器人通用大脑。
这不是段子,是真事。
区别于传统的专用机器人大脑,这个“大脑”既具备世界模型的预测推演能力,又能输出行动指令,真正做到“知行合一”。
大脑模型名叫MotuBrain,4月中旬悄悄登顶两个国际benchmark,却无人知晓来历,让具身圈大佬们猜了三周。
刚刚,生数科技主动认领了。
没错,是那个做了Vidu、让央视动漫用AI拍西游的公司。
两个国际benchmark,一个测试“能不能看懂物理世界”,一个考验“能不能真的动手干活”。
就像一个人一边参加物理竞赛,一边考叉车实操证,4月中旬,MotuBrain两门都拿了全场最高分。
成绩单亮出来,还是实打实的登顶:
在WorldArena上,MotuBrain运动质量第一、动作平滑度第一;
在RoboTwin2.0上,它也是唯一一个在随机环境下,平均分超过95的模型。
这是什么概念?过去几年,能把其中一个测试做到极致已属不易。
同时登顶?之前还没人做到过。
但现在,生数科技告诉你:一个MotuBrain模型就够了。
视频公司跨界指挥机器人,听起来蛮有趣。
实际内里也是大有乾坤:具身智能的未来需要World Action Model(世界动作模型),而后者必须建立在视频模型对物理世界的理解之上。
一段汽车漂移的视频,模型要看懂车为什么拐弯、轮胎为什么冒烟、下一秒会往哪走。
这也不难理解视频公司闯入具身世界背后的逻辑了。
双榜吊打,这个机器人大脑有多强?
MotuBrain悄无声息地同时登顶WorldArena和RoboTwin2.0,不少具身大佬都被这个神秘模型勾起好奇心,疯狂打听到底是谁家做的。
有媒体扒出X平台上倒是有个账号,但刚注册,简介空空。
“子弹”飞了快三周,4月29日,生数科技主动跑出来认领:是我。
回头来看,线索其实早就埋下了。
2025年12月,生数科技正式开源通用基座世界模型Motus,这是其在物理世界智能方向的一次试水。
四个月时间不到,生数又进化了。
MotuBrain作为全面升级的商业模型版本,继承了Motus完整核心技术架构,并完成关键能力突破。
验证实力的第一站:WorldArena。这是业界公认的World Model能力测试场。
它不看你模型生成的视频好不好看,而是看你的模型能不能真正理解物理世界:
一个物体被推一下会朝哪个方向运动?两个物体碰撞后会发生什么?连续动作的轨迹是否平滑、是否符合真实物理规律?
EWM Score是这个榜单的综合评分,Motion Quality、Flow Score、Motion Smoothness这些维度分别考察动作的真实性、连续性和平滑度。
△数据统计截至4月21日
在这三个直接对应“动作质量”的维度上,MotuBrain全部拿下第一。
这意味着它不是靠某个单项指标刷分,而是在物理规律的理解和模拟上做到了全面领先。
RoboTwin2.0则是Action Model的硬核考场。
它给模型设置了50个不同的任务,覆盖抓取、放置、推、拉、旋转等多种操作类型,还分两种环境进行测试:
一是Clean场景,标准实验室环境,物体位置、光线、背景都是固定的;
二是Randomized场景,会引入随机的扰动,比如物体位置随机偏移,灯光颜色随机变化,甚至桌子角度都可能微调。这考验的是模型能不能泛化到没见过的条件。
MotuBrain在两个场景下,分别达到95.8和96.1,均排名第一。
它也是该榜单上唯一一个在随机环境下,平均分超过95的模型。
拆开50个具体任务看,MotuBrain九成任务超过90分,一半任务更是拿到了满分100分。这已经不是领先了,这叫断崖式领先。
两个顶级榜单,一个测“理解世界”,一个测“在世界中行动”。
想要同时取得成绩,业内默认这是“统一场”级别的难题。
因为两边的技术栈和评估方式完全不同,能把其中一个做到极致就已经是顶级水平。
但MotuBrain双榜吊打,至少在benchmark层面验证了一件事:
把预测世界和驱动行动统一在同一个模型里,这条路是走得通的。
真机演示:AI干活开始“带脑子”了
从榜单成绩看,MotuBrain拥有更接近通用机器人大脑的能力特征,它不是单项任务的“偶然强”,而是跨任务、跨场景的泛化能力都强。
一段真机演示足以直观印证。
从生数科技发布的Demo看,没有复杂的上层VLM加持,也没有预设动作脚本,却将MotuBrain的4个核心能力完整呈现,看完只剩震撼!
这段不足3分钟视频,用3台不同型号的仿人形机器人,演示了5种任务:插花、整理沙发、服务一场火锅局、调酒、整理洗漱台。
没错,MotuBrain的第一个能力就是一脑多型,它不是为某一种机器人量身定制,而是面向多机器人本体设计的统一智能底座。
它在不同形态、不同自由度、不同传感器的机器人上都能跑,而且接入的机器人种类越多,数据和场景越丰富,模型表现越好。
仅从Demo展示的这三台机器人身上,我们也能看到一个模型是怎么拿捏全场景任务的。
插花、整理沙发,别看在这几项任务里算“简单”的,恰恰是最考验长程任务建模能力的操作。
我们能看到,机器人精准抓取三支花,分别稳稳插入花瓶后,顺势拿起浇水壶,对着花枝均匀喷洒清水,整个过程非常丝滑,没有停顿。
也能看到它精准识别出散落的衣物和错位的靠枕,先将衣物逐一拾起、规整放入洗衣篮,再将歪歪扭扭的靠枕摆回原位。
全程动作轻柔且高效,没有出现衣物掉落、靠枕摆放歪斜的情况。
这就是MotuBrain一脑贯通能力的体现。
不同于传统机器人仅能完成2-3个原子动作的Demo展示,MotuBrain的一个World Action Model可完成10个原子动作级别的复杂长程任务。
无论是插花还是整理沙发,机器人面对的不再是一个个孤立动作,而是一项需要持续推进的完整任务。
如果你以为这就够了,先别急着叫好,大招还在后面。
最让人眼前一亮的,当属服务一场火锅局。机器人被要求从锅中舀取一份丸子放入碗中,同时倒一杯果汁。
这一次,它左右手同时“开工”,互不干扰、配合默契。
一个小细节是,起初勺子放在锅里,机器人用左手握住勺柄,没有立刻捞取,而是先判断了一下漏勺中有没有物体,然后重新伸向锅中舀取丸子,盛入面前的碗中。
别小瞧这个不起眼的动作,需要机器人「理解」勺子是空的,同时能自主「预测」并重新执行捞取动作。
多数机器人是“看到什么就做什么”。而在这个取丸子场景里,如果换成传统指令式机器人,它只会按脚本执行“舀→放”的动作。
一旦勺子初始是空的,它要么卡住,要么盲目重复,却不知道“为什么空”。


