南大终结「肉身排雷」:别再炼丹新智元

3/28/2026

具身智能正站在一条分界线前:VLA的下一步,靠模仿学习已经越来越难撑起来了。一篇南大重磅论文再次瞄准「世界模型」,让机器人先在脑中练会再上手,少在真机上「交学费」。

刚刚出炉的一篇论文《Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models》,把目光重新投向了「世界模型」这条老问题、新战场。

作者给出的判断很直接:机器人并不缺一个更会模仿的模型,缺的是一个能让它安全、高效「先想一遍再动手」的训练机制。

这项工作不只是提出了一个新方法,更切中了当前具身智能里一条越来越清晰的分界线:

VLA下一步的能力增长,还能继续主要靠模仿学习撑起来吗?还是说,机器人终究要拥有自己的「想象空间」?

机器人训练,正卡在「现实世界太贵」上

过去两年,VLA的进展让人很容易产生一种乐观印象:

只要把视觉、语言和动作放进同一个大模型里,再给它足够多的数据,机器人似乎就能越来越像一个「通用体」。

这条路线确实跑出了不少结果。

从OpenVLA到π0系列,VLA模型已经表现出相当强的跨任务泛化能力。

它们能看懂场景,理解人类语言指令,输出连续动作,在一些任务上已经不像传统机器人那样依赖重工程规则。

支撑这波进展的核心训练范式,仍然是模仿学习。

简单说,就是让机器人看大量人类示范,学习「这个画面下该怎么做」。

这件事很符合直觉,也很符合工程现实:

训练过程稳定;

不需要机器人自己乱试;

只要示范足够多,模型能力就能持续堆高。

问题也越来越具体。模仿学习擅长的是「照着做」,不擅长的是「自己摸索更优解」。

现实任务一旦变长、变复杂,或者加入视角变化、环境扰动、失败恢复,单靠示范会慢慢碰到天花板。

示范数据本身也越来越贵:一个人类操作员、一个真实机器人平台、一段高质量轨迹,背后都是成本。

这也是为什么强化学习又重新回到VLA的讨论中心。

强化学习真正吸引人的地方,从来都不是「会试错」这么简单,而是它让系统有机会学到示范之外的策略改进。

很多任务里,专家数据只告诉模型「怎么完成」,强化学习能进一步回答「怎样完成得更稳、更快、更泛化」。

难点出在物理世界。

让机器人做强化学习,意味着它要一遍遍在真实环境里尝试。

插线缆、叠毛巾、擦白板、抓杯子,听上去只是几个动作,训练起来却是巨大的现实开销:

采样速度慢;

机器磨损高;

错误动作存在安全风险;

长程任务常常要靠大量试错才能学到有效信号。

这也是眼下VLA强化学习最尴尬的地方:

大家都知道强化学习能带来增益,也都知道真机试错很难规模化。

世界模型,为什么又成了关键变量

这个背景下,世界模型的意义重新凸显出来。

「世界模型」这个词并不新。

在强化学习领域,它一直对应着一个非常朴素、也非常强大的想法:让智能体先学会预测环境如何变化,再在这个预测出来的环境里练策略。

放到机器人里,世界模型可以理解成一个「脑内模拟器」:

当前看到什么;

执行动作之后会发生什么;

未来画面会怎么变;

任务会不会成功;

奖励会不会出现。

这套能力一旦可靠,机器人就不必把每一次试错都放在真实世界里完成。

它可以先在「想象出来的环境」里训练,再把学到的能力迁移回真实机器人。

这个方向之所以重要,是因为它同时指向了具身智能的三件大事:

成本:真实数据永远昂贵。能在模型内部生成训练数据,意味着同样的硬件预算可以换来更多策略更新。

安全:机器人在现实里做高风险探索并不理想。尤其涉及接触、精密操作和移动平台时,代价不是一两次失败那么简单。

泛化:模仿学习偏向「复现已有行为」,世界模型强化学习有机会让机器人学会「如果这样做会怎样」,这类因果式的能力,往往更接近真正的泛化基础。

也正因为此,世界模型长期被视为通向更强具身智能的一条主线。

VLA与世界模型

这场争论本质上在争什么

现在的机器人研究里,有一条潜在分歧越来越明显。

一条路继续押注纯VLA/模仿学习。

这条路线的核心信念是,随着模型规模、数据规模、预训练能力继续上涨,机器人对「视觉-语言-动作」的统一建模会越来越强。很多难题最终可以交给更大的模型和更多的真实数据去解决。

另一条路则在强调世界模型。

它不否认大模型的价值,反而把它当成前提。只是在此基础上,它认为机器人最终不能只会「看到输入就输出动作」,还要具备某种内部模拟能力。换句话说,机器人不能只学会答案,还要学会预判后果。

这场分歧很容易被理解成「谁对谁错」,其实更接近一个发展阶段问题。

纯VLA的成功已经证明:大模型能够显著提升机器人理解世界、响应指令和跨任务迁移的能力。

世界模型路线反复遇到的问题也是真实存在的:一旦模型预测不准,后面的强化学习就会被错误信息带偏,长程推演里误差越滚越大,最后在论文图里看着热闹,在真实机器人上并不稳定。

这篇论文真正重要的地方,恰恰就在这里。

它没有试图否认VLA的价值,也没有把世界模型神化成万能钥匙。

作者做的是另一件更务实的事:把世界模型真正嵌进VLA的后训练流程里,并把最容易失控的几个环节逐个处理掉。

世界模型放到VLA上,难点比想象中大得多

很多人第一次听到「世界模型」,直觉会把它理解成视频生成:给定当前画面,预测下一段画面。

对机器人来说,这远远不够。

像素预测不是重点,关键是「能不能拿来控制」

VLA直接吃图像输入,意味着世界模型必须在像素层面生成未来观测。

这看上去像生成问题,本质上却是控制问题。

插头有没有对准插孔,机械臂末端偏了几毫米,毛巾是不是被正确翻折,腕部相机里看到的接触状态是不是和头部相机一致,这些都不是「画得像」就能过关的事。

它要画得对,而且是对控制有用的那种对。

多视角一致性是机器人特有的硬约束

机器人常常同时依赖多个摄像头。

头部相机看全局布局,腕部相机看近距离细节。

精细操作里,后者几乎不可或缺。问题也因此变得棘手:如果未来的不同视角是分别生成的,它们很容易各自合理、彼此矛盾。

头部视角说机械臂已经靠近物体,腕部视角还停留在远处;头部视角里毛巾被抓起,腕部视角里接触关系却对不上。

这类不一致,对机器人策略来说比模糊还危险。

模糊意味着信息少,矛盾意味着信息错。

长程推演的误差,会在稀疏奖励下被放大

世界模型最经典的问题是误差累积。

第一步偏一点,第二步在「偏了一点的世界」里继续预测,第三步偏差再放大。长程任务做下来,生成轨迹和真实环境之间很快就会分道扬镳。

VLA场景下这件事更难,因为很多机器人任务都是稀疏奖励。

毛巾叠好了没有,插头插进去了没有,白板擦干净了没有,常常只有成败两种判断。

这意味着很小的视觉偏差,就可能把一个状态从「成功」翻成「失败」,或者反过来。强化学习如果用的是这种被翻转的奖励,后果可想而知。

这也是为什么过去一些世界模型方法虽然思路很漂亮,真正落到机器人上时,效果常常局限在短任务或比较受控的环境里。

不把参数做更大

而把世界模型做得更能用

论文提出的方法叫VLA-MBPO。从名字就能看出作者的目标很明确:不是做一个概念性的世界模型,而是做一个能实用的、适合VLA强化学习后训练的世界模型框架。

整套方法可以放在论文图1中理解。

图1. VLA-MBPO架构

它有三个关键设计,分别对应前面提到的三类现实难点。

统一多模态世界模型:预测未来观测和奖励

过去一些方法会把「未来画面预测」和「奖励判断」分成两套系统:一个模型负责动力学,另一个模型负责根据图像判断任务是否完成。

这种设计并非不能用,只是系统复杂、部署开销大,速度也未必理想。

VLA-MBPO采用的是一条更干净的路线:直接用统一多模态模型(Unified Multimodal Model, UMM)作为世界模型骨干,把视觉、文本和动作统一到一个模型里,让它一起完成未来观测预测和奖励预测。

作者在实现中使用了Bagel作为基础模型,并把连续动作离散成token序列输入模型。这样一来,世界模型接收的信息就不再只有图像和文本,还能直接读入机器人动作切块。

这件事很实际。

一方面,UMM能直接利用预训练多模态模型已有的视觉语义能力。机器人场景的数据规模远远比不上互联网图文数据,能借到的先验越多,越容易在少量离线数据下泛化。另一方面,统一建模省掉了「两套大模型并排跑」的工程负担。模型不需要先用视频世界模型滚出一段未来,再单独把图像丢进另一个视觉语言模型里判定奖励。

论文还特别强调了一个效率优势。

传统视频世界模型往往要生成所有中间帧,作者的UMM-World可以跳过中间帧,直接预测动作切块之后的未来状态。图2给出的就是这一路线和视频模型思路的直观对比。

图2. UMM可跳过中间帧,直接预测动作切块之后的未来状态

Scroll for more