跨维智能DexWorldModel斩获榜首量子位

4/20/2026

VLA与世界模型:一次被行业自己推着走的范式迁移

今年4月,具身智能领域发生了一件看起来不大、但意味深长的事。

Generalist AI——也就是PaLM-E、RT-2背后那批人创办的明星公司——发布了GEN-1,并在三个核心维度上做出了跨越式提升:

成功率超过99%,速度提升2–3倍,数据量和微调成本只需上一代的1/10。

几乎就在同一周,其CEO Pete Florence发表了一篇博客文章,明确表示:他们不再把自己的模型归类为VLA。

这件事之所以值得被认真对待,是因为Pete Florence本人就是VLA概念的共同开创者之一。

Florence在文中把理由说得很直白:

“世界模型”正在迎来属于它的高光时刻;而在2023到2025年间,风头正劲的是VLA。

追逐热点和潮流,本就是学术研究的常态。但如果你的目标是物理AGI,那么目标远比你手里“工具的标签”更重要。

更关键的是,他点破了一个行业长期回避的事实:把“视觉-语言”训练引入机器人,很大程度上是因为机器人自己的交互数据还不够多,所以VLM只是一根过渡期的“拐杖”。

一旦物理交互数据规模起来,这根拐杖就该被拿掉,而不是继续围着它做架构设计。

我们需要围绕一个更朴素的问题做系统级回答:

当超越VLA之后,下一代具身模型应该长什么样,才能真正支撑机器人在真实世界中持续、稳定、可扩展地跑起来?

这是一个很重要的立场区分,也是所有从业者需要以“返璞归真”的思维方式,重新思考的问题。

当下,在具身智能领域,VLA和世界模型都是非常主流的技术路线。

今天不少被冠以“世界模型”之名的工作,其实属于视频生成范式——在RGB像素或低层视觉隐空间里拟合未来帧,本质上还是在回答“下一帧是否符合真实视频的视觉逻辑”,而不是“世界进入了什么对行动有意义的状态”。

这类模型在视频benchmarks上的指标也许很好看,但一旦接入真实机器人任务,立刻暴露出四类系统性瓶颈:

表示瓶颈:在像素空间建模,模型被迫把容量消耗在纹理、光照、背景这些与任务弱相关的信息上;

记忆瓶颈:因果自回归 + KV Cache的组合,空间复杂度随轨迹长度线性增长,长时任务越跑越重,难以稳定落地;

推理瓶颈:感知→推理→执行严格串行,部署端延迟高,闭环频率就天然上不去,机器人“走走停停”;

数据瓶颈:模型依赖固定的离线数据集训练,缺少持续、新鲜、物理可信的信息流,难以飞速进化。

这四件事如果不被一起解决,“世界模型”这个词在机器人的世界里很难落地。

评价标准的重新审视:很多世界模型榜单,和机器人任务其实没多大关系

范式切换之后,下一个更隐蔽、但同样关键的问题是:

世界模型到底该怎么评价?

今天被频繁引用的,大多是面向视频生成的那一类榜单——考察未来帧的画质、FVD、时序一致性、文本-视频对齐。

这些指标对“生成式视频模型”是合理的,但放到具身语境下,评价对象就开始和目标错位。

这出自同行论文的实证结论。2026年2月,清华等机构联合发布的WorldArena基准,在14个代表性世界模型(涵盖Veo 3.1、Wan 2.6、CogVideoX、Cosmos-Predict、Genie Envisioner、CtrlWorld等)上,系统测量了视觉质量与下游具身任务能力的关系,给出的结论相当直接:

High visual quality does not necessarily translate into strong embodied task capability.(高视觉质量并不一定能转化为强大的具身任务能力。)

支撑这一结论的,是一组很硬的数字。

论文构造的综合视觉质量指标EWMScore,与人类主观打分的相关性高达Pearson r =0.825,但与作为动作规划器的任务成功率之间,相关性只有r =0.360——典型的弱相关区间。

更耐人寻味的是,这一论文还观察到:视觉和美学分最高的Veo 3.1,在具身任务指标上反而“improvements are limited”(提升有限),并伴随明显的semantic drift(语义偏移)。

画得最像真的,恰恰最不懂交互。

这件事的本质,是评价对象错位了:

生成式世界模型问的是:“未来画面是否看着像一个合理的视频?”

具身世界模型更应该追问的是:“这个未来,能不能被机器人执行,并最终把任务做成?”

这两件事之间的差距,比表面上看起来大得多。

一个模型完全可能生成极其逼真的未来视频,却在真实机器人上因为几何不准、动力学不稳、时序漂移而直接失败;反过来,一个视觉上并不惊艳的模型,却可能在真机上拿到更高的成功率。

所以跨维智能的立场很明确:

具身世界模型的唯一合理指标,是下游机器人任务的成功率。

在这个意义上,RoboTwin这类以机器人任务成功率为核心评价维度的榜单,才是具身世界模型真正应该被打分的地方。

它考察的不是“你生成得好不好看”,而是“你能不能让机器人在一系列多样化任务中稳定跑通”。

DexWorldModel的所有设计选择、所有评估方式,都是围绕这一点展开的。

DexWorldModel的技术栈:四层协同,把世界模型推向真机可闭环

DexWorldModel在系统上做的事情,可以简化成一条总线:

因果潜空间世界模型(CLWM)+ 双状态测试时记忆(Dual-State TTT Memory)+ 推测式异步推理(SAI)+ 具身数据链与在线数据流(EmbodiChain / ODS)

这四块不是四个独立模块,而是围绕“真机闭环部署”这一条主线,从表示、记忆、推理到数据供给做出的协同升级,分别回应前面提到的四类瓶颈。

01表示层:为什么“像素重建”会成为世界模型泛化的隐性敌人

很多世界模型会直接在像素空间、或偏低层的视觉隐空间里预测未来。

这种路径在研究上是成立的,但在真实机器人任务里,模型会被大量与任务无关的纹理、光照、背景细节拖走容量。

对机器人来说,真正关键的不是下一帧画面看起来是否逼真,而是世界是否进入了一个可操作、可交互、可执行下一步动作的状态。

CLWM把生成目标切换到语义特征:

这一步从根本上改变了世界模型回答的问题:

不再是“下一帧好不好看”,而是“世界是否进入了一个对下一步行动有意义的状态”。

它也让模型更容易跨越背景、材质与视觉噪声带来的干扰,是后续鲁棒泛化与sim-to-real的基础之一(当模型用大量仿真数据训练)。

02记忆层:长时任务不再被不断膨胀的历史缓存拖住

传统自回归世界模型(如DreamZero等)依赖KV Cache记录历史,空间复杂度O(T),轨迹一长,显存占用就线性膨胀。

短回合评测中这一点不突出;但一到连续、多步、长时的真实操作,它很快就会变成系统瓶颈。

CLWM用TTT-MLP把历史观测和历史动作压缩进记忆模块权重里,并进一步设计了双状态机制:

Long-Term Memory:只用真实观测和已执行动作更新,锚定真实因果历史;

Working Memory:从Long-Term Memory fork出来,在当前预测步骤里作为临时上下文;

这套机制最重要的不是“换个缓存实现”,而是把真实历史与推测历史严格隔离——避免speculative future反向污染真实因果链,同时把长时序的内存占用压到常数量级O(1)。

部署含义也很直接:系统在持续运行中不再越积越重,长时操作因此才有机会真正走向稳定部署。

Scroll for more