VLA死了,遥操也死了量子位

5/9/2026

VLA 已死,世界动作模型当立,遥操已死,人类的传感器数据长存。

在今年的红杉 AI Ascent 2026 上,Jim Fan 只用了 20 分钟,就给机器人行业连开了两场 “葬礼”。第一场,送别过去三年几乎统治具身智能的 VLA;第二场,送别所有人以为还能再吃很多年的遥操作。

作为现任英伟达机器人方向负责人,Jim Fan 去年还在同一张讲台上讲机器人如何通过测试,今年,他已经开始讨论 —— 旧范式怎么死,新范式怎么立。

而这一新范式在 Jim 眼里,很大程度上得靠抄 LLM 的作业:预训练模拟下一个世界状态,对应 LLM 的 next token prediction;动作微调校准对真实机器人有价值的部分,对应 supervised finetuning;最后,由强化学习完成最后一里路。

过去一段时间,英伟达陆续放出 EgoScale、DreamDojo、Dream Zero 等一系列工作,几乎以一己之力定义了具身智能 2026 年的走向。而在这场名叫 Robotics: Endgame(机器人联盟,终局之战)的演讲中,则汇聚了 Jim Fan 关于

VLA、世界模型、遥操作、UMI、egocentric、仿真、Scaling Law 等机器人领域思考的最新沉淀,十分值得一看。

以下是演讲核心观点摘录:

VLA 已死,WAM 将作为新的预训练范式。

未来一到两年,遥操占比会降到几乎可以忽略不计,机器人的「主食」会变成第一视角人类视频,整个数据范式转向 Sensorized Human Data(人类传感器数据)。

人类第一视角视频成功启示了机器人领域的 scaling law,英伟达将彻底押注第一视角人类视频。

算力 = 环境 = 数据。

机器人科技树只剩三个成就待解锁,物理图灵测试(2-3 年内)、Physical API、Physical Auto Research,2040 年有望全部点亮。

以下为演讲全文。

(为方便阅读,做了适当的润色与删减)

机器人联盟:终局之战

2016 年的一个夏日,我就在我们现在坐的办公室里,有一个身穿亮皮夹克、手臂粗壮的家伙,举着一个大金属托盘。

他在上面写道:致 Elon 和 OpenAI 团队,致计算与人类的未来,我将向你们展示世界上第一台 DGX1。

那是我第一次见到黄仁勋。和任何优秀的实习生一样,我迫不及待地排队签上自己的名字。

你能找到吗?我的名字在这里,还有 Andrej Karpathy 的名字。

那时,我完全不知道自己将要经历什么,而接下来的事情,没人能比 Ilya 本人描述得更好:

如果你相信深度学习,那它也会相信你。

果然,他们对深度学习的信念感染了我们每一个人。

三步函数,六年时间,这就是我们到今天的全部历程。

第一步(2020 年),GPT-3 预训练,预测下一个词元(next token prediction)主要是学习语法规则,理解语言结构,模拟思想、代码和字符串的展开方式。

第二步(2022 年),InstructGPT(指令 GPT)通过监督微调对模拟进行校准,使其能够执行实际任务,或使用强化学习超越模仿学习。

第三步(2026 年),自动化研究(autoresearch)加速整个循环,超越人类能力。

正如 Andrej 所说,所有付出都在向最终目标冲刺,对于 LMS(语言模型系统)来说,他们正处于终局阶段。

老实说,我非常羡慕,看 Andrej 的笑容就知道他有多开心。

语言模型团队正在享受他们的巅峰时刻,他们正在极速开发 AGI(通用人工智能),并将路上的创造称之为 “神话(myhtos)”。

那为什么搞机器人的不能也享受这种乐趣呢?

作为自尊心强的科学家,我复制了他们的思路并将它重新命名 ——“大平行(Great Parallel)”。

我们不再模拟字符串,而是模拟物理世界的下一个状态(next physical world state),然后通过动作微调(action finetuning)校准模拟中对真实机器人有价值的部分,并让强化学习完成最后一里路。

大平行就是复制语言模型的成功策略,打不过他们,就加入。

接下来的章节就到了 —— 机器人联盟:终局之战(Robotics:The End Game)。

抱歉,我忍不住开个小玩笑,香蕉太有趣了,感谢哈萨比斯。

如何玩转终局?归结为两点:模型策略(models trategy)和数据策略(data strategy)。

Scroll for more