Jim Fan自曝三个教训：重押世界模型新智元

AI终极挑战——物理图灵测试。这一年，英伟达Jim Fan领导的GEAR实验室，正用一套完整的技术栈，向这堵高墙发起总攻。

机器人「物理图灵测试」距离真正通关，还需一段时间。

英文达杰出科学家Jim Fan表示，我正全身心投入一个单一使命：为机器人解决「Physical Turing Test」（物理图灵测试）。

这是AI的下一个挑战，甚至可能是「终极挑战」。

如今，人类光靠文本字符串实现的超级智能，恐怕就已经能拿到诺贝尔奖了。

不过机器人现在，连黑猩猩级灵活度、操作能力都还没有。

「莫拉维克悖论」（Moravec's paradox）是一种必须被打破的诅咒，是一堵必须被撕碎的高墙。

没有任何东西，应该阻挡人类在这个星球上实现指数级的物理生产力，甚至有朝一日，把这种能力带到其他星球。

这一年，Jim Fan带队在英伟达创立了GEAR实验室，30人团队已初具规模。

令人震撼的是，团队的产出和影响力，远远超过它的规模。

从基础模型、世界模型、具身推理、仿真、全身控制，以及各种形态RL，几乎囊括了机器人学习的完整技术栈。

接下来，一起看看GEAR 2025年。

GR00T基础模型，一年三代

GR00T是英伟达提出的「通用机器人基础模型体系」，核心目标——

让机器人像「大模型」一样，具备跨任务、跨场景、可迁移、可学习的能力。

GR00T VLA基础模型，是最具代表性的成果之一。

它将视觉+语言+动作三种模态，统一到一个端到端的模型中，让机器人能够看懂环境、理解人类指令，生成可转型的连续动作。

这一年，英伟达对GR00T VLA进行了高频迭代：

今年3月开源了N1，紧接着6月发布了N1.5，12月又推出了N1.6。

GR00T N1

3月，GR00T N1开源首发，仅用20亿参数，即可验证VLA架构在真实机器人任务中的可行性。

它的开源，为整个机器人生态系统提供了一个前沿的基础模型。

GROOT N1可以轻松在上见任务中进行泛化，或执行需要长上下文和多种通用技能组合的多步骤任务。

比如，抓取、用一只手臂/两只手臂移动物体，以及在两个手臂之间传递物品。

GR00T N1.5

GR00T N1.5是N1的升级版，在架构、数据、建模层面进行了多重优化。

它使用了更领先的视觉语言模型——Eagle VLM，提升了语言理解和视觉感知力。

还加了FLARE损失，提高了对未来动作预测的一致性。

在仿真机器人基准任务中，GR00T N1.5成功率明显由于上一代模型。

GR00T N1.6

这个月迭代后的GR00T N1.6，集成了更强的架构和推理能力，让机器人在复杂环境中表现更智能、更稳健。

GR00T Dreams：机器人「做梦」学习

视频世界模型，是数据驱动的物理和图形引擎。

DreamGen，是一种利用AI视频世界模型，来生成合成训练数据的机器人学习框架。

它通过「数字梦境」生成大量虚拟机器人行为，再从视频中提取动作数据，用于训练机器人策略，从而实现新任务和新环境中的泛化学习。