Jim Fan自曝三个教训:重押世界模型新智元
AI终极挑战——物理图灵测试。这一年,英伟达Jim Fan领导的GEAR实验室,正用一套完整的技术栈,向这堵高墙发起总攻。
机器人「物理图灵测试」距离真正通关,还需一段时间。
英文达杰出科学家Jim Fan表示,我正全身心投入一个单一使命:为机器人解决「Physical Turing Test」(物理图灵测试)。
这是AI的下一个挑战,甚至可能是「终极挑战」。
如今,人类光靠文本字符串实现的超级智能,恐怕就已经能拿到诺贝尔奖了。
不过机器人现在,连黑猩猩级灵活度、操作能力都还没有。
「莫拉维克悖论」(Moravec's paradox)是一种必须被打破的诅咒,是一堵必须被撕碎的高墙。
没有任何东西,应该阻挡人类在这个星球上实现指数级的物理生产力,甚至有朝一日,把这种能力带到其他星球。
这一年,Jim Fan带队在英伟达创立了GEAR实验室,30人团队已初具规模。
令人震撼的是,团队的产出和影响力,远远超过它的规模。
从基础模型、世界模型、具身推理、仿真、全身控制,以及各种形态RL,几乎囊括了机器人学习的完整技术栈。
接下来,一起看看GEAR 2025年。
GR00T基础模型,一年三代
GR00T是英伟达提出的「通用机器人基础模型体系」,核心目标——
让机器人像「大模型」一样,具备跨任务、跨场景、可迁移、可学习的能力。
GR00T VLA基础模型,是最具代表性的成果之一。
它将视觉+语言+动作三种模态,统一到一个端到端的模型中,让机器人能够看懂环境、理解人类指令,生成可转型的连续动作。
这一年,英伟达对GR00T VLA进行了高频迭代:
今年3月开源了N1,紧接着6月发布了N1.5,12月又推出了N1.6。
GR00T N1
3月,GR00T N1开源首发,仅用20亿参数,即可验证VLA架构在真实机器人任务中的可行性。
它的开源,为整个机器人生态系统提供了一个前沿的基础模型。
GROOT N1可以轻松在上见任务中进行泛化,或执行需要长上下文和多种通用技能组合的多步骤任务。
比如,抓取、用一只手臂/两只手臂移动物体,以及在两个手臂之间传递物品。
GR00T N1.5
GR00T N1.5是N1的升级版,在架构、数据、建模层面进行了多重优化。
它使用了更领先的视觉语言模型——Eagle VLM,提升了语言理解和视觉感知力。
还加了FLARE损失,提高了对未来动作预测的一致性。
在仿真机器人基准任务中,GR00T N1.5成功率明显由于上一代模型。
GR00T N1.6
这个月迭代后的GR00T N1.6,集成了更强的架构和推理能力,让机器人在复杂环境中表现更智能、更稳健。
GR00T Dreams:机器人「做梦」学习
视频世界模型,是数据驱动的物理和图形引擎。
DreamGen,是一种利用AI视频世界模型,来生成合成训练数据的机器人学习框架。
它通过「数字梦境」生成大量虚拟机器人行为,再从视频中提取动作数据,用于训练机器人策略,从而实现新任务和新环境中的泛化学习。


