杨立昆最新对话：AI能耗最大杀手找到了数字开物

近日，Advanced Machine Intelligence 创始人杨立昆与计算机视觉资深专家 Marc Pollefeys 在达沃斯论坛期间展开了一场关于具身智能的深度对话。本次对话系统探讨了具身智能的定义与边界、自动驾驶 L5 级的技术死角、视觉语言动作模型（VLA）的脆弱性、世界模型的层级架构、JEPA 架构对生成式 AI 的范式颠覆、自监督学习与强化学习的权重分配，以及受生物学启示的低功耗硬件未来。

杨立昆指出，尽管大语言模型在智力测试上表现卓越，但在家务机器人和 L5 级自动驾驶等现实任务中却迟迟未能突破。他认为这种脱节源于语言符号与高维、连续、多噪物理世界之间的本质区别。他尖锐地指出，目前的机器人行业存在一个"公开秘密"：展示视频中的炫酷动作多为预先计算，现有的 VLA 模型本质上是"脚本化的自动化"，缺乏应对从未见过的复杂情境所需的"常识"。

针对技术路线，杨立昆指出，"生成式 AI"是理解物理世界的错误路径，他主张彻底放弃在像素层级进行预测的生成式架构（如扩散模型），认为这种试图重现每一个细节的努力是徒劳的且无法理解世界结构。他提出，智能的本质在于"忽略无关且不可预测的细节"并推崇非生成式的联合嵌入预测架构（JEPA）。他认为，真正的人工智能必须在抽象表示空间进行预测，通过构建"分层世界模型"来实现类似人类从"预订机票"到"肌肉控制"的跨层级规划能力。

杨立昆还深入拆解了他的"蛋糕类比"。他指出，强化学习只是智能蛋糕上的"樱桃"，其样本效率极低，不足以支撑复杂系统的构建；而自监督学习才是蛋糕的主体。他认为，一个 17 岁少年只需 20 小时学会开车，正是因为其具备成熟的世界模型，而当前依赖海量模仿学习或强化学习的 AI 路线正处于一种"路径依赖"中。

杨立昆指出，人类大脑 20 瓦的超低功耗源于神经元原位计算，而当前 AI 的能耗瓶颈在于数据频繁搬运。他预测，未来的 AI 将从"自回归 Token 预测"彻底转向"基于规划"的非生成式范式。他表示，自己新创办的公司正致力于将 JEPA 转化为具备常识、能够预测行为后果的 AI Agent，并认为这将引发下一场超越 LLM 时代的 AI 革命。

01 为什么我们还没实现 L5 级自动驾驶？

具身智能被定义为能够感知、理解、推理并在现实世界采取行动的 AI，涵盖了从自动驾驶到人形机器人的一切。Marc 提出，虽然 L4 级自动驾驶（如 Waymo）在特定范围内已经实现，但 L5 级依然遥不可及。他询问 Yann，在当前的 AI 繁荣下，我们真实的技术边界在哪里？那些令人惊叹的机器人展示背后的"公开秘密"又是什么？

Yann LeCun: 其实我们还没走多远。首先，具身智能不应仅限于机器人，它也包括非具身的物理 AI，即面向现实世界的 AI。现实中有很多系统需要被理解、预测和控制，但它们并不一定拥有实体，比如制造流程、涡轮喷气发动机或任何工业过程。本质上，只要数据是以高维、连续、带噪声的信号序列形式呈现，它就属于这个范畴。视频是最典型的例子，机器人上的本体感受传感器也是，还有很多此类应用与机器人学并无直接关联。

更准确的定义是：任何与语言无关的领域。现实世界与语言有着本质区别。大语言模型之所以如此成功，是因为语言相对简单。我们的系统可以通过律师资格考试，但我并不是说它们像律师一样聪明，既然在座的都是科学家和工程师，我可以直接这么说。系统能考试能解方程、能写代码，但它们无法真正处理现实世界。这就是为什么我们还没有家务机器人，也还没有实现 L5 级自动驾驶，至少在消费端还没有。人形机器人也是如此。

（关于自动驾驶 L5 的鸿沟）还没到 L5。而且即使是 L4，我们也采取了很多取巧的手段。他们（Waymo）确实实现了，但是。他们依赖完整的地图，需要对运营的时间和空间进行严格控制。确实实现，这种方式虽然可行，但成本极高。为什么一个 17 岁的少年只需 10 到 20 小时的练习就能学会开车？我们拥有数百万小时的训练数据，理论上可以通过模仿学习来训练机器模仿人类驾驶，但现实中行不通，你无法通过这种方式获得可靠的驾驶系统。

这也引出了关于机器人学的另一个观点。现在有很多公司在研发人形机器人，展示它们打功夫等令人惊叹的动作。但这些全是预先计算好的，实际上，目前没有任何一家公司知道如何让这些机器人变得足够聪明以应对复杂任务。这是机器人行业的一个公开秘密。你可以在极窄的任务上训练它们，但这需要采集海量数据，就像人们最初设想自动驾驶那样，这种方式成本高昂且仅适用于少数特定任务。这些机器人的常识甚至不如一只家猫，更不用说人类智能了。这正是未来几年的挑战，让 AI 真正理解现实世界。问题在于，在语言领域大获成功的方法，在处理高维、连续且多噪的数据时完全失效，必须另寻他路。

02 VLM 与 VLA 模型的局限性

Marc 观察到，尽管语言更容易处理（因为 Token 接近语义），但目前工业界正热衷于将大语言模型扩展为视觉语言模型（VLM）和视觉语言动作模型（VLA）。他希望 Yann 解释这三者的关系，并指出这种"文本优先"路径在处理复杂现实任务时的天花板。

Yann LeCun: 好的。视觉语言模型的核心思路是将视觉表示与语言 Token 结合，然后利用大语言模型的架构进行处理。视觉语言动作模型则是其变体，输出的是动作序列。这些方法存在一个重大缺陷，极难真正奏效。视觉语言动作模型或所谓的 AI Agent 系统，仅在动作遵循固定脚本、需要不断重复的场景下有效。

这本质上是利用数据驱动而非程序化的方式来自动化任务，但它非常脆弱，局限于有固定脚本可循的极窄应用。这并非我们的终极目标。我们需要的是能够像人甚至动物一样，利用心中的世界模型去应对从未训练过的全新情境。现在世界模型是一个热门词汇，但在不同人眼中含义各异。它目前主要活跃在研究界，工业界还没怎么跟进。目前的 AI 行业完全对大语言模型产生了路径依赖，在硅谷，大家都在同一条战壕里挖掘，互相挖角工程师，这导致没人敢尝试不同的方向，生怕一旦偏离主流就会掉队。这也是我离开 Meta 的一个主因，因为随着最近的架构调整，Meta 也开始向大语言模型倾斜。这作为战略决策可能是有道理的，但我对此不感兴趣。

（关于 Agent 的本质）我无法想象在不具备预测行动后果能力的情况下，如何构建出真正的 AI Agent 系统。人类之所以能行动，是因为我们能预测后果并据此规划。什么是世界模型？简单来说，就是给定 t 时刻的环境状态和预想的干预动作，系统能否预测 t+1 时刻的状态。这就是世界模型。如果是处理视频，预测不应在像素层级进行，而应在抽象表示空间中进行。这是一个必须理解的核心见解，你无法预测视频中的每一个细节。比如我拍摄这个房间，移动镜头后停下，让系统预测后续画面，系统可以预测这是一个房间，某处有扇门，但它绝不可能预见到在座每一位的长相，也不可能预测出这位女士闪亮裙子上的复杂纹理这包含的信息量太大了，根本无法精确预测。因此，如果训练一个在像素级预测的生成式架构，它注定会失败，无法提供任何实际帮助。它可能通过扩散模型生成精美的画面，但无法理解世界的底层结构。你需要的是一种现实的抽象表示，它能捕捉关键预测并过滤掉不可预测的细节。

（关于工业界的现状）的确，就像大语言模型一样，这些技术是有用的，在一些比人们预想的稍窄的特定应用中具有部署价值。但我年纪够大，记得 20 世纪 80 年代的专家系统。当时最酷的职业是知识工程师，任务是将专家的知识转化为规则和事实，利用推理引擎来克隆专家。那套方法不需要机器学习，完全由人工构建。但它最终失败了，因为系统太脆弱，且知识迁移的成本太高，只有极少数领域适用。视觉语言动作模型也会面临同样的情况，仅在少数脚本化场景中发挥作用。但如果你像我一样，目标是构建具备猫级智能，更不用说人类智能的系统，你就需要常识，需要预测后果、规划和推理的能力。这些是无法通过视觉语言动作模型、大语言模型或任何生成式架构获得的。

03 智能的本质：世界模型、抽象层级与 JEPA 架构

虽然生成式视频模型近期表现亮眼，但在任务需要极高精度时，细节的缺失往往致命。针对如何确定合适的抽象层级，以及该层级在不同任务中是否应有所不同，我们需要探讨是否能实现跨层级的预测，从而根据需求动态调整抽象深度。

Yann LeCun: 完全正确。选择合适的抽象层级是理解世界的关键，我们目前还找不到其他替代方法。很多人没意识到这一点。假设我要规划从纽约到巴黎的旅行，此刻我在办公室，计划明天抵达巴黎。我不可能在毫秒级的肌肉控制维度去规划整个行程，那太复杂了，而且我缺乏足够的信息。我不知道出门会不会撞到人，也不知道等出租车要多久。但我可以在极高的抽象层级上规划：先去机场，再乘飞机。现在我有了一个子目标：抵达机场。接着我下楼、打车。这是一个只有两步的计划，层级很高，我不需要知道太多细节，除了交通状况可能决定我是坐出租车、地铁还是直升机。

接着是更具体的步骤，比如如何走到街上，包括走向电梯、按键、走出大楼。在整个架构中，最终你会下降到一个可以直接执行的动作层级，因为你知道如何从椅子上站起来，走到门口开门。这被称为分层规划。在 AI 领域，这仍是一个未解决的难题。虽然很多人已经放弃了，但这正是未来 AI 系统实现智能化所必须攻克的挑战。动物时刻在进行这种规划，人类则更擅长高度抽象。这需要一个多层级的世界模型，包括负责高细节、短期的低级动作预测模型，以及负责诸如打车去机场这类抽象动作的高级模型。低层级动作无法用语言描述，而高层级动作的一部分可以。如果是一个标准化的流程，视觉语言动作模型或许能应付，但真正的智能需要一个能够跨层级预测行动后果的心理模型。那么如何训练这种分层模型？首先要明确，不能在像素空间或输入空间进行预测，而必须在抽象表示空间中进行。这就是刚才提到的联合嵌入预测架构（Joint Embedding Predictive Architecture），简称 JEPA。它的核心是学习输入信号的抽象表示，并在该空间内进行预测，同时对整个系统进行端到端训练。这种预测可以基于预想的动作进行调节，从而构建出一个真正的世界模型。

（关于预测时间跨度）AI 系统学习的抽象层级取决于训练它进行预测时设定的时间跨度。如果你训练系统预测未来 10 毫秒的状态，它在短期内会非常精准，但预测结果会迅速偏离现实。因此，必须提升抽象层级，例如预测未来十分之一秒或一秒。在层级结构中位置越高，预测的跨度就越长。从原理上讲，我可以用量子场论来描述房间内我们之间发生的一切，虽然这听起来很疯狂，但它确实能极其精确地描述所有细节，包括大脑过程的神经化学反应和我们的想法。然而，这在实践中完全行不通，因为我需要测量这个房间乃至周围一立方公里范围内的波函数，并使用极其强大的量子计算机进行模拟。人类并不这样理解世界。因此，无论是在科学研究还是感知世界时，我们都会创造抽象。我们定义了粒子、原子、分子，在生物界则定义了蛋白质、细胞器、细胞、生物体、社会以及生态系统。描述当前房间情况最合适的抽象层级应当是心理学、经济学或社会科学，这在层级结构中属于高层。我们不可能通过粒子物理学来预测人类的反应，那是无法实现的。

智能的核心在于能够忽略无关且不可预测的细节，从而进行长期预测。生成式模型无法做到这一点，这正是联合嵌入预测架构（JEPA）所实现的。

04 通过视频数据的自监督学习，系统可以获得远超 LLM 的物理常识

在物理世界中采取行动，除了视觉传感器外，系统还需要机械动力学模型。我们要探讨如何让 AI 像人类婴儿一样通过观察世界来学习重力、物体恒存等直觉物理学常识。如果能够通过视频训练 AI，这种基于非文本数据的训练规模将达到何种量级？

Yann LeCun: 对于机器人而言，一个合适的世界模型包含几个组成部分。首先是机械动力学模型，当你给关节电机施加扭矩，手臂或腿会以特定方式移动。我们可以用一系列方程写出这类动力学模型，这就是经典机器人学的范畴，并能用于一定程度的运动规划。虽然这在处理复杂动作时效果一般，但那些机器人练习功夫的视频，其背后的原理就是如此。它们都是使用手工编写的模型提前规划好的，虽然会使用强化学习进行微调，但那只是微小的一步。

更重要的是机器人对周围环境的模型。你能预测他人的行为吗？能判断物体是否即将掉落并接住它吗？这就是直觉物理学模型。人类婴儿通过观察世界来学习。婴儿需要九个月的时间学习重力概念，即失去支撑的物体会下落。六个月大的婴儿还没有整合物体不会漂浮在空中的概念，但十个月大的婴儿已经掌握。在出生后的最初几个月，我们习得了关于世界的基本概念。世界是三维的，物体可以独立移动，非生物遵循特定的物理规则，以及物体的分类。我们不需要给它们命名就能分辨桌子和椅子。此外，我们还直觉地理解了物体的惯性和动量守恒。

（关于视频训练数据量）我们能否通过视频训练一个 AI 系统，使其获得动物在几天内、人类在几个月内学会的那种常识？答案是肯定的。我们拥有视频系统和 JEPA 架构，并可以确定训练它们的抽象层级。系统从大约 64 帧的视频窗口中学习表示。训练过程是取一段视频，通过遮掩（Masking）其中的一部分进行损坏，然后将完整视频通过一个编码器，损坏的视频通过另一个编码器，训练预测器从部分损坏的视频中预测完整视频的表示。我们同时端到端地训练整个系统，系统会产生一个良好的世界抽象表示，其中只包含可预测的信息。它会预测世界中可预测的部分，忽略所有的噪声和细节，例如衣服的纹理，尽管实际上它不应该忽略所有纹理。

这就是正确的研究路径。我们训练的视频模型 V-JEPA 2 是在相当于 100 年时长的视频上训练的。这听起来很多，但由于它学到的东西还不如一个两岁小孩，所以其实也不算多。这大约相当于 YouTube 一天的视频上传量。具体数字大约是 10^17 到 10^18 字节，以每秒 2 兆字节计算，这比最大的大语言模型（LLM）所用的数据量还要多 100 倍。因为互联网上的文本只有大约 10^13 字节。因此，使用视频可以获得远超 LLM 的训练数据。这也是为什么我们永远无法通过仅训练 LLM 或仅依靠文本训练来达到人类水平的智能，我们必须引入现实世界。