杨立昆：我为何执着于世界模型数字开物

近日，图灵奖得主、深度学习教父杨立昆在宣布离开 Meta 核心管理层并创办新公司 AMI (Advanced Machine Intelligence) 后，接受了海外播客Information Bottleneck的深度专访。本次对话杨立昆透露了为何转型创业、深入探讨了大语言模型通往人类水平智能的根本性死胡同、联合嵌入预测架构（JEPA）对世界模型的重新定义、视频数据在 Scaling Law 中的统治级地位、目标驱动的 AI 本质安全架构，以及基于“智能放大器”逻辑对 AGI 伪命题的彻底解构。

杨立昆指出，AGI在数学和生物学意义上是一个“伪命题”。他指出，人类智能本质上是进化高度专业化的产物，所谓的“通用性”只是人类因认知边界限制而产生的错觉。他认为，当前行业对大语言模型的迷恋正处于“低本底钢”式的困境——仅仅依靠互联网上的文本 Token 堆叠，AI 永远无法习得婴儿在九个月大时就能掌握的“物理世界常识”，这种缺乏底层动力学理解的智能注定是脆弱且不可靠的。

针对世界模型的构建，他明确指出，试图在像素级别重现现实细节的想法不仅错误而且有害。真正的智能在于“抽象”：世界模型不应是重现每一帧视频的模拟器，而应是在抽象表示空间（Representation Space）中剔除不可预测细节（噪声）的预测引擎。他断言，AI 必须通过在表示层级进行非确定性的后果预测，才能真正实现从“背诵事实”向“具备直觉与规划”的质变。

在 AI 安全与未来演进上，杨立昆认为，智能与权力欲望并无逻辑关联。他将未来的超级智能比作 Linux 系统般的公共基础设施，强调其核心使命是增加全球的“智能总量”，作为人类智慧的放大器，而非人类的统治者。他预测，随着世界模型的成熟，AI 将以“自主智能代理”的形态彻底融入社会，开启一个由基础物理规律驱动的全新研究时代。

01 角色转换：从大型实验室到从零创业

祝贺你宣布在 Meta 工作 12 年后创办新公司 AMI。请问在当前 AI 投资热潮下，从掌舵大型企业实验室到重新开始初创研究，你的心态和角色经历了怎样的转变？

Yann LeCun:其实我以前也共同创办过公司，虽然当时不像这次参与得这么深，但我很清楚其中的运作机制。这次创业的独特之处在于一种新现象：投资者对 AI 的巨大潜力充满信心，因此愿意投入巨额资金。这意味着，你现在可以创办一家在前几年完全专注于研究的初创公司，这在以前是无法想象的。

过去，工业界唯一的科研净土只有那些不必为生存发愁的大公司。它们在市场中处于统治地位，眼光足够长远，才愿意资助那些长期的研究项目。回看历史，那些鼎鼎大名的实验室，比如贝尔实验室，隶属于当时垄断美国电信业的 AT&T。IBM 在大型机领域处于垄断地位，因此支撑得起优秀的研究室。施乐垄断了复印机，这让他们有能力资助帕罗奥多研究中心，虽然施乐没能从那些研究中直接获利，但 Apple 却从中受益匪浅。再到近期的 Microsoft 研究院、Google 研究院以及 Meta 的 FAIR。现在，行业格局正在再次发生转变。

02 科研理念：开放是创新的必经之路

FAIR 曾坚持高度开放、开源一切，但近年 OpenAI 和 Google 等实验室趋于封闭，Meta 似乎也在收缩。在这种环境下，AMI 计划如何保持研究透明度？

Yann LeCun:FAIR 曾对 AI 研究生态产生了深远影响，我们坚持高度开放，发表所有论文，开源一切。我们不仅提供了 PyTorch 这样的工具，还开源了许多被工业界广泛采用的研究原型。这促使 Google 等其他实验室也变得更加开放，发表成果也比以前更系统。但过去几年情况发生了变化，很多实验室开始收缩，变得越来越神秘。OpenAI 几年前就开始走向封闭，现在 Google 也是如此，甚至 Meta 也可能在往这个方向走。对于我感兴趣的研究课题，是时候在 Meta 之外去寻找更合适的土壤了。

（关于 AMI 的开放计划）是的，至少上游研究是公开的。在我看来，不发表成果就不能称之为真正的研究，否则你很容易自我陶醉。你可能发明了一个自认为开创性的重大突破，但如果不提交给社区同行评议，你可能只是在自嗨。我在很多工业研究实验室见过这种现象：内部对某个项目极度热捧，却没意识到其他人已经做出了更好的成果。如果你要求科学家发表论文，这首先会激励他们产出更高质量的成果，让方法论更严谨，结果更可靠，从而使研究本身更具公信力。

这对研究者本人也有好处。因为研究对产品产生影响往往需要数月、数年甚至数十年。你不能跟应聘者说，来我们这儿吧，但不能对外说你在做什么，也许五年后你的工作会影响某个产品。如果没有即时的正向反馈，他们很难保持动力。如果不让他们发表，他们往往会倾向于做那些能在短期内见效的项目。如果你真的追求突破，就必须允许公开发表。别无他法，这也是目前许多行业巨头正在遗忘的一点。

03 智能的核心是预测后果并进行规划，目前的 LLM 架构对此无能为力

AMI 的产品版图是什么？在目前大语言模型（LLM）如日中天的情况下，为什么你认为它在实现 AI Agent 方面还远远不够？

Yann LeCun:不，不止于研究，我们会开发实际的产品。这些产品将围绕世界模型和规划展开。我们的雄心是成为未来智能系统的主要供应商之一。我们认为目前的架构，无论是大语言模型还是基于大语言模型的 AI Agent 系统，处理语言还可以。但即便是 AI Agent 系统，目前运行得也并不理想。它们依赖大量数据来克隆人类行为，且极其不可靠。

我认为解决这个问题的正确路径，也是我坚持了快十年的观点，是构建能够预测自身行动后果的世界模型。AI 通过优化来确定一系列行动或输出，即找出哪种行动序列能最有效地完成设定的任务。这就是规划。我认为智能的核心特征就是能够预测行动的后果，并利用这种预测进行规划。这是我多年来的研究重心，通过在纽约大学和 Meta 的一系列项目，我们已经取得了快速进展，现在是时候把它转化为现实了。

（关于技术缺失环节）它和大语言模型根本不是一回事。它旨在处理高维、连续且包含大量噪声的模态，而大语言模型在这些方面完全无能为力。如果你尝试用大语言模型去学习图像或视频的优质表示，效果会非常糟糕。目前 AI 的视觉能力通常是独立训练的，并不包含在大语言模型架构中。

处理高维、连续且有噪声的数据时，生成模型是行不通的。你绝对不能使用那种将数据 Token 化为离散符号的生成模型。大量经验证据表明其效果不佳。真正有效的方法是学习一个抽象表示空间，过滤掉所有不可预测的细节和噪声，并在该空间中进行预测。这就是联合嵌入预测架构（Joint Embedding Predictive Architecture，简称 JEPA）的核心理念。你对它也很熟悉，也参与过相关工作。Randall 之前在节目里可能也详细聊过，目前围绕这个理念已经衍生出很多想法。

04 深度学习历史突破：从自动编码器到 JEPA

回顾过去 20 年，您如何看待无监督学习路径的演变？从早期的自动编码器到现在的联合嵌入预测架构（JEPA），我们学到了哪些关于“信息瓶颈”和表示学习的核心教训？

Yann LeCun:我来回顾一下这方面的研究历史。过去 20 年的大部分时间里，我一直深信构建智能系统的必由之路是某种形式无监督学习。我在 2000 年代初期就开始研究这个方向，并将其作为取得突破的基础。

当时的主流思想是训练自动编码器来学习表示：输入数据通过编码器提取表示，再通过解码器还原。当时认为必须保证表示包含了输入的全部信息，但后来发现这种直觉是错误的。强求表示包含所有输入信息其实是个坏主意，但我当时并没意识到。那时我们尝试了多种方法：Geoff Hinton 在研究受限玻尔兹曼机（Restricted Boltzmann Machines），Yoshua Bengio 在研究去噪自动编码器。这些方法在不同背景下都取得了成功，比如在自然语言处理中。而我当时在研究稀疏自动编码器。简而言之，训练自动编码器时必须对表示进行正则化，防止它简单地变成一个恒等函数。这就是你们播客讨论的核心概念：信息瓶颈。

你需要通过一个信息瓶颈来限制表示的信息含量。我曾认为高维稀疏表示是最佳方案。我的几位博士生以此为题完成了论文，比如 Koray Kavukcuoglu，他现在是 Alphabet 旗下 DeepMind 的首席 AI 架构师兼 CTO，当年就是跟我做的这个课题。我们当时研究这个是为了给深层神经网络做预训练，认为这是必经之路。但后来我们开始尝试归一化、将激活函数换成 ReLU 等技术，发现这让我们能够直接进行全监督训练来处理非常深的网络。与此同时，数据集也开始爆发式增长。事实证明监督学习的效果非常好，因此自监督学习的想法就被暂时搁置了。随后 ResNet 在 2015 年问世，彻底解决了超深架构的训练难题。但在 2015 年，我开始重新思考：我们该如何向人类水平的 AI 迈进？这既是 FAIR 创立的初衷，也是我的终身使命。我意识到，强化学习等方法在本质上是无法扩展的。强化学习的样本效率极低，因此走不通。于是我回到了世界模型的想法：一个能够预测后果并进行规划的 AI。

2016 年我在 NIPS 上的主题演讲就是关于世界模型的。我当时认为这是我们应该研究的核心方向，即由动作调节的世界模型。随后我的一些学生开始在视频预测等方向进行探索。虽然我们发表了几篇论文，但我犯了和以前一样的错误，也是现在大家都在犯的错误：试图在像素级别进行预测。这根本行不通。你无法在视频帧空间上构建有效的概率分布。我非常清楚，由于预测具有非确定性，模型必须引入隐变量来代表那些你无法预知的变数。我们在这个方向探索了很多年，我这里的一位学生 Michael Mathieu 开发了一个带隐变量的视频预测系统，稍微缓解了问题。目前业界流行的扩散模型本质上也是训练非确定性函数的一种方式。还有我倡导了几十年的基于能量的模型，也是另一种路径。但最终我意识到，解决无法在像素级预测的关键，就是干脆放弃像素级预测，转而在表示层级进行预测，并剔除掉所有无法预测的干扰细节。我早期没考虑这个方法，主要是担心会出现模型崩溃的问题。

（关于孪生网络演进）最近人们甚至还在使用这些网络中的术语。这个概念依然不过时。假设有两个变量 X 和 Y，你可以将 X 看作是 Y 经过退化、变换或损坏后的版本。将 X 和 Y 同时通过编码器处理，并告知 AI 系统 X 和 Y 实际上是同一事物的两个视角，那么计算出的表示应当一致。如果只是简单地训练两个共享权重的神经网络，试图为同一对象的不同视角产生相同的表示，系统会发生坍缩，无法产生任何有价值的信息。因此，必须找到一种方法，确保 AI 系统能从输入中提取尽可能多的信息。

我们在 1993 年关于孪生网络的论文中提出了对比项的概念。通过已知不同的样本对，训练系统产生不同的表示。我们设计了代价函数，当输入两个相同或相似的样本时，函数会吸引两个表示相互靠近，而当输入两个不相似的样本时则会将它们排斥。这个想法源于一个实际需求，当时有人希望我们将签名编码在 80 字节以内，以便存储在信用卡的磁条上进行验证。虽然我提出了训练神经网络产生 80 个变量并将每个变量量化为一个字节的方案，且效果很好，但业务部门最终决定让用户直接输入 PIN 码。这让我们学到了如何整合技术的教训。当时欧洲有些国家已经在使用更先进的智能卡，但由于某些原因，他们并不想采用。

2000 年代中期，我和两名学生修改了这个想法，提出了新的目标函数。这就是现在人们所说的对比方法，也是对比方法的一个特例。我们利用正负样本进行训练，对于正样本，训练系统具有低能量，对于负样本则具有高能量。这里的能量是指表示之间的距离。Raia Hadsell 和 Sumit Chopra 在 2005 年和 2006 年的 CVPR 上发表了相关论文。Raia Hadsell 现在负责 DeepMind 的基础研究部门，Sumit Chopra 现任纽约大学教职。虽然这引起了社区的兴趣，但效果依然有限，产生的图像表示维度较低。即使在 ImageNet 上进行数据增强训练，表示协方差矩阵的特征值谱也只能填满 200 个维度。

DeepMind 的 SimCLR 证明了对比训练在孪生网络上的潜力。大约五年前，我在 Meta 的博士后 Stephane Deny 尝试了一个我起初认为行不通的想法，即衡量编码器输出的信息量并将其最大化。我不看好是因为 Geoffrey Hinton 在 80 年代做过类似实验，当时由于缺乏有效的信息内容度量作为下界，最大化信息量几乎是不可能的。然而，Stephane 借鉴理论神经科学家 Barlow 的思想提出了 Barlow Twins 技术，效果惊人。随后我和学生 Adrien Bardes 提出了 VICReg，即方差-不变性-协方差正则化，这种技术更简单且效果更好。最近 Randall 提出了 SigReg 方案并整合进 V-JEPA 系统。SigReg 旨在确保编码器输出的向量分布符合各向同性高斯（Isotropic Gaussian）分布。我认为这套学习抽象表示的技术非常有前景，这是实现 AI 的关键。