杨立昆:我为何执着于世界模型数字开物

1/6/2026

近日,图灵奖得主、深度学习教父杨立昆在宣布离开 Meta 核心管理层并创办新公司 AMI (Advanced Machine Intelligence) 后,接受了海外播客Information Bottleneck的深度专访。本次对话杨立昆透露了为何转型创业、深入探讨了大语言模型通往人类水平智能的根本性死胡同、联合嵌入预测架构(JEPA)对世界模型的重新定义、视频数据在 Scaling Law 中的统治级地位、目标驱动的 AI 本质安全架构,以及基于“智能放大器”逻辑对 AGI 伪命题的彻底解构。

杨立昆指出,AGI在数学和生物学意义上是一个“伪命题”。他指出,人类智能本质上是进化高度专业化的产物,所谓的“通用性”只是人类因认知边界限制而产生的错觉。他认为,当前行业对大语言模型的迷恋正处于“低本底钢”式的困境——仅仅依靠互联网上的文本 Token 堆叠,AI 永远无法习得婴儿在九个月大时就能掌握的“物理世界常识”,这种缺乏底层动力学理解的智能注定是脆弱且不可靠的。

针对世界模型的构建,他明确指出,试图在像素级别重现现实细节的想法不仅错误而且有害。真正的智能在于“抽象”:世界模型不应是重现每一帧视频的模拟器,而应是在抽象表示空间(Representation Space)中剔除不可预测细节(噪声)的预测引擎。他断言,AI 必须通过在表示层级进行非确定性的后果预测,才能真正实现从“背诵事实”向“具备直觉与规划”的质变。

在 AI 安全与未来演进上,杨立昆认为,智能与权力欲望并无逻辑关联。他将未来的超级智能比作 Linux 系统般的公共基础设施,强调其核心使命是增加全球的“智能总量”,作为人类智慧的放大器,而非人类的统治者。他预测,随着世界模型的成熟,AI 将以“自主智能代理”的形态彻底融入社会,开启一个由基础物理规律驱动的全新研究时代。

01 角色转换:从大型实验室到从零创业

祝贺你宣布在 Meta 工作 12 年后创办新公司 AMI。请问在当前 AI 投资热潮下,从掌舵大型企业实验室到重新开始初创研究,你的心态和角色经历了怎样的转变?

Yann LeCun:其实我以前也共同创办过公司,虽然当时不像这次参与得这么深,但我很清楚其中的运作机制。这次创业的独特之处在于一种新现象:投资者对 AI 的巨大潜力充满信心,因此愿意投入巨额资金。这意味着,你现在可以创办一家在前几年完全专注于研究的初创公司,这在以前是无法想象的。

过去,工业界唯一的科研净土只有那些不必为生存发愁的大公司。它们在市场中处于统治地位,眼光足够长远,才愿意资助那些长期的研究项目。回看历史,那些鼎鼎大名的实验室,比如贝尔实验室,隶属于当时垄断美国电信业的 AT&T。IBM 在大型机领域处于垄断地位,因此支撑得起优秀的研究室。施乐垄断了复印机,这让他们有能力资助帕罗奥多研究中心,虽然施乐没能从那些研究中直接获利,但 Apple 却从中受益匪浅。再到近期的 Microsoft 研究院、Google 研究院以及 Meta 的 FAIR。现在,行业格局正在再次发生转变。

02 科研理念:开放是创新的必经之路

FAIR 曾坚持高度开放、开源一切,但近年 OpenAI 和 Google 等实验室趋于封闭,Meta 似乎也在收缩。在这种环境下,AMI 计划如何保持研究透明度?

Yann LeCun:FAIR 曾对 AI 研究生态产生了深远影响,我们坚持高度开放,发表所有论文,开源一切。我们不仅提供了 PyTorch 这样的工具,还开源了许多被工业界广泛采用的研究原型。这促使 Google 等其他实验室也变得更加开放,发表成果也比以前更系统。但过去几年情况发生了变化,很多实验室开始收缩,变得越来越神秘。OpenAI 几年前就开始走向封闭,现在 Google 也是如此,甚至 Meta 也可能在往这个方向走。对于我感兴趣的研究课题,是时候在 Meta 之外去寻找更合适的土壤了。

(关于 AMI 的开放计划)是的,至少上游研究是公开的。在我看来,不发表成果就不能称之为真正的研究,否则你很容易自我陶醉。你可能发明了一个自认为开创性的重大突破,但如果不提交给社区同行评议,你可能只是在自嗨。我在很多工业研究实验室见过这种现象:内部对某个项目极度热捧,却没意识到其他人已经做出了更好的成果。如果你要求科学家发表论文,这首先会激励他们产出更高质量的成果,让方法论更严谨,结果更可靠,从而使研究本身更具公信力。

这对研究者本人也有好处。因为研究对产品产生影响往往需要数月、数年甚至数十年。你不能跟应聘者说,来我们这儿吧,但不能对外说你在做什么,也许五年后你的工作会影响某个产品。如果没有即时的正向反馈,他们很难保持动力。如果不让他们发表,他们往往会倾向于做那些能在短期内见效的项目。如果你真的追求突破,就必须允许公开发表。别无他法,这也是目前许多行业巨头正在遗忘的一点。

03 智能的核心是预测后果并进行规划,目前的 LLM 架构对此无能为力

AMI 的产品版图是什么?在目前大语言模型(LLM)如日中天的情况下,为什么你认为它在实现 AI Agent 方面还远远不够?

Yann LeCun:不,不止于研究,我们会开发实际的产品。这些产品将围绕世界模型和规划展开。我们的雄心是成为未来智能系统的主要供应商之一。我们认为目前的架构,无论是大语言模型还是基于大语言模型的 AI Agent 系统,处理语言还可以。但即便是 AI Agent 系统,目前运行得也并不理想。它们依赖大量数据来克隆人类行为,且极其不可靠。

我认为解决这个问题的正确路径,也是我坚持了快十年的观点,是构建能够预测自身行动后果的世界模型。AI 通过优化来确定一系列行动或输出,即找出哪种行动序列能最有效地完成设定的任务。这就是规划。我认为智能的核心特征就是能够预测行动的后果,并利用这种预测进行规划。这是我多年来的研究重心,通过在纽约大学和 Meta 的一系列项目,我们已经取得了快速进展,现在是时候把它转化为现实了。

(关于技术缺失环节)它和大语言模型根本不是一回事。它旨在处理高维、连续且包含大量噪声的模态,而大语言模型在这些方面完全无能为力。如果你尝试用大语言模型去学习图像或视频的优质表示,效果会非常糟糕。目前 AI 的视觉能力通常是独立训练的,并不包含在大语言模型架构中。

处理高维、连续且有噪声的数据时,生成模型是行不通的。你绝对不能使用那种将数据 Token 化为离散符号的生成模型。大量经验证据表明其效果不佳。真正有效的方法是学习一个抽象表示空间,过滤掉所有不可预测的细节和噪声,并在该空间中进行预测。这就是联合嵌入预测架构(Joint Embedding Predictive Architecture,简称 JEPA)的核心理念。你对它也很熟悉,也参与过相关工作。Randall 之前在节目里可能也详细聊过,目前围绕这个理念已经衍生出很多想法。

04 深度学习历史突破:从自动编码器到 JEPA

回顾过去 20 年,您如何看待无监督学习路径的演变?从早期的自动编码器到现在的联合嵌入预测架构(JEPA),我们学到了哪些关于“信息瓶颈”和表示学习的核心教训?

Yann LeCun:我来回顾一下这方面的研究历史。过去 20 年的大部分时间里,我一直深信构建智能系统的必由之路是某种形式无监督学习。我在 2000 年代初期就开始研究这个方向,并将其作为取得突破的基础。

当时的主流思想是训练自动编码器来学习表示:输入数据通过编码器提取表示,再通过解码器还原。当时认为必须保证表示包含了输入的全部信息,但后来发现这种直觉是错误的。强求表示包含所有输入信息其实是个坏主意,但我当时并没意识到。那时我们尝试了多种方法:Geoff Hinton 在研究受限玻尔兹曼机(Restricted Boltzmann Machines),Yoshua Bengio 在研究去噪自动编码器。这些方法在不同背景下都取得了成功,比如在自然语言处理中。而我当时在研究稀疏自动编码器。简而言之,训练自动编码器时必须对表示进行正则化,防止它简单地变成一个恒等函数。这就是你们播客讨论的核心概念:信息瓶颈。

你需要通过一个信息瓶颈来限制表示的信息含量。我曾认为高维稀疏表示是最佳方案。我的几位博士生以此为题完成了论文,比如 Koray Kavukcuoglu,他现在是 Alphabet 旗下 DeepMind 的首席 AI 架构师兼 CTO,当年就是跟我做的这个课题。我们当时研究这个是为了给深层神经网络做预训练,认为这是必经之路。但后来我们开始尝试归一化、将激活函数换成 ReLU 等技术,发现这让我们能够直接进行全监督训练来处理非常深的网络。与此同时,数据集也开始爆发式增长。事实证明监督学习的效果非常好,因此自监督学习的想法就被暂时搁置了。随后 ResNet 在 2015 年问世,彻底解决了超深架构的训练难题。但在 2015 年,我开始重新思考:我们该如何向人类水平的 AI 迈进?这既是 FAIR 创立的初衷,也是我的终身使命。我意识到,强化学习等方法在本质上是无法扩展的。强化学习的样本效率极低,因此走不通。于是我回到了世界模型的想法:一个能够预测后果并进行规划的 AI。

2016 年我在 NIPS 上的主题演讲就是关于世界模型的。我当时认为这是我们应该研究的核心方向,即由动作调节的世界模型。随后我的一些学生开始在视频预测等方向进行探索。虽然我们发表了几篇论文,但我犯了和以前一样的错误,也是现在大家都在犯的错误:试图在像素级别进行预测。这根本行不通。你无法在视频帧空间上构建有效的概率分布。我非常清楚,由于预测具有非确定性,模型必须引入隐变量来代表那些你无法预知的变数。我们在这个方向探索了很多年,我这里的一位学生 Michael Mathieu 开发了一个带隐变量的视频预测系统,稍微缓解了问题。目前业界流行的扩散模型本质上也是训练非确定性函数的一种方式。还有我倡导了几十年的基于能量的模型,也是另一种路径。但最终我意识到,解决无法在像素级预测的关键,就是干脆放弃像素级预测,转而在表示层级进行预测,并剔除掉所有无法预测的干扰细节。我早期没考虑这个方法,主要是担心会出现模型崩溃的问题。

(关于孪生网络演进)最近人们甚至还在使用这些网络中的术语。这个概念依然不过时。假设有两个变量 X 和 Y,你可以将 X 看作是 Y 经过退化、变换或损坏后的版本。将 X 和 Y 同时通过编码器处理,并告知 AI 系统 X 和 Y 实际上是同一事物的两个视角,那么计算出的表示应当一致。如果只是简单地训练两个共享权重的神经网络,试图为同一对象的不同视角产生相同的表示,系统会发生坍缩,无法产生任何有价值的信息。因此,必须找到一种方法,确保 AI 系统能从输入中提取尽可能多的信息。

我们在 1993 年关于孪生网络的论文中提出了对比项的概念。通过已知不同的样本对,训练系统产生不同的表示。我们设计了代价函数,当输入两个相同或相似的样本时,函数会吸引两个表示相互靠近,而当输入两个不相似的样本时则会将它们排斥。这个想法源于一个实际需求,当时有人希望我们将签名编码在 80 字节以内,以便存储在信用卡的磁条上进行验证。虽然我提出了训练神经网络产生 80 个变量并将每个变量量化为一个字节的方案,且效果很好,但业务部门最终决定让用户直接输入 PIN 码。这让我们学到了如何整合技术的教训。当时欧洲有些国家已经在使用更先进的智能卡,但由于某些原因,他们并不想采用。

2000 年代中期,我和两名学生修改了这个想法,提出了新的目标函数。这就是现在人们所说的对比方法,也是对比方法的一个特例。我们利用正负样本进行训练,对于正样本,训练系统具有低能量,对于负样本则具有高能量。这里的能量是指表示之间的距离。Raia Hadsell 和 Sumit Chopra 在 2005 年和 2006 年的 CVPR 上发表了相关论文。Raia Hadsell 现在负责 DeepMind 的基础研究部门,Sumit Chopra 现任纽约大学教职。虽然这引起了社区的兴趣,但效果依然有限,产生的图像表示维度较低。即使在 ImageNet 上进行数据增强训练,表示协方差矩阵的特征值谱也只能填满 200 个维度。

DeepMind 的 SimCLR 证明了对比训练在孪生网络上的潜力。大约五年前,我在 Meta 的博士后 Stephane Deny 尝试了一个我起初认为行不通的想法,即衡量编码器输出的信息量并将其最大化。我不看好是因为 Geoffrey Hinton 在 80 年代做过类似实验,当时由于缺乏有效的信息内容度量作为下界,最大化信息量几乎是不可能的。然而,Stephane 借鉴理论神经科学家 Barlow 的思想提出了 Barlow Twins 技术,效果惊人。随后我和学生 Adrien Bardes 提出了 VICReg,即方差-不变性-协方差正则化,这种技术更简单且效果更好。最近 Randall 提出了 SigReg 方案并整合进 V-JEPA 系统。SigReg 旨在确保编码器输出的向量分布符合各向同性高斯(Isotropic Gaussian)分布。我认为这套学习抽象表示的技术非常有前景,这是实现 AI 的关键。

Scroll for more