五年内,JEPA全面统治51CTO技术栈

5/16/2026

“五年内,JEPA 模型全面统治全球。”

“尤其是在硅谷,所有人都在挖同一条战壕,他们无法承受“落后竞争对手”的风险。”

“预测像素基本上是一条死路,而 JEPA 才是真正正确的方向。”

图灵奖得主、AI教父杨立昆,在最新深度播客里,再次抛出一连串颠覆行业的重磅判断:大语言模型有用,但绝不是通往真正智能的道路;像素预测本质是死路;LLM天生存在内生性安全缺陷;OpenAI们终将成为下一个Sun Microsystems;而 JEPA 架构,将会在五年内成为智能系统的绝对主流!

并直言硅谷已经陷入“羊群效应”,所有人都挤在同一条战壕内卷;VLA 路线基本宣告失败,世界模型才是机器人、自动驾驶以及工业AI的唯一出路。

到2027年初,整个行业都会明白,范式必须转变。

当下的 AI 行业,所有人都在追逐大模型、堆叠参数、迭代对话能力。硅谷扎堆内卷,资本疯狂押注,几乎整个行业都默认:沿着 LLM 的路线狂奔,就能抵达通用人工智能的终点。

杨立昆直言:“大语言模型本身并没有问题,但它们不是通往真正智能的道路。LLM 非常擅长语言处理,但是现实世界比语言复杂得多。”

越来越多人意识到:VLA 不行,而 LLM 也无法真正处理现实世界数据。需要范式转变这一认知,其实正在此刻发生。我觉得到了 2027 年初,这件事会对所有人变得显而易见。

在这次播客中,他以开玩笑的口吻说出了“五年内,JEPA 模型全面统治”的未来智能系统的蓝图,但大语言模型仍然会有一席之地,比如作为语言接口。

第二,关于开源模型和闭源模型,目前行业里的普遍观点是:开源模型落后闭源模型六个月。例如谷歌 DeepMind CEO Demis Hassabis、Andrej Karpathy 等。

当主持人询问杨立昆怎么看待“随着闭源模型越来越强,它们会利用自己的优势继续训练下一代模型,以至于开源永远追不上”的看法时,杨立昆的观点是:如今的 OpenAI、Anthropic 等公司,就相当于当年的 Sun Microsystems 和 HP-UX。这些模型本身存在能力上限,公开可获得的文本数据基本已经全部被训练过了,没有更多数据了。

备注:Sun Microsystems是一家美国IT及互联网技术公司,以服务器、工作站、操作系统和Java平台等创新技术闻名,已于2010年被甲骨文收购。

同时,AI 正在迅速变成一种“平台”,而平台天然会朝开放化发展。就像互联网的软件基础设施、无线网络也是如此,最初它们都是封闭、专有的,但最终整个 Web 生态都变成了开源。

第三,硅谷为什么疯狂押注 LLM?

在杨立昆看来,硅谷陷入了“羊群效应”,所有人都在追逐同样的东西,他们无法承受“落后竞争对手”的风险。因此,即便有人意识到“可能存在更高效的路线”,也很难真正离开主流轨道。

第四, 当 AI 成为我们信息获取的中介后, 我们应该如何解决 AI 的主权问题?

世界的大多数国家都希望拥有 AI 主权,而 Tapestry 就是杨立昆给的解决方案: 不需要共享数据,可以直接在本地训练,这个模型最终会成为某种“全人类知识与文化的仓库”。

第五,LLM 从根本上就是不安全的,它的局限是内生的。在他看来,LLM 在编程领域的发展,原因是编程的可验证性。但是 LLM 一方面能帮助你,一方面也可能做出删掉硬盘之类的举动。

“你给它一个 prompt,它会尝试完成对应任务。但它之所以会“正确”完成任务,仅仅是因为训练数据碰巧让它学会了这种模式。系统内部并不存在任何“硬编码约束”,去强制它真正理解任务目标、预测结果是否正确。”

但同时 AI 的危险也被夸大了,无论是“AI 末日论”还是“Anthropic 所宣称的风险”也都可能存在商业利益的动机。

第六,关于杨立昆与 Llama 被误解的关系。

“我对 Llama 没有任何技术贡献,完全没有。我唯一的贡献,是推动把 Llama 2 开源。FAIR 内部有很多人在做 LLM,我对此从来没有反对。我只是说:这不是通向人类级智能的道路。但它依然很好、很有用,就像语音识别、机器翻译一样。”

当然,除此之外,还有更多硬核的观点!

全文放到下面了!

LLM 实用性拉满,但不是通往真正智能的道路!

主持人:当我开始做这个播客时,我就希望有一天能邀请到像他这样的嘉宾。所以这次真的让我非常开心。我想大家一定会喜欢我们这次的对话。闲话少说,下面有请 Yann。这真的是一种荣幸,你是 AI 领域的教父之一。我感觉自己几年前开始做这个播客时,就一直希望有一天能邀请到像你这样的人。

杨立昆:你知道,我其实不太喜欢“教父”这个说法。因为在新泽西,如果你是“教父”,那可不是什么好意思。

主持人:显然,当年在所有人都怀疑神经网络的时候,你押注神经网络的决定已经成为传奇。而我感觉如今你又在做类似的事,某种程度上是在逆着 LLM 和当前主流生成式架构的方向下注。

你最近围绕这个理念创办了一家新公司。所以今天这场对话的目标,是让听众更了解 AMI、你们在那里做的事情、你在 Tapestry 的一些工作,以及为什么你认为整个行业在这些生成式模型方向上走偏了。同时,也想聊聊你对 AI 领域发展历程的反思、你在 Meta 的经历等等。对于一期播客来说目标有点大,不过我想最好还是从 AMI 开始,因为这家公司似乎非常清晰地体现了你未来的技术路线。你最近创办的新公司主要聚焦于世界模型以及扩展 JEPA 架构——这个架构显然是你在 Meta 时期开创的。所以我很好奇,你能不能谈谈这个架构的起源,以及它在多大程度上受到了人脑工作方式的启发?

杨立昆:首先我想说,大语言模型本身并没有问题。从某种意义上说,LLM 是很多非常有用的 AI 产品的基础,我们所有人都在使用,包括我自己。它们很棒,只是它们并不是通往人类级别、类人智能,甚至动物级智能的路径,这才是我的核心观点。所以我并不是说它们没用,我只是说,它们不是通往真正智能的道路。

主持人:你也参与构建了最早的一批重要开源模型之一。

GPT 风格的大语言模型,为何搞不定真实物理世界?

杨立昆:对。那什么是 AMI 呢?AMI 的全称其实是“Advanced Machine Intelligence(高级机器智能)”。它的副标题或者说理念是:“面向现实世界的 AI”。如今大家熟知的大多数 AI 技术,其实更擅长处理语言,无论是自然语言、代码、数学语言,还是法律语言(虽然法律语言可能都不太算人类语言了)。

可悲的是,语言本身是一种非常特殊的东西,它尤其适合最近这些成功架构所采用的方法——也就是 GPT 风格的大语言模型架构。 但现实世界怎么办?如何理解物理世界? 事实证明,现实世界比语言复杂得多,因为它是高度多模态的、连续的、充满噪声的,而且非常混乱。训练一个系统去理解真实世界,比训练它理解语言困难得多。所以这才是我们真正想解决的问题。

这其实也是我职业生涯大部分时间一直在追求的目标。过去五六年里,我一直在加速推进这项工作,而最近两年已经取得了相当重要的进展。所以围绕这个方向创办一家创业公司就变得很合理,也意味着我们可以真正进入“高速档”,全力推进。而到了去年年底,我逐渐意识到,Meta 已经不再是做这件事的合适地方了。这也是为什么我离开并创办了新公司。

VLA 赛道遇挫,谁才是下一代主流?

主持人:显然,你正在推进世界模型这条路线。而在更广义的“世界模型”方向上,也有一些人是从更偏生成式的方法切入的。比如 Google 的 Genie 和视频模型;机器人领域有人在做 VLA;还有像 Fei-Fei Li 那类 3D 空间模型。 当你回顾那些让你对 JEPA 模型产生信心的证据,并把它与生成式路线进行比较时,你觉得如今这些不同架构和方法发展到了什么阶段?

杨立昆:好的。“世界模型”现在正在迅速成为研究界、甚至某种程度上产业界的流行词。大致上来说,现在有两个阵营。我先不谈 VLA,因为现在大家基本已经认为 VLA 没什么前途了,效果并不好。VLA 指的是 Vision-Language-Action(视觉-语言-动作)模型,本质上是把 LLM 技术用于机器人控制:输入视觉和语言,输出动作,可能还会输出语言。但如今这条路线基本被视为失败,因为它不够可靠,需要的数据量太大等等。

接下来是世界模型。那么什么是世界模型?从比较高层的角度来说,世界模型是一种让智能体系统能够预测自身行为后果的能力。

也就是说,预测自己行动会带来什么结果。在我看来,我根本无法想象一个智能体系统如果不能预测自身行为后果,还怎么可能真正工作。这几乎是智能的核心能力。 我们人在现实世界中行动时,也拥有这种能力;而当一个人不考虑后果就采取行动时,他其实是在承担巨大风险。很多时候,别人甚至会觉得这种人很蠢。现在国际政治舞台上就有很多这样的例子——一些人完全没有预测自身行为后果的能力。所以,这就是世界模型。

归根结底,它就是“预测自身行为后果的能力”。

如果你拥有这种能力,你就可以规划一系列行动来完成任务、实现目标。而实现这一点的方式,是规划、推理、搜索与优化。你不是像 LLM 那样,一个动作接一个动作地“预测”下去。你真正做的是:搜索一条能够完成目标的动作序列。所以,从根本上来说,这套蓝图和 LLM 当前的工作方式完全不同。LLM 没有预测自身行为后果的能力,也没有真正的规划能力,因为它们的推理方式只是不断生成下一个 token,而不是进行搜索。

真正的高级智能,到底具备哪些核心能力?

杨立昆:所以这里已经出现了我认为智能行为最关键的两个特征: 第一,预测自己行为后果的能力; 第二,通过搜索与优化进行规划的能力——找到一条能够达成目标的行动序列。 接下来还有第三个问题:你究竟是如何预测行为后果的?

比如说,我面前放着一个开口、没盖盖子的水瓶。如果我从底部推它,它会在桌面上滑动;如果我从顶部推它,它很可能会翻倒。 但我们无法精确预测瓶子会朝哪个方向倒下,也无法精确预测它如何滑动、里面的水如何洒出来、桌子是不是倾斜、水会往哪个方向流。我们不可能在像素级别预测这一切。 因此,我们的大脑世界模型是在一种抽象层级上进行预测的。

对标人类思维,新一代 AI 架构灵感从何而来?

主持人: 所以你在研究这个架构时,很大程度上受到人脑启发吗?因为你刚刚描述的东西,其实和人类的思考方式非常相似。

杨立昆: 对,至少是受认知科学的启发。当然,要把这些真正转化成神经架构,中间还有很大的鸿沟。所以认知科学确实是一种重要动机。 心理学里有个概念叫“系统2”。它描述的是一种深思熟虑、反思性的行为方式:你会想象、预测自己行为的后果,然后据此规划。这和“系统1”形成对比——系统1更多是即时反应、本能式行为。所以,确实存在这样的灵感来源。

备注:在大模型研究中, System 1 和System 2 的概念源于心理学家Daniel Kahneman的双系统理论,用于描述人类思维的两种模式。 System 1 代表快速、直觉、自动化的思维(如模式识别),而 System 2 代表慢速、有意识、需要努力的逻辑推理(如复杂数学计算)。

但与此同时,也有大量经验性证据表明:你不应该去生成像素。长期以来,我一直非常关注“通过预测来学习世界模型”这个问题。大约五年前,我有了一次顿悟:所有真正成功的图像和视频表征学习架构,几乎都是非生成式架构;而生成式架构基本都失败了。

Scroll for more