五年内，JEPA全面统治51CTO技术栈

“五年内，JEPA 模型全面统治全球。”

“尤其是在硅谷，所有人都在挖同一条战壕，他们无法承受“落后竞争对手”的风险。”

“预测像素基本上是一条死路，而 JEPA 才是真正正确的方向。”

图灵奖得主、AI教父杨立昆，在最新深度播客里，再次抛出一连串颠覆行业的重磅判断：大语言模型有用，但绝不是通往真正智能的道路；像素预测本质是死路；LLM天生存在内生性安全缺陷；OpenAI们终将成为下一个Sun Microsystems；而 JEPA 架构，将会在五年内成为智能系统的绝对主流！

并直言硅谷已经陷入“羊群效应”，所有人都挤在同一条战壕内卷；VLA 路线基本宣告失败，世界模型才是机器人、自动驾驶以及工业AI的唯一出路。

到2027年初，整个行业都会明白，范式必须转变。

当下的 AI 行业，所有人都在追逐大模型、堆叠参数、迭代对话能力。硅谷扎堆内卷，资本疯狂押注，几乎整个行业都默认：沿着 LLM 的路线狂奔，就能抵达通用人工智能的终点。

杨立昆直言：“大语言模型本身并没有问题，但它们不是通往真正智能的道路。LLM 非常擅长语言处理，但是现实世界比语言复杂得多。”

越来越多人意识到：VLA 不行，而 LLM 也无法真正处理现实世界数据。需要范式转变这一认知，其实正在此刻发生。我觉得到了 2027 年初，这件事会对所有人变得显而易见。

在这次播客中，他以开玩笑的口吻说出了“五年内，JEPA 模型全面统治”的未来智能系统的蓝图，但大语言模型仍然会有一席之地，比如作为语言接口。

第二，关于开源模型和闭源模型，目前行业里的普遍观点是：开源模型落后闭源模型六个月。例如谷歌 DeepMind CEO Demis Hassabis、Andrej Karpathy 等。

当主持人询问杨立昆怎么看待“随着闭源模型越来越强，它们会利用自己的优势继续训练下一代模型，以至于开源永远追不上”的看法时，杨立昆的观点是：如今的 OpenAI、Anthropic 等公司，就相当于当年的 Sun Microsystems 和 HP-UX。这些模型本身存在能力上限，公开可获得的文本数据基本已经全部被训练过了，没有更多数据了。

备注：Sun Microsystems是一家美国IT及互联网技术公司，以服务器、工作站、操作系统和Java平台等创新技术闻名，已于2010年被甲骨文收购。

同时，AI 正在迅速变成一种“平台”，而平台天然会朝开放化发展。就像互联网的软件基础设施、无线网络也是如此，最初它们都是封闭、专有的，但最终整个 Web 生态都变成了开源。

第三，硅谷为什么疯狂押注 LLM？

在杨立昆看来，硅谷陷入了“羊群效应”，所有人都在追逐同样的东西，他们无法承受“落后竞争对手”的风险。因此，即便有人意识到“可能存在更高效的路线”，也很难真正离开主流轨道。

第四，当 AI 成为我们信息获取的中介后, 我们应该如何解决 AI 的主权问题？

世界的大多数国家都希望拥有 AI 主权，而 Tapestry 就是杨立昆给的解决方案：不需要共享数据，可以直接在本地训练，这个模型最终会成为某种“全人类知识与文化的仓库”。

第五，LLM 从根本上就是不安全的，它的局限是内生的。在他看来，LLM 在编程领域的发展，原因是编程的可验证性。但是 LLM 一方面能帮助你，一方面也可能做出删掉硬盘之类的举动。

“你给它一个 prompt，它会尝试完成对应任务。但它之所以会“正确”完成任务，仅仅是因为训练数据碰巧让它学会了这种模式。系统内部并不存在任何“硬编码约束”，去强制它真正理解任务目标、预测结果是否正确。”

但同时 AI 的危险也被夸大了，无论是“AI 末日论”还是“Anthropic 所宣称的风险”也都可能存在商业利益的动机。

第六，关于杨立昆与 Llama 被误解的关系。

“我对 Llama 没有任何技术贡献，完全没有。我唯一的贡献，是推动把 Llama 2 开源。FAIR 内部有很多人在做 LLM，我对此从来没有反对。我只是说：这不是通向人类级智能的道路。但它依然很好、很有用，就像语音识别、机器翻译一样。”

当然，除此之外，还有更多硬核的观点！

全文放到下面了！

LLM 实用性拉满，但不是通往真正智能的道路！

主持人：当我开始做这个播客时，我就希望有一天能邀请到像他这样的嘉宾。所以这次真的让我非常开心。我想大家一定会喜欢我们这次的对话。闲话少说，下面有请 Yann。这真的是一种荣幸，你是 AI 领域的教父之一。我感觉自己几年前开始做这个播客时，就一直希望有一天能邀请到像你这样的人。

杨立昆：你知道，我其实不太喜欢“教父”这个说法。因为在新泽西，如果你是“教父”，那可不是什么好意思。

主持人：显然，当年在所有人都怀疑神经网络的时候，你押注神经网络的决定已经成为传奇。而我感觉如今你又在做类似的事，某种程度上是在逆着 LLM 和当前主流生成式架构的方向下注。

你最近围绕这个理念创办了一家新公司。所以今天这场对话的目标，是让听众更了解 AMI、你们在那里做的事情、你在 Tapestry 的一些工作，以及为什么你认为整个行业在这些生成式模型方向上走偏了。同时，也想聊聊你对 AI 领域发展历程的反思、你在 Meta 的经历等等。对于一期播客来说目标有点大，不过我想最好还是从 AMI 开始，因为这家公司似乎非常清晰地体现了你未来的技术路线。你最近创办的新公司主要聚焦于世界模型以及扩展 JEPA 架构——这个架构显然是你在 Meta 时期开创的。所以我很好奇，你能不能谈谈这个架构的起源，以及它在多大程度上受到了人脑工作方式的启发？

杨立昆：首先我想说，大语言模型本身并没有问题。从某种意义上说，LLM 是很多非常有用的 AI 产品的基础，我们所有人都在使用，包括我自己。它们很棒，只是它们并不是通往人类级别、类人智能，甚至动物级智能的路径，这才是我的核心观点。所以我并不是说它们没用，我只是说，它们不是通往真正智能的道路。

主持人：你也参与构建了最早的一批重要开源模型之一。

GPT 风格的大语言模型，为何搞不定真实物理世界？

杨立昆：对。那什么是 AMI 呢？AMI 的全称其实是“Advanced Machine Intelligence（高级机器智能）”。它的副标题或者说理念是：“面向现实世界的 AI”。如今大家熟知的大多数 AI 技术，其实更擅长处理语言，无论是自然语言、代码、数学语言，还是法律语言（虽然法律语言可能都不太算人类语言了）。

可悲的是，语言本身是一种非常特殊的东西，它尤其适合最近这些成功架构所采用的方法——也就是 GPT 风格的大语言模型架构。但现实世界怎么办？如何理解物理世界？事实证明，现实世界比语言复杂得多，因为它是高度多模态的、连续的、充满噪声的，而且非常混乱。训练一个系统去理解真实世界，比训练它理解语言困难得多。所以这才是我们真正想解决的问题。

这其实也是我职业生涯大部分时间一直在追求的目标。过去五六年里，我一直在加速推进这项工作，而最近两年已经取得了相当重要的进展。所以围绕这个方向创办一家创业公司就变得很合理，也意味着我们可以真正进入“高速档”，全力推进。而到了去年年底，我逐渐意识到，Meta 已经不再是做这件事的合适地方了。这也是为什么我离开并创办了新公司。

VLA 赛道遇挫，谁才是下一代主流？

主持人：显然，你正在推进世界模型这条路线。而在更广义的“世界模型”方向上，也有一些人是从更偏生成式的方法切入的。比如 Google 的 Genie 和视频模型；机器人领域有人在做 VLA；还有像 Fei-Fei Li 那类 3D 空间模型。当你回顾那些让你对 JEPA 模型产生信心的证据，并把它与生成式路线进行比较时，你觉得如今这些不同架构和方法发展到了什么阶段？

杨立昆：好的。“世界模型”现在正在迅速成为研究界、甚至某种程度上产业界的流行词。大致上来说，现在有两个阵营。我先不谈 VLA，因为现在大家基本已经认为 VLA 没什么前途了，效果并不好。VLA 指的是 Vision-Language-Action（视觉-语言-动作）模型，本质上是把 LLM 技术用于机器人控制：输入视觉和语言，输出动作，可能还会输出语言。但如今这条路线基本被视为失败，因为它不够可靠，需要的数据量太大等等。

接下来是世界模型。那么什么是世界模型？从比较高层的角度来说，世界模型是一种让智能体系统能够预测自身行为后果的能力。

也就是说，预测自己行动会带来什么结果。在我看来，我根本无法想象一个智能体系统如果不能预测自身行为后果，还怎么可能真正工作。这几乎是智能的核心能力。我们人在现实世界中行动时，也拥有这种能力；而当一个人不考虑后果就采取行动时，他其实是在承担巨大风险。很多时候，别人甚至会觉得这种人很蠢。现在国际政治舞台上就有很多这样的例子——一些人完全没有预测自身行为后果的能力。所以，这就是世界模型。

归根结底，它就是“预测自身行为后果的能力”。

如果你拥有这种能力，你就可以规划一系列行动来完成任务、实现目标。而实现这一点的方式，是规划、推理、搜索与优化。你不是像 LLM 那样，一个动作接一个动作地“预测”下去。你真正做的是：搜索一条能够完成目标的动作序列。所以，从根本上来说，这套蓝图和 LLM 当前的工作方式完全不同。LLM 没有预测自身行为后果的能力，也没有真正的规划能力，因为它们的推理方式只是不断生成下一个 token，而不是进行搜索。

真正的高级智能，到底具备哪些核心能力？

杨立昆：所以这里已经出现了我认为智能行为最关键的两个特征：第一，预测自己行为后果的能力；第二，通过搜索与优化进行规划的能力——找到一条能够达成目标的行动序列。接下来还有第三个问题：你究竟是如何预测行为后果的？

比如说，我面前放着一个开口、没盖盖子的水瓶。如果我从底部推它，它会在桌面上滑动；如果我从顶部推它，它很可能会翻倒。但我们无法精确预测瓶子会朝哪个方向倒下，也无法精确预测它如何滑动、里面的水如何洒出来、桌子是不是倾斜、水会往哪个方向流。我们不可能在像素级别预测这一切。因此，我们的大脑世界模型是在一种抽象层级上进行预测的。

对标人类思维，新一代 AI 架构灵感从何而来？

主持人：所以你在研究这个架构时，很大程度上受到人脑启发吗？因为你刚刚描述的东西，其实和人类的思考方式非常相似。

杨立昆：对，至少是受认知科学的启发。当然，要把这些真正转化成神经架构，中间还有很大的鸿沟。所以认知科学确实是一种重要动机。心理学里有个概念叫“系统2”。它描述的是一种深思熟虑、反思性的行为方式：你会想象、预测自己行为的后果，然后据此规划。这和“系统1”形成对比——系统1更多是即时反应、本能式行为。所以，确实存在这样的灵感来源。

备注：在大模型研究中， System 1 和System 2 的概念源于心理学家Daniel Kahneman的双系统理论，用于描述人类思维的两种模式。 System 1 代表快速、直觉、自动化的思维（如模式识别），而 System 2 代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。

但与此同时，也有大量经验性证据表明：你不应该去生成像素。长期以来，我一直非常关注“通过预测来学习世界模型”这个问题。大约五年前，我有了一次顿悟：所有真正成功的图像和视频表征学习架构，几乎都是非生成式架构；而生成式架构基本都失败了。