Yann LeCun押注 10 亿美空：LLM的新架构啥样？NeuroPrior AI LTD

这篇文章我们将讨论另一条同样重要、但理论重心与工程路径明显不同的路线 ——LeCun 所倡导的以世界模型、联合嵌入预测与表征学习为核心的新 AI 架构。

图灵奖得主 Yann LeCun 作为联合创始人和执行主席深度参与、由华人科学家谢赛宁（DiT 共同作者）共同创立的 AMI Labs，已经完成高达 10.3 亿美元的种子轮融资，以 10.3 亿美元级别的融资规模，AMI Labs 几乎是以资本市场罕见的方式，正式在技术路线上向当前的 LLM 范式发起正面挑战。

单纯依赖 “堆算力、堆数据” 的扩展路径，是否真的能够抵达可规划、可理解、可行动的通用智能。

当前的生成式人工智能几乎被 “大语言模型＝通用智能” 这一叙事所主导，但以 LeCun 为代表的另一条路线始终在质疑：仅靠在词元层面做自回归预测，是否足以得到真正理解世界、能够长期规划、能够在现实环境中行动的智能体？

围绕这一问题，一种新的技术构想逐渐成形：不再把 “生成下一像素、下一帧、下一个词” 当作智能的核心，而是让系统在抽象表征空间中学习世界的稳定结构、可预测约束与行动后果，再把语言、规划与控制建立在这一层之上，这一路线当前最具代表性的实现，就是 Joint-Embedding Predictive Architecture（JEPA）及其向视频世界模型发展的分支。

一、为什么大语言模型不够好

这套新架构的出发点并不是否认大语言模型的工程价值，而是指出：语言预测擅长压缩人类已经写出来的知识，却并不自动等价于对物理世界、因果结构、身体行动与长期目标的真正掌握，根据《A Path Towards Autonomous Machine Intelligence》这篇立场论文，如果机器要像动物或人类那样学习，它至少需要同时具备三类能力：对世界状态形成层级化表征、在多个时间尺度上做预测与规划、以及在不完全可观测、不完全可预测的环境中选择行动，这一定义本身已经把问题从 “生成语言” 转向了 “学习世界模型”。

从这个角度看，当前主流生成式模型有两个根本局限。

第一，它们通常在数据空间直接建模，也就是在像素、声波或词元上逼近条件分布；

第二，它们往往把训练目标与最终智能目标混在一起，然而现实世界不是静态语料库，而是一个高度多模态、部分可观测、充满分叉的动力系统，给定同一时刻的世界状态，下一时刻可能出现多个同样合理的结果，若模型被迫在原始像素上给出一个确定答案，它最容易学到的不是 “未来为什么会这样”，而是 “把多种可能平均起来”，这正是早期视频预测模型经常输出模糊结果的重要原因。

二、核心判断

这一路线并不否认生成本身，而是否定 “在最低层数据细节上穷举生成” 应当通向智能的主路线，其核心判断是：智能系统首先应学会预测那些真正可预测、真正与任务相关的抽象结构，而把高频细节、偶然噪声、不可约随机性留给潜变量、下游解码器或专门的生成模块去处理，I-JEPA 论文对此说得非常明确：它是一种 “非生成式（non-generative）” 的自监督方法，其做法不是重建图像像素，而是从图像的一部分上下文去预测同一图像中其他区域的表征；为了让模型学到语义级信息，目标块必须足够大、上下文必须足够分布式，换句话说，模型并不是去记住每一个像素，而是逼自己抓住 “这个区域大致是什么、和周围结构的关系是什么、下一步哪些变化值得预测”。

到了视频版本，这一点更被放大，V-JEPA 的官方介绍把它定义为一种 “非生成式模型”，它在抽象表征空间中预测被遮蔽的视频片段，而不是直接补像素；这样做的目的，是让模型把计算资源集中到高层概念信息，而不是耗费在对下游任务不重要的细枝末节上，官方解释里用了一个非常直观的例子：如果视频里出现一棵树，系统真正需要把握的是 “场景中有树、树在怎样运动、树与其他对象的关系如何”，而不是预测每一片叶子的微小抖动。