告别AGI，拥抱AMI——杨立昆实录深读数字开物

2025年，人工智能行业走到了一个微妙的历史节点。在硅谷，AI氛围狂热如科幻小说般成真；但在宏观层面，技术的“慢起飞”却异常平淡。这种感知的温差，恰如这一年行业主题的隐喻——我们正站在范式转移的临界点。这一年，一些定义中的AGI正在逐渐从公众视野中“消失”。

本系列将深入挖掘这些“消失”背后的思考，记录在范式转移关键时期的各种洞见，为这个非凡的时代留下注脚。因为在AGI的漫长征程中，2025年或将被铭记为一个转折点——当我们从狂热走向理性，从规模走向本质，从喧嚣走向沉思。

2025年年末，杨立昆正式告别Meta核心管理层并创办AMI，从巨头实验室掌舵者向寻找科研“净土”的战略转场。本文基于数字开物整理编译的杨立昆2025全年演讲与公开访谈实录，深度剖析其在AI范式转型、物理世界理解及自主智能架构等方面的核心洞见。杨立昆指出，当前主流AI实验室因追求大模型产品化而日渐封闭，这种科研环境的收缩促使他成立专注于“世界模型”与“规划”的AMI，旨在复刻贝尔实验室式的长期主义基础研究模式。他强调，不发表成果的研究等同于自我陶醉，唯有坚持开源生态，才能在增加全球“智能总量”的同时防止少数巨头垄断信息流。杨立昆将未来的超级智能定义为类似Linux的公共基础设施，主张通过“目标驱动”的架构设计在底层硬编码护栏，从逻辑层面确保系统本质安全，使其作为人类智慧的“放大器”存在。

在技术层面，杨立昆认为大语言模型（LLM）是通向人类水平智能的“死胡同”，其数学本质上的发散性缺陷导致“幻觉”现象无法根除。他利用信息论维度的带宽对比揭示了符号拟合与生物智能间的鸿沟：一个四岁孩子通过视觉接收的信息量虽与LLM训练文本相当，但其习得的物理常识远超后者。这种差距体现为“莫拉维克悖论”，即机器虽能解决微积分难题，却无法像猫一样处理复杂的物理交互。杨立昆指出，当前的LLM仅属于依赖统计拟合的“系统1”反应式智能，缺乏人类处理复杂问题时所需的“系统2”逻辑推理与分层规划能力。由于人类大部分思考过程与语言无关，仅靠扩展Scaling Law无法弥合模型对物理现实理解的缺失，AI必须从符号操作层回归到对现实世界的因果建模。

为重构AI底层架构，杨立昆主张废弃在像素层级重现细节的生成式模型，转向其主导的联合嵌入预测架构。这种“世界模型”不试图模拟不可预测的细节噪声，而是在抽象表示空间中学习物理世界的因果结构，从而实现从“事实背诵”向“具备规划”的质变。

他预言未来十年将是机器人的黄金十年，硬件的普及正等待具备物理常识的“通用大脑”来实现敏捷交互。杨立昆还建议，研究者应避开已饱和的LLM赛道，回归概率论、控制理论等基础学科，去解决机器理解物理世界及实现持久记忆等根本难题。他判定AGI在生物学意义上是一个“伪命题”，真正的智能突破将诞生于能够像婴儿一样通过观察与互动自我构建的世界模型之中，最终以自主智能代理的形式融入社会。

第一性原理重构：生物智能的物理带宽与莫拉维克悖论的数学验证

1.1 智能的信息热力学：10^14 字节的带宽非对称性

大语言模型与生物智能在训练数据量级上呈现出惊人的巧合（均为 10^14 字节），但两者的数据维度与样本效率存在本质的物理鸿沟。杨立昆通过视神经带宽与文本Token的比特级对比，从信息论底层论证了仅靠文本训练无法通往高级机器智能（AMI）的必然性。

杨立昆首先建立了一个基于信息量的物理对比模型，用于衡量当前大语言模型与人类生物智能在数据摄入层面的本质差异。对于典型的现代大模型（以 Llama 3 为例），其预训练数据集规模约为 30 万亿（30 Trillion）个 Token。在信息编码层面，每个 Token 平均包含约 2-3 个字节的信息熵（压缩后）。通过计算可知，训练一个顶级 LLM 所需的文本数据总量约为 10^{14} 字节（即 100TB 量级）。这一数据量涵盖了互联网上几乎所有公开可用的文本资源，对于人类个体而言，阅读这些文本需要耗费数十万年的时间。这构成了人工智能在“符号空间”内的知识极限。

然而，当我们将这一数据量与生物智能的视觉输入进行对比时，现出了极具误导性的数量级巧合。杨立昆引入了生物学参数：一个 4 岁的儿童，其清醒时间总计约为 16,000 小时（1.6 × 10^4 小时）。人类视觉系统的硬件规格显示，视神经包含约 200 万根神经纤维（每只眼睛 100 万根）。根据神经科学测定，每根神经纤维的传输带宽约为 10 字节/秒（注：此处指有效信息传输率），因此人类视觉系统的总带宽约为 20MB/s。

计算结果表明，一个 4 岁儿童仅通过视觉感官摄入的数据总量，在字节数上与训练一个 Llama 3 级模型所需的文本总量惊人一致（均为 10^{14} 字节）。然而，杨立昆指出，这种数量级的相等掩盖了两个维度上的剧烈不对称：

1. 样本效率的极度差异：虽然总量相同，但人类儿童仅需 4 年即可建立对物理世界的完整因果认知（重力、惯性、物体恒存性），而 LLM 消耗了全人类的文本知识却无法理解基础物理规律（如“倒水”的流体动力学）。这证明了“感官数据”（高维、连续）与“文本数据”（低维、离散）在信息含金量上的本质区别。视觉输入包含的冗余信息是训练“世界模型”的关键，而高度压缩的文本丢失了物理世界的底层约束。

2. 预测目标的维度坍缩：LLM 的训练目标是预测下一个离散的 Token（词表空间约为 10 万量级），这是一个低熵任务；而生物智能的学习目标是预测高维连续视频流中的下一帧（像素空间约为 256^{H × W × C} 量级），这是一个极高熵任务。仅在低熵符号空间进行训练，物理上决定了系统无法涌现出对高熵物理世界的理解能力。

1.2 莫拉维克悖论的工业级验证：L5 自动驾驶的失效逻辑

“下棋容易，洗碗难”不再是哲学感叹，而是高维连续控制与低维符号推理之间的计算复杂度壁垒。杨立昆通过家猫与大模型的对比，定义了“世界模型”作为打破莫拉维克悖论的唯一架构路径，并判定 L5 级自动驾驶的延迟本质上是感知预测架构的代际落后。

针对当前 AI 产业界对“通用人工智能”的过度承诺，杨立昆引用并重构了“莫拉维克悖论”。他指出，人类定义的“高智商”任务（如国际象棋、围棋、积分计算、编写代码）在计算本质上属于“低维离散状态空间的搜索问题”。这类问题具有明确的规则边界、完全可观测的状态以及离散的动作空间，因此计算机早在 1997 年（深蓝）和 2016 年（AlphaGo）就已解决。

相反，被人类视为“本能”的低级任务（如清理餐桌、折叠衣物、在复杂路况驾驶），在计算本质上属于“高维连续状态空间的规划与控制问题”。这类问题具有状态不可完全观测、环境高度随机、物理反馈延迟等特性。杨立昆提出了一个具体的生物参照系：家猫。家猫的大脑虽然仅有数亿个神经元，无法进行语言逻辑推理，但它拥有极其精密的“直觉物理学引擎”。猫能够瞬间规划出一条复杂的跳跃轨迹，精准计算摩擦力、动量与肌肉张力的配合，并在空中实时调整姿态。这种对物理世界的建模与控制能力，远超当前最先进的 LLM 或机器人系统。

基于此，杨立昆对 L5 级自动驾驶的长期停滞给出了技术归因。他指出，目前的自动驾驶系统虽然积累了数百万小时的训练数据，但依然采用的是“感知-映射”或“模仿学习”的范式，缺乏对物理环境的因果预测能力。一个 17 岁的青少年仅需 20 小时的训练即可掌握驾驶，是因为他调用了已有的“世界模型”——他知道如果撞击护栏会发生物理形变，知道视线被遮挡时行人依然存在（物体恒存性）。

现有的 AI 系统试图通过穷举所有边缘情况来解决自动驾驶问题，这在数学上是发散的。杨立昆判定，除非系统能够像猫一样构建出内部的“世界模型”，能够在抽象空间中推演“如果不减速会发生什么”，否则 L5 级自动驾驶将永远无法通过单纯堆砌数据来实现。智能的衡量标准必须从“符号操作能力”回归到“物理世界交互能力”，这也是他将目标修正为“高级机器智能”（AMI）而非“通用人工智能”的核心逻辑。

1.3 生物计算的硬件启示：线虫与模拟计算的陷阱

通过对线虫神经系统的微观分析，杨立昆反驳了“模拟计算芯片”的扩展示意图。他确立了“模拟计算、数字通讯”的生物计算二元法则，并指出当前神经形态硬件在复用性上的致命工程缺陷。

在探索下一代 AI 硬件架构时，杨立昆针对目前学界和产业界热捧的“神经形态计算”和“模拟计算”提出了基于生物学事实的严厉批判。他引入了微观生物学证据：秀丽隐杆线虫。

这种体长仅 1 毫米的线虫拥有 302 个神经元。生物学研究表明，线虫的神经元之间并不产生动作电位，而是完全通过模拟信号进行通讯。这是因为线虫体型极小，神经信号传输距离极短，模拟信号在传输过程中的衰减和噪声干扰可控。

然而，随着生物体型的增大，当信号需要进行长距离传输（如从长颈鹿的大脑到腿部，或人类视网膜到视觉皮层）时，生物进化出了动作电位。杨立昆指出，动作电位本质上是二进制的数字信号（0 或 1）。生物进化的选择压力证明了一条铁律：计算可以是模拟的（在细胞体内累积电位），但长距离通讯必须是数字的。这是为了解决信噪比（SNR）随距离指数衰减的物理问题，数字信号可以通过中继器实现无损再生。

基于这一生物学原理，杨立昆分析了当前模拟 AI 芯片（试图用忆阻器或光子进行模拟矩阵乘法）的工程困境：

1. 通讯瓶颈：现代 CMOS 芯片极其庞大且快速，如果要构建大规模神经网络，必须在芯片间进行海量数据通讯。模拟信号无法支持这种长距离、高保真的跨芯片通讯，最终必须在接口处进行高耗能的模数/数模转换，抵消了模拟计算的能效优势。

2. 复用性缺失：数字硬件的核心优势在于“复用”。一个物理乘法器可以在一秒钟内被复用数十亿次，处理神经网络中不同层的计算。然而，模拟电路通常要求神经元与物理电路一一对应（存内计算），这导致硬件利用率极低。如果要运行一个千亿参数模型，模拟芯片需要物理上制造千亿个存储单元，且无法像数字逻辑那样通过时分复用（Time-Division Multiplexing）来虚拟化计算资源。

因此，杨立昆判定，尽管模拟计算在边缘端（如传感器内计算）可能有特定应用，但在通用 AI 加速器领域，未来的主流路径依然是基于数字逻辑的 CMOS 扩展，而非回归纯模拟计算。生物大脑的“脉冲神经网络”（SNN）是对通讯距离限制的妥协，而非计算优越性的证明，盲目模仿 SNN 的硬件架构（如取消复用机制）是工程上的倒退。

范式证伪：自回归大语言模型的数学死结与维度灾难

2.1 自回归的指数级发散：错误率的不可逆熵增

幻觉并非大模型的暂时性“Bug”，而是自回归生成机制的内生数学属性。杨立昆通过引入错误率的指数级累积逻辑，判定在长序列生成中，任何非零的单步误差都会导致系统输出不可避免地偏离事实子树（Sub-tree of Truth），这种发散性在数学上不可修复。

杨立昆对当前主流的自回归（Auto-Regressive, AR）范式进行了底层的数学批判。自回归模型的核心机制是基于上文序列来预测下一个离散符号。在典型的 LLM 中，词表大小约为 10 万个 Token。这意味着每一步生成的决策树分支因子高达 10 万。

在所有可能的生成路径构成的巨大状态空间中，符合逻辑与事实真理的路径仅占极微小的子集（即“真理子树”）。杨立昆建立了一个简单的概率模型来描述这一过程：假设模型在单步预测中的错误率（即选择了不合理 Token 的概率）为 ε（epsilon），且每一步的预测误差是相互独立的。那么，对于一个长度为 N 的生成序列，该序列保持整体逻辑一致性或事实准确性的概率 Pcorrect 会呈现指数级衰减。

数学性质决定了，只要单步错误率大于零（在概率性采样中必然存在），随着序列长度的增加，准确率将迅速趋近于零。

即便单步准确率高达 99%，生成 100 个 Token 后，全对的概率仅剩约 36.6%。

生成 1000 个 Token 后，全对概率跌至约 0.004%。

这就是 LLM 产生“幻觉”的物理根源。杨立昆指出，这种错误并非源于知识缺失，而是源于自回归过程的随机游走本质。模型并不是在规划一条通往终点的路径，而是在每一步都进行一次“赌博”。虽然通过扩大模型规模（Scaling）可以降低单步错误率，但物理世界和复杂推理任务所需的序列长度往往极大，序列长度的增长速度远快于错误率的降低速度。因此，自回归 LLM 在处理长程推理或物理模拟时，注定会陷入逻辑崩塌或事实漂移。这是一种结构性的数学死结，无法通过简单堆砌算力来解开。