杨立昆的逻辑：婴儿看世界，是这样子的烂芒

一、2023年春天，硅谷最不合群的那个人

当全世界都在为ChatGPT疯狂的时候，Meta首席AI科学家杨立昆（Yann LeCun）在Twitter上发了一条让整个圈子炸锅的推文：

"大语言模型并不理解世界。它们只是在做统计匹配。"

评论区瞬间涌入上千条质疑：

"你是嫉妒OpenAI吗?"

"图灵奖得主也会落伍"

"老古董不懂新时代"

我通过Facebook联系到他时，他刚从一场激烈的学术辩论中走出来。视频那头，这位65岁的法国人摘下眼镜，用带着浓重口音的英语说：

"你知道吗？这不是我第一次被说'你错了'。1985年，整个AI圈都这么说过我。"

他顿了顿，笑了：

"区别在于，那次我等了27年才证明自己。这次，我可能等不了那么久。"

这句话背后，藏着整个AI时代最被忽视的故事。

二、1985年的赌注：当"正确答案"是一条死路

场景还原：多伦多大学的那场争吵

1985年秋天，多伦多大学计算机系的走廊里，发生过一场现在看来改变历史的争吵。

杨立昆，刚从巴黎来的博士后

Geoffrey Hinton，他的导师，后来的"深度学习之父"

一群坚信"符号主义才是AI未来"的主流学者

争论的焦点只有一个：机器该怎么学？

我找到了当年在场的见证者——现任加州大学伯克利分校教授的Michael Jordan（注意：不是那个篮球明星）。他回忆：

"那天的场面很尴尬。主流观点是：AI应该像下棋一样，靠规则和逻辑。Yann和Geoff说，AI应该像婴儿一样，从像素中学习。"

"当时有人直接拍桌子：'你们这是伪科学！大脑不是这么工作的！'"

核心分歧：两种完全不同的"智能观"

主流派的逻辑：

人类专家 → 总结规则 → 写成代码 → 机器执行

例子：下棋就是穷举所有可能

杨立昆的逻辑：

婴儿看世界 → 大脑自己总结 → 形成抽象概念 → 理解新情况

例子：没人教你"猫的147条特征"，但你见过3只猫就认识猫

在1985年，这个分歧不是哲学讨论，而是生存问题。

主流方向拿到的是：

美国国防部的大额资助

顶级期刊的版面

产业界的应用机会

神经网络拿到的是：

"这可能有点意思"的客套评价

被拒稿后的建议："改做符号推理吧"

实验室角落里淘汰的服务器

杨立昆告诉我，他那时候做了一个决定：

"我给自己10年。如果10年后还是证明不了，我就认输。"

三、1989年的突破：一张支票改变的命运

贝尔实验室的地下室

我追溯到了CNN（卷积神经网络）诞生的那个现场。

1989年，新泽西州默里山，贝尔实验室的地下室。杨立昆面对的问题很具体：

美国银行每年要处理数亿张手写支票，人工识别成本巨大。能不能让机器自动识别手写数字？

当时的主流方法是：

手工提取特征（笔画角度、曲线弧度...）

这套流程，需要几十个博士、几年时间、针对每种字体重新来一遍。

杨立昆的方案是：

"给我数据，让机器自己学特征。"

关键实验：那个被称为"玩具"的演示

当时的项目负责人Larry Jackel（后来成为杨立昆的长期合作者）向我描述了第一次看到CNN工作的场景：

"Yann拿出一叠手写数字，随便写的，有潦草的、有倾斜的。"

"传统方法：识别率70%，换一种字体就崩溃。"

"他的网络：识别率超过95%，没见过的字体也能认。"

"我当时问：这是魔术吗？"

"他说：不，这是结构。"

这个"结构"的革命性在哪？

人类专家说：数字7有一横一竖

→ 程序员写规则：if 横线在上 and 竖线在右...

→ 机器按规则判断

CNN方法：

给机器看1000张"7"

→ 网络自己发现：第一层识别边缘、第二层识别笔画、第三层识别形状

→ 机器自己总结"7长什么样"

工业化应用：1990年代最低调的AI革命

这个系统后来被用在：

美国10%的支票自动识别

每年节省数百万美元人工成本

但媒体报道？几乎为零。

Larry Jackel说了一句让我印象深刻的话：

"当时所有人都觉得，这就是个银行用的小工具。"

"没人意识到，这是第一次机器证明了：它可以不靠人类的先验知识，自己理解视觉世界。"

四、2012年的地震：27年后的"突然胜利"

ImageNet比赛：AI史上的"iPhone时刻"

2012年9月30日，ImageNet大规模视觉识别挑战赛（ILSVRC）公布成绩。

一个叫AlexNet的深度卷积神经网络，把错误率从26%直接降到了15%。

这个数字意味着什么？

我采访了当时在场的李飞飞教授（ImageNet创始人）：

"那一刻，整个会议室都安静了。"

"你要知道,过去5年,这个指标每年只能降0.5%。所有人都在用传统方法死磕。"

"突然有人用深度学习,一年就降了10%。这不是改进,这是代际差异。"

AlexNet的核心架构，直接继承自杨立昆1989年的LeNet。

只是这次，有了三样东西：

1、GPU算力：比1989年强1000倍

2、大规模数据：ImageNet有120万张标注图片

3、工程优化：ReLU激活函数、Dropout...

转折：风向突然变了

2012年之前：

"神经网络不可解释" → 主流拒绝

"需要太多数据" → 主流拒绝

"训练太慢" → 主流拒绝

2012年之后：

Google立刻成立Google Brain

Facebook（现Meta）重组AI部门

所有顶会都在讨论深度学习

杨立昆回忆那段时间：

"最讽刺的是，很多当年说我们错的人，现在成了深度学习的'专家'。"

"他们问我：Yann，你怎么这么有远见？"

"我说：不是远见。是我太固执,舍不得放弃。"

五、2023年的分歧：当胜利者再次成为异见者

现场：与Sam Altman的公开辩论

2023年5月，纽约大学的一场对话活动。

杨立昆（Meta首席AI科学家，图灵奖得主）

Sam Altman（OpenAI CEO，ChatGPT之父）

话题：通用人工智能（AGI）还有多远？

Sam Altman的观点：

"大语言模型已经展现出了惊人的能力。我们可能离AGI只有几年时间。"

杨立昆的回应：

"ChatGPT确实很强大。但它不理解世界，它只是在做统计匹配。"

台下一片哗然。

我事后问他：为什么要在这个时候唱反调？

他的回答很长，我整理成三个核心观点：

观点1：LLM缺少"世界模型"

案例：ChatGPT的"杯子悖论"

我问ChatGPT（GPT-4）：

Q: 我把一个杯子倒扣在桌上，然后把杯子拿到二楼。请问杯子现在在哪？

A: 杯子在二楼。

Q: 那桌子呢？

A: 桌子还在原地。

Q: 那杯子和桌子的相对位置关系呢？

A: 杯子在桌子上方，倒扣着。

错了。杯子已经拿走了，不在桌子上了。

请注意这是2023年的辩论，目前2026年1月17日，去问ChatGPT会发现答案已经有了改变，回答的是正确的答案。究其原因，ChatGPT也给了正确的答案，请注意我的prompts是：

Q: 你建立物理世界的因果模型：“物体移动后，空间关系会改变”了吗？

A: 我没有一个像人类一样持续、可感知的物理世界模型，但在这个对话里，我临时构建并一致性维护了一个局部因果模型，没有破坏它。

Q: “那这个因果模型是内生的，还是被语言强行补出来的？”

A: 我没有“世界”，只有在被问到时，才会构建“世界的最小可行版本”。而且这个版本是：临时的，任务导向的，一旦不再被追问，就会被丢弃。

我不是在“理解世界”，而是在你逼我时，构建并维持一个不自相矛盾的世界切片。这已经超出纯语言接话，但还没达到人类那种内生世界模型。