杨立昆的逻辑:婴儿看世界,是这样子的烂芒
一、2023年春天,硅谷最不合群的那个人
当全世界都在为ChatGPT疯狂的时候,Meta首席AI科学家杨立昆(Yann LeCun)在Twitter上发了一条让整个圈子炸锅的推文:
"大语言模型并不理解世界。它们只是在做统计匹配。"
评论区瞬间涌入上千条质疑:
"你是嫉妒OpenAI吗?"
"图灵奖得主也会落伍"
"老古董不懂新时代"
我通过Facebook联系到他时,他刚从一场激烈的学术辩论中走出来。视频那头,这位65岁的法国人摘下眼镜,用带着浓重口音的英语说:
"你知道吗?这不是我第一次被说'你错了'。1985年,整个AI圈都这么说过我。"
他顿了顿,笑了:
"区别在于,那次我等了27年才证明自己。这次,我可能等不了那么久。"
这句话背后,藏着整个AI时代最被忽视的故事。
二、1985年的赌注:当"正确答案"是一条死路
场景还原:多伦多大学的那场争吵
1985年秋天,多伦多大学计算机系的走廊里,发生过一场现在看来改变历史的争吵。
杨立昆,刚从巴黎来的博士后
Geoffrey Hinton,他的导师,后来的"深度学习之父"
一群坚信"符号主义才是AI未来"的主流学者
争论的焦点只有一个:机器该怎么学?
我找到了当年在场的见证者——现任加州大学伯克利分校教授的Michael Jordan(注意:不是那个篮球明星)。他回忆:
"那天的场面很尴尬。主流观点是:AI应该像下棋一样,靠规则和逻辑。Yann和Geoff说,AI应该像婴儿一样,从像素中学习。"
"当时有人直接拍桌子:'你们这是伪科学!大脑不是这么工作的!'"
核心分歧:两种完全不同的"智能观"
主流派的逻辑:
人类专家 → 总结规则 → 写成代码 → 机器执行
例子:下棋就是穷举所有可能
杨立昆的逻辑:
婴儿看世界 → 大脑自己总结 → 形成抽象概念 → 理解新情况
例子:没人教你"猫的147条特征",但你见过3只猫就认识猫
在1985年,这个分歧不是哲学讨论,而是生存问题。
主流方向拿到的是:
美国国防部的大额资助
顶级期刊的版面
产业界的应用机会
神经网络拿到的是:
"这可能有点意思"的客套评价
被拒稿后的建议:"改做符号推理吧"
实验室角落里淘汰的服务器
杨立昆告诉我,他那时候做了一个决定:
"我给自己10年。如果10年后还是证明不了,我就认输。"
三、1989年的突破:一张支票改变的命运
贝尔实验室的地下室
我追溯到了CNN(卷积神经网络)诞生的那个现场。
1989年,新泽西州默里山,贝尔实验室的地下室。 杨立昆面对的问题很具体:
美国银行每年要处理数亿张手写支票,人工识别成本巨大。能不能让机器自动识别手写数字?
当时的主流方法是:
手工提取特征(笔画角度、曲线弧度...)
这套流程,需要几十个博士、几年时间、针对每种字体重新来一遍。
杨立昆的方案是:
"给我数据,让机器自己学特征。"
关键实验:那个被称为"玩具"的演示
当时的项目负责人Larry Jackel(后来成为杨立昆的长期合作者)向我描述了第一次看到CNN工作的场景:
"Yann拿出一叠手写数字,随便写的,有潦草的、有倾斜的。"
"传统方法:识别率70%,换一种字体就崩溃。"
"他的网络:识别率超过95%,没见过的字体也能认。"
"我当时问:这是魔术吗?"
"他说:不,这是结构。"
这个"结构"的革命性在哪?
人类专家说:数字7有一横一竖
→ 程序员写规则:if 横线在上 and 竖线在右...
→ 机器按规则判断
CNN方法:
给机器看1000张"7"
→ 网络自己发现:第一层识别边缘、第二层识别笔画、第三层识别形状
→ 机器自己总结"7长什么样"
工业化应用:1990年代最低调的AI革命
这个系统后来被用在:
美国10%的支票自动识别
每年节省数百万美元人工成本
但媒体报道?几乎为零。
Larry Jackel说了一句让我印象深刻的话:
"当时所有人都觉得,这就是个银行用的小工具。"
"没人意识到,这是第一次机器证明了:它可以不靠人类的先验知识,自己理解视觉世界。"
四、2012年的地震:27年后的"突然胜利"
ImageNet比赛:AI史上的"iPhone时刻"
2012年9月30日,ImageNet大规模视觉识别挑战赛(ILSVRC)公布成绩。
一个叫AlexNet的深度卷积神经网络,把错误率从26%直接降到了15%。
这个数字意味着什么?
我采访了当时在场的李飞飞教授(ImageNet创始人):
"那一刻,整个会议室都安静了。"
"你要知道,过去5年,这个指标每年只能降0.5%。所有人都在用传统方法死磕。"
"突然有人用深度学习,一年就降了10%。这不是改进,这是代际差异。"
AlexNet的核心架构,直接继承自杨立昆1989年的LeNet。
只是这次,有了三样东西:
1、GPU算力:比1989年强1000倍
2、大规模数据:ImageNet有120万张标注图片
3、工程优化:ReLU激活函数、Dropout...
转折:风向突然变了
2012年之前:
"神经网络不可解释" → 主流拒绝
"需要太多数据" → 主流拒绝
"训练太慢" → 主流拒绝
2012年之后:
Google立刻成立Google Brain
Facebook(现Meta)重组AI部门
所有顶会都在讨论深度学习
杨立昆回忆那段时间:
"最讽刺的是,很多当年说我们错的人,现在成了深度学习的'专家'。"
"他们问我:Yann,你怎么这么有远见?"
"我说:不是远见。是我太固执,舍不得放弃。"
五、2023年的分歧:当胜利者再次成为异见者
现场:与Sam Altman的公开辩论
2023年5月,纽约大学的一场对话活动。
杨立昆(Meta首席AI科学家,图灵奖得主)
Sam Altman(OpenAI CEO,ChatGPT之父)
话题:通用人工智能(AGI)还有多远?
Sam Altman的观点:
"大语言模型已经展现出了惊人的能力。我们可能离AGI只有几年时间。"
杨立昆的回应:
"ChatGPT确实很强大。但它不理解世界,它只是在做统计匹配。"
台下一片哗然。
我事后问他:为什么要在这个时候唱反调?
他的回答很长,我整理成三个核心观点:
观点1:LLM缺少"世界模型"
案例:ChatGPT的"杯子悖论"
我问ChatGPT(GPT-4):
Q: 我把一个杯子倒扣在桌上,然后把杯子拿到二楼。请问杯子现在在哪?
A: 杯子在二楼。
Q: 那桌子呢?
A: 桌子还在原地。
Q: 那杯子和桌子的相对位置关系呢?
A: 杯子在桌子上方,倒扣着。
错了。杯子已经拿走了,不在桌子上了。
请注意这是2023年的辩论,目前2026年1月17日,去问ChatGPT会发现答案已经有了改变,回答的是正确的答案。究其原因,ChatGPT也给了正确的答案,请注意我的prompts是:
Q: 你建立物理世界的因果模型:“物体移动后,空间关系会改变”了吗?
A: 我没有一个像人类一样持续、可感知的物理世界模型,但在这个对话里,我临时构建并一致性维护了一个局部因果模型,没有破坏它。
Q: “那这个因果模型是内生的,还是被语言强行补出来的?”
A: 我没有“世界”,只有在被问到时,才会构建“世界的最小可行版本”。而且这个版本是:临时的,任务导向的,一旦不再被追问,就会被丢弃。
我不是在“理解世界”,而是在你逼我时,构建并维持一个不自相矛盾的世界切片。这已经超出纯语言接话,但还没达到人类那种内生世界模型。


