图灵奖得主理查德·萨顿:大模型只是一时狂热DeepTech深科技
近日,图灵奖得主理查德·萨顿(Richard Sutton)以远程连线的方式,在洛杉矶加州大学(UCLA)的纯粹与应用数学研究所(IPAM,Institute for Pure and Applied Mathematics),发表了这篇名为《AI 的未来》(The Future of AI)的最新演讲。
萨顿是强化学习(Reinforcement Learning,RL)领域的奠基人之一,与长期合作者 Andrew Barto 共同获得 2024 年 ACM 图灵奖(ACM A.M.Turing Award),获奖理由是“发展了强化学习的概念和算法基础”。两人合著的教科书《Reinforcement Learning:An Introduction》至今仍是该领域的标准参考书,被引用超过 75,000 次。
萨顿目前是加拿大阿尔伯塔大学计算科学教授、阿尔伯塔机器智能研究所(Alberta Machine Intelligence Institute,Amii)首席科学顾问,同时也是 John Carmack 创立的 Keen Technologies 的研究科学家,这家初创公司的目标是在 2030 年前实现通用人工智能的“生命迹象”。他还创办了 Openmind Research Institute,致力于为年轻研究者提供探索智能基础问题的空间。
在多次公开场合,萨顿对 AI 末日论者的态度都相当直白。2025 年初获奖后接受 BetaKit 采访时,他说:“末日论者越界了,那些担忧被过分夸大了。”他估计到 2030 年创造出类人智能的概率是四分之一,到 2040 年则是一半对一半。对大型语言模型的前景,他同样不太乐观,曾明确表示 LLM “并不在通往真正智能的道路上”。2025 年 6 月在新加坡国立大学的演讲中,他预测大语言模型终有一天会被视为“世界的一时痴迷”,相比之下,基于经验学习的 AI 系统才代表着真正的未来。
这场 IPAM 演讲的内容,与他在 2025 年 5 月 Amii 的 Upper Bound 大会、同年 6 月新加坡国立大学 NUS120 讲座系列等场合的演讲一脉相承,核心论点始终是同一套:人类数据时代正在触顶、经验时代即将开启、去中心化合作优于集中控制、AI 是宇宙进化的必然环节。这些观点在 AI 学术界和产业界引发了广泛讨论,尤其是他将 AI 安全运动类比为对人的集中控制,在安全研究社区中不乏争议。但无论你是否认同他的政治立场,他对 AI 科学现状的那句诊断——“理解太少、调参太多”——恐怕很难轻易反驳。
以下是该演讲的完整编译。
大家好,很高兴能跟你们在一起,虽然只是隔着屏幕。我今天上午看了一些早场的演讲,有些话本来没打算说,但听完之后觉得有必要先讲几句,算是临时加的开场白。
所有人现在都觉得 AI 在飞速进步,一切都令人兴奋。但当所有人都在想同一件事的时候,我们得停下来问一句:真的是这样吗?
语言能力方面确实有真突破,这没问题。我们不久前还很难想象神经网络能把语言运用得这么好,但事实证明确实可以。我们也在用海量算力来生成逼真的图像和视频。可说实话,智能需要生成图像吗?不需要。我们需要处理图像、处理视频,但我们从来不需要生成它们。生成图像和视频不是心智的本职工作,它需要巨大的计算量,很难做,但它本质上并不属于我们通常所说的“智能”的范畴。
那些真正带来巨大经济价值的新应用,绝大多数是超大规模计算和超大规模模式识别的产物。它们是非常特定的能力,并不等同于智能的全部。很多东西只是计算,我们管它叫“智能”,不过是因为这样听起来更重要罢了。
所以我不得不问:作为一门科学,AI 真的在快速进步吗?
我个人的看法是:进步不大。说个可能不是很谦逊的看法,当前 AI 的背后,理解很少,调参很多。我们还不知道心智的原理,不知道智能的原理。作为一门科学,它在很多方面是令人不满的。我倾向于这样看待现在的 AI 模型:它们之所以强大,是因为汲取了全人类的知识;但除此之外,它们是弱的。它们是弱心智,不可靠,容易跑题,会东拉西扯。除了拥有大量知识这一点,它们一点也不强大。
这或许是一个理解今天所谓“AI”的不同视角。
那么智能究竟是什么?这些年有过很多定义。我来列几个有分量的。
最古老的一个可能要追溯到心理学的鼻祖之一威廉·詹姆斯(William James)。1890 年,他没有直接谈“智能”,而是谈“心智”。他说心智的标志是“以变化的手段达成一致的目标”(attaining consistent ends by variable means)。手段可以变化,但结果保持一致,大概就是你想要的东西。
艾伦·图灵(Alan Turing)呢?他其实没有给出一个简洁的定义,但后来被解读为:智能基本上就是表现得像一个人。我们现在用“图灵测试”来形容模仿和冒充一个人。但图灵自己从来没管它叫“图灵测试”,我觉得他也没管它叫“测试”,他管它叫“模仿游戏”(imitation game)。那是一种方式,不是一项考试。不过现在大家已经把“表现得像人”当成了智能的一个重要含义。我对此有异议。人之所以强大,是因为人有智能,所以我们盯着“像人一样行为”看,但真正重要的是:人之所以是人的那个东西到底是什么?
如果你去查字典,字典会告诉你:智能是获取并运用知识和技能的能力。我觉得这个定义其实相当不错。它的核心是知识,获取知识、拥有知识,再加上技能。
AI 领域的一位鼻祖约翰·麦卡锡(John McCarthy)给了另一个定义:智能是达成目标的能力中属于计算的那个部分。我特别喜欢这个定义。你注意看,它说的是“计算的那个部分”,你达成目标并不是因为你更强壮或者传感器更好,而是因为你做了某种心理上的计算。然后“达成目标”是核心中的核心。这跟 William James 说的一脉相承。
(来源:Youtube)
我自己也忍不住跳进来凑了一个定义:智能是通过调适行为来达成目标的能力。跟麦卡锡的差别可能就在“调适”(adapting)这个词。我想强调的是学习的重要性,知识和技能的获取过程本身尤其关键,而不仅仅是拥有它们。
如果你把这些定义叠放在一起看当下的 AI,会发现现代 AI 的主流路线核心是计算和模式识别,很大程度上是在模仿人的行为。但在我个人的视角里,我认为应该有一门新的学科,一门关于心智的统合科学(integrated science of mind),对人、对动物、对机器同样适用。所有这些心智都有本质的共性。人和动物的心智非常相似;机器心智至少在可预见的将来,我们有理由期望它也共享某些本质特征。
(来源:Youtube)
可惜目前没有哪个现成的学科能自然地承担这个角色。心理学本来有可能成为心智科学,但它越来越把自己定义为研究自然心智,即人和动物的心智,而不包括心智“可能是什么”这个更广泛的问题。人工智能关注的是机器,但它已经变得非常工程化,重点在于制造东西,而不是真正理解它,也不怎么关心自然心智。认知科学则漂移到了好几个方向上去了。
不过,我从事的强化学习(Reinforcement Learning,RL),或许是这门统合心智科学的一个开端。因为它确实跨越了很多领域。
什么是强化学习?简单说就是面向智能体的学习,从经验中学习,与环境交互来达成目标。在这些层面上,它比其他类型的机器学习更贴近现实、更有雄心、也更自主,因为智能体在外面行动,不一定有人帮忙。动物在成年以后也没有什么特别的外部帮助,对吧?所以强化学习的核心是带有延迟反馈的试错学习,你最终得到的只是一个奖励信号,告诉你有没有得到你想要的东西。
这是最接近自然学习的机器学习方式。它能自己判断自己是对是错。大语言模型没有任何办法判断自己说的话对不对。但如果你从经验中学习,如果你做了一个关于未来的预测,你可以观察实际发生了什么、验证对错。如果你采取行动并获得奖励,你就能判断自己的行为方式是好是坏。
这里我想引用一段图灵的话(What we want is machine that can learn from experience),他自己大概没意识到他其实是一个强化学习学者。这段话出自 1947 年,比强化学习、甚至比 AI 作为一个领域正式存在都要早得多。据我们所知,那是世界上第一次关于人工智能的公开演讲。
(来源:Youtube)
好了,感谢大家听完这段“前菜”。进入正题。
我今天想传达的第一个要点是:当前 AI 的科学趋势在哪里?主要信息是,我们正处在一个“从人类数据中训练”的时代。今天所有的 AI,核心训练方式要么是预测人类在互联网上写下的下一个词,要么是按照人类标注图片的方式去预测标签,然后再由人类专家进行微调。所有这些现代机器学习的目的,都是把人类已有的知识转移到机器里去。转移完成之后,机器就冻结了,不再学习。
这就是我们所处的时代。而我认为我们正在逼近这个时代的天花板。原因很简单:人类数据快用完了。高质量的来源,如整个互联网上的文字、图片和视频等,基本已经被消耗殆尽。这种方法的根本局限在于:它无法学到任何真正新的东西,无法产生真正的新知识。就像陶哲轩所说的,AI 在解决最困难的问题方面,那些需要真正原创性的问题,它依然没有实质性进展。因为它的底层逻辑就是去看互联网上人类已经说过的话,然后做总结归纳。
所以真正的前进方向,也是我认为我们正在进行的,是从经验中学习的新时代。因为我们最终需要一个数据源,它能够随着智能体变得更强而同步增长和改善。任何静态数据集都永远不可能胜任这个要求。而你可以从你的经验中获得这样一个不断变化的数据集。这正是人类和动物学习的方式。这也是 AlphaGo 学会那步创造性的第 37 手的方式(编注:2016 年,DeepMind 的 AlphaGo 在与李世石的对弈中下出了被专业棋手称为“百年一遇”的第 37 手,据 DeepMind 事后披露,AlphaGo 曾评估该走法的概率仅为万分之一,但最终通过自我博弈的强化学习选择了它。),也是很多在数学奥林匹克竞赛中获胜的 AI 系统的工作方式。
(来源:Youtube)
我之前播放过一段加速过的婴儿视频,展示一个婴儿在玩具堆里探索。他不会只摆弄一个玩具,他玩一个,觉得腻了,就换一个。每次接触一个玩具,他就学到他能学到的东西,也许只是发现一根绳子可以拉、可以放进嘴里。然后他就换到下一个。这就是我们的数据,生命的数据由我们的行为产生,它不是别人提供给我们的。正因为它由行为产生,它可以自动匹配我们当前的理解水平和能力水平。
还有另一段智能体在迷宫中学习的视频。这是一个非常非常简单的智能体,它要从起点 S 走到目标 G,它唯一知道的就是自己在哪个格子里,它能做的动作只有四种,上、下、左、右。但它能学出一条好的路径。画面中箭头显示的就是它认为的正确方向,绿色深浅代表它认为每个状态有多好。


