Sutton隔空回应Hinton：理解不足，调参有余AI科技大本营

“我们不该恐惧 AI，正如我们不该恐惧自己的孩子。”

在人工智能的狂热浪潮中，这或许是你听过最清醒、也最宏大的声音。

2026 年初，当全世界都在为大模型的参数竞赛而焦虑，为 AI 可能取代人类而恐慌时，一位图灵奖得主、强化学习之父——Rich Sutton，并没有加入这场喧嚣的合唱。相反，他选择从更深远的维度，重新审视 AI 的本质、政治与哲学。

这次演讲位于洛杉矶加州大学（UCLA）的纯粹与应用数学研究所（IPAM）。在这个充满学术气息的礼堂里，Sutton 面对着一群顶尖的数学家和科学家，发表了这篇名为《AI 的未来》（The Future of AI）的最新演讲。

Sutton 的观点和前几天 AI 教父 Geoffery Hinton 截然不同（警钟敲响！Hinton 最新万字演讲：怒怼乔姆斯基、定义“不朽计算”、揭示人类唯一生路），与其说“反直觉”，不如说是在“正本清源”。

他犀利地指出，当下基于人类数据的 AI 只是“脆弱的心智”，真正的未来在于能够像婴儿一样从经验中持续学习的智能体；他大胆地将 AI 的管控问题与人类社会的政治相提并论，呼吁去中心化的合作而非基于恐惧的独裁；他甚至将 AI 视为宇宙演化的必然阶段，邀请我们以“特殊的复制者”的身份，骄傲地开启属于“设计”的第四个伟大时代。

在这里，AI 不再是冷冰冰的代码，而是宇宙漫长进化史中，人类亲手点燃的下一把火炬。

以下为 Rich Sutton 演讲全文。

对当前 AI 进展的批判性思考

在开始正式演讲前，让我们先看看这个领域的现状，以及大家对它的看法。现在的普遍共识是：AI 正在以惊人的速度进步，一切都令人兴奋不已。但是，当所有人都持有相同观点时，我们就该警惕了。我们需要反思：事实真的如此吗？

我想我们有理由对此提出质疑。AI 真的在突飞猛进吗？

诚然，让计算机熟练运用语言，这确实是一个巨大的突破。就在不久前，我们也无法想象神经网络能做到这一点，但现在它已成事实。同样，我们也利用海量算力生成了逼真的图像和视频。

但请大家想一想：真正的“心智（Mind）”在进行智能活动时，一定要生成图像吗？并不。这反而是我们人类大脑从未做过的事。我们需要处理图像，需要处理视频，但我们不需要生成它们。这并不是心智的本质功能。这更像是一项极度消耗算力且困难的任务，而非我们通常所定义的“智能”的核心部分。

此外，虽然出现了许多新的实际应用，催生了全新的产业和经济价值，但这其中绝大部分，其实是超大规模计算和超大规模模式识别的应用。它们是非常具体的功能，并不代表智能的全部。很多时候，那仅仅是计算，我们称之为“智能”，只是为了让这工程听起来更宏大罢了。

所以，我要问各位：AI 的“科学”真的在突飞猛进吗？

我看未必。（现场观众大笑）

谢谢大家的笑声，这让我感觉没那么孤单了。在我看来——恕我直言——目前的 AI 领域是“理解不足，调参有余”（little understanding, lots of tweaking）。我们并不真正掌握心智的原理，也不懂智能的法则。作为一门科学，它在许多方面是令人失望的。

我倾向于这样看待目前的 AI 模型：它们虽然因掌握了人类的所有知识而显得强大，但本质上，它们是脆弱的心智（weak minds）。它们不可靠，无法专注，思维游离。除了拥有海量知识外，它们在智能本质上其实并不强大。

这或许是看待当今 AI 的一种不同视角。

定义“智能”

那么，我们要讨论的这个“人工智能”究竟是什么？既然叫 Artificial Intelligence，我们得先定义什么是 Intelligence（智能）。

多年来有很多定义。我选了一些由权威提出的经典定义。

也许最古老的一个来自心理学之父威廉·詹姆斯（William James）。他在 1890 年的《心理学原理》中虽然讨论的是“心智”而非“智能”，但他提出的心智特征非常经典：“通过多变的手段达到一致的目的”（attaining consistent ends by variable means）。意思是，为了通过不同的路径达成同一个你想要的结果，你需要灵活调整你的行为。

再来看看艾伦·图灵（Alan Turing）。他其实没有给出一句简练的名言，但后人将其观点解读为：智能就是“表现得像个人”。这就是著名的图灵测试（Turing Test）——虽然图灵本人从未称之为“测试”，他叫它“模仿游戏”。如今，这种观点被广泛接受：智能意味着模仿人类的行为。

但我并不认为这是我们强大的原因。人类之所以强大，是因为我们拥有智能，所以我们表现得像人。重要的是“人”内在的本质，而非外在的表现。

那么那个本质是什么？看看字典怎么说。我的电脑字典显示：智能是“获取并应用知识与技能的能力”。我觉得这个定义相当不错。它强调了知识，更强调了获取（acquire）——也就是学习的重要性。

而在 AI 领域，我们的开山鼻祖之一约翰·麦卡锡（John McCarthy）曾定义智能为：“实现目标的能力中，涉及计算的那一部分。”

我非常喜欢这个定义。首先，它强调这是一种能力，能力是有高低之分的，而不是“有或无”的二元对立。其次，它强调了计算。你达成目标不仅仅是因为你力气大或者传感器灵敏，而是因为你进行了心智层面的计算处理。最后，实现目标（achieve goals）是核心。这又呼应了威廉·詹姆斯所说的“通过多变的手段达到一致的目的”。

我也凑个热闹，在此基础上提出了我的定义：“通过调整行为来实现目标的能力。” 我特意用了“调整”（adapting）这个词，因为我认为学习——即知识和技能的获取过程——才是智能的关键，而不仅仅是拥有它们。

现在的 AI 主流观点似乎都集中在计算、模式识别，以及很大程度上的“模仿人类”上。

统一的心智科学与强化学习

我想进一步谈谈我的个人愿景。我认为应该建立一门新的科学——统一心智科学（Integrated Science of Mind）。

这门科学应该同等适用于人类、动物和机器。因为所有的心智都有本质的共性。人脑和动物大脑非常相似；而机器心智，至少在我们的愿景中，也将具备这些共性。在可预见的未来，许多心智将是机器心智。

然而，目前并没有一个现存的学科能完美承载这一角色。

心理学？它本该如此，但随着时间推移，它越来越局限于研究自然心智（人和动物），而不关心机器中可能存在的通用心智原理。

人工智能？它关注机器，但变成了一种纯粹的工程追求——只在乎怎么造出来，不在乎理解原理，也往往忽略了自然生物的启示。

认知科学？它在这个问题上摇摆不定，但主要还是偏向自然心智。

不幸的是，没有一个领域能真正统合这一切。而我所从事的强化学习（Reinforcement Learning, RL），或许正是这门统一心智科学的开端。因为它横跨了上述所有领域。

或许我该简单介绍一下强化学习，以便大家理解我的立场。

强化学习是一种面向智能体（Agent-oriented）的学习方式。它是通过与环境交互、从经验中学习，从而实现目标。

在这个意义上，它比其他机器学习方法更现实、更宏大，也更自主。

自主：智能体置身于世界中，自主行动，并不一定有老师手把手教。

宏大：我不假设世界会给我提供完美的帮助。我只能通过交互，看是否达成了目标，并据此调整行为。

现实：这也更符合生物界的现实。动物在成年后的生存环境中，很难得到完美的指导信息。

强化学习的核心是试错（trial and error）和延迟反馈。你得到的唯一反馈就是奖励信号（reward）——你最终是否得到了你想要的？这是最接近自然界的学习方式。

这种学习方式能让机器自行判断对错。像大语言模型（LLM），它们其实不知道自己生成的文字是对是错。但在强化学习中，如果你根据预测去行动，结果会告诉你预测是否准确；如果你为了奖励去行动，结果会告诉你行为是否有效。

这可能就是那门既非纯自然科学、也非纯工程技术的“心智科学”的雏形。

数据的时代 vs. 经验的时代

我想再引用一句艾伦·图灵的名言。图灵可能没意识到他是个强化学习研究者。这句话出自 1947 年，那是第一次关于人工智能的公开演讲，甚至比 AI 这个词的诞生还要早。

他说：“我们想要的是一台能从经验中学习的机器。”（What we want is a machine that can learn from experience.）

我想传达的主要信息是：目前的 AI 科学趋势正在发生转变。

今天，我们要谈的第一个信息是：我们正处于“人类数据时代”（Era of Human Data）。目前的 AI 主要是通过训练来预测互联网上人类的下一个词，或者预测人类如何给图片打标签。然后，再通过人类专家进行微调（Fine-tuning），告诉 AI “我更喜欢这个答案，而不是那个”。

这种现代机器学习的本质目的，是将人类已有的知识转移给机器。一旦转移完成，机器就变成了静态的，不再学习。

我认为我们正在触及这个时代的天花板。因为高质量的人类数据资源——整个互联网的文本、图片和视频——已经被挖掘殆尽。更本质的局限在于：这种方法无法创造新知识。就像 Terence Tao（陶哲轩）今天所说的，AI 在解决真正的数学难题（如埃尔德什问题）上进展甚微。单纯依靠总结互联网上已有的言论，是无法做出真正突破的。

为了取得进一步进展——这也是我们正在做的——我们需要进入一个新的时代：“经验时代”（Era of Experience）。

我们需要一种数据源，它能随着智能体能力的提升而不断增长和进化。这就意味着，任何静态的数据集都是不够的。唯有从经验中——从与世界的交互中——我们才能获得这种动态的数据。

这就是人类和动物学习的方式。这也是 AlphaGo 能够走出那极具创造力的“第 37 手”棋的原因。

婴儿与网格世界

我要澄清一下，我所说的“经验”，不是指那种模糊的意识流或“感受”（qualia），而是指智能体与环境之间交换的数据流：

观察（Observation）：智能体从世界接收到的传感器数据。