Hassabis：当前AI只是“前菜”The AI Frontier

这场对谈的嘉宾是刚刚获得诺贝尔化学奖的 Google DeepMind CEO Demis Hassabis。从天才国际象棋神童，到天才游戏制作人，再到认知神经科学博士，最后成为 AlphaGo 和 AlphaFold 的缔造者，Hassabis 拥有科技界最传奇的履历之一。他也是当今世界上极少数真正有资格定义 AGI（通用人工智能）路线图的人。

为什么要读？

在这个动辄将大模型神话的阶段，Hassabis 给出了一针见血的清醒判断。这篇访谈不仅仅是关于 Gemini 或是模型参数的讨论，它更像是一份“AGI 时代的产品与技术生存指南”。

在这场对话中，他深入探讨了：

现有架构的盲区：为什么大模型依然会在简单的逻辑和数学上翻车？持续学习（Continual Learning）和长程推理为什么是通往 AGI 的最后几块拼图？

物理 AI 与多模态的战略前瞻：为什么 Gemini 从一开始就要坚持原生多模态？这与自动驾驶（Waymo）、具身智能、以及理解真实物理世界的智能设备有什么深层联系？

致深科技创业者的洞见：如果 AGI 在 2030 年到来，而你正在开启一段为期 10 年的深科技（Deep Tech）创业旅程，你该如何确保你的产品不被基础模型的一波更新直接摧毁？

无论你是持续关注科技前沿的探路者，还是AI创业者，甚至nobody，这篇访谈都能为你提供极具密度的思考框架。

演讲核心内容总结与完整实录

1. 通往 AGI，我们目前还缺什么？ (0:00 - 3:37)

💡 本段核心总结：

Hassabis 认为现有的大语言模型架构（预训练、RLHF、思维链）大概率会是最终 AGI 架构的一部分。但他明确指出，目前系统仍缺失几个关键拼图：持续学习（Continual learning）、长程推理（Long-term reasoning）以及真正的记忆机制。他预测 AGI 可能会在 2030 年左右到来。

完整演讲稿：

[开场白/Intro]

持续学习、长程推理，以及记忆的某些方面，这些问题仍然没有被解决。我认为所有这些都是实现 AGI（通用人工智能）所必需的。这取决于你对 AGI 时间表的预期，就我个人而言，大概是 2030 年左右。如果你今天踏上一段硬核深科技（Deep Tech）的创业之旅，你就必须考虑到 AGI 会在这段旅程的中途出现。这不一定是坏事，但你必须将其纳入考量。你必须拥有一个能够主动为你解决问题的系统，才能走向 AGI。所以，Agent（智能体）就是那条必经之路，而我认为我们才刚刚起步。

Demis Hassabis 拥有科技界最不同寻常的职业生涯之一。他小时候是国际象棋神童，17 岁时设计了他的第一款热门电子游戏《主题公园》。之后他重返校园，获得了认知神经科学的博士学位，发表了关于大脑中记忆和想象力如何运作的基础性研究成果。然后在 2010 年，他联合创立了 DeepMind，肩负着一个使命：解决智能问题。而且我认为他们已经做到了。从那以后，他的实验室完成了大多数人认为还需要几十年才能实现的事情。AlphaGo 在围棋上击败了世界冠军。AlphaFold 破解了蛋白质结构预测——这个生物学领域 50 年来的重大挑战，并且他们将其免费提供给了地球上的每一位科学家。这项工作让他在去年赢得了诺贝尔化学奖。今天，Demis 领导着 Google DeepMind，在这里他正在打造 Gemini，并朝着他十几岁时设定的目标迈进：通用人工智能（AGI）。请欢迎 Demis。

[访谈内容]

主持人：您思考 AGI 的时间比几乎所有人都长。当您审视当前的范式——大规模预训练、RLHF（基于人类反馈的强化学习）、思维链时，您认为我们已经掌握了多少 AGI 的最终架构？目前本质上还缺少什么？

Demis Hassabis：首先，谢谢 Gary 精彩的介绍，很高兴来到这里。这个空间非常棒，我以后得多来看看，能在这里工作非常鼓舞人心。

回到你的问题，我认为你刚才提到的那些组件，我非常确信它们将成为最终 AGI 架构的一部分。它们现在已经取得了如此长足的进步，并且我们已经证明了它们能够做很多事情。我无法想象几年后我们会突然意识到“这是一条死胡同”，这说不通。

但在我们已经知道行之有效的技术之上，可能还有一两块缺失的拼图。比如：持续学习（continual learning）、长程推理（long-term reasoning），以及记忆（memory）的某些方面，这些依然悬而未决。还有如何让系统在各个方面变得更加一致。我认为这些都是实现 AGI 所必需的。

也许现有的技术可以通过一些渐进式的创新直接扩展到那种程度，但也可能还需要破解一两个大的全新想法。如果真的还有，我认为不会超过一两个。我打赌这两种可能性大概各占一半（50/50）。所以，在 Google DeepMind，我们同时在推进这两方面的研究。

2. 为什么“记忆”依然是一个未解之谜？ (3:38 - 6:14)

💡 本段核心总结：

现有的扩大“上下文窗口（Context Window）”来塞入大量信息的方式，就像是用“胶带”把东西强行粘在一起，是一种暴力的笨办法。真正的记忆需要像人类大脑海马体一样，能够优雅地将新知识整合进现有认知库中，并在决策时以极低的成本提取最相关的信息。

完整演讲稿：

主持人：我觉得和一堆智能体系统工作时，最疯狂的一点是，它们总是在重复使用相同的权重。所以“持续学习”这个概念非常有趣，因为现在我们感觉就像是用胶带把系统拼凑起来一样，比如给系统安排“夜间梦境循环”之类的机制。

Demis Hassabis：“梦境循环”确实很酷，我们过去在研究情景记忆巩固时经常思考这个问题。事实上，我读博士期间研究的就是海马体如何运作，以及它如何优雅地将新知识整合到现有的知识库中。

大脑在这方面做得极其出色。它在睡眠期间，特别是 REM（快速眼动）睡眠期间完成这项工作，回放那些重要的情景，以便你能从中学习。事实上，我们最早的 Atari 玩游戏程序 DQN（深度Q网络），它能掌握 Atari 游戏的方法之一就是使用了“经验回放（experience replay）”。我们从神经科学中借鉴了这一点，多次回放成功的轨迹，那还是在 2013 年，在人工智能的“黑暗时代”，这是一个非常重要的事情。

我同意你的看法，我们现在确实有点像在使用“胶带”。比如把所有东西都塞进上下文窗口（context window）里，这似乎有点令人不满意，对吧？即使我们在研究机器而不是生物大脑，理论上你可以拥有几百万甚至几千万的完美上下文窗口或内存，但要去查找并找到对你当前决策真正相关的正确信息，依然是有成本的。即使你有可能把一切都存下来，这个检索成本绝不简单。我认为在记忆（memory）等领域还有很大的创新空间。

主持人：是的，疯狂的是，感觉一百万 Token 的上下文窗口其实已经非常大了，老实说足够大了。

Demis Hassabis：对于大多数它应该被用来做的事情来说，这确实足够大了。如果你把上下文窗口等同于人类的“工作记忆（working memory）”，人类只能记住几个数字，也许十几个，平均是七个。而我们现在拥有了一百万甚至一千万的上下文窗口。

但问题在于，我们正试图把所有东西都塞进去。包括那些不重要的东西、错误的东西。这目前是一种相当“暴力”的方法，感觉不太对。而且问题是，如果你现在试图处理实时视频，只是天真地记录所有 token，那么其实一百万个 token 并不算多，大概也就相当于 20 分钟的视频。所以，如果你想要一个系统能够理解你生活中可能一两个月内发生的事情，你实际上需要更大的容量。

3. AlphaGo 的哲学如何塑造了今天的 Gemini？ (6:15 - 8:10)

💡 本段核心总结：

DeepMind 一直以强化学习（RL）和搜索算法（Search）见长。早期从 AlphaGo 和 AlphaZero 中获得的大量灵感（例如蒙特卡洛树搜索），如今正以大模型中“思维链（Chain of Thought）”和“推理模式”的形式强势回归。强化学习的作用依然被外界低估了。

完整演讲稿：

主持人：DeepMind 在历史上一直偏向强化学习（RL）和搜索——比如 AlphaGo、AlphaZero 和 MuZero。这些哲学有多少真正嵌入到了你们今天构建 Gemini 的方式中？强化学习（RL）目前还是被低估了吗？

Demis Hassabis：是的，我确实认为它可能被低估了。技术发展总是一波接一波的。从 DeepMind 成立之初，我们就在研究 Agent（智能体）。事实上，我们当时就是这么对外宣传的。所有关于 Atari 的工作，尤其是 AlphaGo，它们都是智能体系统。我们的意思是，系统能够自行达成目标、做出主动决策并制定计划。当然，为了让问题变得可解，我们当时是在游戏领域中进行测试，并不断挑战更复杂的游戏，比如继 AlphaGo 之后的 AlphaStar（针对《星际争霸》）。我们基本上把市面上所有的游戏都通关了。

接下来的问题是：你能不能将这些模型泛化为“世界模型”或“语言模型”，而不仅仅是简单或复杂游戏的模型？这就是过去几年我们一直在做的事情。

但实际上，你可以把我们今天做的很多事情——比如所有带有“思考模式（thinking modes）”和“思维链推理（chain of thought reasoning）”的前沿模型——看作是 AlphaGo 时代首创理念的一种回归。我真的认为我们当时做的很多工作在今天依然非常有价值，我们正在以一种更通用的方式、在更大的规模上重新审视那些旧想法。这包括蒙特卡洛树搜索（MCTS）以及其他在我们如今准备好去做的强化学习之上进行增强的方法。

我认为很多来自 AlphaGo 和 AlphaZero 的想法，对于我们今天的基础模型来说都非常非常相关。而且我认为，我们将在未来几年的进步中看到大量的此类应用。

4. 为什么小模型变得如此强大？ (8:11 - 12:40)

💡 本段核心总结：

打造顶尖的“前沿大模型”是必须的，但 DeepMind 同样擅长通过模型蒸馏技术将庞大的能力压缩到极其小巧的模型（如 Gemini Flash 或 Gemma）中。这不仅是因为要服务 Google 旗下数十亿用户的巨大流量，降低成本与延迟；更是因为边缘端计算（Edge AI）对于保护隐私和推动未来机器人（Robotics）的发展至关重要。

完整演讲稿：

主持人：我有一个问题，显然现在你需要越来越大的模型来变得越来越聪明，但与此同时我们也看到“模型蒸馏（distillation）”非常有效，较小的模型可以运行得快得多。你们拥有令人难以置信的 Flash 模型，你们发现它能达到前沿模型 95% 的水平，但价格只有十分之一，是这样吗？

Demis Hassabis：我认为这是我们的核心优势之一。你必须构建最大的模型以获得前沿的能力，但我认为我们最大的优势之一是能够极其迅速地将这种力量提炼并压缩到越来越小的模型中。显然，是 Jeff (Hinton)、Oriol (Vinyals) 等人发明了模型蒸馏的过程，我们至今依然是这方面的世界级专家。

同时，我们也有巨大的内部需求去这样做。因为我们可能需要服务世界上最大的 AI 场景阵地——包括带有 AI 概览（AI Overviews）的 Google 搜索，然后是 Gemini App，现在 Google 几乎每一个产品（地图、YouTube 等）都在整合 Gemini 或其相关技术。这是十几款拥有超十亿用户的产品，总计触达数十亿用户。因此，我们必须以极其快速、高效、低廉且低延迟的方式提供服务。这给了我们极其重要的动力去打造 Flash 甚至更小的模型，使其极为高效。希望这最终对于你们正在使用的许多工作负载也会非常有用。

主持人：我很好奇这些小模型到底能变得多聪明？蒸馏过程有极限吗？比如一个 50B 甚至 400B 的模型能像今天的顶级模型一样聪明吗？

Demis Hassabis：我不认为我们已经达到了某种信息论上的极限，至少我们现在还不知道。也许在某个时间点，会达到某种我们无法突破的信息密度。但就目前而言，我们的假设是：在我们的一个前沿模型（Pro 模型）发布半年或一年后，你就能在极其微小、甚至是边缘端（Edge）的模型中获得同样的能力。