哈萨比斯：虚拟细胞和超级智能的时代即将来临蓝血创作组

德米斯·哈萨比斯拥有着科技界最具传奇色彩的职业生涯之一。他年少成名，曾是国际象棋神童，17岁便成为电子游戏设计师，随后获得神经科学博士学位，并一手创立了DeepMind。他的实验室不仅攻克了围棋难题，还通过AlphaFold破解了困扰人类已久的蛋白质结构预测问题，并慷慨地将其免费提供给全球每一位科学家。这项伟大的工作为他赢得了2024年的诺贝尔化学奖。如今，他执掌Google DeepMind，继续向着他少年时代就设定的终极目标全速迈进：实现AGI（通用人工智能）。

在本期《如何构建未来》（How to Build the Future）的特别直播节目中，他与Y Combinator总裁加里·谭（Garry Tan）展开深度对话。

Demis Hassabis 回顾了自己的职业生涯，并深入分析了 AGI、智能体、推理、记忆、科学发现等前沿议题。他认为当前的大模型范式（大规模预训练、RLHF、思维链）已构成 AGI 架构的核心基础，但依然缺失持续学习、长期推理以及高效记忆等关键能力。他强调，为实现真正的通用人工智能，智能体系统是必然路径，因为未来的 AI 必须能够主动完成复杂任务，而不是被动回答问题。

他谈到记忆问题仍未被解决，也批评当前依赖巨大上下文窗口的做法过于“暴力式”。强化学习仍被低估，许多来自 AlphaGo 的思路，如搜索、树结构推理，将在未来模型中重新焕发重要价值。他指出模型蒸馏正在快速提升，小模型的能力不存在明显天花板，未来在边缘设备本地运行强力模型将成为常态。

在推理方面，Hassabis 观察到当前模型存在“想太多”“陷入循环”以及缺乏自我监控的问题，这造成所谓“锯齿状智能”，即能解 IMO 题，却在简单逻辑上翻车。他认为这说明模型缺少深层自省机制。关于智能体，他认为目前所有智能体开发仍处在极早期，距离真正创造巨大价值还有几个月到一年的“临界点”。

在科学方面，他透露 DeepMind 正向“虚拟细胞”迈进，预计十年内能模拟完整细胞系统，并指出 AI 将成为科学史上的“终极工具”。他认为 AlphaFold 模式适用于所有拥有巨大组合搜索空间且目标函数明确的科学难题。未来 AI 将不仅验证假设，还将具备提出重大科学假设的能力，即通过所谓“爱因斯坦测试”。

对创业者，他建议选择结合深科技与 AI 的领域，尤其是那些涉及真实物理世界的硬核问题，因为这些领域能抵御基础模型迭代的冲击。他提醒年轻创业者思考 AGI 在旅程中途出现的影响，并构建即使在 AGI 时代仍有价值的系统。

访谈全文如下：

主持人加里：德米斯·哈萨比斯（Demis Hassabis）拥有科技界最非凡的职业生涯之一。他年少时是国际象棋神童，17岁时设计了他的第一款热门电子游戏《主题公园》（Theme Park）。

随后，他重返校园，获得了认知神经科学博士学位，并在大脑如何运作记忆与想象力方面发表了基础性研究。2010年，他联合创立了DeepMind，使命只有一个：破解智能的奥秘。我认为他们自那时起就已经做到了。

他的实验室取得的成就，在当时大多数人看来还需要几十年才能实现。AlphaGo击败了围棋世界冠军；AlphaFold破解了蛋白质结构预测这一生物学界50年来的重大挑战，并将成果免费提供给全球科学家。这项工作使他获得了去年的诺贝尔化学奖。

如今，德米斯领导着Google DeepMind，正在打造Gemini，并朝着他青少年时期就设定的目标迈进：通用人工智能(AGI)。让我们欢迎德米斯·哈萨比斯。

你思考AGI的时间比几乎任何人都长。当你审视当前的范式，即大规模预训练、人类反馈强化学习(RLHF)、思维链(Chain of Thought)时，你认为AGI的最终架构中，我们已经掌握了多少？而目前最根本缺失的又是什么？

德米斯·哈萨比斯：首先，感谢加里（Garry）精彩的介绍。很高兴来到这里，感谢你们的欢迎。这个空间非常棒，我应该常来。看到你们在这里工作，非常令人鼓舞。

你刚才提到的那些组件，我确信它们会成为AGI最终架构的一部分。它们已经取得了长足的进步，我们也已经证实了它们具备的诸多能力。我无法想象几年后我们会突然发现这其实是一条死胡同，这完全不合逻辑。

然而，在已知的有效方法之上，可能仍然缺失一两样东西。持续学习(Continual Learning)、长期推理和记忆的某些方面仍未解决，如何让系统在各方面保持更高的一致性也是一个挑战。我认为，这些都是实现AGI的必备要素。

也许现有的技术通过一些创新和渐进式的改进就能扩展并解决这些问题，但也可能还存在一两个尚未突破的重大理念。我不认为会超过一两个，而对于究竟是前者还是后者，我认为这两种可能性大约是五五开（50/50）。当然，在Google DeepMind，我们正同时致力于探索这两种可能性。

主持人加里：我想，在研究一系列智能体系统(Agentic Systems)时，最让我感到不可思议的是，我们在多大程度上是在反复使用同一套固定的权重。因此，持续学习(Continual Learning)这个概念才如此引人入胜，因为目前我们只是在用“胶带”勉强拼凑，比如利用夜间的“梦境周期”之类的方法。

德米斯·哈萨比斯： “梦境周期”的运作方式确实很酷。我们过去是在巩固情景记忆(Episodic Memories)的背景下思考这个问题的。事实上，这就是我博士期间研究的内容：海马体如何运作，并将新知识优雅地整合到现有的知识库中。大脑在这一点上表现得非常出色，尤其是在睡眠（如快速眼动睡眠期）期间，通过重放重要的片段，让你能够从中学习。

事实上，我们最早的雅达利(Atari)程序DQN能够掌握游戏的方法之一，就是使用了经验回放(Experience Replay)。我们从神经科学中借鉴了这个概念，并将成功的轨迹多次重放。那还是2013年，处于人工智能的“黑暗时代”，但那是一个非常重要的里程碑。

我同意你的观点，我们目前通过简单地将所有内容塞入上下文窗口(Context Window)，确实像是在用“胶带”东拼西凑。这感觉多少让人有些不满意，对吧？即使我们是在机器上工作，而不是在生物大脑上，即使我们可能拥有数千万个token的上下文窗口或记忆，但在查找并确定当前决策所需的相关特定信息时，仍有巨大的成本。

即使你有能力存储所有数据，这种成本也是不可忽视的。我认为在记忆这类领域，确实还有极大的创新空间。

主持人加里：我是说，不可思议的是，感觉一百万个token的上下文窗口其实已经大于……我的意思是，老实说，它已经非常大了。

德米斯·哈萨比斯：对大多数它应有的应用场景来说，这已经足够大了。如果你把上下文窗口看作工作记忆(Working Memory)，人类大约只能记住几个数字，也许十几个，平均是七个。而我们现在拥有一百万甚至1000万个token规模的上下文窗口。

但问题在于，我们试图把所有东西都塞进去，包括那些不重要的、甚至是错误的信息。目前这种方法相当暴力(Brute Force)，这感觉不太对劲。

真正的问题在于，如果你是一个正在处理实时视频的机器人(Android)，却只是天真地记录所有token，那么一百万个token其实并不多，仅够存储约20分钟的画面。因此，如果你想要一个能理解你一两个月生活经历的系统，你必然需要更大的容量。

主持人加里： DeepMind历史上一直倾向于强化学习和搜索，如AlphaGo、AlphaZero和MuZero。这种哲学在多大程度上融入了你们今天构建Gemini的过程中？强化学习(RL)现在是否仍被低估了？

德米斯·哈萨比斯：我认为它可能确实被低估了。它的热度总是起起伏伏。自DeepMind创立之初，我们就一直在研究智能体(Agents)；实际上，这就是我们当时声称在做的方向。所以所有的Atari项目，尤其是AlphaGo，它们本质上都是智能体系统。我们的意思是，这些系统能够自主实现目标、做出主动决策并进行规划。

当然，我们最初是在游戏领域进行研究，这在技术上更具可行性；随后转向日益复杂的游戏，比如AlphaGo之后的《星际争霸》（StarCraft），即AlphaStar。基本上，我们挑战了现有的各类游戏。接下来的问题就变成了：你能否将这些模型泛化为世界模型(World Models)或语言模型，而不仅仅是简单或复杂游戏的模型？这正是过去几年我们一直在攻克的难题。

实际上，你可以认为我们今天所做的许多工作——所有带有思考模式(Thinking Modes)和思维链(Chain of Thought)推理的前沿模型——其实都是AlphaGo首创技术的回归。我确实认为，我们当时所做的工作与今天息息相关，我们正以更通用的方式在更大的规模上重新审视那些旧理念。

这包括蒙特卡洛树搜索(Monte Carlo Tree Search)以及增强我们当前强化学习(Reinforcement Learning)的其他方法。我认为，无论是来自AlphaGo还是AlphaZero的许多理念，对于当今的基础模型(Foundation Models)来说都非常重要。我相信，在未来几年的技术进步中，我们将看到更多这类理念大放异彩。

主持人加里：有一个问题想请教：很显然，现在我们需要越来越大的模型来实现更高的智能，但我们也看到模型蒸馏技术(Distillation)卓有成效，小模型的运行速度要快得多。据我所知，你们拥有非常出色的 Flash 系列模型，性能可以达到前沿模型(Frontier Models)的 95%，而推理成本却只有其十分之一，是这样吗？

德米斯·哈萨比斯：我认为我们的核心优势之一在于，尽管你必须构建庞大的模型才能突破前沿能力的上限，但我们最大的长处是能够非常迅速地将这些能力蒸馏并浓缩到较小的模型中。我们是模型蒸馏流程的发明者，拥有像 Jeff (Jeff Dean)、Oriol (Oriol Vinyals) 等顶尖专家，并且在该领域至今保持着世界领先地位。

我们也有迫切的需求去推进这项工作，因为我们服务着世界上规模最大的 AI 业务矩阵。这包括带有 AI 概览(AI Overviews)的搜索业务，以及 Gemini 应用。现在，Google 的每一个产品——比如地图、YouTube 等——都在日益深度整合 Gemini 或其相关技术。

我们的十几个产品覆盖了数十亿用户，这就要求这些服务必须以极快、高效、低成本且低延迟的方式交付。这为我们提供了强大的动力去极致优化 Flash 和“Flash-light”轻量级模型，使其极度高效，也希望这些模型能为各位日常的工作负载提供巨大的价值。

主持人加里：我很好奇这些小模型的智能上限究竟在哪里。蒸馏过程是否存在某种物理极限？比如，一个 50B 或 400B 的模型，未来有可能达到当今顶级大模型的水平吗？

德米斯·哈萨比斯：我们目前还没有触及任何形式的信息极限(Information Limit)，或者至少目前没人知道极限是否已至。也许在未来的某个临界点，信息密度会达到一个我们无法突破的瓶颈，但目前我们并未将其视为前提假设。

我们的假设是：在我们的前沿模型发布半年甚至一年后，你就能看到这些强大的能力被蒸馏到极其小巧、甚至能在边缘设备直接运行(Edge-ready)的模型中。我们已经在 Gemma 模型中见证了这种有效性——希望大家用得顺手——尤其是 Gemma 2 模型，我认为它们在各自的参数量级下表现得异常强大。