Demis：无论泡沫破裂与否，谷歌都是赢家AI科技大本营

如果说 Sam Altman 是 AI 时代的布道者，善于用宏大的愿景点燃公众的想象力；那么 Demis Hassabis 更像是一位在实验室里盯着显微镜的科学家，冷静、严谨，对“炒作”有着天然的免疫力。

一年前，当整个硅谷都在因为 ChatGPT 的红利期似乎见顶而焦虑，甚至开始讨论“大语言模型（LLM）是否撞墙”时，Demis 却感到困惑。在他看来，进步从未停止。他掌舵的 Google DeepMind 刚刚经历了 AlphaFold 3 的高光时刻，正试图将 AI 的触角从简单的聊天机器人延伸到生物学、物理学乃至材料科学的最深处。

在达沃斯的一间木质会议室里，Demis 近期接受了 Big Technology 播客的专访。这场对话的特别之处在于，他没有回避那些尖锐的问题：现在的 AI 是不是只有“金鱼记忆”？谷歌会不会为了财报在 Gemini 里塞满广告？所谓的 AGI 究竟是营销话术还是科学定义？

最令人印象深刻的是他对“智能载体”的断言。在纪录片《The Thinking Game》中，这位曾开发出 AlphaGo 的天才不得不拿着手机，笨拙地对着物体询问 AI。他在采访中直言不讳：“这种体验太蠢了。” 他预言，智能眼镜才是 AI 的终极形态，而这个未来甚至不需要等到明年。

不同于外界对“AI 泡沫”的恐慌，Demis 展现出了一种巨头的从容：“如果泡沫破裂，那是 PPT 公司的灾难。对于谷歌这样拥有深厚技术栈和庞大业务底座的公司，无论何种情况，我们都处于有利位置。”

以下是这场对话的完整记录，涵盖了从技术架构到人类未来的方方面面。

打破“撞墙论”与 AI 的“金鱼记忆”

Alex Kantrowitz：让我们把时间拨回一年前。当时行业里弥漫着一种质疑声，大家都在问：AI 的进步是不是要停滞了？大语言模型（LLM）是不是要撞墙了？但这一年过去了，这种质疑似乎已经被事实打破了。你能告诉我们，具体发生了什么，让 AI 行业从去年的质疑时刻走到了今天的繁荣？

Demis Hassabis：说实话，对于我们 DeepMind 内部来说，我们要澄清一点：我们从未质疑过这一点。

我们一直看到性能在稳步、巨大的提升。所以，当我们听到外界这种“撞墙论”时，甚至感到有些困惑。当时人们主要的担忧是数据枯竭——认为互联网上的高质量文本数据已经被训练光了。这确实有一定道理，人们担心如果没有新数据，或者合成数据（Synthetic Data）不够好，模型就会停滞。

但事实证明，我们可以从现有的架构和数据中“榨取”出更多的果汁。无论是在预训练（Pre-training）阶段，还是后训练（Post-training）阶段，亦或是思维链（Thinking Paradigms）的引入，甚至是将这些技术组合的方式上，都还有巨大的优化空间。仅仅是利用我们已知的技术进行微调和创新，我们就已经获得了巨大的提升，而且这种提升空间依然很大。

Alex Kantrowitz：这里我想扮演一下怀疑论者的角色。批评者会说，过去一年的很多进步，其实是在 LLM 上面加了一层“技巧”。比如现在的 AI 可以联网搜索了，但这通常是通过“脚手架”（Scaffolding）或“编排”（Orchestration）来实现的。

最典型的例子是：AI 虽然能用工具去搜索网页，但它记不住它学到的东西。一旦我关掉这个对话窗口，它就忘得一干二净。这就像是“金鱼的记忆”。这难道不是大语言模型范式的一个根本性局限吗？

Demis Hassabis：我完全理解这个观点。事实上，我自己也属于那个阵营：我认为在通往 AGI（通用人工智能）的道路上，我们可能还需要一两个巨大的突破。

仅仅靠把现有的模型做大（Scaling），可能不足以解决所有问题。我认为这些突破将发生在以下几个方向：

持续学习（Continual Learning）：让模型在部署后还能通过交互更新自己的权重。

更好的记忆机制：不是简单地把所有东西都塞进上下文窗口（Context Window），而是像人脑一样，只记住重要的、关键的信息。这才是更高效的记忆方式。

长期规划与推理（Long-term Planning and Reasoning）：让 AI 能够为了一个长远目标进行多步推理。

现在的争论焦点在于：是简单地通过扩大现有技术的规模就能涌现出这些能力？还是我们需要发明全新的架构？如果你非要逼我选边站，我会倾向于后者——我们需要一些新的发明。

但是，无论你属于哪个阵营，有一点我是确信的：大模型（Foundation Models）将是最终 AGI 系统的核心组件。我不同意像 Yann LeCun 那样的观点，认为大模型是死胡同。我认为哪怕有新突破，大模型也会是那个最重要的基石。DeepMind 的优势在于，我们有足够深厚的研究底蕴，可以双管齐下：一边将现有的 Transformer 架构推向极致，一边探索那些全新的、蓝天般的架构创新。

Alex Kantrowitz：如果一个系统里有很多硬编码（Hard-coded）的东西，它还能被称作 AGI 吗？

Demis Hassabis：这取决于你对“很多”的定义。我对混合系统（Hybrid Systems），或者叫神经符号系统（Neuro-symbolic）非常感兴趣。

你看我们的 AlphaFold 和 AlphaGo，它们其实就是混合系统。它们结合了神经网络（深度学习）和经典的搜索算法（如蒙特卡洛树搜索）。这种结合创造了历史。

但我认为，是否属于 AGI 的核心在于“学习”。学习是智能的同义词。如果我们说一个系统是通用的（General），那意味着它必须具备通用学习能力。它必须能学习新知识，并且能跨领域学习。如果一个系统只能靠工程师手动写入规则，那它肯定不是 AGI。

Alex Kantrowitz：关于持续学习，你刚才提到这是目前的短板。现在的模型只要会话结束就“失忆”了。你对于如何解决这个问题有理论了吗？

Demis Hassabis：我们有一些线索，也在非常努力地攻克它。

如果你看 AlphaZero（AlphaGo 的进阶版），它就是从零开始学习的。它不需要人类的棋谱，完全通过自我对弈来积累知识。但问题是，游戏是一个非常封闭、规则明确的领域。现实世界则要混乱得多。

我们目前知道的方法在狭窄领域（如游戏）是有效的，但能否扩展（Scale）并泛化（Generalize）到混乱的现实世界，还有待观察。但我们目前的 AI 系统已经能做很多令人印象深刻的事情了。现在的挑战是，能否将这种“从经验中学习”的能力，融合进预训练的大模型中。

目前的大模型，虽然在训练阶段是在“学习”，但我们更希望它能在“出厂”后，在与用户的交互中继续学习。这不仅仅是把你的数据放进上下文窗口那么简单，而是要让模型本身发生改变。这一步，目前还没有被完美解决。

AGI 不是营销术语，而是要能拿诺贝尔奖

Alex Kantrowitz：我们已经多次提到 AGI 了。去年年底我采访 Sam Altman 时，他说 AGI 的定义其实很模糊，他甚至希望大家能达成一个共识：既然定义不清，不如这就当做我们已经“嗖”地一下经过了 AGI，直接迈向超级智能了。你同意这种说法吗？

Demis Hassabis：（笑）我肯定他希望大家这么想。但我绝对不同意。AGI 不应该被变成一个为了商业利益服务的营销术语。

AGI 应该有一个科学的定义。我的定义一直是：一个能够执行人类所能做的所有认知任务的系统。

请注意，我说的是“所有”。这意味着它不仅要能像现在的 AI 这样写代码、画图，它还要能达到人类创造力的巅峰。

它不仅要能解一道已知的数学题，还要能像拉马努金那样，凭借直觉提出全新的数学猜想。

它不仅要能解决已知的科学问题，还要能像爱因斯坦提出广义相对论那样，提出全新的物理理论。

它不仅要能模仿艺术风格，还要能像毕加索或莫扎特那样，开创前所未有的艺术流派。

目前我们的系统，无论解决了多少像 AlphaFold 这样的难题，距离这种真正的“创造性突破”还有很长的路要走。人类的大脑做到了这一点，最聪明的人类做到了，所以这在物理上是可行的。但 AGI 必须具备在任何领域都能做到这一点的潜力。

此外，我还要加上物理智能（Physical Intelligence）。不仅仅是脑力劳动。看看达沃斯街头的运动员，或者普通的蓝领工人，他们对身体的控制能力、在物理世界中的灵巧性，是目前的机器人望尘莫及的。AGI 必须包含这种与物理世界交互的能力。

所以我认为，真正的 AGI 离我们还有 5 到 10 年的距离。

Alex Kantrowitz：如果一个系统能做到你说的这一切——提出相对论、开创艺术流派、像运动员一样运动——那这不已经是“超级智能”了吗？为什么你觉得这还是 AGI？

Demis Hassabis：不，这只是达到了人类智能的巅峰。

所谓的超级智能（Superintelligence），在我看来，是指那些人类大脑完全无法理解的维度。比如，人类很难在 14 维空间里进行直观思考；人类无法直接将大脑连接到气象卫星上处理海量数据。如果一个系统能做到这些人类生理结构做不到的事情，那才是超级智能。那是 AGI 之后的话题。

Alex Kantrowitz：在 Google DeepMind 的播客里，有人问你现在有没有哪个系统接近 AGI。你的回答让我很惊讶。你没有说 Gemini Ultra，你说的是 Nano Banana（注：DeepMind 内部的一个图像生成模型代号）。为什么一个画图的模型会比大语言模型更接近 AGI？

Demis Hassabis：（笑）那是开玩笑的名字，有时候你得给这些项目起点有趣的名字。

但我提它是有原因的。不仅仅是图像生成，还有我们的视频生成模型 Veo。如果你仔细想想，一个视频模型能生成一段 10 秒、20 秒极其逼真的视频，这意味着什么？这意味着它内部构建了一个物理世界的模型（World Model）。它拥有了“直觉物理学”——它知道杯子掉在地上会碎，水倒出来会流，物体之间有遮挡关系。

这种对物理世界因果关系和运作机制的“理解”，是实现 AGI 的关键。想象一下机器人技术。如果你想要一个能为你做家务的机器人，它必须能在脑海中“模拟”未来：如果我这么做，会发生什么？它需要预测未来的轨迹。目前的语言模型虽然能写诗，但缺乏这种对物理世界的扎实理解。

所以，多模态模型（Gemini 从一开始就是原生多模态）之所以重要，是因为它试图将视觉、听觉、视频和语言融合在一起，形成一个完整的世界认知。这才是通往通用助手的必经之路。

智能眼镜的“iPhone 时刻”与广告的信任危机

Alex Kantrowitz：让我们聊聊产品。我看了你们的纪录片《The Thinking Game》，有 300 多万人也看了。片子里有个细节特别逗：你和你那个才华横溢的团队，居然还得像普通游客一样，拿着手机对着某个物体，然后问 AI 助手“这是什么？”或者“发生了什么？”。

我在屏幕前都忍不住喊：“这哥们需要一副眼镜啊！”手机这个形态显然不对劲。

Demis Hassabis：你完全说到了点子上。这也正是我们在内部“狗粮”（Dogfooding，意为内部测试）产品时得出的结论。