Demis:无论泡沫破裂与否,谷歌都是赢家AI科技大本营
如果说 Sam Altman 是 AI 时代的布道者,善于用宏大的愿景点燃公众的想象力;那么 Demis Hassabis 更像是一位在实验室里盯着显微镜的科学家,冷静、严谨,对“炒作”有着天然的免疫力。
一年前,当整个硅谷都在因为 ChatGPT 的红利期似乎见顶而焦虑,甚至开始讨论“大语言模型(LLM)是否撞墙”时,Demis 却感到困惑。在他看来,进步从未停止。他掌舵的 Google DeepMind 刚刚经历了 AlphaFold 3 的高光时刻,正试图将 AI 的触角从简单的聊天机器人延伸到生物学、物理学乃至材料科学的最深处。
在达沃斯的一间木质会议室里,Demis 近期接受了 Big Technology 播客的专访。这场对话的特别之处在于,他没有回避那些尖锐的问题:现在的 AI 是不是只有“金鱼记忆”?谷歌会不会为了财报在 Gemini 里塞满广告?所谓的 AGI 究竟是营销话术还是科学定义?
最令人印象深刻的是他对“智能载体”的断言。在纪录片《The Thinking Game》中,这位曾开发出 AlphaGo 的天才不得不拿着手机,笨拙地对着物体询问 AI。他在采访中直言不讳:“这种体验太蠢了。” 他预言,智能眼镜才是 AI 的终极形态,而这个未来甚至不需要等到明年。
不同于外界对“AI 泡沫”的恐慌,Demis 展现出了一种巨头的从容:“如果泡沫破裂,那是 PPT 公司的灾难。对于谷歌这样拥有深厚技术栈和庞大业务底座的公司,无论何种情况,我们都处于有利位置。”
以下是这场对话的完整记录,涵盖了从技术架构到人类未来的方方面面。
打破“撞墙论”与 AI 的“金鱼记忆”
Alex Kantrowitz: 让我们把时间拨回一年前。当时行业里弥漫着一种质疑声,大家都在问:AI 的进步是不是要停滞了?大语言模型(LLM)是不是要撞墙了?但这一年过去了,这种质疑似乎已经被事实打破了。你能告诉我们,具体发生了什么,让 AI 行业从去年的质疑时刻走到了今天的繁荣?
Demis Hassabis: 说实话,对于我们 DeepMind 内部来说,我们要澄清一点:我们从未质疑过这一点。
我们一直看到性能在稳步、巨大的提升。所以,当我们听到外界这种“撞墙论”时,甚至感到有些困惑。当时人们主要的担忧是数据枯竭——认为互联网上的高质量文本数据已经被训练光了。这确实有一定道理,人们担心如果没有新数据,或者合成数据(Synthetic Data)不够好,模型就会停滞。
但事实证明,我们可以从现有的架构和数据中“榨取”出更多的果汁。无论是在预训练(Pre-training)阶段,还是后训练(Post-training)阶段,亦或是思维链(Thinking Paradigms)的引入,甚至是将这些技术组合的方式上,都还有巨大的优化空间。仅仅是利用我们已知的技术进行微调和创新,我们就已经获得了巨大的提升,而且这种提升空间依然很大。
Alex Kantrowitz: 这里我想扮演一下怀疑论者的角色。批评者会说,过去一年的很多进步,其实是在 LLM 上面加了一层“技巧”。比如现在的 AI 可以联网搜索了,但这通常是通过“脚手架”(Scaffolding)或“编排”(Orchestration)来实现的。
最典型的例子是:AI 虽然能用工具去搜索网页,但它记不住它学到的东西。一旦我关掉这个对话窗口,它就忘得一干二净。这就像是“金鱼的记忆”。 这难道不是大语言模型范式的一个根本性局限吗?
Demis Hassabis: 我完全理解这个观点。事实上,我自己也属于那个阵营:我认为在通往 AGI(通用人工智能)的道路上,我们可能还需要一两个巨大的突破。
仅仅靠把现有的模型做大(Scaling),可能不足以解决所有问题。我认为这些突破将发生在以下几个方向:
持续学习(Continual Learning): 让模型在部署后还能通过交互更新自己的权重。
更好的记忆机制: 不是简单地把所有东西都塞进上下文窗口(Context Window),而是像人脑一样,只记住重要的、关键的信息。这才是更高效的记忆方式。
长期规划与推理(Long-term Planning and Reasoning): 让 AI 能够为了一个长远目标进行多步推理。
现在的争论焦点在于:是简单地通过扩大现有技术的规模就能涌现出这些能力?还是我们需要发明全新的架构? 如果你非要逼我选边站,我会倾向于后者——我们需要一些新的发明。
但是,无论你属于哪个阵营,有一点我是确信的:大模型(Foundation Models)将是最终 AGI 系统的核心组件。 我不同意像 Yann LeCun 那样的观点,认为大模型是死胡同。我认为哪怕有新突破,大模型也会是那个最重要的基石。DeepMind 的优势在于,我们有足够深厚的研究底蕴,可以双管齐下:一边将现有的 Transformer 架构推向极致,一边探索那些全新的、蓝天般的架构创新。
Alex Kantrowitz: 如果一个系统里有很多硬编码(Hard-coded)的东西,它还能被称作 AGI 吗?
Demis Hassabis: 这取决于你对“很多”的定义。我对混合系统(Hybrid Systems),或者叫神经符号系统(Neuro-symbolic)非常感兴趣。
你看我们的 AlphaFold 和 AlphaGo,它们其实就是混合系统。它们结合了神经网络(深度学习)和经典的搜索算法(如蒙特卡洛树搜索)。这种结合创造了历史。
但我认为,是否属于 AGI 的核心在于“学习”。学习是智能的同义词。如果我们说一个系统是通用的(General),那意味着它必须具备通用学习能力。它必须能学习新知识,并且能跨领域学习。如果一个系统只能靠工程师手动写入规则,那它肯定不是 AGI。
Alex Kantrowitz: 关于持续学习,你刚才提到这是目前的短板。现在的模型只要会话结束就“失忆”了。你对于如何解决这个问题有理论了吗?
Demis Hassabis: 我们有一些线索,也在非常努力地攻克它。
如果你看 AlphaZero(AlphaGo 的进阶版),它就是从零开始学习的。它不需要人类的棋谱,完全通过自我对弈来积累知识。但问题是,游戏是一个非常封闭、规则明确的领域。现实世界则要混乱得多。
我们目前知道的方法在狭窄领域(如游戏)是有效的,但能否扩展(Scale)并泛化(Generalize)到混乱的现实世界,还有待观察。但我们目前的 AI 系统已经能做很多令人印象深刻的事情了。现在的挑战是,能否将这种“从经验中学习”的能力,融合进预训练的大模型中。
目前的大模型,虽然在训练阶段是在“学习”,但我们更希望它能在“出厂”后,在与用户的交互中继续学习。这不仅仅是把你的数据放进上下文窗口那么简单,而是要让模型本身发生改变。这一步,目前还没有被完美解决。
AGI 不是营销术语,而是要能拿诺贝尔奖
Alex Kantrowitz: 我们已经多次提到 AGI 了。去年年底我采访 Sam Altman 时,他说 AGI 的定义其实很模糊,他甚至希望大家能达成一个共识:既然定义不清,不如这就当做我们已经“嗖”地一下经过了 AGI,直接迈向超级智能了。你同意这种说法吗?
Demis Hassabis: (笑)我肯定他希望大家这么想。但我绝对不同意。AGI 不应该被变成一个为了商业利益服务的营销术语。
AGI 应该有一个科学的定义。我的定义一直是:一个能够执行人类所能做的所有认知任务的系统。
请注意,我说的是“所有”。这意味着它不仅要能像现在的 AI 这样写代码、画图,它还要能达到人类创造力的巅峰。
它不仅要能解一道已知的数学题,还要能像拉马努金那样,凭借直觉提出全新的数学猜想。
它不仅要能解决已知的科学问题,还要能像爱因斯坦提出广义相对论那样,提出全新的物理理论。
它不仅要能模仿艺术风格,还要能像毕加索或莫扎特那样,开创前所未有的艺术流派。
目前我们的系统,无论解决了多少像 AlphaFold 这样的难题,距离这种真正的“创造性突破”还有很长的路要走。人类的大脑做到了这一点,最聪明的人类做到了,所以这在物理上是可行的。但 AGI 必须具备在任何领域都能做到这一点的潜力。
此外,我还要加上物理智能(Physical Intelligence)。不仅仅是脑力劳动。看看达沃斯街头的运动员,或者普通的蓝领工人,他们对身体的控制能力、在物理世界中的灵巧性,是目前的机器人望尘莫及的。AGI 必须包含这种与物理世界交互的能力。
所以我认为,真正的 AGI 离我们还有 5 到 10 年的距离。
Alex Kantrowitz: 如果一个系统能做到你说的这一切——提出相对论、开创艺术流派、像运动员一样运动——那这不已经是“超级智能”了吗?为什么你觉得这还是 AGI?
Demis Hassabis: 不,这只是达到了人类智能的巅峰。
所谓的超级智能(Superintelligence),在我看来,是指那些人类大脑完全无法理解的维度。 比如,人类很难在 14 维空间里进行直观思考;人类无法直接将大脑连接到气象卫星上处理海量数据。如果一个系统能做到这些人类生理结构做不到的事情,那才是超级智能。那是 AGI 之后的话题。
Alex Kantrowitz: 在 Google DeepMind 的播客里,有人问你现在有没有哪个系统接近 AGI。你的回答让我很惊讶。你没有说 Gemini Ultra,你说的是 Nano Banana(注:DeepMind 内部的一个图像生成模型代号)。为什么一个画图的模型会比大语言模型更接近 AGI?
Demis Hassabis: (笑)那是开玩笑的名字,有时候你得给这些项目起点有趣的名字。
但我提它是有原因的。不仅仅是图像生成,还有我们的视频生成模型 Veo。 如果你仔细想想,一个视频模型能生成一段 10 秒、20 秒极其逼真的视频,这意味着什么?这意味着它内部构建了一个物理世界的模型(World Model)。它拥有了“直觉物理学”——它知道杯子掉在地上会碎,水倒出来会流,物体之间有遮挡关系。
这种对物理世界因果关系和运作机制的“理解”,是实现 AGI 的关键。 想象一下机器人技术。如果你想要一个能为你做家务的机器人,它必须能在脑海中“模拟”未来:如果我这么做,会发生什么?它需要预测未来的轨迹。目前的语言模型虽然能写诗,但缺乏这种对物理世界的扎实理解。
所以,多模态模型(Gemini 从一开始就是原生多模态)之所以重要,是因为它试图将视觉、听觉、视频和语言融合在一起,形成一个完整的世界认知。这才是通往通用助手的必经之路。
智能眼镜的“iPhone 时刻”与广告的信任危机
Alex Kantrowitz: 让我们聊聊产品。我看了你们的纪录片《The Thinking Game》,有 300 多万人也看了。片子里有个细节特别逗:你和你那个才华横溢的团队,居然还得像普通游客一样,拿着手机对着某个物体,然后问 AI 助手“这是什么?”或者“发生了什么?”。
我在屏幕前都忍不住喊:“这哥们需要一副眼镜啊!”手机这个形态显然不对劲。
Demis Hassabis: 你完全说到了点子上。这也正是我们在内部“狗粮”(Dogfooding,意为内部测试)产品时得出的结论。


