Hassabis：真正的机会在工作流深处晚点再听LaterCast

"持续学习、长期推理和一部分记忆能力，仍然没有解决。"

"如果你的 AGI 时间线是 2030 年，今天做深科技，就要考虑 AGI 会在半路出现。"

"Agent 是通往 AGI 的路径，而我们才刚刚开始。"

Demis Hassabis 的履历很少能被一句话装下。他小时候是国际象棋神童，17 岁设计出游戏《Theme Park》，后来读认知神经科学博士，2010 年共同创办 DeepMind。AlphaGo 赢下围棋世界冠军，AlphaFold 解决蛋白质结构预测这个 50 年难题，并免费开放给全球科研人员使用；这项工作让他拿到 2024 年诺贝尔化学奖。YC 这场对话里，Garry Tan 没让他讲励志故事，而是连续追问：AGI 还差什么，Agent 现在到底能做什么，工程师和创业者该往哪里走。Demis 给出的答案很克制：能力曲线还在涨，但几个基础部件没有补齐；眼下最先改变的，可能是工程师、创业者和深科技团队组织工作的方式。

AGI 还差几块硬骨头

开场第一个问题就很硬：现在的大规模预训练、RLHF、思维链，离 AGI 的最终架构还有多远？Demis 的回答并不悲观。他认为这些组件会留在最终系统里，过去几年已经证明了太多能力，过两年再说整条路线走错了，并不合理。但他也没有把当下模型直接等同于 AGI。持续学习、长期推理、记忆，以及跨任务稳定性，仍是没啃完的部分。DeepMind 的策略也因此分成两条线：一边继续放大已经有效的方法，一边寻找可能还缺的一两个大想法。

"我很确定这些组件会成为 AGI 最终架构的一部分，但在我们已经知道有效的东西之上，可能还缺一两个东西。"

这段判断对工程团队很现实。今天用模型做产品，不能只问“模型够不够聪明”，还要问它能不能在一个长期项目里持续吸收上下文，能不能把昨天的失败变成今天的判断，能不能在复杂流程里保持一致。很多 Agent 产品卡住的地方，恰好不在 demo，而在这些长期性能力。

他还把自己的时间线说得很直白：大约 2030 年。如果一个深科技项目通常要跑 10 年，今天动手的人，项目半程就可能撞上 AGI。这个判断会改变路线图：技术债、数据资产、实验平台、工具接口，都要预留给一个更强系统接手。

大上下文救不了所有记忆

谈到记忆，Demis 回到自己的博士研究：海马体如何把新的情节记忆整合进已有知识。DeepMind 早期的 Atari 程序 DQN，就借鉴过“经验回放”，反复重放成功轨迹来学习。今天的模型有百万甚至千万 token 的上下文，看上去比人的工作记忆大得多，但做法仍粗糙：把重要的、不重要的、甚至错误的东西一股脑塞进去。能存下来和能在决策时找到正确材料，是两回事。

"我们现在有百万、千万 token 的上下文窗口，但问题是，我们试图把所有东西都存在里面。"

他还给了一个很具体的尺度：如果系统要实时处理视频，朴素记录所有 token，百万 token 可能只够 20 分钟。一个想理解用户一两个月生活状态的助手，需要的不只是更长窗口，还需要会筛选、会整理、会调取的记忆系统。这也是做个人助理、企业知识库、长期项目 Agent 时最容易被低估的基础设施。

AlphaGo 的老方法回到 Gemini

DeepMind 从第一天就把自己放在 Agent 路线上。Atari、AlphaGo、AlphaZero、AlphaStar，都是会设目标、做决策、制定计划的系统，只是它们先在游戏里训练，因为游戏可控、反馈明确。现在的问题变成：这些模型能不能从游戏世界泛化到语言、现实世界和工具使用？Demis 认为，今天带 thinking mode、chain of thought 的前沿模型，很多影子都能追到 AlphaGo。强化学习和搜索没有过时，它们正在以更通用的方式回来。

"我们从 DeepMind 一开始就研究 Agent。Atari 和 AlphaGo，尤其是 AlphaGo，都是 Agent 系统。"

这也是为什么“只把 LLM 接上工具”很快会遇到天花板。真正能跑长任务的系统，需要搜索、规划、反馈、纠错和环境交互。AlphaGo 年代的 Monte Carlo tree search、强化学习增强、世界模型思路，放到今天的基础模型上，会变成下一波能力改进的来源。

小模型把速度还给工程师

Garry Tan 提到一个现场感很强的观察：房间里有些工程师，工作量已经达到 2000 年代 Google 工程师的 1000 倍。Demis 接住了这个说法，随即把焦点放到小模型的速度上。Google 要把 Gemini 用在搜索、AI Overview、Gemini App、Maps、YouTube 等十几个十亿级产品里，必须把前沿模型的能力快速蒸馏进 Flash、Flash-Lite、Gemma 这类更小、更快、更便宜的模型。

"如果一个系统有前沿模型 90% 或 95% 的能力，已经足够好；你会从迭代速度里把那 10% 赚回来。"

这对写代码很直接。协作式编程里，等待时间会打断思路；模型稍弱一点，但能快速生成、快速改、快速本地运行，反而让人保持流动。Demis 还提到边缘设备、隐私和机器人：家里的机器人、手机上的个人音视频流，很多内容应该先在本地处理，只有少数场景再交给云端大模型。

他对小模型上限也没有给出悲观判断。一个前沿 Pro 模型发布半年到一年后，其中很多能力会被压进更小的边缘模型和 Gemma 这样的开放模型。软件团队会因此多出一层选择：复杂规划用大模型，频繁编辑、测试、重构、检索用便宜快模型，整个工具链的手感会明显不同。

Agent 才走到能干活的早期

当问题转向 Agent 是否被炒过头，Demis 的回答很清楚：它们刚开始。要到 AGI，系统必须能主动解决问题，Agent 就是那条路。但他也看到，过去几个月大家还在实验如何把 Agent 放进工作流里。很多团队会同时启动几十个 Agent 跑 40 小时，他还没看到产出完全配得上投入。Agent 已经能做任务的一部分，距离“交给它就能自己收尾”还有一段路。

"它们现在能处理任务的某些部分，你可以把它们拼起来做出很酷的东西，但它们还不能很好适应你所在的上下文。"

他把缺口指向持续学习。企业里的工单、代码库、客户记录、权限系统和历史决策，都不是一次 prompt 能交代完的材料。Agent 要长期可靠，必须学会特定环境里的背景和偏好。今天很多“自动化”看起来热闹，落到真实工作时仍需要人盯着，原因就在这里。

推理也有类似断层。Demis 会拿 Gemini 下棋，看它的思考轨迹：模型有时会发现一步棋是坏棋，却找不到更好选择，于是又走回那步坏棋。同一个系统能解 IMO 金牌级数学题，也可能在某些提问方式下犯基础错误。产品经理评估 Agent 时，不能只看最亮的样例，还要看它在坏局面里能不能停下来改路线。

Vibe coding 还缺手艺和品味

Demis 年轻时做《Theme Park》花了 6 个月。现在他用 AI 半小时就能做出原型，这件事让他觉得震撼。可他也追问了一个简单事实：如果工具已经能把个人产能放大到 1000x，为什么还没看到一个孩子 vibe coding 出登顶应用商店的 3A 游戏？他的判断很朴素：还差工艺、人的灵魂和品味。工具能把原型速度拉满，产品能不能打动人，仍要看操作者的审美、耐心和取舍。

"我能在半小时里做出 Theme Park 的原型，当年我 17 岁时花了 6 个月，这很惊人；但它仍然需要手艺、人的灵魂和品味。"

他用 AlphaGo 的第 37 手解释创造力：AI 能走出人类意想不到的一步，但发明围棋是另一层能力。给系统一句高层描述，“五分钟学规则，几辈子才能精通，下午能玩完，还要有美感”，它能不能返回一个像围棋那样的游戏？Demis 认为今天还没有看到，但也承认，可能只差一个足够强的创作者把系统用对。

多模态让模型走进物理世界

Gemini 从一开始就按多模态训练，这让早期研发更难，因为团队不能只盯文本。但 Demis 认为这笔账正在回收：世界模型 Genie、Gemini Robotics、自动驾驶和随身设备，都需要模型理解物理环境、直觉物理和现场上下文。一个陪你走进现实世界的助手，不能只会读文档，也要看得懂你所在的房间、手里的物体和正在发生的动作。

"Gemini 系列从一开始就是多模态的。起步时这让事情更难，但我们相信长期会从中获益。"

推理成本下降以后，很多人期待“无限便宜的智能”。Demis 反而提醒会出现类似 Jevons 悖论的消耗：只要算力便宜，人们会用更多 Agent 群、更多方向并行思考、更多结果集成，把可用推理吃完。做产品时，成本下降当然重要，但把计算花在哪些判断上、哪些任务适合本地跑，仍会影响体验和毛利。

这也是 Google 把多模态和本地模型放在同一张路线图里的原因。眼镜、手机、车、机器人会产生连续的图像、语音、位置和动作流，全部送到云端并不现实。未来的助手可能先在设备上理解世界，再把少数高难决策交给云端模型。

创业者要押注原子世界

YC 现场很多人想做 AI for science。Garry 追问：怎样区分推进前沿的创业公司，和只是把 API 包一层的公司？Demis 给出的路线很明确：把 AI 的发展方向和另一个深技术领域相交，尤其是材料、医学、药物发现这些涉及物理世界的地方。只要业务进入原子世界，就不会被下一次基础模型更新轻易淹没。最耐久的公司，往往把机器学习和某个硬领域同时做深。

"如果它涉及原子世界，至少在可预见的未来，就不会有捷径。"

AlphaFold 的突破也有规律：巨大的组合搜索空间、清晰的目标函数、足够数据或可生成数据的模拟器。围棋有胜负，蛋白质有能量最小化，药物发现也像在巨大空间里找能治病且副作用可控的化合物。Demis 还提到“虚拟细胞”：完整模拟一个细胞，对它施加扰动，输出足够接近实验结果。他估计完整虚拟细胞大约还要 10 年，DeepMind 先从相对自洽的细胞核开始。

在科学推理上，他也没有提前宣布胜利。DeepMind 有 co-scientist，也有 AlphaEvolve，能比基础 Gemini 多走一步；但他还没看到系统独立做出重大科学发现。Demis 想看的测试更苛刻：给模型 1901 年以前的物理知识，看它能不能在 1905 年那样提出狭义相对论。能解题还不够，能提出让顶尖科学家投入一生的新题，才是另一层创造力。

Demis 给创业者最后一句话很值得放在桌面上：如果你今天开始一段 10 年深科技旅程，就要认真设想 AGI 在中途出现。别把它当远方新闻，也别把它当万能替身。更稳的做法，是挑一个足够难、足够具体、AI 到来后反而更能放大的工作，然后现在就开始积累。