Hassabis:真正的机会在工作流深处晚点再听LaterCast
"持续学习、长期推理和一部分记忆能力,仍然没有解决。"
"如果你的 AGI 时间线是 2030 年,今天做深科技,就要考虑 AGI 会在半路出现。"
"Agent 是通往 AGI 的路径,而我们才刚刚开始。"
Demis Hassabis 的履历很少能被一句话装下。他小时候是国际象棋神童,17 岁设计出游戏《Theme Park》,后来读认知神经科学博士,2010 年共同创办 DeepMind。AlphaGo 赢下围棋世界冠军,AlphaFold 解决蛋白质结构预测这个 50 年难题,并免费开放给全球科研人员使用;这项工作让他拿到 2024 年诺贝尔化学奖。YC 这场对话里,Garry Tan 没让他讲励志故事,而是连续追问:AGI 还差什么,Agent 现在到底能做什么,工程师和创业者该往哪里走。Demis 给出的答案很克制:能力曲线还在涨,但几个基础部件没有补齐;眼下最先改变的,可能是工程师、创业者和深科技团队组织工作的方式。
AGI 还差几块硬骨头
开场第一个问题就很硬:现在的大规模预训练、RLHF、思维链,离 AGI 的最终架构还有多远?Demis 的回答并不悲观。他认为这些组件会留在最终系统里,过去几年已经证明了太多能力,过两年再说整条路线走错了,并不合理。但他也没有把当下模型直接等同于 AGI。持续学习、长期推理、记忆,以及跨任务稳定性,仍是没啃完的部分。DeepMind 的策略也因此分成两条线:一边继续放大已经有效的方法,一边寻找可能还缺的一两个大想法。
"我很确定这些组件会成为 AGI 最终架构的一部分,但在我们已经知道有效的东西之上,可能还缺一两个东西。"
这段判断对工程团队很现实。今天用模型做产品,不能只问“模型够不够聪明”,还要问它能不能在一个长期项目里持续吸收上下文,能不能把昨天的失败变成今天的判断,能不能在复杂流程里保持一致。很多 Agent 产品卡住的地方,恰好不在 demo,而在这些长期性能力。
他还把自己的时间线说得很直白:大约 2030 年。如果一个深科技项目通常要跑 10 年,今天动手的人,项目半程就可能撞上 AGI。这个判断会改变路线图:技术债、数据资产、实验平台、工具接口,都要预留给一个更强系统接手。
大上下文救不了所有记忆
谈到记忆,Demis 回到自己的博士研究:海马体如何把新的情节记忆整合进已有知识。DeepMind 早期的 Atari 程序 DQN,就借鉴过“经验回放”,反复重放成功轨迹来学习。今天的模型有百万甚至千万 token 的上下文,看上去比人的工作记忆大得多,但做法仍粗糙:把重要的、不重要的、甚至错误的东西一股脑塞进去。能存下来和能在决策时找到正确材料,是两回事。
"我们现在有百万、千万 token 的上下文窗口,但问题是,我们试图把所有东西都存在里面。"
他还给了一个很具体的尺度:如果系统要实时处理视频,朴素记录所有 token,百万 token 可能只够 20 分钟。一个想理解用户一两个月生活状态的助手,需要的不只是更长窗口,还需要会筛选、会整理、会调取的记忆系统。这也是做个人助理、企业知识库、长期项目 Agent 时最容易被低估的基础设施。
AlphaGo 的老方法回到 Gemini
DeepMind 从第一天就把自己放在 Agent 路线上。Atari、AlphaGo、AlphaZero、AlphaStar,都是会设目标、做决策、制定计划的系统,只是它们先在游戏里训练,因为游戏可控、反馈明确。现在的问题变成:这些模型能不能从游戏世界泛化到语言、现实世界和工具使用?Demis 认为,今天带 thinking mode、chain of thought 的前沿模型,很多影子都能追到 AlphaGo。强化学习和搜索没有过时,它们正在以更通用的方式回来。
"我们从 DeepMind 一开始就研究 Agent。Atari 和 AlphaGo,尤其是 AlphaGo,都是 Agent 系统。"
这也是为什么“只把 LLM 接上工具”很快会遇到天花板。真正能跑长任务的系统,需要搜索、规划、反馈、纠错和环境交互。AlphaGo 年代的 Monte Carlo tree search、强化学习增强、世界模型思路,放到今天的基础模型上,会变成下一波能力改进的来源。
小模型把速度还给工程师
Garry Tan 提到一个现场感很强的观察:房间里有些工程师,工作量已经达到 2000 年代 Google 工程师的 1000 倍。Demis 接住了这个说法,随即把焦点放到小模型的速度上。Google 要把 Gemini 用在搜索、AI Overview、Gemini App、Maps、YouTube 等十几个十亿级产品里,必须把前沿模型的能力快速蒸馏进 Flash、Flash-Lite、Gemma 这类更小、更快、更便宜的模型。
"如果一个系统有前沿模型 90% 或 95% 的能力,已经足够好;你会从迭代速度里把那 10% 赚回来。"
这对写代码很直接。协作式编程里,等待时间会打断思路;模型稍弱一点,但能快速生成、快速改、快速本地运行,反而让人保持流动。Demis 还提到边缘设备、隐私和机器人:家里的机器人、手机上的个人音视频流,很多内容应该先在本地处理,只有少数场景再交给云端大模型。
他对小模型上限也没有给出悲观判断。一个前沿 Pro 模型发布半年到一年后,其中很多能力会被压进更小的边缘模型和 Gemma 这样的开放模型。软件团队会因此多出一层选择:复杂规划用大模型,频繁编辑、测试、重构、检索用便宜快模型,整个工具链的手感会明显不同。
Agent 才走到能干活的早期
当问题转向 Agent 是否被炒过头,Demis 的回答很清楚:它们刚开始。要到 AGI,系统必须能主动解决问题,Agent 就是那条路。但他也看到,过去几个月大家还在实验如何把 Agent 放进工作流里。很多团队会同时启动几十个 Agent 跑 40 小时,他还没看到产出完全配得上投入。Agent 已经能做任务的一部分,距离“交给它就能自己收尾”还有一段路。
"它们现在能处理任务的某些部分,你可以把它们拼起来做出很酷的东西,但它们还不能很好适应你所在的上下文。"
他把缺口指向持续学习。企业里的工单、代码库、客户记录、权限系统和历史决策,都不是一次 prompt 能交代完的材料。Agent 要长期可靠,必须学会特定环境里的背景和偏好。今天很多“自动化”看起来热闹,落到真实工作时仍需要人盯着,原因就在这里。
推理也有类似断层。Demis 会拿 Gemini 下棋,看它的思考轨迹:模型有时会发现一步棋是坏棋,却找不到更好选择,于是又走回那步坏棋。同一个系统能解 IMO 金牌级数学题,也可能在某些提问方式下犯基础错误。产品经理评估 Agent 时,不能只看最亮的样例,还要看它在坏局面里能不能停下来改路线。
Vibe coding 还缺手艺和品味
Demis 年轻时做《Theme Park》花了 6 个月。现在他用 AI 半小时就能做出原型,这件事让他觉得震撼。可他也追问了一个简单事实:如果工具已经能把个人产能放大到 1000x,为什么还没看到一个孩子 vibe coding 出登顶应用商店的 3A 游戏?他的判断很朴素:还差工艺、人的灵魂和品味。工具能把原型速度拉满,产品能不能打动人,仍要看操作者的审美、耐心和取舍。
"我能在半小时里做出 Theme Park 的原型,当年我 17 岁时花了 6 个月,这很惊人;但它仍然需要手艺、人的灵魂和品味。"
他用 AlphaGo 的第 37 手解释创造力:AI 能走出人类意想不到的一步,但发明围棋是另一层能力。给系统一句高层描述,“五分钟学规则,几辈子才能精通,下午能玩完,还要有美感”,它能不能返回一个像围棋那样的游戏?Demis 认为今天还没有看到,但也承认,可能只差一个足够强的创作者把系统用对。
多模态让模型走进物理世界
Gemini 从一开始就按多模态训练,这让早期研发更难,因为团队不能只盯文本。但 Demis 认为这笔账正在回收:世界模型 Genie、Gemini Robotics、自动驾驶和随身设备,都需要模型理解物理环境、直觉物理和现场上下文。一个陪你走进现实世界的助手,不能只会读文档,也要看得懂你所在的房间、手里的物体和正在发生的动作。
"Gemini 系列从一开始就是多模态的。起步时这让事情更难,但我们相信长期会从中获益。"
推理成本下降以后,很多人期待“无限便宜的智能”。Demis 反而提醒会出现类似 Jevons 悖论的消耗:只要算力便宜,人们会用更多 Agent 群、更多方向并行思考、更多结果集成,把可用推理吃完。做产品时,成本下降当然重要,但把计算花在哪些判断上、哪些任务适合本地跑,仍会影响体验和毛利。
这也是 Google 把多模态和本地模型放在同一张路线图里的原因。眼镜、手机、车、机器人会产生连续的图像、语音、位置和动作流,全部送到云端并不现实。未来的助手可能先在设备上理解世界,再把少数高难决策交给云端模型。
创业者要押注原子世界
YC 现场很多人想做 AI for science。Garry 追问:怎样区分推进前沿的创业公司,和只是把 API 包一层的公司?Demis 给出的路线很明确:把 AI 的发展方向和另一个深技术领域相交,尤其是材料、医学、药物发现这些涉及物理世界的地方。只要业务进入原子世界,就不会被下一次基础模型更新轻易淹没。最耐久的公司,往往把机器学习和某个硬领域同时做深。
"如果它涉及原子世界,至少在可预见的未来,就不会有捷径。"
AlphaFold 的突破也有规律:巨大的组合搜索空间、清晰的目标函数、足够数据或可生成数据的模拟器。围棋有胜负,蛋白质有能量最小化,药物发现也像在巨大空间里找能治病且副作用可控的化合物。Demis 还提到“虚拟细胞”:完整模拟一个细胞,对它施加扰动,输出足够接近实验结果。他估计完整虚拟细胞大约还要 10 年,DeepMind 先从相对自洽的细胞核开始。
在科学推理上,他也没有提前宣布胜利。DeepMind 有 co-scientist,也有 AlphaEvolve,能比基础 Gemini 多走一步;但他还没看到系统独立做出重大科学发现。Demis 想看的测试更苛刻:给模型 1901 年以前的物理知识,看它能不能在 1905 年那样提出狭义相对论。能解题还不够,能提出让顶尖科学家投入一生的新题,才是另一层创造力。
Demis 给创业者最后一句话很值得放在桌面上:如果你今天开始一段 10 年深科技旅程,就要认真设想 AGI 在中途出现。别把它当远方新闻,也别把它当万能替身。更稳的做法,是挑一个足够难、足够具体、AI 到来后反而更能放大的工作,然后现在就开始积累。


