Jeff Dean最新访谈:人均50个智能体量子位
谷歌首席AI科学家、传奇工程师Jeff Dean,在最新访谈中放出了一个炸裂预言:
未来每个工程师可能会各自管理50个智能体实习生,完成大量并行任务,而且沟通效率会比人更高效。
未来最重要的技能将会是“写清楚需求”,因为Agent的输出质量完全取决于你如何定义问题。
好家伙,那以后岂不是……写需求比写代码还重要?
Jeff Dean还揭秘了谷歌目前遵循的帕累托前沿策略,新模型的推出主要有两条路线:
一方面是高端前沿模型,用于深度推理、复杂数学问题等高难任务;
另一方面是高性价比模型,用于低延迟场景,比如更流畅的Agent式编程。
想必大家都知道了,Gemini 3 Flash能做到又快又智能,最大的秘诀就在于蒸馏。
Jeff Dean在这期访谈中亲口认证:通过蒸馏,小模型可以非常接近大模型性能。
他们让小模型在大量训练数据上多次迭代学习,同时利用大模型输出的logits信息,让小模型学到更细腻的行为。
这就是为什么Gemini能够做到“下一代Flash ≈ 上一代Pro,甚至更好”。并且他也透露,谷歌内部会持续推进这条路线。
另外,Jeff Dean非常相信“低延迟”的价值:他认为如果延迟降低20-50倍,用户体验会彻底改变。
他还指出,内部一开始就希望Gemini是个多模态模型,但多模态不只是文本、图像、视频、音频这些,让模型理解“非人类”的模态同样非常有用。
比如Waymo车辆的LIDAR传感器数据,或者机器人数据、医疗影像数据等等。未来可能有数百种模态。
在这期访谈中,你还可以了解到:
Jeff Dean早在几十年前就坚信规模化终将取胜,以及“更大的模型、更多的数据、更好的结果”这一信条,这一信条持续了15年;
LLM训练与推理不仅关心计算量,也关心数据搬运成本;对硬件优化、batch size、延迟、吞吐量的设计,都可以用能量消耗作为第一性原则衡量;
TPU和ML研究团队必须紧密互动、协同设计,硬件设计需预测未来2–6年的模型趋势;
Gemini早期资源太分散,Jeff Dean称“这是愚蠢的”;
Jeff Dean给出两个预测:未来真正“个性化”的模型会极其重要,以及低延迟会改变很多应用场景。
以下为本场访谈重点内容实录,围绕核心观点做了摘选整理,部分文字在不改变原意的基础上做了适度删改,enjoy!
蒸馏是Flash模型突破的关键
Shawn Wang:首先得说一句,恭喜你们占据了帕累托前沿。
(编者注:帕累托前沿描述的是多个目标之间权衡时的最优解集合。此处指谷歌既能推出高性能的前沿模型,又能推出低成本、低延迟的高性价比模型,在性能 vs 成本/延迟这两个维度上已经达到了最优权衡状态)
Jeff Dean:谢谢。能站在帕累托前沿当然是好事。
Shawn Wang:是的。我觉得你们做的不只是追求最强能力,还同时兼顾效率,真正“拥有”了帕累托前沿——既有顶级性能,也有成本与效率控制,还提供了完整的模型梯度供用户选择。
这里面有一部分来自你们的硬件工作,一部分来自模型设计,还有很多长期积累的“秘密武器”。看到这一切整合起来,确实令人印象深刻。
Jeff Dean:确实,这不是单一因素,而是从硬件到软件、从系统到模型的全栈协同。
所有这些结合在一起,才能既做出能力极强的大模型,也能通过软件技术把这些能力“压缩”到更小、更轻量、更低成本、更低延迟的模型里,同时仍然保持相当强的能力。
Alessio Fanelli:你们内部,会不会对帕累托前沿的“低端”也有很大压力?
新实验室往往拼命往性能最前沿冲,因为需要融资。但你们有数十亿用户。早年做CPU规划时,如果每个用户每天多用三分钟语音模型,算下来都需要翻倍的算力。
现在在谷歌内部是怎么权衡的?如何在“追求前沿”和“必须规模化部署”之间做决策?
Jeff Dean:我们始终希望拥有站在前沿、甚至推动前沿的模型,因为只有在那里,你才能看到“新能力”的诞生——那些上一代模型不具备的能力。
但我们也清楚,这类模型通常更慢、更贵。很多广泛场景其实更需要低延迟、低成本的模型。
所以我们的策略是同时做两件事:一方面有高端前沿模型,用于深度推理、复杂数学问题等高难任务;
另一方面有高性价比模型,用于低延迟场景,比如更流畅的 Agent 式编程。两者都重要。
而且通过蒸馏技术,我们可以把前沿模型的能力迁移到小模型上。因此这不是“二选一”,反而是相辅相成——没有前沿模型,也很难得到高质量的小模型。
Alessio Fanelli:蒸馏这个方法你和Geoffrey Hinton早在 2014 年就提出了。
Jeff Dean:别忘了Oriol Vinyals。
Alessio Fanelli:这么多年过去,你怎么看待这些技术理念的“周期性”?比如稀疏模型。很多想法在当时未必看起来重要,但后来影响巨大。你们如何判断哪些值得在下一代模型中重新审视?
Jeff Dean:当年做蒸馏,动机其实来自图像任务。
我们有一个 3 亿张图片的数据集。如果针对不同类别训练“专家模型”——比如一个专门识别哺乳动物,一个专门识别室内场景——然后做成 50 个模型的集成,效果会很好。但显然不可能线上部署50个模型。
于是我们想:能否把这些专家模型“压缩”进一个更小、可部署的模型里?这就是蒸馏的由来。今天其实逻辑类似,只不过我们不是蒸馏50个模型,而是从一个极大规模模型蒸馏到小模型。
Shawn Wang:蒸馏和强化学习革命之间是不是也有关联?比如RL会在某些能力分布上“打尖”,但可能牺牲其他区域。
如果能通过蒸馏把能力重新平衡回来,实现“能力合并而不退化”,那是不是理想状态?
Jeff Dean:蒸馏的关键优势之一,是小模型可以在大量训练数据上多次迭代学习,同时利用大模型输出的 logits 信息,而不仅是硬标签。这能引导小模型学到更细腻的行为。
实践中我们确实发现,小模型可以非常接近大模型性能。
这也是为什么在多个Gemini世代中,我们都能做到“下一代Flash ≈ 上一代Pro,甚至更好”。这是一条我们会持续推进的路径。
Shawn Wang:那Ultra呢?是不是内部有一个“母体模型”一直在蒸馏?
Jeff Dean:我们有很多不同规模和用途的模型,有些不对外发布,有些是Pro级别。蒸馏可以来自不同来源。另外,推理阶段扩展也是提升能力的重要方式。
Shawn Wang:Flash的经济性确实带来了规模优势。听说已经50万亿tokens?
Jeff Dean:市场份额方面,希望还在增长。
Shawn Wang:Flash现在几乎无处不在——Gmail、YouTube、搜索AI模式。
Jeff Dean:是的。Flash的优势不仅是便宜,还有低延迟。而延迟非常关键。
未来模型会被要求完成更复杂任务,比如写整个软件包,而不仅是一段循环代码。这会生成大量token,因此低延迟系统至关重要。
Flash 是一个方向。硬件层面,比TPU芯片之间的高性能互联,也对长上下文attention或稀疏专家模型的可部署性至关重要。
Alessio Fanelli:那你们会不会担心某种“饱和”?比如两代之后Flash就能覆盖大多数需求,那还有动力继续推Pro前沿吗?
Jeff Dean:如果人类提问的分布是静态的,那可能会。但事实是,模型能力越强,人们问的问题越复杂。
一年前我只会让模型做简单coding,现在我会让它做复杂系统分析。用户需求本身在进化。前沿模型推动能力边界,同时也让我们看到瓶颈在哪里,从而改进下一代。
Alessio Fanelli:内部还依赖公开benchmark吗?
Jeff Dean:公开benchmark有价值,但生命周期有限。理想benchmark初始分数应在 10%–30%,然后通过改进提升到80%–90%。


