Gemini大战DeepSeek惨烈内幕CSDN

DeepMind的Gemini预训练负责人 Vlad Feinberg自曝研发内幕：5人团队为抢跑DeepSeek，在硅谷和巴黎双城倒班、40天几乎不眠不休死磕训练。他不认为人工智能会取代所有人的工作，原因在于，人类在组织里承担的一个关键角色，是构成一张信任网络。

Google DeepMind 的 Gemini 预训练主管 Vlad Feinberg，最近在一档播客里聊了聊他的日常。

在大众的想象中，顶尖实验室的研究员每天都在推导颠覆性的算法。但 Vlad 说，他职业生涯最重要的一笔奖金，是谷歌传奇人物 Jeff Dean 亲手发给他的——当时他刚入职 Google Brain，没有像当年同样在谷歌的 Transformer 作者们一样，去写那些能发到顶级会议上的第一作者论文，而是默默干了几天最脏的活：调整编译器和超参数，解决显存溢出，把一个叫 SFT 的微调任务塞进了一堆老旧的 TPU 卡里，这才让第一代 Bard 勉强跑通。

这种“干脏活”的工程体验，才是这轮大模型竞争最真实的样子。Gemini 2.0 出来的时候，外界都在赞叹它作为一个 MoE 模型有多神奇。但 Vlad 透露，背后其实只有 5 个人在顶着。

算力卡随时会挂，数据索引随时会断，为了不白白浪费几百万美元的算力费，他们只能在硅谷和巴黎两个大区之间 24 小时倒班，不眠不休地死磕了 40 天。甚至在 DeepSeek-V3 爆红、华尔街日报制作表格拉踩谷歌已经落后时，Vlad 也是哭笑不得——媒体为了制造爆款新闻，在表格里故意删掉了（elided）排名其实高居第一的 Gemini 2.0 Flash Thinking。

对于甚嚣尘上的“程序员要失业”的恐慌，这位主管给出了一个很干脆的观点：AI 永远无法被“吊销律师执照”，因为它不具备主体资格，无法承担法律责任，所以人类永远要为它的产出签字并背书。

他的组里有一个叫 Nate Lintz 的普通工程师，之前在搜索部门写后端基础架构，就是靠着在业务里帮大模型落地，解决最具体的推理开销，最终内部转岗到 DeepMind 成了技术支柱。

如果你也想去，Vlad 在他的博客里放了一个“硬核作业”（手写一个 Transformer 并手算 Scaling Laws 录成视频发给他），做完了他直接面你。以下是这次谈话里，他聊到的几个极其真实的行业细节：

法律大模型可以背下所有判例，但它不能代表你出庭，因为它无法被“吊销执照”。职业的底层逻辑是责任和信任的分配。因为 AI 无法承担法律后果，代码的终点永远需要一个具体的人来签字、背书并承担责任。这才是程序员不会被替代的终极底线。

写再牛逼的学术论文，都不如帮团队省下几张卡的显存。很多眼高手低的程序员在 AI 时代迷失在理论和框架中。但在研发一线，最容易拿奖金的能力，是那些不体面的“重体力活”——优化编译器、调试超参、在有限的芯片里榨出最后一丝算力。这种扎实的工程能力，才是跨越周期的硬通货。

写搜索基础架构的普通码农，也是能一步步逆袭进 DeepMind 的。团队核心成员 Nate Lintz 曾只是一个写后端搜索的普通工程师，他没有高大上的 AI 背景，但通过在组内帮产品落地 LLM，默默解决大模型在搜索业务里最头疼的推理和算力开销，在实战中摸清了底层架构，最终顺理成章地转岗进入 DeepMind 并主导了核心推理设计。

华尔街日报为了拉踩谷歌，在对比 DeepSeek 时故意在表格里删掉了排名第一的 Gemini 模型。当媒体为了制造“中国开源超越美国大厂”的新闻而兴奋时，他们有意隐去了当时在 LMSYS 榜单上高居榜首的 Gemini 2.0 Flash Thinking。真实的技术对决背后没有神话，只有 5 个工程师在硅谷和巴黎 24 小时倒班、死磕 40 天的硬撑。

你没法把研究和落地分成两种人

主持人：你写过一篇题为《如何进入前沿实验室工作》的文章。现在前沿实验室最需要的，到底是什么样的能力？也许我们可以先聊聊，这类工作的整体轮廓是什么。

Vlad：现在前沿实验室需要的能力，其实覆盖范围非常广。大语言模型这种东西，和研究、和产品之间的关系，比过去的机器学习要紧密得多，所以它会牵动很多完全不同的方向。我写那篇文章，并不是想开一份面面俱到的清单，而是想提出几个比较具体、可操作的方向，说明实验室会在哪些能力上有很强的需求。

我重点写的是内核开发和底层工程，也就是怎样在真实运行环境中提升大语言模型的执行效率。我看到这类能力，在几乎所有前沿实验室，以及实验室内部很多项目里，需求都非常强。所以这是一个特别值得单独点出来的方向。更具体一点说，每当我们做研究项目，需要修改神经网络架构，或者重新思考服务方式，比如怎样把键值缓存做得更好，类似这样的事情，整个技术栈上的人都必须有能力把这些新方法高效地实现出来。

而所有这些变化的核心循环，本质上都是在制造能够在大规模场景下运行的软件系统：它要有高吞吐、低延迟。这其实是一类非常基础的工作，和传统后端工程的思维是紧密相连的。所以我觉得，这对很多人来说都是一个非常开放、非常值得专攻的方向。

主持人：我有些朋友在 OpenAI 和 Anthropic 工作，他们跟我说，那边会区分偏应用的组织 and 偏研究的组织。我想知道 Google DeepMind 里是不是也有类似区分？如果有的话，你能不能讲讲这两者的差别？

Vlad：我们内部确实有不同的重点方向。比如在 Google DeepMind，就有团队专门研究怎样用 Gemini 这样的语言模型，更好地改进搜索结果。从某种意义上讲，这可以算是语言模型的一种应用化方向。

但我其实不太愿意把这种区分画得特别死，因为把模型整合进真实产品，本身就需要很多非常硬核的研究工作。就拿我刚才说的那个例子来说，为了让模型真正服务搜索，你得投入大量精力，确保模型回答的是事实，能引用来源，能给出非常精确、非常有依据的答案。

你还得评估这些来源本身的质量，确保它不是讽刺、不是玩笑、不是不可靠的信息。我觉得这恰恰说明，即便是在非常面向产品、非常“应用化”的人工智能方向里，你其实仍然是在做研究。

当然，另一方面，也确实存在那种更经典意义上的语言模型研究团队，比如做预训练、做后训练。这些在 Google DeepMind 内部依然是比较独立的团队，目标就是打造业内最先进的模型。

也就是更纯粹意义上的研究。不过我还是要补一句：我们做的“纯研究”之所以有意义，前提是它最后能被真正实现出来。所以我们既要负责把模型交付出来，确保训练稳定推进，某种程度上像训练任务的运维工程师一样，盯着整个训练过程别出问题；同时我们也要负责提出训练这些模型的方法配方。

这两个角色根本分不开，必须同时承担。所以我觉得，你当然可以把研究和应用看成一条连续的光谱，但在今天这个时代，不管你站在哪一侧，最后都得能在这条光谱上自由切换。

主持人：我注意到还有另一条光谱，就是软件工程师到纯人工智能研究员。你怎么看这条光谱？软件工程和人工智能研究之间，到底差别在哪？

Vlad：如果从我自己的经历出发，我会说，我们做的很多事情，以及我们提出的很多新方法，它们真正的基础其实是基础设施层面的投入。

我可以稍后更详细讲讲我团队在做什么，但先拿“蒸馏”举个例子。所谓蒸馏，本质上是一种知识迁移方式。你可以把它理解成：教师模型先在底层数据上提炼出某种统计信息，再把这些信息传给学生模型，让学生模型比完全没见过这些额外信息时表现得更好。

但如果你说的是一个超大语言模型，而且处理的是数万亿级别的词元，这背后对应的计算投入就是极其惊人的，可能是数百万、数千万美元的算力成本。

这就意味着，你必须认真思考怎么把整个系统优化到极致。因为你做的每一个操作，都会被放大到极其巨大的规模：每一秒都重要，每一个字节的存储都重要。

而这里面很大一部分工作，说到底就是非常传统的软件工程。尤其是蒸馏基础设施，到现在大概已经经历了三到四代演化。每一代里，我们都会退后一步，重新审视当前在蒸馏研究中到底用了哪些方法，再从整体上想：我们的基础设施该怎样扩展，才能支持更广泛的研究。

而且确实有几个很明确的节点：你一旦重新思考蒸馏系统的设计方式，蒸馏方法的研究速度就会明显加快。

所以这其实是一种非常典型的投入：你可能花四个月时间重写蒸馏基础设施，最后换来的，是对蒸馏缩放规律的全新认识，而这种认识又会反过来转化成非常强的模型表现。

所以它真的要求你跨越整个技术栈去工作。我几乎无法想象，如果没有这些蒸馏基础设施层面的投入，我们能做出 Flash 3.0 那样的结果。归根到底，这些东西一开始都来自一份非常老派的设计文档：你得想清楚，生成教师统计信息时，什么样的抽象才是对的；这些信息该存进什么样的存储系统；在这种规模下，跨多个数据中心读写数据时，底层该如何支撑。

这些其实都是非常经典的分布式系统问题，不是吗？

研究不是一条直线，它更像在雾里走图

主持人：对，我也是这个意思。听起来在现在这种计算规模下，确实有很多软件工程、后端基础设施类的问题。但我还是觉得，在那条光谱上的某个位置，应该会出现一个真正的跃迁——需要一些全新的能力。比如说，你把一个普通后端工程师直接丢去改模型架构，这显然和做基础设施又不是一个量级的跳跃。

你怎么看这个区别？

Vlad：对，我觉得确实有这样一个分界点。研究这件事，本质上是一种高风险、高回报的活动。我们常会说一个词，叫“研究品味”，也就是一种高层次的直觉：在一个项目里，你面对很多不同的里程碑和可能路径时，到底应该沿着哪条路往前走。

从某种意义上说，软件工程项目也可以被看成类似的一张有向图：你有一堆中间产物要完成，最终才能到达目标。

但软件工程里的这张图，整体上更接近确定性的。你先搭一个服务，再搭另一个服务，再搭第三个服务；先把存储层搞定，再处理上层功能。你大体可以稳定地一路往前推进。

研究就不是这样。研究里的这张图是带随机性的。因为其中一些节点——比如某个研究想法，或者到达最终目标所必需的某个环节——并不保证能成功。

我觉得这要求一种思维方式上的转变。而这种转变需要时间去学，也需要一些专门培养出来的能力。这就是很多人在博士阶段逐渐建立起来的那种东西。

如果要我用一句比较简洁的话来概括，我会想到 Jacob Steinhardt 教授的一篇非常出色的文章。我很喜欢用他的框架来理解自己做的研究：研究是一种马尔可夫决策过程。

所谓马尔可夫决策过程，指的是：在一个研究项目里，不同里程碑之间存在一张带有随机性的依赖图。你可能必须先拿到某种结果，或者先证明某种结论，才能到达后面的目标。

类似地，在一个机器学习研究项目里，你可能得先把某种特征方案跑通，之后才有机会获得某种图像识别准确率，图上的节点和路径都会不断展开。

这是一种高度不确定的探索活动：某些方法可能有效，也可能无效；而一种方法一旦有效，又会为你打开一组新的可能性。

在软件工程里，你也许可以把所有通往目标的路径都列出来，然后问：最短路径是什么？

但研究里，这种方法并不最优。因为一旦图上的边不再可靠，有些节点甚至你还根本不知道——也许它们是隐藏的——那你处理问题的方式就必须改变。

具体来说，你必须同时考虑不同研究方向的成功率和时间投入，还得事先对这些概率做出估计。

而这和给一个软件项目写设计方案，是完全不同的一种思维活动。你得培养出一种直觉：在你还没真正做一件事之前，先判断它成功的可能性有多大。

很多人把这种能力和“研究品味”联系起来，我觉得这是对的。因为你如果想真正穿行于这种研究过程里，这种判断力就是必须建立起来的核心能力。

主持人：听起来你的意思是，研究里有更多的不确定性。我还是想更具体一点去理解这种工作的性质。如果你把一个后端工程师扔进一个做研究的团队里，具体会在哪些地方出现明显短板？

Vlad：我第一个想到的，就是你是否具备足够的研究背景，足够理解自己所处的研究版图。

研究工作很大程度上要求你有一种很谦逊的心态：你得承认，在你之前，这个方向已经有了大量投入；而在你真正了解这个主题上全人类目前最前沿的积累之前，你大概率不可能继续把这个前沿往前推。

所以，在某个具体方向上建立扎实的已有工作认识，并真正做好相关文献梳理，可能就是很多人最先会卡住的地方。你得有能力沿着一个主题的引用脉络一路追下去，知道该读什么、怎么读。

因为你根本没时间把所有论文都读完，所以你必须培养一种判断力：哪些论文最值得读？在不阅读全文的情况下，怎么判断一篇论文到底值不值得投入时间？