姚顺宇率领谷歌复仇Anthropic：没有你才更好字母AI

谷歌CEO皮查伊在X上高调宣布，Gemini 3 Deep Think在最难的挑战上，取得了前所未有的成绩。

这个项目，正是姚顺宇加入谷歌后参与的第一个重量级项目。

作为谷歌的对手之一，xAI的创始人马斯克都不由得在这条贴文里留下了一句“令人印象深刻”，皮查伊则回复给他一个“大拇指”表情。

然而，当人们翻看姚顺宇的履历时，通常都会以为自己搜错名字了。

但你没有看错，姚顺宇的确没有任何计算机背景，他本身是一位理论物理学家，他的博士研究方向是量子引力和量子信息扰乱。

正所谓遇事不决量子力学。

当Scaling Law逐渐失效，AI产业正在经历的一场变革。

真正能给AI带来突破，带着人们走向AGI的，或许反而是那群懂得用物理，来理解“智能”这个词本质的人。

这孩子打小就喜欢物理

姚顺宇小时候随父母从宁夏来到上海，就读于浦东新区的上南中学东校。初三时，他在浦东新区物理竞赛中拿了个三等奖。

有一说一，这成绩不算特别亮眼，我小时候拿过物理竞赛的一等奖。

2012年，姚顺宇以推荐生身份被上海市格致中学提前录取，随后便开始了他开挂般的人生。

2015年，他考入清华大学物理系。

只不过当时没人能想到，这个物理系新生，会在10年后给整个AI界带来不小的震撼。

进入清华后，姚顺宇的表现开始不一样了。

大二下学期，当大多数同学还在为基础课程焦头烂额时，他已经开始上博士生的凝聚态物理课程。

那一年，姚顺宇被周期驱动系统（Floquet systems）吸引了。

这是个极其前沿的研究领域，涉及复杂的数学和物理概念。他和导师汪忠教授一起，写了篇50多页的长文章，完成了对高维、一般对称性下 Floquet周期驱动系统的拓扑分类。

这项工作为这一研究方向建立了完整的理论框架，是一项非常系统的里程碑式拓扑分类工作。

并且，姚顺宇以第一作者身份，将这篇论文发表在了物理学顶级期刊Physical Review B上。

对一个本科生来说，这几乎是不可能完成的成就。

物理系主任王亚愚教授后来回忆说，在这门主要面向博士生的课程中，姚顺宇是十年来给自己印象最深的两名学生之一。

但真正让姚顺宇在物理学界出名的，是他在非厄米系统方面的发现。

在清华期间，他首次在国际上给出了关于非厄米系统的拓扑能带理论，并准确预测了相关现象。

简单说，他发现在开放量子系统中，电子态会神奇地“挤”到材料边界，这种现象被称为“非厄米趋肤效应”(Non-Hermitian Skin Effect)。这个发现颠覆了传统拓扑物理的理论框架。

这项工作发表在 Physical Review Letters 上，并获得了编辑推荐。

这篇题为《Non-Hermitian Skin Effect and Chiral Damping in Open Quantum Systems》的论文，后来被引用近千次，成为姚顺宇学术影响力最高的作品。

2018年11月8日，清华大学本科生特等奖学金答辩会举行。

这是清华授予本科生的最高荣誉，每年全校不足十人，在这之中便有姚顺宇。

他也成为了物理系当年唯一获此殊荣的学生。

2019年，姚顺宇去斯坦福大学读理论与数学物理博士。

他的导师是Douglas Stanford和Stephen H. Shenker。

前者被同行认为是最有潜力改变物理发展方向的顶尖青年科学家，后者则是弦理论领域的传奇人物。

在斯坦福期间，姚顺宇研究量子引力和量子信息扰乱（quantum scrambling），这是理论物理中最前沿、也最抽象的领域之一。

博士毕业后，他在加州大学伯克利分校做博士后研究。截至目前，他的总引用次数超过5000次，h指数14。

一个学物理的凭什么能研究AI?

虽然很多人大学选的专业，和他们毕业出来后找的工作都没有直接关联，但是像姚顺宇这样一直在钻研物理学的人，理论上应该找个物理相关的工作。

但是姚顺宇偏偏选择了AI。

2024年10月，姚顺宇加入Anthropic，参与大模型Claude Sonnet框架的研发。

一个研究量子引力的物理学者，凭什么能负责起世界顶尖AI公司的研发工作？

答案其实不复杂。

大模型的核心技术本质上是数学密集型的工作。训练大模型需要解决高维空间中的优化问题，这跟物理学中的变分法、统计力学有很深的联系。

姚顺宇研究的拓扑物理、非厄米系统，用的数学工具，比如概率论、线性代数、张量计算、动力系统理论，它们跟深度学习高度重合。

更关键的是，理论物理和机器学习处理的是同一类问题：高维、非线性、涌现性强的复杂系统。

统计物理学中的吉布斯分布，就是机器学习中概率推断的理论基础。深度神经网络的训练过程，可以看作是在高维参数空间中找能量最小值，这跟统计物理中的自由能最小化原理一个道理。

近年来越来越多研究表明，统计物理的工具可以用来理解深度学习中的很多现象。

量子多体系统和大模型在数学结构上很相似。

在量子物理中，大量粒子相互作用时，会涌现出单个粒子层面无法预测的集体行为。

在大模型中，数十亿个神经元参数相互作用时，同样会涌现出超出预期的效果。

事实上现在咱们常说的思维链推理、上下文学习、指令遵循，也都是依靠这种涌现的方式才诞生的。

这种从微观到宏观的涌现现象，也正是物理学家最擅长研究的。

因此，基于物理训练出来的“物理直觉”，恰恰是AI研究最需要的。

从复杂现象中抽象出数学模型，这是物理学家的基本功。

在AI领域，这意味着能理解神经网络的本质，而不是停留在调参层面。

物理学家习惯在不同尺度上思考问题，从微观粒子到宏观宇宙。这种跨尺度建模的能力对应到AI中，就是理解从单个神经元到整体的全景图。

姚顺宇在斯坦福研究的量子信息扰乱（quantum scrambling），关注的是量子信息如何在复杂系统中扩散和混乱化，这套数学框架跟神经网络中信息的传播和处理有相似的结构。

那么当他转去做AI相关的研究时，这些看似抽象的物理理论，就顺理成章地变成了理解大模型行为的工具。

更直接的联系来自强化学习这个概念本身。

姚顺宇在Anthropic主要做强化学习研究，而强化学习的理论基础本身就源于物理学。

最优控制理论恰好是来自经典力学的变分原理，路径积分方法直接借鉴量子力学的费曼路径积分，熵正则化来自统计物理的自由能概念。

对一个理论物理学家来说，这些不是需要学习的新知识，而是已经内化在思维方式里的工具。

这种从物理到AI的转变，不是姚顺宇一个人的个案。

卷积神经网络的发明者杨立昆（Yann LeCun），在进入AI领域之前，学的就是工程物理教育。

深度学习的奠基人杰弗里·辛顿（Geoffrey Hinton），他提出的玻尔兹曼机（Boltzmann Machine），名字就来自统计物理学家路德维希·玻尔兹曼。

而这套系统的核心逻辑，便是用统计物理中的能量函数来描述神经网络的状态分布。

事实上，姚顺宇在加入Anthropic后，深度参与了Claude 3.7 Sonnet与Claude 4系列的强化学习模块研发，是这两代模型能力跃升的关键贡献者。

这不是“跨界”，而是把物理工具应用到新领域。

当AI产业逐渐从“暴力堆算力”的Scaling Law时代，转向新阶段时，反而需要这样的物理学者。