姚顺宇率领谷歌复仇Anthropic:没有你才更好字母AI

2/27/2026

谷歌CEO皮查伊在X上高调宣布,Gemini 3 Deep Think在最难的挑战上,取得了前所未有的成绩。

这个项目,正是姚顺宇加入谷歌后参与的第一个重量级项目。

作为谷歌的对手之一,xAI的创始人马斯克都不由得在这条贴文里留下了一句“令人印象深刻”,皮查伊则回复给他一个“大拇指”表情。

然而,当人们翻看姚顺宇的履历时,通常都会以为自己搜错名字了。

但你没有看错,姚顺宇的确没有任何计算机背景,他本身是一位理论物理学家,他的博士研究方向是量子引力和量子信息扰乱。

正所谓遇事不决量子力学。

当Scaling Law逐渐失效,AI产业正在经历的一场变革。

真正能给AI带来突破,带着人们走向AGI的,或许反而是那群懂得用物理,来理解“智能”这个词本质的人。

这孩子打小就喜欢物理

姚顺宇小时候随父母从宁夏来到上海,就读于浦东新区的上南中学东校。初三时,他在浦东新区物理竞赛中拿了个三等奖。

有一说一,这成绩不算特别亮眼,我小时候拿过物理竞赛的一等奖。

2012年,姚顺宇以推荐生身份被上海市格致中学提前录取,随后便开始了他开挂般的人生。

2015年,他考入清华大学物理系。

只不过当时没人能想到,这个物理系新生,会在10年后给整个AI界带来不小的震撼。

进入清华后,姚顺宇的表现开始不一样了。

大二下学期,当大多数同学还在为基础课程焦头烂额时,他已经开始上博士生的凝聚态物理课程。

那一年,姚顺宇被周期驱动系统(Floquet systems)吸引了。

这是个极其前沿的研究领域,涉及复杂的数学和物理概念。他和导师汪忠教授一起,写了篇50多页的长文章,完成了对高维、一般对称性下 Floquet周期驱动系统的拓扑分类。

这项工作为这一研究方向建立了完整的理论框架,是一项非常系统的里程碑式拓扑分类工作。

并且,姚顺宇以第一作者身份,将这篇论文发表在了物理学顶级期刊Physical Review B上。

对一个本科生来说,这几乎是不可能完成的成就。

物理系主任王亚愚教授后来回忆说,在这门主要面向博士生的课程中,姚顺宇是十年来给自己印象最深的两名学生之一。

但真正让姚顺宇在物理学界出名的,是他在非厄米系统方面的发现。

在清华期间,他首次在国际上给出了关于非厄米系统的拓扑能带理论,并准确预测了相关现象。

简单说,他发现在开放量子系统中,电子态会神奇地“挤”到材料边界,这种现象被称为“非厄米趋肤效应”(Non-Hermitian Skin Effect)。这个发现颠覆了传统拓扑物理的理论框架。

这项工作发表在 Physical Review Letters 上,并获得了编辑推荐。

这篇题为《Non-Hermitian Skin Effect and Chiral Damping in Open Quantum Systems》的论文,后来被引用近千次,成为姚顺宇学术影响力最高的作品。

2018年11月8日,清华大学本科生特等奖学金答辩会举行。

这是清华授予本科生的最高荣誉,每年全校不足十人,在这之中便有姚顺宇。

他也成为了物理系当年唯一获此殊荣的学生。

2019年,姚顺宇去斯坦福大学读理论与数学物理博士。

他的导师是Douglas Stanford和Stephen H. Shenker。

前者被同行认为是最有潜力改变物理发展方向的顶尖青年科学家,后者则是弦理论领域的传奇人物。

在斯坦福期间,姚顺宇研究量子引力和量子信息扰乱(quantum scrambling),这是理论物理中最前沿、也最抽象的领域之一。

博士毕业后,他在加州大学伯克利分校做博士后研究。截至目前,他的总引用次数超过5000次,h指数14。

一个学物理的凭什么能研究AI?

虽然很多人大学选的专业,和他们毕业出来后找的工作都没有直接关联,但是像姚顺宇这样一直在钻研物理学的人,理论上应该找个物理相关的工作。

但是姚顺宇偏偏选择了AI。

2024年10月,姚顺宇加入Anthropic,参与大模型Claude Sonnet框架的研发。

一个研究量子引力的物理学者,凭什么能负责起世界顶尖AI公司的研发工作?

答案其实不复杂。

大模型的核心技术本质上是数学密集型的工作。训练大模型需要解决高维空间中的优化问题,这跟物理学中的变分法、统计力学有很深的联系。

姚顺宇研究的拓扑物理、非厄米系统,用的数学工具,比如概率论、线性代数、张量计算、动力系统理论,它们跟深度学习高度重合。

更关键的是,理论物理和机器学习处理的是同一类问题:高维、非线性、涌现性强的复杂系统。

统计物理学中的吉布斯分布,就是机器学习中概率推断的理论基础。深度神经网络的训练过程,可以看作是在高维参数空间中找能量最小值,这跟统计物理中的自由能最小化原理一个道理。

近年来越来越多研究表明,统计物理的工具可以用来理解深度学习中的很多现象。

量子多体系统和大模型在数学结构上很相似。

在量子物理中,大量粒子相互作用时,会涌现出单个粒子层面无法预测的集体行为。

在大模型中,数十亿个神经元参数相互作用时,同样会涌现出超出预期的效果。

事实上现在咱们常说的思维链推理、上下文学习、指令遵循,也都是依靠这种涌现的方式才诞生的。

这种从微观到宏观的涌现现象,也正是物理学家最擅长研究的。

因此,基于物理训练出来的“物理直觉”,恰恰是AI研究最需要的。

从复杂现象中抽象出数学模型,这是物理学家的基本功。

在AI领域,这意味着能理解神经网络的本质,而不是停留在调参层面。

物理学家习惯在不同尺度上思考问题,从微观粒子到宏观宇宙。这种跨尺度建模的能力对应到AI中,就是理解从单个神经元到整体的全景图。

姚顺宇在斯坦福研究的量子信息扰乱(quantum scrambling),关注的是量子信息如何在复杂系统中扩散和混乱化,这套数学框架跟神经网络中信息的传播和处理有相似的结构。

那么当他转去做AI相关的研究时,这些看似抽象的物理理论,就顺理成章地变成了理解大模型行为的工具。

更直接的联系来自强化学习这个概念本身。

姚顺宇在Anthropic主要做强化学习研究,而强化学习的理论基础本身就源于物理学。

最优控制理论恰好是来自经典力学的变分原理,路径积分方法直接借鉴量子力学的费曼路径积分,熵正则化来自统计物理的自由能概念。

对一个理论物理学家来说,这些不是需要学习的新知识,而是已经内化在思维方式里的工具。

这种从物理到AI的转变,不是姚顺宇一个人的个案。

卷积神经网络的发明者杨立昆(Yann LeCun),在进入AI领域之前,学的就是工程物理教育。

深度学习的奠基人杰弗里·辛顿(Geoffrey Hinton),他提出的玻尔兹曼机(Boltzmann Machine),名字就来自统计物理学家路德维希·玻尔兹曼。

而这套系统的核心逻辑,便是用统计物理中的能量函数来描述神经网络的状态分布。

事实上,姚顺宇在加入Anthropic后,深度参与了Claude 3.7 Sonnet与Claude 4系列的强化学习模块研发,是这两代模型能力跃升的关键贡献者。

这不是“跨界”,而是把物理工具应用到新领域。

当AI产业逐渐从“暴力堆算力”的Scaling Law时代,转向新阶段时,反而需要这样的物理学者。

Scroll for more