姚顺宇率领谷歌复仇Anthropic:没有你才更好字母AI
谷歌CEO皮查伊在X上高调宣布,Gemini 3 Deep Think在最难的挑战上,取得了前所未有的成绩。
这个项目,正是姚顺宇加入谷歌后参与的第一个重量级项目。
作为谷歌的对手之一,xAI的创始人马斯克都不由得在这条贴文里留下了一句“令人印象深刻”,皮查伊则回复给他一个“大拇指”表情。
然而,当人们翻看姚顺宇的履历时,通常都会以为自己搜错名字了。
但你没有看错,姚顺宇的确没有任何计算机背景,他本身是一位理论物理学家,他的博士研究方向是量子引力和量子信息扰乱。
正所谓遇事不决量子力学。
当Scaling Law逐渐失效,AI产业正在经历的一场变革。
真正能给AI带来突破,带着人们走向AGI的,或许反而是那群懂得用物理,来理解“智能”这个词本质的人。
这孩子打小就喜欢物理
姚顺宇小时候随父母从宁夏来到上海,就读于浦东新区的上南中学东校。初三时,他在浦东新区物理竞赛中拿了个三等奖。
有一说一,这成绩不算特别亮眼,我小时候拿过物理竞赛的一等奖。
2012年,姚顺宇以推荐生身份被上海市格致中学提前录取,随后便开始了他开挂般的人生。
2015年,他考入清华大学物理系。
只不过当时没人能想到,这个物理系新生,会在10年后给整个AI界带来不小的震撼。
进入清华后,姚顺宇的表现开始不一样了。
大二下学期,当大多数同学还在为基础课程焦头烂额时,他已经开始上博士生的凝聚态物理课程。
那一年,姚顺宇被周期驱动系统(Floquet systems)吸引了。
这是个极其前沿的研究领域,涉及复杂的数学和物理概念。他和导师汪忠教授一起,写了篇50多页的长文章,完成了对高维、一般对称性下 Floquet周期驱动系统的拓扑分类。
这项工作为这一研究方向建立了完整的理论框架,是一项非常系统的里程碑式拓扑分类工作。
并且,姚顺宇以第一作者身份,将这篇论文发表在了物理学顶级期刊Physical Review B上。
对一个本科生来说,这几乎是不可能完成的成就。
物理系主任王亚愚教授后来回忆说,在这门主要面向博士生的课程中,姚顺宇是十年来给自己印象最深的两名学生之一。
但真正让姚顺宇在物理学界出名的,是他在非厄米系统方面的发现。
在清华期间,他首次在国际上给出了关于非厄米系统的拓扑能带理论,并准确预测了相关现象。
简单说,他发现在开放量子系统中,电子态会神奇地“挤”到材料边界,这种现象被称为“非厄米趋肤效应”(Non-Hermitian Skin Effect)。这个发现颠覆了传统拓扑物理的理论框架。
这项工作发表在 Physical Review Letters 上,并获得了编辑推荐。
这篇题为《Non-Hermitian Skin Effect and Chiral Damping in Open Quantum Systems》的论文,后来被引用近千次,成为姚顺宇学术影响力最高的作品。
2018年11月8日,清华大学本科生特等奖学金答辩会举行。
这是清华授予本科生的最高荣誉,每年全校不足十人,在这之中便有姚顺宇。
他也成为了物理系当年唯一获此殊荣的学生。
2019年,姚顺宇去斯坦福大学读理论与数学物理博士。
他的导师是Douglas Stanford和Stephen H. Shenker。
前者被同行认为是最有潜力改变物理发展方向的顶尖青年科学家,后者则是弦理论领域的传奇人物。
在斯坦福期间,姚顺宇研究量子引力和量子信息扰乱(quantum scrambling),这是理论物理中最前沿、也最抽象的领域之一。
博士毕业后,他在加州大学伯克利分校做博士后研究。截至目前,他的总引用次数超过5000次,h指数14。
一个学物理的凭什么能研究AI?
虽然很多人大学选的专业,和他们毕业出来后找的工作都没有直接关联,但是像姚顺宇这样一直在钻研物理学的人,理论上应该找个物理相关的工作。
但是姚顺宇偏偏选择了AI。
2024年10月,姚顺宇加入Anthropic,参与大模型Claude Sonnet框架的研发。
一个研究量子引力的物理学者,凭什么能负责起世界顶尖AI公司的研发工作?
答案其实不复杂。
大模型的核心技术本质上是数学密集型的工作。训练大模型需要解决高维空间中的优化问题,这跟物理学中的变分法、统计力学有很深的联系。
姚顺宇研究的拓扑物理、非厄米系统,用的数学工具,比如概率论、线性代数、张量计算、动力系统理论,它们跟深度学习高度重合。
更关键的是,理论物理和机器学习处理的是同一类问题:高维、非线性、涌现性强的复杂系统。
统计物理学中的吉布斯分布,就是机器学习中概率推断的理论基础。深度神经网络的训练过程,可以看作是在高维参数空间中找能量最小值,这跟统计物理中的自由能最小化原理一个道理。
近年来越来越多研究表明,统计物理的工具可以用来理解深度学习中的很多现象。
量子多体系统和大模型在数学结构上很相似。
在量子物理中,大量粒子相互作用时,会涌现出单个粒子层面无法预测的集体行为。
在大模型中,数十亿个神经元参数相互作用时,同样会涌现出超出预期的效果。
事实上现在咱们常说的思维链推理、上下文学习、指令遵循,也都是依靠这种涌现的方式才诞生的。
这种从微观到宏观的涌现现象,也正是物理学家最擅长研究的。
因此,基于物理训练出来的“物理直觉”,恰恰是AI研究最需要的。
从复杂现象中抽象出数学模型,这是物理学家的基本功。
在AI领域,这意味着能理解神经网络的本质,而不是停留在调参层面。
物理学家习惯在不同尺度上思考问题,从微观粒子到宏观宇宙。这种跨尺度建模的能力对应到AI中,就是理解从单个神经元到整体的全景图。
姚顺宇在斯坦福研究的量子信息扰乱(quantum scrambling),关注的是量子信息如何在复杂系统中扩散和混乱化,这套数学框架跟神经网络中信息的传播和处理有相似的结构。
那么当他转去做AI相关的研究时,这些看似抽象的物理理论,就顺理成章地变成了理解大模型行为的工具。
更直接的联系来自强化学习这个概念本身。
姚顺宇在Anthropic主要做强化学习研究,而强化学习的理论基础本身就源于物理学。
最优控制理论恰好是来自经典力学的变分原理,路径积分方法直接借鉴量子力学的费曼路径积分,熵正则化来自统计物理的自由能概念。
对一个理论物理学家来说,这些不是需要学习的新知识,而是已经内化在思维方式里的工具。
这种从物理到AI的转变,不是姚顺宇一个人的个案。
卷积神经网络的发明者杨立昆(Yann LeCun),在进入AI领域之前,学的就是工程物理教育。
深度学习的奠基人杰弗里·辛顿(Geoffrey Hinton),他提出的玻尔兹曼机(Boltzmann Machine),名字就来自统计物理学家路德维希·玻尔兹曼。
而这套系统的核心逻辑,便是用统计物理中的能量函数来描述神经网络的状态分布。
事实上,姚顺宇在加入Anthropic后,深度参与了Claude 3.7 Sonnet与Claude 4系列的强化学习模块研发,是这两代模型能力跃升的关键贡献者。
这不是“跨界”,而是把物理工具应用到新领域。
当AI产业逐渐从“暴力堆算力”的Scaling Law时代,转向新阶段时,反而需要这样的物理学者。


