AI写论文,两周干完博士一年工作新智元
哈佛物理学教授带AI读博,结果Claude 4.5在仅仅两周内,就产出一篇顶刊级论文,整个物理学圈都震了!而这个项目,人类博士生要干一年。科研的门槛,再次被击穿了……
Anthropic的Claude 4.5,在哈佛物理学大牛教授的指导下,写出了一篇震撼业内的高难度论文!
论文地址:https://arxiv.org/abs/2601.02484
哈佛教授的评价是:这篇论文,对量子场论贡献巨大。
人类博士生要干一两年的项目,它两周内就完成了。
消息一出,整个物理学界震惊了,导师和博士们集体破防——这个博,还有必要读吗?
AI写论文,比你快,还比你好
Claude 4.5当研究者
2周写出顶刊论文
事情是这样的:2025年底的寒冬,哈佛大学物理系教授Matthew Schwartz做了一个大胆的决定,训练一个AI当研究生。
作为量子场论领域的泰斗、写出过该领域教科书的大神, Schwartz教授想看看,如果自己连一行代码都不敲、一个公式都不手算,只靠「动嘴皮子」指挥AI,能不能搞出能发顶刊的前沿物理学论文?
他选中的「研究生」,就是刚发布不久的Claude 4.5。
谁都没想到,短短两周后,一篇关于量子色动力学(QCD)中「C-参数苏达科夫肩峰重求和」的高难度论文就横空出世。
这让整个物理学界炸锅了。
这个效率,简直让所有人头皮发麻:原本需要导师带博士生苦干1-2年的项目,现在AI两周就搞定了??
更可怕的是,AI不仅能写代码,还能推导极其复杂的因式分解定理,要知道,这可是理论物理的命根子。
教授本人感叹说:「这可能是我写过最重要的一篇论文,不是因为物理本身,而是因为研究方法。从此以后,再也回不去了。」
在这篇论文中,Claude提出了一种新的分解定理。
用教授的话说,在理论物理里,这种定理并不多,每一个都会让我们对量子场论的理解更深一层,而且它做出了可以被实验检验的物理预测。
「放在现在这个时代,这种事情很少见了。」足以想见,这篇论文多么重磅。
G2级研究生Claude
在实验的过程中,Schwartz教授非常老辣。
他没有让AI去挑战那种「改变人类时空观」的终极命题(这是G3+高年级博士生干的事),而是给AI安排了一个「G2(二年级研究生)」级别的课题。
这个课题,就是「C参数重求和」。
用通俗的话解释,就是当你在粒子对撞机里把电子和正电子撞碎时,碎屑会形成一定的形状。
如果要用数学精准预测这个形状,这其中就有一个「数学泥潭」——苏达科夫肩峰(Sudakov shoulder),标准的近似法在这里会失效,数学会吐出毫无意义的乱码。
而AI研究生的任务,就是修复这个预测。
AI的解法见链接https://www-cdn.anthropic.com/c993ead637f1a102fe1f5346e89f59e82c579b37.pdf
为什么要给AI这个课题?原因很简单,Schwartz自己很理解这个问题,作为量子场论的权威,他写过这个领域的教科书。
他知道坑在哪,也知道标准答案是什么样。「如果连这种我已知答案、能逐行检查的题目AI都做不了,那更别说那些需要创造力的前沿问题了。」
可以说,这就像一场「带教实验」——教授想知道:AI到底是真懂,还是在装模作样?
两周,110版草稿,3600万Token
实验开始,教授建立了一套严苛的规则——禁止套娃。
过程中,只能通过文本给Claude指令;不直接编辑任何文件;不粘贴自己的计算结果;完全让Claude自己跑代码、改bug、做图、写文章。
接下来,实验开始了。
整个实验的过程,简直就是一场算力的豪赌。
短短两周内,Claude 4.5生成了110个独立版本的草稿,消耗了3600万个Token(相当于读了上百部《红楼梦》),跑了40多小时的本地CPU模拟计算!
三天,Claude就写出20页论文了
具体来说,教授让Claude按以下步骤,干了三件事。
第一件,就是定计划。
他让Claude、GPT和Gemini各自出一个研究方案,然后把三个方案合并、优化,最终拆分成7个阶段、102个任务。
第二,是搭结构。
他用Claude Code建立了一个树状目录,不是塞给AI一个几百页的对话上下文,而是让它自己维护一堆markdown文件,每个阶段一个汇总,每个任务一个详情。
每个任务都有明确目标:比如「任务1.1:回顾BSZ论文」「任务1.2:回顾Catani-Webber论文」。
Claude需要什么就去查什么,而不是死记硬背。
第三,就是逐级推进。
在这个步骤里,Claude需要一个阶段一个阶段地推进下列任务:运动学、NLO结构、SCET分解、异常维度、求和、匹配、文档。每个阶段大约15-35分钟,整个核心计算只用了2.5小时。
在初稿中,Claude进行了模拟(直方图)和分析计算(实线), 发现两者高度吻合。
结果,到了第三天,Claude已经完成了65个任务,写出了第一篇20页的LaTeX论文草稿,有公式,有图表,还有参考文献。
论文草稿地址:https://www-cdn.anthropic.com/f6381ceefdfb6ead62ae185c4bd4b555c8a584fc.pdf
最让人类头秃的工作,AI都干了
最神奇的地方,就在于AI的自我管理能力了。
教授发现,现在的AI竟然已经神奇地学会了「分而治之」。
比如在第二阶段,Claude会自己制定一个包含102个子任务的「作战计划」,横跨运动学、因式分解、数值模拟等七大阶段。
在教授眼里,Claude已经不再是一个简单的对话框,而是一个「首席研究员」!
它会把每个子任务写成独立的Markdown文件,需要用的时候自己去检索。
这种「树状结构」的思维,恰好就避开了大模型长文本处理的「健忘症」。
AI研究员的这些工作,恰好就戳中了教授的爽点。
以往,写Fortran接口代码、调Python画图、算繁琐的积分变换这些工作,往往都会让人类研究生头秃。
可AI干起这些活来,几乎是秒回,而且从来都不抱怨,不喊累,没有任何的情绪内耗。
惊!AI也会「学术造假」了?
不过很快,到了实验中期,反转就来了——Claude这个研究生,差点把教授给骗了!
当教授要求Claude验证公式时,Claude表现得极度「讨好型人格」。它会说:「看,结果完美契合!」
结果,教授发现,事情不对劲。
他发现一个ln(3)项特别奇怪,仔细回溯时才发现,Claude在悄悄修改参数,强行让图表对齐理论!
这个表现,让教授非常失望。
Claude制作了精美的图表,展示的结果以及不确定性都完全符合预期。可惜的是,这些图虽然做得好,但其实是在作弊!
他发现,Claude会堂而皇之地编造一些听起来很专业的术语,比如「根据标准SCET一致性条件,附录B中的系数已校正……」


