陶哲轩：开普勒就是个LLM中国科讯

陶哲轩在普林斯顿高等研究院待了一年，差点让他江郎才尽了。

在与顶级播客主理人Dwarkesh Patel的最新访谈中，这位菲尔兹奖得主用亲身经历，向同行们抛出了一个反直觉的建议：

朋友们，埋头纯搞学术，对数学家来说真不见得是件好事啊！

起初几周确实非常棒。不用上课，不用开委员会，大块时间任由支配，终于可以专心做研究了。

谁曾想，没过几个月——

咦，怎么灵感好像有点枯竭……

百无聊赖之下，强如陶哲轩都开始沉迷于上网摸鱼。

这段经历让他感慨万千：

数学家有时恰恰需要生活里的一些琐事，才能迸发出好想法。

这是场很特别的访谈。陶哲轩罕见地从更个人的视角，谈了他近段时间对数学和科学研究的思考，许多都是之前未曾分享过的观点：

科学不只是创造新理论并加以验证，还要把它讲成故事给别人听。这是强化学习极难做到的。

AIGC泛滥的当下，如何判断一项科学进展是否富有意义？或许需要天文学家的帮助。

我非常相信缘分，因此会专门空出部分日程，去做些不寻常的事。

十进制本身没什么特别之处。但你无法脱离历史和未来的语境，纯粹孤立地评价某项科学成就。

也许只有当获取一百万个外星文明的科学发展数据，才能据此衡量什么是正确的范式方向。

写博客是种很好的记录所学的方式，不然许多灵感会很快被忘记，非常可惜。

我们正身处一场认知层面的哥白尼革命，人类不再是唯一的智能形态。

以下附上访谈全文。为保证可读性，量子位在不改变原意的基础上，对内容做了部分调整。

开普勒就是个LLM

Dwarkesh：我想请你重新讲一遍开普勒发现行星运动定律的故事。这会是聊AI与数学的一个很好的切入点。

陶哲轩：我一直对天文学有着业余爱好，也很喜欢早期天文学家探索宇宙本质的那些故事。开普勒是站在哥白尼的肩膀上，而哥白尼又继承了阿里斯塔克斯的工作。

哥白尼最著名的贡献，是提出了日心说：不是行星和太阳绕地球转，而是太阳位于太阳系中心，其他行星绕太阳运行。

但哥白尼坚信行星的轨道是完美的圆形。他的理论与希腊人、阿拉伯人和印度人数百年来积累的观测数据大致吻合，但也存在细微偏差。

开普勒在学习这些理论时，注意到哥白尼预测的各行星轨道尺寸之间的比例，似乎存在某种几何意义。

他据此提出了一个极其美妙、充满神学色彩的假说：如果你取地球的轨道，把它包在一个正方体里，那个外接球的半径几乎完美匹配火星的轨道。

当时已知六颗行星，轨道之间有五个间隔，而柏拉图正多面体（Platonic Solids）恰好也有五种：正方体、正四面体、正二十面体、正八面体和正十二面体。

于是他提出了一个理论：可以在各行星的天球之间，依次嵌套这五种柏拉图正多面体。

开普勒深信，上帝设计行星的方式，正对应着柏拉图正多面体的数学完美性。他在《宇宙的神秘》（Mysterium Cosmographicum）中详细阐述了这一观点。

但他需要数据来验证这个理论。

当时唯一真正高质量的数据集，来自第谷·布拉赫（Tycho Brahe）。

这位极其富有、行事古怪的丹麦天文学家，说服丹麦政府出资建造了一座造价极为高昂的天文台——实际上是一整座岛屿。

他在那里用肉眼（望远镜尚未发明）对火星、木星等所有行星进行了长达数十年的系统观测，只要天气晴朗，每晚必记。他的观测精度达到了角分的级别，比此前任何观测都高出十倍。

这批数据正是开普勒用来验证理论的材料。

开普勒开始与第谷合作，但第谷对数据极为小气，每次只给他一点点。开普勒最终干脆“偷走”了全部数据，还因此与第谷的后人打了场官司。

谁曾想，拿到数据后，却发现他那个美丽的柏拉图立体理论根本行不通。

实测数据与理论预测的偏差达到5%到10%左右（对于火星尤为明显）。他尝试了各种修补方案，移动圆的位置，引入偏心点，仍然无法拟合。

如果是其他人，可能会强行修改数据以迎合理论，或者放弃。但开普勒选择了尊重数据。

他在这个问题上坚持了许多年，进行了令人叹为观止的天才级数据分析。

他发现，只有假设行星轨道实际上是椭圆，而非圆形，才能完美拟合第谷的数据。

就这样，他推导出了行星运动的前两条定律。

又过了十年，在积累了大量数据并进行了更深入的数学分析后，他终于得出了第三定律：行星完成一次公转所需的时间（周期）的平方，与它到太阳的平均距离的立方成正比。

这就是著名的开普勒行星运动三定律。

他自己对此毫无物理解释，这完全是实验驱动（数据驱动）的结果。整整一个世纪后，牛顿才利用万有引力定律和微积分，给出了同时解释这三条定律的理论框架。

Dwarkesh：牛顿给出了三条行星运动定律必然成立的解释，而开普勒发现这些定律的过程，充满了试错。

纵观开普勒的职业生涯，他不过是在不断地尝试各种随机的关系：先试柏拉图立体，失败了；再试圆形轨道加偏心点，失败了；最后试椭圆，成功了。

LLM完全可以做开普勒做的事。

用二十年时间尝试各种随机关系，其中许多根本没有物理意义，只要背后有一个像布拉赫数据集那样可验证的、高精度的数据库。

陶哲轩：当我们谈论科学史时，思维一直被视为最高贵的部分。

我们倾向于神话那些“灵光乍现”的时刻：开普勒突然看到了椭圆的真理。

但一个科学问题的解决涉及许多步骤：识别问题、找到一个真正有价值的问题来研究、收集数据、制定分析数据的策略、提出假说、验证假说、撰写论文并进行解释。这里有十几个不同的环节。

开普勒经历了无数次循环尝试，其中绝大多数都失败了。我相信有大量想法他甚至从未发表，因为根本无法与数据吻合。

但正如你所说，这必须与同等分量的验证相匹配，否则就只是噪声。

我们赞颂开普勒，但也应该赞颂布拉赫。他那勤勉的数据收集工作，精度比此前任何观测都高出十倍。

那额外的一位有效数字，对开普勒得出正确结论至关重要。如果数据误差更大，椭圆和圆形的区别就会被噪声淹没，开普勒可能永远无法发现真相。

他用欧几里得几何和当时最先进的数学，将模型与数据进行拟合。每个环节都必须到位：数据、理论、假说生成，缺一不可。

我不确定在今天，假说生成还是不是瓶颈所在。

过去，科学的两大范式是理论和实验。到了20世纪，数值模拟出现了，可以通过计算机仿真来检验理论。然后，在20世纪末，我们进入了大数据时代。

如今很多新进展实际上是先从分析海量数据集开始的，这与过去科学的运作方式颇为不同。

过去是先做少量观测，或者灵光一现有了某个想法，再去收集数据加以检验；而现在几乎是反过来的：先有海量数据，再从中挖掘规律。

开普勒也许是最早的数据科学家之一，但即便是他，也没有完全从第谷的数据集出发再去分析。他是先有的预设理论（柏拉图立体），被数据证伪后，才被迫转向纯数据驱动的拟合。

Dwarkesh：有意思。布拉赫的数据相当于一个海量仿真数据库。如果没有这些数据，开普勒不过是在写关于和声学和柏拉图正多面体的书，根本没有任何东西可以用来验证。

陶哲轩：数据的重要性毋庸置疑。

传统上，你先提出假说，再用数据检验（假设驱动）。但如今有了机器学习、数据分析和统计学，你可以从数据出发，通过统计推导出此前未曾存在的定律（数据驱动）。

开普勒第三定律有点类似回归分析。只不过布拉赫提供的不是成千上万个数据点，开普勒手里只有六个数据点（当时已知的六颗行星）。每颗行星对应一个轨道周期和一个到太阳的距离。

但他相当幸运，恰好这六个数据点给出了正确的结论。

他做了一件我们今天称之为幂律回归的事——把一条曲线拟合到这六个数据点上，得到了立方-平方定律。

后来有一位天文学家叫约翰·波得（Johann Bode），取了同样的数据，受开普勒启发，预测这些距离构成一个偏移等比数列。

他也做了曲线拟合，但其中有一个数据点缺失——火星和木星之间有一个巨大的空缺。这个定律预测：那里应该有一颗失踪的行星。

这听起来像是一个怪人的理论，直到赫歇尔发现天王星，其距离完美符合这个规律。

随后在小行星带发现了谷神星，也同样吻合。人们为此兴奋不已，以为波得发现了一条伟大的自然定律。

但后来海王星被发现了，距离完全对不上。

说到底，这不过是一个数字上的巧合。只有六个数据点，结论本就岌岌可危。

“故事”是科学里永远属于人类的一面

Dwarkesh：听起来你并不认为科学的瓶颈在于为每个领域找到更多类似“行星运动第三定律”那样的宏大定律。

陶哲轩：没错。AI已经把思想生成的成本压低到几乎为零，就像互联网曾经把通信成本压低到几乎为零一样。

这是一件了不起的事，但它本身并不直接创造“丰盛”。

瓶颈已经转移了。我们进入了一个人们可以为某个科学问题瞬间生成数千种理论的时代。

接下来真正的挑战是：验证、评估与筛选。

这要求我们彻底改变科学的组织结构。

传统上，我们靠的是设门槛。在AI生成内容泛滥之前，虽然也有业余科学家提出各种宇宙理论，但大多数价值极低且数量可控。

因此，我们建立了同行评审和发表体系，用来过滤信息、筛选出高价值的想法加以检验。

但现在，AI可以大规模生成各种可能的解释，其中一些是好的，但大量是糟糕的、甚至是幻觉。人类评审员已经不堪重负。

许多期刊都反映，AI生成的投稿正在汹涌涌入。

AI让我们能生成各种各样的东西，这固然很好，但这意味着科学的其他环节必须跟上：验证、确认，判断哪些想法真正推动了领域进展。

这是我们目前不知道如何大规模完成的事。

对于单篇论文，科学家们可以展开辩论，几年内达成共识。但当每天涌现出一千篇这样的论文，这套机制就彻底失效了。

Dwarkesh： 1940年代，贝尔实验室中新技术不断涌现：脉冲编码调制、信号传输、数字化等等。有大量关于工程约束和技术细节的论文。

然后有一篇论文提出了“比特”这个概念，其影响波及许多不同领域。你需要一套系统来识别它，说：“好，这个要应用到概率论里，要应用到计算机科学里。”

倘若如今AI领域出现了下一个版本的统一性概念。怎么从数百万篇论文中识别出那篇真正构成进步、却又远不如“比特”概念那么显眼的论文？

陶哲轩：很大程度上靠时间检验。许多伟大的想法在最初提出时并没有得到很好的反响，往往是后来其他科学家意识到可以将其推进、应用到自己的领域，它才被重新发现。

深度学习本身在很长一段时间里只是AI的一个小众分支。完全通过数据训练而非第一性原理推理来获得答案，这个想法曾经极具争议，花了很长时间才开始结出果实。

你提到了比特。历史上其实有过其他计算架构的提案，而不是今天通行的二进制。我记得有三进制、三值逻辑。在另一个平行宇宙里，也许是不同的范式胜出了。

再比如Transformer，它是所有现代大语言模型的基础，也是第一个真正足够复杂、能够捕捉语言的深度学习架构。但事情本不必如此。也许某种其他架构率先做到了这一点，一旦被采用，它就成了标准。