菲尔兹给数学和AI的一封信：压缩即是全部AI-lab学习笔记

2017 年 6 月，Google Brain 的八个人把一篇论文扔上了 arXiv。

标题狂得不像论文：《Attention Is All You Need》。

九年过去了，这个标题成了 AI 史上最著名的七个单词。基于它的 Transformer，撑起了 ChatGPT、Gemini、Claude、DeepSeek、万亿市值、一代人的焦虑。

2026 年 3 月 27 日，又一篇论文悄悄上了 arXiv。标题只有七个单词，格式一模一样：

Compression is all you need: Modeling Mathematics

看到这个标题，任何做 AI 的人都会下意识笑一下——"又一个蹭热度的"。点开作者一栏，笑容消失。

Michael Freedman。

这不是什么 ML 工程师。这是 1986 年菲尔兹奖得主，四维庞加莱猜想的证明者，过去二十年微软 Station Q 的灵魂人物，当今在世的数学家里戏份最重的那一批。

他在写 AI？不是。他在告诉所有搞 AI 的人：你们一直在用的那个词"压缩"，其实比你们想象的要深得多。

这篇文章不是《Attention Is All You Need》那种工程突破。它是一封信——一位数学家，用他毕生训练出来的直觉，回答了三个困扰人类上千年的问题：

人类究竟是怎么构建数学知识的？

人类做的数学，和形式化的"纯逻辑数学"，本质区别是什么？

未来的人类数学家，到底该怎么和 AI 协同工作？

他给出的答案，只有一个词：压缩。

今天这篇文章，就把这封信翻译给你。

第一章：Freedman 是谁

先说清楚为什么这个人开口说话，AI 圈必须听。

1981 年，三十岁的 Freedman 在加州大学圣地亚哥分校解决了四维庞加莱猜想——这个问题悬了 77 年。三维版本让 Perelman 在 2006 年拿到菲尔兹奖（他拒绝了）；五维以上早在 60 年代就被解决。唯独四维——卡在最要命的那个维度——是 Freedman 攻下来的。

1986 年，柏克莱，国际数学家大会。Freedman 领走了菲尔兹奖。

1997 年，Freedman 做了一件数学家很少做的事——从学术界出走。微软给他开了一个几乎是为他量身定做的部门 Station Q，目标只有一个：用数学家的思路造拓扑量子计算机。他当了主任，一干就是二十五年。

2023 年，他回到哈佛 CMSA（数学与应用中心），换了一个身份：思考 AI 和数学的关系。

所以当 Freedman 这个人在 2026 年 3 月扔出一篇叫《Compression is all you need》的论文——这不是某个追热点的研究员，这是一个一辈子在数学内部看世界的人，突然转身跟所有人说：

"我看清楚了一件事。你们要听吗？"

第二章：一个让所有人尴尬的事实

Freedman 论文的切入点，是一个数学界人尽皆知、但几乎没人能解释的尴尬事实。

先建立两个概念：

形式数学（Formal Mathematics, FM）：所有合乎逻辑规则的推演。

人类数学（Human Mathematics, HM）：人类真正写下、收录、引用的那部分数学。

FM 的空间有多大？假设你有 n 个基础符号，组合出来的"合法推演"是指数级——n 上百以后就超过了整个宇宙里的原子数。

HM 呢？从欧几里得到今天所有数学家加起来写过的定理，约百万量级。Lean 4 的 MathLib 收录其中约 14 万条。

两个数字并排写

FM：> 1080

HM：~ 105

中间隔了 75 个零。

人类数学，是形式数学这个宇宙里一粒尘埃都不到的小角落。

而且——为什么是这一粒？

FM 里有无穷无尽的"合法但无聊"的定理。比如："对任意整数 n，n + 0 = n"，"对任意整数 n，n + 0 + 0 = n"，"对任意整数 n，n + 0 + 0 + 0 = n"……每一条都合法，每一条都无意义。人类数学家从来不写这些。

一百年来这个问题有过无数个哲学回答："美""简洁""有用""深刻"——都是词语的游戏。没有一个是数学答案。

直到 Freedman 2026 年给出了第一个能算的回答：

因为 HM 是 FM 里那个"可压缩"的子集。

第三章：压缩——先站在日常地面上

Freedman 说的"压缩"是什么意思？先别想数学，先想几个你已经懂的例子。

例子一：Huffman 编码

你家猫叫小花。照片里出现最多的动作是"睡觉"（4000 次），其次"吃饭"（3000）、"抓沙发"（2000）、"发呆"（1000）。

固定 8 位编码：80000 位。Huffman 编码："睡觉→0；吃饭→10；抓沙发→110；发呆→111"——19000 位。压缩率 4 倍，没有丢失任何信息。

只要事物分布是不均匀的，就存在压缩。

例子二：牛顿三定律

宇宙里每一秒都在发生无数次的运动：苹果落地、月亮绕地、弹簧振动、子弹出膛、潮汐起落……你想记录所有这些运动，需要多少信息？

你只需要记住 F = m·a，外加两条（惯性、反作用），就能重新生成上面所有运动。

牛顿三定律是一个几十字符的程序，它编码了经典力学的全部。

例子三：zip 文件

"to be or not to be, that is the question; to be"——把反复出现的"to be"和"the"命名成 A、B，之后只写名字。这是 LZ77 算法（zip / gzip / PNG 的底层），1977。

例子四：大型语言模型

喂整个互联网给 LLM——几万亿字、几百万小时文本。训练完得到几百亿参数的模型（几百 GB）。它能生成类似训练集里的任何内容。

这件事，用信息论的语言说叫：LLM 就是互联网的一次有损压缩。

DeepMind 2023 年做了一件让人血压升高的事：他们把 Chinchilla 70B 当成一个通用压缩器，用它去压缩原始字节流——不仅是文本，还有从没训练过的图像和音频。结果：

文本压缩率：比 gzip 好很多

图像压缩率：比 PNG 好

音频压缩率：比 FLAC 好

一个只训练了语言的模型，居然能压缩它从没见过的图像——因为它学到了"通用的世界结构"。

从 Huffman 的字符编码到 LLM 的几百亿参数——压缩的颗粒度越来越粗，本质是同一个。

任何"理解"的行为，本质都是找到更短的描述。

这不是比喻。这是 Freedman 论文的出发点。

第四章：Freedman 的建模——字符串和"宏"

Freedman 说的第一件事：把数学推演当成字符串。你在黑板上写证明，本质就是一串字符。所有"合法的证明字符串"排起来——就是 FM。

但数学家从来不这样写。他会说："设 f 在 [a, b] 上连续，则 f 一致连续。"

"连续"是一段定义，展开约三行字符。"一致连续"是另一段，展开约五行。表面 20 个字，完全展开超过 100 个字符。继续挖下去——一条"短句子"背后，是一棵很深的定义树。

Freedman 给这种"名字 → 一段长字符串"的约定起了个名字：宏（macro）。

"连续" = 一个宏

"一致连续" = 一个宏

"积分" = 一个宏（调用"极限""分割""黎曼和"的宏）

"勒贝格积分" = 一个宏（调用"测度""可测函数"的宏）

"黎曼-勒贝格引理" = 一个宏（调用以上所有）

一条现代定理"完全展开"往往是亿级字符。但数学家永远只看最外层。

数学家的工作，就是不断造宏。

一位数学家的一生，可能就干了一件事——看到了一个之前没人压缩过的模式，给它起了一个名字。

高斯给"正态分布"起了名字。黎曼给"流形"起了名字。伽罗瓦给"群"起了名字。康托尔给"集合"起了名字。图灵给"可计算性"起了名字。香农给"熵"起了名字。

你今天学的所有数学，都是在站在前人造好的宏上。如果不能层层压缩，人类根本学不动数学。

第五章：$A_n$ vs $F_n$——两种宇宙

到这里一切都是直觉。Freedman 接下来要做的，是把这个直觉变成数学。

他引入两个代数对象（别紧张，用直觉讲）：

A_n 像拼乐高

你有一堆乐高积木——红、蓝、绿。红拼蓝上加绿，还是先绿再蓝再红——最后模型一样。顺序无关紧要，只在乎哪些积木。

F_n 像编辫子

先压左绳再压右绳，和先压右再压左——得到的辫子完全不一样。顺序决定一切。

Freedman 的定理说了一件"漂亮得像魔法"的事：

Freedman 的核心代数发现