何恺明做语言模型了，这次不走GPT老路黑板君

何恺明下场做语言模型了。

不是搞个开源复刻，不是微调别人的模型，而是从底层重新思考语言生成这件事应该怎么做。

然后扔出来一篇论文，外网直接炸了。

这篇论文叫 ELF，全称 Embedded Language Flows，翻译过来大概叫「嵌入式语言流」。作者团队来自 MIT，八个人，通讯作者是何恺明。

如果你不知道何恺明是谁，简单说一下。ResNet 知道吧，就是那个 2015 年发出来、到现在为止 AI 领域被引用次数最多的论文之一，第一作者。FAIR 待过，2024 年从 Meta AI 去了 MIT。所以他做语言模型这件事，本身就是一个值得关注的信号。

那他这次做了什么不一样的事？

过去几年，图像生成领域的主流技术叫扩散模型（Diffusion Model），Stable Diffusion、DALL-E、Sora 这些背后都是它。扩散模型最擅长处理的是连续数据，图像本质上就是连续像素值，所以效果特别好。但语言不一样，语言是离散的，是由一个个词 token 组成的。这件事一直以来都是扩散模型的软肋。

于是很多研究者就把扩散模型硬搬到了语言上，在 token 空间里做去噪。这条路叫离散扩散语言模型，效果还行，但总觉得别扭。

何恺明团队这次选了一条更难的路——在连续空间里做语言生成，只在最后一步才把结果翻译成词。

这个做法听起来有点反直觉，但核心洞察其实就一句话：语言看起来是离散的，但如果你深入到语义层面的表示，很多信息天然是连续的。

ELF 的工作原理大概分三步。第一步，把每个词用编码器转成连续向量。第二步，从随机噪声出发，在连续空间里通过 Flow Matching 一步步推向干净的向量表示。第三步，只在最后一步才把连续向量映射回词汇表，输出具体的词。

关键是，整个去噪过程从来没有中途把连续向量变回词的空间。不打断流动的连续性，让扩散动力学有最大的自由度。

这意味着什么？意味着图像生成领域积累的各种技术可以原封不动搬进来用了。

最直接的一个例子是无分类器引导（Classifier-Free Guidance，CFG），这是图像生成里提升质量的大杀器，但以前在语言模型里很难用。ELF 第一次让它在语言生成里变得顺理成章。

但真正让我愣住的不是这个。

ELF 只用了 105M 参数、45B 训练 token、32 步采样，就达到了 24 的生成困惑度。对比的那些模型，用了 500B+ token、1024 步采样，效果还比不上它。

你品一下这个数字。45B token 比 500B+，差了差不多 10 倍。32 步比 1024 步，少了 30 多倍。结果 ELF 反而更好。

太特么离谱了。

就好比说，别人造一辆车用了 1000 升油跑了 500 公里，ELF 用 100 升油跑了 550 公里，还跑得更快。你说这是什么概念。

当然，你可能会说，ELF 规模小嘛，105M 参数，这个量级上跑赢不算什么。但是，从 1 亿参数到 6.5 亿参数，ELF 的质量一直在提升，说明这条路上还有相当大的扩展空间。

所以 ELF 回答了一个过去两年悬而未决的问题——扩散模型到底能不能做好语言生成？

答案是：不是不能，只是以前没把连续这件事做到底。

连续派不是不能打。

只是以前没把连续这件事做到底。

这话听着有点绕，但意思是：过去那些连续扩散语言模型，要么在中途就急急忙忙把向量变回 token，要么每一步都要跟词表对齐，犹犹豫豫的。ELF 这次彻底贯彻了连续到底的原则，所以效率一下子提上来了。

说到这里，我想起了物理学史上一个类似的争论。

世界是连续的还是离散的？

量子力学说能量是离散的，能级是一格一格的。但经典电磁学说场是连续的。争了好几十年，最后大家发现，两个描述在各自的尺度上都是对的，只是适用的层级不同。

AI 领域现在也有类似的感觉。自回归模型和扩散模型，到底谁更本质？也许都不是终态，也许最终会有一代新范式把它们都收了。但在那之前，每一条路都值得认真走。

连续还是离散。

这个问题本身，就很迷人。

对了，ELF 的代码已经开源了，GitHub 上有，arXiv 上有论文，感兴趣的朋友可以去看。

恺明下场做语言模型，这次不走寻常路。