何恺明做语言模型了,这次不走GPT老路黑板君

5/21/2026

何恺明下场做语言模型了。

不是搞个开源复刻,不是微调别人的模型,而是从底层重新思考语言生成这件事应该怎么做。

然后扔出来一篇论文,外网直接炸了。

这篇论文叫 ELF,全称 Embedded Language Flows,翻译过来大概叫「嵌入式语言流」。作者团队来自 MIT,八个人,通讯作者是何恺明。

如果你不知道何恺明是谁,简单说一下。ResNet 知道吧,就是那个 2015 年发出来、到现在为止 AI 领域被引用次数最多的论文之一,第一作者。FAIR 待过,2024 年从 Meta AI 去了 MIT。所以他做语言模型这件事,本身就是一个值得关注的信号。

那他这次做了什么不一样的事?

过去几年,图像生成领域的主流技术叫扩散模型(Diffusion Model),Stable Diffusion、DALL-E、Sora 这些背后都是它。扩散模型最擅长处理的是连续数据,图像本质上就是连续像素值,所以效果特别好。但语言不一样,语言是离散的,是由一个个词 token 组成的。这件事一直以来都是扩散模型的软肋。

于是很多研究者就把扩散模型硬搬到了语言上,在 token 空间里做去噪。这条路叫离散扩散语言模型,效果还行,但总觉得别扭。

何恺明团队这次选了一条更难的路——在连续空间里做语言生成,只在最后一步才把结果翻译成词。

这个做法听起来有点反直觉,但核心洞察其实就一句话:语言看起来是离散的,但如果你深入到语义层面的表示,很多信息天然是连续的。

ELF 的工作原理大概分三步。第一步,把每个词用编码器转成连续向量。第二步,从随机噪声出发,在连续空间里通过 Flow Matching 一步步推向干净的向量表示。第三步,只在最后一步才把连续向量映射回词汇表,输出具体的词。

关键是,整个去噪过程从来没有中途把连续向量变回词的空间。不打断流动的连续性,让扩散动力学有最大的自由度。

这意味着什么?意味着图像生成领域积累的各种技术可以原封不动搬进来用了。

最直接的一个例子是无分类器引导(Classifier-Free Guidance,CFG),这是图像生成里提升质量的大杀器,但以前在语言模型里很难用。ELF 第一次让它在语言生成里变得顺理成章。

但真正让我愣住的不是这个。

ELF 只用了 105M 参数、45B 训练 token、32 步采样,就达到了 24 的生成困惑度。对比的那些模型,用了 500B+ token、1024 步采样,效果还比不上它。

你品一下这个数字。45B token 比 500B+,差了差不多 10 倍。32 步比 1024 步,少了 30 多倍。结果 ELF 反而更好。

太特么离谱了。

就好比说,别人造一辆车用了 1000 升油跑了 500 公里,ELF 用 100 升油跑了 550 公里,还跑得更快。你说这是什么概念。

当然,你可能会说,ELF 规模小嘛,105M 参数,这个量级上跑赢不算什么。但是,从 1 亿参数到 6.5 亿参数,ELF 的质量一直在提升,说明这条路上还有相当大的扩展空间。

所以 ELF 回答了一个过去两年悬而未决的问题——扩散模型到底能不能做好语言生成?

答案是:不是不能,只是以前没把连续这件事做到底。

连续派不是不能打。

只是以前没把连续这件事做到底。

这话听着有点绕,但意思是:过去那些连续扩散语言模型,要么在中途就急急忙忙把向量变回 token,要么每一步都要跟词表对齐,犹犹豫豫的。ELF 这次彻底贯彻了连续到底的原则,所以效率一下子提上来了。

说到这里,我想起了物理学史上一个类似的争论。

世界是连续的还是离散的?

量子力学说能量是离散的,能级是一格一格的。但经典电磁学说场是连续的。争了好几十年,最后大家发现,两个描述在各自的尺度上都是对的,只是适用的层级不同。

AI 领域现在也有类似的感觉。自回归模型和扩散模型,到底谁更本质?也许都不是终态,也许最终会有一代新范式把它们都收了。但在那之前,每一条路都值得认真走。

连续还是离散。

这个问题本身,就很迷人。

对了,ELF 的代码已经开源了,GitHub 上有,arXiv 上有论文,感兴趣的朋友可以去看。

恺明下场做语言模型,这次不走寻常路。

Scroll for more