何恺明做语言模型了,这次不走GPT老路黑板君
何恺明下场做语言模型了。
不是搞个开源复刻,不是微调别人的模型,而是从底层重新思考语言生成这件事应该怎么做。
然后扔出来一篇论文,外网直接炸了。
这篇论文叫 ELF,全称 Embedded Language Flows,翻译过来大概叫「嵌入式语言流」。作者团队来自 MIT,八个人,通讯作者是何恺明。
如果你不知道何恺明是谁,简单说一下。ResNet 知道吧,就是那个 2015 年发出来、到现在为止 AI 领域被引用次数最多的论文之一,第一作者。FAIR 待过,2024 年从 Meta AI 去了 MIT。所以他做语言模型这件事,本身就是一个值得关注的信号。
那他这次做了什么不一样的事?
过去几年,图像生成领域的主流技术叫扩散模型(Diffusion Model),Stable Diffusion、DALL-E、Sora 这些背后都是它。扩散模型最擅长处理的是连续数据,图像本质上就是连续像素值,所以效果特别好。但语言不一样,语言是离散的,是由一个个词 token 组成的。这件事一直以来都是扩散模型的软肋。
于是很多研究者就把扩散模型硬搬到了语言上,在 token 空间里做去噪。这条路叫离散扩散语言模型,效果还行,但总觉得别扭。
何恺明团队这次选了一条更难的路——在连续空间里做语言生成,只在最后一步才把结果翻译成词。
这个做法听起来有点反直觉,但核心洞察其实就一句话:语言看起来是离散的,但如果你深入到语义层面的表示,很多信息天然是连续的。
ELF 的工作原理大概分三步。第一步,把每个词用编码器转成连续向量。第二步,从随机噪声出发,在连续空间里通过 Flow Matching 一步步推向干净的向量表示。第三步,只在最后一步才把连续向量映射回词汇表,输出具体的词。
关键是,整个去噪过程从来没有中途把连续向量变回词的空间。不打断流动的连续性,让扩散动力学有最大的自由度。
这意味着什么?意味着图像生成领域积累的各种技术可以原封不动搬进来用了。
最直接的一个例子是无分类器引导(Classifier-Free Guidance,CFG),这是图像生成里提升质量的大杀器,但以前在语言模型里很难用。ELF 第一次让它在语言生成里变得顺理成章。
但真正让我愣住的不是这个。
ELF 只用了 105M 参数、45B 训练 token、32 步采样,就达到了 24 的生成困惑度。对比的那些模型,用了 500B+ token、1024 步采样,效果还比不上它。
你品一下这个数字。45B token 比 500B+,差了差不多 10 倍。32 步比 1024 步,少了 30 多倍。结果 ELF 反而更好。
太特么离谱了。
就好比说,别人造一辆车用了 1000 升油跑了 500 公里,ELF 用 100 升油跑了 550 公里,还跑得更快。你说这是什么概念。
当然,你可能会说,ELF 规模小嘛,105M 参数,这个量级上跑赢不算什么。但是,从 1 亿参数到 6.5 亿参数,ELF 的质量一直在提升,说明这条路上还有相当大的扩展空间。
所以 ELF 回答了一个过去两年悬而未决的问题——扩散模型到底能不能做好语言生成?
答案是:不是不能,只是以前没把连续这件事做到底。
连续派不是不能打。
只是以前没把连续这件事做到底。
这话听着有点绕,但意思是:过去那些连续扩散语言模型,要么在中途就急急忙忙把向量变回 token,要么每一步都要跟词表对齐,犹犹豫豫的。ELF 这次彻底贯彻了连续到底的原则,所以效率一下子提上来了。
说到这里,我想起了物理学史上一个类似的争论。
世界是连续的还是离散的?
量子力学说能量是离散的,能级是一格一格的。但经典电磁学说场是连续的。争了好几十年,最后大家发现,两个描述在各自的尺度上都是对的,只是适用的层级不同。
AI 领域现在也有类似的感觉。自回归模型和扩散模型,到底谁更本质?也许都不是终态,也许最终会有一代新范式把它们都收了。但在那之前,每一条路都值得认真走。
连续还是离散。
这个问题本身,就很迷人。
对了,ELF 的代码已经开源了,GitHub 上有,arXiv 上有论文,感兴趣的朋友可以去看。
恺明下场做语言模型,这次不走寻常路。


