何恺明组新作:258M参数就够了量子位

6/19/2026

全员本科生!

刚刚,何恺明携本科生 “军团” 又放出一篇新论文。继去年探索直接从像素预测图像的 JiT 架构后,团队这次又把这套 “删繁就简” 的思路扩展到了文生图领域,推出全新工作:MiniT2I。

在今天动辄数十亿参数、海量图文数据训练文生图模型的背景下,MiniT2I 选择了另一条路。它基于全新的 MM-JiT 架构,直接在像素空间进行扩散生成,同时尽可能压缩模型复杂度和训练成本,最终,仅用 258M 参数,就实现了不错的文生图效果,更关键的是,整个训练成本只相当于一次标准 ImageNet 实验。

这是怎么做到的?

从 JiT 到 MM-JiT

整体看来,MM-JiT 是恺明组之前论文「Back to Basics」在 T2I(文本生成图像)方向上的延伸。

Back to Basics 中,恺明和他的博后黎天鸿提出了 JiT 架构,Just image Transformers。JiT 的核心主张是:抛开 VAE 编解码器,直接在像素空间预测干净图像(x-prediction),而不是像传统扩散模型那样预测噪声。这样做的好处是,整个生成流程更加直接,符合流形假设以及 “从像素出发” 的第一性原理。

不过,当时的 JiT 主要针对类别条件生成(class-conditional generation),任务范围相对有限,模型只能根据 ImageNet 的类别标签生成对应图像。然而,真实的图像生成任务往往不限于 ImageNet 的 1000 个固定类别,而是需要理解并遵循开放的文本 Prompt。

问题也随之而来,一旦从类别生成扩展到文生图,训练成本往往会迅速攀升。无论是 SD3、FLUX.1-dev 还是 DALL・E 3,背后都依赖多阶段训练流程、庞大的文本编码器以及海量数据资源。对于大多数学术团队而言,从零开始训练一个完整的文生图模型,几乎是一项难以承担的工程,于是,MiniT2I 应运而生。

它试图回答一个更现实的问题:如果只用接近 ImageNet 训练规模的计算资源,能不能也做出效果不错的文生图模型?答案是,可以。

研究发现,当文本首先被预训练语言模型编码为语义表示后,对于生成模型而言,文本条件本质上只是另一种形式的上下文条件。换句话说,文生图或许并没有想象中那么特殊,在模型架构、训练计算量,甚至所需数据规模上,它与类别条件生成的差距远没有业界普遍认为的那么大。

如果这个判断成立,那么一个很自然的问题就出现了:既然类别条件生成已经能用 JiT 这样的极简架构完成,那么文生图任务里那些复杂的模块,究竟哪些是真正必要的?MM-JiT 给出的答案是:把它们一个个删掉,再看模型还能不能工作。

MM-JiT:删繁就简

对于上面这个问题,MiniT2I 项目负责人王衔邦在 X 上的总结非常精炼:我们的原则很简单,能去掉的全去掉。起点是像素空间、标准的 T5-Large 编码器,以及一个采用 x-prediction 的简洁多模态骨干 MM-JiT。

这套思路的第一刀,砍向了 VAE。众所周知,当前主流文生图模型大多采用潜在扩散(Latent Diffusion)路线:先通过 VAE 把图像压缩到低维潜空间,再在潜空间里完成扩散生成,最后解码回像素。这样做的好处是显著降低计算量,但代价也很明显,VAE 会带来重建误差和伪影,同时还额外增加了一套编解码器的训练流程。

针对这一问题,在前作 JiT 中,团队已经证明,至少在 ImageNet 任务上,直接在像素空间建模并不存在所谓的 “不可逾越瓶颈”。那么在文生图任务里,VAE 是否真的不可替代?团队决定直接把它删掉试试。

MiniT2I 将扩散过程重新搬回像素空间,希望验证一个看似反常识的判断:直接在像素空间扩散,不仅完全可行,而且未必比潜空间路线更贵。

实验表明,传统潜空间模型单次前向传播需要 1379 GFLOPs,而彻底摆脱 VAE 之后,MiniT2I 的计算开销仅为 265 GFLOPs,直接降低了约 80%。

Scroll for more