扩散模型终于学会「看题下菜碟」量子位

3/10/2026

扩散模型终于学会 “看题下菜碟” 了!

一直以来,文生图模型都是 “凭直觉” 作画 —— 不管提示词是 “黑色的天空” 还是 “梵高风格的漩涡星空”,都死板地用同一套固定步数采样。结果就是:简单题算力过剩,复杂题细节崩坏。

中国联通数据科学与人工智能研究院联合新加坡国立大学等机构提出的新框架 “轨迹链”(CoTj),彻底打破了这一僵局。它让扩散模型拥有了 “系统 2” 的规划能力,能根据提示词的复杂程度,动态分配计算资源。更颠覆的是,在 5 步的极端压缩下,CoTj 规划出的轨迹配上最朴素的 1 阶求解器,画质居然吊打了传统方法配高阶求解器 —— 证明 “找对路” 比 “用什么交通工具” 更重要。目前,该研究的论文已在 arXiv 发布,推理代码也已开源。

△ 上图直观展示了传统 System 1(固定调度)与 CoTj System 2(优化规划)的推理机制对比,以及在图像和视频生成上的真实效果差异。

突破高维诅咒:引入 “扩散 DNA”

为什么以前的模型学不会 “慢思考”?因为挡在研究人员面前的,是可怕的 “状态维度灾难”。扩散过程发生在高维、连续的噪声流形中,状态空间的组合爆炸使得传统算法在寻找最优生成轨迹时,根本算不动,往往会陷入局部最优。

为此,研究团队采用了一种 “降维打击” 策略,从理论本质出发提取出了一种名为 Diffusion DNA(扩散 DNA)的低维结构化特征。

△ 如图所示,低熵(简单)和高熵(复杂)的提示词在生成难度和误差曲线上存在显著差异,Diffusion DNA 能够完美捕捉这种内在的异质性分布。

你可以把它理解为扩散模型的 “难度诊断书”。它能够精确量化每个去噪阶段的难度分布,并作为高维状态空间的完美替身。通过这种降维映射,研究团队成功将极其复杂的采样过程,转化为了有向无环图(DAG)上的最短路径优化问题。

△ CoTj 将高维状态聚合为超级节点(Super-Nodes),构建了密集的逆时有向无环图(DAG),从而将高维随机演化转化为结构化的全局轨迹寻路优化问题。

基于此,CoTj 采用了一套极具前瞻性的 “预测 - 规划 - 执行”(Predict-Plan-Execute)推理范式:

1. 极速预判

模型配备了一个极轻量级的预测器,其能直接从条件嵌入(Condition Embeddings)中估算出当前的 Diffusion DNA(以 Qwen-image 为例:预测器参数量仅 0.96M,单次推理仅需 0.073 毫秒)。

2. 图论规划

将获取的 DNA 以代数运算的时间内构建采样时间节点的 DAG 完全图,并通过寻找图网络中的 “最小作用量路径”(Path of Least Action),将算力动态分配给生成过程中最棘手的阶段。

基于图论规划,可实现两种灵活模式:

固定步数:在固定采样步数预算下,通过图规划选择最适配当前条件的最优去噪轨迹。实验结果显示,在 Geneval 指标中,无论是基础模型还是蒸馏型文生图模型,CoTj 均显著提升了生成准确性,同时实现有效加速。

△ 在漂移惩罚的转移成本热力图中,CoTj(红实线)能自适应找到 “最小作用量路径”,而传统 Euler 调度(蓝虚线)在低误差区域浪费大量步伐,高误差区采样不足。

自适应步数:面对低熵的简单场景自动选择捷径;面对高熵的复杂描述则增加精细打磨的步数,直到累积的轨迹增益达到设定阈值(如 Qwen-image 为 99%),彻底杜绝无效计算。

△ 增益比(ρ)与自适应步数关系。基于 25,432 条提示统计,在 ρ≈0.99 附近出现明显相变,此后步数需求超线性上升、边际收益递减,验证了 “接近最优重建即终止” 的准则。

灵魂拷问:路径规划 vs. 求解器,谁更重要?

在扩散模型的加速研究中,学术界一直痴迷于设计越来越复杂的 “高阶数值积分求解器(Solver)”。但 CoTj 提出了一个灵魂拷问:究竟是走什么路(轨迹规划)重要,还是用什么交通工具(求解器)重要?

实验给出了颠覆性的结论:轨迹规划是主导因素!在极端的 5 步低算力预算下,传统的线性调度方案即使搭配先进的高阶求解器(UCGM),生成的图像依然边缘模糊、细节丢失;而采用 CoTj 规划的系统 2 轨迹,哪怕只配最朴素的 1 阶(1st-order)Euler 求解器,也能完美还原全局几何结构和光影;当正确规划配上高阶求解器时,更能达到前所未有的超高真实感。

△ 5 步极端压缩下的视觉消融实验。只有基于 CoTj 规划轨迹的方法(下方两图)成功保住了苹果的几何结构和光影细节,证明 “找对路” 比单纯提升求解器阶数更关键。

Scroll for more