扩散模型也有「Skills」了量子位

在扩散模型（Diffusion Models）横扫图像与视频生成的今天，ControlNet、LoRA、IP-Adapter等工具，早已成了创作者和开发者工作流里的标配。但繁荣背后，一个越来越让人头疼的问题浮出水面：模型生态，太“碎”了。

相信不少开发者都踩过这样的坑：好不容易跑通一个新模型，想加个控制功能，一看代码结构——完全不兼容；想一次性叠加多个控制条件，结果插件之间在底层“打架”，特征层冲突不断。现在的Diffusion插件生态，更像是一堆需要手工“打补丁”的孤岛。每次拼接，都在考验开发者的耐心和底层功底。

如果能像大语言模型（LLM）使用MCP、Skills等标准化插件机制一样，让Diffusion模型也具备即插即用的通用联结方式，AI创作的效率和自由度，会不会迎来一次彻底的爆发？

近期，专为Diffusion模型设计的插件框架——Diffusion Templates正式开源发布。这个框架能大幅降低可控生成技术的训练和使用难度，让开发者能够通过丰富的Templates来精准控制模型的生成结果。

以图像编辑为例，通过叠加不同的Template，可以实现对同一画面的多维控制：

使用第一个Template进行图像编辑，把画面风格改为二次元动漫风格

使用第二个Template进行局部重绘，让周围环境保持不变

使用第三个Template进行亮度调节，适当调高亮度保证画面明亮且清晰

Template 1:

Template 2:

Template 3:

△二次元的猫猫出现在了三次元的世界

再来看另外一个例子，这是一只模糊的猫猫，可以用两个Template提升画面的清晰度：

使用第一个Template进行超分辨率，渲染出高分辨率的图像

使用第二个Template进行锐利激发，提升画面细节的清晰度

Template 1:

Template 2:

scale: 0.8

△两个以不同目标训练的模型协同渲染提升画面质量

像搭积木一样组合模型

Diffusion Templates是一套完善的Diffusion模型插件框架，在这个框架中，每一个插件被称为Template，它可以像模板一样引导模型，模型发挥自身的生成能力向模板中填充信息，最终生成清晰的画面内容。框架的结构如下图所示：

△Diffusion Template框架结构

Diffusion Template框架包含以下模块设计：

Template Input:

Template模型的输入，其中的字段由每个Template模型自身决定，为模型开发者提供最大限度的开发自由度。

Template Model:

Template模型，可从魔搭模型库加载或从本地路径加载，让模型的使用简单易用。

Template Cache:

Template模型的输出，也是基础模型Diffusion Pipeline的输入，因此其中包含的字段是Diffusion Pipeline的输入参数的子集。

Template Pipeline:

用于调度多个Template模型的模块，该模块负责加载Template模型、整合多个Template模型的输出。

其中Template Cache是最核心的框架概念，魔搭社区团队在其中设计了一些模型能力媒介格式，例如KV-Cache等，Template模型通过Template Cache将信息传递给基础模型，对生成内容进行控制。

为了方便开发者快速了解Diffusion Templates，魔搭社区团队基于FLUX.2-klein-base-4B，训练了11个覆盖多个场景的Template模型，并将这些模型一并开源。每个Template模型存储在独立的模型仓库中，保证插件与基础框架解耦，同时方便开发者适配。

目前，Diffusion Templates框架的代码已在DiffSynth-Studio项目下完全开源。

本次开源的代码也包含了模型的训练，团队希望通过这个框架，大幅降低可控生成模型的训练门槛，让模型开发者们能够更方便地探索新奇的模型技术，一起构建丰富的开源模型生态，为AI技术发展添砖加瓦！

以下是本次开源的11个Template模型，这些模型基于基础模型FLUX.2-klein-base-4B训练，能够为这一基础模型提供各种可控生成能力，这些Template模型与FLUX.2-klein-base-4B的LoRA和微调版本也是兼容的。未来团队会基于这一框架提供更多基础模型的Templates。

1. 亮度调节

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Brightness

精准控制画面的光照强度，从柔和的晨光到强烈的逆光，随心所欲。

scale = 0.3

scale = 0.5

scale = 0.7

2. 结构控制

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-ControlNet

类似ControlNet的功能，通过输入参考图对生成图像的空间结构、物体轮廓与透视关系进行精准引导，让创作更加可控。

Condition

Prompt: A cat is sitting on a stone, bathed in bright sunshine.

Prompt: A cat is sitting on a stone, surrounded by colorful magical particles.