vivo+浙大0.6B VLM:支持手机端侧部署量子位

6/14/2026

如今手机拍照已成日常,后期修图是提升照片质感的关键。但专业修图工具操作复杂,一键滤镜风格生硬,现有 AI 修图方案也存在难以端到端优化、模型庞大不适配移动端等问题。

为此,vivo BlueImage Lab 团队、浙江大学计算机科学与技术学院 AiXM 实验室、之江实验室与中国科学院大学联合发布了一项新的研究工作 VeraRetouch—— 面向多任务推理式的照片影调和色彩 “修图”,提出了一个轻量、全可微分、可移动端部署的修图框架。

通过将 0.6B 视觉语言模型作为 “修图大脑”,并设计全可微分的 Retouch Renderer 作为 “修图执行器”,VeraRetouch 能够把高层语言意图转化为低层像素级调整,在保持图像结构和细节的同时完成专业化色调与色彩优化。

让大模型真正 “会修图”,而不只是会说怎么修

传统自动修图方法大多像一个黑盒:输入照片,输出结果,中间缺少明确的审美分析与调整逻辑。

后来的推理式修图方法引入多模态大模型,让模型能够分析照片问题、给出修图步骤,再调用外部工具执行调整。这条路线更接近人类修图师的工作方式,但也带来一个核心瓶颈:外部修图软件通常不可微分。模型生成的参数能否真正带来更好的像素结果,很难通过端到端训练直接优化。

VeraRetouch 的关键创新在于,它不再把专业修图工具当作外部黑盒,而是用一个全可微分的 Retouch Renderer 替代传统软件中的调色与调光操作。这样一来,模型不仅能 “推理出该怎么修”,还能通过图像监督直接学习 “怎样修才真的好看”。

研究团队将修图空间拆解为三个相对独立的控制维度:Lighting:曝光、阴影、高光等光照相关调整;Global Color:色温、色调、整体颜色倾向等全局色彩调整;Specific Color:针对红色、橙色、蓝色等特定颜色通道的精细调整。这种拆解方式与专业修图流程高度一致,也让模型的输出更可解释、更稳定。

△Retouch Encoder 从参考图像对中提取光照、全局色彩和特定色彩控制 latent,Retouch Renderer 再将这些控制信号映射到像素级修图结果

三种任务:从 “一键变好看” 到 “按你说的修”

VeraRetouch 面向真实用户需求定义了三类修图任务:Auto-Retouch、Style-Retouch、Param-Retouch。

△VeraRetouch 支持自动修图、风格修图与参数修图三类典型工作流,让用户可以快速从 “这张图需要怎么修” 理解到 “模型正在做什么”。

第一类是 Auto-Retouch。用户只需要输入一张照片,模型自动分析画面中的光影和色彩问题,并生成修图方案。这对应最常见的 “一键优化” 场景,但目标不是套滤镜,而是在保留原图内容的基础上提升整体观感。

第二类是 Style-Retouch。用户可以用自然语言描述想要的风格,比如 “温暖秋日感”“冷调日系透明感”“暗调情绪胶片风”。模型会结合图像内容和文本意图,推理出具体的调色方向,并生成符合风格描述的结果。

第三类是 Param-Retouch。模型可以根据明确的参数指令进行修图,例如对比度、曝光、色温、饱和度等。换句话说,它既能 “自己看图修”,也能 “听懂你想要什么风格”,还能 “按参数执行”。

数据问题怎么解决?构建百万级专业修图数据集

高质量修图模型离不开高质量数据。然而,专业修图数据非常稀缺。已有数据集规模有限,且很难覆盖真实用户复杂多样的风格需求。

为此,研究团队构建了 AetherRetouch-1M+,这是一个百万级多任务专业修图数据集,覆盖 Auto-Retouch、Style-Retouch 与 Param-Retouch 三类场景。

△AetherRetouch-1M+ 覆盖自动修图、风格修图与参数修图三类任务,为多任务推理式修图提供大规模训练数据

对于自动修图,团队采用了一个很有意思的 “反向退化” 思路:先从高质量照片出发,把它们视作 “已修好” 的结果,再基于专家修图对中的色彩与光照变化,反向生成更像原始照片的 “未修图” 版本。这样可以在保留真实内容结构的同时,构造大量具有真实缺陷的训练样本。

Scroll for more