专挑“有营养”数据:时间爆砍80%量子位

12/26/2025

想象一下,如果让一个大厨用发霉的食材、过期的调料来做菜,即使厨艺再高超,也做不出美味佳肴。AI训练也是同样的道理。

现在的AI图像生成模型,如Stable Diffusion、FLUX等,需要从网络上爬取数百万张图片来学习。但这些图片质量参差不齐:有些模糊不清,有些内容重复,有些甚至只是广告背景图。用这些“食材”训练出来的AI,自然效果不佳。

由香港大学丁凯欣领导,联合华南理工大学周洋以及快手科技Kling团队共同完成的这项研究,开发出了一个名为“炼金师”(Alchemist)的AI系统。它就像一位挑剔的大厨,能从海量图片数据中精准挑选出最有价值的一半。

用这一半精选数据训练出的模型,竟然比用全部数据训练的表现还要好

只用20%的精选数据,就能达到50%随机数据的效果

传统的数据筛选方法就像用筛子筛米粒,只能按照单一标准过滤:

Scroll for more