这个开源模型把图像理解和生成统一了量子位

4/29/2026

这两天打开朋友圈,10 条里有 7 条都是 GPT-Image-2 生的图。

中文海报、复古杂志封面、直播画面、社交截图,连高考试卷都能照着出一张几乎以假乱真的。

对此,大家伙的反应也都出奇的一致 —— 专业设计师们完了,我又能行了!

但实际上上手你就会有同感:免费用户一天几张,抽卡次数有限,遇到稍微严肃点的活,额度马上到顶,常常是活没干完,次数没了。

针对这一空档,商汤刚刚开源了一个全新架构的理解生成统一模型 SenseNova-U1,虽然小尺寸版本只有 8B,却能复刻不少 GPT-Image-2 的拿手绝活。

比如,我们拿它做一张量子位的招聘海报:文字、版式、配色,挑不出毛病。

△图片由 SenseNova U1 生成

太阳系图解,八大行星各自的轨道、属性、图文介绍一应俱全,看着挺像那么回事。

△图片由 SenseNova U1 生成

画个钢铁侠,模型也能自动从轮廓、铺色、细节、质感、氛围等多个阶段拆解完整的绘画流程。

来个马斯克太空集群的信息图也审美在线。

△图片由 SenseNova U1 生成

可以说,信息图(InfoGraph)、文字密集排版、图文交错 —— 这几个曾经被公认是 AI 生图最难啃的硬骨头,U1 能跟 GPT-Image-2 挤进一桌。

在具体的图像理解与生成的多项指标上,SenseNova-U1 也是登顶开源模型的榜首。

在推理响应速度上也具备相当的优势,逼近主流商用闭源模型。

Scroll for more