奥特曼「红色警戒」5个月后,GPT Image 2屠榜新智元
被Google按了半年头,OpenAI终于祭出一记反杀。GPT Image 2上线12小时,就登顶Arena文生图榜,领先Nano Banana 2达241分。Arena官方称,这是Image Arena文生图排行榜迄今最大的分差。
发布当天,三榜通杀。
GPT Image 2上线12小时,Text-to-Image(文生图)、Single-Image Edit(单图编辑)、Multi-Image Edit(多图编辑)三个分榜全部登顶。
Arena官方原话:「a clean sweep」(全胜)。
文生图主榜,GPT Image 2 1512分,Nano Banana 2 1271分。241分差距,Arena史上最大。
「没有任何模型曾以这种差距统治过Image Arena」,Arena官方表示。
在Image Arena所有盲测对决中,GPT Image 2的胜率是93%:100张图配对盲选,93张人们选了OpenAI那张。
「如果把DALL-E看作洞穴壁画,把Images 1.0视为古代艺术,那么Images 2.0就是文艺复兴」。
OpenAI在发布会开场中这样介绍Images 2.0,奥特曼更是将它称作跨代升级:
这好像一下子从GPT-3跃升到了GPT-5。
OpenAI官方API文档对Images 2.0给出了一个最高级的评价。
但真正的故事,并不在数据里。
被Google压了半年
OpenAI总算扳回一局
时间倒回2025年8月。
Google放出了Nano Banana。这个在Gemini里嵌入的图像生成模型,在C端瞬间引爆。
三个月后的Q3财报会上,Google CEO Sundar Pichai亲口披露了一组数字:Gemini月活,从7月的4.5亿涨到10月的6.5亿。
Google Labs负责人Josh Woodward称,这一增长很大程度上来自Nano Banana带动的图像生成热潮。
11月,Google再发Nano Banana Pro。文本渲染能力惊艳,AI图像第一次能把字写对,OpenAI在C端被反超。
11月18日,Google再补一刀。Gemini 3发布即登顶LM Arena,1501分,首个突破1500的前沿模型。
这一月底,奥特曼对全公司发了一份「红色警戒」(code red)的内部备忘录。
据The Information报道,奥特曼私下告诉员工,Gemini 3可能给OpenAI带来经济逆风。Yahoo Finance后续披露:code red之下,OpenAI暂停了AI Agent等其他产品的研发,资源全部倾斜到ChatGPT。
12月,OpenAI仓促拿出GPT Image 1.5。Arena第一,但C端没能引爆。
2026年2月,Google再补一刀,Nano Banana 2登场,Arena再度领先。
OpenAI又输了一次。
一直到4月21日,GPT Image 2上线,OpenAI这才实现反超,重新扳回一局。
画图AI将被重新定义
GPT Image 2凭什么能领先241分?
核心答案藏在架构层面。
GPT Image 2不是Stable Diffusion那一代的扩散模型。
OpenAI研究负责人Boyuan Chen称这是「revamped from scratch」(从零重构)的「generalist model」(通用模型),OpenAI的内部叫法是「图像版的GPT」。
但Chen在press briefing时拒绝公开承认它具体是扩散还是自回归架构。
外界普遍把它理解为「带推理规划的图像生成系统」:画之前先规划,再下笔。这正是GPT Image 2和上一代图像模型最大的不同。
OpenAI在官方说明里给了它一个新标签:首个具备原生思考能力的图像模型(image model with native thinking capabilities)。
画之前先想、画完自己检查、需要时联网搜索资料、一次能产出8张前后连贯的图。
这不是画笔,是会思考的视觉助理。
Arena榜单分项数据显示:
文字渲染(Text Rendering)单项,GPT Image 2比前代涨了316分;卡通动漫和人像各涨296分;3个产品/3D/写实分类,整体在+247到+277分区间。
文字渲染是2025年11月Nano Banana Pro首次解决的问题,但当时准确率94%。GPT Image 2把它推到了99%。
OpenAI发布会现场演示:让GPT Image 2画一碗米饭,其中只有一粒米上写有模型名字。
具体到能力展示,OpenAI总裁Greg Brockman在自己的X账号上做了示范。
第一个案例,老照片修复。
褪色发黄的家庭老照片,一个提示词,立刻变身高清彩色版。
OpenAI官方API文档里那句「high-fidelity image inputs」(高保真图像输入),说的就是模型对原图细节的保留能力:输入端能精确读取褪色的、破损的、模糊的老照片细节,输出端才能重新渲染出清晰版。
第二个案例中,Brockman转发了用户@doodlestein的一组测试图:用同一个复杂提示词让GPT Image 2画一张数学解释图。
他评价说,即便是复杂提示词,GPT Image 2也能生成风格各异的图。
@doodlestein 测试GPT Image 2用同一个提示词画一张线性代数解释图。模型一口气画出4个完全不同的版本:同样是Mona Lisa+特征向量教学,每个版本的构图、配色、信息密度完全不同。


