OpenAI Image2：断崖反超 Nano Banana51CTO技术栈

“这是我过去四个月一直在研究的东西！”

几个小时前，OpenAI 的 Image 2 成功反超 Google ！

而这款上线即 SOTA 的文生图模型，直接在榜单上以碾压性的 242 分的优势超过了第二名 Nano Banana 2！

如此强悍的模型悄然而至，似乎一下让开年以来不断被 Anthropic 盖过风头的OpenAI，再次回到了舞台 C 位！

这这款模型背后，究竟是如何做到？本篇就带大家一探背后的技术实现路径。

随着 OpenAI CEO Sam Altman 的一场直播，大家开始注意到 Image 2 核心研发者：Boyuan Chen！

Chen 在帖子中爆料到：这款模型研发周期持续了四个月。

直播一开场，Sam 就为这款模型给出了一个相当高的评价：就好像直接从GPT3跳到了GPT5一样！

Text-to-Image 项目中实现了完美统治，以创纪录的+242 分领先优势 - 这是迄今为止我们见过的最大差距。

首个具备思考能力的文生图模型

这是 Image 2.0 最为让人惊艳的地方。

这是一个范式变化。用 Sam 的话来说：如果 DALL·E 是洞穴壁画，Image Gen 1 是古代艺术，那么 Image 2.0 就是文艺复兴。

简单理解，就是学前班画画水平跟专业设计师之间的区别！

这里之所以用了“文艺复兴”，其实一点也不夸张。大家只要简单回顾一下前两代模型的使用经历，再试一把 Image 2.0 就能明显感觉到代际差异。

先看下这个例子就知道了。小编考了一道中学生未必都能半分钟回答出来的问题：帮我在一张A4纸上用红色中性笔证明一下勾股定理。

Image 2 似乎理解了我所提的每一个概念要素：A4 纸、红色中性笔、勾股定理、证明。

结果就这么水灵灵的给出了一个几何证明题的作业纸。“白纸红字”，不服不行！

这就如同文艺复兴时期，人们开始走出原始表达和理想化审美的束缚，开始系统地理解世界，并学会用科学方法去重建现实。

具体怎么触发这一功能？

只需要在 ChatGPT 里选 thinking 或 Plus、Pro 模型即可。然后你吩咐模型做图，模型就会做三件事：联网搜索实时信息、基于用户上传的文件生成可视化解释内容（一次产出最多 8 张连贯图）、图像生成前自我检查输出质量。

升级后的模型，作图过程也变得更加专业范儿：

先打个草稿，生成初稿中，搭好场景，打磨细节，收尾中，最后润色中，最后微调一下，创建完成。

下面这个例子，很好的体现了这一过程，在不同画面中保持人物、物体和风格的一致性。

总结一下，OpenAI 这波释放了一个图像模型的演进方向：

模型不只是生成图像，它在“思考”。它可以进行研究，甚至能搜索网络，以最准确的信息生成图像。

基于这些能力，它可以生成解释复杂系统的信息图，甚至用带证明的方式解决数学问题。

OpenAI 表示，这将使生成漫画页面、社交媒体视觉内容系列，或整套家居设计方案变得更加容易。

比如，我们已经可以在毫无上下文背景的情况下，让 Image 2 生成一张流川枫三步篮的动作拆解图。

可以看出，原本需要专业体育+绘画知识的一张分解图，就这样被 OpenAI 分分钟秒出了。文本内容非常专业准确，而结构化的构图设计也非常合理，视觉布局能力也没的说。

毫无疑问，OpenAI 这次是真的瞅准了生产级环境的视觉内容。

那么，如此聪明的会思考的模型是如何实现的呢？

目前，OpenAI Imagegen 团队研究员 Ayaan Haque （多说一嘴，前 Luma 团队成员），透露了一些工程信号：模型先做研究，再去做。

以前，如果你让图像模型去研究一个主题，它其实并不具备足够的世界知识，也缺乏各个领域的专业能力。