中文版Nano Banana来了?量子位

2/11/2026

文本一长就糊、指令一杂就撂挑子、遇到中文更是一整个变形freestyle……

「AI生图」的这点苦,到底有谁懂啊!!!

停,不用拧巴了,因为现在的AI,已经能稳稳吃下1K token的超长文字指令了:

复杂指令也不在怕的,最近OpenClaw贼火,我索性让AI直接帮roll出一个赛博信息图海报(你就说牛不牛吧):

中文渲染表现也不孬,《兰亭集序》这种公认的高难度文本,这AI居然能做到文字1:1还原,排版、笔锋都在线:

你以为到这儿就结束了,NONONO!因为它还能——多图编辑。

随手丢给了它一张照片,人家直接给我甩出一组影棚级的9宫格写真!!(诶,突然感觉怒省一笔钱…

刚才帮我干活的这位,正是阿里刚刚发布的新一代图像生成及编辑模型——Qwen-Image-2.0。

1K token长文本、复杂指令、中文渲染、图片编辑、2K分辨率一次性梭哈,连国际评测里的表现都已经冲到了仅次于Nano Banana Pro的位置。

不废话,这个中文版Nano Banana到底能不能打,咱实测见真章!!!

Qwen-Image-2.0 一手实测

复杂指令理解准,1K token文本玩得转

在AI生图界,最让人崩溃的倒不是写Prompt词,而是写了太多,AI根本不吃消,好的提示词真无!处!施!展!

不知道千问团队受了啥启发,这次在Qwen-Image-2.0中把提示词的输入字符硬生生搞到了「1K token」,而且对复杂指令的生成准确率也上了一个level。

换句话说,现在咱喂进去一大段「七八九百字」的超长地狱级提示词,对AI来说也是《手拿把掐》了。

但老话讲得好,光说不练假把式。

你说1K token就1K token?你说这AI能理解复杂指令就能理解?咱还得实测说的算!

先来道开胃菜,最近水墨风多宫格漫画在网上贼火,我直接反手就是输入一个长达700字,且包含复杂指令的提示词:

这个提示指令的难度在于,既需要AI理解五宫格结构、时间推进、空间切换、人物关系与统一画风,还需要把700字的长文本消化理解到位,这对长上下文保持一致性要求很高!!!

结果还没一分钟,Qwen-Image-2.0就给我搓出来了完成度明显高于我预期的唐僧师徒西天取经的「五宫格漫画」:

仔细看会发现,夜行、火焰山、打斗这些场景区分都很明显,而且人物形象稳定,唐僧、孙悟空、猪八戒、沙僧都保持了较好的角色一致性。

连唐僧脸上的emo情绪都还原得很到位,该有的要素一个不差???

(不是,家人们,我有点惊了…)

emm…一张图说明不了啥!

这回咱再试一个Nano Banana里很火的「美食爆炸图」玩法,看看AI能不能接住招!

这次我输入了一段长达600多字的提示词,逐层描述汉堡的十种食材及其上下位置,对AI的结构理解与还原能力提出了很高要求:

Scroll for more