中文版Nano Banana来了？量子位

文本一长就糊、指令一杂就撂挑子、遇到中文更是一整个变形freestyle……

「AI生图」的这点苦，到底有谁懂啊！！！

停，不用拧巴了，因为现在的AI，已经能稳稳吃下1K token的超长文字指令了：

复杂指令也不在怕的，最近OpenClaw贼火，我索性让AI直接帮roll出一个赛博信息图海报（你就说牛不牛吧）：

中文渲染表现也不孬，《兰亭集序》这种公认的高难度文本，这AI居然能做到文字1:1还原，排版、笔锋都在线：

你以为到这儿就结束了，NONONO！因为它还能——多图编辑。

随手丢给了它一张照片，人家直接给我甩出一组影棚级的9宫格写真！！（诶，突然感觉怒省一笔钱…

刚才帮我干活的这位，正是阿里刚刚发布的新一代图像生成及编辑模型——Qwen-Image-2.0。

1K token长文本、复杂指令、中文渲染、图片编辑、2K分辨率一次性梭哈，连国际评测里的表现都已经冲到了仅次于Nano Banana Pro的位置。

不废话，这个中文版Nano Banana到底能不能打，咱实测见真章！！！

Qwen-Image-2.0 一手实测

复杂指令理解准，1K token文本玩得转

在AI生图界，最让人崩溃的倒不是写Prompt词，而是写了太多，AI根本不吃消，好的提示词真无！处！施！展！

不知道千问团队受了啥启发，这次在Qwen-Image-2.0中把提示词的输入字符硬生生搞到了「1K token」，而且对复杂指令的生成准确率也上了一个level。

换句话说，现在咱喂进去一大段「七八九百字」的超长地狱级提示词，对AI来说也是《手拿把掐》了。

但老话讲得好，光说不练假把式。

你说1K token就1K token？你说这AI能理解复杂指令就能理解？咱还得实测说的算！

先来道开胃菜，最近水墨风多宫格漫画在网上贼火，我直接反手就是输入一个长达700字，且包含复杂指令的提示词：

这个提示指令的难度在于，既需要AI理解五宫格结构、时间推进、空间切换、人物关系与统一画风，还需要把700字的长文本消化理解到位，这对长上下文保持一致性要求很高！！！

结果还没一分钟，Qwen-Image-2.0就给我搓出来了完成度明显高于我预期的唐僧师徒西天取经的「五宫格漫画」：

仔细看会发现，夜行、火焰山、打斗这些场景区分都很明显，而且人物形象稳定，唐僧、孙悟空、猪八戒、沙僧都保持了较好的角色一致性。

连唐僧脸上的emo情绪都还原得很到位，该有的要素一个不差？？？

（不是，家人们，我有点惊了…）

emm…一张图说明不了啥！

这回咱再试一个Nano Banana里很火的「美食爆炸图」玩法，看看AI能不能接住招！

这次我输入了一段长达600多字的提示词，逐层描述汉堡的十种食材及其上下位置，对AI的结构理解与还原能力提出了很高要求：