开发者用10天婚假爆肝,让AI小镇「活」了过来新智元

5/1/2026

2023年斯坦福「AI小镇」火了,后续也诞生了大量类似的热门项目,但所有这类项目都有一个共同瓶颈——世界是人工搭建的,固定的。最近,一位独立开发者用10天婚假爆肝了一个项目WorldX:输入一句话、5分钟,一个完整的AI世界就诞生了——地图、角色、动画、人设全部自动生成,AI角色们自主在其中生活、对话、形成记忆、产生戏剧性的涌现行为。

输入这样一句话:「夜晚的宋朝繁华夜市,有当铺掌柜、算命先生、捕快、小偷、酒鬼,还有一个刚从现代穿越来的网红。」

5分钟后,一张工笔画风格的宋朝夜市地图出现在你面前。当铺、算命摊、菩萨像各居其位。

然后6个角色自己开始活动——

当铺掌柜守着柜台念叨被偷的事,算命先生等客上门,捕快四处巡逻打听线索,小偷装作普通路人混在人群里,酒鬼醉醺醺地从街头晃到街尾。而那个穿越来的网红——飘逸长发、衣着和旁人格格不入——正被所有人好奇地打量着。

没人写过剧本。

接下来发生的一切,完全由AI角色自主决定。捕快可能会找上每一个人盘问;小偷可能会主动接近捕快试探,又会突然觉得自己暴露了想找借口溜走;算命先生会拉住穿越来的网红说「姑娘印堂发暗」;酒鬼可能会撞翻当铺掌柜的招牌,引来一场争吵。

这是一个真正「活着」的AI世界。

项目地址: https://github.com/YGYOOO/WorldX

技术解析: https://zhuanlan.zhihu.com/p/2032410449854068566

AI小镇火了3年

还没解决「造世界」

故事得从2023年说起。

那一年,斯坦福发布了著名的Generative Agents论文——25个AI角色在一个虚拟小镇里自主生活、社交、形成记忆,展现出令人惊叹的「 涌现行为」。「AI小镇」这个概念瞬间出圈,引爆了整个Agent研究领域。

之后3年里,类似的热门项目层出不穷,ai-town、Microverse、AgentSims、TinyTroupe……都在试图复现并扩展这件事。

但所有这些项目,都有一个共同的瓶颈:

世界是写死的。

地图需要人工绘制。角色需要逐个手动配置。场景交互需要逐条编排。你想换一个「赛博朋克拉面馆」或者「末日便利店」的设定?对不起,从头来过。

学术界也意识到了这个问题。盛大AI研究院、上海AI Lab等机构联合发表了「World Craft」(arXiv 2601.09150)尝试解决这件事——但论文中也明确写道:当前系统只支持室内场景(住宅、办公室、单体建筑内部),不支持街道、广场、开放世界。而且地图风格高度同质化——都是从一个5500+素材库里检索拼装的标准RPG像素风。

真正「任意一句话造任意一个世界」,迄今没人做到。

直到WorldX出现。

「一句话造世界」的5分钟魔法

WorldX让这件事变得简单到不可思议。

你只需要输入:

末日便利店,6个幸存者挤在里面

北宋汴京夜市,有算命的、说书的、捕快和一个穿越者

魏无羡的师姐江厌离、卡卡西的挚友带土、扶苏、晴雯——那些没等到好结局的人住进了同一个小镇

6个经典反派被关进了一个像素小镇:容嬷嬷、伏地魔、灭霸、琴酒……

5分钟后,一个完整的、有美术风格、有角色立绘动画、有完整运行逻辑的AI世界就出现在你面前。每一个世界都是从零生成的,没有任何模板复用。

更关键的是——生成完只是开始。

进入世界后,你会看到:

每个AI角色在地图上自由走动、决策、互动

角色头顶会冒出对话气泡和内心独白OS(小偷和捕快客套时心里想着「她不会已经知道了吧……」——节目效果直接拉满)

角色们形成记忆、产生情绪、做出反思——一天结束时它们会在脑海里回顾今天发生的事

世界有真实的时间流转,凌晨1点夜市会自动收摊,第二天19点又重新开张

而你呢?你是这个世界的「上帝」。

全局广播事件——「突然下大雨了」,所有角色下次决策时都会知道

给特定角色耳语/托梦——你突然想起当年捕快办过的一桩旧案……

实时修改角色人设——把「老实木讷」改成「心机深沉」,看世界走向会怎么变

把任意角色「拉出来」,和它进行架空对话——而且不影响主世界进程

更绝的是WorldX还做了多时间线 + 历史回放机制——同一个世界可以衍生出多条时间线,看相同的初始条件下故事是否会走向同一个结局;任意一段历史也能像看录像一样被回放,让你不错过任何「名场面」。

让AI看懂自己生成的图

作者自己列了一份「卡点问题」清单,每一项都几乎能让整个项目卡死,比如下面这个问题:

如何让代码精确知道——AI生成的这张地图里,哪些区域是可行走的?

这件事看起来简单——人一眼就能看出哪里能走、哪里是树木屋顶。但要让代码知道,意味着需要精确到每个像素的坐标。而文生图模型生成的地图,本质上就是一张「图片」,没有任何分层、标注、坐标信息。

最直觉的方案是让多模态大模型(如 Gemini 3 Pro)直接看图返回坐标。作者实测后发现完全行不通——VLM输出的像素坐标误差极大,同一张图问两次能给出差很远的答案。

这是大模型的本质局限:它们被训练出来是为了像人一样理解图片内容,而不是当尺子用——人也远不可能肉眼看出精确坐标。

加网格辅助呢?作者也试了——给图片打上参考线,然后让 VLM 看着网格定位,再加自我审查循环不断纠偏。有效,但只对建筑、可交互元素这种「小目标」非常勉强地能用。对于「可行走区域」这种大范围、不规则的区域标注,几乎不可解。

Scroll for more