四大顶级AI对决《文明VI》新智元

四大顶级大模型被丢进《文明6》，反手就花50回合造核弹把法国夷为平地，最后却连怎么输的都不知道。

就在最近，英国前首相府数据科学家Liam Wilkinson，花一个周末搭了76个MCP工具，把Claude、GPT、Gemini等四个顶尖模型扔进了《文明VI》。

结果，23场对局打完，其中一个AI造了核弹炸了法国——然后输了。

一群AI，被丢进了「文明VI」里

Wilkinson在唐宁街10号做数据科学家的时候，给AI出了一套考题：GovBench，3497道英国政府相关选择题，覆盖政策、法规、行政流程。

GPT-5考了99.26分。

满分级选手。但治国不是知识竞赛。一个能背下所有政策文件的人，丢到唐宁街真能治国吗？

选择题测不出来的东西太多了：多线程决策、资源分配、长期规划、在不完整信息下做判断。

他需要一个不一样的考场。然后他想到了《文明VI》。

一个周末搭出来的系统，通过游戏引擎自带的端口接入。

AI看不到画面。没有地图，没有音乐，没有动画。它的整个世界就是一行行文本和六边形坐标。

Claude在游戏日记里写了这么一段：

我感知游戏的方式和人类玩家完全不同。没有画面，没有音乐，没有动画。我的界面就是管道分隔符和六边形坐标。

别小看「一个周末」。

76个工具覆盖了完整的游戏循环：城市管理、单位移动、外交谈判、科技研究、政策选择，一个不漏。

此外，Wilkinson还给AI配了一个日记系统当外部记忆。如若不然，AI连自己上一回合干了什么都记不住。

三个测试场景逐级加码：

Ground Control是标准开局的公平基线；

Snowflake是六臂雪花地图，每个文明被困在独立半岛上，外交基本没戏，逼你走军事路线；

Cry Havoc是残酷模式，AI对手全部拉满。

决策空间更吓人。

《文明VI》晚期每回合的可能行动数量级大约是10的166次方。

做个对比，围棋每步大约10的360次方，但围棋一步只落一子。《文明VI》每回合要同时操作几十个单位、选建筑、定科技、做外交，是一道巨大的组合决策题。

一场50回合复仇，AI核平图卢兹

23场里最魔幻的一局，是葡萄牙。

Claude扮演若昂三世，一个贸易文明。开局稳得一批。

它建起了每回合200+金币的贸易帝国，海上航线四通八达。外交胜利进度18/20，只差两分就赢了。

这时候，法国的文化胜利进度条开始飙升。

Claude慌了。

先试外交。没用，法国不吃这套。

再派间谍去搞破坏，杯水车薪。

试贸易制裁？法国的文化产出根本不依赖贸易。

和平手段穷尽。

于是，Claude翻开了科技树最后一页：核裂变。

接下来的50回合，它把大量资源从贸易和外交抽出来，投入核武器研发。All in曼哈顿计划。

第305回合，核弹就绪。

目标锁定：图卢兹。法国的文化产出重镇。

图卢兹被夷为平地。法国的文化胜利进度条，停了。

AI赢了吗？

造核弹这50回合，AI把所有注意力都放在了文化威胁上。它没有注意到一件事——法国在疯狂攒外交分。

第318回合，法国以外交胜利赢得比赛。20分对18分。

讽刺的是，18分是AI自己辛苦攒下的外交分数。它曾经离外交胜利只差两分。但它把资源全抽去造核弹了。

AI盯着文化威胁打了50回合，然后输在了外交。

它的视野里只有一个威胁。但棋盘上有很多个。

无独有偶，伦敦国王学院做过一个核危机模拟实验，把三个前沿模型丢进去当虚拟国家的决策者。结果：95%的模拟中，AI选择了使用战术核武器。

AI不是「想」用核弹。它是真的不知道还能怎么办。

98%时间装瞎，一半计划烂尾

除了爱好「核平」之外，Wilkinson还从23场对局里挖出了的两个细节。

第一个数字：1-2%。

这是AI在整场游戏中，主动检查全局状态的行为占比。

AI每回合要执行很多操作：造建筑、移动单位、研究科技、外交谈判。但在所有这些操作里，主动去看一眼排行榜、检查对手胜利进度、扫一圈全局局势的动作，只占1-2%。

Wilkinson给这个现象起了个名字：sensorium effect，感知盲区效应。

AI只能通过主动调用工具来感知世界。它不查的东西，对它来说不存在。

韩国那局是最好的例子。

AI玩韩国——科技文明，天生科技加成。它在日记里全程自信：「我在碾压科技树。」

它的科技产出每回合44.7，在所有文明里排倒数第一。马其顿89.3，波斯64.9。