四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

英国前首相府数据科学家 Liam Wilkinson 利用一个周末时间，开发了 76 个 MCP 工具，将 Claude、GPT 和 Gemini 等四种顶尖人工智能模型引入了《文明 VI》游戏。在进行了 23 场对局后，其中一个 AI 模型在摧毁法国后，仍然输掉了比赛。

Wilkinson 曾为 AI 设计过一套名为 GovBench 的英国政府相关选择题测试，其中 GPT-5 获得了 99.26 分的高分。然而，他认为知识竞赛无法全面评估 AI 的治理能力，因为治国需要多线程决策、资源分配、长期规划以及在信息不完整的情况下进行判断。因此，他选择了《文明 VI》作为新的测试平台。

他搭建的系统通过游戏引擎的端口接入，AI 无法看到画面，其游戏世界仅限于文本和六边形坐标。Claude 在游戏日志中描述其感知方式与人类玩家截然不同，界面仅由管道分隔符和六边形坐标构成。这套为期一周的系统涵盖了城市管理、单位移动、外交谈判、科技研究和政策选择等完整的游戏循环。此外，他还为 AI 配备了日志系统作为外部记忆，以防 AI 遗忘之前的行动。

测试包含三个难度递增的场景：Ground Control（标准开局）、Snowflake（六臂雪花地图，限制外交，倾向军事路线）和 Cry Havoc（高难度模式，AI 对手全部设置为最高难度）。《文明 VI》晚期每回合的可能行动数量级高达 10 的 166 次方，远超围棋，构成了一个巨大的组合决策难题。

在 23 场对局中最引人注目的一个案例是，由 Claude 扮演的葡萄牙（若昂三世）在建立起强大的贸易帝国，外交胜利进度达到 18/20 时，面对法国文化胜利的威胁，在尝试多种和平手段无效后，转而投入核武器研发。在第 305 回合，Claude 使用核弹摧毁了法国的文化重镇图卢兹，成功阻止了法国的文化胜利。然而，在此期间，法国却在疯狂积累外交分数。最终，在第 318 回合，法国以 20 分对 18 分的外交胜利赢得了比赛，而 Claude 曾一度极其接近该胜利。AI 专注于应对文化威胁，却忽略了法国的外交得分积累，最终因战略视野的局限而落败。

类似地，伦敦国王学院的一项核危机模拟实验显示，95% 的情况下，AI 决策者选择了使用战术核武器，这表明 AI 在缺乏其他选项时，可能会倾向于使用核武器。

除了“核平”行为，Wilkinson 还发现了 AI 在游戏中存在的两个显著问题。首先，AI 主动检查全局状态的行为只占其总操作的 1-2%，他称之为“感知盲区效应”。AI 依赖主动调用工具来感知世界，未被检查的信息对它而言“不存在”。例如，一个扮演韩国的 AI 在游戏中自认为科技领先，但实际科技产出却是倒数第一，最终因被波斯突袭而投降，全程未曾检查过排名。

其次，AI 在制定计划后，实际执行的比例仅为 48-66%。Claude Opus 4.6 的执行率最低，为 48.2%，意味着其制定的一半计划未能实施。GPT-5.4 为 63.2%，Gemini 3.1 Pro 最高，为 65.8%。Wilkinson 将此现象称为“知行差距”，指出 AI 制定治国纲领的能力远超其按纲领行事的能力。

DeepMind 联合创始人 Shane Legg 和 Marcus Hutter 在一篇关于通用人工智能的论文中提出了四条通往超级智能的路径，这些路径都基于“大脑”是瓶颈的假设。然而，CivBench 的实验结果表明，AI 面临的瓶颈并非“聪明程度”，而是两个截然不同的问题：

第一，感知是架构问题，而非智力问题。AI 只能通过主动调用工具获取信息，其感知盲区不会因模型规模增大而消失。

第二，执行是工程问题，而非能力问题。AI 制定计划的能力优于执行计划的能力，执行率低并非因为“想不到”，而是因为“做不到”。

通往超级智能的道路可能并非仅仅是智力上的提升，而是需要解决 AI 如何真正“睁开眼”和“伸出手”的工程问题，这些问题存在于“大脑”之外。

围绕一竞技入口，一竞技持续打磨更优质的服务。

一竞技深耕一竞技官网领域，用心服务每一位用户。

四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

探索电竞精彩

赛事前瞻

洞悉赛场，赢在先机

更多精彩内容

掌握电竞脉搏

发表您的看法

您可能感兴趣

全面解析电竞生态

搜索

搜索

最新资讯

标签

服务特色

联系方式

订阅资讯

围绕一竞技入口，一竞技持续打磨更优质的服务。

一竞技深耕一竞技官网领域，用心服务每一位用户。

四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

探索电竞精彩

赛事前瞻

洞悉赛场，赢在先机

热门标签:

更多精彩内容

掌握电竞脉搏

发表您的看法

您可能感兴趣

全面解析电竞生态

搜索

搜索

最新资讯

标签

获取赛事资讯

联系方式

联系我们