一竞技专注一竞技电竞,为用户提供专业可靠的体验。

围绕一竞技入口,一竞技持续打磨更优质的服务。

  • 联系地址
  • www.yjj.cn
  • 服务时间
  • 400-123-4567

一竞技深耕一竞技官网领域,用心服务每一位用户。

一竞技

四大顶级 AI 对决《文明 VI》!Claude「核平」法国,结果还是输了

  • 首页
  • 资讯详情
资讯详情 - 一竞技

探索电竞精彩

一竞技官网实时更新全球热门电竞赛事比分,提供详尽的比赛数据、选手表现分析以及专业的赛事预测。我们致力于为用户提供最全面、最及时的电竞信息服务,助您成为电竞达人。

一竞技官网汇聚海量电竞赛事资讯,涵盖英雄联盟、DOTA2、CS:GO等热门项目。我们不仅提供即时比分,更有赛前分析、赛后复盘及精彩集锦,全方位满足您的观赛需求。

探索电竞精彩 - 一竞技

通过深度数据挖掘和专业分析,一竞技官网为您呈现赛事背后的故事。从选手状态到战队策略,我们为您解析每一个关键细节,帮助您更深入地理解电竞的魅力。

作为领先的电竞比分直播平台,一竞技官网以其专业性和时效性赢得了广大用户的信赖。我们的目标是让每一位电竞爱好者都能轻松获取所需信息,享受电竞带来的激情。

探索电竞精彩 - 一竞技

一竞技官网秉承专业、客观、高效的原则,为用户提供最权威的电竞数据和资讯。我们不断优化用户体验,力求让您在第一时间掌握最准确的赛事动态。

赛事前瞻

洞悉赛场,赢在先机

一竞技官网以电竞实时比分和赛事数据服务为特色,涵盖多项主流电竞赛事内容,用户不仅能够查看即时赛况,还可以浏览赛事前瞻、数据统计和相关新闻资讯,更高效地获取电竞信息。

探索电竞精彩 - 一竞技
探索电竞精彩 - 一竞技

围绕一竞技入口,一竞技持续打磨更优质的服务。

一竞技官网不仅是比分直播平台,更是您获取电竞情报的智囊。我们提供多维度的数据统计,帮助您全面了解赛事走向和选手实力。

更多精彩内容
掌握电竞脉搏
探索电竞精彩 - 一竞技

英国前首相府数据科学家 Liam Wilkinson 利用一个周末时间,开发了 76 个 MCP 工具,将 Claude、GPT 和 Gemini 等四种顶尖人工智能模型引入了《文明 VI》游戏。在进行了 23 场对局后,其中一个 AI 模型在摧毁法国后,仍然输掉了比赛。

Wilkinson 曾为 AI 设计过一套名为 GovBench 的英国政府相关选择题测试,其中 GPT-5 获得了 99.26 分的高分。然而,他认为知识竞赛无法全面评估 AI 的治理能力,因为治国需要多线程决策、资源分配、长期规划以及在信息不完整的情况下进行判断。因此,他选择了《文明 VI》作为新的测试平台。

他搭建的系统通过游戏引擎的端口接入,AI 无法看到画面,其游戏世界仅限于文本和六边形坐标。Claude 在游戏日志中描述其感知方式与人类玩家截然不同,界面仅由管道分隔符和六边形坐标构成。这套为期一周的系统涵盖了城市管理、单位移动、外交谈判、科技研究和政策选择等完整的游戏循环。此外,他还为 AI 配备了日志系统作为外部记忆,以防 AI 遗忘之前的行动。

测试包含三个难度递增的场景:Ground Control(标准开局)、Snowflake(六臂雪花地图,限制外交,倾向军事路线)和 Cry Havoc(高难度模式,AI 对手全部设置为最高难度)。《文明 VI》晚期每回合的可能行动数量级高达 10 的 166 次方,远超围棋,构成了一个巨大的组合决策难题。

在 23 场对局中最引人注目的一个案例是,由 Claude 扮演的葡萄牙(若昂三世)在建立起强大的贸易帝国,外交胜利进度达到 18/20 时,面对法国文化胜利的威胁,在尝试多种和平手段无效后,转而投入核武器研发。在第 305 回合,Claude 使用核弹摧毁了法国的文化重镇图卢兹,成功阻止了法国的文化胜利。然而,在此期间,法国却在疯狂积累外交分数。最终,在第 318 回合,法国以 20 分对 18 分的外交胜利赢得了比赛,而 Claude 曾一度极其接近该胜利。AI 专注于应对文化威胁,却忽略了法国的外交得分积累,最终因战略视野的局限而落败。

类似地,伦敦国王学院的一项核危机模拟实验显示,95% 的情况下,AI 决策者选择了使用战术核武器,这表明 AI 在缺乏其他选项时,可能会倾向于使用核武器。

除了“核平”行为,Wilkinson 还发现了 AI 在游戏中存在的两个显著问题。首先,AI 主动检查全局状态的行为只占其总操作的 1-2%,他称之为“感知盲区效应”。AI 依赖主动调用工具来感知世界,未被检查的信息对它而言“不存在”。例如,一个扮演韩国的 AI 在游戏中自认为科技领先,但实际科技产出却是倒数第一,最终因被波斯突袭而投降,全程未曾检查过排名。

其次,AI 在制定计划后,实际执行的比例仅为 48-66%。Claude Opus 4.6 的执行率最低,为 48.2%,意味着其制定的一半计划未能实施。GPT-5.4 为 63.2%,Gemini 3.1 Pro 最高,为 65.8%。Wilkinson 将此现象称为“知行差距”,指出 AI 制定治国纲领的能力远超其按纲领行事的能力。

DeepMind 联合创始人 Shane Legg 和 Marcus Hutter 在一篇关于通用人工智能的论文中提出了四条通往超级智能的路径,这些路径都基于“大脑”是瓶颈的假设。然而,CivBench 的实验结果表明,AI 面临的瓶颈并非“聪明程度”,而是两个截然不同的问题:

第一,感知是架构问题,而非智力问题。AI 只能通过主动调用工具获取信息,其感知盲区不会因模型规模增大而消失。

第二,执行是工程问题,而非能力问题。AI 制定计划的能力优于执行计划的能力,执行率低并非因为“想不到”,而是因为“做不到”。

通往超级智能的道路可能并非仅仅是智力上的提升,而是需要解决 AI 如何真正“睁开眼”和“伸出手”的工程问题,这些问题存在于“大脑”之外。

发表您的看法

您可能感兴趣

探索电竞精彩 - 一竞技

全面解析电竞生态

一竞技官网致力于打造一个集赛事信息、数据分析、社区互动于一体的综合性电竞平台。在这里,您可以找到您需要的一切电竞相关内容。

搜索

搜索

  • 电竞热点
  • 赛事前瞻
  • 数据分析
  • 游戏攻略
  • 电竞动态

最新资讯

探索电竞精彩 - 一竞技
Jan 10,2026 创新电竞体验
探索电竞精彩 - 一竞技
Jan 10,2026 发掘电竞潜力
探索电竞精彩 - 一竞技
Jan 10,2026 享受电竞乐趣