看看新 AI 如何掌握 Stratego 这款棘手的游戏

看看新 AI 如何掌握 Stratego 这款棘手的游戏

据本周发表的一篇论文称,一种名为“DeepNash”的新人工智能已经掌握了 Stratego,这是少数几种计算机不会经常击败人类玩家的标志性棋盘游戏之一。这是一个巨大而令人惊讶的结果——至少对 Stratego 社区来说是如此。

Stratego 是一款具有两个不同挑战的游戏:它需要长期的战略思维(如国际象棋),也需要玩家处理不完整的信息(如扑克)。目标是穿过棋盘并夺取对方玩家的旗子。每局游戏都在一个 10 x 10 的网格棋盘上进行,棋盘中间有两个 2 x 2 的方形湖泊。双方玩家都有 40 个具有不同战术价值的棋子,可以在游戏开始时部署 - 问题是您看不到对手的棋子,对手也看不到您的棋子。当您计划进攻时,您不知道防守者是可以击败几乎所有棋子的高级元帅,还是可以被中尉或上尉干掉的低级中士。其他一些可玩的棋子包括炸弹(威力强大但不能移动)、侦察兵(可以一次移动多个方格)和矿工(可以拆除炸弹),所有这些都增加了战术复杂性。只有当一名玩家的旗子被捕获或者无法再进行任何合法移动时,游戏才会结束。

所有这些都表明,Stratego 为计算机带来了独特的挑战。国际象棋相对简单,因为所有信息对每个人都是可见的——在博弈论中,它被称为“完美信息游戏”。计算机可以查看您的防守,为几个不同的选项模拟 10 步左右的移动,然后选择最佳选项。这让计算机比最优秀的人类玩家拥有明显的战略优势。国际象棋是一种往往在几个关键时刻而不是逐渐施压中胜负的游戏,这也有助于它。国际象棋比赛平均需要 40 步,而 Stratego 需要超过 380 步。这意味着国际象棋中的每一步都更为重要(对于人类来说,需要更多的考虑),而 Stratego 节奏更快,更灵活。

[相关:Meta 的新 AI 可以利用欺骗来征服棋盘游戏世界]

另一方面,Stratego 是一种“不完全信息游戏”。在对手的棋子发起攻击或被攻击之前,你无法知道对方在做什么。扑克是一种不完全信息游戏,多年来计算机已经能够以高水平进行游戏,游戏中有 10^164 种可能的游戏状态,每个玩家只有 10^3 种可能的两张牌起手牌。在 Stratego 中,有 10^535 种可能的状态和超过 10^66 种可能的部署——这意味着需要考虑的未知信息要多得多。这还只是战略挑战的冰山一角。

这两个挑战结合起来,使得 Stratego 对于计算机(或 AI 研究人员)来说特别困难。据该团队称,“不可能使用最先进的基于模型的完美信息规划技术,也不可能使用最先进的不完美信息搜索技术将游戏分解为独立的情况。”计算机必须能够制定战略计划,将其掌握的不完美信息纳入其中。

但 DeepNash 已经成功了。研究人员使用了一种新颖的方法,让人工智能在开发自己的策略的同时,自己学习玩 Stratego。它使用了一种名为正则化纳什动态 (R-NaD) 的模型强化学习算法,结合了寻求纳什均衡的深度神经网络架构——“零和双人游戏中无法利用的策略”,如 Stratego——通过这样做,它可以学习“可以期望顶级玩家掌握的定性行为”。这种方法以前曾在简单的囚徒困境式游戏中使用过,但从未用于如此复杂的游戏。

DeepNash 与现有的最优秀的 Stratego 机器人和人类专家玩家进行了对战测试。它击败了所有其他机器人,并且在在线棋盘游戏平台 Gravon 上与人类专家展开了激烈的竞争。更棒的是,从定性的角度来看,它能够很好地下棋。它可以在夺取材料和隐藏棋子身份之间做出权衡,执行虚张声势,甚至进行有计划的赌博。(尽管研究人员还认为,“欺骗”和“虚张声势”等术语很可能指的是 DeepNash 无法拥有的心理状态。)

总而言之,这是一个令人兴奋的演示,展示了一种训练人工智能模型玩游戏的新方法(将来可能执行其他类似的任务)——而且它不依赖于以前用于玩国际象棋、围棋和扑克等其他游戏的计算量大的深度搜索策略。

<<:  为更智能、不会轻易摔倒的机器人做好准备

>>:  5 个 Google 搜索技巧助您获得最准确的搜索结果

推荐阅读

你从未听说过的最佳互联网浏览器

所有浏览器都不一样。换用新浏览器可以改变您使用电脑的方式,并彻底改变您使用某些喜爱的在线平台的体验。...

通过为 Alexa、Siri 和 Google Assistant 创建例程来简化你的生活

本文已更新。最初于 2018 年 12 月 2 日发布。亚马逊的 Alexa、谷歌助手和苹果的 Si...

《迦南》评论:惊险刺激的动作与深刻的故事的融合

迦南——魔幻都市上海的联觉之战《CANAAN》是 2009 年播出的电视动画系列,改编自 Chuns...

国际机构估计全球碳排放量将在2025年达到峰值

国际能源署 (IEA) 的《2022 年世界能源展望》声称,世界正处于摆脱化石燃料的“历史转折点”。...

《漫画开始物语》的魅力与评价:推荐给初学者的作品

《漫画开始物语》:回顾经典动画《漫画第一物语》是一部连载动画,于 1978 年至 1984 年播出。...

巴兹·奥尔德林想要单程送人类去火星

只要有足够的资金和实力,人类在未来几十年内就有可能登陆火星。随着“机遇号”和“好奇号”探测器的不断发...

耗资两百万美元的海洋变化追踪竞赛

登上R/V Kilo Moana 号,紧张的气氛显而易见。五支队伍紧张地盯着水面,而玫瑰花结则从深海...

《被炉少女的手电筒》的魅力与评价:深入了解《大家的歌》的杰作

NHK 巨作《被炉少女 手拿手拿手》带给你冬日温暖《被炉少女手电手电》是一部时长只有两分钟的短篇动画...

罗塞塔号为了解地球上的水源提供了新见解

四十五亿年前,太阳和地球刚刚在一次巨大爆炸中诞生,太阳系非常炎热。所有这些热量很可能将地球表面的水蒸...

更新实际上有多重要?

您是否会忽略手机、电脑和其他设备上的更新弹窗?您并不孤单——它们可能有点让人不知所措。但与此同时,更...

《魔兽战线》的魅力与评价:不可错过的动作与有深度的故事

《魔兽战线》:描绘科幻暴力世界的杰作 OVA ■作品概要《魔兽战争》是根据石川健同名科幻暴力漫画改编...

小小大热门?

随着 Konami 的《合金装备 4:爱国者之枪》专为索尼系统发布,PlayStation 3 粉丝...

本周未来,2012 年 4 月 9 日至 13 日

太空中已经有了《愤怒的小鸟》——为什么太空中没有《水果忍者》呢?至少,这是 Baarbarian 在...

研究表明,大多数人每天花在应用上的时间超过 4 个小时

新冠疫情迫使每个人通过一系列应用迅速将个人和职业生活适应到虚拟环境中。即使封锁已经解除,社交距离要求...

新型卫星可精确定位甲烷泄漏,帮助我们应对气候变化

2019 年 1 月 13 日,在试图测量土库曼斯坦泥火山的温室气体排放量时,一颗名为克莱尔的微波大...