教会自己虚张声势的计算机

教会自己虚张声势的计算机

熟能生巧,即使你恰好是一个人工智能。

这是阿尔伯塔大学的 Michael Bowling 领导的一项实验的前提,该实验设置了一个名为 Cepheus 的程序,让它与自己玩一亿亿(是的,一亿亿亿)手扑克变体游戏,即单挑限注德州扑克。Cepheus 在 4,600 个 CPU 上运行,每秒计算 60 亿手牌,从每次胜利、平分底池和失败中学习。在实际 70 天中,相当于 CPU 1,000 年的时间后,Cepheus 玩的扑克牌比整个人类玩的还要多。在发表在《科学》杂志上的一篇论文中,Bowling 团队宣布,他们利用 Cepheus 有效地“解决”了单挑限注德州扑克 - 这意味着该程序的决策非常接近完美,以至于没有办法看看一个理论上完美的人类在 70 年的时间里,每天 12 小时,每小时玩 200 手牌是否能做得更好。

统计学家对“解决”游戏的定义有些晦涩难懂,因为 Cepheus 实际上并非每局都不可战胜——恰恰是因为游戏中存在不可消除的运气因素。如果拿到一手烂牌,狡猾的职业选手可能会输给业余选手。

该程序的决策如此接近完美,以至于无法看出理论上完美的人类是否能做得更好。

“最糟糕的情况可能是你手上有一手好牌,而你的对手手上有一手更好的牌,”这项研究的合著者迈克·约翰逊说。“你认为自己会赢,所以你下了很多赌注,结果输了很多钱。”

但一旦统计噪声的影响在数千手牌中消失,Cepheus 的技能保证它不会在长期内亏损。

“第一步是建立一个能够击败人类专家的程序,我们在 2008 年就做到了,”约翰逊说。“我们在论文中宣布,Cepheus 能够完美地下棋,不会犯错误。”

在研究中使用的德州扑克版本中,两名玩家(“单挑”)使用固定(“限制”)赌注大小进行比赛,并且有两张牌是隐藏的。这里真正新颖的是 Cepheus 必须学会在对手持有的牌有如此“不完全信息”的情况下做出决定。尽管计算机科学家之前已经解决了 Connect Four 或 Checkers 等“完全信息”游戏,其中计算机完全了解之前的走法和可能的未来结果,但艾伯塔省的研究是人类玩的不平凡的不完全信息游戏的第一个解决方案。

“而 Cepheus 必须学会如何在没有人类专家帮助的情况下下棋,”Johanson 说。“我们教它规则,然后它自己进行训练,弄清楚如何慢棋和虚张声势等棘手的心理问题。”

虚张声势是指玩家手中的牌很弱,但为了欺骗对手弃牌而积极下注。慢玩则相反;手中的牌很强,玩家希望谨慎下注,以诱使对手留在游戏中进行更多下注。而关于其他玩家手中牌的“不完全信息”传统上使得这些心理战术很难被计算机处理。直到现在。还有那数以亿计的德州扑克牌。可以肯定地说,Cepheus 已经见识过扑克玩家可能尝试使用的所有技巧。

您可以在线与 Cepheus 对战,或者向它询问策略问题。

尽管扑克牌生意很大,但计算机科学家更感兴趣的是将其作为基准。约翰逊预计,其他领域的博弈论者也会将这种方法应用于不完全信息占主导地位的其他领域,如谈判或反恐。

例如,南加州大学教授米林德·坦贝 (Milind Tambe) 开发了一种名为 ARMOR 的博弈论工具,洛杉矶国际机场和联邦空中警察均使用该工具来安排巡逻和检查站,这种方式既结合了随机性,又权衡了潜在威胁。

机场安检可以理解为一场像象棋一样的策略游戏。

对于约翰逊来说,机场安检可以理解为一场像象棋一样的策略游戏。

“可以把它想象成国际象棋,只不过军队规模不同。机场有多个棋子,代表安保人员,也可能是炸弹嗅探犬和检查站。也许恐怖分子只有一个棋子,但它是一枚好棋子,就像皇后一样,可以自由移动并攻击机场最薄弱的地方。”

就像单挑限注德州扑克一样,机场安检中的双方对于对手将采取什么行动都没有完全的信息。

“所以你把板子藏起来了,”约翰逊说。“你不知道恐怖分子什么时候会袭击,但你知道袭击很可能会发生。恐怖分子知道那里有安保,但不知道具体在哪里。”

将洛杉矶国际机场这样复杂、庞大的机场重新设想为棋盘说起来容易做起来难。但我们希望,就像仙王座通过数万亿轮练习学会了虚张声势和慢打法一样,明天重复的人工智能安全模拟将发现我们凡人从未想过的漏洞。

<<:  他们现在在哪里:回顾 2014 年 CES 上的顶级潜力股

>>:  巨石能阻止超速行驶的卡车吗?一项有力的新研究调查了

推荐阅读

仅需 54.97 美元即可获得 Microsoft Office Pro 2021 和 Windows 11 Pro 的终身许可

凭借这项限时优惠,您只需 54.97 美元即可终身使用 Microsoft Office Pro 2...

小松:全面评价六胞胎的个性和幽默的故事

《小松先生:六胞胎与马的故事》:重新发现赤冢不二雄的世界《阿松:六胞胎与马的故事》是改编自赤塚不二雄...

回顾今年最受关注的机器人

每年,都会有大量奇怪而奇妙的机器人问世,它们要么成为社交媒体明星,要么从事平凡的劳动。 2021 年...

奥运制服对运动员能有多大帮助或伤害?

说到奥运制服,不仅仅是好看。就像穿着制服的运动员一样,服装也需要在高速运动时表现出色。在奥运会级别比...

纳米萤火虫技术可制造无需电力的灯

萤火虫通过化学反应照亮夏日黄昏的草坪,这种化学反应发生在发光物质和其相关酶之间。荧光素和荧光素酶分别...

打造一门时速 300 英里的乒乓球大炮

世界级乒乓球运动员的扣球速度可以达到每小时近 70 英里。根据我的经验,以这样的速度回击球非常困难。...

Twitter 正在测试备受期待的编辑按钮

关于可能增加“编辑推文”功能的 Twitter 讨论几乎与社交媒体平台本身一样久远,但长期以来,它感...

《电波女与青春男》的魅力与评价:独特的世界观与人物深度

《电波女与青春男》:青春与太空向往的故事《电波女与青春男》是 2011 年播出的电视动画系列,改编自...

《先知养成所》评论:可以预知未来的学校生活究竟有何魅力?

“算命学院”——先知们的新战斗■作品概要《占卜师学院》是改编自史克威尔艾尼克斯公司藤泽仁原作的动画...

在瓶子里培育一个细菌动物园

19 世纪 80 年代,俄罗斯微生物学家谢尔盖·维诺格拉茨基将池塘水、泥浆和营养物质密封在一根透明管...

深情怀念百万里挑一的变异蜗牛杰里米

杰里米,我们几乎不认识你。这只花园蜗牛从伦敦堆肥堆中腐烂的果皮中被挖出来,为了寻找爱人而大胆地被推到...

枫之镇物语:重新评价经典动画

枫之镇物语 - 这部怀旧童话动画的魅力和完整故事■ 公共媒体电视动画系列■ 原创媒体动漫原创■ 播出...

《我喜欢的女孩忘了戴眼镜》评论:深入了解她的魅力和感人的故事

《喜欢的女孩忘了戴眼镜》——温馨青春恋爱喜剧的魅力《我的爱人忘了戴眼镜》于2023年夏季动画季上映,...

这种巨型等足动物生活在灭绝恐龙的小行星陨石坑中

墨西哥尤卡坦半岛附近的希克苏鲁伯陨石坑与恐龙的灭绝息息相关。6600 万年前,一颗小行星撞击地球,造...

想要一份不差劲的工作?获得 CompTIA 认证

从 1 到 10,今天早上起床有多难?(或者你还在吗?)如果你的答案是 3 以上,那么是时候考虑换工...