教会自己虚张声势的计算机

教会自己虚张声势的计算机

熟能生巧,即使你恰好是一个人工智能。

这是阿尔伯塔大学的 Michael Bowling 领导的一项实验的前提,该实验设置了一个名为 Cepheus 的程序,让它与自己玩一亿亿(是的,一亿亿亿)手扑克变体游戏,即单挑限注德州扑克。Cepheus 在 4,600 个 CPU 上运行,每秒计算 60 亿手牌,从每次胜利、平分底池和失败中学习。在实际 70 天中,相当于 CPU 1,000 年的时间后,Cepheus 玩的扑克牌比整个人类玩的还要多。在发表在《科学》杂志上的一篇论文中,Bowling 团队宣布,他们利用 Cepheus 有效地“解决”了单挑限注德州扑克 - 这意味着该程序的决策非常接近完美,以至于没有办法看看一个理论上完美的人类在 70 年的时间里,每天 12 小时,每小时玩 200 手牌是否能做得更好。

统计学家对“解决”游戏的定义有些晦涩难懂,因为 Cepheus 实际上并非每局都不可战胜——恰恰是因为游戏中存在不可消除的运气因素。如果拿到一手烂牌,狡猾的职业选手可能会输给业余选手。

该程序的决策如此接近完美,以至于无法看出理论上完美的人类是否能做得更好。

“最糟糕的情况可能是你手上有一手好牌,而你的对手手上有一手更好的牌,”这项研究的合著者迈克·约翰逊说。“你认为自己会赢,所以你下了很多赌注,结果输了很多钱。”

但一旦统计噪声的影响在数千手牌中消失,Cepheus 的技能保证它不会在长期内亏损。

“第一步是建立一个能够击败人类专家的程序,我们在 2008 年就做到了,”约翰逊说。“我们在论文中宣布,Cepheus 能够完美地下棋,不会犯错误。”

在研究中使用的德州扑克版本中,两名玩家(“单挑”)使用固定(“限制”)赌注大小进行比赛,并且有两张牌是隐藏的。这里真正新颖的是 Cepheus 必须学会在对手持有的牌有如此“不完全信息”的情况下做出决定。尽管计算机科学家之前已经解决了 Connect Four 或 Checkers 等“完全信息”游戏,其中计算机完全了解之前的走法和可能的未来结果,但艾伯塔省的研究是人类玩的不平凡的不完全信息游戏的第一个解决方案。

“而 Cepheus 必须学会如何在没有人类专家帮助的情况下下棋,”Johanson 说。“我们教它规则,然后它自己进行训练,弄清楚如何慢棋和虚张声势等棘手的心理问题。”

虚张声势是指玩家手中的牌很弱,但为了欺骗对手弃牌而积极下注。慢玩则相反;手中的牌很强,玩家希望谨慎下注,以诱使对手留在游戏中进行更多下注。而关于其他玩家手中牌的“不完全信息”传统上使得这些心理战术很难被计算机处理。直到现在。还有那数以亿计的德州扑克牌。可以肯定地说,Cepheus 已经见识过扑克玩家可能尝试使用的所有技巧。

您可以在线与 Cepheus 对战,或者向它询问策略问题。

尽管扑克牌生意很大,但计算机科学家更感兴趣的是将其作为基准。约翰逊预计,其他领域的博弈论者也会将这种方法应用于不完全信息占主导地位的其他领域,如谈判或反恐。

例如,南加州大学教授米林德·坦贝 (Milind Tambe) 开发了一种名为 ARMOR 的博弈论工具,洛杉矶国际机场和联邦空中警察均使用该工具来安排巡逻和检查站,这种方式既结合了随机性,又权衡了潜在威胁。

机场安检可以理解为一场像象棋一样的策略游戏。

对于约翰逊来说,机场安检可以理解为一场像象棋一样的策略游戏。

“可以把它想象成国际象棋,只不过军队规模不同。机场有多个棋子,代表安保人员,也可能是炸弹嗅探犬和检查站。也许恐怖分子只有一个棋子,但它是一枚好棋子,就像皇后一样,可以自由移动并攻击机场最薄弱的地方。”

就像单挑限注德州扑克一样,机场安检中的双方对于对手将采取什么行动都没有完全的信息。

“所以你把板子藏起来了,”约翰逊说。“你不知道恐怖分子什么时候会袭击,但你知道袭击很可能会发生。恐怖分子知道那里有安保,但不知道具体在哪里。”

将洛杉矶国际机场这样复杂、庞大的机场重新设想为棋盘说起来容易做起来难。但我们希望,就像仙王座通过数万亿轮练习学会了虚张声势和慢打法一样,明天重复的人工智能安全模拟将发现我们凡人从未想过的漏洞。

<<:  他们现在在哪里:回顾 2014 年 CES 上的顶级潜力股

>>:  巨石能阻止超速行驶的卡车吗?一项有力的新研究调查了

推荐阅读

第二次机会提醒:Apple AirPods Pro 1st Gen 配备 MagSafe 充电盒,售价 120 美元

您是否在 Prime Day 期间犹豫是否要购买 AirPods,结果错失良机?别担心;我们在这里为...

回顾“世界大赛”:通往梦想时刻的旅程

透彻解析《大满贯世界大赛:迈向梦想时刻》的号召力与情感《Major:世界大赛版-向着梦想的时刻》是改...

重新评价动人的《冰雪节》歌曲:探索其吸引力和深度

“冰雪节”~大家之歌的魅力及其背景《雪祭》是1984年12月在NHK教育电视台(现NHK E-Tel...

86 -八十六- 第二季回顾:对感人续集的全面回顾

86 -Eighty Six- 第二轮酷评和详情概述《86 -Eighty Six-》是根据浅里朝里...

如何让你的社交媒体帖子真正私密

本文已更新。最初发布于 2017 年 2 月 16 日。我们大多数人都知道,我们需要谨慎对待在社交媒...

完美罚球背后的数学

大约 20 年前,我和同事 Chau Tran 博士开发出一种在计算机上模拟数百万个篮球飞行轨迹的方...

《孤独的生活》:描绘孤独日常生活的动人故事及其魅力

孤独的生活 - Hitoribocchi no Marumaruseikatsu - ■ 公共媒体电...

《濑户的花嫁》评论:一部独特的浪漫喜剧,拥有迷人的海底世界和大量笑料

《濑户花嫁》:黑帮美人鱼与青春浪漫喜剧的融合《濑户的新娘》是2007年在东京电视台播出的电视动画,改...

数学可以解释公交车晚点的原因,并能帮助解决这个问题

您是否曾在公交车站等了很长时间,结果却发现两辆或多辆公交车同时到达?这种现象被称为“公交车拥挤”,是...

好奇号火星车发现火星上空罕见的闪光云层

火星上的落日景象与太阳不同。部分原因是火星与恒星的距离(平均 1.42 亿英里,而地球约为 9300...

2011 年十大新物种

这个星球上有许多令人难以置信的神奇生物,每年我们都乐于听到一些新生物的消息,直到最近,这些新生物才引...

细菌驱动的人工舌头可以检测酒精中的添加剂

一种寄居着转基因细菌的微型装置可能很快就能像人造舌头一样快速分析酒精饮料的化学成分。利用现有的支持 ...

您会爱上 Babbel 的 3 个理由(除了我们无与伦比的价格)

所以你一直想学习一门新语言……但从哪里开始呢?背卡片?搬到西班牙?(很诱人,但不现实。)不要感到不知...

Thermae Romae Novae的吸引力与评价:将古罗马沐浴文化带入现代

《罗马新浴场》:罗马和日本沐浴文化交汇的穿越喜剧Netflix 上的动漫《罗马新浴场》改编自山崎真理...

《小狐狸消防队》评论:关于勇敢的小狐狸的感人故事

小狐狸消防队 - 小狐狸之间的勇气和友谊的故事1997年9月上映的动画短片《小狐狸消防队》讲述了一个...