熟能生巧,即使你恰好是一个人工智能。 这是阿尔伯塔大学的 Michael Bowling 领导的一项实验的前提,该实验设置了一个名为 Cepheus 的程序,让它与自己玩一亿亿(是的,一亿亿亿)手扑克变体游戏,即单挑限注德州扑克。Cepheus 在 4,600 个 CPU 上运行,每秒计算 60 亿手牌,从每次胜利、平分底池和失败中学习。在实际 70 天中,相当于 CPU 1,000 年的时间后,Cepheus 玩的扑克牌比整个人类玩的还要多。在发表在《科学》杂志上的一篇论文中,Bowling 团队宣布,他们利用 Cepheus 有效地“解决”了单挑限注德州扑克 - 这意味着该程序的决策非常接近完美,以至于没有办法看看一个理论上完美的人类在 70 年的时间里,每天 12 小时,每小时玩 200 手牌是否能做得更好。 统计学家对“解决”游戏的定义有些晦涩难懂,因为 Cepheus 实际上并非每局都不可战胜——恰恰是因为游戏中存在不可消除的运气因素。如果拿到一手烂牌,狡猾的职业选手可能会输给业余选手。 该程序的决策如此接近完美,以至于无法看出理论上完美的人类是否能做得更好。“最糟糕的情况可能是你手上有一手好牌,而你的对手手上有一手更好的牌,”这项研究的合著者迈克·约翰逊说。“你认为自己会赢,所以你下了很多赌注,结果输了很多钱。” 但一旦统计噪声的影响在数千手牌中消失,Cepheus 的技能保证它不会在长期内亏损。 “第一步是建立一个能够击败人类专家的程序,我们在 2008 年就做到了,”约翰逊说。“我们在论文中宣布,Cepheus 能够完美地下棋,不会犯错误。” 在研究中使用的德州扑克版本中,两名玩家(“单挑”)使用固定(“限制”)赌注大小进行比赛,并且有两张牌是隐藏的。这里真正新颖的是 Cepheus 必须学会在对手持有的牌有如此“不完全信息”的情况下做出决定。尽管计算机科学家之前已经解决了 Connect Four 或 Checkers 等“完全信息”游戏,其中计算机完全了解之前的走法和可能的未来结果,但艾伯塔省的研究是人类玩的不平凡的不完全信息游戏的第一个解决方案。 “而 Cepheus 必须学会如何在没有人类专家帮助的情况下下棋,”Johanson 说。“我们教它规则,然后它自己进行训练,弄清楚如何慢棋和虚张声势等棘手的心理问题。” 虚张声势是指玩家手中的牌很弱,但为了欺骗对手弃牌而积极下注。慢玩则相反;手中的牌很强,玩家希望谨慎下注,以诱使对手留在游戏中进行更多下注。而关于其他玩家手中牌的“不完全信息”传统上使得这些心理战术很难被计算机处理。直到现在。还有那数以亿计的德州扑克牌。可以肯定地说,Cepheus 已经见识过扑克玩家可能尝试使用的所有技巧。 您可以在线与 Cepheus 对战,或者向它询问策略问题。 尽管扑克牌生意很大,但计算机科学家更感兴趣的是将其作为基准。约翰逊预计,其他领域的博弈论者也会将这种方法应用于不完全信息占主导地位的其他领域,如谈判或反恐。 例如,南加州大学教授米林德·坦贝 (Milind Tambe) 开发了一种名为 ARMOR 的博弈论工具,洛杉矶国际机场和联邦空中警察均使用该工具来安排巡逻和检查站,这种方式既结合了随机性,又权衡了潜在威胁。 机场安检可以理解为一场像象棋一样的策略游戏。对于约翰逊来说,机场安检可以理解为一场像象棋一样的策略游戏。 “可以把它想象成国际象棋,只不过军队规模不同。机场有多个棋子,代表安保人员,也可能是炸弹嗅探犬和检查站。也许恐怖分子只有一个棋子,但它是一枚好棋子,就像皇后一样,可以自由移动并攻击机场最薄弱的地方。” 就像单挑限注德州扑克一样,机场安检中的双方对于对手将采取什么行动都没有完全的信息。 “所以你把板子藏起来了,”约翰逊说。“你不知道恐怖分子什么时候会袭击,但你知道袭击很可能会发生。恐怖分子知道那里有安保,但不知道具体在哪里。” 将洛杉矶国际机场这样复杂、庞大的机场重新设想为棋盘说起来容易做起来难。但我们希望,就像仙王座通过数万亿轮练习学会了虚张声势和慢打法一样,明天重复的人工智能安全模拟将发现我们凡人从未想过的漏洞。 |
<<: 他们现在在哪里:回顾 2014 年 CES 上的顶级潜力股
公元前 218 年,传奇将军汉尼拔率领迦太基军队(北非的一个古希腊帝国)穿过西班牙,翻过阿尔卑斯山的...
两年前,当时还是麻省理工学院研究生的 Caleb Harper 在学校著名的媒体实验室四楼休息室内建...
做好准备:我们可能即将看到新一波针对忽视电池科学的电动汽车的攻击。这次的罪魁祸首是问题重重的波音 7...
9 月 12 日,一家德克萨斯州电信初创公司将其首批五颗巨型“蓝鸟”通信卫星发射到轨道。每颗设备在完...
《星之桥》:一部描绘乡村魅力和青春光辉的轻松浪漫喜剧《通向星空的桥》是2011年播出的电视动画系列,...
阿斯顿马丁 Vantage AMR 的零售价略低于 180,000 美元。阿斯顿马丁通过跟踪石英晶体...
未来的二手货。Brian Klutch技术不会优雅地老化。破损的手机和破旧的硬盘在拆开包装几年后就会...
3 月 2 日,萤火虫航天公司的蓝色幽灵创造了历史,成为首个成功着陆月球表面的商业月球着陆器。这台...
本周,一只被认为已年满 95 岁的绿海龟被送往医院,并被送往了波士顿新英格兰水族馆。这只古老的绿海龟...
明日之歌-未来的旋律《明日之歌》是一部时长约2分钟的短篇动画作品,于2005年8月在NHK教育电视台...
重新造林之美——Totsubo 的成功■ 公共媒体其他的■ 原创媒体动漫原创■ 首次出庭日期1930...
《Washimo》第 9 季 - Wasimo Daikyu 系列的全方位评论和推荐概述《Washi...
本文最初刊登在《大众科学》青年版。当前订阅者可以在此处访问整个数字版,或单击此处订阅。李新章的夏令营...
吉永家的石像鬼 - 一部搞笑又感人的闹剧喜剧2006年播出的电视动画《吉永家的石像鬼》改编自田口千年...
50 位美国著名计算机科学家签署了一封公开信,敦促美国拒绝大规模监控并保护隐私。这封信的核心是对鼓励...