Meta 的新 AI 可以利用欺骗来征服棋盘游戏世界

Meta 的新 AI 可以利用欺骗来征服棋盘游戏世界

计算机在越来越多的街机和棋盘游戏中表现得相当出色,包括国际象棋、围棋、乒乓球和吃豆人。在不久的将来,机器甚至可能改变视频游戏的开发方式。现在,在构建了一个在扑克游戏中胜过人类的人工智能机器人后,Meta AI 的科学家创建了一个能够进行更复杂游戏的程序:它可以制定策略,理解其他玩家的意图,并通过聊天信息与他们沟通或协商计划。

这个机器人名叫 CICERO,它在外交游戏中的表现比许多人类玩家都要好。CICERO 的得分比人类对手的平均得分高出一倍多,在 40 场在线联赛中名列前 10%。

该项目是 Meta 工程师与哥伦比亚大学、麻省理工学院、斯坦福大学、卡内基梅隆大学、加州大学伯克利分校和哈佛大学的研究人员在过去三年中共​​同开发的。 《科学》杂志今天发表了一篇论文,介绍了 CICERO 的诞生过程。该团队正在开放代码和模型的源代码,并将向其他研究人员开放项目中使用的数据。

《外交》原本是一款以欧洲为背景的棋盘游戏,玩家扮演不同国家的角色,通过制定战略协议和行动计划来夺取领土控制权。

Meta AI 的研究科学家、论文作者诺姆·布朗 (Noam Brown) 表示:“外交的独特之处在于它涉及合作、涉及信任,最重要的是,它涉及与其他参与者的自然语言交流和谈判。”

尽管多年来一直使用没有聊天功能的特殊版本游戏来测试人工智能,但从 2019 年开始语言模型的进步让团队意识到可能可以教会人工智能如何完整地玩外交游戏。

但由于《外交》对合作有着独特的要求,“很多之前游戏使用过的技术现在都不再适用了”,布朗解释道。

此前,该团队曾对无语言版本的游戏进行过实验,在实验中,玩家会被告知每场游戏中会有一个机器人和六个人类。“我们发现,玩家会积极地试图找出机器人是谁,然后淘汰该玩家,”布朗说。“幸运的是,我们的机器人在那种环境下能够像人类一样通过;他们实际上很难找出机器人是谁,所以机器人实际上在联赛中获得了第一名。”

但随着《外交》游戏的全面推出,团队意识到如果涉及自然语言询问,机器人还无法通过图灵测试。因此,在实验期间,玩家并不知道他们正在与机器人一起玩——这一细节直到游戏结束后才透露。

制作 CICERO

为了构建外交游戏 AI,该团队构建了两个相互关联的独立数据处理引擎:一个引擎用于对话(灵感来自 GPT-3、BlenderBot 3、LaMDA 和 OPT-175B 等模型),另一个引擎用于战略推理(灵感来自 AlphaGo 和 Pluribus 等先前的研究)。对话模型经过互联网上大量文本数据和 webDiplomacy.net 上的 50,000 场人类游戏的训练,两者结合起来,可以传达与其计划的行动方针相符的意图。

元人工智能

反过来也一样。当其他玩家与机器人交流时,对话引擎可以将其转化为游戏中的计划和行动,并以此通知战略引擎下一步行动。CICERO 的宏伟计划由战略推理引擎制定,该引擎根据棋盘状态、最近对话的内容、玩家在类似情况下的历史动作以及机器人的目标来估计最佳下一步行动。

[相关:麻省理工学院的科学家教机器人如何互相破坏]

“如今的语言模型确实很棒,但它们肯定有缺点。我们从语言模型中卸载的策略越多,我们就能做得越好,”布朗说。“因此,我们有了这个以计划为条件的对话模型,但对话模型并不负责计划。”因此,程序中负责说话的部分与负责规划的部分是不一样的。

机器人使用的规划算法称为 piKL。它会对每个人可能做什么以及每个人认为机器人会做什么做出初步预测,并通过权衡不同动作的价值来完善这一预测。“在进行这个迭代过程时,它会尝试根据我们拥有的数据集来权衡人们过去做过的事情,”布朗说。“它还试图平衡这一点,因为玩家在游戏中有特定的目标,他们试图最大化他们的分数,他们不会像犯小错误那样犯非常严重的错误。我们实际上已经观察到,这比仅仅根据人类数据进行初步预测要好得多。”

元人工智能

“欺骗存在于各个层面”

考虑一下欺骗的概念,这是外交的一个有趣方面。在游戏中,在每一轮之前,玩家将花 5 到 15 分钟互相交谈并协商计划。但由于这一切都是私下进行的,人们可以进行双重交易。他们可以向一个人做出承诺,并告诉另一个人他们会做其他事情。

但仅仅因为人们可以偷偷摸摸地行事并不意味着这就是比赛的最佳方式。“很多人刚开始玩外交游戏时,都认为这是一个欺骗游戏。但实际上,如果你和经验丰富的外交玩家交谈,他们会以非常不同的方式思考游戏,他们说这是一个关于信任的游戏,”布朗说。“它能够在一个鼓励你不信任任何人的环境中与其他玩家建立信任。外交不是一款你可以独自取得成功的游戏。你真的需要有盟友。”

早期版本的机器人更具欺骗性,但最终表现相当糟糕。研究人员随后添加过滤器,使其撒谎更少,从而提高性能。但当然,CICERO 并不总是完全诚实地表达其所有意图。重要的是,它知道其他玩家也可能撒谎。“欺骗存在于一个范围内,我们正在过滤掉最极端的欺骗形式,因为这没有帮助,”布朗说。“但在某些情况下,机器人会策略性地省略信息。”

例如,如果它计划攻击某人,它会在通讯中省略其攻击计划的部分内容。如果它与盟友合作,它可能只会传达需要知道的细节,因为过多地暴露其目标可能会让它容易受到背叛。

“我们考虑到玩家的行为不像机器,他们可能会表现得不理性,也可能表现得不太理想。如果你想让人工智能在现实世界中行动,就必须让它们明白人类的行为方式应该像人类,而不是像机器人,”布朗说。“拥有一个能够从其他角度看待事物并理解他们观点的代理是人机交互中一项非常重要的技能。”

布朗指出,该机器人所依赖的技术“非常通用”,他可以想象其他工程师将在这项研究的基础上开发出更实用的个人助理和聊天机器人。

<<:  主要的税务申报网站经常与 Facebook 分享用户的财务信息

>>:  这只敏捷的机器狗用摄像机代替感官

推荐阅读

讨厌耙树叶?有一个更简单的方法。

秋天是一个特别令人兴奋的季节。谁不喜欢把大量的土豆和馅饼塞进嘴里,看足球,或者喝南瓜香料拿铁(即使里...

以下是送给高尔夫爱好者的礼物的最佳优惠

哦,出于对高尔夫的热爱,您不想做什么来提高自己的球技呢?我们认识一些高尔夫球手,我们有一些小玩意,它...

地下“次大陆”可能会改写地质学教科书

许多地震学家和研究人员长期以来一直认为地球拥有一个流动迅速、混合良好的地幔。但根据荷兰乌得勒支大学研...

《小鬼,Atchi Kochi Sochi》的魅力与评价:一部大人和小孩都能享受的幻想动画

小鬼,随处可见——回顾 90 年代的怀旧动画1991 年至 1992 年播出的《小鬼来了来了》是一部...

日本将于 2028 年测试自动驾驶子弹头列车

日本最大的铁路公司之一希望在 2030 年代中期实现全自动驾驶子弹头列车在全国范围内快速行驶。据东日...

在 Prime Day 期间,您可以享受 Dyson、Shark、Bissell、Black+Decker、Robovac 等品牌吸尘器的最后优惠

戴森以创新和品质而闻名,重新定义了普通家用电器的功能。幸运的是,他们的一些多功能吸尘器和空气净化器在...

金银花:全面回顾绝望魔术师的冒险经历以及魔法世界的最终灾难

金装朱砂:濒临绝境的魔术师迎着最大灾难闯荡魔法世界■ 公共媒体电视动画系列■ 原创媒体漫画■ 播出时...

电影《Metal Fight Beyblade vs. the Sun:灼热的侵略者Sol Blaze》的魅力与评价

《合金装备5:战斗陀螺》剧场版对决太阳:灼热的侵略者索尔·布雷泽》的魅力与评价《合金装备战斗陀螺VS...

在 REI 购买 Patagonia 包袋可享 30% 折扣,此优惠十分有限

五年前,我收到了 Patagonia Ultralight Black Hole Hip Pack ...

无人机在大多数战争中并非“无用”

本周,在华盛顿特区附近的一次空军会议上,空军上将迈克·霍斯塔格声称“捕食者和死神无人机在对抗环境中毫...

这款翻新的 MacBook Pro 可最大程度地提高计算能力,同时最大限度地降低成本

想象一下拥有一台计算机奇迹,它不仅拥有强大的性能,还具有环保的特色。看看这款翻新的 MacBook ...

岩石可能能够释放二氧化碳,也可以储存它

岩石风化的自然过程可能向空气中排放与全球火山一样多的二氧化碳 (CO 2 )。10 月 4 日发表在...

各州的绿色新政将会是什么样子

2018 年,联合国气候变化政府间小组设定了一个最后期限:到 2030 年将温室气体排放量控制在 4...

两种新发现的鸟类是印度尼西亚“进化游乐场”的产物

经过长时间的争论,瓦卡托比绣眼鸟最终被认定为一个独立的物种。肖恩·凯利向鸟类世界的新成员问好:瓦卡托...

【词汇竞赛第二季】全面回顾:哪些动漫对提升词汇量有效?

VocaLace [第二版] - 深度评论与推荐概述《Vocalace [第 2 季]》是一部于 ...