Meta 的新 AI 可以利用欺骗来征服棋盘游戏世界

计算机在越来越多的街机和棋盘游戏中表现得相当出色，包括国际象棋、围棋、乒乓球和吃豆人。在不久的将来，机器甚至可能改变视频游戏的开发方式。现在，在构建了一个在扑克游戏中胜过人类的人工智能机器人后，Meta AI 的科学家创建了一个能够进行更复杂游戏的程序：它可以制定策略，理解其他玩家的意图，并通过聊天信息与他们沟通或协商计划。

这个机器人名叫 CICERO，它在外交游戏中的表现比许多人类玩家都要好。CICERO 的得分比人类对手的平均得分高出一倍多，在 40 场在线联赛中名列前 10%。

该项目是 Meta 工程师与哥伦比亚大学、麻省理工学院、斯坦福大学、卡内基梅隆大学、加州大学伯克利分校和哈佛大学的研究人员在过去三年中共同开发的。 《科学》杂志今天发表了一篇论文，介绍了 CICERO 的诞生过程。该团队正在开放代码和模型的源代码，并将向其他研究人员开放项目中使用的数据。

《外交》原本是一款以欧洲为背景的棋盘游戏，玩家扮演不同国家的角色，通过制定战略协议和行动计划来夺取领土控制权。

Meta AI 的研究科学家、论文作者诺姆·布朗 (Noam Brown) 表示：“外交的独特之处在于它涉及合作、涉及信任，最重要的是，它涉及与其他参与者的自然语言交流和谈判。”

尽管多年来一直使用没有聊天功能的特殊版本游戏来测试人工智能，但从 2019 年开始语言模型的进步让团队意识到可能可以教会人工智能如何完整地玩外交游戏。

但由于《外交》对合作有着独特的要求，“很多之前游戏使用过的技术现在都不再适用了”，布朗解释道。

此前，该团队曾对无语言版本的游戏进行过实验，在实验中，玩家会被告知每场游戏中会有一个机器人和六个人类。“我们发现，玩家会积极地试图找出机器人是谁，然后淘汰该玩家，”布朗说。“幸运的是，我们的机器人在那种环境下能够像人类一样通过；他们实际上很难找出机器人是谁，所以机器人实际上在联赛中获得了第一名。”

但随着《外交》游戏的全面推出，团队意识到如果涉及自然语言询问，机器人还无法通过图灵测试。因此，在实验期间，玩家并不知道他们正在与机器人一起玩——这一细节直到游戏结束后才透露。

制作 CICERO

为了构建外交游戏 AI，该团队构建了两个相互关联的独立数据处理引擎：一个引擎用于对话（灵感来自 GPT-3、BlenderBot 3、LaMDA 和 OPT-175B 等模型），另一个引擎用于战略推理（灵感来自 AlphaGo 和 Pluribus 等先前的研究）。对话模型经过互联网上大量文本数据和 webDiplomacy.net 上的 50,000 场人类游戏的训练，两者结合起来，可以传达与其计划的行动方针相符的意图。

元人工智能

反过来也一样。当其他玩家与机器人交流时，对话引擎可以将其转化为游戏中的计划和行动，并以此通知战略引擎下一步行动。CICERO 的宏伟计划由战略推理引擎制定，该引擎根据棋盘状态、最近对话的内容、玩家在类似情况下的历史动作以及机器人的目标来估计最佳下一步行动。

[相关：麻省理工学院的科学家教机器人如何互相破坏]

“如今的语言模型确实很棒，但它们肯定有缺点。我们从语言模型中卸载的策略越多，我们就能做得越好，”布朗说。“因此，我们有了这个以计划为条件的对话模型，但对话模型并不负责计划。”因此，程序中负责说话的部分与负责规划的部分是不一样的。

机器人使用的规划算法称为 piKL。它会对每个人可能做什么以及每个人认为机器人会做什么做出初步预测，并通过权衡不同动作的价值来完善这一预测。“在进行这个迭代过程时，它会尝试根据我们拥有的数据集来权衡人们过去做过的事情，”布朗说。“它还试图平衡这一点，因为玩家在游戏中有特定的目标，他们试图最大化他们的分数，他们不会像犯小错误那样犯非常严重的错误。我们实际上已经观察到，这比仅仅根据人类数据进行初步预测要好得多。”

元人工智能

“欺骗存在于各个层面”

考虑一下欺骗的概念，这是外交的一个有趣方面。在游戏中，在每一轮之前，玩家将花 5 到 15 分钟互相交谈并协商计划。但由于这一切都是私下进行的，人们可以进行双重交易。他们可以向一个人做出承诺，并告诉另一个人他们会做其他事情。

但仅仅因为人们可以偷偷摸摸地行事并不意味着这就是比赛的最佳方式。“很多人刚开始玩外交游戏时，都认为这是一个欺骗游戏。但实际上，如果你和经验丰富的外交玩家交谈，他们会以非常不同的方式思考游戏，他们说这是一个关于信任的游戏，”布朗说。“它能够在一个鼓励你不信任任何人的环境中与其他玩家建立信任。外交不是一款你可以独自取得成功的游戏。你真的需要有盟友。”

早期版本的机器人更具欺骗性，但最终表现相当糟糕。研究人员随后添加过滤器，使其撒谎更少，从而提高性能。但当然，CICERO 并不总是完全诚实地表达其所有意图。重要的是，它知道其他玩家也可能撒谎。“欺骗存在于一个范围内，我们正在过滤掉最极端的欺骗形式，因为这没有帮助，”布朗说。“但在某些情况下，机器人会策略性地省略信息。”

例如，如果它计划攻击某人，它会在通讯中省略其攻击计划的部分内容。如果它与盟友合作，它可能只会传达需要知道的细节，因为过多地暴露其目标可能会让它容易受到背叛。

“我们考虑到玩家的行为不像机器，他们可能会表现得不理性，也可能表现得不太理想。如果你想让人工智能在现实世界中行动，就必须让它们明白人类的行为方式应该像人类，而不是像机器人，”布朗说。“拥有一个能够从其他角度看待事物并理解他们观点的代理是人机交互中一项非常重要的技能。”

布朗指出，该机器人所依赖的技术“非常通用”，他可以想象其他工程师将在这项研究的基础上开发出更实用的个人助理和聊天机器人。

<<: 主要的税务申报网站经常与 Facebook 分享用户的财务信息

>>: 这只敏捷的机器狗用摄像机代替感官