计算机在越来越多的街机和棋盘游戏中表现得相当出色,包括国际象棋、围棋、乒乓球和吃豆人。在不久的将来,机器甚至可能改变视频游戏的开发方式。现在,在构建了一个在扑克游戏中胜过人类的人工智能机器人后,Meta AI 的科学家创建了一个能够进行更复杂游戏的程序:它可以制定策略,理解其他玩家的意图,并通过聊天信息与他们沟通或协商计划。 这个机器人名叫 CICERO,它在外交游戏中的表现比许多人类玩家都要好。CICERO 的得分比人类对手的平均得分高出一倍多,在 40 场在线联赛中名列前 10%。 该项目是 Meta 工程师与哥伦比亚大学、麻省理工学院、斯坦福大学、卡内基梅隆大学、加州大学伯克利分校和哈佛大学的研究人员在过去三年中共同开发的。 《科学》杂志今天发表了一篇论文,介绍了 CICERO 的诞生过程。该团队正在开放代码和模型的源代码,并将向其他研究人员开放项目中使用的数据。 《外交》原本是一款以欧洲为背景的棋盘游戏,玩家扮演不同国家的角色,通过制定战略协议和行动计划来夺取领土控制权。 Meta AI 的研究科学家、论文作者诺姆·布朗 (Noam Brown) 表示:“外交的独特之处在于它涉及合作、涉及信任,最重要的是,它涉及与其他参与者的自然语言交流和谈判。” 尽管多年来一直使用没有聊天功能的特殊版本游戏来测试人工智能,但从 2019 年开始语言模型的进步让团队意识到可能可以教会人工智能如何完整地玩外交游戏。 但由于《外交》对合作有着独特的要求,“很多之前游戏使用过的技术现在都不再适用了”,布朗解释道。 此前,该团队曾对无语言版本的游戏进行过实验,在实验中,玩家会被告知每场游戏中会有一个机器人和六个人类。“我们发现,玩家会积极地试图找出机器人是谁,然后淘汰该玩家,”布朗说。“幸运的是,我们的机器人在那种环境下能够像人类一样通过;他们实际上很难找出机器人是谁,所以机器人实际上在联赛中获得了第一名。” 但随着《外交》游戏的全面推出,团队意识到如果涉及自然语言询问,机器人还无法通过图灵测试。因此,在实验期间,玩家并不知道他们正在与机器人一起玩——这一细节直到游戏结束后才透露。 制作 CICERO为了构建外交游戏 AI,该团队构建了两个相互关联的独立数据处理引擎:一个引擎用于对话(灵感来自 GPT-3、BlenderBot 3、LaMDA 和 OPT-175B 等模型),另一个引擎用于战略推理(灵感来自 AlphaGo 和 Pluribus 等先前的研究)。对话模型经过互联网上大量文本数据和 webDiplomacy.net 上的 50,000 场人类游戏的训练,两者结合起来,可以传达与其计划的行动方针相符的意图。 反过来也一样。当其他玩家与机器人交流时,对话引擎可以将其转化为游戏中的计划和行动,并以此通知战略引擎下一步行动。CICERO 的宏伟计划由战略推理引擎制定,该引擎根据棋盘状态、最近对话的内容、玩家在类似情况下的历史动作以及机器人的目标来估计最佳下一步行动。 [相关:麻省理工学院的科学家教机器人如何互相破坏] “如今的语言模型确实很棒,但它们肯定有缺点。我们从语言模型中卸载的策略越多,我们就能做得越好,”布朗说。“因此,我们有了这个以计划为条件的对话模型,但对话模型并不负责计划。”因此,程序中负责说话的部分与负责规划的部分是不一样的。 机器人使用的规划算法称为 piKL。它会对每个人可能做什么以及每个人认为机器人会做什么做出初步预测,并通过权衡不同动作的价值来完善这一预测。“在进行这个迭代过程时,它会尝试根据我们拥有的数据集来权衡人们过去做过的事情,”布朗说。“它还试图平衡这一点,因为玩家在游戏中有特定的目标,他们试图最大化他们的分数,他们不会像犯小错误那样犯非常严重的错误。我们实际上已经观察到,这比仅仅根据人类数据进行初步预测要好得多。” “欺骗存在于各个层面”考虑一下欺骗的概念,这是外交的一个有趣方面。在游戏中,在每一轮之前,玩家将花 5 到 15 分钟互相交谈并协商计划。但由于这一切都是私下进行的,人们可以进行双重交易。他们可以向一个人做出承诺,并告诉另一个人他们会做其他事情。 但仅仅因为人们可以偷偷摸摸地行事并不意味着这就是比赛的最佳方式。“很多人刚开始玩外交游戏时,都认为这是一个欺骗游戏。但实际上,如果你和经验丰富的外交玩家交谈,他们会以非常不同的方式思考游戏,他们说这是一个关于信任的游戏,”布朗说。“它能够在一个鼓励你不信任任何人的环境中与其他玩家建立信任。外交不是一款你可以独自取得成功的游戏。你真的需要有盟友。” 早期版本的机器人更具欺骗性,但最终表现相当糟糕。研究人员随后添加过滤器,使其撒谎更少,从而提高性能。但当然,CICERO 并不总是完全诚实地表达其所有意图。重要的是,它知道其他玩家也可能撒谎。“欺骗存在于一个范围内,我们正在过滤掉最极端的欺骗形式,因为这没有帮助,”布朗说。“但在某些情况下,机器人会策略性地省略信息。” 例如,如果它计划攻击某人,它会在通讯中省略其攻击计划的部分内容。如果它与盟友合作,它可能只会传达需要知道的细节,因为过多地暴露其目标可能会让它容易受到背叛。 “我们考虑到玩家的行为不像机器,他们可能会表现得不理性,也可能表现得不太理想。如果你想让人工智能在现实世界中行动,就必须让它们明白人类的行为方式应该像人类,而不是像机器人,”布朗说。“拥有一个能够从其他角度看待事物并理解他们观点的代理是人机交互中一项非常重要的技能。” 布朗指出,该机器人所依赖的技术“非常通用”,他可以想象其他工程师将在这项研究的基础上开发出更实用的个人助理和聊天机器人。 |
<<: 主要的税务申报网站经常与 Facebook 分享用户的财务信息
与豪猪擦肩而过绝对是一种难以忘怀的经历——很难不被一团小狗般大小的刺吓到。但这种外表凶猛的动物其实是...
基因潜水员:穿越时空和生命起源的冒险1994 年至 1995 年播出的电视动画系列《Gene Div...
《魔法使七人组:永恒图书馆与炼金术少女》的评论与推荐概述《七人魔法使剧场版:永恒图书馆与炼金术少女...
本周你学到的最奇怪的事情是什么?好吧,不管是什么,我们保证如果你听 PopSci 的热门播客,你会得...
人工智能程序已经可以对触觉、视觉、嗅觉和听觉等感官刺激做出反应,那么为什么不能对味觉做出反应呢?宾夕...
八条手臂、粉红色斑点的船蛸过着一种神秘的生活。与其他章鱼不同,它们整天漂浮在热带水域表面附近,分开手...
大西洋沿岸,纽约和新泽西附近,一片面积相当于纽约市 2.5 倍的海域刚刚被美国政府租给了六家能源公司...
每个 MIDI 控制器都一样,对吧?你有一些钢琴风格的琴键、几个按钮……也许还有一些旋钮。没什么好惊...
银河流浪者 Vifam:失踪的十二人:喜剧与超自然现象的融合■作品概要《银河流浪者 Vifam:失踪...
人类是一个充满好奇心的物种,长期以来一直梦想着前往太空最深处。这是即将上映的科幻史诗《星际穿越》的主...
本文已更新。最初于 2019 年 10 月 7 日发布。与谷歌地图相比,苹果地图一直以来都名声不佳。...
3 月 9 日,中国历时数十年打造自己的全球导航卫星系统的项目进入收尾阶段,该项目将使中国在支撑现...
有袋动物绝不是一群无聊的哺乳动物。袋鼠拥有动物界最强大的踢腿能力,袋熊以粪便块而闻名,考拉的饮食有毒...
小小克星! - 青春的辉煌和友谊的纽带“小小克星!”是改编自Key制作的R-18游戏的电视动画,于2...
当海盗号着陆器在水门事件丑闻最严重的时候降落在火星表面时,它们扬起了两层锈迹斑斑的土壤,并引发了一场...