协作算法让自主机器人能够相互协作、相互学习

传统上，自主机器人之间的协作涉及高度专业化的任务。这支由 14 个机器人组成的队伍由密歇根大学的团队组成，在 2010 年的测绘比赛中获得了一等奖。密歇根队

上周，麻省理工学院宣布了一项令人兴奋但又有些晦涩难懂的突破——一种名为 AMPS 的新算法，它可以让机器人团队变得更好学习。它可以让自主系统快速比较它们在各自旅程中观察到的东西，并得出一个综合的世界观。

如果看起来我已经屈服于机器人报道中最糟糕的诱惑——将机器拟人化的冲动，以及将一项独立的研究成果打造成更容易消化、更广泛使用的泥浆——请忍耐一下。虽然它的作者并没有称其为突破，但这种算法似乎就是这样的。

AMPS 是“对称性后验近似合并”（贝叶斯统计分析的缩写）的缩写，将于 7 月在人工智能不确定性会议上发表。该算法解决了一个非常具体的机器人问题。机器要在给定环境中运行，就需要尽可能地分配语义标签。这些实际上是认知捷径。因此，带有铰链和把手的矩形墙面并不总是一个谜题，每次遇到时都要从头开始解决。它是一扇门，可以打开或关闭。语义标签集可以加起来形成更大的标签。一扇门（标签）通向一个房间，里面有一张大桌子（另一个标签）和一堆椅子（更多标签），这可能是一个会议室。

这种普遍的标签对于自主机器人和人类来说都很重要。然而，不同之处在于，人类在创建和识别标签方面通常更加灵活。麻省理工学院航空航天学教授乔纳森·豪说：“我们人类往往对事物有相当明确的词汇定义。”“我们知道如何以一致的方式给事物贴上标签，或者通过阅读我们环境中的其他事物来获取标签。”所以，如果一个人走进一个没有椅子的会议室，他或她不会突然感到时间和空间上的漂移。我们就是这么聪明。

相比之下，机器人可能相当笨拙。或者至少是僵硬的。没有椅子的会议室可能会被误认为是储藏室，并且在生日聚会结束、座椅被归还很久之后，永远被贴上储藏室的标签。这种认知上的不灵活性非但没有使机器人拟人化，反而提醒人们机器人是多么不人道。当机器试图共享数据集并将其经验整合成更大的环境标签集合时，可能会出现更多问题。如果一个机器人将某个区域注册为会议室，而另一个机器人将其标记为储藏室，它们如何协调这种差异？人类可以用我们的大嘴巴和更大的大脑来解决分歧，而机器人却只能被困在它们相互对立、顽固的标签中。

AMPS 算法有望打破这些僵局，因为它允许机器人重新考虑各种标签的重要性。“这不仅仅是物品在哪里的问题，而是它们是什么，它们是由什么组成的，”How 说。例如，会议室里有椅子有多重要？如果一个机器人已经发现了它认为是储藏室的东西，里面有箱子、橱柜和架子，那么真的会不会有另一个储藏室离它这么近（没有任何这些明显的特征）？据 How 和他的研究生 Trevor Campbell 共同创建了该算法，诀窍是让交互机器为它们的标签建立新的优先级，重建它们的世界观。通过允许会议室可能有或可能没有椅子，并重新排列它们的标签以适应不同的体验，机器人可以实现 How 和 Campbell 所说的语义对称。

这是一个问题的解决方案，说实话，目前还不是什么大问题。在明确定义、精心标记的制造设施范围之外，自主系统相对较少，而专为学习而设计的系统则更少见。但随着自主导航机器人变得越来越普遍，它们必须导航的环境和行为也越来越多样化，协作学习可能是一项重要的资产。“这是为了制造出不会一直举手投降的机器人，说，这不是你定义的最终事物之一。我不知道现在该怎么做，”豪说。

换句话说，AMPS 是为未来几代的自动驾驶机器（如机器人汽车）而设计的，它们将不可避免地遇到程序员没有预见或带宽来准备的情况。例如，一些城市在日落时分会变成人人横穿马路的混战，迫使车辆在人流中缓慢穿行。一辆有遮蔽的郊区机器人汽车，只看到在人行横道上耐心等待的行人，它可能会像机器人在新奇、莫名其妙的情况下经常做的那样，停下来。与此同时，一辆更以城市为基础的无人驾驶汽车可能对这种夜间随意冒险和低速风险评估的泥潭更有经验。如果这两个机器人停在同一个红绿灯前，并能够有效地共享数据，它们可能会协调它们不同的观察结果。郊区模型可以摆脱麻木状态（或从一开始就避免陷入麻木状态），以足够的谨慎和决心继续前进。城市机器人不一定会从学习人类在汽车文化盛行的地方的行为方式中受益，但它也许能学到一两招与盲道或在故障车道上疾驰的流氓汽车有关的技巧。

协作学习可以通过其他方式实现，例如将机器连接到一个广泛的、始终在线的网络上，整个服务器场可以通过冲突的标签进行处理并根据需要更新机器人。而 RoboEarth 项目自称是“机器人的维基百科”，希望建立一个供机器人访问的通用知识库。但 AMPS 的优势在于它能够在无法持续访问网络的地方工作，无论是澳大利亚内陆的碎石路，还是火星表面的陨石坑。这种方法专注于机器人之间的通信，不需要强大的后端系统。它本质上提高了自主机器的自主性，并为有意义的学习奠定了基础。“我们在终身学习的背景下考虑这个问题，”How 说。“这意味着机器人可以在某个地方独自运行一年，而不必不断回来问问题。机器人可以像人类一样四处游荡，单独或成对地进行交互，找到相互学习的方法。”

现在还无法确定 AMPS 算法是否会应用于自动驾驶汽车。但正如 How 指出的那样，无人驾驶汽车是信息与决策系统实验室（他所属的麻省理工学院研究中心）的主要关注点之一。更短期的应用可能是探索或基于观察的机器人。考虑到该项目由海军研究办公室资助，具有团队合作天赋的军事系统似乎完全可行。但从长远来看，协作学习比任何单一类别的机器人都更大。它的前景是创造出更多自力更生的机器人，这些机器人不需要我们指导它们完成每项任务，也不需要我们一手灌输每一条相关数据。因为如果我们屈服于将机器人拟人化的冲动——这很难不这样做——那么自主机器人几乎无法站立，而且只是偶尔不用尿布。

<<: 美国联邦航空管理局可能永远无法制定无人机规则

>>: 飞得更远以避开飞机尾迹可能有助于缓解全球变暖