看看当人工智能教机器人“手”转动钢笔时会发生什么

研究人员正在通过反复试验的强化学习来训练机器人执行越来越多的任务，而这通常既费力又费时。为了提供帮助，人类现在正在利用大型语言模型 AI 来加快训练过程。在最近的一项实验中，这产生了一些非常灵巧的模拟机器人。

NVIDIA Research 的一个团队指导了由 OpenAI 的 GPT-4 提供支持的 AI 协议，以教会机械手模拟近 30 项复杂任务，包括抛球、推积木、按开关以及一些令人印象深刻的转笔能力。

[相关：这些人工智能机器人手臂足够灵敏，可以拾起品客薯片。]

NVIDIA 的新 Eureka“AI 代理”利用 GPT-4，要求大型语言模型 (LLM) 编写自己的基于奖励的强化学习软件代码。据该公司称，Eureka 不需要复杂的提示，甚至不需要预先编写的模板；相反，它只是开始磨练程序，然后遵循任何后续的外部人工反馈。

在公司的公告中，NVIDIA 高级研究科学家 Linxi “Jim” Fan 将 Eureka 描述为 LLM 与 GPU 加速模拟编程的“独特组合”。Fan 补充道：“我们相信 Eureka 将实现灵巧的机器人控制，并为艺术家提供一种制作逼真动画的新方法。”

从 NVIDIA 的演示视频来看，经过 Eureka 训练的机械手可以完成旋转笔的技巧，其技巧甚至可以与灵巧的人类相媲美，甚至超越他们。

在高级模拟程序中测试其训练协议后，Eureka 随后分析其收集的数据并指导 LLM 进一步改进其设计。最终结果是一个几乎自我迭代的 AI 协议，能够成功编码各种机械手设计，以便在物理精确的模拟环境中操纵剪刀、旋转钢笔和打开橱柜。

Eureka 的替代人类编写的试错学习程序不仅有效，而且在大多数情况下，它们实际上比人类编写的程序更好。在该团队的开源研究论文中，Eureka 设计的奖励程序在 80% 以上的任务中表现优于人类代码，在机器人模拟中平均性能提高了 50% 以上。

[相关：研究人员如何训练廉价机器狗完成各种技巧。]

NVIDIA 人工智能研究高级总监、Eureka 论文合著者之一 Anima Anandkumar 在公司公告中表示：“强化学习在过去十年中取得了令人瞩目的成就，但仍然存在许多挑战，例如奖励设计，这仍然是一个反复试验的过程。Eureka 是开发新算法的第一步，这些算法将生成式和强化学习方法结合起来解决困难任务。”

<<: 如何解锁 iPhone 15 上隐藏的、更强大的相机

>>: 适用于书籍和播客的最佳有声读物应用程序