研究人员正在通过反复试验的强化学习来训练机器人执行越来越多的任务,而这通常既费力又费时。为了提供帮助,人类现在正在利用大型语言模型 AI 来加快训练过程。在最近的一项实验中,这产生了一些非常灵巧的模拟机器人。 NVIDIA Research 的一个团队指导了由 OpenAI 的 GPT-4 提供支持的 AI 协议,以教会机械手模拟近 30 项复杂任务,包括抛球、推积木、按开关以及一些令人印象深刻的转笔能力。 [相关:这些人工智能机器人手臂足够灵敏,可以拾起品客薯片。] NVIDIA 的新 Eureka“AI 代理”利用 GPT-4,要求大型语言模型 (LLM) 编写自己的基于奖励的强化学习软件代码。据该公司称,Eureka 不需要复杂的提示,甚至不需要预先编写的模板;相反,它只是开始磨练程序,然后遵循任何后续的外部人工反馈。 在公司的公告中,NVIDIA 高级研究科学家 Linxi “Jim” Fan 将 Eureka 描述为 LLM 与 GPU 加速模拟编程的“独特组合”。Fan 补充道:“我们相信 Eureka 将实现灵巧的机器人控制,并为艺术家提供一种制作逼真动画的新方法。” 从 NVIDIA 的演示视频来看,经过 Eureka 训练的机械手可以完成旋转笔的技巧,其技巧甚至可以与灵巧的人类相媲美,甚至超越他们。 在高级模拟程序中测试其训练协议后,Eureka 随后分析其收集的数据并指导 LLM 进一步改进其设计。最终结果是一个几乎自我迭代的 AI 协议,能够成功编码各种机械手设计,以便在物理精确的模拟环境中操纵剪刀、旋转钢笔和打开橱柜。 Eureka 的替代人类编写的试错学习程序不仅有效,而且在大多数情况下,它们实际上比人类编写的程序更好。在该团队的开源研究论文中,Eureka 设计的奖励程序在 80% 以上的任务中表现优于人类代码,在机器人模拟中平均性能提高了 50% 以上。 [相关:研究人员如何训练廉价机器狗完成各种技巧。] NVIDIA 人工智能研究高级总监、Eureka 论文合著者之一 Anima Anandkumar 在公司公告中表示:“强化学习在过去十年中取得了令人瞩目的成就,但仍然存在许多挑战,例如奖励设计,这仍然是一个反复试验的过程。Eureka 是开发新算法的第一步,这些算法将生成式和强化学习方法结合起来解决困难任务。” |
<<: 如何解锁 iPhone 15 上隐藏的、更强大的相机
Kuruneko的吸引力和评论 - Kuruneko - Kuruneko - Kuruneko -...
当我们死去,我们的尸体会变成草,羚羊会吃草。所以我们都与伟大的生命循环息息相关。每个人都知道迪士尼的...
7 月 1 日,美国陆军宣布将公开招标,以设计替代其备受推崇的布雷德利步兵战车的车辆。布雷德利是一种...
在布鲁克林一个借来的仓库里,我上周见证了食品和饮料博物馆早餐谷物展的首次试射,该展品很快将成为食品和...
美国环保署署长斯科特·普鲁特最近宣布,他打算废除奥巴马时代的汽车排放标准。虽然我们没有关于新要求的具...
《星期一的塔瓦瓦2》综合评价与推荐——月日之塔瓦瓦2概述《Tawawa on Monday 2》是一...
有些人可能还记得亚里士多德的这本致命书籍,它在翁贝托·埃科 1980 年的小说《玫瑰的名字》的情节中...
学会更有效地利用电脑时间对很多方面都有好处。那么编程呢?学会编程可以帮助你在未来拥有一份伟大的事业。...
本周,飓风伊尔玛(Irma)——一场猛烈飓风的祖母级名称——直接登陆加勒比海岛屿安提瓜、巴布达和圣马...
自 1996 年以来,科学家们一直在争论火星陨石 ALH84001 是否包含火星上曾经存在生命的证据...
耐克刚刚宣布,将推出《回到未来 II》中著名的自动系带发光运动鞋限量版,名为 Nike Air Ma...
经济形势下,每天都有许多人寻求提高生活成本,而气候变化的影响仍然笼罩着我们所有人。本质上,这两个现实...
美国司法部周四对 SpaceX 提起诉讼,指控其拒绝考虑雇用寻求庇护者和难民。根据司法部的一份声明,...
无限里维斯之光 - 扇形盘的魅力与深度■ 公共媒体卵子■ 原创媒体动漫原创■ 发布日期2000 年 ...
这个超棒微型项目是由 50 万块乐高积木制成的全尺寸汽车,它诞生于罗马尼亚工匠 Raul Oaida...