科技巨头谷歌及其子公司人工智能研究实验室 DeepMind 开发了一种基本的人机翻译器。他们将其描述为“首创的视觉-语言-动作模型”。两人在周五的两份独立声明中表示,该模型名为 RT-2,经过语言和视觉输入训练,旨在将来自网络的知识转化为机器人可以理解和响应的指令。 在一系列试验中,该机器人证明它可以识别和区分不同国家的国旗、足球和篮球、泰勒·斯威夫特等流行偶像以及一罐红牛等物品。 “开发实用机器人一直是一项艰巨的任务,因为能够在现实世界中完成一般任务的机器人需要能够在高度变化的环境中处理复杂、抽象的任务——尤其是它从未见过的环境,”谷歌 DeepMind 机器人负责人 Vincent Vanhoucke 在一篇博文中说道。“与聊天机器人不同,机器人需要‘扎根’于现实世界及其能力……机器人需要能够在环境中识别苹果,将其与红球区分开来,了解苹果的样子,最重要的是,知道如何捡起它。” 这意味着,传统上训练机器人需要从头开始生成数十亿个数据点,以及特定的指令和命令。像告诉机器人扔掉垃圾这样的任务需要程序员明确训练机器人识别垃圾、垃圾桶,以及采取什么动作捡起并扔掉垃圾。 过去几年,谷歌一直在探索各种方法来教机器人完成任务,就像教人(或狗)一样。去年,谷歌展示了一款可以根据人类的自然语言指令编写自己的代码的机器人。谷歌的另一家子公司 Everyday Robots 尝试使用一种名为 SayCan 的模型将用户输入与预测响应配对,该模型从维基百科和社交媒体中提取信息。 [相关:谷歌正在测试一种可以自我编程的新机器人] RT-2 以类似的前身模型 RT-1 为基础,该模型允许机器通过一系列基本推理来解释新的用户命令。此外,RT-2 还具备与符号理解和人类识别相关的技能,谷歌认为这些技能将使它成为在以人为中心的环境中工作的通用机器人。 [相关:人工智能广阔世界的简单指南] RT-2 还借鉴了视觉语言模型 (VLM) 所做的工作,这些模型曾用于为图像添加字幕、识别帧中的对象或回答有关特定图片的问题。因此,与 SayCan 不同,该模型实际上可以看到周围的世界。但要使 VLM 能够控制机器人,需要在其上添加一个输出操作组件。这是通过在模型中将机器人可以执行的不同操作表示为标记来实现的。这样,模型不仅可以预测某人查询的答案可能是什么,还可以生成最有可能与之相关的操作。 DeepMind 指出,例如,如果一个人说他们累了,想喝点东西,机器人就可以决定给他们拿一杯能量饮料。 |
<<: 3 种方法让笔记本电脑电池续航时间更长——或许一整天
随着苹果 2015 年秋季发布会的临近,许多人的注意力都集中在 iPhone 6s 上。但如果传言和...
只有你能防止野火。这句话几乎每个在美国长大的人都耳熟能详,出自一只穿着蓝色牛仔裤、戴着护林员帽子、赤...
《Punpun Polka》:NHK经典动画及其魅力《Punpun Polka》是1961年在NHK...
Awate Tokoya 的魅力和历史《急躁的理发师》是1961年4月在NHK教育电视台(现NHK ...
天文学家通常会利用星光来获取信息。到达地球的星光中闪烁的光芒会定期揭开遥远星系的新面纱——比如潮湿的...
如果您有一台兼容的 Mac(即任何运行 macOS 14 Sonoma 的 Mac,2018 年和 ...
“CHAOS;CHILD SILENT SKY”——来自深渊的呐喊《CHAOS;CHILD SIL...
在世界各地,送礼是爱、关心和尊重的明显表现。就物质礼物而言,许多人认为钻石是感激的物质体现。这些宝石...
全方位信息和多数缺陷评估 - Tasuuketsu概述《Tasuuketsu》是根据宫川大河的原作漫...
从出生后的最初几周起,港海豹就能改变自己的声调,让别人听到自己的声音。皇家学会《哲学学报》上最近一项...
不幸的是,第三次尝试对 Relativity Space 来说并不顺利。经过两次失败的尝试后,这家航...
海豚王子——海上冒险与友谊的故事1965年播出的《海豚王子》是一部只有三集的短篇动画,但它是一部因其...
你和我之间的最后战场,或开启世界的圣战 第二季评论《你和我的最终决战,或开启世界的圣战》是一部电视动...
美国宇航局今天在与记者的电话会议中表示,他们永远不会让其实验性电动飞机 X-57 试飞,理由是该项目...
Augochloropsis anonyma看起来就像一只奇怪的蜜蜂。它有着我们熟悉的蜜蜂形状——倾...