科技巨头谷歌及其子公司人工智能研究实验室 DeepMind 开发了一种基本的人机翻译器。他们将其描述为“首创的视觉-语言-动作模型”。两人在周五的两份独立声明中表示,该模型名为 RT-2,经过语言和视觉输入训练,旨在将来自网络的知识转化为机器人可以理解和响应的指令。 在一系列试验中,该机器人证明它可以识别和区分不同国家的国旗、足球和篮球、泰勒·斯威夫特等流行偶像以及一罐红牛等物品。 “开发实用机器人一直是一项艰巨的任务,因为能够在现实世界中完成一般任务的机器人需要能够在高度变化的环境中处理复杂、抽象的任务——尤其是它从未见过的环境,”谷歌 DeepMind 机器人负责人 Vincent Vanhoucke 在一篇博文中说道。“与聊天机器人不同,机器人需要‘扎根’于现实世界及其能力……机器人需要能够在环境中识别苹果,将其与红球区分开来,了解苹果的样子,最重要的是,知道如何捡起它。” 这意味着,传统上训练机器人需要从头开始生成数十亿个数据点,以及特定的指令和命令。像告诉机器人扔掉垃圾这样的任务需要程序员明确训练机器人识别垃圾、垃圾桶,以及采取什么动作捡起并扔掉垃圾。 过去几年,谷歌一直在探索各种方法来教机器人完成任务,就像教人(或狗)一样。去年,谷歌展示了一款可以根据人类的自然语言指令编写自己的代码的机器人。谷歌的另一家子公司 Everyday Robots 尝试使用一种名为 SayCan 的模型将用户输入与预测响应配对,该模型从维基百科和社交媒体中提取信息。 [相关:谷歌正在测试一种可以自我编程的新机器人] RT-2 以类似的前身模型 RT-1 为基础,该模型允许机器通过一系列基本推理来解释新的用户命令。此外,RT-2 还具备与符号理解和人类识别相关的技能,谷歌认为这些技能将使它成为在以人为中心的环境中工作的通用机器人。 [相关:人工智能广阔世界的简单指南] RT-2 还借鉴了视觉语言模型 (VLM) 所做的工作,这些模型曾用于为图像添加字幕、识别帧中的对象或回答有关特定图片的问题。因此,与 SayCan 不同,该模型实际上可以看到周围的世界。但要使 VLM 能够控制机器人,需要在其上添加一个输出操作组件。这是通过在模型中将机器人可以执行的不同操作表示为标记来实现的。这样,模型不仅可以预测某人查询的答案可能是什么,还可以生成最有可能与之相关的操作。 DeepMind 指出,例如,如果一个人说他们累了,想喝点东西,机器人就可以决定给他们拿一杯能量饮料。 |
<<: 3 种方法让笔记本电脑电池续航时间更长——或许一整天
《传颂之物:虚伪的假面》:由史诗般的故事和迷人的角色编织而成的动人世界《传颂之物:假面》是一部根据 ...
在数字化营销的时代,社交媒体已成为企业与客户沟通的主要渠道。无论是推广新产品、分享博客文章,还是增加...
冷战时期充满了雄心勃勃、但往往很奇怪的项目。例如:世纪营,美国陆军在格陵兰岛近地表冰盖内建造的地下核...
据称清洁、环保的特斯拉 Model S 的污染真的比耗油的吉普大切诺基运动型多用途车更严重吗?一位分...
不要再等待升级您的计算机操作系统了。11 月 9 日前,Microsoft Windows 11 P...
1964 年 2 月 26 日,一名 40 岁男子在酒店浴室滑倒,头撞在浴缸上。这次痛苦的跌倒最终改...
四月的阵雨带来了五月的鲜花,但也带来了恶劣的天气和倒下的树木,这些树木可能会切断电线。幸运的是,你可...
你可能会认为谷歌的头戴式增强现实设备 Glass 自 2015 年以来实际上已经停产。但正如谷歌姊妹...
第一次原子弹爆炸的影片——1945 年的“三位一体”试验——是无声的。它们的安静不自然,令人毛骨悚然...
哭泣的女孩——Naiteita Onnanoko 《哭泣的女孩》是一部两分钟的短篇动画电影,于 19...
假设你今年万圣节收获了一大堆糖果。真的非常多。足够几个月的供应。假设你决定放弃清淡的营养饮食,开始每...
3×3EYES 〜圣魔传说〜:重新评价永恒杰作《3x3EYES:圣魔传说》于1995年7月25日以O...
《一起训练》——肌肉训练与动漫的新融合《一起训练》是一部以肌肉训练为主题的独特动画作品,于2009...
《我的青春》:NHK 的经典动画及其魅力《My Plue》是1977年在NHK教育电视台(现NHK...
玻璃面具 - 这部永恒动画杰作的魅力及其背景■ 公共媒体电视动画系列■ 原创媒体漫画■ 播出时间19...