科技巨头谷歌及其子公司人工智能研究实验室 DeepMind 开发了一种基本的人机翻译器。他们将其描述为“首创的视觉-语言-动作模型”。两人在周五的两份独立声明中表示,该模型名为 RT-2,经过语言和视觉输入训练,旨在将来自网络的知识转化为机器人可以理解和响应的指令。 在一系列试验中,该机器人证明它可以识别和区分不同国家的国旗、足球和篮球、泰勒·斯威夫特等流行偶像以及一罐红牛等物品。 “开发实用机器人一直是一项艰巨的任务,因为能够在现实世界中完成一般任务的机器人需要能够在高度变化的环境中处理复杂、抽象的任务——尤其是它从未见过的环境,”谷歌 DeepMind 机器人负责人 Vincent Vanhoucke 在一篇博文中说道。“与聊天机器人不同,机器人需要‘扎根’于现实世界及其能力……机器人需要能够在环境中识别苹果,将其与红球区分开来,了解苹果的样子,最重要的是,知道如何捡起它。” 这意味着,传统上训练机器人需要从头开始生成数十亿个数据点,以及特定的指令和命令。像告诉机器人扔掉垃圾这样的任务需要程序员明确训练机器人识别垃圾、垃圾桶,以及采取什么动作捡起并扔掉垃圾。 过去几年,谷歌一直在探索各种方法来教机器人完成任务,就像教人(或狗)一样。去年,谷歌展示了一款可以根据人类的自然语言指令编写自己的代码的机器人。谷歌的另一家子公司 Everyday Robots 尝试使用一种名为 SayCan 的模型将用户输入与预测响应配对,该模型从维基百科和社交媒体中提取信息。 [相关:谷歌正在测试一种可以自我编程的新机器人] RT-2 以类似的前身模型 RT-1 为基础,该模型允许机器通过一系列基本推理来解释新的用户命令。此外,RT-2 还具备与符号理解和人类识别相关的技能,谷歌认为这些技能将使它成为在以人为中心的环境中工作的通用机器人。 [相关:人工智能广阔世界的简单指南] RT-2 还借鉴了视觉语言模型 (VLM) 所做的工作,这些模型曾用于为图像添加字幕、识别帧中的对象或回答有关特定图片的问题。因此,与 SayCan 不同,该模型实际上可以看到周围的世界。但要使 VLM 能够控制机器人,需要在其上添加一个输出操作组件。这是通过在模型中将机器人可以执行的不同操作表示为标记来实现的。这样,模型不仅可以预测某人查询的答案可能是什么,还可以生成最有可能与之相关的操作。 DeepMind 指出,例如,如果一个人说他们累了,想喝点东西,机器人就可以决定给他们拿一杯能量饮料。 |
<<: 3 种方法让笔记本电脑电池续航时间更长——或许一整天
《明日的纳迪亚》:一个关于旅行、梦想和爱的故事《明日的娜嘉》是一部电视动画系列,于 2003 年至 ...
在南极洲的阿特卡湾,数百只帝企鹅挤在冰封的广阔闪闪发光的海洋上。当它们在寒冷的冰原中取暖时,一辆黄色...
对于把昆虫当作宠物饲养的昆虫爱好者来说,这个问题似乎有点愚蠢。有些虫子看起来很有攻击性,有些则很害羞...
大型科技公司 OpenAI 等公司开发的广受欢迎的生成式 AI 模型所采用的底层技术现在也被用于扫描...
青鬼动画 - 青鬼动画概述《青鬼 THE ANIMATION》是一部日本动画电影,于2017年2月1...
外面的天气可能很糟糕,但你呢?你看起来绝对令人愉悦。我们知道你已经有一件夹克来抵御狂风,但它能像你最...
加州空气资源委员会预计将于今日投票通过一项严格的规定,该规定将在 2035 年前禁止销售新的汽油动力...
《城市猎人特辑:紧急直播!?凶犯佐江羽亮的末日》评论与推荐概述《城市猎人特别篇:紧急现场直播!?凶残...
《地藏桑回旋曲》:NHK经典歌曲在动画中复活《地藏圣轮舞》是一部时长两分钟的短篇动画作品,于1981...
阿兰若的虫笼精制版诉求与评价《阿拉妮的昆虫笼》2023 年 5 月 26 日发布精制版》是一部由坂本...
2012 年飓风桑迪带来的灾难性洪水淹没了纽约市地铁系统的部分区域,腐蚀性盐水也给未来带来了警告。现...
自然资源保护委员会 (NRDC) 最近的一项研究登上了头条新闻,该研究显示,家中耗能最大的设备可能不...
在这个温度破纪录、极端天气频发的夏天,人们自然会想,是否有任何地方可以免受人类造成的气候变化的威胁。...
斯特尔特·曼宁是康奈尔树木年轮实验室主任,也是康奈尔大学古典考古学教授。本文最初发表于《对话》。众所...
恐怖季节可能已经全面到来,但送礼节日即将到来。亚马逊 10 月 Prime Day 促销活动是您完成...