Google I/O 大会回顾:所有酷炫的人工智能项目正在筹备中

Google I/O 大会回顾:所有酷炫的人工智能项目正在筹备中

谷歌今天举行了年度 I/O 开发者大会,发布了新款 Pixel 手机、圆形 Pixel Watch 等硬件,甚至还预告了一款可在增强现实中显示实时语言翻译的未来派眼镜。他们还展示了一些新功能,比如即将在 Google Docs 中推出的汇总选项(可以将其视为 AI 生成的 TL;DR)以及一款还可以存放数字身份证或疫苗卡的 Wallet 应用。

值得注意的是,这家科技巨头还强调了人工智能如何帮助他们在其一系列服务和应用中构建新功能,包括翻译、搜索、地图等。以下是用户即将推出以及未来将要推出的更新。

翻译

谷歌在语言模型方面的工作使其能够扩展其翻译能力。谷歌表示,它将为谷歌翻译添加 24 种新语言,包括博杰普尔语、林加拉语和克丘亚语。除了这些新语言之外,谷歌还发表了一项研究,介绍他们打算如何使用高质量的单语数据集为没有大量翻译数据集的语言构建机器翻译系统。他们将这种技术称为零样本机器翻译。

[相关:谷歌的这款新 AI 工具可能会改变我们在线搜索的方式]

这种技术无需全面的传统翻译词典即可进行翻译。据一篇博客称,为了做到这一点,他们训练了一个语言模型,以“使用 MASS 任务直接从单语文本中学习资源不足的语言的表示”,其中解决这些任务需要模型建立“相关语言的复杂表示,发展对句子中单词与其他单词之间关系的复杂理解。”

除了用于为视频创建文本转录的语音识别模型外,谷歌还在 YouTube 上推出了 16 种语言的自动翻译字幕。该功能将于下个月在乌克兰语内容中推出,旨在增加人们对战争准确信息的获取。

过去几年,谷歌搜索推出了各种不同的工具,让人们能够以不同的方式更轻松地找到自己想要的内容,包括语音搜索、哼唱搜索、Google Lens,以及最近的多模式搜索,该功能允许用户在查询中将照片与文本提示相结合。多模式技术还使用文本、音频和视频在 YouTube 视频中创建自动生成的“章节”。

[相关:谷歌正在对其健康信息服务方式进行重大更新]

今天,谷歌推出了一项名为“我附近”搜索的功能。具体操作如下:在谷歌应用中,用户可以拍照或上传截图,并添加文字“我附近”,以查找可能拥有他们想要的服装、商品或食物的当地零售商和餐馆。例如,如果您正在修理坏了的水龙头,您可以拍下故障部件的照片,然后在附近的五金店找到它。

再举一个例子,如果你在网上看到一道看起来很美味的菜,想尝尝,你可以拍下它的照片,然后谷歌就可以告诉你这道菜是什么,并向你推荐提供这道菜外卖的高评价当地餐馆。谷歌搜索体验负责人尼克·贝尔在新闻发布会上解释说,谷歌多重搜索将“了解这道菜的复杂性,将它与你的意图、你正在寻找当地餐馆的事实结合起来,然后它会扫描地图上的数百万张图片、评论和社区贡献,找到附近的当地餐馆。”通过多重搜索提供的本地信息将于今年晚些时候以英语在全球范围内提供,并随着时间的推移推出更多语言版本。

[相关:谷歌即将更好地理解复杂问题]

谷歌透露了目前正在开发的另一项功能,称为“场景内搜索”或“场景探索”。通常,谷歌搜索适用于单帧捕获的对象,但场景探索将允许用户平移相机并立即了解相机视野内的多个对象。想象一下,你在一家书店,使用此功能,你将能够看到你面前的书上叠加的信息。“为了实现这一点,我们将计算机视觉、自然语言理解结合在一起,并将其与网络和设备技术的知识结合起来,”贝尔说。

地图

谷歌地图副总裁 Miriam Daniel 在 I/O 前的新闻发布会上表示,谷歌地图于 2005 年推出时只是一款简单的导航应用,但在过去几年中,它一直在努力“重新定义地图”。这些功能包括添加省油路线信息(目前在美国和加拿大推出,今年晚些时候将扩展到欧洲)、目的地繁忙程度以及餐厅备注(例如是否有户外座位)。

此外,谷歌在 3D 地图和计算机视觉方面的工作使他们能够通过融合数十亿张官方收集和用户生成的图像,为街景和航拍图像增添更多深度和真实感。地图中的“沉浸式视图”不再使用代表建筑物的不同高度的灰色块,而是向您展示大本钟等地标的详细建筑,以及通过“时间滑块”在一天中不同时间的样子。地图还将汇总有关天气和交通状况的信息,让您了解该地方将会是什么样子。用户还可以滑行到街道层面,在那里他们可以虚拟地进入餐厅或其他空间,在决定去之前先了解一下那里的感觉。此功能将在智能手机和其他设备上提供。

[相关:谷歌地图已暂时禁用乌克兰的主要功能]

沉浸式视图计划于今年年底在洛杉矶、伦敦、纽约、旧金山和东京的地标、街区、餐厅、热门场所和地方推出,并且很快将覆盖更多城市。

Google Maps 团队宣布,他们还将向第三方开发者发布基于 Live View 技术的 ARCore Geospatial API。Live View 和相应的全球定位软件已在 AR 中用于叠加现实世界中的箭头和方向,可以通过实时摄像头流查看。开放此 API 可以让开发者将这项技术集成到自己的应用中。Daniel 指出,一些早期开发者已经找到了应用这项技术的不同方法。例如,微型移动公司 Lime 已使用此 API 帮助伦敦、巴黎、特拉维夫、马德里、圣地亚哥和波尔多的通勤者为他们的电动滑板车和电动自行车找到停车位。

助手

谷歌的一个重点研究领域是自然语言处理,即如何让机器理解人类语音的细微差别和不完美之处(其中充满了“嗯”和停顿)并进行对话。他们的一些发现有助于改善谷歌助手。“我们真正专注于人工智能模型,我们意识到我们需要 16 种不同的机器学习模型来处理超过 100 个信号,”谷歌语音产品经理 Nino Tasca 在新闻发布会上表示。“这包括距离、头部方向、凝视检测,甚至用户使用短语的意图,只是为了了解他们是否真的在与谷歌助手交谈。”

今天,谷歌在其 Nest Hub Max 设备上推出了一项名为“Look and Talk”的功能。如果用户选择加入,他们只需看一眼设备即可激活 Google Assistant 来聆听他们想要的内容,而无需说“嘿,谷歌”。此功能使用 Face Match 和 Voice Match 技术来识别说话者,并且这些互动的视频会在设备上进行处理(例如使用 Tensor 芯片)。“Look and Talk”将于本周在 Android 上推出,并很快在 iOS 设备上推出。

请观看以下完整主题演讲:

<<:  一个加密货币组织命名了一种新的青蛙物种,但人们并不兴奋

>>:  马克·扎克伯格刚刚展示了 Meta 的下一代混合现实设备

推荐阅读

对于酒类行业来说,绿色环保事关生存

罗伯托·塞拉莱斯是第六代朗姆酒酿酒师,这意味着他也是第六代废物回收者。当塞拉莱斯的家人第一次在波多黎...

我们可以植树来拯救地球。但这比听起来要难。

目前有很多高科技方案可以避免气候灾难:吸收碳并将其储存在地下、乘坐飞行出租车拼车上班,甚至将甲烷转化...

通过跟踪文档中的更改来证明你的写作不是由人工智能生成的

ChatGPT 和 Google Bard 等人工智能聊天机器人现在已经达到了可以撰写电子邮件、论文...

购买这些翻新 Apple 设备和配件可节省高达 62%

全球芯片短缺、全球供应链持续存在问题以及更健康的支票账户——这些只是考虑购买翻新设备的部分原因。与普...

如何拍摄黑洞的照片

对于可能根本不存在的东西,黑洞为现代物理学做出了巨大贡献。这些致密质量区域(密度如此之高,甚至连光都...

雄性烟青虫蛾如何找到它们完美的古龙水

许多植物和动物会不惜一切代价来繁殖,从“僚机”海豚到嗅尿的长颈鹿,再到诱骗苍蝇为它们授粉的雏菊。现在...

未来队长:宇宙冒险的魅力与评价

未来队长:宇宙冒险与英雄的诞生1979年3月17日,由东映发行、东映动画制作的动画电影《未来队长》上...

软件以前所未有的准确度预测 70 年后儿童的面貌

看看一个五岁以下的孩子,很难想象他 70 年后会是什么样子。但这款新软件可以做到这一点。看看这一系列...

AMON-恶魔人启示录:彻底剖析来自深渊的恐怖与美学

《AMON - Devilman Apocalypse》:深化永井豪世界观的独特 OVA ■ 公共媒...

Genbanojo Genbanojo - 深入评论和建议点

“Genbanojo”的吸引力和评价《玄彬之女》是日本动画于2017年制作的一部短篇动画电影。该作品...

宝可梦水晶雷公的雷之传说 - 评论与推荐

宝可梦水晶雷公:雷之传说 - 深度评测和全方位指南■ 公共媒体电视特别节目■ 原创媒体游戏■ 播出时...

完成这些谜题即可赢得保证金

好消息是:汽油价格正在下降,预计在可预见的未来还会继续下跌。坏消息是:通货膨胀仍不会缓解,商品和服务...

烤焦的面包表明我们的祖先在农业出现前 4000 年就开始烘焙

圆形石壁炉里燃着火,有人把一些食物扔了进去——十字花科蔬菜、豆类、瞪羚肉和一块扁面包。饭后剩下的食物...

工作原理:可搭载三辆坦克的两栖车辆

朝鲜战争期间,美国海军陆战队在仁川登陆时,不得不放弃两栖车辆,徒步穿越潮汐泥滩。如今,海军使用功能更...

县防卫队:追溯青春与战斗轨迹的感人回顾

《宪立地球防卫军》:闹剧科幻的魅力及其背景《县立地球防卫队》于 1986 年 4 月 1 日作为 O...