谷歌的这款新 AI 工具可能会改变我们在线搜索的方式

谷歌的这款新 AI 工具可能会改变我们在线搜索的方式

互联网搜索的未来是什么样的?谷歌设想它看起来更像是与朋友的随意交谈。

虽然谷歌的搜索引擎已经上线二十多年,但其背后的技术却一直在不断发展。最近,该公司宣布了一款名为 MUM 的新人工智能系统,MUM 代表多任务统一模型。MUM 旨在在全球范围内捕捉人类语言的微妙之处和细微差别,这可以帮助用户更轻松地找到他们要搜索的信息,或者让他们提出更抽象的问题。

谷歌已在一项独立任务中使用 MUM 来了解人们对 COVID 疫苗的不同称呼,但表示这项新技术尚未成为其搜索系统的一部分。虽然目前尚无关于该功能何时在实时搜索中推出的时间表,但该团队正在积极开发其他一次性任务供 MUM 完成。

以下是关于 MUM 的知识、它与之前的有何不同等等。

破解新冠疫苗命名之谜

今年早些时候疫苗上市时,谷歌搜索副总裁潘杜·纳亚克 (Pandu Nayak) 和同事们设计了一种“体验”,当用户搜索新冠疫苗时,它会向人们提供有关疫苗的信息——在哪里可以买到、疫苗如何发挥作用以及疫苗在哪里可以买到。这种体验将所有这些重要且相关的信息拼凑在一起,并将其固定在搜索结果第一页的顶部。但首先,团队需要对其进行编程,以便只有在查询与新冠疫苗有关时才会弹出。这可能会成为一个问题,因为世界各地的人可能以不同的方式和不同的名称来提及新冠疫苗。

去年,该团队花了数百小时梳理资源,以确定 COVID 本身的所有不同名称。但今年,他们有了 MUM。“我们能够使用 MUM 进行一个非常简单的实验,在几秒钟内就能用 50 种不同的语言为 17 种不同的疫苗生成 800 多个名称,”Nayak 说。“我们有很多语言任务需要解决,无论是分类、排名、信息提取还是一大堆其他任务。在短期内,我们希望使用 MUM 来改进每一个任务。这并不是说它会带来新功能或新体验,而是现有功能和现有体验会变得更好。”

在 Google I/O 大会上与 MUM 会面

我们第一次听说 MUM 是在春季的 Google I/O 开发者大会上,当时谷歌高级副总裁 Prabhakar Raghavan 发布了它。

这项新技术是谷歌在过去十年中不断改进和改进的机器学习搜索的自然演变。谷歌宣称,MUM 能够获得对世界的深度了解,理解并生成语言,并同时训练 75 种语言。内部试点也在测试它是否可以实现多模式,即能够同时理解不同形式的信息,如文本、图像和视频。

所有这些复杂性都可以通过会议上和博客文章中列出的一个简单示例来说明。假设你问谷歌,“我已经爬过亚当斯山,现在想在明年秋天爬富士山,我应该做哪些不同的准备?”这是大多数人今天不会费心输入的搜索查询类型,因为用户知道这通常不是你在线搜索信息的方式。

“这是一个你会随便问朋友的问题,但如今的搜索引擎无法直接回答,因为它太具有对话性和微妙性了,”Raghavan 在 I/O 上解释道。但理想情况下,MUM 会明白你想要比较两座山,也会明白“准备”可能包括地形的健身训练和秋季天气的远足装备等。它将能够剖析你的问题并将其分解为一组查询,了解问题的各个方面,然后将其重新组合在一起。用户可以点击以了解有关问题各个方面搜索结果的更多信息,还可以获得解释如何回答原始查询的总体文本。

这样的体验是 MUM 工程师的长期目标,目前尚不清楚实现这一目标需要多长时间。从中期来看,谷歌的工程师正在训练 MUM 识别单词和图像之间的关系,而且进展顺利。纳亚克说,当他们要求 MUM 为他们输入的新文本生成图像时,比如西伯利亚哈士奇,它“表现得相当出色”。

搜索简史

自 1998 年成立以来,Google 一直致力于绘制网络地图、收集大量内容并创建索引来组织所有信息。

您可以将 Google 搜索索引想象成书末的索引。它会告诉您特定单词出现的所有页面。但互联网与书末的索引有两个重要区别。第一,一本书可能有 300 到 1,000 页,与互联网的数万亿页相比,这个数字并不大。第二个重要区别是,使用书末的索引,您每次只能查找一个单词,而在网上,您查找的是单词组合。“由于这种规模和这种组合的爆炸式增长,我们每天从世界各地收到数十亿次查询,”Nayak 说。“而这里值得注意的事实是,我们每天收到的搜索中有 15% 是我们从未见过的。查询流中存在大量新奇内容。”

纳亚克补充道,新颖性的部分原因在于拼写错误的新方式,部分原因在于世界在不断变化,人们要求新的(有时是非常具体的)事物。

为了将所有可能的网络信息精简为真正与您的查询相关的信息,Google 使用一种算法将其认为最有用的页面排在最前面,使用新鲜度和位置等因素,以及不同页面之间的链接方式。“到目前为止,最重要的一类因素与语言理解有关,”Nayak 说。“语言理解确实是搜索的核心,因为您需要了解查询的含义,您需要了解文档的含义,以及这两者如何相互匹配。”

当然,软件无法像我们一样真正理解语言,包括其所有微妙之处和细微差别。但程序员可以开发各种策略,试图接近我们理解语言的方式。就在 16 年前,谷歌建立了同义词系统的第一个版本,该系统解释了不同单词在不同语境中具有不同含义的事实。因此,当你谈论笔记本电脑亮度时,“改变”可以表示“调整”。如果不理解这一点,许多相关页面将因用词变化而被排除在搜索结果之外。

[相关:你的 Google 搜索历史记录需要自己的密码]

大约十年前,该公司创建了知识图谱。其背后的想法是,查询或文档中的单词不仅仅是字符串,如果指代世界上的人、地点或事物,它们也可以具有某种意义。“如果你不理解某个字符串的含义,那么你就没有完全理解这个词的含义,”纳亚克解释道。人、地点、事物、公司等实体被放入数据库,知识图谱将它们之间的关系联系起来。它还会对名人或地标等实体的需要了解的快速事实进行快速总结。

例如,如果您搜索“居里夫人”,Google 的知识图谱可以告诉您她的出生时间和地点、她与谁结婚、她的孩子是谁、她在哪里上的大学以及她以什么闻名。这是一种方便地展示 Google 搜索后显示的页面结果列表之外的信息的方式。

机器学习热度上升

大约六年前,谷歌推出了第一版基于机器学习的搜索。随后,它基于深度学习社区对自然语言算法的不断研究,不断对其进行改进,这些算法可以查看单词的上下文来理解其含义并找出需要关注的上下文部分。2019 年,谷歌推出了用于搜索的 BERT 架构。它的训练算法实际上是一系列“填空”练习。你可以取一个常用短语,屏蔽随机单词,然后让网络预测这些单词是什么。它也被称为掩码语言模型。

[相关:谷歌如何主宰人工智能]

对于“你能在药房为某人取药吗”这样的查询,以前搜索者会得到关于在药房取处方的结果。BERT 明白这不仅是取处方,而且是为其他人(如朋友或家人)取处方。“我们能够显示更相关的结果,因为它发现了问题中一些我们以前无法处理的微妙之处,”Nayak 说。

展望未来,MUM 不仅能够像 BERT 一样理解语言,还能生成语言。相比之下,MUM 比 BERT 大得多,功能也更强大(谷歌表示,它的功能大约是 BERT 的 1,000 倍)。MUM 是在谷歌提供的所有不同语言的公共网络语料库的高质量子集上进行训练的。搜索团队会删除低质量内容、成人内容、露骨内容、仇恨言论,因此 MUM 学习的语言在某种意义上是好的(希望如此)。通过同时对所有语言进行训练,它能够将信息从具有大量数据的语言推广到具有较少数据的语言,从而填补可用于训练的数据较少的空白。

但纳亚克承认,像 MUM 这样的大型语言模型确实存在挑战,团队正在积极努力解决这些问题。“例如,其中一个问题就是偏见。由于这是在网络语料库之外训练的,因此人们担心它是否反映或强化了网络中的偏见,”纳亚克说。纳亚克希望,它是在语料库的高质量子集上训练的,这将消除一些最严重的偏见。谷歌继续使用搜索质量评估员和其他评估流程来检查他们的结果并寻找问题的模式。“它不能解决所有问题,但它是一个重要的缓解措施。”

[相关:每个谷歌应用的隐私设置指南]

MUM 是基于 Google 一直在试验的一系列创新功能而开发的,旨在提高搜索质量。“如今,当人们进行搜索时,他们脑子里不会出现完整的查询。他们带着一些关于生活中发生的事情的广泛意图进行搜索,”Nayak 说。“你必须将这种模糊的需求转化为一个或多个可以发送给 Google 的查询,了解问题的不同方面,然后将它们整合在一起。”

自动完成等功能在一定程度上有助于简化搜索过程,但 MUM 可以开辟一系列新的可能性。“我认为所有搜索工具的真正问题是,”Nayak 说,“因为它们是工具,即使它不完美,它有用吗?”

<<:  这款尖端无人机即将退役,成为空军博物馆的常客

>>:  一支有翼水下机器人舰队将为美国海军巡逻海洋

推荐阅读

《跪求》的评价及推荐点

“我跪下问”——深入评论,信息全面概述《我跪下也试着询问了》是根据船津和树的原作漫画改编的电视动画。...

真菌和合成生物学如何拯救火星上的宇航员

几年前,克莱·王带着孩子们去加州航天中心参观航天飞机。但当他抬头看着奋进号并思考人类太空探索时,这位...

科学家呼吁暂停新的深海采矿项目

今天《科学》杂志发表的一篇政策文件要求当局暂缓批准任何水下采矿合同,直到实施更多的环境控制措施。这份...

《我爱上了我的妹妹》:全面回顾令人感动的禁忌爱情故事

“我爱上了我的妹妹”:一部感人的 OVA,描绘了一段禁忌之恋■作品概要《我爱上我的妹妹了》是改编自青...

让我们看看谷歌发布 Pixel 2、Home Mini 和其他产品

目前 YouTube 上还没有直播重播,但请继续阅读,了解 Google 的所有新设备。其中一些是粉...

暴风雨造成的洪水具有破坏性,但简陋的雨水花园可以提供帮助

全球部分地区开始遭遇比预期更猛烈的暴雨。本月初,美国东北部多座城市遭遇洪水,纽约市的地铁站被完全淹没...

中国濒危动物“魔兔”20年来首次被拍到

在中国偏远的西北地区,天山的悬崖为伊犁鼠兔提供了最后的庇护所。伊犁鼠兔是一种体型较小的兔子亲戚,其栖...

啊哈! 《名作君》第 1 季 - 重新发现杰作魅力的动人评论

《啊哈!名作君》第一季的魅力与评价《啊哈!名作君》是一部于 2016 年 4 月 8 日起在 NHK...

UE 的新款耳机使用应用程序和 LED 来实现真正的定制贴合

多年来,Ultimate Ears 一直提供高端入耳式耳机(称为监听器),这些耳机通过超舒适的定制安...

16 种富含蛋白质的蔬菜菜肴助你度过肉类短缺

保护好你的大腿、肩膀和胸部:鸡肉、猪肉和牛肉短缺可能很快就会袭击你的杂货店——这是有原因的。从爱荷华...

《冰冻》评论:精彩的战斗和深刻的故事

冰冻-战斗学校与青春的轨迹《冰冻先生》是改编自林多英、金光铉创作的漫画的电视动画,于2011年1月8...

未来 GPX Cyber​​ Formula SIN:全面回顾比赛的刺激和角色发展

未来 GPX Cyber​​​​ Formula SIN - 未来大奖赛 Cyber​​​​ For...

OVA《Tamayura ~Moaggressive~》的魅力与评价

OVA《Tamayura ~Moaggressive~》的魅力与感想OVA《Tamayura: Mo...

我感受到了Yutori酱的进化!彻底评估 Dankai 的简短评论

“Yutori-chan 团长一句评论集”:描写 Yutori 世代现实的 OVA 的魅力《Yuto...

忍者一平:透彻解析隐身技与冒险的魅力

《忍者一平》:怀旧忍者动画的魅力和完整故事1982年,动画片《忍者一平》在儿童中引起巨大轰动。该作品...