谷歌的这款新 AI 工具可能会改变我们在线搜索的方式

谷歌的这款新 AI 工具可能会改变我们在线搜索的方式

互联网搜索的未来是什么样的?谷歌设想它看起来更像是与朋友的随意交谈。

虽然谷歌的搜索引擎已经上线二十多年,但其背后的技术却一直在不断发展。最近,该公司宣布了一款名为 MUM 的新人工智能系统,MUM 代表多任务统一模型。MUM 旨在在全球范围内捕捉人类语言的微妙之处和细微差别,这可以帮助用户更轻松地找到他们要搜索的信息,或者让他们提出更抽象的问题。

谷歌已在一项独立任务中使用 MUM 来了解人们对 COVID 疫苗的不同称呼,但表示这项新技术尚未成为其搜索系统的一部分。虽然目前尚无关于该功能何时在实时搜索中推出的时间表,但该团队正在积极开发其他一次性任务供 MUM 完成。

以下是关于 MUM 的知识、它与之前的有何不同等等。

破解新冠疫苗命名之谜

今年早些时候疫苗上市时,谷歌搜索副总裁潘杜·纳亚克 (Pandu Nayak) 和同事们设计了一种“体验”,当用户搜索新冠疫苗时,它会向人们提供有关疫苗的信息——在哪里可以买到、疫苗如何发挥作用以及疫苗在哪里可以买到。这种体验将所有这些重要且相关的信息拼凑在一起,并将其固定在搜索结果第一页的顶部。但首先,团队需要对其进行编程,以便只有在查询与新冠疫苗有关时才会弹出。这可能会成为一个问题,因为世界各地的人可能以不同的方式和不同的名称来提及新冠疫苗。

去年,该团队花了数百小时梳理资源,以确定 COVID 本身的所有不同名称。但今年,他们有了 MUM。“我们能够使用 MUM 进行一个非常简单的实验,在几秒钟内就能用 50 种不同的语言为 17 种不同的疫苗生成 800 多个名称,”Nayak 说。“我们有很多语言任务需要解决,无论是分类、排名、信息提取还是一大堆其他任务。在短期内,我们希望使用 MUM 来改进每一个任务。这并不是说它会带来新功能或新体验,而是现有功能和现有体验会变得更好。”

在 Google I/O 大会上与 MUM 会面

我们第一次听说 MUM 是在春季的 Google I/O 开发者大会上,当时谷歌高级副总裁 Prabhakar Raghavan 发布了它。

这项新技术是谷歌在过去十年中不断改进和改进的机器学习搜索的自然演变。谷歌宣称,MUM 能够获得对世界的深度了解,理解并生成语言,并同时训练 75 种语言。内部试点也在测试它是否可以实现多模式,即能够同时理解不同形式的信息,如文本、图像和视频。

所有这些复杂性都可以通过会议上和博客文章中列出的一个简单示例来说明。假设你问谷歌,“我已经爬过亚当斯山,现在想在明年秋天爬富士山,我应该做哪些不同的准备?”这是大多数人今天不会费心输入的搜索查询类型,因为用户知道这通常不是你在线搜索信息的方式。

“这是一个你会随便问朋友的问题,但如今的搜索引擎无法直接回答,因为它太具有对话性和微妙性了,”Raghavan 在 I/O 上解释道。但理想情况下,MUM 会明白你想要比较两座山,也会明白“准备”可能包括地形的健身训练和秋季天气的远足装备等。它将能够剖析你的问题并将其分解为一组查询,了解问题的各个方面,然后将其重新组合在一起。用户可以点击以了解有关问题各个方面搜索结果的更多信息,还可以获得解释如何回答原始查询的总体文本。

这样的体验是 MUM 工程师的长期目标,目前尚不清楚实现这一目标需要多长时间。从中期来看,谷歌的工程师正在训练 MUM 识别单词和图像之间的关系,而且进展顺利。纳亚克说,当他们要求 MUM 为他们输入的新文本生成图像时,比如西伯利亚哈士奇,它“表现得相当出色”。

搜索简史

自 1998 年成立以来,Google 一直致力于绘制网络地图、收集大量内容并创建索引来组织所有信息。

您可以将 Google 搜索索引想象成书末的索引。它会告诉您特定单词出现的所有页面。但互联网与书末的索引有两个重要区别。第一,一本书可能有 300 到 1,000 页,与互联网的数万亿页相比,这个数字并不大。第二个重要区别是,使用书末的索引,您每次只能查找一个单词,而在网上,您查找的是单词组合。“由于这种规模和这种组合的爆炸式增长,我们每天从世界各地收到数十亿次查询,”Nayak 说。“而这里值得注意的事实是,我们每天收到的搜索中有 15% 是我们从未见过的。查询流中存在大量新奇内容。”

纳亚克补充道,新颖性的部分原因在于拼写错误的新方式,部分原因在于世界在不断变化,人们要求新的(有时是非常具体的)事物。

为了将所有可能的网络信息精简为真正与您的查询相关的信息,Google 使用一种算法将其认为最有用的页面排在最前面,使用新鲜度和位置等因素,以及不同页面之间的链接方式。“到目前为止,最重要的一类因素与语言理解有关,”Nayak 说。“语言理解确实是搜索的核心,因为您需要了解查询的含义,您需要了解文档的含义,以及这两者如何相互匹配。”

当然,软件无法像我们一样真正理解语言,包括其所有微妙之处和细微差别。但程序员可以开发各种策略,试图接近我们理解语言的方式。就在 16 年前,谷歌建立了同义词系统的第一个版本,该系统解释了不同单词在不同语境中具有不同含义的事实。因此,当你谈论笔记本电脑亮度时,“改变”可以表示“调整”。如果不理解这一点,许多相关页面将因用词变化而被排除在搜索结果之外。

[相关:你的 Google 搜索历史记录需要自己的密码]

大约十年前,该公司创建了知识图谱。其背后的想法是,查询或文档中的单词不仅仅是字符串,如果指代世界上的人、地点或事物,它们也可以具有某种意义。“如果你不理解某个字符串的含义,那么你就没有完全理解这个词的含义,”纳亚克解释道。人、地点、事物、公司等实体被放入数据库,知识图谱将它们之间的关系联系起来。它还会对名人或地标等实体的需要了解的快速事实进行快速总结。

例如,如果您搜索“居里夫人”,Google 的知识图谱可以告诉您她的出生时间和地点、她与谁结婚、她的孩子是谁、她在哪里上的大学以及她以什么闻名。这是一种方便地展示 Google 搜索后显示的页面结果列表之外的信息的方式。

机器学习热度上升

大约六年前,谷歌推出了第一版基于机器学习的搜索。随后,它基于深度学习社区对自然语言算法的不断研究,不断对其进行改进,这些算法可以查看单词的上下文来理解其含义并找出需要关注的上下文部分。2019 年,谷歌推出了用于搜索的 BERT 架构。它的训练算法实际上是一系列“填空”练习。你可以取一个常用短语,屏蔽随机单词,然后让网络预测这些单词是什么。它也被称为掩码语言模型。

[相关:谷歌如何主宰人工智能]

对于“你能在药房为某人取药吗”这样的查询,以前搜索者会得到关于在药房取处方的结果。BERT 明白这不仅是取处方,而且是为其他人(如朋友或家人)取处方。“我们能够显示更相关的结果,因为它发现了问题中一些我们以前无法处理的微妙之处,”Nayak 说。

展望未来,MUM 不仅能够像 BERT 一样理解语言,还能生成语言。相比之下,MUM 比 BERT 大得多,功能也更强大(谷歌表示,它的功能大约是 BERT 的 1,000 倍)。MUM 是在谷歌提供的所有不同语言的公共网络语料库的高质量子集上进行训练的。搜索团队会删除低质量内容、成人内容、露骨内容、仇恨言论,因此 MUM 学习的语言在某种意义上是好的(希望如此)。通过同时对所有语言进行训练,它能够将信息从具有大量数据的语言推广到具有较少数据的语言,从而填补可用于训练的数据较少的空白。

但纳亚克承认,像 MUM 这样的大型语言模型确实存在挑战,团队正在积极努力解决这些问题。“例如,其中一个问题就是偏见。由于这是在网络语料库之外训练的,因此人们担心它是否反映或强化了网络中的偏见,”纳亚克说。纳亚克希望,它是在语料库的高质量子集上训练的,这将消除一些最严重的偏见。谷歌继续使用搜索质量评估员和其他评估流程来检查他们的结果并寻找问题的模式。“它不能解决所有问题,但它是一个重要的缓解措施。”

[相关:每个谷歌应用的隐私设置指南]

MUM 是基于 Google 一直在试验的一系列创新功能而开发的,旨在提高搜索质量。“如今,当人们进行搜索时,他们脑子里不会出现完整的查询。他们带着一些关于生活中发生的事情的广泛意图进行搜索,”Nayak 说。“你必须将这种模糊的需求转化为一个或多个可以发送给 Google 的查询,了解问题的不同方面,然后将它们整合在一起。”

自动完成等功能在一定程度上有助于简化搜索过程,但 MUM 可以开辟一系列新的可能性。“我认为所有搜索工具的真正问题是,”Nayak 说,“因为它们是工具,即使它不完美,它有用吗?”

<<:  这款尖端无人机即将退役,成为空军博物馆的常客

>>:  一支有翼水下机器人舰队将为美国海军巡逻海洋

推荐阅读

为什么本周有这么多钻石成为科学头条新闻

本周,钻石频频出现在新闻中,但这并不是因为名人订婚的消息。相反,钻石里面的东西才是最重要的。在《科学...

对于酒类行业来说,绿色环保事关生存

罗伯托·塞拉莱斯是第六代朗姆酒酿酒师,这意味着他也是第六代废物回收者。当塞拉莱斯的家人第一次在波多黎...

《青蛙与狐狸》的魅力与评价:独特的故事情节和对人物的深入探究

《青蛙与狐狸》:日本动画的历史杰作■作品概要《青蛙与狐狸》是一部 1949 年上映的日本动画电影。这...

椭圆星系可能只是臂被割断的螺旋星系

螺旋星系的弯曲臂由数十亿颗恒星组成,为人们提供了一些美丽的宇宙图像。我们自己的银河系是一个螺旋星系,...

全面回顾《大家的歌:一首值得记住的歌》!感受动人的歌词和旋律

每个人都记得的一首歌- 一歌之歌概述《有一件事要记住》是一部时长只有两分钟的短篇动画电影,于 197...

这款锂离子电池在极寒天气下仍能持续运行

很少有近期发明能比不起眼的锂离子电池更能证明其价值。锂离子电池问世至今只有 30 年,但它却为全世界...

垃圾场出土 3 辆极其稀有的兰博基尼 Miura。售价可达数百万美元。

兰博基尼 Miura 的传奇是不可否认的。作为费鲁吉欧·兰博基尼(当时是一家成功的拖拉机、供暖设备和...

两场流星雨和一颗明亮的水星照亮十二月的天空

12 月 4 日最大伸长时的汞12月11日或12日小行星利奥娜 (Leona) 从参宿四前方经过12...

战术评论:引人入胜的故事和深刻的人物

《战术》:讲述怪物与人类之间羁绊的精彩故事■作品概要《战术》是2004年10月6日至2005年3月3...

移民大山雀向新邻居学习

一种狡猾的鸟类可能是非人类动物社会学习的最新例子。在对大山雀 ( Parus major ) 进行的...

樱桃小丸子第二季的魅力与评价:怀旧与新鲜的融合

《樱桃小丸子》第二季的魅力与全貌《樱桃小丸子》是改编自樱花桃子的人气漫画的电视动画,此次我们将详细介...

苹果 iPhone SE(2022 年)评测

在 2022 年 3 月 8 日举行的新闻发布会上,苹果宣布了下一代苹果 iPhone SE。从设计...

凯杰佐罗里的可怕新娘攻略!! - 系列最新作品的魅力与评价

凯杰佐罗里的可怕新娘攻略!! - 详细评论和推荐概述“不可思议的佐罗里的恐怖新娘计划!!”是根据原丰...

你想看点疯狂的吗?查看 Facebook 上针对你投放的所有广告。

拿起手机,打开 Facebook 应用(假设您是 Facebook 用户,当然您是)。转到“设置”&...

詹姆斯·韦伯太空望远镜即将让我们大吃一惊

詹姆斯·韦伯太空望远镜 (JWST) 航行至距地球 100 多万英里之外,现在距离开始科学运行仅剩两...