互联网搜索的未来是什么样的?谷歌设想它看起来更像是与朋友的随意交谈。 虽然谷歌的搜索引擎已经上线二十多年,但其背后的技术却一直在不断发展。最近,该公司宣布了一款名为 MUM 的新人工智能系统,MUM 代表多任务统一模型。MUM 旨在在全球范围内捕捉人类语言的微妙之处和细微差别,这可以帮助用户更轻松地找到他们要搜索的信息,或者让他们提出更抽象的问题。 谷歌已在一项独立任务中使用 MUM 来了解人们对 COVID 疫苗的不同称呼,但表示这项新技术尚未成为其搜索系统的一部分。虽然目前尚无关于该功能何时在实时搜索中推出的时间表,但该团队正在积极开发其他一次性任务供 MUM 完成。 以下是关于 MUM 的知识、它与之前的有何不同等等。 破解新冠疫苗命名之谜今年早些时候疫苗上市时,谷歌搜索副总裁潘杜·纳亚克 (Pandu Nayak) 和同事们设计了一种“体验”,当用户搜索新冠疫苗时,它会向人们提供有关疫苗的信息——在哪里可以买到、疫苗如何发挥作用以及疫苗在哪里可以买到。这种体验将所有这些重要且相关的信息拼凑在一起,并将其固定在搜索结果第一页的顶部。但首先,团队需要对其进行编程,以便只有在查询与新冠疫苗有关时才会弹出。这可能会成为一个问题,因为世界各地的人可能以不同的方式和不同的名称来提及新冠疫苗。 去年,该团队花了数百小时梳理资源,以确定 COVID 本身的所有不同名称。但今年,他们有了 MUM。“我们能够使用 MUM 进行一个非常简单的实验,在几秒钟内就能用 50 种不同的语言为 17 种不同的疫苗生成 800 多个名称,”Nayak 说。“我们有很多语言任务需要解决,无论是分类、排名、信息提取还是一大堆其他任务。在短期内,我们希望使用 MUM 来改进每一个任务。这并不是说它会带来新功能或新体验,而是现有功能和现有体验会变得更好。” 在 Google I/O 大会上与 MUM 会面我们第一次听说 MUM 是在春季的 Google I/O 开发者大会上,当时谷歌高级副总裁 Prabhakar Raghavan 发布了它。 这项新技术是谷歌在过去十年中不断改进和改进的机器学习搜索的自然演变。谷歌宣称,MUM 能够获得对世界的深度了解,理解并生成语言,并同时训练 75 种语言。内部试点也在测试它是否可以实现多模式,即能够同时理解不同形式的信息,如文本、图像和视频。 所有这些复杂性都可以通过会议上和博客文章中列出的一个简单示例来说明。假设你问谷歌,“我已经爬过亚当斯山,现在想在明年秋天爬富士山,我应该做哪些不同的准备?”这是大多数人今天不会费心输入的搜索查询类型,因为用户知道这通常不是你在线搜索信息的方式。 “这是一个你会随便问朋友的问题,但如今的搜索引擎无法直接回答,因为它太具有对话性和微妙性了,”Raghavan 在 I/O 上解释道。但理想情况下,MUM 会明白你想要比较两座山,也会明白“准备”可能包括地形的健身训练和秋季天气的远足装备等。它将能够剖析你的问题并将其分解为一组查询,了解问题的各个方面,然后将其重新组合在一起。用户可以点击以了解有关问题各个方面搜索结果的更多信息,还可以获得解释如何回答原始查询的总体文本。 这样的体验是 MUM 工程师的长期目标,目前尚不清楚实现这一目标需要多长时间。从中期来看,谷歌的工程师正在训练 MUM 识别单词和图像之间的关系,而且进展顺利。纳亚克说,当他们要求 MUM 为他们输入的新文本生成图像时,比如西伯利亚哈士奇,它“表现得相当出色”。 搜索简史自 1998 年成立以来,Google 一直致力于绘制网络地图、收集大量内容并创建索引来组织所有信息。 您可以将 Google 搜索索引想象成书末的索引。它会告诉您特定单词出现的所有页面。但互联网与书末的索引有两个重要区别。第一,一本书可能有 300 到 1,000 页,与互联网的数万亿页相比,这个数字并不大。第二个重要区别是,使用书末的索引,您每次只能查找一个单词,而在网上,您查找的是单词组合。“由于这种规模和这种组合的爆炸式增长,我们每天从世界各地收到数十亿次查询,”Nayak 说。“而这里值得注意的事实是,我们每天收到的搜索中有 15% 是我们从未见过的。查询流中存在大量新奇内容。” 纳亚克补充道,新颖性的部分原因在于拼写错误的新方式,部分原因在于世界在不断变化,人们要求新的(有时是非常具体的)事物。 为了将所有可能的网络信息精简为真正与您的查询相关的信息,Google 使用一种算法将其认为最有用的页面排在最前面,使用新鲜度和位置等因素,以及不同页面之间的链接方式。“到目前为止,最重要的一类因素与语言理解有关,”Nayak 说。“语言理解确实是搜索的核心,因为您需要了解查询的含义,您需要了解文档的含义,以及这两者如何相互匹配。” 当然,软件无法像我们一样真正理解语言,包括其所有微妙之处和细微差别。但程序员可以开发各种策略,试图接近我们理解语言的方式。就在 16 年前,谷歌建立了同义词系统的第一个版本,该系统解释了不同单词在不同语境中具有不同含义的事实。因此,当你谈论笔记本电脑亮度时,“改变”可以表示“调整”。如果不理解这一点,许多相关页面将因用词变化而被排除在搜索结果之外。 [相关:你的 Google 搜索历史记录需要自己的密码] 大约十年前,该公司创建了知识图谱。其背后的想法是,查询或文档中的单词不仅仅是字符串,如果指代世界上的人、地点或事物,它们也可以具有某种意义。“如果你不理解某个字符串的含义,那么你就没有完全理解这个词的含义,”纳亚克解释道。人、地点、事物、公司等实体被放入数据库,知识图谱将它们之间的关系联系起来。它还会对名人或地标等实体的需要了解的快速事实进行快速总结。 例如,如果您搜索“居里夫人”,Google 的知识图谱可以告诉您她的出生时间和地点、她与谁结婚、她的孩子是谁、她在哪里上的大学以及她以什么闻名。这是一种方便地展示 Google 搜索后显示的页面结果列表之外的信息的方式。 机器学习热度上升大约六年前,谷歌推出了第一版基于机器学习的搜索。随后,它基于深度学习社区对自然语言算法的不断研究,不断对其进行改进,这些算法可以查看单词的上下文来理解其含义并找出需要关注的上下文部分。2019 年,谷歌推出了用于搜索的 BERT 架构。它的训练算法实际上是一系列“填空”练习。你可以取一个常用短语,屏蔽随机单词,然后让网络预测这些单词是什么。它也被称为掩码语言模型。 [相关:谷歌如何主宰人工智能] 对于“你能在药房为某人取药吗”这样的查询,以前搜索者会得到关于在药房取处方的结果。BERT 明白这不仅是取处方,而且是为其他人(如朋友或家人)取处方。“我们能够显示更相关的结果,因为它发现了问题中一些我们以前无法处理的微妙之处,”Nayak 说。 展望未来,MUM 不仅能够像 BERT 一样理解语言,还能生成语言。相比之下,MUM 比 BERT 大得多,功能也更强大(谷歌表示,它的功能大约是 BERT 的 1,000 倍)。MUM 是在谷歌提供的所有不同语言的公共网络语料库的高质量子集上进行训练的。搜索团队会删除低质量内容、成人内容、露骨内容、仇恨言论,因此 MUM 学习的语言在某种意义上是好的(希望如此)。通过同时对所有语言进行训练,它能够将信息从具有大量数据的语言推广到具有较少数据的语言,从而填补可用于训练的数据较少的空白。 但纳亚克承认,像 MUM 这样的大型语言模型确实存在挑战,团队正在积极努力解决这些问题。“例如,其中一个问题就是偏见。由于这是在网络语料库之外训练的,因此人们担心它是否反映或强化了网络中的偏见,”纳亚克说。纳亚克希望,它是在语料库的高质量子集上训练的,这将消除一些最严重的偏见。谷歌继续使用搜索质量评估员和其他评估流程来检查他们的结果并寻找问题的模式。“它不能解决所有问题,但它是一个重要的缓解措施。” [相关:每个谷歌应用的隐私设置指南] MUM 是基于 Google 一直在试验的一系列创新功能而开发的,旨在提高搜索质量。“如今,当人们进行搜索时,他们脑子里不会出现完整的查询。他们带着一些关于生活中发生的事情的广泛意图进行搜索,”Nayak 说。“你必须将这种模糊的需求转化为一个或多个可以发送给 Google 的查询,了解问题的不同方面,然后将它们整合在一起。” 自动完成等功能在一定程度上有助于简化搜索过程,但 MUM 可以开辟一系列新的可能性。“我认为所有搜索工具的真正问题是,”Nayak 说,“因为它们是工具,即使它不完美,它有用吗?” |
河流通常需要数千年才能冲破基岩。伐木工加快了这一过程。存款照片人类无需付出太多努力就能使大气变暖,使...
火星马戏团 - Caseino Circusdan 《火星马戏团》是 1985 年 10 月在 NH...
引人注目。充满活力。令人眼花缭乱。用来描述我们宇宙的形容词几乎是无穷无尽的。而今年天文摄影奖年度摄影...
美国企业正在做出一种新的气候承诺。近几个月来,多家科技巨头承诺利用其影响力和资源加入水资源保护的斗争...
最早在明年,如果你是少数幸运儿之一,你就会发现自己被绑在一枚载有六名乘客的火箭上,距离地球表面约 5...
互联网上时不时会出现一些很酷的 DIY 项目,我们不得不分享它,尤其是那些我们可能建议您不要在家尝试...
如果你漫步在纳米布沙漠,发现大片草地上布满了光秃秃的圆圈,你可能会认为这是超自然现象。就像你可能会认...
这个故事最初刊登在《田野与溪流》杂志上。读完文章后,可以查看完整的照片集。 15 年前,詹姆斯“大吉...
谷歌眼镜存在的问题有很多,其中之一就是缺乏时尚感。不经常戴眼镜的人会觉得它很笨重,而经常戴眼镜的人可...
一起制作古龙水吧-大家的歌曲杰作动漫1969年12月在NHK教育电视台(现NHK E-Tele)播出...
在当今这个充斥着公开个人资料和不断跟踪的在线活动的社交时代,人们很容易忘记,但互联网的某些部分仍然提...
Lumia 是一款我非常希望能够喜欢的手机。每部诺基亚手机都肩负着如此重担:诺基亚这家传奇公司基本上...
雄伟的座头鲸、壮丽的海岸线和珊瑚礁生态系统在美国国家海洋和大气管理局和国家海洋保护区基金会举办的“走...
Joby Aviation 希望有一天能让你乘坐电动出租车翱翔天空。该公司的飞机配备了六个螺旋桨,每...
《阿松》第一季综合评论与推荐概述《阿松》是改编自赤塚不二雄的漫画《阿松君》的电视动画,于 2015 ...