微软的机器学习如何打破全球语言障碍

微软的机器学习如何打破全球语言障碍

本周早些时候,大约 50,000 名 Skype 用户发现了一种通过基于网络的电话和视频通话平台进行交流的新方式,这一功能简直就像是直接从《星际迷航》中借鉴过来的。这项名为 Skype Translator 的新功能可以实时翻译不同语言之间的语音通话,即时将英语翻译成西班牙语,再将西班牙语翻译回英语。Skype 计划逐步增加对 40 多种语言的支持,承诺将为台式机和移动设备提供通用翻译器。

Skype Translator 是微软研究院十多年专注研发的成果(微软于 2011 年收购了 Skype),它做到了其他几家硅谷巨头(更不用说美国国防部)尚未做到的事情。为了做到这一点,微软研究院 (MSR) 必须解决一些主要的机器学习问题,同时将深度神经网络等技术推向新领域。

他们的崇高目标是:让地球上的每个人都能与地球上的其他人进行交流

他们的崇高目标是:让地球上的任何人都能不受语言障碍的干扰地相互交流。Skype 公司副总裁 Gurdeep Pall 表示:“Skype 一直致力于打破障碍。我们认为,有了 Skype Translator,我们将能够填补长期以来存在的空白,实际上自人类交流开始以来就一直存在空白。”

微软与机器翻译有着长期的机构关系,这种关系可以追溯到 MSR 的早期。MSR 战略总监 Vikram Dendi 表示,机器学习小组是 MSR 内部最古老的小组之一。比尔盖茨资助了该小组并将其作为优先事项。

当时主导微软思维的“每张办公桌和每个家庭都有一台电脑”的口号给 MSR 带来了挑战。Dendi 说,越来越多的地方和语言产生了越来越多的数据,微软研究人员的任务是创建翻译引擎来解决这个问题。Dendi 说,到目前为止,互联网上最大的未动过的机器翻译文本宝库之一是微软的帮助论坛,这些论坛使用内部开发的翻译引擎被翻译成几十种语言。

但那是文本。翻译口语(尤其是实时翻译)需要一整套不同的工具。口语不仅仅是一种不同的语言交流媒介;我们在口语和文本中组织词语的方式也不同。此外还有语调、语调、肢体语言、俚语、习语、错误发音、地方方言和口语。文本提供数据;而口语及其所有细微差别只会带来问题。

在您停止讲话半拍后,将播放音频翻译

为了创建一种可行的语音到语音翻译技术,MSR 研究人员知道他们必须教会他们的系统不仅能够根据一套标准规则将一个单词翻译成另一种语言中的同一个单词,而且还能够理解单词和句子的含义。他们必须教会机器,而机器也必须学习。

MSR 公司副总裁 Peter Lee 表示,训练计算机语言的方法不止一种,但人类语言也不止一种方式会给计算机带来麻烦。MSR 采取了多方面的方法。“它结合了对语言的理解——语法、结构和含义——以及统计匹配过程,”他说。“如果我说‘我喜欢冰淇淋’,你知道它的意思可能就是这个意思。但如果我说‘哦,那次失误是压垮骆驼的最后一根稻草’,如果你逐字逐句地翻译成另一种语言,它可能就没有多大意义了。”

这涉及到机器翻译问题的核心:理解和翻译含义,而不仅仅是单词。MSR 研究人员通过使用统计概率映射不同语言中的单词和整个短语来解决这个问题。他们开始使用文本、任何已经翻译过的文本(教科书、欧盟议会演讲等)来构建知识体系。这允许翻译引擎设定基线并开始找出哪些短语(即使是那些不能直译的短语)是重叠的。

要将“压垮骆驼的最后一根稻草”这样的英语短语翻译成德语,系统会寻找概率匹配,根据它认为最有可能正确的短语从多个候选短语中选择最佳解决方案。随着时间的推移,系统对某些结果的信心会逐渐增强,从而减少错误。经过足够的使用,它会发现,德语使用者可能更熟悉等效短语“水桶倾倒”。

这种概率统计匹配可以让系统随着时间的推移变得更加智能,但它并不代表机器学习或翻译方面的突破(尽管 MSR 研究人员指出,他们已经在引擎中构建了一些非常复杂和独特的语法解析算法)。无论如何,翻译不再是这个等式中最难的部分。实时语音到语音翻译的真正突破出现在 2009 年,当时 MSR 的一个小组决定重返深度神经网络研究,以努力增强语音识别和合成——将口语转换为文本,反之亦然。

设计更像人脑而不是传统计算机

深度神经网络 (DNN) 是一种受生物启发的计算范式,其设计更像人脑而非传统计算机,它使计算机能够通过一种称为深度学习的强大过程进行观察学习。但在上个十年初期,构建基于 DNN 的系统被证明是困难的。许多研究人员转向了其他更有前景的解决方案。

大约十年的时间里,机器翻译的表现停滞不前。“整整十年的时间里,我们非常努力,每天都在发现新事物,但我们系统的质量却没有提高,”李说。“然后我们终于到达了一个临界点。” MSR 从未完全放弃 DNN 研究,当一群机器翻译研究人员开始积极追求 DNN,将其作为创建更快、更高效的语音识别引擎的手段时,他们经历了他们长期寻求的突破。DNN 技术已经取得了长足的进步,MSR 和其他地方的科学家此时已经能够通过 DNN 开发复杂的机器学习模型,这些模型的表现比传统计算机更像人脑中的神经元。“回归 DNN 至关重要,”Dendi 说。“如果有一个突破,那就是它了。”

新的 DNN 模型可以边学习边构建更大、更复杂的知识体系,这些知识体系与它们所训练的数据集有关,包括语言等。语音识别准确率上升了 25%。此外,DNN 的速度足够快,可以实现实时翻译,本周已有 5 万人体验到这一点。

用户不会注意到。所有这些技术奇迹都在后台发生。当 Skype 翻译通话中的一方说话时,他或她的话语会触及所有这些部分,首先传送到云端,然后依次通过语音识别系统、清除不必要的“嗯”和“啊”等的程序、翻译引擎和将翻译重新转换为可听语音的语音合成器。在那人停止说话半拍后,音频翻译已经开始播放,同时翻译的文本记录显示在 Skype 应用程序中。

Skype 翻译器并不完美。它仍然会遇到它不理解的习语、不常见的短语转换,或者我们大多数人在讲母语时会在一定程度上忽视正确的发音、句子结构或措辞。李和他的 Skype 同事并不为此烦恼。他们更感兴趣的是看看系统如何发展,成千上万的用户不仅测试了它的局限性,还教会了它 MSR 尚未考虑的语音和人机交互的新方面。

“我们对此感觉很好,”李说。“但是当这种东西在野外传播时,谁知道会发生什么呢?”

<<:  美国下一代间谍飞机内部

>>:  全球最快超级计算机竞赛

推荐阅读

《罗萨里奥+吸血鬼CAPU 2》的吸引力与评价[Chuu~♥]:续集的深度和人物成长

玫瑰经 + 吸血鬼 CAPU2 [Chu~♥] - 迷人的校园生活和新的邂逅《十字架与吸血鬼 CAP...

《卡斯山》的号召力与口碑:机器人动漫在现代复兴的杰作

卡辛​​——重新评估和深入挖掘《卡斯山》于1993年以OVA形式发行,是龙之子制作公司制作的原创动画...

关于“美国强大”飞行表演中战斗机你需要知道的一切

4月28日,两支高性能喷气式飞机编队在美国大城市上空盘旋,包括纽约和费城。这两支飞机隶属于美国空军和...

受蚕启发的编织技术可以生产出更好的纳米纤维

蚯蚓唾液(又名丝)启发了一种相对简单的新型纳米纤维编织工艺,该工艺可以推动从伤口绷带到柔性电子产品等...

制作自己的遥控间谍飞艇

我是一家为研究项目提供资金的机构的材料科学工程师。这是理论工作,所以在业余时间我喜欢做一些实际的动手...

未来的飞机将配备虚拟现实、瑜伽室和大量花椰菜

长期来看。Rodrigo Damati 2018 年,澳航开通了欧洲与澳大利亚之间的首条直飞航线。该...

这款蝠鲼机器人是世界上速度最快的软体游泳者

一种受蝠鲼启发的新型水下机器人打破了游泳速度最快的软体机器人的世界纪录。该机器人由北卡罗来纳州立大学...

《野兽的新娘》的魅力与评价:深刻的故事和美丽的视觉效果

《献祭公主与百兽之王》:宏大的奇幻与深刻的人性戏剧的融合《祭祀公主与百兽之王》是改编自友本唯同名漫画...

关于驾驶 U-2 侦察机,你想知道的一切

想象一下美国的空中情报收集设备,人们可能会想到无人机和卫星。但几十年来,直到今天,军方也一直在使用一...

“让我们玩!” “将夜生活变成日常生活的动漫体验”的魅力和评价

“让我们玩!” 』 - Yoasobi Grashit - 评论和详细信息概述“让我们玩!” ”是一...

《光之美少女 奇迹的飞跃》评论:和大家一起经历神奇的一天!

电影《光之美少女 奇迹的飞跃:和大家一起度过的奇妙的一天》的号召力与评价概述电影《光之美少女 奇迹的...

《为何没人记得我的世界?》《神秘情感之旅》的号召力与评价

“为什么没有人记得我的世界?” - 一个由深刻的主题和迷人的人物交织而成的故事电视动画《为何没有人记...

选择这 20 门课程套餐中的一门,为您的职业生涯做好未来准备——每门 20 美元

职业发展最可靠的方法之一是重新学习和提升技能。但是,考虑到您通常需要花钱学习对您的职业或您想要转行的...

北极变暖导致南部海域交通堵塞

科学家们站在加拿大破冰船阿蒙森号附近的海冰上。David G. Barber在加拿大纽芬兰岛东北部海...

《多田甜甜》:这部青春恋爱喜剧究竟有何新魅力?

《多田君不恋爱》——樱花下的爱情故事《多田不恋爱》于2018年4月至6月播出,是动画工房制作的原创...