微软的机器学习如何打破全球语言障碍

本周早些时候，大约 50,000 名 Skype 用户发现了一种通过基于网络的电话和视频通话平台进行交流的新方式，这一功能简直就像是直接从《星际迷航》中借鉴过来的。这项名为 Skype Translator 的新功能可以实时翻译不同语言之间的语音通话，即时将英语翻译成西班牙语，再将西班牙语翻译回英语。Skype 计划逐步增加对 40 多种语言的支持，承诺将为台式机和移动设备提供通用翻译器。

Skype Translator 是微软研究院十多年专注研发的成果（微软于 2011 年收购了 Skype），它做到了其他几家硅谷巨头（更不用说美国国防部）尚未做到的事情。为了做到这一点，微软研究院 (MSR) 必须解决一些主要的机器学习问题，同时将深度神经网络等技术推向新领域。

他们的崇高目标是：让地球上的每个人都能与地球上的其他人进行交流

他们的崇高目标是：让地球上的任何人都能不受语言障碍的干扰地相互交流。Skype 公司副总裁 Gurdeep Pall 表示：“Skype 一直致力于打破障碍。我们认为，有了 Skype Translator，我们将能够填补长期以来存在的空白，实际上自人类交流开始以来就一直存在空白。”

微软与机器翻译有着长期的机构关系，这种关系可以追溯到 MSR 的早期。MSR 战略总监 Vikram Dendi 表示，机器学习小组是 MSR 内部最古老的小组之一。比尔盖茨资助了该小组并将其作为优先事项。

当时主导微软思维的“每张办公桌和每个家庭都有一台电脑”的口号给 MSR 带来了挑战。Dendi 说，越来越多的地方和语言产生了越来越多的数据，微软研究人员的任务是创建翻译引擎来解决这个问题。Dendi 说，到目前为止，互联网上最大的未动过的机器翻译文本宝库之一是微软的帮助论坛，这些论坛使用内部开发的翻译引擎被翻译成几十种语言。

但那是文本。翻译口语（尤其是实时翻译）需要一整套不同的工具。口语不仅仅是一种不同的语言交流媒介；我们在口语和文本中组织词语的方式也不同。此外还有语调、语调、肢体语言、俚语、习语、错误发音、地方方言和口语。文本提供数据；而口语及其所有细微差别只会带来问题。

在您停止讲话半拍后，将播放音频翻译

为了创建一种可行的语音到语音翻译技术，MSR 研究人员知道他们必须教会他们的系统不仅能够根据一套标准规则将一个单词翻译成另一种语言中的同一个单词，而且还能够理解单词和句子的含义。他们必须教会机器，而机器也必须学习。

MSR 公司副总裁 Peter Lee 表示，训练计算机语言的方法不止一种，但人类语言也不止一种方式会给计算机带来麻烦。MSR 采取了多方面的方法。“它结合了对语言的理解——语法、结构和含义——以及统计匹配过程，”他说。“如果我说‘我喜欢冰淇淋’，你知道它的意思可能就是这个意思。但如果我说‘哦，那次失误是压垮骆驼的最后一根稻草’，如果你逐字逐句地翻译成另一种语言，它可能就没有多大意义了。”

这涉及到机器翻译问题的核心：理解和翻译含义，而不仅仅是单词。MSR 研究人员通过使用统计概率映射不同语言中的单词和整个短语来解决这个问题。他们开始使用文本、任何已经翻译过的文本（教科书、欧盟议会演讲等）来构建知识体系。这允许翻译引擎设定基线并开始找出哪些短语（即使是那些不能直译的短语）是重叠的。

要将“压垮骆驼的最后一根稻草”这样的英语短语翻译成德语，系统会寻找概率匹配，根据它认为最有可能正确的短语从多个候选短语中选择最佳解决方案。随着时间的推移，系统对某些结果的信心会逐渐增强，从而减少错误。经过足够的使用，它会发现，德语使用者可能更熟悉等效短语“水桶倾倒”。

这种概率统计匹配可以让系统随着时间的推移变得更加智能，但它并不代表机器学习或翻译方面的突破（尽管 MSR 研究人员指出，他们已经在引擎中构建了一些非常复杂和独特的语法解析算法）。无论如何，翻译不再是这个等式中最难的部分。实时语音到语音翻译的真正突破出现在 2009 年，当时 MSR 的一个小组决定重返深度神经网络研究，以努力增强语音识别和合成——将口语转换为文本，反之亦然。

设计更像人脑而不是传统计算机

深度神经网络 (DNN) 是一种受生物启发的计算范式，其设计更像人脑而非传统计算机，它使计算机能够通过一种称为深度学习的强大过程进行观察学习。但在上个十年初期，构建基于 DNN 的系统被证明是困难的。许多研究人员转向了其他更有前景的解决方案。

大约十年的时间里，机器翻译的表现停滞不前。“整整十年的时间里，我们非常努力，每天都在发现新事物，但我们系统的质量却没有提高，”李说。“然后我们终于到达了一个临界点。” MSR 从未完全放弃 DNN 研究，当一群机器翻译研究人员开始积极追求 DNN，将其作为创建更快、更高效的语音识别引擎的手段时，他们经历了他们长期寻求的突破。DNN 技术已经取得了长足的进步，MSR 和其他地方的科学家此时已经能够通过 DNN 开发复杂的机器学习模型，这些模型的表现比传统计算机更像人脑中的神经元。“回归 DNN 至关重要，”Dendi 说。“如果有一个突破，那就是它了。”

新的 DNN 模型可以边学习边构建更大、更复杂的知识体系，这些知识体系与它们所训练的数据集有关，包括语言等。语音识别准确率上升了 25%。此外，DNN 的速度足够快，可以实现实时翻译，本周已有 5 万人体验到这一点。

用户不会注意到。所有这些技术奇迹都在后台发生。当 Skype 翻译通话中的一方说话时，他或她的话语会触及所有这些部分，首先传送到云端，然后依次通过语音识别系统、清除不必要的“嗯”和“啊”等的程序、翻译引擎和将翻译重新转换为可听语音的语音合成器。在那人停止说话半拍后，音频翻译已经开始播放，同时翻译的文本记录显示在 Skype 应用程序中。

Skype 翻译器并不完美。它仍然会遇到它不理解的习语、不常见的短语转换，或者我们大多数人在讲母语时会在一定程度上忽视正确的发音、句子结构或措辞。李和他的 Skype 同事并不为此烦恼。他们更感兴趣的是看看系统如何发展，成千上万的用户不仅测试了它的局限性，还教会了它 MSR 尚未考虑的语音和人机交互的新方面。

“我们对此感觉很好，”李说。“但是当这种东西在野外传播时，谁知道会发生什么呢？”

<<: 美国下一代间谍飞机内部

>>: 全球最快超级计算机竞赛