去年 11 月对奥萨马·本·拉登录音带的判决分歧不仅仅是美国和欧洲在基地组织威胁问题上又一次出现分歧,更是一场围绕法医语音分析或声纹技术未来发展而展开的激烈战争的序幕。 11 月 12 日,独立阿拉伯语电视台半岛电视台播出了一段据称接到本·拉登电话的录音,在录音中,这位基地组织头目赞扬了最近的恐怖袭击,并承诺今后还会有更多恐怖袭击。美国中央情报局和美国国家安全局立即向他们的语音分析师求助。我们不知道这个绝密机构美国国家安全局究竟使用了什么工具,但该机构的专家很可能像私营部门的同行一样,接受过通过比较声谱图来分析语音的培训,这是一种自 1940 年代以来几乎没有变化的图形语音渲染方法。想象一下刻在纸带上的潦草墨迹,你就知道他们在研究什么。 电视台向独立但与机构有联系的专家寻求自己的判断:这盘录像带是真的吗?几天之内,结论就出来了:本·拉登还活着,而且正在密谋。 在大洋彼岸,瑞士的 IDIAP(Dalle Molle 感知人工智能研究所)使用生物识别软件对录音带进行分析。研究所的计算机将问题归结为算法得出的决策边界上“非本·拉登”一侧的亮绿色数据点。瑞士分析附带了一个限定词,即这项研究的动机是“纯粹的科学好奇心,看看我们最先进的说话人认证系统会得出什么结论”。瑞士生物识别程序认为,该声音是冒名顶替者的声音的可能性为 55% 到 60%。充其量是模棱两可的,但足以给美国的判决泼冷水,并暗示给传统的法医声音识别方法泼冷水。 回到新世界,老派对此并不感冒。 为了告诉我为什么,汤姆·欧文 欧文曾是纽约林肯中心的音响工程师,20 世纪 80 年代,他开始涉足法医领域。当时,一名纽约警察局的侦探来到他的录音室,手里拿着一份“脏”的炸弹威胁录音。欧文清理了背景噪音,就像他清理过无数张从恩里科·卡鲁索到狄昂·华薇克的歌手的老录音一样。这让他对法医工作产生了兴趣。 欧文隔音地下室的墙壁上摆满了从地板到天花板的频谱分析仪、信号处理器、均衡器、混频器、放大器和录音回放系统。但正如法医界常见的情况一样,这位大师最喜欢的工具仍然是一件老式设备——一台 1973 年制造的卷带式语音识别 700 光谱仪。它与美国陆军情报官员在二战期间为识别和追踪德国无线电操作员而制造的模拟机器几乎没有什么区别。 在我到达之前,欧文已经启动了机器,整理出 1998 年 ABC 新闻对本·拉登的采访的声谱图,这是欧文认为 100% 可靠的少数基地组织头目声音样本之一。机器的触针将本·拉登声音的声能转换成声纹,将数据刻在附在机器旋转鼓上的纸条上。 通过查看声纹,我可以轻松辨别出每个音节发出的刺耳的条形共振峰或语音频率。这些模糊的声音就像是八线拍子上堆叠的众多方形音符。欧文解释说,人类的声音不会发出单个音符,而是和弦或泛音。 欧文递给我一张半岛电视台 11 月广播的声谱图。从上到下,从头到尾,纸带上布满了黑线。在欧文的指导下,我想我可以看到下面的共振峰条,它们几乎被背景噪音和广播载波信号的黑纱遮住了。欧文坚持认为,生物识别程序永远无法筛选出噪音。“它们的设计初衷是处理完美的样本。”他说,清理磁带也不行。“如果你只是想更清楚地听清他说的话,那没问题。但清理背景噪音会消除我进行识别所需的高频和低频。”他说,生物识别系统需要同样的频率,虽然他相信美国国家安全局已经获得了他不知道的本·拉登的声音样本,但他不相信该机构在分析方面取得了生物识别方面的突破。 “我确实知道他们拥有 FBI 和 CIA 没有的东西。但他们的技术主要用于监听,”欧文说。 欧文的录音方法有多准确?录音带不仅很脏,而且 11 月的录音带和 ABC 的采访中只有六个词是相同的。(美国录音证据委员会的标准要求,至少有 20 个相同的词——最好是按相同的顺序说出来的——才能确认语音识别。) 欧文指出,检查声谱图只是他工作的一半。他的工作是聆听每个声音中各种古怪的习惯和发音缺陷。训练有素的耳朵可以检测到因牙齿缺失而产生的细微口哨声、说话时吞咽的习惯,甚至是说话时下巴的张合方式。 欧文给我播放了他所谓的短期记忆磁带,这是听觉或耳朵识别声音的关键工具。这盘拼接磁带在 ABC 采访本·拉登的 2.5 秒片段和半岛电视台的刺耳广播之间切换;欧文所听的内容——声音识别所基于的内容——是声音表达共振峰结构(尤其是元音)的方式的特殊性。“同一个人,”欧文说。他坚持认为本·拉登的声音非常奇怪,但拒绝详细说明这些声音怪癖,以免给冒名顶替者提供路线图。 在我这个外行的耳朵看来,静电噪音的背后可能是达斯·维达。这一切似乎有些难以言喻——这是艺术与科学的结合,只有全国八名受认可的专家能理解。这种灰色地带往往会让法律观察家担心法医科学的现状。 “我经常看到有人被错误指控拨打威胁电话的案例,”密歇根州退休侦探 Lonnie Smrkovsky 承认,他是法医音频分析的先驱。“我认为,在某个时候,我们必须找到一种完全自动化语音识别的方法。” 早在 20 世纪 80 年代,斯莫科夫斯基就热心地为洛杉矶县警局提供专业知识,帮助他们实现这一目标。该项目由国家司法研究所资助,但两年后就失败了,因为 DNA 分析等更有吸引力的项目吸走了联邦资金。 但当美国企业看到声控银行和信用卡账户以及基于语音的安全系统的潜力时,它们就投入了大量资金来解决这一问题。Nuance Communications 是声纹技术的商业领导者,该公司的语音研发总监 Larry Heck 表示,过去十年取得了巨大进步。“我们已经有了测量人声物理特征的算法,”他解释道。“但我们仍在研究行为方面的东西。” 换句话说,一个好的生物识别程序可以很好地完成人类声音的频谱分析——这是人类专家评估的前半部分。这足以识别某人对着高质量麦克风重复自己名字的干净样本。在理想情况下,最好的生物识别说话人验证系统的错误率低于 0.5%。当样本很脏时,问题就出现了。 这又让我们回到瑞士对据称是本·拉登的广播的分析。IDIAP 是一家国际知名的生物识别研究所,它使用 15 段经过验证的录音校准了其语音识别软件,使其能够识别基地组织头目的声音。随后,研究人员将该程序的准确性与另外 15 段经过验证的本·拉登录音和 16 段其他阿拉伯语人士的录音进行了对比。后者包括两段录音,其中有人故意模仿经过验证的录音的部分内容。用于调整和测试系统的录音质量从好到一般到差不等。 该系统正确地排除了所有 16 个“非本·拉登”的录音,包括本·拉登的模仿者,并错误地排除了 15 个经过验证的录音中的 1 个——成功率为 97%。它通过在由是或否决策边界平分的图表上生成数据点来对每个判断的确定性进行排序。(距离平分线越远,决策在数学上越确定。)最后,它对有争议的广播的分析产生了一个数据点,正好位于决策边界“非本·拉登”一侧;因此,该声音不是基地组织头目的概率为 55% 到 60%。 IDIAP 总监 Herve Bourlard 承认,该系统还有很长的路要走。“有些方法可以迷惑说话人验证系统,但不会迷惑人耳,”他说。“另一方面,有些人可以通过模仿声音来欺骗人耳。但他们永远无法迷惑计算机。” “我不知道还需要两年还是五年,”他说,“但我们一定会实现这一目标。” |
上周,国家动物园里出生了一只小熊猫。国家动物园和许多与动物园无关的人都为此而庆祝,因为熊猫是一种濒临...
灰色、蓝色、大、更大:须鲸让“巨型动物”变得庞大。在 4 月 4 日发表在《科学进展》杂志上的一项新...
Keroro 军曹剧场版 - 电影评论和详情■ 公共媒体剧院■ 原创媒体漫画■ 发布日期2006 年...
洞穴壁画和岩画至少可以追溯到 57,000 多年前。它们详细记录了从早期书写形式到最近黑暗的冲突故事...
如果你曾经用智能手机叫过车,那么 Uber 的图标很有可能出现在你的主屏幕上。这家独角兽级初创公司以...
尽管隐私权倡导者和许多普通民众都反对,但面部识别 AI 等监控技术在现代生活中的出现越来越多。市场正...
视频通话如今已成为人们生活的一部分,但如果您的硬件不达标,视频通话可能会成为一场噩梦。您可以使用 U...
毒性管理是生物学中常见的问题。在人体中,毒素通过一系列生化过程和运输机制被清除,从而产生汗液、尿液和...
2015 年,美国联邦航空管理局将允许军用、私人和商用无人机进入美国领空。此举将大幅增加空中飞行的无...
尽管世界卫生组织最近才宣布猴痘全球紧急状态结束,但病毒并未消失。例如,自 4 月初以来,芝加哥卫生当...
在太阳系的所有天体中,太阳可能是我们最想避开的天体。它向外喷出辐射,尽管它的表面是恒星最冷的部分,但...
核聚变和Minecraft之间的共同点可能不止于你投入的无数时间。正如《麻省理工技术评论》上周末报道...
“安琪莉可双胞胎系列”:迷人人物与深刻故事的融合《安琪莉可双胞胎系列》是 2002 年至 2003...
斯德哥尔摩数学家 Mikael Vejdemo-Johansson 最近带领一支小团队研究领带打结的...
每年这个时候,你是否需要找到一份完美的生日礼物来向你生命中的男人表达你对他的爱和/或感激?有时,为你...