观鸟者大饱眼福:康奈尔大学的 Merlin 应用程序现已成为鸟类识别的一站式商店

观鸟者大饱眼福:康奈尔大学的 Merlin 应用程序现已成为鸟类识别的一站式商店

去年,随着疫情封锁限制措施在美国实施,新的鸟类爱好者纷纷涌向免费的 Merlin Bird ID 应用程序。这款由康奈尔鸟类学实验室开发的应用程序之前曾允许用户通过描述或照片来识别附近的神秘鸟类。今年夏初,它又增加了一项更酷的功能:能够根据鸟鸣、鸣叫或叫声的短音频片段来识别鸟类。

从 2020 年 3 月开始,Merlin 团队发现应用程序下载量有所上升,这一趋势一直持续。“我们不仅获得了更多的下载量,而且活跃用户的数量也在持续增长,”Merlin 的项目协调员德鲁·韦伯 (Drew Weber) 说。今年春天,有 120 万人(并且还在增加)使用 Merlin。“人们正在下载它,了解鸟类,尽管封锁等现实正在发生变化,但今年他们仍然对鸟类感兴趣,”他说。“它似乎激起了他们的兴趣,并保持了他们的兴趣。”

此时,鸟类新闻正在飞速传播,尤其是在纽约市,一些珍稀鸟类已经上升到名人地位。 《纽约时报》上刊登了横斑林鸮和雪鸮的报道,2018 年《纽约杂志》对鸳鸯进行了报道,仿佛它是下一个值得了解的鸟类影响者。

声音识别功能于 6 月在 Merlin 上首次亮相,并已收到观鸟界的积极响应。新的声音识别功能现在与基于机器学习的照片识别工具一起推出,该工具于 2015 年左右向用户推出。

“在声音识别发布之前,我认为我们收到的最大反馈是‘我以为你可以用这个应用程序通过声音识别鸟类!’或者‘鸟类的 Shazam 在哪里?’因此,真正将它提供给人们真的很酷,”韦伯说。

还有其他一些通过声音识别鸟类的方法,包括 Bird Genie、Song Sleuth 和 Smart Bird ID。许多方法都使用基于机器学习的算法,但由于背景噪音和鸟叫声的个体差异,结果的准确性可能会有所不同。

Merlin 已经是一款成熟的鸟类指南应用。除了更先进的工具外,它还提供了常规目测识别的演练流程,这对鸟类初学者来说很有用。

Merlin 声音 ID 的工作原理如下

通过 Merlin,观鸟者可以打开手机的麦克风,让它聆听周围的环境。然后,该应用程序会提示鸟儿在唱歌或叫什么。该应用程序拾取的音频也会转换成视觉模式表示,即频谱图,它可以捕捉声音的振幅、频率和持续时间。

“一旦你有了树上真实鸟的图像或频谱图形式的音频特征,你就可以使用强大的计算机视觉工具开始构建模型来识别这些模式,”Merlin 项目首席研究员 Grant Van Horn 说。

除了声音识别外,使用该应用程序识别鸟类的其他方法还包括手动输入其身体特征和上传照片。

公民科学的巨大壮举

人工智能系统需要数据,当然,数据首先需要存在。

在这种情况下,该项目需要一些严肃的公民科学。如果没有鸟类学实验室的麦考利图书馆数据库,照片 ID 功能和较新的声音 ID 选项就不可能实现,该数据库包含近 3000 万张存档和带注释的鸟类照片以及鸟类社区上传的 110 多万个声音片段。

随后,一个团队开始将媒体转化为有用的工具。他们于 2012 年开始构建 Merlin 照片 ID 组件,当时计算机视觉技术正在取得进步。“我们知道,如果我们能够收集数据,我们就可以利用这些工具构建一个非常有用的功能,让某人拍摄一张照片,然后让计算机告诉他们照片里有什么,”范霍恩说。到 2015 年,该实验室能够让公民科学家将照片和音频上传到不断增长的收藏中。自从照片 ID 组件在应用程序上推出以来,它不断得到改进,增加了更多照片样本,并扩大了南美、非洲、亚洲和欧洲新地区的物种覆盖范围。“只有当你拥有这个可以在其上构建的良好数据基础时,机器学习才能很好地发挥作用,”范霍恩解释说。

麦考利图书馆收集的音频和照片来源于实验室运行的另一个项目,即 2002 年启动的 eBird。eBird 应用程序允许世界各地的公民科学家和当地组织记录和分享鸟类观测情况,包括与研究和绘制鸟类种群的科学家分享。

“由于我们花了很长时间来收集这些数据,所以我们非常清楚,如果你在 7 月 19 日来到纽约,你可能会遇到哪些物种,”范霍恩说。“这类信息确实有助于我们进行声音识别和照片识别,因为它让我们能够立即解决 450 个物种的问题,即声音识别,8,000 个物种的问题,照片识别,并帮助我们将范围缩小到 40 个真正需要考虑的物种。”

音频识别组件的进展比图像识别要慢,“因为外出记录鸟叫声并不像外出拍照那么流行,”范霍恩说。“但可以肯定的是,在过去三年左右的时间里,北美已经相当密集地覆盖了音频记录。”

去年这个时候,该团队认为他们拥有足够的音频数据,可以开发和推出针对美国和加拿大流行物种的声音识别功能。他们开始梳理所有数据并挑选物种。

然而,背景噪音问题仍然是工程团队面临的挑战。为了解决这个问题,他们转向了现有的音频数据。这些音频数据集可能是交通场景、城市环境和机器噪音——不是鸟类发出的正常声音。“我们会将这些音频转换成声谱图,并将其用作‘这不是鸟;任何时候你看到这个,你都不应该报告鸟类’的反面例子,”范霍恩补充道。“这是一种平衡,既要建立高质量的鸟类数据集,又要加强非鸟类噪音的良好数据集,我们可以向机器展示并教它什么鸟听起来不像。”

[相关:如何在美国任何城市开始观鸟]

接下来是更多的工作。由于项目的成功取决于数据集的高质量,这意味着韦伯和范霍恩必须组织和招募鸟类观察界的资深专家来帮助他们查看数据库中的原始音频文件并标记录音中的物种。

“在构建我们首次发布的数据集时,我想我们花了大约 2,000 个小时进行注释,绘制鸟儿鸣叫的位置以及各种鸟儿鸣叫的位置,”韦伯说。“这主要是由许多输入这些 eBird 数据和观察结果的人自愿完成的。”

2014 年,该应用程序首次推出时,只记录了美国和加拿大最常见的鸟类。2016 年,首批国际标签发布,首先是墨西哥和哥斯达黎加,然后扩展到欧洲、澳大利亚、新西兰、非洲和亚洲部分地区。“我们仍然看到,大约 75% 的新活跃用户来自美国和加拿大,”韦伯说,但世界各地记录的新物种数量正在不断增加。

随着全球用户继续向 eBird 数据库提交目击事件,新的目击事件被纳入 Merlin 应用程序,研究团队也因此了解了哪些物种何时何地出现。“我们不断更新应用程序中每种物种的照片和声音,以便不断改进 Merlin 展示的内容,”Weber 补充道。

[相关:看看鸟儿如何改变它们的曲调以适应周围环境]

韦伯指出,他们收到的一些最令人惊讶的反馈来自听力障碍的用户。“他们对实时视图和能够直观呈现鸟鸣声的频谱图感到非常兴奋,”他说。“无论是听力一直不佳的人,还是随着年龄增长而失去高音的人,很多人都对能够在某种程度上恢复部分听力损失感到非常兴奋。”

该团队仍在努力完善该应用程序并整合用户的反馈。通过与当地社区和组织合作,范霍恩认为他们可以构建各种有用的工具,帮助人们在户外获得更有趣的体验,尤其是与当地鸟类相处。“这是人类和机器成功的故事,”范霍恩说。“人类在这个拼图中扮演着重要的角色。”

<<:  我如何将我的奔驰车改装成使用植物油的

>>:  驾驶一架 11,500 磅重的实验直升机是什么感觉(没有任何经验)

推荐阅读

Garmin Forerunner 955 太阳能跑步手表评测:坚持的力量

如今,普通健身和多运动智能手表并不缺乏,但像 Garmin Forerunner 955 Solar...

为什么生物学家对发现一群微小的蝠鲼如此兴奋

几乎每个夏天的每周,傍晚时分,一艘政府拥有的双体船都会从德克萨斯州加尔维斯顿出发。它连夜航行,沿着墨...

《时间博览系列 禅达曼》的魅力与评价:重新评价一部怀旧动画经典

时空博坎系列 Zendaman - 时空滑移的魅力与灵药之战1979 年至 1980 年播出的《时间...

《饿狼传:狼之道》评论:一部风格独特、故事深刻的杰作动画

《Garouden:孤狼之道》——一位孤独战士的史诗故事动画《饿狼传:孤狼之路》于 2024 年 5...

恶魔城 - 恶魔城 - 第 2 季的吸引力和评论

恶魔城第二季详细评论及推荐概述《恶魔城》是一部在 NETFLIX 上发行的动画系列,第二季于 201...

宇航员及其他人员缅怀大卫·鲍伊

大卫·鲍伊,这位英国先锋音乐家,创作了从《太空奇遇》、《变化》、《英雄》等多首热门歌曲,跨越音乐流派...

南极洲巨大冰裂缝连续第二个冬天阻碍重要研究

当你居住的建筑物——连同你的生命支持系统、生活舒适设施和基本生活设施——都位于一块移动的冰块上时,你...

疫情教会我们如何更好地应对气候变化

罗宾·E·贝尔博士是美国地球物理联合会主席,也是哥伦比亚大学拉蒙特-多尔蒂地球观测站帕利塞兹地球物理...

三星 HW-Q900C 条形音箱评测:出色的独立音响系统

三星的屏幕备受关注,但如果没有同样细腻的声音,生动的图像又算什么呢?HW-Q900C 是三星高端产品...

杀手机器人军备竞赛将会是什么样子?

当它们出现在地平线上时,前来杀你的机器人不一定看起来像战机。加州大学伯克利分校的计算机科学家斯图尔特...

宇宙战士零式评论:宇宙战士的史诗故事及其吸引力

宇宙战士零号——未来与友谊的故事《宇宙战士Zero》是2001年在东京电视台播出的一部以松本零士创作...

氪星能告诉你加州(和疯狂的麦克斯)还剩下多少水

任何看过《疯狂的麦克斯:狂暴之路》 (甚至是预告片,这里就不剧透了)的人可能都注意到,大量的水被从地...

《I'm Yours!》的魅力与评价草莓蛋:动人的故事和深刻的人物

我是我的!草莓蛋-青春与变装交织的世界2001年播出的电视动画《草莓蛋》因其独特的设定和对人物青春岁...

不要再在流媒体服务上花太多钱了

流媒体本应能让我们免于昂贵的有线电视费用。但事实似乎并非如此:新的流媒体服务不断推出,现有的流媒体服...

研究人员在奥地利阿尔卑斯山对太空设备进行了为期五天的测试

在持续搜寻火星生命的过程中,宇航员尚未深入探索过一个地方:洞穴。但要深入火星洞穴需要一些重型装备,而...