Spotify 如何训练人工智能转录音乐

Spotify 如何训练人工智能转录音乐

在电子音乐成为现代音乐的一个独特流派的总称之前,该术语指的是一种音乐制作技术,即将真实乐器发出的音频转换成波形,然后录制到磁带上或通过扩音器和扬声器播放。在 20 世纪初期至中期,特殊的电子乐器和音乐合成器(连接到计算机上的机器,可以以电子方式生成和修改各种乐器的声音)开始流行起来。

但有一个问题:几乎每家公司都使用自己的计算机编程语言来控制数字乐器,这使得音乐家很难将不同制造商生产的不同乐器组合在一起。因此,1983 年,该行业联合起来创建了一种称为乐器数字接口(MIDI)的通信协议,以标准化外部音频源向计算机传输信息的方式,反之亦然。

MIDI 的工作方式类似于命令,它告诉计算机演奏了哪种乐器、乐器上演奏了哪些音符、演奏的音量和时间长度以及使用哪种效果(如果有)。这些指令涵盖了各个乐器的各个音符,并允许准确播放声音。当歌曲以 MIDI 文件而不是常规音频文件(如 mp3 或 CD)的形式存储时,音乐家可以轻松编辑曲目的节奏、调性和乐器。他们还可以取出单个音符、整个乐器部分、更改乐器类型或复制主声乐曲目并将其转换为和声。由于 MIDI 会跟踪哪些乐器在什么时间演奏了哪些音符,因此它本质上是一个数字乐谱,而 Notation Player 等软件可以毫不费力地将 MIDI 文件转录为乐谱。

[相关:音乐界面:电子仪器控制简介]  

尽管 MIDI 因多种原因而十分方便,但它通常要求音乐家拥有某种接口,如 MIDI 控制键盘,或知道如何手动编排音符。但今年夏天,Spotify 和 Soundtrap 的工程师公开推出了一款名为 Basic Pitch 的工具,有望简化这一过程,并为缺乏专业设备或编码经验的音乐家开放这一工具。

参与该项目的 Spotify 科学家 Rachel Bittner 在 9 月份的一篇博文中表示:“与你让语音助手识别你所说的单词并理解这些单词背后的含义类似,我们正在使用神经网络来理解和处理音乐和播客中的音频。这项工作将我们的机器学习研究和实践与音频领域知识相结合——了解音乐运作的基本原理,如音高、音调、节奏、不同乐器的频率等。”

比特纳设想,该工具可以作为艺术家即时转录的“起点”,免去手写音符和旋律的麻烦。

此开源工具使用机器学习将任何音频转换为 MIDI 格式。点击此处查看实际操作。

[相关:为什么 Spotify 的音乐推荐总是如此准确]

此前对该领域的研究在一定程度上简化了构建该模型的过程。有一种名为 Disklaviers 的设备可以录制实时钢琴演奏并将其存储为 MIDI 文件。此外,研究人员可以使用许多音频录音和成对的 MIDI 文件来创建算法。“还有其他工具可以完成 Basic Pitch 的许多功能,”Bittner 在播客 NerdOut@Spotify 中说道。“我认为 Basic Pitch 的特别之处在于,它可以在一个工具中完成许多功能,而不必针对不同类型的音频使用不同的工具。”

此外,与其他音符检测系统相比,Basic Pitch 的一个优势是它可以同时跟踪来自多种乐器的多个音符。因此,它可以同时转录语音、吉他和歌声(这是该团队今年发表的一篇关于其背后技术的论文)。得益于音高弯曲检测机制,Basic Pitch 还可以支持颤音(音符上的摆动)、滑音(两个音符之间的滑动)、弯音(音高波动)等音效。

要理解模型中的组件,以下是一些关于音乐的基本知识:感知音高是基频,也称为振动物体(如小提琴弦或声带)的最低频率。音乐可以表示为一束正弦波,每个正弦波都有自己的特定频率。在物理学中,我们听到的大多数有调的声音都有其他音调以谐波间隔在其上方。比特纳指出,音高跟踪算法必须完成的难点是将所有额外的音高归结为一个主音高。该团队使用一种称为谐波常数 Q 变换的方法,通过谐波、频率和时间来模拟有调声音的结构。

Spotify 团队希望模型运行速度快、能耗低,因此计算成本必须更低,并且输入越少,作用越大。这意味着机器学习模型本身必须具有简单的参数和较少的层数。Basic Pitch 基于卷积神经网络 (CNN),其峰值内存不到 20 MB,参数少于 17,000 个。有趣的是,CNN 是第一批已知擅长检测图像的模型之一。对于这款产品,Spotify 在多种音乐流派的多种开放数据集上训练和测试了 CNN,包括人声、原声吉他、钢琴、合成器、管弦乐。Spotify 工程师在博文中写道:“为了实现小型模型,Basic Pitch 采用谐波堆叠层和三种输出类型:起始音、音符和弯音。”

[相关:观鸟者们看到了:康奈尔大学的 Merlin 应用程序现在是鸟类识别的一站式商店]

那么,使用机器学习来完成这样的任务有什么好处呢?比特纳在播客中解释说,他们可以通过使用在一个房间里用一个麦克风演奏的某种乐器的音频片段来构建音调的简单表示。但机器学习可以让他们辨别出类似的潜在模式,即使他们必须使用不同的乐器、麦克风和房间。

与使用 MusicNET 数据训练的 2020 年多乐器自动音乐转录模型相比,Basic Pitch 在检测音符方面的准确率更高。然而,与训练用于检测特定乐器(如吉他和钢琴)音符的模型相比,Basic Pitch 的表现较差。Spotify 工程师承认该工具并不完美,他们渴望听到社区的反馈并了解音乐家如何使用它。

想知道它是如何工作的吗?在这里尝试一下——您可以直接在门户网站上录制声音或上传音频文件。

<<:  认识一下 SharkGuard,一种保护鲨鱼免受渔网伤害的微型电场

>>:  微重力西红柿、酸奶细菌和食用塑料的微生物将前往国际空间站

推荐阅读

海龟埃莉诺游过热带风暴并幸存下来

海龟埃莉诺是一位坚强的女士。她不仅安然度过了一场强大的热带风暴,而且做得非常出色。 “埃莉诺的‘海龟...

用昆虫肉做成的牛排?真好吃!

实验室培育的蟋蟀细胞可以成为鸡肉、牛肉和猪肉的更健康替代品。Pexels可食用昆虫是蛋白质的重要​​...

“爆漫”。 (2)的号召与评价:续集的成功与演变

爆漫。 (2)- 一部介于梦想与现实之间的青春剧“爆漫”。 (2)是一部电视动画系列,于 2011 ...

Zoids Fusors 的魅力与评价:深入探究战斗机器人的世界

Zoids Fusers - Zoids 战斗和友谊的终极故事Zoids Fusers 是一部以 T...

Ranma ½ DoCo 音乐视频的吸引力和评价:深入挖掘 PV 系列 #1

《乱马½ DoCo Music Video》的魅力与评价介绍《乱马半 DoCo 音乐视频》是 19...

食果鸟类如何帮助热带森林再生

以热带水果为食的鸟类不仅仅是视觉享受。这些色彩斑斓的鸟类也是热带森林再生的重要组成部分。在巴西大西洋...

反化学尾迹黑客是否侵入了 NASA 的无人机?

一切始于一扇隐喻性的敞开的大门。根据自称黑客的 AnonSec 于 1 月 31 日在文本共享网站 ...

北极熊在 7 万年前就适应了北极

北极并不是地球上最适宜居住的地方。一些北极动物,比如驯鹿,拥有多种基因适应能力,帮助它们在那里繁衍生...

《Medaka Box》的魅力与评价:关注独特的角色和情节发展

鳉鱼盒 - 鳉鱼盒 - ■ 公共媒体电视动画系列■ 原创媒体漫画■ 播出时间2012 年 4 月 5...

《三国演义(下篇):历史迷必看的动画》的魅力与评价

《三国演义(下)远方之地》的号召力与评价1994 年上映的电影《三国演义 第三部 遥远之地》是一部改...

没人告诉你的超轻背包旅行技巧

许多人尝试长途徒步,通常需要走几英里的单程路线,穿过城市、州,甚至整个国家。但并不是所有人都能成功,...

《神兔绳子》的魅力与评价:独特的世界观与对人物的深入刻画

原创动画长片《神兔绳》的魅力与评价《上兔绳索》是一部原创动画电影,于2012年12月上映。该片由KI...

科学家将智能手机变成了价格实惠的显微镜

用于检查荧光染色或蛋白质标记样本的荧光显微镜是各种实验室的宝贵资源。不幸的是,一台像样的荧光显微镜可...

SpaceX 和 NASA 正在研究如何将哈勃送入更高的轨道

32 年来,哈勃太空望远镜向地球发回了令人眼花缭乱的图像和关键数据,但没有什么是永恒的,即使是太空望...

“有人在弹奏萨兹”:深入分析 NHK 的动人杰作《大家的歌》

“有人在演奏萨兹”:NHK教育电视台短篇动画的魅力和背景《有人在弹奏萨兹》是一部短篇动画,于201...