Spotify 如何训练人工智能转录音乐

在电子音乐成为现代音乐的一个独特流派的总称之前，该术语指的是一种音乐制作技术，即将真实乐器发出的音频转换成波形，然后录制到磁带上或通过扩音器和扬声器播放。在 20 世纪初期至中期，特殊的电子乐器和音乐合成器（连接到计算机上的机器，可以以电子方式生成和修改各种乐器的声音）开始流行起来。

但有一个问题：几乎每家公司都使用自己的计算机编程语言来控制数字乐器，这使得音乐家很难将不同制造商生产的不同乐器组合在一起。因此，1983 年，该行业联合起来创建了一种称为乐器数字接口（MIDI）的通信协议，以标准化外部音频源向计算机传输信息的方式，反之亦然。

MIDI 的工作方式类似于命令，它告诉计算机演奏了哪种乐器、乐器上演奏了哪些音符、演奏的音量和时间长度以及使用哪种效果（如果有）。这些指令涵盖了各个乐器的各个音符，并允许准确播放声音。当歌曲以 MIDI 文件而不是常规音频文件（如 mp3 或 CD）的形式存储时，音乐家可以轻松编辑曲目的节奏、调性和乐器。他们还可以取出单个音符、整个乐器部分、更改乐器类型或复制主声乐曲目并将其转换为和声。由于 MIDI 会跟踪哪些乐器在什么时间演奏了哪些音符，因此它本质上是一个数字乐谱，而 Notation Player 等软件可以毫不费力地将 MIDI 文件转录为乐谱。

[相关：音乐界面：电子仪器控制简介]

尽管 MIDI 因多种原因而十分方便，但它通常要求音乐家拥有某种接口，如 MIDI 控制键盘，或知道如何手动编排音符。但今年夏天，Spotify 和 Soundtrap 的工程师公开推出了一款名为 Basic Pitch 的工具，有望简化这一过程，并为缺乏专业设备或编码经验的音乐家开放这一工具。

参与该项目的 Spotify 科学家 Rachel Bittner 在 9 月份的一篇博文中表示：“与你让语音助手识别你所说的单词并理解这些单词背后的含义类似，我们正在使用神经网络来理解和处理音乐和播客中的音频。这项工作将我们的机器学习研究和实践与音频领域知识相结合——了解音乐运作的基本原理，如音高、音调、节奏、不同乐器的频率等。”

比特纳设想，该工具可以作为艺术家即时转录的“起点”，免去手写音符和旋律的麻烦。

此开源工具使用机器学习将任何音频转换为 MIDI 格式。点击此处查看实际操作。

[相关：为什么 Spotify 的音乐推荐总是如此准确]

此前对该领域的研究在一定程度上简化了构建该模型的过程。有一种名为 Disklaviers 的设备可以录制实时钢琴演奏并将其存储为 MIDI 文件。此外，研究人员可以使用许多音频录音和成对的 MIDI 文件来创建算法。“还有其他工具可以完成 Basic Pitch 的许多功能，”Bittner 在播客 NerdOut@Spotify 中说道。“我认为 Basic Pitch 的特别之处在于，它可以在一个工具中完成许多功能，而不必针对不同类型的音频使用不同的工具。”

此外，与其他音符检测系统相比，Basic Pitch 的一个优势是它可以同时跟踪来自多种乐器的多个音符。因此，它可以同时转录语音、吉他和歌声（这是该团队今年发表的一篇关于其背后技术的论文）。得益于音高弯曲检测机制，Basic Pitch 还可以支持颤音（音符上的摆动）、滑音（两个音符之间的滑动）、弯音（音高波动）等音效。

要理解模型中的组件，以下是一些关于音乐的基本知识：感知音高是基频，也称为振动物体（如小提琴弦或声带）的最低频率。音乐可以表示为一束正弦波，每个正弦波都有自己的特定频率。在物理学中，我们听到的大多数有调的声音都有其他音调以谐波间隔在其上方。比特纳指出，音高跟踪算法必须完成的难点是将所有额外的音高归结为一个主音高。该团队使用一种称为谐波常数 Q 变换的方法，通过谐波、频率和时间来模拟有调声音的结构。

Spotify 团队希望模型运行速度快、能耗低，因此计算成本必须更低，并且输入越少，作用越大。这意味着机器学习模型本身必须具有简单的参数和较少的层数。Basic Pitch 基于卷积神经网络 (CNN)，其峰值内存不到 20 MB，参数少于 17,000 个。有趣的是，CNN 是第一批已知擅长检测图像的模型之一。对于这款产品，Spotify 在多种音乐流派的多种开放数据集上训练和测试了 CNN，包括人声、原声吉他、钢琴、合成器、管弦乐。Spotify 工程师在博文中写道：“为了实现小型模型，Basic Pitch 采用谐波堆叠层和三种输出类型：起始音、音符和弯音。”

[相关：观鸟者们看到了：康奈尔大学的 Merlin 应用程序现在是鸟类识别的一站式商店]

那么，使用机器学习来完成这样的任务有什么好处呢？比特纳在播客中解释说，他们可以通过使用在一个房间里用一个麦克风演奏的某种乐器的音频片段来构建音调的简单表示。但机器学习可以让他们辨别出类似的潜在模式，即使他们必须使用不同的乐器、麦克风和房间。

与使用 MusicNET 数据训练的 2020 年多乐器自动音乐转录模型相比，Basic Pitch 在检测音符方面的准确率更高。然而，与训练用于检测特定乐器（如吉他和钢琴）音符的模型相比，Basic Pitch 的表现较差。Spotify 工程师承认该工具并不完美，他们渴望听到社区的反馈并了解音乐家如何使用它。

想知道它是如何工作的吗？在这里尝试一下——您可以直接在门户网站上录制声音或上传音频文件。

<<: 认识一下 SharkGuard，一种保护鲨鱼免受渔网伤害的微型电场

>>: 微重力西红柿、酸奶细菌和食用塑料的微生物将前往国际空间站