在电子音乐成为现代音乐的一个独特流派的总称之前,该术语指的是一种音乐制作技术,即将真实乐器发出的音频转换成波形,然后录制到磁带上或通过扩音器和扬声器播放。在 20 世纪初期至中期,特殊的电子乐器和音乐合成器(连接到计算机上的机器,可以以电子方式生成和修改各种乐器的声音)开始流行起来。 但有一个问题:几乎每家公司都使用自己的计算机编程语言来控制数字乐器,这使得音乐家很难将不同制造商生产的不同乐器组合在一起。因此,1983 年,该行业联合起来创建了一种称为乐器数字接口(MIDI)的通信协议,以标准化外部音频源向计算机传输信息的方式,反之亦然。 MIDI 的工作方式类似于命令,它告诉计算机演奏了哪种乐器、乐器上演奏了哪些音符、演奏的音量和时间长度以及使用哪种效果(如果有)。这些指令涵盖了各个乐器的各个音符,并允许准确播放声音。当歌曲以 MIDI 文件而不是常规音频文件(如 mp3 或 CD)的形式存储时,音乐家可以轻松编辑曲目的节奏、调性和乐器。他们还可以取出单个音符、整个乐器部分、更改乐器类型或复制主声乐曲目并将其转换为和声。由于 MIDI 会跟踪哪些乐器在什么时间演奏了哪些音符,因此它本质上是一个数字乐谱,而 Notation Player 等软件可以毫不费力地将 MIDI 文件转录为乐谱。 [相关:音乐界面:电子仪器控制简介] 尽管 MIDI 因多种原因而十分方便,但它通常要求音乐家拥有某种接口,如 MIDI 控制键盘,或知道如何手动编排音符。但今年夏天,Spotify 和 Soundtrap 的工程师公开推出了一款名为 Basic Pitch 的工具,有望简化这一过程,并为缺乏专业设备或编码经验的音乐家开放这一工具。 参与该项目的 Spotify 科学家 Rachel Bittner 在 9 月份的一篇博文中表示:“与你让语音助手识别你所说的单词并理解这些单词背后的含义类似,我们正在使用神经网络来理解和处理音乐和播客中的音频。这项工作将我们的机器学习研究和实践与音频领域知识相结合——了解音乐运作的基本原理,如音高、音调、节奏、不同乐器的频率等。” 比特纳设想,该工具可以作为艺术家即时转录的“起点”,免去手写音符和旋律的麻烦。 此开源工具使用机器学习将任何音频转换为 MIDI 格式。点击此处查看实际操作。 [相关:为什么 Spotify 的音乐推荐总是如此准确] 此前对该领域的研究在一定程度上简化了构建该模型的过程。有一种名为 Disklaviers 的设备可以录制实时钢琴演奏并将其存储为 MIDI 文件。此外,研究人员可以使用许多音频录音和成对的 MIDI 文件来创建算法。“还有其他工具可以完成 Basic Pitch 的许多功能,”Bittner 在播客 NerdOut@Spotify 中说道。“我认为 Basic Pitch 的特别之处在于,它可以在一个工具中完成许多功能,而不必针对不同类型的音频使用不同的工具。” 此外,与其他音符检测系统相比,Basic Pitch 的一个优势是它可以同时跟踪来自多种乐器的多个音符。因此,它可以同时转录语音、吉他和歌声(这是该团队今年发表的一篇关于其背后技术的论文)。得益于音高弯曲检测机制,Basic Pitch 还可以支持颤音(音符上的摆动)、滑音(两个音符之间的滑动)、弯音(音高波动)等音效。 要理解模型中的组件,以下是一些关于音乐的基本知识:感知音高是基频,也称为振动物体(如小提琴弦或声带)的最低频率。音乐可以表示为一束正弦波,每个正弦波都有自己的特定频率。在物理学中,我们听到的大多数有调的声音都有其他音调以谐波间隔在其上方。比特纳指出,音高跟踪算法必须完成的难点是将所有额外的音高归结为一个主音高。该团队使用一种称为谐波常数 Q 变换的方法,通过谐波、频率和时间来模拟有调声音的结构。 Spotify 团队希望模型运行速度快、能耗低,因此计算成本必须更低,并且输入越少,作用越大。这意味着机器学习模型本身必须具有简单的参数和较少的层数。Basic Pitch 基于卷积神经网络 (CNN),其峰值内存不到 20 MB,参数少于 17,000 个。有趣的是,CNN 是第一批已知擅长检测图像的模型之一。对于这款产品,Spotify 在多种音乐流派的多种开放数据集上训练和测试了 CNN,包括人声、原声吉他、钢琴、合成器、管弦乐。Spotify 工程师在博文中写道:“为了实现小型模型,Basic Pitch 采用谐波堆叠层和三种输出类型:起始音、音符和弯音。” [相关:观鸟者们看到了:康奈尔大学的 Merlin 应用程序现在是鸟类识别的一站式商店] 那么,使用机器学习来完成这样的任务有什么好处呢?比特纳在播客中解释说,他们可以通过使用在一个房间里用一个麦克风演奏的某种乐器的音频片段来构建音调的简单表示。但机器学习可以让他们辨别出类似的潜在模式,即使他们必须使用不同的乐器、麦克风和房间。 与使用 MusicNET 数据训练的 2020 年多乐器自动音乐转录模型相比,Basic Pitch 在检测音符方面的准确率更高。然而,与训练用于检测特定乐器(如吉他和钢琴)音符的模型相比,Basic Pitch 的表现较差。Spotify 工程师承认该工具并不完美,他们渴望听到社区的反馈并了解音乐家如何使用它。 想知道它是如何工作的吗?在这里尝试一下——您可以直接在门户网站上录制声音或上传音频文件。 |
<<: 认识一下 SharkGuard,一种保护鲨鱼免受渔网伤害的微型电场
>>: 微重力西红柿、酸奶细菌和食用塑料的微生物将前往国际空间站
如今,我们中的许多人花费大量时间在网络浏览器上,因此,任何可以加快速度的方法都可能会对您的工作效率产...
曾经在现今的加利福尼亚州出没的剑齿虎拥有比它们的剑齿虎更独特的牙齿特征。一些完整的头骨有一个牙槽,里...
从 10 月 10 日星期四到 10 月 11 日星期五的夜间,远至佛罗里达州南部,甚至纽约市等光污...
加州参议员李余(代表旧金山西部)宣布,在第一把 3D 打印枪成功发射后,他将推动取缔 3D 打印武器...
在上周发生罕见的泄露事件后,今年的所有诺贝尔奖得主均已由评奖委员会正式公布。他们对科学和人文学科的贡...
网络星期一是为自己打造全套应急工具包的好时机。但是,如果你在这个购物假期只买一件实用的东西,那就买这...
本文已更新。最初于 2019 年 9 月 19 日发布。每个家庭、工作场所甚至朋友圈中都有一位被更高...
科学新闻的年鉴并不总是尽可能地全面。因此, PopSci 正在努力通过《In Hindsight》系...
新机动战记高达 W 流星作战 EVEN - 深刻而动人的重编■ 公共媒体卵子■ 原创媒体动漫原创■ ...
这篇文章已更新。它最初于 2018 年 9 月 15 日发布。有没有感觉你的笔记本电脑快要烫到你的大...
在《实力悬殊》中,我们仔细研究了国防工业的核心科学和技术——士兵和间谍的世界。在 Soar.Eart...
奥运会在体育文化中代表着非常特殊的意义,但从观看的角度来看,它却是一场后勤噩梦。多个项目同时进行,迫...
美国西部的大平原正在变成一片灌木丛——而人为的无力燃烧正是问题的核心。生态学家狄拉克·特威德威尔认为...
《Washimo Special -拯救地球的未来!Washimo vs. Washija-》全方...
森林之王:电影版 - 手冢治虫的伟大讯息手冢治虫的代表作《森林大帝》曾多次被改编成动画,但1997年...