为什么你的音乐文件听起来很垃圾

您在便携式音乐播放器上收听的音乐文件（无论是 MP3、AAC 还是 WMA）在准确重现原始录音声音方面非常糟糕。但直到现在才知道它们到底有多糟糕。

音频数据压缩的核心非常简单。软件通过删除冗余部分并在离散时间段内近似音频信号来压缩数字音频数据。采样时间段越大，近似值越不精确。这就是为什么高采样率（短采样时间）的 MP3 质量高于低采样率的 MP3 的原因。

为了测试人耳是否足够准确，能够辨别音频压缩算法的某些理论极限，纽约洛克菲勒大学的物理学家 Jacob N. Oppenheim 和 Marcelo O. Magnasco 为测试对象播放了音调。研究人员想看看受试者是否能区分音调的时间和它们之间的频率差异。这项研究的基本依据是，几乎所有的音频压缩算法，如 MP3 编解码器，都是基于线性预测模型推断信号的，而这种模型是在科学家了解人类听觉系统工作原理的更精细细节之前很久就开发出来的。这个线性模型认为，声音的时间和频率有特定的截止极限：也就是说，在某个时刻，两个音调在频率或时间上非常接近，以至于人听不出差别。此外，时间和频率是相关的，一个轴（比如时间）的精度越高，另一个轴的精度就越低。如果人类听觉遵循线性规则，我们就不应该听出高质量文件和原始录音之间的质量下降（给定足够高的采样率 - 我们说的不是一些可怕的 192kbps 翻录）。

实验分为五项任务，要求受试者聆听参考音调和不同于参考音调的音调。这些任务测试以下内容：

1) 仅限频率差异
2) 仅时间差异
3）频率差异和干扰音
4）时间上的差异和令人分心的音符
5）同时确定频率和时间差异

我想很多发烧友都不会对此感到惊讶，但人类的听觉绝对没有线性响应曲线。事实上，在任务 5（被认为是最复杂的任务）中，许多测试对象能够听出音调之间的差异，其敏锐度比线性模型预测的高出 13 倍。最善于区分音调时间和频率差异的人是音乐家。其中一位电子音乐家可以区分相隔约三毫秒的音调——这很了不起，因为一个音调周期仅持续 2.27 毫秒。同一受试者在频率区分方面的表现不如其他人。另一位专业音乐人擅长频率区分，并擅长音调的时间区分。

更有趣的是，研究人员发现，作曲家和指挥家在任务 5 上的整体表现最好，因为他们必须能够辨别整个交响乐团中许多同时出现的音符的频率和时间。最后，研究人员发现，大多数测试对象的时间敏锐度（辨别音符之间的时间差异）比频率敏锐度要好得多。

那么，这一切意味着什么呢？作者直截了当地指出，音频工程师应该重新考虑他们处理音频压缩的方法——并且可能完全抛弃他们用于实现这种压缩的线性模型。他们还建议，重新审视音频处理算法将改进语音识别软件，并可能应用于声纳研究或射电天文学。这真是太棒了。但我不能说我期待在这些编解码器可用后重新翻录我的整个音乐收藏。

<<: 美国陆军开始计划研制可跳伞的装甲车

>>: 您需要了解的有关打击盗版的版权警报系统的一切