We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
(
(未提及姓名)
Topics
本期节目探讨了 MP3 音频压缩技术的原理及其对人类听觉体验的影响。节目首先回顾了从模拟音频(黑胶、磁带)到数字音频(CD)的发展历程,并分析了不同介质的声音特征。然后,节目深入讲解了 MP3 压缩算法的核心——感知编码,以及其背后的心理声学原理,包括等响曲线和声音掩蔽效应(频率掩蔽和时间掩蔽)。节目解释了 MP3 如何利用这些原理,通过舍弃人耳不易察觉的声音信息来实现高效压缩。最后,节目探讨了 MP3 压缩带来的声音特性,以及其与人类感官和赛博世界关系的思考。 节目深入探讨了 MP3 音频压缩技术的核心原理,包括感知编码、等响曲线、声音掩蔽效应等心理声学知识。通过对这些原理的详细解释,节目揭示了 MP3 如何在不显著降低音质的情况下,大幅度压缩音频文件大小。同时,节目也分析了不同音频介质(黑胶、磁带、CD)的声音特征,并对比了 MP3 与这些传统介质的差异。此外,节目还探讨了 MP3 压缩算法的研发过程,以及其对音乐产业和人类听觉体验的影响,并引发了对赛博世界和人类感官关系的深入思考。

Deep Dive

Key Insights

为什么MP3格式对音乐产业和听觉世界产生了深远影响?

MP3格式通过有损压缩技术,大幅减少了音频文件的体积,使得音乐能够更高效地通过网络传输和存储,从而彻底改变了音乐的传播方式和消费模式。

MP3压缩技术是如何在保证音质的同时减少文件大小的?

MP3利用心理声学原理,识别并丢弃人耳难以察觉的音频信息,特别是在高频和低频部分,以及在特定时间点被其他声音掩蔽的部分,从而在不显著影响听觉体验的前提下减少数据量。

MP3格式与CD格式在音频处理上有何根本区别?

CD格式是无损音频,忠实记录和重现声音;而MP3是有损压缩,通过丢弃部分音频数据来减少文件大小,尽管这种丢弃是基于人耳听觉特性的。

心理声学在MP3压缩技术中扮演了什么角色?

心理声学研究人类听觉系统对声音的感知特性,MP3压缩技术利用这些研究成果,如等响曲线和掩蔽效应,来决定哪些音频信息可以被安全地丢弃,从而实现高效压缩。

MP3格式的出现如何影响了音乐的存储和传输?

MP3格式使得音乐文件体积大幅缩小,便于通过网络快速传输和在便携设备上存储,极大地促进了数字音乐的普及和音乐消费的便捷性。

为什么MP3格式的声音特点难以与陈旧感联系起来?

MP3的声音特点是由其压缩算法决定的,这种特点并非源自物理介质的自然老化,而是人为设计的结果,因此难以唤起传统意义上的怀旧情感。

MP3格式的发展过程中有哪些关键的技术突破?

关键突破包括利用心理声学的掩蔽效应来丢弃不重要的音频信息,以及通过大量的听觉测试来优化压缩算法,确保在不同码率下仍能保持良好的听觉体验。

MP3格式对音乐创作和制作产生了哪些影响?

MP3格式使得音乐制作人需要考虑如何在压缩后仍保持音乐的完整性和表现力,同时也推动了数字音频工作站和音频编辑软件的发展,以适应新的音频格式。

Chapters
讨论了不同声音媒介的特点,如广播、黑胶和磁带的声音特征,以及它们如何随着时间的推移而变得陈旧。
  • 广播声音的直觉性和低频缺乏
  • 黑胶唱片的物理传导和周期性跑调
  • 磁带的磁粉极化和饱和失真

Shownotes Transcript

所以 陈旧 的 声音 是 什么样 的? 就像 泛黄 的 老照片 或者 被 风雨 侵蚀 的 台阶, 任何 东西 都 有旧 的 样子。 声音 这个 问题 特别 直接 的 指向 人类 整个 音乐史 或者说 听觉 史。 我们 可以 看 乐器 的 变化, 麦克风 和 录音 设备 的 变化, 声音 生产 的 方式 和 传输 的 方式 都 值得 讨论。 但是 最 直接 的 一个 考察 的 角度 是 观察 我们的 存储介质 和 回放 的 设备。 比方说 电话 和 广播, 尽管 广播 可以 播放 任何 音乐, 但 我们 始终 能够 在 脑海中 锁定 一种 绝对 属于 广播 的 声音, 就是 那个 声音 特别的 直觉。 它 比如说 它 比 其他 的 戒指 要 暗淡, 然后 它的 低频 是 缺乏 的, 然后 在 信号 不稳定 的 时候, 它 会 混杂着 一种 嘶嘶 沙沙 的 噪音。

再 比如 黑胶, 黑胶 是一种 密纹 唱片, 就是 细密 的 纹路 里 一圈 一圈 的 凹凸不平。 在 这个 槽 里面 有 凹凸 的 变化, 带动 了 长针 传导 到 喇叭, 然后 在 喇叭 里 形成了 震动。 这 毫无疑问 就是 我们 所谓 的 类比, 叫 anna L O G 这个 过程。 因为 它 不 涉及 任何 的 数字, 所以 没有 什么 二进制, 没有 芯片, 没有 处理器。 仅仅 是在 物理 世界 中将 一种 变化 传导 为 另外 一种 变化, 就是 将 凹凸 转化成 了 喇叭 的 空, 带动 空气 的 震动。 这 张 黑胶 具备 了 一种 非常 特定 的 成就感, 就像 广播 的 声音 它 不可避免 的 受到 信号 的 影响 一样。 就 比如 如果 黑胶唱片 它 瓢 了, 就 这个 唱盘 它 不平 了, 弯曲 了 的话, 它 会 导致 一种 轻微 的 周期性 跑调 的 声音, 对 吗? 因为 这个 转速 是 均匀 的, 可是 你 这 曲面 让 这个 唱针 跑 的 一会儿 快, 一会儿 慢速度 就 不 均匀 了。

再 比如 如果 唱片 的 纹理 中 夹杂 了 一些 灰尘 的 颗粒, 从 微观 来看, 这个 唱针 会 特别 突兀 地 蹦 过去, 就是 好像 被 这个 灰尘 颗粒 绊 了 一 跟头 一样, 会 形成 一种 任何 听 黑胶 的 朋友 都会 非常 熟悉 油炸 或者 蹦 豆子 的 声音。

而 磁带 的 原理 则 非常 不同, 就是 在 录音 的 时候, 这个 音频 让 电流 通过 磁头 的 缝隙 产生 强弱 和 方向 不停 的 变化 的 磁场, 带动 磁带 上 的 磁粉 被 磁化, 形成了 一个个 的 极性 和 磁性 的 强弱 都 不一样的 微型 的 磁铁。 但是 连贯 的 被 记录 在 这个 袋子 上。 而 磁粉 的 分布 在 低频 和 高频 的 位置 总是 不太 准确。

这个 是 磁带 的 物理 的 特点, 就是 在 磁通量 很大 的 时候, 所有的 磁粉 会 出现 那种 所有 磁粉 都 被 激化, 然后 导致 这个 信号 就 没 区别 了。 你 比如说 这个 1米511米 五 以上 的 身高 全算 1.5米。 这个 时候 你 就 发现 一溜 的 一米 5, 就是 这个 1.5米以上 的 这个 人的 身高 的 差别 都 被 抹平 了。 就是 信号 过载 了, 会 出现 一种 叫做 saturation, 也就是 饱和 的 特点。 就是 很多人 心心念念 的 所谓 的 那个 温暖 的 声音, 其实 本质 上 是一种 失真, 是一种 特定 的 失真。 然后 再加上 磁带 转速 不稳定, 又 形成 一种 颤音 的 效果。 最后, 同样 的 音乐 进 到 磁带 里 会 变成 这个 样子。

事情 到了 M D 和 C D 的 时代, 发生 了 非常 大 的 变化。 我们 没有 办法 想象 出 C D 的 任何 特点, 因此 C D 也 没法 变得 陈旧。 就 从 听觉 上 来说, 因为 C D 是一种 无损 音频, 一种 无损 数字音频。 它 这个 数字 说 的 就是 跟 刚才 我们 讲 的 模拟 是 相对 的, 因为 它的 本质 就是 零 和1。 然后 你 使用 它 需要 通过 这个 编码 和 解码 的 芯片 或者 软件 来 记录 声音, 或者 是 在线 这个 声音, 回放 这个 声音。 它 通过 记录 44100 赫兹 16比特 的 音频 数据, 理论上, 它 完美的 保存 和 复现 了的 声音。

当然 这个 说法 绝对 是 不对 的。 一会儿 我们 会谈 到, 就是 至少 在 人 耳 能 分辨 的 频率 里, 它是 不可能 被 污染 或者 篡改 的。 损坏 了的 C D 只会 卡顿 到 直接 无法 播放。 比如说 这 打 太 深 了, 这个 C D 就 没法 播放 了。 它 不会 体现 为 声音 的 任何 特点, 就是 他 没有 一个 陈旧 的 状态, 没有 这 概念 是 不可能 的。

但是 M P3又 再一次 颠倒 这个 逻辑, 它是 数字 格式 的, 但是 它 确实 具备 了 一种 特殊 的 听觉 特点, 只不过 我们 完全 没有 办法 把 这个 特点 跟 陈旧 联系 在一起。 M P3是 一种 有损压缩 的 音频格式, 它 跟 C D 的 区别 就在于 它 为了 压缩 数据量, 实质性 的 舍弃 的 一些 声音。 今天 我们 要 来 较真儿 一下, M P3 这个 格式 到底 对 音乐 做了 什么? 最 直观 的 方法, 我们 去 观察 M P3 所谓 的 损耗 是什么? 就是 M P3 到底 丢失 了 什么, 压缩 前后 的 区别 是什么。 我们 可以 这么 干, 就是 把 同一首歌 的 M P3 压缩文件 和 原始 文件 并列 在 两个 轨道 里, 时间 是 对齐 的。

然后 我们 对 这个 M P3 的 版本 做 反向 的 处理, 并且 叠加 播放。 这样 如果 二者 的 声音 是 一模一样 的, 因为 有 一轨 是 反向 了, 我们 就会 得到 一个 完全 抵消 而 形成 的 纯粹 的 静音, 对 吧? 但是 我们 这里 得到 的 是 这样 一个 声音。

但 即使 是 听 了 这个, 我们 还是 不能 直接 的 感觉到 二者 的 区别。 就是 就算 我们 把 谜底 看 了, 我们 再 回过头来 看 这 一面, 我们 还是 区分 不 出来 M P3 的 压缩 到底 有什么 区别。 你 能 区分 我 此时此刻 正在 怎样 用 旋钮 不停 的 在 这个 歌 的 M P3 版本 和和 无损 音频 版本 之间 来回 的 切换 和 渐变 吗?

你是 区分 不 出来 的这 就是 M P3 压缩 的 神奇 之处, 就是 它的 压缩 并不是 在 数字 数学 或者 数字 层面 的, 它是 在 听觉 层面 的。 它 不是 客观 的, 而是 主观 的。 就是 当我们 明白 这件 事儿 的 时候, 我会 感觉 自己 整个 世界观 都 动摇 了。 因为 这个 事儿 和 密码学、 编码 学、 计算机科学 关系 其实 不是 特别 大, 但是 跟人 本身 关系 巨大。

我 先来 解释一下 什么 叫 不是 数字 层面 的 压缩。 这 是一个 我自己 胡说八道 的 一个 说法。 我是 觉得 这样 说是 最 贴切 的。 因为 数字音频 的 本质 就是 我们 刚才 说 了 零 和一 组成 的 数据。 它 怎么 可能 存在 一种 叫 不是 数字 层面 的 压缩 呢?

我们 从 这个 古典 意义 上 的 压缩 来说 起, 通常 我们 所谓 理解 这个 数据 的 压缩, 他在 干 这么 一个 事儿, 就是 最 粗俗 的 例子, 比如说 我们 有 这么 一串 数据。 就 777770000、 215888888888, 这 总共 是 22个 字符, 我们 可以 把 它 记成 这样, 我们 这么 记 就 记 5乘以 7就是 五星 号、 70星号 42158 星号 9。 这样 我们 把 21个 字符 把 22个 字符 压缩成 了 12个。 因为 这 里面 有 一些 信号, 我们 告诉 这个 解码器, 就是说 你 遇到 信号, 你 就 把 前面 的 那个 数字, 按照 后面 那个 数字 去 重复 那么 多遍 就可以 了。 所以 信息 没有 变, 但是 它 被 压缩成 了 更 短 的 这个 字符串。

另外一个 例子, 就是说 假设 有 一段 文字, 有一个 文章 里面 频繁 的 出现 大笨蛋 这个 词儿, 特别 多 大笨蛋。 那 我们 就在 压缩文件 的 开头 就 声明 把 这个 大笨蛋 统一 记 为 A, 所有的 大笨蛋 都 写成 A 然后 大笨蛋 这 三个 汉字 所 形成 的 一长串 的 字符, 就可以 只 被 记录 一次。 里边 有 一堆 A 然后 到时候 解码 的 时候, 把 A 都 替换成 大笨蛋 就得 了。

请原谅我 这种 非常 弱智 的 举例, 因为我 对 这个 我 对 压缩算法 一无所知。 我只是 想 就 给你 临时 建立 一个 对于 常规 意义 上 压缩 大概是 个 什么样 的 一个 大概 感觉。 然后 我们 再来 聊 后面 这些 这个 区别, 这就是我 所谓 的 数字 层面 的 压缩, 就是 它 不 损失 任何 数据, 它 只是 让 记录 更加 紧凑, 从而 占用 更 小的 存储 和 带宽。 但是 信息 是 没有 损耗 的。

事实上 M P3 的 编码 的 最后 一步 也是 这个 过程, 它 使用 了 一种 叫做 halfman encoding 的 算法。 如果我们 只 应用 这个 过程, 就是 光 用 这个 halfman coding 的话。 其实 这个 声音文件 从 C D 的 这个 数据量 压缩成 所谓 的 M P3 的 比例, 压缩 比例 依然 是 很小 的, 基本 跟 没 压缩 一样, 这个 事儿 是 不成立 的。

如果你 只用 halfman encoding 的话, 如果我们 把 上述 压缩 过程 考虑 成 是对 信息 的 浓缩 的话, 我们会 意识到 说 它 本质 上 是 通过 让 数据 变得 这 咋 说 呢? 就是 更加 厚实, 或者说 是 更加 紧凑 和 复杂 来 让 它 变小 的对 吗? 就 这个 复杂 和 简单 的 对照, 指向 的 不是 多 和 少, 而是 无序 的 程度。 就是 这个 信息论 里面 的 核心概念 entry py 也就是 熵, 在 这个 信息论 里 叫做 信息熵。 音频 这种 已然 就 非常 之 无序, 信息熵 非常 高 的 数据, 他 就 基本 没有 办法 直接 用 上面 提到 的 这个 所谓 让 数据 更 紧凑 的 方式 来 显著 的 缩小 文件 体积。

既然 无损压缩 能 做 的 事儿 很 有限, 我们 就得 考虑 丢掉 一部分 的的 信息, 对 吧? 这就 好比 是 我们的 房间 太 乱, 然后 我们 就 想办法 去 整理 它。 我们 把 所有 东西 整理 的 特别 紧凑, 把 整理 术 发挥 到 极致, 我们 能够 节省 的 空间 依然 是 有限 的。 毕竟 东西 太多 了。 不能 因为 说 你 特别 勤劳 或者 特别 会 整理, 你 就能 把 一 九十 平 的 房子 给 整理 成 120平米。 所以 接下来 我们 要 考虑 就是 断舍离, 我们 要 往 外 扔 东西。

C D 的 这个 编码 叫做 P C M。 P C M 非常 的 直接, 它是 这样的, 就是 忠实 的 按照 固定 的 频率, 每 44100分之1秒, 它 记录 一个 静态 的 数字, 对应 的 是 这个 瞬间 的 声音, 就是 沿着 时间 这个 X 轴 在 震动 这个 Y 轴 上 的 位置, 我们 可以 非常 粗略 的 这么 来 对应。 咱们 这 音箱 的 纸 纸盆, 不是 音箱 的 这个 纸盆, 或者 你 耳机 的 这个 振膜, 它 不是 在 来回 的 震动, 就 前后 震动, 对 吧? 时间 是一个 轴, X 轴 这个 震动 它 总是 有一个, 比如说 从 0到6万, 或者 是从 -5到正 五就 随便你 怎么 来 定义, 它 总有 一个 震动 的 范围, 我们 把 它 放在 Y 轴 上, 所以 这个 声音 就是 一个 来回 蹦 来 蹦 去 的 曲线, 就 沿着 X 轴 横 着 往右 画的 这么 一条线。 C D 就是 每 44100分之1秒 记录 一个 震动 的 截图, 就在 那个 瞬间 他在 Y 轴 的 哪个 位置 上, 所以 虽然 说是 无损, 但是 他 也 已经 很 果断 的 做了 两个 维度 上 的 数据 的 舍弃。

这就是 声音 从 模拟信号 转化 为 数字信号 的 第一次 大 精简, 就是 频率 和 比特 深度。 频率 相当于 图片 的 分辨率, 就是 越高 它的 文件 体积 就 越大。 我们都知道 比如说 11平方厘米 的 这个 像素 的 个数 会影响到 整个 画面 的 清晰度, 就是 这个 照片 洗出来 有 多大。 那么 每秒钟 的 采样 点的 数量 就 相当于 这个 音频 的 分辨率。

人 耳 的 听觉范围 是 20到2万 赫兹, 就是 根据 奈 灰色 相同 采样 定律, 就是 如果我们 想要 保持 2万赫兹 以下 的 频率 的 信息 能够 得到 百分之百 准确 的 重现 的话, 也 这就是 我们 想 干 的 事儿。 我们我们 想 把 声音 给 临时 的 保存 成 一堆 数字, 然后 又 把 这 堆堆 数字 在 恰当 的 时候 又 变回 成 声音, 这就是 一个 重现 的 过程。 那么 这个 编码 和 解码 的 频率, 根据 信息论 的 要求, 就是 它 必须 要在 4万赫兹 以上。 根据 这个 定理, 所以 对于 人 耳 来说, 听 C D 确实 是 无损 的。 因为 它 有 44000 赫兹 的 数据, 所以 在 2.2万 赫兹 以下 的 信息 是 能够 准确 的 被 保存 的。 而 2.2万 赫兹 以上 的 信息 确实 已经 被 舍弃 掉了, 但是 我们 听不到, 所以 我们 就 不在乎。

当然了, 就是 我们 所说 的 被 舍弃 掉 并不 意味着 它 上方 没有信号。 就是你 播 一个 C D 出来 的 时候, 他在 22000 赫兹 以上 的 位置 绝对 是 有 信号 的。 只不过 那些 信号 不是 当初 的 那些 信号, 就是 此 听不见 和 彼 听不见 是 不能 画等号 的。 现在 此 听不见 是 一些 错误 的 随机 的 噪音。 但是 因为 我们 确实 听不见, 所以 我们 根本 就 不在意 刚刚 才说 的 这个 是 频率, 就是 X 轴, 也就是 时间 维度 上 的 颗粒度。

比特 深度 就 类似 于 Y 轴 上 的 这个 颗粒度。 它 大概 指的 是从 完全 静音 到 最大 音量 中间 切 了 多少 份儿。 它 影响 了 单个 采样 点 所 需要 的 这个 字节数, 从而 影响 这个 音频文件 体积 的 大小。 它 类似 于 什么 呢? 类似 于 图片 里 的 色彩 深度, 就 所谓 的 H D R, H D R 就是 把 这个 色彩 深度 又又 提升 了, 就 是从 最 黑 到 最 白, 中间 到底 有 多少 个 级别 的 中间状态。

物理 世界 中 这个 Y 轴 它 永远 是无 可以 无限 细分 的对 吗? 但是 在 数字世界 里 他他 总得 有 个 限度。 在在 数字世界 里 就 没有 任何 东西 是 无限 的, 它 就 必须 是一个 有限 的 表述。 而 这个 限度 就是 我们 所谓 的 动态 范围。 比如说 C D 的 这个 16比特 的 深度, 意味着 一个 采样 点 有 16位的 二进制 的 0和1的记录。 这样 就 意味着 它 这个 动态 范围 里 包含 二 的 16次方, 我们 就 粗略 理解 为 音量, 就是 音量 有 65536个 台阶, 就 这么 多个 台阶, 最小 是 零, 最大 是 6536。 那比 这个 台阶 更 小的, 我的 意思 是 说 介于 相邻 的 两个 台阶 中间 的, 本来 在 物理 世界 中 显然 存在 着 的 某 一个 状态, 在 这个 数字音频 中 就 被 舍弃 掉了。 就是你 相邻 的 俩 台阶 中间 就 不能 再有 台阶 了, 它 就是 把 连续 变成 离散, 对 吧?

好, 想要 压缩 这个 音频 数据, 最 直接 的 想法 是在 刚才 说 的这 两个 刚性 的 指标 上 缩水, 就是 在 X 轴 上 扔 数据 和 在 Y 轴 上 扔 数据。 但是 C D 它 设置 在 这个 44.1K16 比特 是 有 原因 的。 因为 更 低, 我们 就会 很 明显 的 察觉到 这个 东西 不 对劲儿 了。 如果我们 把 44.1K 的 采样率 逐渐 降低, 我们会 听到 这样的 声音。

这个 崩坏 的 声音 就 明显 是 我们 不能 接受 的 了。 如果我们 保持 44.1K 的 频率, 降低 这个 比特 深度 这 声音 是 这样的。

这种 降 采样 的 处理方式 同样 是 很 崩坏 的。 但 值得一提的是 就是 很多 时候 它 成为 了 一种 音乐 创作者 非常 喜闻乐见 的 一种 失真 效果 的 来源。 就 比如说 我们 让 一个 鼓 的 声音 降低 比特, 会 形成 一个 非常 粗 力 强烈 的 一个 打击 感。

总之 就是 在 采样 点的 数量 和 单个 采样 的 信息量 这 两个 维度 上 做手脚 的 压缩 也是 不 可行 的。 就是 C D 已经 把 该 扔 的 东西 都 扔 完了。 所以 这样 来看, 我们的 音频 压缩 已经 走到 死胡同 了, 就是 到头 了。 现在 我们 就像 坐在 热气球 上, 就是 为了 让 这个 热气球 飞 得 再 高, 我们 把 该 扔 东西 都 扔 了, 再 扔 就 生活必需品, 就 再 扔 就 活不下去 了。 那么 M P3 到底 是用 了 什么 奇特 的 方式, 让 我们 能 在 这个 基础上, 就是 在 C D 这个 已经 比较 精简 的 基础上 作为 参照 点, 能够 再 把 文件 体积 缩小 到 它的 12分之1 呢? 就 还有什么 可以 扔 的 呢?

当初 car hinds branden berg 他 跟随 他的 导师 这个 data cider 做 他 博士论文 的 时候, 万万 没有 想到 他的 这个 导师 给 他的 这个 胡 逼 的 任务, 会 引导 他 发明 出 这个 改造 人类 世界 的 音频 压缩 技术。 这个 data sector 是一个 心理声学 专家, 他俩 都是 德国人。 然后 在 80年代 初期, 这个 data 有一个 非常 封闭 的 想法, 他 想 发明 一种 技术, 把 音乐 存放 在 集中 的 服务器 上, 然后 让 大家 在 自己 家里 打电话 给 服务器, 或者 是 用 网线 去 连接 服务器, 然后 用 这个 I S D N 的 网线 来 点播 听歌。 他 给 这个 东西 起了 个 名字 叫 spotify, 不对, 叫 digital druck box, 就是 数字 的 点唱机。 然后 他 也 没 想 具体 怎么做, 然后 就 跑到 专利局 去 申请专利, 当然 就 被 无情 的 拒绝 了。 因为 专利 审核员 就说 这是 不可能 的, 就是 拒绝 的 原因 就是 这是 不可能 的。

专利 审核员 觉得 这人 是不是 无赖。 因为你 要 想 干 这个 事儿 的话, 前提条件 是 这个 I S D N 的 带宽 得 能够 支持 传输 每秒钟 的 C D 的 数据量。 这个 事儿 想要 做到 的话, 这个 专利 得 包含 一种 算法, 能够 把 这个 数据量 降低 到 对应 到 当时 的 网速, 要 降低 到 C D 的 12分之1。 所以 这个 不负责任 的 导师 就是 管杀 不管 埋, 他 就 负责 想得美, 然后 把 这个 12比1 的 这个 实际 的 关键 课题 丢 给 了 他 老实巴交 的 一个 博士生 去做。 就 相当于 什么?

就 相当于 一个 老师 嫌 自己 批改作业 太慢 了, 然后 就 找 一个 朋友 说, 你 给我 发明 一下 光学 识别 和 人工智能 行 吗? 这样 我 就 不用 批 卷子 了, 就 这种 感觉。 Car hans 本人 也 觉得 很 扯, 他 最 开始 想 的 就是我 这个 混球 导师 让 我 做 这么 一个 胡来 的 选题。 那 我 就 做 几年 时间, 我 来 证明 一下 这个 幻想, 它是 幻想 是 不 可行 的 就得 了。 我 把 这个 写成 论文, 我 也能 混一 博士学位, 美滋滋。 结果 没想到, 他 钻研 了 一下 这个 心理声学 的 研究成果, 就是 前人 的 这些 研究。 然后 他 意识到 说 随着 80年代 的 这个 电脑 处理 处理器 的 速度 的 提升, 以及 他们 对 后来 的 这个 速度 继续 的 展望, 他们 会 觉得 说 也许 这个 压缩 也 不是 完全 不可能 的。

这 M P3 诞生 是一个 耗时 十多年, 就是 几十人 上百人 的 人类 顶尖 头脑 的 浩浩荡荡 艰苦卓绝 的。 你 要 往 大 了 说是 几代人 接力 的, 往 小 了 说 也是 这么 一群 最 顶尖 的 人类 头脑 的 齐心协力 研究 的 一个 伟大的 过程。 这个 成果 它 摧毁 并且 再造 了 人类 音乐 产业 和 整个 听觉 世界。 在 他 飞入 寻常百姓 家的 这个 过程中, 他 也 不可避免 地 遭遇 了 各种 令人 精疲力竭 的 政治 争夺、 经济 争夺 等等等等。 脏 事儿 也 不少。 但是 所有的 这些 老生常谈 的 话题, 包括 他 对 什么 音乐 产业 盗版 的 影响 等等, 我们 今天 都不 谈。

我们 这 期 节目 就 只会 讨论 这个 算法 它 中间 最 重要 的 一个 模块 的 核心。 从 这里 我们 可以 窥见 一些 关于 赛博 世界 和 人类 自身 的 关系。 M P3 的 压缩算法 的 核心 是 这个 perceptual coding。 所以 这个 表述 相当 令人困惑, 就是 感官 编码 就 这个 说法 就 对。

实际上 它 是从 心理声学 发展 出来 的, 这个 学科 完全 不在 大众 视野 中, 是一个 非常 边缘 的 学科, 它是 物理学 和 心理学 的 交叉学科, 就是 它 从属于 这个 心理。 物理学 就是 psycho physics 下面 的 分支, psycho acoustic cycle 就是 心理 嘛, 所以 听起来 就 像是 研究 九阴真经 或者 龟派气功 的, 但 实际 不是。 它是 一个 非常 非常 严肃 的 领域, 它 研究 的 是 人的 感官世界 和 客观 世界 之间 的 关系, 特别是 定量 的 关系, 而 不是 什么 哲学 或者 神学 的 研究。 就 我 这里 说 的 不是 主观, 而是 感官, 是因为 心理声学 的 研究 并不 涉及, 比如说 我们 音乐 播 经常 聊 的 什么 音乐 审美 等等, 审美 这种 事儿 就 属于 太 高层次 的 问题。 这个 学科 就 研究 特别 低层次, 甚至 是 最底层 的 问题。 就是 比 这个 在 底层 就 不能说 是 心理 了, 就 只能 说是 生理 了, 他 研究 的 是 这个 心理 和 生理 挨着 的 交界 的 这个 事儿。

第一个 让 我 感到 认知 冲击 的 这个 学科 的 研究成果, 就是 关于我们 人类 对于 响度 感知 的 不 平均 性。 有 这么 一个 曲线 叫 flat cher MSN curve, 就是 弗莱彻 曼森 曲线, 也 叫 等 响 曲线。 感兴趣 的 朋友 可以在 show note 里 看到 相关 的 介绍。

就 这个 凹下去 的 图形 揭示 了 一个 事儿, 就是 这 门 学科 心理声学 存在 的 合理性。 就是 我们 人类 感官 和 客观 世界 中间 有 一 鸿沟。 我们 知道 声音 的 本质 是 震动, 震动 就是 空气 在 压缩 和 膨胀, 就是 压缩 和 释放, 就是 以 一个 不同 的 频率 在 干 这个 事儿。 震动 的 空气 又 带动 了 耳膜, 震动 传导 到 耳蜗 里, 然后 耳朵 里 有 很多 卷曲 的 毛, 那 毛里 的 细胞 把 这个 震动 转化成 电信号, 然后 通过 神经 传导 给 我们的 大脑。

那 这个 曲线 讲 了 啥 呢? 它的 横轴 是 频率, 就是 低频、 中频、 高频, 就 是从 这个 暗淡 到 明亮 到 尖锐 的 这个 声音。 纵轴 是 升压 级, 然后 曲线 上上 的 点 在 人的 感觉 里 是 相同 的, 就是 它它 是 它是 无数根 曲线, 但是 他们 基本上 你可以 理解 为 类似 于 平行 的 或者 是 这么 一个 足 的 曲线, 每 一根 曲线 上 的 每 一个点 就是 在 人的 感觉 里 是 相同 的。

用 不负责任 大白话 说, 就是说 我们 对于 不同 频率 的 声音 的 大小 的 感知 差异 太 过于 巨大, 以至于 这个 曲线 是一个 这么 挖 蔸 的 形状, 低频 需要 特别 巨大 的 能量 才能 和 中频 非常 非常 小的 能量 形成 的 声音 大小 在 我们的 感觉 上 相等。 就 比如说 一个 50赫兹 或者 80赫兹 的 声音, 想要 听起来 和 你 轻轻的 在 3000赫兹 的 位置, 跟 我 哼哼 的 声音 一样 大, 它 需要 比 你 哼哼 的 那个 能量 大 可能 几十倍、 上 百倍。 所以 客观 的 声音, 它是 用 升压 级 来衡量, 就是 所谓 的 sound pressure level S P L, 然后 它的 单位 叫做 D B 对人 对 声音 大小 的 感知, 这就是 主观 了, 或者 叫 感官 了, 那就 用 这个 响度 来衡量, 就是 我们 觉得 这 事儿 有 多 响, 这个 单位 叫 送 P H O N phone。

这个 曲线 有 很多 会 让 我们 觉得 很 困惑 的 事儿, 就是 迎刃而解, 解 水落石出。 就 比如说 最简单 的 就是 为什么 低音炮 那么 沉, 那么 大而全 屏 的 音箱 那么 小? 因为你 觉得 低音炮 其实 只 发 低频 的 一点点 声音, 但 为什么 它 需要 比 这个 正常 的那 那 一对 立体声 的 全频 的 喇叭 要 大 特别 多 呢? 再 比如说 乐手 都会 想 这个 问题, 就是说 为什么 贝斯 的 音箱 比 吉他 大巨 多, 而且 它的 功率 是 吉他 的 好几倍。 其实 音量 听起来 感觉 吉他 那 声 更大。

等 响 曲线 它是 一个 向上 翘 的 位置。 如果我们 拿 高频 来说 也是 一样的。 我们 说 人类 的 听觉 上限 是 2万赫兹, 这 句 话 翻译 过来 就是 用 这个 曲线 来 表述。 就是 在 2万赫兹 的 位置, 我们 需要 这个 能量 大 到 能 刺破 我们 耳膜 了的 程度, 才 勉强 能够 跟 3000赫兹 的 位置 轻微 到 不能 再 轻微 的 震动 听 上去 一样 大, 这就是 等 响 曲线 给 我们 揭示 的 这个 现实。 这个 曲线 中 最低 的 一条 就 再 低 就 变 负数 了, 就 不成立 了。

最低 的 一条 就是 我们 人类 能 听到 的 最小 声音 的 等效 曲线。 他是 几位 科学家 当年 看 就是 干了 一些 脏活 累活 所 得到 的 就 很 简单。 他们 就是 大量 的 测试, 让 一个人 坐在 这儿, 然后 听 这个 不同 频率 上 播放 这个 音量 大小 不同 的 纯粹 的 就是 单纯 的 正弦波。 就是你 只要 听到 你 就 按 按钮, 这样的话 我 就 记录下来。 如果你 没 听到 你 就 别 按。

这样 收集 了 大量 的 数据 之后, 这些 数据 点 拟 合成 了 一条 曲线。 这就是 最早 的 等 响 曲线, 是 居然 是用 一种 调查 的 方式 来 获得 的, 然后 在 这个 最低 的 等 的 等 响 曲线 上, 就是 在 它 上方 非常 多。 还有一个 风险 曲线, 就 这 声压级 大 到 什么 程度, 人类 会 感觉 痛苦, 甚至 会对 听觉 有 损伤。 所以 这 两条 曲线 就 把 本来 这个 广阔 无边 的 声音 的 分布 中间 圈 出了 一个 封闭 的 区域。 这 区域 其实 跟 整个 区域 相比 并不大, 就是 我们 人类 听觉 的 区域 或者说 是 音乐 的 区域。 音乐 就 存在 在 这个 区域 里面 的 一部分 的 中间 一部分, 所有的 音乐 就 困 在这里, 然后 人 说话的 声音 又 困 在 这个 空间 里 更 小的 多 的 一个 子集 里。 有了 这个 等 响 曲线 之后, 感官世界 跟 客观 世界 就 取得了 一个 可靠 的 联系。 因为 我们 有了 一个 基本 的 换算 规律, 沿着 这个 方向, 科学家们 发现 一些 更加 神奇 的 事情, 让 我们 意识到 我们的 感官 和 客观 世界 的 差距 到底 有 多么 巨大, 这个 事情 叫做 masking 掩蔽。

1958年 有一个 在 美国 马萨诸塞州 剑桥市 的 一个人, 叫做 J C R lake lider。 他 突发奇想 拿了 一个 噪音 发声器 去 牙医 的 诊所。 听 上去 像是 一个 冷笑话, 就 翻译 过来 就是 脱裤子 放屁。 就是 因为 牙医 本身 就 已经 是一个 噪音 发射器 了 好吗? 他 看 牙 就是 拿 钻头 去 钻 别人 的 牙, 对 吧? 这就是 一个 噪音 发生器。

Lake lighter 本人 是一个 心理声学 的 研究者, 他 这么 做 是 想做 一个 不 规范 的 实验, 就是 他 觉得 自己 拔牙 的 这个 时候 可以 用 巨大 的 噪音 来 替代 麻醉剂。 就是 他 自己的 一个 猜想, 就是 只要 能 他 听着 巨大 的 噪音, 他 可以 不 打 麻药, 然后 直接 让 这个 牙医 来 处理 它。 他 一颗 龋齿 钻开, 然后 给他 填好, 结果 他 成功了, 就是 他 听着 戴 着 耳机, 听着 叽里呱啦 的 巨大 的 噪音, 然后 他的 牙 被 钻开 填补 好, 整个 这个 过程 他 什么 也没有 感觉到。 后来 他们 又 找 了 一个人, 就是 这个 牙医 的 秘书。 这个 女士 她 一直 极端 恐惧 补牙 的 疼痛, 永远都是 要 打 剂量 很大 的 麻药。 对, 但是 这次 他 也 成功 的 用 这个 噪音 消除 掉了 自己 补牙 的 任何 的 感觉。 这个 女人 戴 着 耳机 的 补牙 的 照片, 后来 还 上了 报纸, 成了 一个 很大 的 新闻。

当然 这个 事儿 最后 也没有 一个 定论, 就是 有的 研究者 说 这 事儿 是 骗局, 还有 很多 牙医 说 这 确实 有用。 但是 这个 技术 至于 它 为什么 没有 成为 主流, 这 不是 我们 这个 节目 要 讨论 的。 我们 要 讨论 的 是 这 里面 的 这个 隐蔽 现象。

说 掩蔽, 我们 要 先 说 噪音。 噪音 在 频率 的 世界 里 大概 就是 一个 平均 的 水位线, 就是 它 在 任何 频率 都有 能量。 正因为 这样, 所以 它 听起来 才 没有 音调 可言, 就是 它 听起来 没有 任何 调。 我们 说 它 不是 乐音, 是 噪音, 恰恰 是因为 它 里面 充满 了 调。 因为 在 任何 一个 调 就是 频率, 在 任何 一个 频率 的 位置 上, 它 都有 均等 的 能量, 所以 它 听起来 就是 什么 都 不是。

刚刚 我们 听到 的 这个 白噪音 就是 比较 线性 的, 能够 抬升 我们的 等 响 曲线。 就是 当我们 听到 一点 白噪音 的 时候, 我们 耳朵 的 那个 等 响 曲线 就要 跟着 他 往 上 抬 一些。 你 就 用 大白话 说, 就是 在 嘈杂 的 环境 里, 你 想要 听见 相对 单纯 的 声音。 比如 人人 跟 你 说话, 或者 听歌 旋律 或者 是 什么东西, 任何 鲜明 的 声音, 你 就得 让 它 相应 的 提升 音量, 否则 的话 就会 被 嘈杂 的 环境 所 掩盖。 我们 每个 人都 有 生活 经验, 这就是 所谓 的 masking 掩蔽。

如果我们 想要 隐蔽 一个 一千 赫兹 的 声音, 我们 其实 并不需要 完整 的 全 频率 的 白噪音。 我们 只需要 围绕 在 1000赫兹 附近 的 白噪音 就可以 了。 我们 可以 做 这么 一个 实验, 就是 我们 用 带宽 比较 窄 的 白噪音 慢慢 提升 频率。 用 这样 一个 声音 我们 慢慢 让 它 升高, 然后 让 它 经过 一个 缓慢 经过 一个 单纯 的 正弦 音, 我们 可以 清楚 地 体会到 人类 听觉 的 局限性, 就是 那个 音 在 噪音 经过 它的 那个 频率 的 时候, 它 就会 消失。

这样的话 你可以 理解 为 那个 等 响 曲线 因为 噪音 的 存在 被 扭曲 了。 它 在 特定 的 频率 上 鼓 了 一个包, 而 这个 包 下面 本来 咱们 能 听见 的 声音, 咱们 听不见 了。 这个 就是 M P3 发明者 找到 的 秘密, 就是 他 把 每一个 鼓包 的 瞬间 被 淹没 的 那些 声音 都 扔掉 了。

上面 我 描述 的 这个 是 频率 的 眼, 还有 另外 一种 隐蔽 叫 temporal masking。 Temporal 就是 这个 词儿, 就是 信条 那个 电影 里 所谓 潜行 攻击 的 那个 词儿。 时间 这个 掩蔽 效应 它 不 发生 在 频率, 发生 在 时间 里。 因为 我们 说 频率 是一个 垂直于 时间 的 另外一个 维度。 如果说 是 时间里的 掩蔽, 这个 事儿 对 我们 来说 更更 直观 的 多, 就是 跟 频率 没关系, 就 纯粹 是 时间。

我们 先 说 这个 forward masking, 就是 当我们 听到 一个 噪音 戛然而止 的 时候, 在 它 结束 之后 会有 一个 长达 200毫秒 的 逐渐 减弱 的 隐蔽 效果。 也就是说 在 它 停止 之后, 完全 停止 之后 的 200毫秒 里, 还有 一些 比 他 小的 声音 被 他 掩蔽 掉, 导致 咱们 完全 听不见。 就 仿佛 是 这个 噪音 直接 把 我们的 耳朵 给 打 晕 了, 我们 耳朵 麻痹 了 一样, 就 需要 200毫秒 时间 才能 恢复 这个 知觉, 就 好像 是 这样的 一个 效果。

另外 一种 temporal masking 反过来 叫 backward masking, 这个 事儿 就 非常 的 反 直觉, 就是 它 跟 我们 刚刚 说 的 这个 former 是 相反 的。 Former masking 说是 噪音 掩蔽 了 它 之后 的 声音, 但是 同样 这个 噪音 还能 隐蔽 他 之前 的 声音。 虽然 只有 50毫秒, 而且 这个 曲线 很 陡峭。 也就是说 只有 仅仅 贴着 这个 噪音 开头, 之前 的 这个 声音 才有可能 被 它 隐蔽。

但 仍然 让 我 感觉到 这 事儿 不可思议, 就是 因为 这 意味着 什么 呢? 这 意味着 我们 头脑 中有 一个 缓冲 时间, 就是 我们 头脑 类似 于 电脑屏幕 或者 是 鼠标 键盘 的 延迟。 我们的 神经系统 显然 要 缓冲 一段时间 才能 报告 到 我们的 意识 里, 而 不是 立刻 就 把 这些 信息 传达 到位。 而且 这个 缓冲 的 周期 居然 有 50毫秒, 这 也 太 长了。 好吧? 接下来 你 要 听到 的 这个 极其 不 规律 的 短促 的 声音, 会 被 整齐 的 紧贴着 他们的 噪音 给 掩蔽 掉。

如果你 不信邪 的话, 你可以 用心 记录 一下, 你 觉得 哪个 位置 有 声音, 哪个 位置 没有声音。 然后 我会 在 小宇宙 的 评论 区 给出 这个 谜底。 但是 你 就会 发现 你 自己的 都是 一些 心理作用, 实际上 你是 听不见 的, 因为他 都 被 掩蔽 掉了。

这个 时候 你 可能 想说 说 音乐 里 其实 并没有 这么 难听 的 噪音, 但 其实 乐音 和 噪音 并不是 一个 非 黑 即 白 的 分音。 这 世界上 没有 完全 的 乐音, 也没有 绝对 意义 上 的 完美 而 纯粹 的 噪音, 一切 声音 都在 乐音 和 噪音 的 中间。 我们 说 纯粹 的 原因 就是 正弦波 就是 那个 最 纯粹 的 声音。 我们 让 一个 小提琴家 拉 在 小提琴 上去, 拉 一个 中央 C 这个 声音 里面 也 不只 全 是 乐音, 它 还是 有 很多 噪音 在 里面。 如果我们 把 白噪音 去过 一个 非常 窄 的 带 通 滤波器 的话, 你 会 听见 它 这个 噪音 其实 也可以 被 分解, 或者 被 理解 为 一堆 乐音 的 叠加。 所以 在 实际 的 音乐 里, 各种 乐音 组合 在一起, 就 又 形成了 此起彼伏 的, 类似 于 忽然 出现 又 消失的 窄带 噪音 的 声音 瞬间。 这些 声音 瞬间 就是 M P3 音频 压缩算法 下手 的 地方。

M P3 做 的 事儿 就是 利用 一个 精心 迭代 了 很多年 的 听觉 模型, 把 音乐 里 的 每一个 瞬间 对应 在 这个 M P3 文件格式 里, 叫做 frame。 就 数据 块 一个 frame 的 数据 块, 检查 这个 数据 块 里 上述 两类 隐蔽 作用 所 发生 的 频率 和 这个 时间段, 然后 把 这个 频率 里 的 信息 给 扔掉。 本来 这个 频率 也可以 是 无限 细分 的, 对 吧? 在 现实 世界 中, 但是 在 M P3 的 听觉 模型 里, 它 被 简化 成了 有限 的的 滤波器 组就 只有 32段。 就 比如 我们 现在 听到 的 音乐。 可以 表示 为 32份, 就 听起来 差不多 的 声音。 但是 他们 有的是 明亮, 有的是 暗淡。 这就是 所谓 的 32份的 这个 滤波器 组 叠加 在一起。 这个 精心设计 的 完全 不是 平均 分布 的, 不是 在 频 频率 世界 里 平均 分布 的。

这个 32段的 filter bank 也是 来自于 心理声学 的 另外一个 研究成果, 就是 人类 在 频率 的 差距 缩小 到 一定程度 之后, 我们 就 没有 办法 再分 清楚 两个 频率 的 差别 了。 就是 我们的 头脑 会 把 挨 得 特别 近 的 音高 理解 为 同一个 音高。 这个 问题 可以 引申 到 另外一个 很 复杂 的 问题, 就是 为啥 一个 八度 里 只有 12个半音 呢? 为啥 不是 八个 半音 呢? 为啥 不是 20个半音 呢? 当然了, 这个 问题 也 比较复杂 了, 就 不是 这 一期 咱们 能 讨论 的, 大家 可以 考虑一下。 我 这里 要 再 啰嗦 一句, 我 这里 说 的 扔 并 不是说 声音 变少 了, 声音 不存在 变少 的 概念, 除非 这 声音 完全 静音 了 就 没 声 了。 我们 说 的 扔 就 仅仅 是 它的 熵 降低 了, 就是 它的 无序 性 降低 了, 因此 它 变得 更加 容易 被 压缩 了。

所以说 到 这儿, 我们 要 再 回到 节目 最 开头 讨论 的 那个 话题, 就是 声音 媒介 的 特征。 它 到了 M P3 这个 时代, 它 变成 什么 呢? 高 码率 的 M P3 你听 不到 任何 区别。 虽然 它 确实 有 区别, 但是 随着 码率 逐渐 降低, 你 听到 的 不是 什么 灰尘 在 黑胶 缝隙 里 的 那种 爆 痘 的 声音, 也 不是 磁带 那种 磁粉 极化 造成 饱和 的 声音, 都 不是。 它是 所谓 的 artifact。 这种 artifact 就是 当我们 要求 的 码率 低 到 一定程度 的 时候, 那个 编码器 会 被迫 舍弃 了 很多。 其实 我们 本来 可以 提议, 我们 应该 能 察觉到 的 声音, 也都 被 他 铤而走险 的 给 舍弃 掉了。 就 他 舍弃 的 声音 太多 了, 从而 形成了 一种 声音 的 不连贯, 一种 断裂。

然而 尴尬 的 是, 黑胶、 磁带、 广播 这些 媒介 跟 他 相比, 就是 我们 刚刚 对 M P3 声音 特点 的 这个 描述, 既不 精确 也 没法 被 人 理解。 就 啥 叫 舍弃, 啥 叫 不连贯, 啥 叫 断裂。 因为 它 并不是 物理 世界 形成 的 一种 必然 的, 与 物体 本身 和 振动 本身 的 性质 密不可分 的 物理现象, 它是 一种 经济 现象, 人类 在 这个 时间点 需要 让 声音 钻 过 一个 狭窄 的 带宽。 所以 这里 的 artifact 不仅 是 人为 的 人造 的, 它 甚至 是 完全 是 被 设计所 决定 的。

就是 在 当时 M P3 的 规范 制定 的 过程中, 海量 的 测试人员 就 不停 的 听, 这 段 你 觉得 像不像? 这 段 你 觉得 有没有 区别? 这种 测试人员 要 对 每一个 他们 听到 的 测试 声音 做 一个 评级, 就是 有 四个 选项。 第一个 选项 叫 听不出 区别, 第二个 档次 叫 有一点 区别, 第三 档 和 第四 档 特别 离谱, 叫 有点 难听 和 非常 难听。 也就是说 这个 压缩算法 的 发明 和 设计, 是 自始至终 把 人类 某种 生物 底层 的 好恶, 或者说 我不知道 这 能不能 叫 美学 判断, 至少 是一种 非常 原始 的 感官 判断 作为 考量 的 目标。 就是 它是 没 区别, 有点 区别, 有点 难听 和 非常 难听。 大家 可以 考虑一下 这个 选项 意味着 什么。 所以 整个 M P3 的 压缩算法, 当然 我们 不能说 它是 主观 的 了, 但是 它 绝对 不是 客观 的。

他的 发明 和 迭代 伴随 着 无穷无尽 的 痛苦的人 肉 测试 和 你以为 的 那种 所谓 数学家 和 工程师 联手 发明 了 一个 横空出世 的 天才 黑箱 算法。 这种 想象 就是 相差 十万八千里, 完全 不是 那样。 而 m pack 协会 就是 这个 行业协会 选择 的 实 手 用来 测试。

因为 有 很多 的 来 参赛, 就 希望能够 成为 下一代 的 音频 压缩 的 压缩算法 的 标准。 他们 来 给 各位 代表队 参赛 来 评价 的这 十首歌, 就 如同 这个 开卷考试 的 题目 一样, 就成 了 所有的 音频 压缩算法 经年累月 想方设法 去 完美的 压缩 它的 目标。 这 十首歌 就 跟 音频 压缩算法 的 高考 一样。 所以 这 十首歌 它 当然 被 完美的 压缩 了, 或者说 是 尽量 完美的 压缩 了。 可是 这个 完美性 它 断然 不是 在 人类 所有 音乐 和 音频 中 平均 等价 的 实现 的。 我不知道 这么说 能不能 说 明白 这个 意思, 就是 这种 完美性, 这个 完美的 程度 在 所有的 音乐 中 它 不可能 是 平均 的。 就是 他的 被 设计 的 过程中 已经 决定 了 这一点。

这 十首歌 里 包括 什么 Tracy chapman, 包括 一些 比如说 贝斯 和 一些 个别 乐器 的 独奏, or common 海顿, 就是 有 古典音乐 的 等等 的 东西。 所以 不同 的 配器, 不同 的 音色 都有 考虑。 但是 这 十首歌 是 非常 arbitrary 的, 有一个 非常浪漫 的 插曲 发生 在 这个 M P3 诞生 的 初期。 我 不确定 这里 边 有 多少 是 这个 car hints 本人 迎合 媒体, 而 就是 因为他 这 人是 一个 特别 老好人 的 这个 感觉, 可能 是 他 迎合 媒体 讲述 故事 有点 美化 了的 成分, 但是 确实 非常 有意思。 大概 就是说 她 有一天 去 附近 唱片 店老板 问 他 想听 什么歌 呢? 因为他 其实 就 想 买 一些 音乐 回来 做 测试。 他 本人 是一个 对 音乐 完全 不 咋 感兴趣 的 人, 他说 给我 来 一些 比较 全面 的 有 代表性 的 音乐, 然后 老板 肯定 就 觉得 他是 精神病, 但是 还是 给他 找 了 一些 比如说 找 了 一张 交响乐, 一张 爵士乐, 一张 流行音乐, 还 就是 在 听觉 上 完全不同 的 一些 唱片。 其中 有 一张 就是 这个 Susan vega 的。

带有 这么 一首歌 的 唱片, 叫 tom's dinner。 The day on the corner, I am waiting at the counter for the man to pour the coffee, and he feels that only half way, and before I even I argue, he is looking out the window in in.

我 这歌 是一个 纯粹 的 清唱, 没有 伴奏, 听起来 非常简单, 但 这 却 成了 这个 压缩算法 要 越过 的 一个 巨大 的 鸿沟。 因为 这个 时候 这 群 德国人 已经 非常 自信 的 认为 他们 已经 处理 好了 绝大多数 音乐 的 压缩。 因为 在 双盲 测试 中都 大部分 的 音乐 都 可以 取得 很 好的 效果。 但是 他们 就 始终 过 不了 tom liner 这首歌 的 这一关, 就是 这首歌 压出来 听, 大概 会 是 这个 样子。

这首歌 伴随 了 他们 一年。

多 的 时间, call high 怀疑 自己 可能 至少 听 了 3000遍。 这首歌 就是 被 压缩 的 很 糟糕 的 版本。 最后 为了 满足 这首歌, 他们 优化 了 很多 东西。 比如说 包括 它的 这个 立体声 相关 的 逻辑, 还有 它 最 关键 的 滤波器 组 的 频率 分割 点 等等等等。 最终 他们是 顺利 的 把 这个 歌 也 给 压缩 成功了, 算是 过关 了。 这个 事情 过了 之后 很多年, 他 有一天 在 一个 音乐会 上 终于 见到 了 苏赞 本人, 并且 听到 了 苏丹 vega 本人 这首歌 的 现场 的 清唱。 事后 回忆 他说 虽然 这歌 他 已经 听 了 无数遍, 但是 现场 听到 他 演唱 的 时候。

依然 还是 觉得 很 好听。

最后 我们 还是 想说 回到 这个 陈旧 这件 事儿。 就 这些 低码率 的 M P3 的 声音 特点 当然 是 存在 的, 但是 他 没有 办法 被 怀旧。 这 不仅仅 是因为 我们 没有 足够 长久 的 声音 体验 来 形成 某种 文化 训练。 实际上 今天 的 年轻人 并不需要 真的 听 过 很多很多 的 磁带, 很多很多 的 黑胶, 才能够 感受到 那种 声音 的 陈旧, 那种 成就 是 固有 的。 或者 用 我本人 比较 警惕 的 一个 说法, 就是 叫 是 很 自然 的。

而 M P3 的 声音 是 人类 进入 数字世界 所 付出 的 一个 代价。 这个 代价 不是 对不上 焦 的 照片 或者 是 消 了 磁 的 磁带, 它是 人类 针对 自身 感官 的 一种 经济 治理, 它是 一种 精巧 的 偷工减料。 而 这种 偷 和 捡 恰恰 是 来自于 人类 对 自身 感官 的 把握, 从而 进行 对 自己的 hacking, 一种 self hacking。 这个 事儿 和 新旧 没有关系, 就是 他是 非常 聪明 的, 非常 武断 的, 甚至 有点 偶然 的, 所以 我们 没有 办法 对他 唤起 任何 乡愁 式 的 情绪。 M P3 的 算法 让 我 意识到, 我们 今天 生活 于 其中 的 这个 赛博 世界 的 大厦, 根基 还真 就 不是 这个 零 和1, 不是 数学, 不是 我们 对 这个 物理 世界、 客观 世界 的 把握。

而是 我们的 感官。

就是 它 最底层 的 算法 是在 面向 我们 耳蜗 里 那个 细长 的 绒毛 和 我们 到 今天 也 知之甚少 的 脑神经 等等。 科学 对 生产力 的 解放, 在 客观 世界 里 可以 是 一日千里, 斗转星移。 直到 它 推进 到 我们 人机交互 界面 这 一层, 他 又 只能 回到 缓慢 的 爬行。

就 想到 这些, 如果你 再 跟 我 谈论 这个 意识 的 上载 和 保存 什么什么 之类 的 话题, 我 就会 觉得 非常 的 困惑。 我不知道 这 句 话 里 的 意思 是什么 了。 你 明白 就是 正如 我 没法 想象 离开 肉身 的 音乐 是什么, 就 没法 想象 纯粹 的 音乐 是什么。 对 数字 技术 的 发展 就 直到 时间的尽头, 它 能 超越 我们 肉身 的 鸿沟 吗? 我在 想他 能 超越 吗? 如果 能 的话, 他 那个 时候 到底 是一种 什么 存在 在 观察 和 聆听 呢? 那个 时候 的 我们 到底是什么 呢? 因为 我们的 数字音频 早 已经 不是 对 物理 世界 空气 震动 的 一个 保存, 或者说 是 这种 保存 和 再现, 它 在 经历 一个 非常 精巧 而 武断 的 无法 越过 的 人类 滤镜。

今天 我们 建设 这个 赛博 世界, 我们在 干 的 事儿 就是 一砖一瓦 的 倒转, 这个 客观 和 感官, 我们 再 把 地面 和 角 对齐。 所以 如果 黑客帝国 真的 发生 的话, 它 确实 应该 是一个 湿漉漉 的、 脏兮兮 的 感官 帝国。 而 赛博 世界 的 来临 比 你以为 的 要 早。 1995年7月14 号, carl hinds brand berg 和 他在 爱尔兰 根 的 研究所 的 同事 们 一起, 决定 把 他们 呕心沥血 研发 了 很多年 的 这种 音频 压缩算法 的 文件扩展名, 根据 他们 这个 行业标准 的 全称 mpeg layer 3命名 为 点 m p 3。

感谢 收听, 不 在场 你可以 通过 泛 用 型 播客 客户端 订阅 收听。 如果 你喜欢 这 期 节目, 希望 你可以 分享 给 你的朋友, 也 欢迎 你 为 本 节目 捐款, 增加 它 存续 下去 的 概率。 一次性 捐款 不 低于 300元 的 朋友, 请 在 支付宝 附言 或者 对话框 中 留下 你的 电子邮箱, 你 可能 会 收到 我 不定期 的 邮件 捐款 二维码。 本期 节目 的 歌单, 包括 所有 提及 的 链接, show notes 以及 这个 电台 的 一切, 请 访问 他的 网站。 不 在场 点 X Y Z, 不 在场 点 X Y Z, 我们 下期 再见。