Still, the common value to the brightest st. Mind is creating technology. That's one of a kind.
We live in a digital age where A I is so fur. Now can you see this building easier? And let's come with me. Show the log.
欢迎 收听 硅谷 101, 我是 红军。 大家 刚刚 在 片头 听到 的这 首 曲子, 是 我们 要求 A I 根据 硅谷 101的主题 来 创作 的 一首 爵士乐。 他的 歌词 旋律 还有 演唱会 都是 A I 自己 生成 的。 你们 觉得 怎么样?
这 期 我们 来 聊 最近 在 生成 音乐 方面 非常 有名 的 一个 音乐 模型, 就是 sono。 它 可以 大家 只 输入 一段 非常简单 的 提示, 就 生成 一段 非常 好听 的 音乐。 最近 在 我身边的 圈子里 也是 很 火, 因为 大家 都在 测试, 然后 感觉 这个 测试 的 效果 还 不错。 但是 我们 都是 非专业 的 专业 的 人士。 是 怎么 看待 zu N O 生成 音乐 的 效果 的那 今天 我们 有请 到了 冯建 鹏, 他是 youtube 上 非常 有名 的 音乐 分享 的 youtube r 他的 账号 叫做 刀刀。 他 同时 也是 美国 音乐学院 打击乐 讲师 和 美国 百老汇 的 打击乐 演奏者。 欢迎 冯 老师, hello 冯 老师, 你好你好。
感谢。
还有 一位 也是 专业 的这 是 meta music 的 tech lid, 他是 Roger 陈。 Hello rogier 你好。
你好, 谢谢 邀请。
我知道 其实 除了 苏宁 以外, 还有 其他 的 几款 生成 音乐 的 软件。 最近 大家 还有 用 其他 的 什么 软件 吗? 你们 用过 哪些, 我们 要不要 先 总体 的 聊 一下?
我 听说过 几家, 比如说 audio stable audio, 还有 一些 开源 的。 比如 像 refused meta 之前 出的 music jam, 还有 google 的 muc L M OpenAI 以前 做 的 一个 joke box。 但是 其实 他们 感觉 效果 都 差不多, 可能 都是 互相 借鉴 出来 的那 为什么。
最近 感觉 是 苏宁 是 最 火 的 呢?
我的 推断 第一点, 酥 糯 他是 最 胆大 的, 他 首先 敢 发布 他们的 A I 生成 音乐 的 模型, 像 其他 大公司, 比如说 facebook、 google, 其实 我们的 技术 肯定 是 遥遥领先 的。 但是 我们 有 很多 的 考虑, 除了 说 把 这个 技术 把 它 给 发布 出去, 还要 考虑 它 可能 会对 社会 造成 的 影响。 尤其 音乐, 它是 一个 不像 文字 或 图像, 它的 版权 问题 其实 是一个 非常 敏感 的 一个 话题。 如果你 有 海量 的 数据, 假如 说 你 把 世界上 所有的 歌 都 用来 训练 一个 模型, 那 它 肯定 是 能够 做出 一个 很 好的 效果。 但是 他 就会 可能 面临 很多 的 法律问题, 甚至 说 你 把 这 整个 音乐 产业 的 格局 改变 了, 蛋糕 就 这么 大。 最后 怎么 去 分 跟 唱片公司、 出版商 去 分钱。 这些 问题 如果 没有 想 清楚 的话, 后果 可能 不堪设想。 所以 我 就 认为 苏诺 他 胆子 是 最大 的, 所以 他 先 把 这个 模型 先 公诸于众, 我们 就 静观其变, 看一下 他们 会 怎么 发展。
听起来 很 危险, 其实 不是 技术 问题是 版权 问题, 大家 还没有 把 全部 的 劲儿 给使 上。
对对对, 是的。
对。 接下来 我们 听 一听 测试 的 效果, 大家 先 有一个 直观 的 感受, 然后 我们 看看 现阶段 这些 文字 生成 音乐 的 模型 发展 到了 一个 什么样 的 阶段 了。 因为 冯 老师 我知道你 在 自己的 youtube 上 其实 已经 发 过了 两次, 可以 说是 sono 的 一些 测试 的 分享。 今天 你 给 硅谷 101的听众 们 也 做 一个 现场 的 测试。 我 其实 自己 也 玩 过 一下, 就是 让 它 生成 一些 什么 求职 的 音乐、 失恋的 音乐、 悲伤 的 音乐、 说唱乐 摇滚乐。 但是 因为 我们 就是 小白, 就是 图 个 一 乐, 所以 今天 您 的 生成 我希望 是 尽可能 专业 的, 有 难度 的, 然后 我们 来 挑战 一下。
好的, 没问题。
好, 那 我们 开始 我 也可以 帮你 出 一些 题。
可以, 没问题。
因为我 现在 发现 它的 生成 音乐 都是 非常 欢快 的, 然后 它的 调度 非常 的 普通。 我 今天 试 了 几次 让 他 生成 摇滚乐, 但是 我 失败 了。 他 最后 生成 的 那个 音乐 不是 特别的 摇滚, 所以 我想要 生成 比如说 比较 悲伤 的 摇滚乐, 你可以 在 一些 专业 方面 再加 一些 限定。
OK, 那 我 试一试 OK, 然后 歌词 就让 他 自己 写。 因为 实话 说 他 歌词 就是 OpenAI 的 那个 东西, 所以 让 自己 写 就行了。 好的, 然后 比如说 sad story.
对。
style of music, 那就 rock 就可以 了。 还需要 有 其他 更 具体 的 吗?
我们 再 给他 限定 一下 主题。 比如说 限定 找不着 工作, 或者 就是 工作 没有 收到 面试 OK 对。
看 能不能 再 限定 一下 他用 的 乐器, 或者说 什么 年代 的 摇滚, 80年代 还是 90年代, OK O K O K O K classic rock 之类 的。 比如说 B P M 什么, 看 能不能 他 能不能 理解, 多 几个 角度。
B P M 因为 悲伤 一点, 可以 给 它 显得 慢一点, 比如说 80, 然后 乐器 的话 我们 规定 一下 有 吉他、 贝 joong keyboard, 然后 rock classic rock OK。 好, 现在 这个 歌 出来 了, 我们 来 尝试 一下。 先 看看 第一版。
这个 生成 速度 真是 很快。
对, 是的, 我 来 试一下。
struggling the shadows.
他 取 了 一个 名字。 是的, 这个 名字 取 的 还 比较 有 艺术 感。
Welcome back to the world making.
But all I see is done this.
I send out right to me.
Can find my way.
OK 大概是 这么 一个 感觉, 我 觉得 从 它 生成 词 来说, 它的 词 肯定 跟 我的 主题 是 符合 的。 但是 从 音乐 的 角度 来说, 首先 比如说 它 这个 词, 咱们 当时 输入 指令 的 时候 需要 有一个 set story。 但是 他的 音乐 当中, 实话 说 我没有 听出 太多 的 态度, 就是 他 音乐 本身 所以 就是 在 一个 average level 的 一个 曲子, 他 可以 符合 我们的 要求。 它 有一个 rock, 至少 说是 这个 意思。 80BPM 没有 测, 但是 我 感觉 可能 应该 是 比 他 快, 肯定 是要 比 80要快。 所以 我 估计 他的 B P M 不知道 是不是 因为 我们 写 在 这儿 了, 但是 他 应该 不是 很 能 理解 这个 问题。
作为 曲子 本身, 因为我 之前 测试 了 很多 中文 的 歌曲, 我 觉得 英文歌曲 和 中文歌曲 比, 可能 英文歌曲 还是 稍微 的 更 成熟 一点, 就是 它 对 文字 的 理解 转换成 音乐 要 更 成熟 一点。 但是 就 音乐 本身 而言, 从 摇滚乐 的 结构 上 来说, 比如说 它 两个 verse, 咱们 就 中文 叫 主歌, 然后 后面 course 是 副歌, 感觉 他 从 主歌 到 副歌 之间 是 缺少 一个 递进 的, 缺少 一个 推进 的。 我们 可以 听 他的 主歌, 然后 直接 就 进了 副歌。 无论是 从 器乐 上 向上 的 一个 英文 管 的 叫 build up 对 吧? 就是 中文 没有 一个 完全 相关 的 词儿, 就是 缺少 一个 往 上推, 就是我 到了 高潮 之前 我 总得 有一个 攒, 然后 爆发 的 这个 过程, 它 缺少 最后 这一 推。
相反 他 倒是 在 两个 主歌 之间 进行了 一个 小小的 区分, 它 有 比较 好的 一个 间奏。 所以 我 觉得 相较 而言, 如果 是 人类 来做 这个 歌 的话, 可能 主歌 和 主歌 之间 的 情绪 上 的 变化 不会 那么 大。 但是 主歌 和 副歌 上 的 情绪 一定 是 变化 会 更大 一些。
然后 同时 稍微 说 的 玄学 一点, 我自己 其实 在 做 音乐 上 不是 一个 特别 玄学 的 人我 认为 一切 东西 其实 都是 可以在 某些 程度 上 被 解释 的, 或者 可以 我们 抓取 特征 然后 来去 阐述 它。 但是 在 这儿 咱 直观 的 说 一些 稍微 的 玄学 的, 就是我 觉得 这个 歌 和 真人 作曲 比, 最大 的 问题是 它 缺少 一个 态度。 或者 换句话 来说, 更深一层 的 意思 就是我 缺乏 一个 写作 的 动机。 比如说 我 要是 一个 真人, 我想 写 这一首歌, 那么 我 一定 是 有 一些 我 具体 的 原因 在 里面 的。 比如说 我 找不着 这个 工作, 所以 我 很 沮丧, 那么 可能 你 这个 歌 听起来 就会 更 丧 一点。 或者 我 可能 因为 找不到 工作, 然后 我 觉得 是因为 什么 原因, 所以 我 很 愤怒。 可能 这个 歌 本身 无论 演唱 的 方式 还是 他的 音乐 本身 就要 更 愤怒 一些。
这个 生成 的 音乐, 包括 我 之前 测试 给 我的 感觉, 就是 它 可以 满足 我的 基本 需求。 我的 所有 文字描述 可以 有, 但是 具体 把 它 在 音乐 作曲 和 编曲 当中, 怎么能 体现 人类 的 那种 情感。 目前 我的 测试 结果表明, 他 音乐 暂时 还没有 做到。 为什么? 我 觉得 这个 很 重要。
我们 可能 听到 的 很多 流行歌 也好, 或者 这些 摇滚 其实 已经 不完全 是 流行音乐 了, 他的 音乐 分类 会 更加 的 特殊 一点, 它是 一个 专门 的 一个 音乐 分类 了。 但是 很多 音乐 或者说 之所以 经典 的 音乐 它 可以 流传 下来, 其实 更多 的 是因为 它 承载 的 人文 和 它 体现 的 态度, 所 带给 的 所有人 的 共鸣。 我们 觉得 我们 可以 带入 到 这个 歌 的 情绪 里面。 所以 有 一万 首 摇滚 的 歌, 可能 有 那 三首 就成 了 传世 的 佳作, 大概是 这么 一个 意思。 但是 目前 A I 的 这个 至少 咱们 测试 出来 的 这个 结果, 它 缺乏 的 是 最终 的 那个 让 我们 能 感觉到 共鸣 的 态度。 所以 他 可能 能够 写 出来, 但是 很难 在 行业 里面 出类拔萃。 因此 在 这个 程度 上 来说, 他 还没有 完全 的 能够 代替 人类 作曲家 的 这种 情感。
讲 的 非常 好, 但是 你 觉得 他 到达 了 人类 的 一个 平均水平 吗? 我问 这个 问题 是因为 我 觉得 你 刚刚 提到 了 有 一万 首 摇滚, 然后 有 三首 是 特别 出类拔萃 的那 其实 我们 看 人类 作曲, 他 要 表达 一个 情绪, 一个 共鸣, 包括 像 我们 创作者 要 去做 一个 爆款, 他 其实 是 首先 是 需要 积淀 的, 其次 它 也有 一点 玄学 跟 运气 的 成分 在 里面, 就 他 能不能 红? 如果我们 去 对比 现在 在 整个 音乐 圈 作曲 的 一个 平均水平, 你 觉得 他 达到 了 吗?
我 觉得 可以 说 差不多, 但是 问题 在 音乐界, 平均水平 这个 事儿 看你 怎么 来 看待。 比如说 我 有 一万 首歌, 然后 咱 大概 做 个 排名, 那么 我 抽 他 第 4000首到 6000首, 这个 中间 的 这个 水平 跟 他 去 比 可能 差不多。 这个 我 觉得 他是 可以 达到 的。 因为 人类 我们 写歌 的 时候 有 很多 比如 初学者 在 写歌, 或者 他 可能 刚 开始 的 技术 没有 那么 精进, 所以 也有 很多 水平 不是 很 好的 作品, 这个 都很 正常。 每个 人都 有 成长的 过程, A I 其实 也是。 但是 问题 就在于 在 音乐 这个 产业 当中, 你的 平均水平 可能 不足以 在 音乐 当中 出挑。 也就是说 你说 人类 的 我们 能够 想到 的 经典 的, 咱 就说 摇滚乐。
从 历史 到 今天, 我们 每个人 脑子里 能有 印象 的, 连 主题 带 歌曲名 带, 能 唱出来 的, 说 每个人 咱 能 说出 100首吗? 我 觉得 未必。 真的 那些 能 靠 它 吃饭 的, 能 靠 它 成为 一个 专业 的, 说 我是 靠 演 乐队 这个 曲子, 我 能 活 且 能 活 得很 好的, 对 吧? 咱 能 迅速 说出 100首或者 两百 首歌 吗? 我 觉得 顶多 200首普通人 也就 这样 了, 就是我 愿意 去 买票, 我 花钱 去 听我 有 这个 level 的 也就 这样 了。 可能 剩下 那 999 或者 什么 几 九万 手、 9000万手, 可能 它是 也 高于 平均水平。 但是 它 不足以 成为 这个 工业 当中 出类拔萃, 能 养活 自己的 一个 专业 的 一个 水准。 我 觉得 公平 的 说 它 可以 达到 平均。
但是 在 实际 应用 当中, 它 真的 投产 到 这个 音乐 产业 里, 他 能不能 作为 好的 摇滚乐 生存 下去, 这个 是一个 疑问。 但是 我在 有 很多 方面 我 对 这个 音乐 的 要求 没 那么 高。 比如说 我 现在 可能 做 一个 短 视频, 然后 我 就 需要 有一个 摇滚 类 的 风格 的 音乐, 然后 来 给我 作为 一个 铺垫。 它 就是 一个 背景音乐, 我也 不需要 它 出类拔萃, 我不需要 所有人 都 记住 它。 在 这种 情况下, 我 认为 现在 的 A I 已经 可以 达到 这个 作用 了。
我 对 他的 观感 是 这样的, 它 有一个 优势 就在于 现在 其实 很多 小制作 的, 主要是 影视 这方面, 它 其实 是 可以 从 很多 的 棉 半卷 的 音乐 当中 去做 的。 就是现在 已经 有 这些 很 大量 的 免 版权 的 音乐库。 那么 A I 和 免 版权 的 音乐库 相较 而言, 它的 定制 的 性能 会 更好 一些, 或者 可能 会好 很多。 因为 比如说 我想 生产 一个, 比如 我 今天 晚饭 相关 的 这么 一首歌, 你 要在 免 版权 库 里面 找到 一个 类似 主题 的, 说 我 就要 说 今天 的 晚饭, 或者 我 今天 就 想说 我是 北京人, 就 爱 想说 今天我 吃 了 一碗 炸酱面。 就 这个 事儿 的话, 你 很难 在 免 版权 的 这个 库 里面 找到 这么 贴合, 这么 实际 跟 它 直接 相关 的 音乐。 目前 的 A I 可以 解决 这个 问题, 但是 也 仅限于 此。 而且 还是 说 我们 目前 它 投入 成 产品, 然后 出来 以后, 本身 免 版权 的 音乐 它 能挣 多少钱? 它 在 这个 工业 当中 它的 经济利益 有 多大, 这个 是一个 问题。 A I 取代 的 这部分 OK 确实 是 好 一些。 但是 从 不同 的 要求, 不同 的 层级 来看。
还是 有 不同 的 需求 的。 讲 的 非常 好。 刚刚 其实 我们 还有 一些 细节 的 问题, 你说 你 写 了 80BPM, 它是 没有 办法 理解 的。 这个 指标 是什么?
他 就是 八十 拍 每分钟, 就是 我们 取 的这 一个 速度 就是 1234。 这 我们 数 拍子, 80拍每分钟 是 我们 对他 一个 要求。 而 速度 这个 东西, 其实 在 音乐 当中 可能 是 最 重要 的。 我 同样 一首歌, 你 把 它 速度 放慢 2到3倍, 本来 是 很 欢快 的 歌。 你 把 它 放慢 2倍到2倍 半, 可能 它 就 变成 了 一首 悲伤的歌。 本来 是一个 悲伤的歌, 你 把 它 加快 个 两三倍, 它 就会 变成 一个 很 快乐的歌。 这个 其实 之前 是 有一个 电影, 我 印象 中大 万里 中间 好像 有 这么 一个 桥段, 就是 他 本来 是个 哀乐, 然后 就是说 我们 现在 这 太矮 了, 我们 得 弄 快一点, 然后 再 把 哀乐 两 变成 了 两倍, 然后 就 发现 跟 我们 听 的 什么 金蛇狂舞 这 大个 的 这个 节日 的 歌 就 差不多 了。 有 很多 这些 具体 的 细节, 我 觉得 A I 可能 暂时 还 没法, 至少 从 目前 我 测试 的 结果 来看, 暂时 还 没法 控。 我相信 他 可能 有 这个 方式 能 控, 但是 我不知道 是 他的, 这 可能 Roger 可能 可以 帮 我 更好 的 适宜 一点, 为什么 他 暂时 没有 在 细节 上 能够 有 更多 的 把 控?
对 这个 问题 我也 非常 想 问 Roger, 首先 为什么 他 没有 办法 去 理解 80BPM? 其次 为什么 我们 觉得 他 还 不够 悲伤? 他是 不能 理解 悲伤 的 意思, 还是 说 现在 他的 生成 的 方式 是 做到 的?
OK 我 就 接着 冯 老师 刚刚 讲 的, 从 技术 角度 再 解读 一下。 其实 冯 老师 刚才 说 了 好几个 点, 一个点 就是说 这个 音乐 它 能够 加 一万 首歌, 可能 排 到 后 7800千 这样。 它 达不到 头部 的 这种 音乐 小姐。 这 音乐 产业 它 就是 一个 head heavy 的 一个 产业, 它 有 个 非常 long tail, 它 这个 只能 在 尾部 当炮灰 的 音乐。
那 这个 音乐 为什么 它 会 产生 这样的 效果? 其实 跟 它 大 模型 它的 训练 数据 是 有关系 的。 就是你 就 想, 你 要 训练 这样 一个 模型, 你 需要 收集 什么样 的 数据, 你 需要 有 文字 跟 音频 的 这种 配对。 你 要 告诉 这个 模型, 这首歌 它是 一个 悲伤 的 classic rock, 另外 一首歌 是一个 史诗 的 弦乐。 看你 需要 有 这样的 标记, 把 它 扔 到 这 模型 里面 去, 他 才能 去 学到 现在 业界 的 这些 数据库 其实 是什么 呢?
其实 就是 我们 刚刚 说 的 这些 免 版权 的 音乐库。 这些 realty free music, 比如说 shutter stock music, 还 叫 什么 ponder five, 他们 那种 你可以 交 个 年费, 然后 你 就可以 用 他们 音乐 了。 或者说 每首歌 花 个 30块钱, 可以 用 在 一个 视频 广 用 的 这种 场景。 他们的 音乐库 就 不 只是 说 把 音频文件 放上去, 还有 很多 mad data, 每 一首 音乐 它 都 有一个 简单 的 描述。 我们 可以 打开 那个 网站, 你 就 简单 看一下 就可以 知道。 就是说 每首歌 它 都 有一个 大概 二十几个 字 的 一个 描述。
在 我们 刚才 我们 去 输入, 比如说 我们 叫 一个 悲伤 的 音乐, 从 统计学 来讲, 它 就会 从 它的 训练 数据 中学 到 一些 悲伤 音乐 大概 对应 的 是 怎么样 的 音频。 就是 悲伤 这个 词 sad 或者 是 其他 的 什么 描述 悲伤 的 词, 都 可以 对应 到 某 一些 音频 的 一些 抽象 出来 的 一些 表达。 它 肯定 不是 把 音频 直接 copy 出来, 它是 会 进行 一些 自我 的 location 或 什么。 总之 它 会 排列组合 出 一些 跟 原来 不一样的 东西。 这些 就是 我们 刚 听到 的。
所以 他 从 本质 上 来讲, 他的 训练 数据 就 不是 头部 的 音乐。 所以 他 也不 指望 说 自己 能够 生成 Taylor swift 级别 的 那种 很 高品质 的。 他 觉得 我说 说 这个 跟 shat stock 的 这种 免 版权 音乐 效果 好像 差不多。 那么 从 模型 的 学习 角度 讲, 他 就 达到 任务 了。 所以 他们 会 认为 这个 模型 的 训练 是 成功 的, 这个 就是 为什么 这个 音乐 它 不是 很 出彩。
第二点 是 说 我们 听着 音乐 感觉 它 这个 build up, 比如说 有 个 worse 1 corus, 感觉 worse 1到worse one。 好像 有一个 很 明显 的 transition 到 verse two 到 cos 中间 的 过渡 就 很 突然, 这个 是 为什么呢? 我们 人类 在 作曲 的 时候, 通常 是一个 从 top down, 从 高到 低 的 一个 逻辑。 就是说 你 先 去 想, 我 这首歌 是个 A A B A form 对 吧? 或者 是 交响乐 几个 movement。
先 从 一个 很大 的 框架 去 界定 我要 做 一个 什么样 的 流派, 就是 什么样 的 大 的 框架。 再 在 每个 框架 里面 去 定 这个 verse 我要 一个 什么样 的 和弦 进行, cos 要 一个 什么样 的 和弦 进行。 然后 再去 想 这个 worse 的 配器 可能 要 稍微 安静 一点, covers 要 稍微 吵 一点, 这 是一个 从 高到 低 的 一个 逻辑顺序。 但是 我们 这个 大元 模型 它是 什么 顺序? 其实 我们 大家 都 用过 拆 gdpr, 他在 回答问题 的 时候 都 是一个 从左到右 的 顺序。
你 让 他 去做 一个 悲伤 的 摇滚, 他 就是 先 把 第一 秒 做出来, 然后 做 第二 秒, 做 第三 秒, 他 没有 一个 全局 观。 所以 就 导致 什么 呢? 他在 做 的 时候 OK 我们 现在 在 worse 1, 他 可能 这个 worse 一 它 有一个 限定, 我们在 worse 一 的 这个 状态 里面 做 着 做 着, 突然 这个 歌词 你的 输入 数据 有一个 方括号 worse two, 他 不行了, 下一秒 我 得 赶紧 进 worse two 了。 那就 怎么办?
那就 赶紧 看一下 有没有 什么 办法, 在 这个 拍子 上 就 进去 好了, 就是 选 一个 从 统计 意义 上 来讲, 一个 最 自然 的 方式 就 进去 了。 然后 他 就是 走 一步 算 一步 走 一步 算 一步, 所以 就是 有 一种 什么 感觉 呢? 就是 没有 大局观, 有的 时候 就会 很 突然 的 去 变。 甚至 有时候 比如说 我们 生成 了 八句 的 歌词, 我们会 期待 说 每个 小节 唱 一句, 他 可能 有时候 一个 小节 唱 了 两句 就 少了 一句 怎么办? 那就 只好 就 强行 的 就 一句 没了, 直接 加点 鼓 就 进 下一个 再审 了。 这些 就是 build up 的 一些 问题。
然后 一个 问题 就是说 这个 歌词 它的 灵魂, 这个 其实 怎么说呢? 也 不能 怪 苏 努 的 模型, 因为 毕竟 他们 也是 用 别人 的 文字 生成 的 模型。 假如 说 你 让 P P T 去 写 一个 关于 找不到 工作 的 歌词, 他 可能 也就 写成 这个 样子。 他 至少 能够 表达 出 我 主题 是 对的, 押韵 这些 东西 是 可以 达到 的。 但是 你 具体 说 灵魂 什么的, 其实 它 就是 根据 互联网 上 的 这么 千万 篇文章 把 它 给 抽象 出来 的。 大部分 东西 都是 没有 灵魂 的, 所以 这个 就是 一个 A I 的 一个 问题。 我 觉得 这也是 人类 可以 打败 A I 的 一个 关键 的 一个 突破点。
至于 B P M 为什么 理解 不了, 其实 这一点 我是 很 诧异 的。 因为 在 训练 书 里面, 我也 看过 他们的 训练 书 里面 确实 是 每 一首歌 B B M 都 标记 好的。 但是 至于 他 有没有 用到 这个 信息, 可能 他 没有 用到, 我 只能 说 他 觉得 这个 信息 至少 在 目前 不 易碎 的 版本 里面 不重要。 可能 以后 他们 会 逐渐 的 加速 更多 的 这种 限制性 的 条件。 我 只能 说 技术 上 这 是一个 很好 解决 的 问题, 只是 为什么 没有 解决, 是一个 让 我 诧异 的 点。
可能 就是说 B P M 这个 事情, 他 现在没有 把 它 放在 他的 优先级 里面。 如果 放在 优先级 里面, 他们 在 算法 上去 做 一些 调整, 或者 给他 加 权重, 这个 事情 最终 是 可以 被 解决 的。 是的, 刚刚 你说的, 其实我 还有 几个 部分 的 疑问, 冯 老师 其实 提到 了, 现在 整个 音乐 最大 的 问题是 他 没有 表现出 歌曲 的 情绪, 没有 表达 出 大家 的 共鸣。 其实 你的 答案, 我想你 的 一部分 是 想说, 是因为 我们 交给 他的 训练 数据 都是 版权 库 的 音乐, 这个 是 非常 的 平均水平 的那 我 假设 它 不是说 技术 上 不 允许, 他 只是 说 版权 上 跟 伦理 上 可能 不 允许 我们 把 像 Taylor swift 还有 历史上 经典 的 这些 摇滚乐, 什么 queens、 cold play 这些 非常 经典 的 歌曲 拿 过去 训练。 是不是 说 A I 也能 做出 类似 于 这些 经典歌曲 的 歌曲?
是的, 确实 就是 只要 训练 数据 足够 优秀 就可以。 但是 训练 数据 不 只是 音频 本身。 假如 说 你 把 spotify 的 歌 全部 都 下载 下来, 如果你 没有 对他 进行 适当 的 描述 的话, 他 也 不知道 去 学 什么。 你 必须 要 告诉他 这个 扣 play 的 这个 yellow 是 一首 什么样 的 歌。 下次 他 看到 同样 的 描述 的 时候, 他 就 知道 要是 那个 跟 yellow 类似的 歌 出来。
但是 如果 他 生成 了 一个 跟 yellow 非常 类似的 歌, 声音 还是 用 cosplay 唱 的, 这个 就是 侵权 了, 对不对?
对, 除非 可能 以后 跟 音乐人 达到 一种 和解, 音乐人 可能 发现 这个 已经 没办法 再 控制, 潘多拉的魔盒 已经 打开 了, 没办法 收回 去了。 那 他们 就 只能 你 生存 就 生存, 只要 给我 钱 就 好了, 可能 以后 就会 是一个 这种 情况。
对, 但 至少 我们 现在 来看, 音乐 人的 版权 库, 仅仅 是用 他的 这个 训练 数据 都是 不行 的。 现在 这个 在 业界 里面 还是 被 禁止 的。
是的, 现在 专门 有一个 组织 叫做 fairly trained。 凡是 一个 民间组织, 他 反正 也 盯上 苏诺 了, 他们 会 不断 的 去 看, 他们 prop 出来 跟 版权 音乐 很 相像 的 东西。 如果 做出来, 那 可能 就可以 去 告 他。
关于历史 上 一些 非常 经典 的 交响曲, 他们的 版权保护 是 怎么样 的。 我 印象 中有 一个 public domain 好像 是 有 一些 曲子, 它的 版权 是 50年.
应该 是 作曲家 去世 后 70年.
对 吧? 70年。
对, 但是 他是 那个 谱子 本身 是 免 版权 的, 可是 你 那个 谱子 最终 还要 找人 录。 比如说 纽约 爱乐 录 了 以后, 那 它 纽约 爱乐 对于 他 这个 录音 本身 还是 有 版权 的, 只不过 就 这个 谱子 你 谁 都 能演, 就是 这个 区别。 所以 如果你 最终 训练 的话, 除非 他 可以 做到 用 图像 来 训练 声音, 那么 这个 是 有可能 的。 这样的话 他 版权 可能 更 那 什么 一点。 如果 他 还是 用 声音 训练 声音 的话, 那些 录 这些 曲子 的 将 乐团 就 这些 组织, 他们 依然 还是 拥有 这个 版权。 所以 它 其实 还是 属于 版权 性质 的 东西。
理解 就是说 这个 软件 可以 用 一些 合成 数据。 我们 先 把 这些 曲谱 让 电脑 自己 录成 声音, 然后 再 用 这个 合成 的 录制 的 声音 去 训练 这个 大 模型, 这 样子 做 是 可以 的。
从 版权 上 说是 可以 的。 但是 这样 做我的 一个 忧虑 就是 他 可能 在 作曲 上, 我 感觉 可能 出来 的 效果 未必 特别 好。 原因 是 现在 哪怕 在 我们 音乐 行业, 我的 作曲 软件 的 模拟 声音 的 程度 都 不是 特别的 令 大家 满意。 我们 最好的 这些 什么 电影音乐 那个 的 还是 需要 找 真人 去 录。 是因为 你 本身 对于 这个 音色, 各个方面 的 演奏 的 具体 的 方法。 比如说 一个 小提琴, 它 可能 能 发出 什么 拨弦, 什么 揉弦, 它 可能 发出 很 多种 十几种 的 这种 不同 的 声音。 那么 在 演奏 当中 这些 细节, 目前为止 音乐 软件, 就 我们 作曲 的 这些 软件 还 达不到。
如果你 要 花 大量 时间 去 调 每 一首 曲子 的 这个 东西 的话, 我 觉得 可能 某些 方面 来讲 更 费时间, 对 吧? 你每 一个 乐器 都要 调 的, 你 小军鼓 滚 奏 怎么 打? 然后 什么什么 定音鼓, 什么 长号 怎么 吹, 怎么 出气, 那个 它 都是 有 很多 问题 的。 因为你 最后 目前 来看, 它 这个 软件 目前 都是 端 到 端的。 就是我 给 它 输入 一个 指令, 他 最后 给我 生成 的 是 音乐, 而 不是说 他 给我 生成 乐谱。 如果 他 要 生成 乐谱 的话, 可能 这方面 的 劣势 是 可能 没有 那么 明显。 但是 如果你 要 直接 给我 生成 音乐 的话, 你 音色 本身 和 演奏 方法 就是 非常重要 的。 你 同样 一个 音乐 水平 高 的 和 水平 低 的 演出 来, 我们 本身 观众 听着 就 已经 不一样 了。 那么 你 A I 这方面 如果 要是 是个 大 的 劣势 的话, 那么 对他 来说 困难 其实 也。
蛮 大 的那 刚刚 我们 提到 的这 一部分 非常 经典 的 乐曲, 就是 在 作者 本人 去世 以后 的 70年, 这 一部分 乐曲 是 可以 用 的。 这样的 一个 数据库 大 吗?
从 古典音乐 来说 还 可以。
对 唱片 行业 应该 是 50年代 才 发展 起来 的。 所以 你 这么 算下来 的话, 也就是 2020年 的 时候, 最早 的 时候 像 猫王, 再 早 一点 的 一些 爵士乐 的。 先驱 一点 的 可能 会有 一些 录音, 但是 他们 首先 音质 很差, 你 用 那些 录 出来 的 也 不符合 现在 的 我们的 审美 标准。 所以 可能 再 等 个 70年, 等到 我 现在 应该 可以 用了。
古典乐 古典。
乐曲 的 是 足够 多 的对。
曲子 足够 多, 但是 录音 不够。 对。
那 我们 接下来 测试 一下 古典乐, 我们 刚刚 测试 的 是一个 歌曲。
摇滚乐 可以 没问题。 然后 我们 这回 用 instrumental, 我 尝试 着 规定 一下 它的 乐器。 因为 咱们 都 用 器乐 了, 看看 它 可不可以 有 好的 写 的, 是 希望 它 生成 一个 交响乐团 英雄 为 主题 的。 大家 如果 交响乐 爱好者 的话, 可以 猜 一下 我 这 是从 哪儿 来 的。 乐曲 规定 的 是 弦乐 木管 铜管 打 雀 里 有 定音鼓, 然后 还有 其他 的 打 觉, 这个 应该 还是 比较 常见 的 一些 配置, 大概是 这种 感觉。 然后 我们 生成 一下 试一试。 好, 我们 来 试一试 第一首 曲子。
OK, 我 觉得 其实 这 差不多 了。 我们 来 听 一听 第二首。 因为 它 有的 时候 两首 可能 生成 完了 以后 差别 还 挺 大 的, 听听 他 第二首 生 出来 啥样。
OK, 我 觉得 可以 了, 我 觉得 相较 而言, 第二首 比 第一首 听起来 更加 像 英雄 一些, 同时 第二首 比 第一首 听起来 稍微 的 更 像 交响乐 一点。 但是 大家 可能 第一个 观感 可能 和 我 差不多, 就是我 听到 他们 都 觉得 像 电影 配乐, 比如说 任何 的 描写 英雄 的 电影, 然后 给 他们 做 这个 配乐, 气氛 上 是 差不多 的, 和 真正 的 这个 交响乐 可能 还 差一点。 要不 我 再 尝试 一下, 咱 再 生成 一下, 我 把 这个 写 一下 classical, 我 稍微 标 一下 时间, 然后 我 再 写 一下 18世纪, 写 19, 18有点 太早 了, 因为 这个 可能 会 更 详细 一些。 OK 然后 咱们 再来 生成 一下 试一试 O K 好, 确实 速度 很快, 速度 惊人。 然后 我们 来看 一看 它 这个 19世纪 的 降雨。
OK 这个 要 规定 了 时间 以后, 确实 比 之前 那个 要好 很多。 但是 这个 手 里面, 我 反正 目前 肯定 是 没有 听到 任何 的 跟 打击 相关 的 或者 什么 定音鼓 这些 的。 主要 还是 低音 的 弦乐, 它 主要是 弦乐 为主, 木管 和 铜管 至少 他 要 用 的话 也是 混 在一起 的 感觉。 音色 上 也 不是 特别 听得出来, 它 比 之前 相对来说 更 接近 于 古典音乐。 是因为 它 音乐 的 旋律 的 写作 上面 以及 它的 律动 上面, 整体 的 不像 之前 那个 重复性 那么 高, 之前 是 律动 一直 是 重复 的, 然后 它的 旋律 大部分 的 形式 也是 重复 的, 只不过 有一点 高低, 所以 更 像 电影音乐。 然后 19世纪 的 这个 生成 以后, 稍微 有一点 动机 慢慢 发展, 就是 有点 这个 感觉 了。 但是 距离 真正 交响乐 的 形式 可能 还差 的 会 多一些。 当然 我相信 如果我 给他 写 的 更加 详细 的 提示 词 的话, 可能 它 生产 效果 会 稍微 更好 一点。 但是 从 写作水平 上 来说, 目前 大概是 这个 状态。
我 印象 中 这个 写作水平 比 你 最 开始 就是你 在 你的 视频 demo 里面 测试 的 那个 写作水平 好像 已经 提高 很多 了。
对, 但是 他 有 这个 问题, 就是我 生成 的那 这个 里面 也有 一些 还 可以 的, 它 就 有点 类似 于 抓 彩票。 比如说 像 这个 里面 它的 音乐 写作 的 水平 要好 一些。 但是 我 期间 对它 比较 重要 的 这些 乐器 的 要求, 它 其实 反而 没有 达到。
理解。
对, 所以 如果 我是一个 甲方, 那么 我 给他 要求 乙方 做 这个 工作 的话, 我会 认为 乙方 没有 达到 我的 要求。 因为 有 一些 硬性 的 规定 他 暂时 还没有 做到。
你 有可能 把 这个 曲子 拿出来 分 声部, 然后 你 自己 再 添加 一些 乐器 进去, 把 它 改成 一个 按照 你的 提示 词, 甲方 能 接受 的 一个 音乐 水准 吗?
有可能, 但是 那个 工作量 其实 也 蛮 大 的这 是 有可能 的。 所以 现在 大家 经常 会 开玩笑 说, 拿 他 给 自己 找 灵感 比较 合适。 就是 A I 写 了 一段 音乐, 我 抓住 这 四五个 小节 或者 什么, 我 拿 它 作为 一个 我 写作 主要 的 音乐 里 叫 动机。 我们 可能 叫 一个 小的 主题, 还是 英文 叫 motive。 然后 我 拿 它 拓展 成 一个 很大 的 交响乐, 这个 是 可以 的。 但是 如果 靠 它 直接 生成 作品 的话, 反正 目前 这个 测试 的 结果 和 交响乐 的 差距 还是 蛮 大 的。
总体上 你 给他 打 多少 分?
总体上 十分 的话, 我 觉得 看 从 哪个 方向 来说。 他 因为 毕竟 没有 达到 我的 对他 乐器 上 的 要求, 所以 我 可能 给他 五分。 他的 写作 听 感 上 来说, 我 觉得 可以 有 七分 6到7分 左右, 这个 状况 就 至少 听起来 很 像 了。 但是 如果我 要是 做 一个 要求 到 要求 来说 的话, 那 我 可能 觉得 他 不到 6分就是 不及格。 因为 硬性 的 一些 标准 他 没有 达到。
那 Roger 你怎么看? 他 可能 miss 掉了 我们 一些 要求 他 使用 的 乐器。
对我 可以 从 我 角度 来 评判 一下。 首先 第一点, 为什么 第一次 我们 生成 的 特别 像 电影 配乐。 第二 是 好像 我们 加 了 eighteen century 还是 什么的, 好像 效果 会好 很多。
这个 其实 又 回归 到 训练 数据 这个 问题。 我看 了 一下 他们 训练 书 一集, 刚才 他们 有 两类 弦乐 的 流派, 它 其实 有 两种 不同 的 标签。 像 对 这种 古代 的 古典音乐, 就是 那种 大师 级别, 它 专门 有一个 流派 叫做 master works, 它 都不 叫 什么 orchestra 或者 叫 什么 strings。 可能 他在 理解 上, 你 必须 得 给他 一个 他 能 理解 的 这个 词, 他 才能 对应 到。 他 知道 我要 从 那个 角度 去 推理 出 这个 音乐 出来。 如果你 给 的 是 像 orchestra 或者 procuration, 其实 这些 经常出现 在 他们 因为 这个 训练 续集 有 一些 巨大 的 给 电影 配乐 的 音乐, 他 就 很 容易 去 匹配 到 那 块儿 上去。 所以 可能 这 有一个 提示, 就是说 如果我们 想 生成 好的 音乐, 需要 去 研究 一下 它的 数据集 是 怎么 标的, 可以 从 里面 找到 一些 灵感。
第二点 就是说 为什么 我们 要求 的 乐器 它 没有 办法 完全 的 重复 出来。 比如说 我们 要求 的 这个 木管 和 铜管乐。 但 他 好像 混 在一起 也 听不出来 到底 是个 什么 鬼。
其实 原因 就是 什么 呢? 就是 他在 生存 的 过程中, 他 并不是 一个 乐器, 一个 乐 生成 的 这个 大 模型。 他 听 了 很多 的 录音 之后, 他 大概 抽象 出来, 音乐 是 有 很多 的 很小 段 的 音频 的 基本 元素, 把 它 给 拼凑 出来 的。 他的 一些 排列组合 可以 排列 出 一个 人类 称为 音乐 的 东西。 所以 他 就 去 学 了 做 这样 一件 事情, 他 并不知道 什么 叫 铜管, 什么 叫 木管。 他 就 知道, 你 告诉我 这个 首歌 features would wind and brass。 他 就是 听起来 是 这个 样子 的那 我 就 去 学, 只要 大概 听起来 这 样子 的 东西, 那 我就是 满足 我的 要求 的。
所以 我 觉得 可能 以后 的 发展方向 是 一方面 在 声源 分离 这个 技术 上 也 越来越 成熟。 就是说 人们 可以 把 这些 现有 的 录音, 把 它 给 一轨 的 stem, 把 它 全部 分离出来, 然后 再 单独 的 去 训练。 这样 可能 会对 每 一种 乐器 理解 会 更 深入 一些。 至少 现在 他们 毕竟 很 赶着 上线, 所以 不能 指望 太多。
然后 说到 刚才 最后 一点, 就是 给 音乐人 找 灵感, 这个 还是 可以。 但是 现在 怎么说呢? 现在 它 只 支持 一种 输入 方式, 就是 文字 的 输入。 其实 同样 一套 架构 可以 也 去 支持 这种 音频 书。
假如 你可以 去 输入 一首 classical music, 找 一个 莫扎特 的 音乐 输进去, 然后 你说 我要 加点 电子鼓 进去, 然后 让 他 看 他 生成 成 什么 样子。 可能 这就是 一种 对 音乐人 来讲 可能 更 有用的 一种 东西。 但 现在 它是 一个 非常 大众化 的。 它 假设 你的 用户 是 完全 不懂 音乐 的, 只 知道 文字 输入。 那么 现在 它 可能 是一个 从 商业化 角度 讲 是一个 比较 成功 的 一条路。 再 往后 我会 相信 会有 很多 的 别的 公司 去 尝试 这种 精分 市场, 针对 音乐人 能够 发布 一些 更好 的 产品。
对, 那 冯 老师 从 你 自己 来看, 你 看到 sono 这个 产品 你是 兴奋 还是 恐慌, 还是 觉得 测试 一下 就 那样。 其实我 是 想知道 音乐人 他的 心里 是 欢迎 这 类产品 的, 还是 说是 有 一点点 抵触情绪 在 里面 的。
首先 说 我 肯定 不能 代表 所有 音乐人, 所以 我 只能 代表 我自己。 所以 音乐人 这个 群体 他 到底 怎么 一个 想法, 我是 知道 前些 日子 纽约 那边 好像 有 二百多个 艺术家 联名 要 抵制 A I 这个 事儿 其实 已经 出来 了, 是个 新 所以 可以 看到 它 确实 对 我们 行业 是 有 一定 的 冲击 的。 我自己 整体 的 态度 是 谨慎 乐观。 就是我 觉得 第一 就是 我们 没法 抗拒 这个 洪流, 就是 历史 发展 就是 必然。 它的 工业化 的 程度 是 一定 能够 解放 人类 的 生产力 的。
说 的 有点 玄乎 了, 但是 细节 上 就是说 我 现在 写 一首 曲子, 我 可能 需要 有一个 很 好的 一个 主意, 一个 idea。 然后 我需要 花 很长 的 时间 把 它 写成 一首 曲子 谱出来, 然后 再 花 很长 的 时间 去 录 出来, 然后 这个 project 这个 项目 才能 完成。 现在 有了 这个 A I 以后, 可能 可以 迅速 的 提高 我 这个 速度。 作曲家 能有 更多 的 时间 真的 去 想 这个 曲子, 而 不用担心 那些 细枝末节 的 东西 等等。 就 包括 一些 低成本 的 这些 音乐 制作, 然后 我 觉得 他 真的 是 可以 的, 非常 好的, 很 有 发展前景。
但是 同时 我 对 这个 事儿 也 不是 特别的 恐慌, 是 在于 像 之前 rather 咱们 聊 的 时候 也是 这个 原因, 就是 人类 还是 有 一些 自己 独特 的 一些 特性。 目前 A I 至少 说 它的 模型 这个 算法 可能 暂时 做不到。 当然 它 未来 你 有可能 是 几个 模型 一起 混。
比如说 我知道 的 就是 小 样本, 它 怎么能够 提高 他 学习 的 效率, 这个 是一个 很大 的 问题。 包括 它的 逻辑 推导 性, 就 至少 目前 这个 A I 我知道 程序员 以前 符号 主义 他们 可能 逻辑 更 那 什么 一点。 但是 现在 的 这个 A I 就是 它 不是 以 一个 逻辑 推导 为 思考 方式 的 这么 一个 东西。 但是 很多 的 音乐 其实 它是 有 很 严谨 的 明确 的 逻辑 在 里面 的。 如果我 不能 从 这个 方式 去 思考 的话, 那 我 只能 是 去 他 模仿 一个 形式。 但是 人类 的 真正 的 思考 的 能力, 以及 我们 2000年 来 攒 下来 的 有迹可循 的 这些 文化 上 的 积淀。 人类 也 不是说 我 就 出生 以后, 我 从零开始 就 自己 研究所 有的 事儿。
人类 的 这个 发展? 音乐 领域 上 来说 至少 也得 有 2000年 左右, 至少 说 1000年 肯定 没问题。 所以 我也是 有 之前 1000年 技术 积累 的, 人类 也是 在 这个 程度 上 持续 在 发展 的, 还是 有 一定 的 优势 的。
我 觉得 目前 就 我的 视角 来看, 除非 A I 可以 跨越 它 现在 基于 统计学 的 这么 一个 壁垒。 因为 现在 咱 说 统计学 这个 事儿, 我 感觉 还 不是 一个 纯 纯粹 粹 的 智能, 它 更多 的 是一个 统计。 比如 有 很多人 说 阿尔法 狗 像 这种 东西, 它 可以 很快 取代 人类。 是的, 因为他 目的 明确, 他 就是 算 自己 那个 棋, 他 只要 有 足够 多 的 演算, 他 能 算 到 最终 我 一个 目的 要 赢 就可以 了。 他用 大量 的 数据 算出 最佳 路径, 算 概率 可以, 但是 音乐 产生 没有 一个 说 我 唯一 的 路径 或者 我要赢 要 怎么样, 它 太 分散 了。 所以 除非 人工智能 真的 发展 出了 智能, 他 有 自己的 意识, 他 有 创作 的 原因, 他 有 这个 情绪, 有 创作 的 动力, 那么 人类 可能 才会 真正 的 受到 威胁。
就 作为 一个 整个 行业, 当然 个人 可能 已经 有人 会 受到 威胁 了, 这个 我 认为 是的。 但是 整个 这个 行业 所 取代 人类 的话, 我 觉得 我不 担心。 因为 当 它 出现 智能 的 时候, 且 不关 我们 学 音乐 的 事儿, 其他 行业 的 危险性 更大, 或者 整个 人类 的 危险性, 它 真的有 自主 意识 的话, 那是 整个 人类 的 危险, 那就 不是 我们 音乐 行业 自己 孤军奋战 的 问题 了。 而且 我相信 在 出现 这个 事儿 以前, 人类 一定 会 用 自己的 法律 和 我们的 道德 等等 去 规范 它, 去 约束 他。 我们是 在 一个 框架 下去 相对 安全 的 去 发展 的。 所以 我 对 他是 保持 谨慎 的 乐观, 我 觉得 他是 一定 会对 我们是 有 帮助 的, 我们 没法 抗拒, 但是 距离 对 我们 有 足够 的 威胁。 完全 取代 我们 那个 路 非常 的 长。
然后 我 注意到 现在 我们 用 苏诺 他的 生成, 它的 英文 就是你 刚刚 生成 的 几个。 我 觉得 他的 英文 的 生成 效果 是要 明显 好 于 中文 的。 今天 听众 们 听到 冯 老师 生成 的这 两首歌, 我 觉得 还是 属于 水准 非常 高。
好的, 如果 去 听 一下 我自己 生成 的 歌曲, 如果 大家 需要的话, 我 也可以 放 一下 非常 的 口水歌, 感觉 非常 的 普通。 所以 开始 为什么? 就是我 在 出题 目的 时候, 我说 我 希望能够 加上 悲伤 的。 就是 因为我 发现 我 即使 给他 一个 非常 失恋的 场景, 要 写 的 非常 的 自嘲 难受, 他 都 会给 我 整 的 非常 的 欢快。 还有 一部分 就是我 不知道为什么 中文 他的 歌曲 的 生成 会 比 英文 整体 听起来 更加 的 口水歌 一点。 这个 是因为 训练 数据集 的 问题 吗?
对我 觉得 具体 的 生成 质量 肯定 是用 训练 数据集 来 解释 是 比较 好的。 因为 理论上 从 模型 角度 来讲, 英文 和 中文 并没有 本质 的 区别。 高兴 和 悲伤 也 不会 导致 你 用 两套 不同 的 模型 去 胜任。 可能 免 版权 音乐 他们 就是 偏向 于 欢快 的。 因为你 要 用 在 广告 里面, 很少 人 会 用 很 悲伤 的 音乐, 可能 他 就会 有一个 buyers 在 这 里面。
理解, 刚刚 其实 冯 老师 因 也 提到 了, 有一个 是 非常 有 逻辑 的, 比较 难 的 那种 音乐。 我看 之前 您 在 那个 视频 里面 有 尝试 做 赋格 的 生成, 现在 有 生成 成功 吗?
有的 听起来 比较 像。
我们 听 一下。
可以, 我们 想 试一下 吗? 用 这个 生成 一下。
好, 试一下。 可以, 你 要不要 再 试? 以前 先 跟 大家 讲 一下 什么 是 副歌, 然后 给 大家 播放 一个 历史上 比较 标准 的 这种 副歌 的 音乐作品。 然后 我们 再 对比 一下, 听 一下 A I 生成 的 副歌。
可以 副歌 其实 它是 一种 作曲 的 形式, 更 确切的说 它 其实 是用 对位法 的 方式 来 作曲。 我们 现在 大部分 流行歌曲 是 这么 一个 规则, 就是我 上面 生成 一 旋律, 然后 底下 我 再 给 它 配 和弦, 是 这么 一个 对比。 但是 副歌 它 其实 不是 考虑 的 副 格, 它是 考虑 的 比如 每 两个 音 之间 的 关系, 这 两个 音 如果 要是 和谐 的话, 下面 怎么 发展到 不 和谐, 然后 怎么 从不 和谐 怎么 再 解决 到 和谐。 所以 它 在 副歌 的 写作 当中 会有 很多 非常 严格 的 条条框框。 比如说 什么 平行 的 三度 不能 超过 三组, 不能用 平行 的 纯 5纯8, 就 很 理论化 的 一些 东西。 所以 我 觉得 这个 其实 用 逻辑 的 方式 去 写 会 更容易 一些。 如果你 要是 听 这个 副 格 的话, 本身 它 可能 只是 听着 比较 的 像 一些, 这是 其中之一。
另外 就是 在 副歌 写作 当中, 它 有一个 刚 上来 有一个 主题, 我们 管 这个 英文 叫 subject 主题。 然后 同时 另外一个 声部 会对 它 有一个 回应, 英文 你们 管 它 叫 answer, 有 主题 有 回应, 然后 再 用到 我 刚才 说 的对 乐法, 就是 两个 音 之间 关系 的 方式 再去 写 这个 音乐。 然后 中间 还有 其他 一些 变化 的 方式, 从 这就是 它是 一个 很 复杂 很 系统 的 创作 的 一个 条条框框。 说一句 题外话, 就是 因为 它的 条条框框 太 严格 了, 所以 副歌 发展到 一定 阶段, 这个 音乐 就 被 取代 了, 对 吧?
所以 为什么 后来 我们 出了 古典音乐, 不是 一直 副 格, 从 副 格 这么 厉害 这么好, 为什么 没 从 文艺复兴时期 一直 写 到 20世纪 呢? 为什么 后来 出了 古典音乐? 就是 因为 它 对 人的 限制 太 严格 了。 那么 你 限制 越 严格, 你可以 创新 的 点就 越少。 所以 写 着 写 着 大家 就 觉得 这个 音乐 我需要 再 突破 这个 框框。 所以 大概是 这么 一个 状况, 我 感觉 russia 应该 很 理解。
刚刚 我给你 发 了 一个 prompt 托卡塔 的 那个, 对, 那个 就是 巴赫 的 东西。 这个 prom 是 训练 数据集 里面 的 prompt, 就是 长 这样的。 我想看 一下, 如果你 就 把 这个 输进去, 它 能不能 就 一个 听起来 很 像 巴赫 的音, 或者说 跟 原曲 一模一样, 会不会有 这种 效果 出来?
好, 我们 试一下。
好, 我们 可以 试一下。
我们 给 听众 念 一下 这个 prompt.
我 翻译成 中文 来 念, 因为 大家 可以 看 英文 了, 就是 拖开。 它 和 副 格是 D 小调 托卡塔 与 赋格, 需要 有 阴暗 一些, 然后 有 戏剧性 dramatic。 它 中间 feature solo organ, 是 说的是 用到 的 是 管风琴 的 独奏, 然后 用到 一个系列 的 很 严肃 的, 而且 很 有 力量感 的 这样 一种 感觉, 是 这个 音乐 的 形式。 好, 来 试一下。 这个 题目 本身 是 巴赫 的 一个 非常 著名 的 曲子, 他的 可能 是 大家 最熟悉 的 曲子。 好, 底下 这个 已经 出来 了。 好, 我们 来 试一试, 给 的 是一个 教堂 的 这个 图片, 教堂 还是 非常 贴切。
快 放 城 出来 了。
OK, 可以, 我 对 他的 感觉 就是 还是 我 之前 的 评价, 他 写 的 很 像。 如果你 要是 去 听 他 这个 感觉 的话, 可能 会 觉得 跟 原曲 差不多。 但是 实际上 它 和 原曲 的 差距 其实 还是 非常明显 的, 尤其是 听 了 原曲 的话, 大家 会 觉得 首先 巴赫 在写 这个 的 时候, 刚 上来 有 一 我们 听 一 耳朵。
稍微 听 一 耳朵。 好, 我们 放 一下 原曲。
OK 我们 就 只 说 这 几句。 像 刚 上来 的 这种 给 人的 这种 震撼 感, 尤其是 当你 在 教堂 或者 在 一个 比较 广阔 的 空间 听到 这个 的 时候, 就 刚 上来 他 这 两句 可能 对 我们 来说 是 最 震撼 的。 像 这种 东西 它 就 不是 一个 平均数, 它 如果 要是 做成 数集 的话, 它 一定 是在 那个 数集 的 范围 之外 的。 像 这种 东西 就是 A I 目前为止 在 这个 训练 的 方式 很难 直接 达到 的。 我 其实 最 想说 的 就是 这一点, 就是你 从 刚 上来 的 这个 曲子 的 质量, 就是说 给 人的 第一个 震撼 其实 差别 就 比较 大 的。 然后 再到 后来, 就是 巴赫 的 曲子, 它的 各个 声部 之间 我 随便 叨叨 一个地方, 咱们 听 一下, 相对来说 会 比较清楚。
OK, 所以 你看 我们 这 里面 有 几个 比较 明显 的 感觉, 它 其实 是 有 两个 声部 互相 呼应。 第一个 声部 我 先 说 一句话, 第二个 声部 再 重复 他说 一句话, 这是 副 格 写作 非常明显 的 一个 特征。 同样 一段 旋律 在 不同 的 2到3个 声部 之间 进行 重复 以及 变奏。 但是 在 重复 变奏 的 过程 当中, 需要 能 让 人听 出来, 它是 同样 的 一句话 产生 出来 的。 这个 在 我们 刚才 生成 的 A I 的 音乐 里面, 声部 之间 的 呼应 和 同样 的 这个 主题 它 就 不是 很 明显, 应该说 很不 明显。 所以 如果我们 要是 去 形容 它 的话, 对我来说 听起来 就 比较 的 糊, 比较 的 年, 所有的 东西 全 在一起。 你说 它 是不是 管风琴 的 这个 声音, 是不是 两个 声部? 是, 但是 它的 主题性 和 严谨 的 逻辑 之间, 它是 目前 还没有 的。
而且 我 觉得很有 意思 的 是, 你看 其实 你 在 youtube 上 搜 巴赫 的 音乐, 第一首 出现 的 它是 一个 教堂 的 封面。 刚刚 在 苏诺 里面 它 也是 一个 教堂 的 封面。 某种程度 上 它 可能 还是 有 在 这个 封面 上去 做 一些 借鉴 的。 应该 是的, 对我 觉得 这部分 特别 好。 其实 问 这个 问题, 我 更 想 了解 的 是 我们 做 赋格 的 这种 音乐 类型 的 时候, 因为你 讲 到了 它的 逻辑性 非常 的 严谨, 就是我 在 想他 是不是 反而 是 更 适合 ai 因为你 给 A I 一个 公式, 我不知道 他 现在 的 逻辑推理 是 怎么样 的, 它是 更 适合 A I 的, 还是 更 不 适合 A I 的。
其实 对 副歌 研究 在 A I 音乐 领域 还是 有 好多年 历史 了, 哪怕 是 20年 前、 30年 前, 那个 时候 大部分 人都 拿着 medi data, 因为 巴赫 的 这些 乐谱 在 网上 都很 丰富, 而且 大家 也 知道 这 是一个 逻辑性 很强 的 音乐, 他的 两个 声部 之间 的 对位法 这些 东西 都 是在 A I 领域 是 很 容易 获得 的 数据, 然后 也很 好 建模。 它 其实 就是 一个 比如说 从左到右 进行 推理, 再 简单 说 这样, 就在 符号 层面, 它 其实 已经 可以 模拟 的 很 好的。 我相信 肯定 是 有 一些 软件 它 可以 生成 这种 midi 的 数据。 就在 复合 这个 领域, 它 可以 生成 的 非常 的 逼真。 包括 把 前面 的 这些 motive, 后面 这些 variation 都 给 做得 很好。
但是 在 现在 这个 m to m 的 生成 系统 里面, suno 这 一套 他 肯定 不是 干 这个 用 的。 可能 他在 训练 期 只 听 过 一首, 所以 你 不能 指望 他 能 学到 这 里面 的 东西。 如果你 给他 听 了 20首, 可能 他 就 能够 学到 点 东西 了。 而且 他 能把 这些 里面 的 不同 声部 的 不清晰 的 部分, 它 也 能够 把 它 搞得 清晰 一些。 像 这个 领域 是 不同 的 A I 可以 做 的 更好 的 一个地方, 就是 更 偏向 于 逻辑推理 的 A I 会 更好。
Roger, 其实 我们 刚刚 在 录播 客 前 闲聊 了 一会儿, 然后 你 之前 也是 学 的 跟 音乐 相关 的 音乐家 ai 音乐 技术。 对, 音乐 技术 可以 解释一下 这个 具体 是 学 什么的 吗?
我们 学 的 东西 其实 它是 在 double e computer science。 音乐 包括 一些 music production 的 这种 东西, 还有 一些 心理学、 认知科学。 因为 我们 认为 音乐 这 一块, 它 毕竟 是 人类 情感 的 语言, 它 就是 一个 文化 传承 的 东西, 它 又是 一个 数学 性 很强 的 东西。 所以 我们 认为 把 各种 学科 的 知识 都 融 在 这些 交叉 的 学科, 可能 它 可以 去 产生 出 一些 有趣 的 东西。 所以 我们 当时 像 我 同学 有的是 乐理 出身 的, 有的是 学 心理学 的, 有的是 像 我是 W E 出身 的, 有的是 编程 特别 好, 有的 可能 做 过 A I 方面 的 research。 所以 就是 各方面 的 想法 都 能够 融 在一起。 但 现在 发展 最好 当然 是 A I 这 一块, 因为 这个 心理学。
怎么 跟 音乐 融合 在一起。
OK 一方面 是 所谓 的 心理声学, 就是 当 你听 音乐 的 时候, 就 比如说 音乐 的 声音 越大, 你 未必 听到 的 就 越 响。 就是 它 响度 跟 信号 的 这个 幅度 不是 线性关系, 或者说 像你 耳朵 听到 的 声音 有 个 叫做 掩蔽 效应。 中文 应该 叫做 比如说 像 M P three, 为什么 它 能够 对 原始 音频 进行 压缩? 就是说 他 发现 了 这个 音频 中 某些 频率。 当 这个 音 存在 的 时候, 旁边 的 有些 音 它 有没有 对 你的 听觉 感受 是 没有 影响 的。 所以 它 能够 对 数据 进行 压缩, 其实 就是 心理学 最 主要 是从 这个 角度。 另外 一方面 就是说 你 在 做 很多 跟 音乐 相关 的 实验 的 时候, 你是 需要 去 有人 来 界定 他 好坏 的那 这时候 就 需要 一些 心理学 的 统计 方法。
然后 你 觉得 你的 这 一段 学习 经历 对你 现在 研究 跟 音乐 相关 的 大 模型, 它的 帮助 是什么?
最大 的 帮助 一方面 是我 学习 了 音乐 在 数学 上 的 本质。 包括 我们 当时 也 学 了 很多 20世纪 的 先锋 音乐, 就是 像 什么。
巴托克 bartok 或 什么 约翰 凯奇 荀 伯格。
对, 约翰 凯奇 杰 勋伯格 这种 无 调性 的 这种 东西 当然 学 了 很多, 包括 后期 的 像 什么 Steve right 什么, 他们 都 不是 用 正常 的 乐器, 就 挑战 你 对 音乐 的 理解, 很多 这种 方面 的 东西。 当时 我 就 学到 一个 很 重要 的 概念, 就是说 音乐 的 本质 就是 organized the sound。 它 跟 声音 的 区别 就是 它是 有 组织 的。 这个 组织 它 其实 就是 一个 很 不同 级别 的 组织。 就 是从 一个 很大 尺度 上, 你 要 对 音乐 去 进行 乐段 的 分段。 在 短时间 你 有 和弦, 在 更 短时间 你 有 每个 乐器 怎么 去 onset, 怎么 去 release, 包括 每一个 音 声音 的 细节, 就是 它是 一个多 尺度 的 一种 东西, 所以 这套 思想 就 被 融入 了。 现在 我们 开发 大 模型 就是 用 的 是 这 一套 思想。
你 刚刚 其实 开始 也 提到 了, 现在 有 非常 多 的 音频 生成 软件。 你 自己 又有 哪些 软件? 你 觉得 有 其他 的 软件 会 比 苏宁 生成 的 更好 吗?
现在 如果我们 说的是 这种 to c 的 软件 的话, 那 可能 苏诺 肯定 是 最好的。 就是说 我们 看着 用户体验 什么 这个 角度 的话, 肯定 是 有的 最好的。 但是 如果你 站在 我的 角度 的话, 我看 的 都 代码, 如果我 把 所有的 源代码 都 抠出来, 那 我 肯定 可以 组合 出 一个 最 适合 我。 假如 说 你是 音乐人, 你是 希望 用 A I 达到 什么 目的, 那 我 肯定 可以 帮你 实现 这样 一个 东西。 就 比如说 你 想 找 灵感, 或者说 你 想 给 一个 死去 的 你的 乐队 主唱 johana 再 延续 他的 生命力, 再 唱 个 十首歌, 那 这个 我们 也可以 做。 或者说 你 有 一首 摇滚歌曲, 我想 把 它 转换成 另外一个 快, 转换成 一个 歌剧, 我们 也可以 做。 这 一套 大 语言 模型, 它 能 做 的 事情 非常 的 丰富, 就 看 有没有 训练 数据 版权 能不能 通过, 看 有没有 市场。 我们 预计 接下来 的 两年, 就是 在 音乐 这块 会有 各种各样 的 不同 的 应用, 速度 只是 其中 一点。
根据 刚刚 的的 分享, 因为 冯 老师 你是 专业 做 音乐 的, 我不知道 你 有没有 什么 特别的 关于 音乐 方向 的 小 问题。
我 倒 不是 有问题, 但 我会 觉得 这个 东西 特别的 好是 在于 至少 从 我自己 的 兴趣 点 上, 包括 我自己 做 节目 分析 音乐。 其实我 特别 想 把 音乐 当中 的 一些 特点 给 提出来。 我们 现在 聊 音乐, 从 音乐 文化 上 来说, 我们 都说 的 太 玄学 了, 对 吧? 就是 我们 都 认为 很多 最 厉害 的 作曲家 就是 坐 那儿 夸 天打雷劈, 上来 一 雷, 然后 他来了 个 灵感, 然后 写出 一部 特别 伟大的 作品。 但是 对于 我 来说, 我 认为 不是 的。 音乐 最终 怎么能 它 可能 是 认知 领域 的 科学, 就是 人 这个 东西 最终 要 不就是 电信号, 要 不就是 化学物质, 对 吧? 就是 包括 我们 所有的 情绪 也好, 我们的 思维 也好, 对我来说 你 最终 我们 现在 解释 不了, 但是 他 肯定 是一个 方向, 就是 早晚 可能 在 某种程度 上 是 可以 尝试 对它 进行 描述 的。
那么 说到 音乐, 就是说 为什么 我们 大家 听到 这个 音乐, 绝大多数 人都 觉得 他是 个 欢乐 的? 为什么 听到 那个 绝大多数 人都 觉得 他是 悲哀 的? 我 觉得 我们 其实 从 音乐 人的 角度 来说, 我自己 是 很 对 这个 东西 感兴趣 的。 但是 在 这方面, 其实 A I 这个 东西 能够 帮助 我们 提高效率, 而且 可能 会给 我们 带来 很多 更多 的 研究 的 思路。 就是 我们 不一定 说 一定要 让 A I 一步到位, 达到 他 最终 的 那个 完美的 力度, 然后 它 才能够 帮助 人类。 它 其实 在 本身 这个 研究 的 过程 当中, 就是 和 音乐 这个 学科 有 很多 的 交叉。
我们是 可以 做 很多 很 有意思 的 研究 的。 所以 我自己 本身 对 这个 也是 特别的 感兴趣。 所以 我 觉得 如果 要有 任何 A I 这方面 的 朋友, 如果 感兴趣 想做 相关 的 研究 的, 也 欢迎 他 来 找 我就是我 对 这个 特别 感兴趣, 愿意 一起来 做。 所以 我 觉得 他 可能 给 我们的 启示 就是 很多 其实 历史上 也是 很多 发明 也好, 或者 很多 什么 也好。 他在 达到 最终 目的 之前, 他的 一些 旁枝 所 达到 的 效果, 可能 已经 能 对 我们 其他 的 行业 有一个 很大 的 推动力 了。
所以 我 觉得 A I 就是 它 整个 研究 的 这个 过程, 对于 我们 音乐人 来说, 这也是 我不 抗拒 的 一个 很大 的 原因。 就是 他 对 我们 本身 的 日常工作 是 可以 有 很 有 帮助 的。 无论 他 最终 的 产品 做出来 是 什么样, 它 本身 研究 对 我们 来说 就 很 有用。 所以 我 通过 rugger 的 讲解, 我 觉得 我 对 这方面 的 会 更 感兴趣, 而且 对 他的 感受 可能 也会 更深。
因为你 最终 也是 一 因, 我 总 说 你 甭管 什么 情绪, 你 甭管 什么样 的 人, 你 有什么 想法, 你 最终 那个 因 也是 一个 一个 音 生成 出来 的。 A I 也是 如此。 那么 你 怎么能 把 你的 情绪 最终 一个 一个 还原成 一个 一个 的音, 然后 还能 让 广大 的 听众 听 了 以后 和 你 产生共鸣, 这个 本身 就是 一个 非常 有意思 的 事儿。 所以 我 对 这个 其实 挺 有 感触。
应该说 对 其实 你 提到 音乐, 它是 有 一定 的 写作 的 手法, 包括 你 刚刚 其实 有 反复 的 提到。 比如说 我 把 一个 节奏 变快, 它 可以 从 一个 悲伤 的 音乐 到 欢快 的 音乐, 包括 副歌。 他 有 很多很多 写作 的 手法。 我 想到 了 我自己 是 学 新闻 的, 新闻 也有 很多 固定 的 写法。 同时 我也 在 看 很多 编剧 的 书。 其实 好莱坞 他在 怎么 去 编 一个 剧本 的 时候, 虽然 这 是一个 非常 creative 的 工作, 但是 同时 它 也是 一个 有 非常 多 的 模板 跟 各种 写作 手法 的 工作。 那一个 初级 的 编剧, 我们 说 肯定 不是 随意 发挥, 而是 先 去 套 模板, 然后 你 再看 你的 发挥, 怎么样 去 跳出 那个 模板。
但 其实我 现在 特别 感兴趣 的 一个 问题 就是 冯 老师 你 之前 有 在 视频 中 提到, 你说 音乐 最怕 无聊。 我不知道 未来 A I 它 能不能 克服 这个 问题, 它 怎么样 写 的 更加 有 创意, 更加 情理之中。 但是 在 你的 意料之外。
对, 这个 其实 就是 所谓 的 A I 可不可以 无中生有。 A I 可以 从 1到2 做得 很好, 就是 它 已经 有 这个 东西, 然后 他 迅速 提高 这个 A I 速度 是 人类 没法 比 的。 但是 这也是 我 另外一个 不 担心 人类 的 问题, 就是 人类 的 音乐 之所以 一直 存在, 是因为 它 一直 在 发展。 那么 发展 的 时候 是 很多, 比如说 我 从 爵士乐 里面 就 生产 出了 摇滚乐, 但是 在 有 摇滚乐 以前, 这个 领域 是 空白 的。 我就是 因为 老 玩 爵士乐, 玩 着 玩 着 然后 我需要 给他 进行 一定 的 突破, 一定 的 变化, 然后 出了 摇滚乐。 然后 摇滚乐 又从 这个 rocket bei, 就是 这种 摇滚 和 爵士 之间 的 这个 东西, 又 发展 成了 摇滚, 然后 又 到 硬 摇, 然后 又 到 金属。 咱 只 说 这一 一条路, 但是 它的 发展 其实 是一个 线性 发展 很远 的 一个 东西。
所以 我 觉得 还是 A I 这个 东西, 它 可不可以 无中生有, 因为 它 需要 在 模型 以外。 因为你 现在 是 统计学, 就是你 所有 AI 生成 的 东西 都是 人类 已有 的 东西, 然后 再 进行 总结 出来 的。 但是 整个 艺术 它 其实 需要 的 是在 人类 总结 的 范围 之外, 你 哪怕 有 一点点 突破, 它的 这个 艺术 是 有意思 的。 但是 A I 目前 的 作用 机理, 至少 我 听 完了 以后, 他 毕竟 还是 这个 方式, 所以 它 可能 暂时 没法 达到。 说到 我 最早 说 的, 就是 当 他 有一天 达到 了, 那就 被 威胁 的 就 不是 我们 了。 那个 真的 很 可怕 的对, 我是 愿意 看到 它。
计算机 演算 就 相当于 现在 有一个 程序 可以 演算 到, 比如说 到 地球爆炸, 然后 人类 怎么能? 就是 它 其实 是 完全 的 是 一样的 事情。 我 可不可以 让 音乐 来 演算, 音乐 一直 演算 我 现在 固有 的 音乐, 然后 能 发展 出 什么 新的 形式, 然后 能 发展 什么 新的 style, 新的 风格。 我 觉得 这个 肯定 路 很长 的真 出 这一天 我会 非常高兴 的, 我 实话 说 死 了 都 愿意, 真的 是 当然 会有 很多 的 道德 上 约束, 但是 我 就是说 作为 一个 有 好奇心 的 人 来说, 我的 好奇心 是对 这方面 很 有 期许 的那。
Roger 你 觉得 从 技术 的 角度, 就是你 看到 的 A I 到底 能不能 克服 这种 生成式 音乐 的 无聊?
我 觉得 某些 程度 上 是 可以 的。 就是我 刚刚 说 的 音乐 是 organized sound, 其实 有些 音乐 的 流派 就是 对 已有 的 元素 进行 重新 的 排列组合。 比如说 不同 的 single page 可以 让 你听 起来。 比如说 像 这个 爵士, 很多人 就 觉得 这个 节拍 是 这种 swing 的, 跟 摇滚 就是 那种 44拍不一样, 但 乐器 上 可能 是 很 类似的。 那 这种 重新 的 排列组合, 包括 现在 很多 流派, 像 黑 pop 的 一些 支流, 它 都 是在 节奏 上 做文章。 节奏 其实 就是 一种 音乐 元素 的 组合 方式。
我 觉得 如果你 给 这个 A I 足够 多 的 时间 来 不断 去 演算, 但 他 总能 生成 一出 一个 能够 符合 人类 审美 的, 而 又 从来 没有 人类 去 尝试 过 的 一种 组合 方式, 他 一定 能够 做到 这样的 一件 事情。 但是 你 指望 算法 它 自动 的 把 这 一个 演算 把 它 给 摘取 出来, 那 可能 做不到, 还需要 有 人类 的 审美 去 约束, 去做 选择。 所以 长期 来看, 可能 会有 很多人 去 尝试 做 一些 各种各样 的 fusion。 拿 非洲 的 元素 跟 拉丁 什么的 这些 民族 的 元素 跟 电子 东西 去 混搭, 肯定 能 做 一些 很 猎奇 的 新奇 的 音乐 流派 出来, 就 看 有没有 人 能够 把 这个 东西 抓取 出来, 然后 在 人类 社会 中 去 把 它 给 发扬光大。 然后 再 产生 巨大 的 人类 制作 的 训练 数据。 喂给 A I 就会 成为 一个 feedback loop, 就是 人类 和 A I 共同发展, A I 慢慢的 去 raise the bar for human being。
就是 人类 的 音乐人 需要 创建 更 优秀 的 作品 来 击败 A I 的 这些 平庸 的 作品。 然后 AI 接受 更多 的 优秀 的 作品, 自己 就 不断 的 进步。 最终 我 觉得 可能 20年 之后 我们 再看 音乐, 可能 人类 的 音乐会 更加 优秀, B I 也会 更加 优秀, 大家 共同进步, 我 觉得 是 挺好的。 共存。
有 一点点 类似 于 A G I 的 状态。
我想 稍微 补充 一点, 我 提出 一个 非常 无知 的 一个 suggestion。 我自己 只是 异想天开 的 想 这个 事儿 有没有可能 在 现在 的 A I 当中 产生 一个 随机数 机制。 因为我 觉得 其实 A I 或者 是 说 人类 的 音乐 的 发展, 其实 并 不完全 是一个 新的 排列组合 的 问题。
现在 所有的 A I 就 我的 理解 而言, 它是 在 一定程度 上 就是 我们 给 它 贴标签 什么的。 在 一定程度 上 它是 有 自己的 逻辑, 或者 它是 有 一定 的 道理, 规矩 可循。 但是 能不能 产生 一些 人为 的 就是 要求 它 产生 一些 随机数。 就是我 要求 你不在 我 已有 的 模型 里边 做 组合, 加入 一些 随机 的 程序。 这个 随机 的 程序 可能 是 任何 的 状况, 有可能 是 新的 音色, 有可能 是 新的 节奏型。 我 觉得 可能 这个 对我来说 会 更新 奇 一些, 而 不光是 说 我们 已有 的 元素 对它 进行 排列组合。 因为 其实 现在 大量 的 作曲家 一直以来 一直 在 尝试 这些 东西。 非洲 的 音乐 和 古典音乐 和 什么 流行音乐 和 rock 和 这些 各种 组合, 人类 能 想到 的 已有 的 东西 组合, 其实 是 总会 有人 尝试 的。
但是 增加 一个 随机数 的 这么 一个 东西, 让 他 真的 里面 就是 上帝 要不要 会不会 掷骰子, 对 吧? 我真的 给他 制 掉 一个 骰子 的 这个 状况, 我 觉得 可能 对我来说 更 有意思。 但 我不知道 这个 A I 方面 有没有 这个 可能。
其实 是 有的, 就是 像 我们 刚才 我们 输入 同样 的 prom, 它 能 输出 两首 不一样的 歌曲, 它 就是 随机数 的 机制。 但 这 随机数 它是 引入 在 生成 的 每一步, 就是 它 从左到右 生成, 它 每 一小段 20毫秒 的 音频 生成 的 时候, 它 都 有一点 随机, 甚至 有 一些 如果我们 直接 从 模型 角度 来讲, 你是 可以 去 调 它的 所谓 的 叫做 温度。 温度 就是说 你是 让 它 很 严格 的 把 每一次 推理 的 最大 概率 的那 一步 输出 出来, 还是 说 你 不 允许 他 去 尝试 着 去 找 一些 不 那么 大 概率 的, 可能 中等 概率, 但是 也 过得去, 说不定 他 可能 给 一些 surprise。 每一步 都是 有 随机, 所以 我们 听出 两次 不同 的 输出, 它 在 伴奏 上 完全 不一样。 但是 好像 又有 一个 核心 的 东西 是 相同 的, 这个 就是现在 的 随机 的 方式。 但是 我们 以后 肯定 会 尝试 不同 的 随机 方式, 就是说 能不能 在 人类 可以 理解 的 语义 上去 控制 这样的 随机, 这样 是 会 是一个 最 理想 的 情况。
好的, 非常 的 精彩。 谢谢 Roger, 谢谢 冯 老师。
谢谢 好, 谢谢 各位。
今天 Roger 提到 的 关于 A I 到底 是 如何 生成 音乐 的, 其实 他 还 制作 了 非常 精美 的 P P T。 如果 大家 觉得 听起来 不 过瘾, 可以 去 B 站 或者 youtube 上 等一等 我们 硅谷 101的视频, 我们 会给 大家 更加 清晰 的 图像 化 的 展示。 好了, 这就是 我们 今天 的 节目。 如果 大家 喜欢 我们的 节目, 欢迎 在 你 所 收听 的 音频 渠道 来 订阅。 我们 中国 的 听众 可以 通过 小宇宙、 喜马拉雅、 苹果 播客、 蜻蜓 F M、 网易 云 音乐、 荔枝 播客 和 QQ 音乐 来 关注 我们。 海外 的 听众 可以 通过 苹果 播客 和 spotify 来 关注 我们。 另外 大家 也可以 在 youtube 上 搜索 硅谷 101播客 来 关注 到 我们。 我们的 搜索词 是 硅谷 101播客。 如果 大家 在 搜索 的 时候 出现了 我们 硅谷 101的视频, 大家 也可以 一起 关注。
最后 在 节目 的 结尾, 我们 还 尝试 了 另一个 A I 的 生成 工具, 叫做 audio。 我们 要求 它 生成 一段 嘻哈 音乐。 其实 原本 我们 有 打算 说 生成 一段 中文版 的 说唱, 但是 我们在 实验 的 时候 实在是 听 不清楚 歌词。 最后 依然 奉上 一首 A I 创作 的 英文 锡海 月, 希望 大家 喜欢。
In the valley, whether data flows like streams, which holding the world, tracing digital dreams, bits and bites and rhythms on the pulse of innovation, we ride the time line. From detective fields down to the complete streets, the companies of progress seats britain rise from the labs with the future spell in the silicon nation. All our stories I have.
A I. game. To me, my mind, you can believe so, say keep. Go back for back for.
We are about in tech revolution.
冰雹 是 空军, the 炮弹 i can some。