We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode S7E32 | 硬核对话:当音乐和播客,遇上生成式 AI

S7E32 | 硬核对话:当音乐和播客,遇上生成式 AI

2023/10/17
logo of podcast What's Next|科技早知道

What's Next|科技早知道

AI Deep Dive AI Chapters Transcript
People
刘晓光
杜晨
Topics
杜晨:作为音频工作者,关注AI对音频行业的影响,并体验了骁龙与QQ音乐合作的AI音质提升技术,效果震撼。对AI在播客制作中的应用场景(例如自动生成记录、摘要等)充满期待。 刘晓光:高通致力于端侧AI技术和生态合作,通过骁龙平台的高通AI引擎,将AI算法迁移到手机端运行,提升音质、降低功耗。介绍了AI音质提升技术的工作原理(类似于游戏领域的超分辨率技术),以及AI在播客制作中的应用(降噪、声音对焦、自动记录、摘要等)。并展望了AI技术在播客领域的未来应用,例如实时翻译、声纹模拟等。 刘晓光:详细介绍了端侧AI的优势(成本低、功耗低、响应快、保护隐私等),以及高通在端侧大模型技术方面的进展(已实现10亿到15亿参数模型在中端手机上的部署,并在世界移动大会上展示了在安卓手机上运行的Stable Diffusion模型)。讨论了端侧大模型运行面临的挑战(性能、功耗、效率和资源),以及高通通过量化编译和硬件加速优化模型的方法。并展望了端侧大模型的未来应用场景(个人助理、机器人等)。 杜晨:就端侧大模型在移动端运行的挑战(功耗、发热等)与刘晓光进行了深入探讨,并对高通的优化技术(INT4量化、直连技术、微切片技术)表示赞赏。

Deep Dive

Chapters
本部分探讨了高通与QQ音乐合作,使用骁龙处理器上的高通AI引擎提升音质的技术原理。该技术类似于游戏领域的超采样技术,通过AI算法补充压缩音乐中损失的细节,显著提升音质,未来有望应用于播客。
  • 骁龙与QQ音乐合作,使用AI引擎提升音质
  • AI算法类似游戏领域的超采样技术,补充压缩音乐中损失的细节
  • 未来有望应用于播客,提升收听体验

Shownotes Transcript

用 声音。

碰撞。

世界 生动活泼。

欢迎来到 科技 早知道, 我是 杜晨。 作为 音频 工作者, 我 最近 其实 是 一直 也 在 关注 A I 对于 我们 所在 的 这个 行业, 这个 领域 会 带来 哪些 变化。 然后 如果 大家 是 我们 生动活泼 旗下 另外 一档 非常 受欢迎 的 节目 生动 早 咖啡 的 听众。

大家 应该 记得 国庆节 之前, 我们 曾经 在 节目 里 播报 过 骁龙 跟 Q Q 音乐 的 一个 合作。 他们 当时 是在 手机 本地 用 芯片 A I 计算 的 这个 能力 去 跑 一些 算法, 然后 能够 实现 听歌 的 音质 的 显著 提升。 当时 他们 这 一套 合作 里面 的 这个 demo, 我 用 我的 安卓 手机 也 试 过, 感觉到 非常 的 震撼。 所以 这次 在 科 早 的 节目 里边, 我们 请来 了 一位 来自 高通 负责 这个 合作项目 的 朋友, chat 刘 刘晓光。 在 这次 聊天 中, 他 跟 我说 在 年轻 的 时候 就 通过 科幻 作品 对 A I 产生 了 强烈 的 兴趣。 但 他 未曾 预料 过 A I 会 像 今天 这样 如此 的 发达 和 普及。

我 还 深深 记得 我在 电影院 看 的 第一部 星球大战 的 情景, 当时 你知道 这个 电影 结束 之后, 我在 原地 鼓 了 十分钟 的 掌, 就 激动 的 都 流下 眼泪 了。 那 是我 第一次 的 人工智能 的 启蒙, 当然 当时 还是 因为 旷课 看电影 被 请 了 家长, 然后 被 胖 揍 了 一顿。 这也是 让 我 印象 最深 的 一个 场景。

他 还 告诉我, 其实 现在 在 音频 技术 领域, 已经 有了 非常 多 的 A I 应用 的 场景, 对于 不同 的 用户 能够 带来 非常 有趣 和 有用的 效果。 比如 声音 对焦 技术。

它 可以 把 在 影像 对焦 的 那个 物体 的 这个 声音, 就可以 把 旁边 的 噪声 给 去 消除 掉。 你 即使 在 很 嘈杂 的 地方 录 一个 相对 比较 远 的 人 在 说话的 时候, 也可以 做到 录音, 就是 追 着 他 一样。

当然 作为 播客 创作者, 我也想 问问 他在 我们 这个 领域 A I 在 将来 能够 带来 哪些 更 酷炫 更 实用 的 应用 场景。

A I 可以在 你 做 播客 的 时候 帮你 去做 自动 的 记录。 所以 当你 发布 的 时候, 大家 会 就会 把 看到 什么 引言、 摘要、 重点, 甚至于 我 想听 哪 段, 我 一点 就可以 去 跳过去 了。

好的, 接下来 让 我们 进入 节目 正片。 欢迎 chat 来到 科 早。 大家好。 要不 首先 介绍 一下 你 自己 在 高通 的 这个 工作, 以及 主要 的 工作内容 有 哪些?

我在 高通 主要是 负责 产品 技术 软件 生态 合作 相关 的 工作。 我 另外一个 重要 的 任务 就是 要 了解 和 分析 移动 软件 生态 发展 对 芯片 的 需求, 对 未来 芯片 的 设计方案 提供 指导。 因为 软件 和 A P P 开发 和 硬件 的 设计 周期 有 很大 的 不同。 我 举 个 例子, 当 A P P 开发者 去 开发 一个 应用, 他 当 他 有一个 新的 灵感 或者 发现 一个 bug 的 时候, 可以 马上 就会 去 动手。 然后 最快 可能 几天 就能 完成 并且 上线 更新。 但 硬件 的 设计, 尤其是 芯片 的 设计 周期 就 相对 比较 长。 我们 现在 可以 看到 市场上 最新 发布 的 芯片 的 所有的 这些 能力 设计 在 两年 甚至于 更 长时间 前 就 需要 预先 做好 规划。 所以 这也是 我 平常 要 花 很多 精力 的 地方。

Chat 一 上来 给 我们 一个 非常 high level 的对 移动 芯片 的 研发 做了 一个 非常 全面 的 介绍。 我们 知道 其实 一些 音乐 流媒体 平台, 它 在 推销 他们的 高级 付费 会员 的 时候, 他们 也会 用 所谓 的 这种 像 超 清 母带, C D 音质 等等 这些 会员 权益。 然后 我 听说 有 一些 平台, 他们 也是 在 通过 这个 神经网络 的 算法 来 提升 这个 音乐 的 采样率。 那 这次 骁龙 跟 Q Q 音乐 的 合作, 能不能够 具体 解释一下? 我们 具体 用 骁龙 处理器 的 里边 的 这个 高通 A I 引擎 去做 音质 的 提升。 它的 这个 具体 的 工作 原理 是 怎么样 的? 跟 流媒体 平台 或者说 软件 开发商 他 自己 去做 基于 算法 的 音质 优化 有 怎样 的 不同, 有 多大 的 提升?

在 现实 里边, 由于 录制 条件 以及 这 传输 条件 的 限制, 经常 会 引起 音质 的 损失。 为了 能够 去 把 这种 损失 做到 最小, 我们 和 业内 的 合作伙伴 共同 一起 去 做出 很多 努力, 就 像你 刚才 提到 的 跟 Q Q 音乐 的 合作。 Q Q 音乐 用 他的 A I 音乐 增强 技术 做 的 精品 音质 方案, 把 压缩 过 的 音乐 音质 进行 有效 的 提升, 给 用户 带来 了 high rise 级 的 听觉 感受。 这个 音质 优化 A I 算法 是在 手机 上 运行 的。 为了 能够 达到 最好的 用户体验, 这次 我们 和 腾讯 音乐 深度 合作, 把 A I 模型 算法 全面 的 迁移 至 高通 A 引擎 上 运行。 不仅仅 能够 让 音频 编解码 处理 和 音频 细节 还原 的 处理速度 更快, 而且 还 降低 了 手机 的 功耗, 让 用户 听 得 更爽、 更 安心。

做 一个 对比, 就是 像 在 显卡 在 玩游戏 的 这个 领域, 最近 就有 一些 基于 深度 学习 的 这个 技术。 比方说 像 英伟 达 的 这个 D L S S, 他们是 用 基于 深度 学习 的 能力 去做 一些 超 采样。 就 比方说 在 一个 1080P 的 这个 画面 里边, 去 把 这个 像素 插 到 一个 2K甚至 4K的 水平。 甚至 是在 这个 低 帧率 的 时候 做 这个 插 帧 的 技术, 让 整体 玩游戏 的 帧率 提高, 同时 对 硬件 的 性能 不会 产生 太大 的 影响。 我不知道 咱们 这次 的 这个 技术 是不是 有点像 D R S S, 但是 它 从 视频 变成 一个 像 音频 一样的 一个 感觉。

你说的 特别 到位, 实际上 这次 我们 就是 用了 类似的 技术, 我们 把 这个 通称 为 叫 超 分辨率, 也就是 补充 细节。 A I 有一个 很 神奇 的 地方, 它 就是 可以 通过 深度 学习 来 知道 如何 能 更好 的 预测 以及 补充 缺失 的 信息。 这个 领域 实际上 在 很久 之前 就在 研究 了。 在 1955年 的 时候, 最早 的 这个 文献 就是 关于 光学 成像, 第一次 提出 的 超级 分辨率 的 概念。 不过 以前 的 传统 算法 效果 不是 特别 好, 尤其是 在 一些 很 复杂 的 场景。 随着 这个 技术 的 不断 的 进步, 尤其是 深度 学习 以及 神经网络 的 利用 这方面 有了 很大 的 飞跃。 除了你 刚才 提到 的 游戏 超 分 场景, 在 视频、 拍照、 音乐 等 领域 应用 也是 越来越 普遍。 这次 咱们 聊 的 音乐 增强 就是 利用 的 这个 技术, 可以 把 原始 音乐 的 受损 的 细节 给 补充 回来。

其实 如果 要 听 真正 的 超 清 母带 音质 的 这个 音乐, 它 肯定 是 需要 一个 很大 的 一个 音频文件。 这个 我们 自己 做 播客 的 时候, 就是 我们的 后期 的 小伙伴 也 经常 吐槽。 您 也 看到 了 我们在 用 这个 顶级 的 录音 设备 选择 文件 的 这个 音质, 其实 也是 最高 的。

然后 有的 时候 我们在 节目 里 会 做 一些 非常复杂 的 声音 设计。 比方说 做 一些 泛音 的 设计, 比方说 在 这个 声道 之间 的 切换 的 这些 设计。 但是 当我们 想要 把 文件 上 传到 我们 播客 的 托管 平台 的 时候, 它 其实 只 支持 最大 的 是 100MB 的 这个 文件, 而且 必须 是 M P3。 所以 其实 它 已经 是 被 压缩 了。 导致 我们 一期 节目 有的 时候, 比方说 40分钟 1个小时, 有的 时候 最长的 时候 一个半 2个小时 的 时候, 会 导致 这个 上传 文件 压缩 的 非常 厉害, 里边 丢失 了 很多 的 东西。 我 猜想 在 音乐 领域 应该 是 也有 这样的 情况。 就是 因为 文件 压缩 格式 的 这个 原因, 会 让 歌曲 失去 很多 微妙, 但 可能 是在 创作者 看来 非常重要 的 这种 细节。

对, 因为我 也 注意到 你们的 这个 设备 特别 专业, 我们 经常 能 看到 一个 几分钟 市场 的 原始 的 未 压缩 的 母带 音质 的 音乐, 通常 就要 几十 兆, 剩余 上 百兆 的 一个 存储空间。 为了 能够 节省 存储 和 无线 传输 流量 的 消耗, 现在 广泛 在 利用 压缩 技术, 尤其是 有损压缩 的 技术 去 解决 这个 问题。 比如 大家 通常 见 的 M P3 文件, 实际上 就是 对 音频 细节, 尤其是 高频 部分 进行 压缩, 这样 虽然 可以 做到 几倍 甚至于 十几倍 的 压缩 效率, 但是 换来 的 就是 音质 和 听 感 的 损失。

那 现在 既然 我们 已经 跟 一个 音乐 流媒体 平台 去 合作 了。 我 就在 想 你们 这套 技术 的 这个 套用 能力 大概是 怎么样 的? 理论上 是不是 可以 跟 更多 其他 的 流媒体 或者 是 音频 内容 平台 去 合作, 就 比方说 在 播客 的 这个 场景 下, 会不会 以后 用户 听 播客 的 时候 也 能够 提高 音质。

这个 没有 任何 问题。 我们 骁龙 移动 平台 继承 A I 引擎 已经 演进到 了 第八代, 性能 适应性 以及 泛化 能力 都 非常 强。 不仅仅 能够 帮助 把 播客 节目 的 音质 提升, 还 可以 做出 很多 很 实用 的 功能。

譬如 录制 时 的 降噪 能力。 因为 有的 时候 咱们 做 播客 的 会 在 各种 地方 去 录制, 对 吧? 有时候 咱们 会 在 户外 的 时候 会有 很多 的 这种 噪声, 包括 风声、 人声 对 吧? 有的 时候 其实 会对 节目 会有 一些 影响。 那么 我们的 降噪 能力 的话, 就可以 尽可能 的 把 这些 噪声 给 去去 除掉。 让你在 很 嘈杂 环境 里边, 你 去做 播客 的话, 你的 这个 声音 都会 非常 清晰。 听 上去 就像 在 一个 像 咱们 这儿 特别 专业 的 这种 录音室 一样。

那 可 太好了。

还有 就是 譬如说 有的 时候 你 不得不 做 的 比较 远, 旁边 噪声 比较 大, 这时候 就 需要 叫 声音 对焦 的 一个 功能。 尤其是 咱们 可以 看到 在 有的 时候 在 这种 摄像 里边 它 会 比较 常见。 当我 想 去 拍 远处 的 一个 朋友 在 说话, 但是 他 有点 远, 旁边 有 很多 噪声 的 时候, 我想 尽可能 把 他说 的话 的 声音 给 录 清晰。 现在 的话 通过 这个 A I 的 算法, 除了 叫 影像 对焦, 还 可以 叫 声音 对焦。 它 可以 把 在 影像 对焦 的 那个 物体 的 这个 声音, 就可以 把 旁边 的 噪声 给 去 消除 掉。 这样的话 就是你 即使 在 很 嘈杂 的 地方 录 一个 相对 比较 远 的, 你的 说话的 时候, 也可以 做到 录音, 就是 追 着 他 一样。

比方说 现在 很 流行 内容 创作者, 他们 录 vlog 这种 东西, 这个 麦克风 有的 时候 因为 收音 比较 难, 他们 会 用 这种 小蜜蜂。 但是 以后 是不是 如果我们 用 一个 手机, 它 在 拍摄 一段 视频 的 同时, 这个 芯片 它 就 能够 去 识别 画面 当中 的 主体, 并且 在, 芯片 层面 去做 一些 A I 的 算法, 去 能 追踪 到 它的 声音。 这个 我 理解 的对 吗?

对他 就是 利用 的 这个 A I 算法, 可以 让 视觉 对焦 跟 音频 对焦 能够 同步, 就是 把 这个 视觉 的 这个 焦点 也 当成 录音 的 我的 这个 聚焦 的 地方。

明白 它 所有的 这些 计算 都 是在 芯片 层面 去 去 完成 的, 它 不需要 额外 的 这种 外设 的 设备。

当然 就是 高通 我们的 芯片 能力 很强。 我们 现在 在 降噪 方面, 我们在 手机 上 有 多个 麦克风, 多个 麦风 组成 麦克风 阵列 的话, 可以 从 不同 的 角度 去 识别 我的声音。 这样的话 其实 就可以 做到 这种 可以 把 不同 相位 的, 包括 不同 方向 的 声音 能够 去 收集 起来。 这样的话 算法 就可以 更好 的 去 把 一些 我需要 的 声音 和 不需要 的 声音 能够 给 区别 出来, 然后 给 去做 更好 的 处理。 比如 我 突然 咳嗽 一下, 实际上 这个 在 制 过程中 难免会 碰到 后期 处理 是一个 很 麻烦。 我要 把 所有的 地方 有 咳嗽 的 地方, 我要 给 去 消除 掉。 那么 我们 A I 能力 就可以, 它 遇见 特定 的 声音, 它 就可以 去 识别 出来, 并且 给你 做 自动 消除。 除了 咳嗽声, 包括 开门 声, 其实 你 还 可以 定义 好 多种 声音, 你 都 可以 让 他 去 帮你 主动 的 识别 出来, 然后 去 给 去掉。

这个 时候 我 就 特别 想要 见到 高通 能够 跟 我们在 用 的 这个 录音 设备 厂商 zoom。 如果 能 去 合作, 把 这个 芯片 的 能力 直接 用到 像 我们 现在 在 用 这个 录音 台 里边 的话, 那 肯定 是 非常 好的。 不过 对 之前 因为我 之前 在 美国 的 时候, 有 一次 跟 我们的 联合 另外一个 联合 创始人, 我们在 美国 当时 是一个 非常 随机 的 一个 环境。 我们在 街边 上 录音, 然后 我是 其实 是 直接 拿着 自己的 手机 作为 我 这 一个 音轨 的 录音, 消除 这个 街边 像 什么 他们 开车 路过 的 这个 声音, 然后 旁边。 这个 道路 施工 的 机械 的 声音 消除 的 这个 效果 也 挺不错。 当时 我 其实 就 对 咱们 的 这个 音频 A I 算法 有一个 非常 深 的 印象 了。

是 其实我 最 希望 的 就是 再有 机会 一起 做 录音 的 时候, 其实 咱俩 就 没人 面前 摆 着 一个 手机, 然后 在 一个 咖啡馆 里, 边 喝咖啡 边 休闲, 咱们 就 把 这个 录 完了。 虽然 可能 环境 这些 有 很多 噪声, 但 实际上 最初的 效果 的话, 我 希望能够 跟 咱们 在 这是 一样。

而且 那个 环境。

是 最 自然 的对 吧? 对还 可以 做到 改变 声音 能力。 就是现在 有 很多 的 这种 变声 软件, 比如说 我的声音 不太好, 当然 我希望 我在 这个 博客 里 上去 有 不同 的 声音, 对 吧? 那么 这时候 的话, 其实 用 A I 算法 就可以 去 帮助 你 把 声音 给 去 改变 掉。 咱们 也 看到 过 以前 的 一些 变声 软件, 其实 那些 的话 应用 传统 的 算法 声音 就会 去 很不 自然。 但是 随着 这种 在 手机 的 这种 A I 能力 越来越 强 的话, 那 今后 这方面 会越来越 做 的 逼真。 基本上 就是 大家 就 认为 真的 是 另外一个 生命 人 在 去 讲 这个 事情。

对, 还有 包括 T T S 就是 文字转语音。 对, 因为 有的 时候 难免会 有 感冒, 可能 是 声音 沙哑 的 时候。 但 你 如果你 要 录 个 节目, 或者 是你 有 一些 要 出 很大 段 的 节目 的 时候, 其实 未来 T T S 是一个 很 好的 一个 能够 帮助 播客 做 节目 的 一个 东西。 因为 咱们 可以 看到 现在 有的 时候 有 一些 听书 软件, 它 其实 就是这样 生成 的对 吧? 但是 越来越 好了, 咱们 几年 前去 听 一个 T T S 声 的 时候, 你 会 发现 非常 积极 的 声, 就是 几乎 没有 任何 感情 语气, 而且 声音 是一种 很 这种 机器 的 声音。

没错, 我知道 我 身边 有 一些 听书 的 朋友, 他们 其实 特别 喜欢 这 本书 的 原作者 去 讲 这 本书。 但是 有的 时候 这个 原作者 可能 他 并没有 那么 多 的 时间, 或者 他的 声线, 就像 您 刚才 提到, 它 并不一定 是一个 很 好的 一个 声线。 让 他 讲完 自己 写 的 整本书 可能 是 很 累 的那 之后 他们 就可以 大规模 的 去 采集 作者 的 这个 声音, 他 可能 只 说 三句话 或者 五句 话 就 足够 把 他 这个 声纹 提取 出来。 然后 我们 大批量 的 把 我们 库 里面 所有的 这些 书都 用 原作者 的 这个 声音 去 转化成 一个 语音 书会 是一个 非常 好的 一个 体验。

最近 几年 你 会 听到 有些 其实 做 的 相当 不错, 专业人士 能够 去 听 出来 那个 是 机器。 但是 普通人 其实 已经 很 难听 出来 它是 机器 做 的。 就是 它 可以 把 这个 声音 的 这种 声纹 跟 真正 的 这种 人 其实 几乎 很 相似 的, 而且 甚至于 把 里边 语气、 情感 都 能够 去 带 出来。 还有 就是 A I 可以在 你 做 播客 的 时候 帮你 去做 自动记录, 因为 有的 时候 你 做 播客 的 时候 可能 你 会 很 随意。 你 希望 我说 的 这些 播 的 节目 里边 能够 把 它 我的 说 的 全自动 记录下来, 那 这种 叫 语音识别 这种 能力 其实 现在已经 非常 普遍 了。 再加上 现在 大 模型 的 能力, 其实 可以 做到 我在 边 去做 博客 的 时候, 边 去 整理 讲 的 大纲 去 整理出来。 就是 当你 发布 的 时候, 大家 会 就会 把 看到 什么 已然 摘要 重点, 甚至于 我 想听 哪 段, 我 一点 就可以 去 跳过去 了。

没错, 这个 是一个 我 超级 需要 的 场景。 因为 我们 做 完 一期 节目 需要 写 一个 文字 的 介绍, 需要 整理 一个 时间轴。 我们在 不同 的 时间点 讲 了 什么样 的 这个 东西。 但 如果 以后 这 一套 东西 能够 自动化 生成 的话, 那 简直 是一个 非常 好的 一个 让 我们的 工作 可以 说 复杂程度 浪费 的 时间 大大的 降低。

没错, 未来 其实 A I 都 可以 为 咱们 的 播 主 服务, 让 博主 去 把 所有的 精力 运用 在 怎么 去 策划, 包括 从 大纲 整理 或者 是 创意 上去 下功夫。 当然 这里 边 有些 前沿技术 我们 还在 探索 中, 我们 相信未来 一定 会 在 移动 设备 上 能够 体验 到。 我们 欢迎 博客 平台 的 A P P 都来 跟 我们一起 合作, 让 播客 节目 的 制作 以及 收听 越来越 方便, 效果 越来越 好啊。

刚才 其实 您 提到 的 这些, 我的 理解 是 更多 的 是用 是从 A I 的 角度 去 解决 音质 的 这个 事情。 除了 A I 之外 为了 让 用户 听到 更好 的 一个 音质, 从 其他 的 技术 角度 高通 还 做了 哪些 事情 呢?

另外 就 像你 刚才 说 的, 把 高品质 的 音频 内容 原汁原味 地 传到 用户 的 手里 也是 非常重要 的。 我 觉得 有 这么 几点 特别 值得关注。 第一 就是 高 采样率, 我们 现在 支持 的 24比特, 96千 赫兹 的 高分辨率 蓝牙 串流。

这个 已经 突破 了 安卓 自己 本身 的 码率 和 尾声 了 是 吧?

是, 这是 非常 厉害 的。 咱们 知道 C D 的 采样率 是 16比特 44千 赫兹 内 的话, 其实 也就是 大家 现在 所谓 的这 叫 无损 音质, 那么 我们 比 他们的 这个 还要 指标 还要 去 高, 所以 用户 就可以 去 感受到 无损 音质 的 这种 所有的 这种 听觉 效果。 第二 就是 癫痫, 目前 我们在 语音 回传 通道 上 可以 做到 低于 20毫秒 的 极地 实验。 因为 做 音乐 的 人, 你 然后 你 像 你们 肯定 特别 敏感。 就是 当 这种 回传 延时 超过 35毫秒 的 时候, 其实 就 能够 去 感觉到。 所以 就是现在 其实 很多 的 这种 蓝牙 耳机 的 这个 延时 都 比较 长。 那么 我们的 技术 就可以 把 它 做到 20毫秒, 甚至于 更 低 的 这种 水平。

这样的话 就是 在 很多 场景, 当然 可能 听歌 的话, 因为 它 只是 一个 单向 音频。 这会儿 其实 还好, 但是 有 很多 特别 关键 的 场景。 比如说 是看 视频, 你 当你 去 看 演唱会 的 时候, 你 看到 的 这种 视频 内容 一定要 跟 你的 听觉 要 去 同步 起来。 对你 稍微 有点 差异 的话, 你 就会 感觉到 这个 不是 特别 自然 的 这种。

以及 还有 是不是 玩游戏 的 一个 场景。 也是。 就 比方说 我在 跟人 吃 鸡 的 时候, 我 屏幕 看到 我 被 别人 打了, 但是 过了 几秒钟 或者 是 几十 毫秒, 我 才 听到 这个 枪声 过来, 那 是一个 非常 糟糕 的 一个 体验。

没错, 那个 会 极大 的 去 抵消 你 玩游戏, 看 演唱会 这种 所谓 的 这种 沉浸 感。 这个 是 我们在 延时 上 我们 做 的 工作。 三是 动态 头部 追踪, 支持 空间 音频, 这个 的话 你们 肯定 非常 熟悉 了, 对 吧? 是的, 对, 这个 一下 就是 让 你 有 这种 360度 的 这种 环绕 感觉, 身临其境 感觉。 这是 我们 有一个 orcas 的 一个 广播 音频 的 技术。

我 对 这个 印象 特别 深, 是不是 经常 比方说 我们在 健身房 健身 的 时候, 看到 屏幕 上 在 播放 一个 东西, 或者 是 我们 去 机场 在 候机 的 时候, 看到 屏幕 上 正在 播放 一个 新闻。 有的 时候 它 没有 开 声音, 这个 时候 耳机 就可以 连连 到 那个 屏幕 上面。

没错, 其实 这个 我 感受 特别 深。 因为我 有时候 在 休息室 在 等 飞机 的 时候, 有时候 其实我 看 这 节目 挺 有意思 的。 但是 它 就是 一个 没有声音 的 状态。 如果 咱们 用 的 这个 技术 的话, 就是 所有 这个 的 蓝牙 耳机 我 戴上 的话, 其实我 就可以 去 听到 里面 说什么, 但是 同时 又 不会 打扰到 旁边 休息 的 人。 其实我 觉得 这就是 一个 特别 好的 技术。

而且 它 还是 一个 单一 声音 源 同时 向 多个 耳机 或者 多个 音响 输出 的 一个 技术。

对 吧? 没错, 这个 就是 让 我 想起 一个 特别 有意思 的 东西。 以前 我不知道 你 有没有 见过 有 一种 比较 早 的 时候, 还是 有线 耳机 的 时候, 有 一种 叫 虐 单身 狗 的 神器。 从 一个 耳机线 分 出来。

我们 这儿 就有 一个, 我们 能 一分 六。

对, 其实 这种 环境 就是 特别 适合 这种 广播 的 艺术。 50混合 自适应 降噪 这个 的话 是 可以 去 具有 自动检测 语音 的 功能, 以及 自动 语音 检测 功能 的 自适应 透传 模式。 咱们 有的 时候 戴 着 耳机 的 时候, 跟人 说话的 时候, 那你 做 的 动作 是你 要把 你的 音乐 关掉, 或者 把 声音 调 小 说话 的话, 那你 再 给 换回来。 但是 如果你 要是 不是 持续的, 你 要 偶尔 去 跟 对话 的话, 这个 就会 非常 麻烦。

对, 一直 要 暂停 播放。

这样的话 其实 我们 这个 新的 技术 就可以 识别 到, 如果 发现 有 语音 说话的 时候, 它 就可以 自动 把 音乐 给 去 降低。 你 就可以 很 清楚 的 听到 别人 的 这个 说话。 当你 说话 时 没有 的话, 他 再 把 音乐 恢复 回去。 这样的话 其实 就可以 去 解决 你 在 听 音乐 的 时候 需要 跟人 说话, 但是 你 又 不用 去做 很多 的 这种 很 复杂 的 这种 工作, 它 会影响到 你的 这种 听歌 的 这种 情绪。

说完 了 音频 这些 事儿, 然后 我想 进一步 的 去 跟 您 聊 一 聊 跟 A I 有关的 这些 东西。 我们 现在 差不多 有一个 讨论 的 基础, 就是说 在 这个 音频 的 这个 事情 上面, 前面 的 阻碍 还有 很多。 我们 已经 在 利用 一些 A I 的 技术, 但是 还是会 面临 一些 物理 法则 的 限制。 但是 在 其他 的 领域, A I 的 这个 使用 案例 已经 是 层出不穷 了。 像 我们 听 友 已经 不能 更 熟悉 的 这个 大 模型 这个 东西, 它 现在已经 发展 出了 端 测 A I 端 侧 大 模型 的 路线。 并且 已经 可以 运行 在 这个 智能手机 上面, 而且 是 很 高效 的 运行 了。 能不能 请 差 的 先 给 我们 讲一讲, 端 测 A I 端 侧 大 模型 到底是什么? 它 跟 云端 A I 有 什么样 的 区别, 对于 用户 来说 有 怎样 的 好处?

在 很久以前 的 概念 里, 人工智能 好像 都是 有 很 庞大 的 机器 去 运行 的。 现在 一个 小小的 移动 芯片 就可以 拥有 非常 大 的 算 力。 我们 推出 的 高通 A I 引擎, 能够 在 骁龙 和 高通 平台 上 实现 终端 侧 的 A I 加速。 不 只是 有 专有 的 数据 处理单元, 高通 I 引擎 采用 了 异构计算 构架, 还 可以 把 传感器 中枢 G P U 和 C P U 都 协同 起来, 在 终端 侧 快速 高效 的 运行 来 应用。

端 侧 A I 的话 能够 去 带来 包括 成本、 能耗、 性能、 隐私 和 安全 和 个性化 方面 各个 优势。 就 是从 距离 上 而言 的话, 他 就是 在 用户 身边。 因为 他在 端 侧 运行, 它 就在 你 手机 里 或者 是你 身边 的 这个 设备 里。 这样的话 它 最大 好处 就可以 保护 隐私。 因为你 所有的 数据, 包括 你的 一些 个人 的 消息, 比较 重要 的 文件, 它 都是 存在 端 侧, 它 不会 去 上 传到 云 测, 所以 这个 对 隐私保护 非常重要, 另外一个 就是 它是 非常 快速 的 响应。

因为 就 我 举 个 例子, 比如 拍照, 拍照 的话 其实 是你 在 按下 快门 的 时候, 它 需要 瞬间 处理。 如果 这时候 你 要 通过 云 的话, 那 经过 延时 的话, 这个 用户 通常 是 接受 不了 的。 所以 他 要在 第一时间 他 要把 它 处理 的 好。 所以 这个 一定 是在 端 侧 的, 利用 端 侧 的 这种 A I 能力 去做 这些 事情。

还有一个 好处 就是 在于 没有 网络 的 时候 也可以 工作。 比如说 是 我们在 飞机 上 高铁 可能 信号 断续 不是 特别 好的 地方。 那么 我们 也可以 把 这个 手机 端 侧 的 A I 能够 去 用 起来。 另外 功耗 的话 也是 一个 优势, 因为 云 测 的 A I 的话, 它 通常 会 需要 至少 几百万。

是因为 它是 在 服务器 里边 算 的。

对, 没错, 这样的话 其实 在 手机 上 的话 功耗 就会 非常低。 那 从 成本 上 而言 的话, 大家 知道 如果你 是用 去做 云 测 的话, 通常 你 要 去 有 服务器 的 成本, 你 还要 把 它 放在 I D C, 你 会有 很多 成本。 那么 在 手机 上 的话, 其实 以 你 一个 手机, 可能 几千块 的 手机 就可以 去做 很多 这种 能够 去 A I 赋能 的 事情。

当然 就是 我们 并 不是说 端 测 A I 和 云 测 A I 他们 之间 冲突, 其实 我们是 更 希望 去 看到, 而且 我们 正在 引领 叫 混合 A I 的 实现, 这个 就是 云端 结合。 因为 对 隐私 和 安全 要求 比较高 的 终端 侧 工作 负载 可以 继续 咱们 在 端 侧 去 运行, 完全 由 端 侧 处理。 其他 的 一些 比较 大量 运算 的 工作, 包括 在 隐私 上 不 敏感 这些 工作 的话, 我们 可以 跟 云 的 服务商 去 结合, 共同 去 完成。 在 不 影响 他 到 他的 用户体验 的话, 可以 把 整个 这个 工作 的 这种 效率 可以 去 最大化。 混合液 的 优势 就是 在于 即使 在 不同 终端 处理 能力 不尽相同, 而且 仍然 能够 提供 相似 体验 的 时候 的话, 可以 同时 带来 包括 成本、 能耗、 隐私 与 安全 个性化 方面 的 优势。

说说 这个 端 测 大 模型, 他们 这个 领域 现在已经 发展 到了 怎么样 的 一个 程度。

我 主要 从 高通 的 角度 说 一下 我们 目前 在 端 测 大 模型 技术 方面 的 进展。 高通 已经 实现 了 10亿到 15亿参数 模型 在 中 端 侧 的 部署。 今年 我们 二月份 在 世界 移动 大会 上, 高通 也 展示 了 首个 在 安卓 智能手机 上 运行 的 stable diffusion space 球员, 是一个 参数 超过 10亿的 超大 神经网络 基础 模型, 咱们 在 网上 看到 很多 的 这种爱, 甚至 很漂亮 的 图片, 都是 基于 这个 模型 去做 的。

之前 非常 火 的 一个 模型, 基本上 跟 ChatGPT 可以 说是 并驾齐驱 的 一个 东西。

是 没错。 咱们 之前 看到 的 很多 都 是在 服务器, 有些人 在 他的 个人电脑, 但是 一个 性能 非常 强 的 一个 跟 电脑 上去 跑 起来 的。 我们 今年 在 二月份 实际上 就是 已经 在 手机 上去 跑 去了。 而且 当时 我们 演示 的 时候 是用 的 飞行模式, 运行 都 是在 本地 的。 然后 我们 可以 实现 在 15秒之内 完成 20步的 推理, 然后 生成 的 这个 图像 质量 也 相当 不错。 今年 6月份 我们在 CVPR 上 展示 了 最新 的 control net 在 手机 上 的 一个 演示, 它是 一个 图像 到 图像 的 一个 模型, 用户 输入 一个 图形 以及 一个 文本, 就可以 改变 图像 的 风格。

明白 了 这个 风格 迁移 这种 感觉 吧?

对, 目前 大 模型 的 形态 非常丰富, 已经 出现了 多 模态 的 这种 模型, 比如说 有 包括 最 经典 的 文本 生成 图片, 文本 生成 文本, 而且 还有 这种 现在 大家 可以 看到 很 新颖 的 文本 生成 视频, 还有 甚至 还有 这个 图片 生成 文本, 图片 生成 视频, 文本 生成 音乐 等等 方式。 今后 都 会给 移动 端 带来 全新 的 体验。 我们的 合作伙伴 也 在 积极 的 进行 端 侧 大 模型 的 探索 工作, 小米 有 在 今年 8月份 的 产品 发布会 上, 宣布 了 它 自 研 13亿参数 的 端 测 大 模型 效果, 在 部分 场景 下 可以 媲美 行业 60亿参数。

没错, 他们的 A I 实验室 的 负责人 王斌, 他们 在 节前 刚刚 上钩, 我 已经 跟 你们 剧 透 了。 对对对, 是的, 当时 他们 讲 的 一些 东西 让 我 感觉 非常 厉害。 以及 他们 也有 提到 就是说 在 这个 里边 骁龙 扮演 了 一个 非常重要 的 一个 角色。

是 最 重要 的 就是 我们 合作伙伴 在 我们的 骁龙 芯片 上 跑 起来, 这个 是一个 我们 特别 开心 的 事情。

既然 说到 这里, 我 就 想 问问 在 这个 端 侧, 就是 在 移动 端 上面 跑 一下 算法, 特别是 我们 今天 讨论 的 这些 十亿 参数 量级 别的 大 模型, 最大 的 挑战 是什么? 就是 你们是 怎么 去 迎接 这些 挑战 的?

性能、 功耗、 效率、 资源 一直 是 端 侧 跑位, 尤其是 生成式 A I 模型 的 重点 关注 的 因素。 这点 不得不 说, 高通 是 目前 做 的 最好的, 将 参数 规模 和 算 力 需求 巨大 的 模型 压缩 到 在 资源 非常 有限 的 手机 上去 处理。 关键 的 挑战 就是 如何 在 既定 的 功耗 下 实现 最 高效 的 处理 能力。

对, 因为 这个 手机 的 电池 是 有限 的, 而且 你 也 不能 因为 在 端 侧 要 跑 一个 大 的 模型, 导致 非常 严重 的 发热。 这些 在 服务器 上 是 完全 没有 任何 问题 的。 它 有 无线 的 供电, 它 有 外部 的 降温。 但是 在 手机 上面, 我们 面临 其实 是 非常 多 的 硬件 上面 的 这些 限制。 所以 其实我 能 理解 这个 功耗, 性能 这块 其实 是一个 很大 的 挑战。

是 高通 把 生成式 A I 模型 部署 在 终端 侧, 采取 的 核心 策略 就是 通过 量化 编译 以及 硬件加速 进行 模型 的 优化。 在 云 测 服务器 上 训练 通常 是用 FP32 浮点运算, 这就 意味着 在 模型 的 推理 时候 需要 大量 的 内存 以及 算 力。 因为 终端 受到 这个 资源 的 限制, 它 不可能 有 无线 的 这种 算 力 和 内存, 对 吧? 去 运行 这种 这么 庞大 的 这种 神经网络。 那 基于 transformer 的 这个 大 语言 模型 在 量化 到 8位甚至 到 4位整数 运算 之后, 往往 能够 去 获得 很大 的 效率 的 提升。 我们 实际上 在 去年 的 芯片 旗舰 芯片 就 已经 实现 了 隐私 的 能力。 那么 ino 4能够 在 不 影响 准确度 和 性能 表现 的 时候, 可以 节省 更多 的 功耗, 这个 对 高能耗 推理 是 至关重要 的。 不少 生成式 A I 的 模型 量化 到 in 4之后, 与 int 8相比, 性能 能够 提升 90%。

能效 提升 大概 能够 去 达到 60%, 这 是一个 很 惊人 的 一个 数字。 生成式 A I 的话 在 手机 上 其实 会有 很大 的 用武之地。 这样的话 其实 可以 把 你的 手机 真正 的 变成 你的 个人 助理。 就是 有 很多 事情 的话 他 都 可以 去 帮你 去 完成。 比如说 我 举 个 例子, 现在 我 正在 开会 中, 我不 方便 接听电话。 以前 有 外接 来电 的 时候, 通常 的话 我 只能 拒绝。 还有 一些 就是 比较 紧急 的 事情, 比如说 我 点 了 一个 外卖 到了, 但是 我 又 不能 告诉 他说 你 给我 放到 什么 地方。 今后 有了 这个 生辰 爱 的话, 其实 他 可以 去 帮你 做 这些 助理 工作。 比如说 外卖 的话, 它 可以 自动 的 用 语音 告诉 那个 外卖 员, 说 这个 现在 不 方便, 你 能不能 放在 附近 的 快递 柜 里, 并且 把 快递 的 这个 柜 的 这个 号 告诉我。

包括 可能 有人 来 电话 的 时候, 他 能 去 跟 那人 对话, 做 一些 这种 问询 工作。 比如说 你 有什么 事情, 我 什么 时间 能够 打 给你, 或者 是 能不能 你 把 问题 记下来, 到时候 可以 通过 什么 方式 再去 回复 你。 因为我 记性 不太好, 很 痛苦 的。 就是我 可能 需要 把 我 之前 的 记录, 可能 聊天记录, 我的 电话录音, 我要 一条 一条 去 给 去 查出来。 那 之后 有了 大 模型 的话, 其实 它 就可以 帮助 你 把 你 之前 的 所有 你的 个人信息 全都 去做 整理。 当你 去 查询 的 时候, 比如说 我是 去年, 然后 和 谁 什么 时间 聊 的 什么样 的 业务, 他 能 非常 好的 能够 去 帮你 给 去 找到, 并且 帮你 总结 出来。 其实我 觉得 这个 都是 让 手机 能够 为 我们的 用户 能够 带来 这种 更 新颖, 更 创新 的 一些 服务。

除了 咱们 刚才 提到 的 这些 领域 的话, 在 机器人 方面 其实 也是 一个 非常 好的 一个 落地 场景。 咱们 知道 现在 有 很多 机器人 都是 叫 服务型 机器人 或者 是 陪伴 型 机器人。 它 需要 这个 机器人 跟人 有 很强 的 交互 能力。 那大 模型 的 这种 理解能力 以及 生产能力 的话, 可以 让 这种 他们的 交流 特别 自然。

我 觉得 大 模型 能够 做到 的 一个 比较 好的事情 就是 之前 我不知道 你 有没有 听 过 一个 很 糟糕 的 一个 例子, 就是 在 医院 里边 有一个 接待 机器人, 然后 当时 他 旁边 有一个 应该 是 病人 家属, 就是 非常 着急, 可能 是因为 这个 家人 的 病情 非常 的 严重, 然后 这个 机器人 跑 过去 说, 你是不是 不 开心, 要不要 我给你 讲 个 笑话, 我 简直 不能 再 糟糕 了。 很 明显 这个 机器人 你知道 它是 被 program 去做 一个 好的事情, 但是 他 无法 理解 正在 面对 的 这个 用户 他 所处 的 一个 情况, 它的 上下文 是什么?

是因为 我也 看过 这个 新闻, 我 当时 我记得 网上 还有一个 跟帖 特别 逗。 他说 这个 可能 是 第一次 的 战斗 来 和 A.

I 的 第一次 战斗。

这个 的话 有了 大 模型 之后, 其实 最后 可以 非常 好的 解决 这个 问题。 因为 现在 大 模型 的话, 它 不 只是 对 语言 有 很 好的 理解能力, 它 可以 对 图像, 对 视频 也有 非常 好的 理解能力。 像 刚才 举 的 那个 例子 就是 在于 如果 这个 机器人 它 可以 去 看到 那个那个 老人, 那么 那个 老人 的 当时 的 表情 是不是 忧伤 的 表情, 还是 交际 的 表情。 如果 机器人 有 这个 能力 可以 分析 出 他的 情绪, 并且 能够 去 识别 到 这个人, 能够 去 从 系统 中间 查询 到 他的 病例, 知道 他 需要 什么样 的 服务。 那么 我想 肯定 就 不会 发生 刚才 咱们 提到 那个 不是 他 太好 的, 就是 很 糟糕 的 这种 场景。 明白 能够 更好 能够 为 这些 患者 提供 服务。

我知道 其实 黑色的 这个 处理单元 是 高通 A I 引擎 里面 非常重要 的 一部分。 Hex 这个 项目 从 开始 研发 开始 算 的话, 那 高通 布局 这个 D S P 以及 异构计算 的 时间 已经 有 将近 20年 了。 从 你的 角度, 你 觉得 在 移动 A I 加速 计算 这么多年 以来 发生 的 变化 有 多么 的 天翻地覆。 然后 在 使用 场景 和 体验 上 有没有 哪些 特别 直观 的 提升 和 改变 呢?

我 觉得 有 这么 几点 特别 值得关注。 第一 就是 算 力 和 能效 的 进步。 第二 就是 A I 运算 单元 结构 的 进步。 最早 的话 神经网络 都 是在 一个 专有 的 神经网络 处理器。 随着 高通 A I 引擎 的 不断 的 进步, 现在 我们的 异构 运算 已经 可以 把 A I 能力 去 分布 在 各种 的 我们的 单元 上。 所以 这样的话 一起 协同工作 的话, 可以 让 手机 的 A I 能力 能够 去 满足 各个方面 的 需求。 第三 就是 算法 的 进步, 包括 我们 最早 只是 支持 C N 的 网络。 随着 后面 的话 我们 有 更多 的 算子 以及 结构 的 变化, 我们 可以 支持 R N, 现在 最新 的 我们 可以 支持 到 transformer。

从 用户体验 而言 的话 让 我 觉得 用户 感受 最大 的 第一 就是 计算 摄影。 在 拍照 上 这个 确实 是一个 非常 大 的 用户 能够 去 感知 到 的 进步。 然后 我记得 我 最早 使用 手机 的 时候, 那会儿 的 拍照 其实 你 就可以 把 他的 能力 看成 一个 网络 摄像头。 我 第一个 手机 可能 才是 30万像素。 现在 的 咱们 可以 看到, 咱们 的 用 手机 去 拍照 都 可以 去 接近 到 单反 的 这个 水平。 还有 包括 暗光, 就是现在 去 拍 夜景 的话, 发现 效果 非常 好, 甚至于 有的 时候 眼睛 看不到 的 这个 场景, 都能 可以 很 清晰 的 给你 拍下来。

这些 其实 都是 A I 去 赋能 的, 包括 感知 A I 以及 相册 里 处理。 就是我 的 手机 里 我 有 很多 相片, 其实我 就可以 输入 一个 文本, 输入 一个 描述, 我 就可以 去 帮 我 把 我需要 的 相片 能够 非常 准确 的 去 给 搜 出来。 随着 生成 人类 的 这个 大 模型 的 兴起 的话, 可以 做到 更好。 它 能够 精确 的 找到 我 想要的 照片、 视频。 这样的话 其实 对我 去 使用 手机 是一个 特别 大 的 这种 提升。

在 NLP 方面 的话, 这个 也是 有 非常 大 的 进步。 包括 今天 的 手机 的 语音识别 和 翻译 能力, 其实 已经 做 的 非常 好了。 这个 的话, 现在 离线 翻译 的 这个 水平 已经 跟 云上 的 水平 其实 已经 非常 接近 了。 那 在游戏 以及 视频 上, 其实 也是 有 非常 多 的 这种 A F 能 包括 咱们 刚才 提到 的 这个 游戏 的 超 分 以及 插针。

现在 看 视频 的话, 我 最近 看到 一个 很很 有意思 的 功能, 就是 现在 用户 想 看 恐怖片, 但 我害怕 看 恐怖片 儿 对 吧? 经常 可能 会 被 里面 一些 情节 去 吓 到。 现在 我 看到 有一个 视频 公司 提供 一个 特别 好的 一个 能力。 就是 在于 它 可以 动态 的 识别 到 恐怖 的 这个 场景。 在 那个 场景 时候 他 可以 把 声音 变小, 可以 把 亮度 提高。 这样的话 就可以 让 这些 人 看 的 时候 不 那么 害怕, 这些 我 就 觉得 都是 这种 A I 能力。

能够 去 很 有趣 的 场景。

对 能够 去 帮助 用户, 能够 去 提高 用户体验 的 一个 特别 好的 地方。

我知道你 在 高通 其实 工作 很多年, 就是 具体 跟 A I 有关的 这个 工作 大概 做了 多久 了。 一开始 有没有 预料到 A I 会 像 今天 这样 高度发达 并且 非常 的 普及。

我 做 的 第一个 人工智能 项目 是在 1998年, 那 是一个 手写 和 语音识别 系统, 是在 摩托罗拉, 对, 没错。

那会儿 有 叫 会 比 有点 印象, 以前 用过 P D A 的 这个 都 知道 都 熟悉。

是 当时 我 就 非常 震惊 人工智能 的 强大。 我 当时 也是 去 坚定 人工智能 一定 是 后边 一个 重要 的 一个 发展方向。 当然 对于 人工智能 的 未来, 说实话 我 并没有 感到 太大 的 意外。 主要 可能 是 得益于 我看 了 很多 关于 人工智能 的 科幻电影。 我 还 深深 记得 我在 电影院 看 的 第一部 星球大战 的 情景 哦啊 当时 你知道 这个 电影 结束 之后, 我在 原地 鼓 了 十分钟 的 掌, 就 激动 的 都 流下 眼泪 了。 那 是我 第一次 的 人工智能 的 启蒙。 当然 当时 还是 因为 旷课 看电影 被 请 了 家长, 然后 被 胖 揍 了 一顿, 这也是 让 我 印象 最深 的 一个 场景。

但是 对于 人工智能 领域 发展 的 如此 之 快, 今天 的 生存 时代 能够 这么 强大, 我 还是 蛮 震惊 的。 毕竟 那些 科幻电影 是 几十年 前 的 人 去 写 出来 的。 他们 对外 的 预测 跟 实际 的 进展 肯定 会有 一些 偏差。 但 我 觉得 这个 大方向 我们 看到 了 都是 非常 准确, 尤其是 在 人工智能 这个 方面 的话, 他们的 描述 跟 今天 我们 能 看到 经济 景象 非常 的 一致。

对 加入 高通 之后 的话, 其实我 也是 在 很 早就 接触 了 A I 相关 的 工作, 高通 在 A I 领域 的话 已经 去 耕耘 了 15年 了。 我 到 高通 的话 做 的 第一个 工作 就是 在于 我们 用 干 网络 以及 V A I 的 技术 去做 编码 的 生成。 当然 那会儿 的话 芯片 的 能力 不如 现在 去 好。 所以 当时 我们 运用 了 很多 的 优化 方法, 把 它 控制 在 了的 1亿参数 以内。 但是 当时 的 效果 就 已经 做到 非常 好了。 在 很早 的 芯片 上 就可以 做到 非常 好的 编解码 的 能力。 当然 到了 现在 芯片 能力 加强 之后, 我们 做 的 一定 会 去 有一个 质的飞跃。

刚才 我们 说 了 这么 多端 侧 大 模型 在 移动 端 跑 起来, 能够 驱动 的 这些 非常 厉害 的 这些 使用 场景。 为什么 骁龙 处理器 能够 高效 的 完成 这个 端 侧 大 模型 的 推理 工作? A I 引擎 在 计算 上面 会有 哪些 比较 厉害, 或者 是 独特 的 设计 和 能力 呢?

高通 业 引擎 是 我们 终端 侧 A I 的 一个 非常 核心 的 优势, 有 很多 创新 的 技术, 我 挑 几个 值得 说 的 给 大家 介绍 一下。 首先 是 它 有一个 专有 的 供电系统, 大家 都 知道 就是 在 手机 里面 能耗 是一个 最 重要 的 关键 的 因素。 不同 的 部件 在 运行 的 时候, 其实 是 他 跟 其他 部件 的 协同 是 很 重要 的。 但是 在 有的 时候 有 一些 部件 他 再去 工作 的 时候, 另外 一些 部件 其实 并没有 工作。 如果 他用 一套 供电系统 的话, 这个 会 造成 干扰, 其实 就会 造成 一些 功耗 损失。 现在 在 我们的 专有 的 神经 处理单元 是用 单独 供电 的。 这样的话 他 再去 处理 我们的 神经网络, 去 进行 大规模 的 运算 的 时候, 他 就 不会 跟 其他 的 这个 部件 去做 干扰。

相当于 让 他 满血 运行。 这样 感觉 相当于。

它 有一个 独立 的 单间儿, 对它 可以 不跟 其他 有 干扰。 还有一个 就是 刚才 提到 的 很 重要 的, 就是 我们 能把 很大 的 模型 这种 升值 A I 模型 给 放到 手机 里。 最 重要 就是 可以 把 它 从 FP32 量化 到 in 4。 我们 从 去年 开始 就在 手机 上去 支持 in 4。 这样的话 这个 是一个 能够 去 让 大 模型 在 手机 上 跑 得很 好的 一个 非常重要 的 一个 基础。

还有一个 就是 指点 的 技术。 大家 知道 就是 在 数据量 很大 的 时候, 当 需要 多个 芯片 部件 协同 的 时候, 往往 内存 会 成为 瓶颈。 就是 因为 不同 部件 再去 交换 数据 的话, 都会 通过 内存, 内存 就会 去 有 很大 的 吞吐。 这样的话 不 只是 功耗, 而且 造成 了 这种 带宽 的 这种 限制。 现在 的话 我们 把 我们的 神经 处理单元 跟 其他 的 部件 有了 直 连, 这样的话 其实 就可以 不 通过 中央 内存。 当我 NPU 比如说 要 跟 G P U 去 系统 的 时候, 他 可以 把 数据 直接去 送 过去。 这样的话 可以 第一 是 高效, 第二 是 省电。

另外 我们 还有 微 切片 的 技术。 这样的话 其实 就像 刚才 咱们 提到 直 连 一样, 它 可以 去 极大 的 降低 地底 而上 的 这个 负载。 这样的话 就是 它 也可以 同样 去 做到 节省 功耗, 同样 它 可以 减少 吞吐量。

刚才 咱们 提到 的这 几个 能力, 就是 我们 A I 引擎 的 核心能力, 以及 我们 异构计算 的 基础。 当 这些 能力 去 结合 在一起, 它 能够 去 让 所有的 A I 的 模型, 尤其是 现在 的 生成 A I 的 模型, 能够 去 更 高效 的 去 运行。 可以 去 让 所有的 系统 能够 在 最佳 的 状态 下 能够 去 提高 用户体验。

聊 了 这么 多 A I 的 东西, 最后 我 还是 想 再 回到 一开始 我们 聊 的 这个 音频 的 层面。 就 因为 我们是 做 播客 的, 最近 我们 观察 到 的 一个 比较 厉害 的 A I 技术, 就是说 能把 一个 播客 的 节目, 把 它 生成 一个 另外 的 语言 的 版本, 而且 仍然 是用 的 我们 主播 原本 的 声音。 这个 技术 我 看到 有 一些 小的 创业 公司 在 做。 然后 最近 海外 的 一个 最大 的 一个 流媒体 加上 博客 的 平台 spotify 他们 也 在 推。

那 我 就在 想, 如果 在 将来, 当我 在 听 播客 的 时候, 我的 手机 能够 直接 对 一个 正在 播放 中的 一个 播客 的 音频, 或者 是 任何 一个 音频 的 文件, 对它 进行 现场 的 一个 翻译。 再 或者 是 另外一个 场景, 就是说 比方说 我 马上 要 去 日本 旅游, 但是 我不会 日语, 我 能够 起到 一个 效果, 就是我 对 着 这个 手机 说 中文。 它 能够 以 一个 比较 短 的 一个 时延, 甚至 是 现场 实时 给我 转化成 另外 一种 语言。 但是 同时 还是 用 我自己 的 声音, 在你看来 我们 有朝一日 能够 实现 这样的 功能 吗? 它 需要 哪些 技术 的 进步 才能够 实现 呢?

这个 是一个 特别 有意思 的 场景, 实际上 我们在 探索 这个 技术, 这个 技术 主要是 分为 三个 基础。 一个 就是 语音识别, 就是 把 博主 的 原始 的 音频 识别 成 文字, 然后 再 利用 翻译 的 技术 把 识别 出 文字 翻译成 目标语言 的 文本。 最后 就是 利用 T T S 就是 text to speech, 把 目标语言 的 文本 再 变成 语音 念 出来, 当然 注意 这里 有一个 特别的 能力, 就是 T T S 可以 通过 训练 学习 博主 的 语音 的 声纹, 并且 利用 这个 声纹 去做 渲染。 这样的话 最后的 语音 听 上去 就 跟 博主 的 这个 声音 是 完全 一样的。

这样的 类似的 技术 其实 我们 已经 在 手机 终端 上 已经 去 实现 了。 我们 2019年 就和 OPPO 也有 道 一起 合作 的 通话 翻译 手机 就是 这个 功能, 咱们 可以 利用 这个 功能, 它 可以 去 跟 一个 国外 的 朋友 打电话。 这个 手机 就可以 把 他的 说 的 中文 然后 去 给 变成 文字, 再 翻译成 对方 的 语言, 最后 通过 T T S 送给 对方。 对方 听 完 之后 再说 英语 之后 再 用 同样 的 方法 再去 回 传到 咱们 的 会说 中文 的 用户 手里。

就是 双方都 可以 用 自己的 母语 进行 一个 对话。 然后 中间 所有的 heavy lifting 全都 被 这个 手机 去 接管 了。 没错。

这就是 另外一个 场景。 但是 实际 里面 用 的 技术 就是 跟 刚才 你说的 类似的 这个 技术。 然后 去年 我们 和 小米 合作 的 叫 离线 的 A I 字幕 功能, 其实 也是 有 类似 技术 在 里边。 当 手机 去 看 视频 的 时候, 可能 只有 英文版 的 片 的话, 它 就可以 利用 这个 技术, 可以在 手机 端 侧 实时 的 就 把 的 语言 翻译成 他 希望 的 这个 语言, 去年 的话 我们 跟 小米 就 一起 把 它 完全 在 端 侧 去 运行。 刚才 提到 两个 都是 端 侧 A I 的 能力, 全 链路 我 去 实现 的, 而且 是 实时 的。 声纹 模拟 部分 的话, 未来 我们 相信 也可以 在 手机 上去 运行 起来。

现在 支持 A I 计算能力 的 智能手机, 以及 内置 了 A I 功能 的 这些 手机 的 APP 越来越多。 像 我们 刚才 已经 提到 非常 多 的 场景, 比如说 拍照、 翻译, 语音 处理 这些 的 技术 已经 被 很多 的 用户 所 体验 到了。 展望未来, 在 这个 端 侧 A I 计算能力 的 应用 方面, 高通 还在 探索 哪些 全新 的 能够 让 大家 体验 到 实实在在 的 这个 A I 的 强大 之处 的 这样的 一些 场景。 你们 还有 跟 哪些 其他 的 合作伙伴 在 做 一些 更 有意思 的 事情 吗?

我们 正在 跟 广大 的 生态 合作伙伴 一起 去 推动 生成式 A I 在 终端 上 的 落地。 我们在 M A C soft 的 build 大会 上, 在 骁龙 的 笔记本 上 做了 the division 的 演示。 我们 也 正在 和 meta 合作 去 一起 优化 lama 2大语言 模型。 让 它 可以 直接 在 智能手机 P C X R 以及 汽车 等 终端 上 执行, 而 不需要 再 完全 依赖于 云 服务。

这样 听起来 可以 说 所有的 这些 至少 是 最近 一年 里边 这些 比较 大 比较 流行 的 这种 大 语言 模型, 都 已经 在 骁龙 的 这个 平台 上 已经 跑 起来 了。 我们 骁龙 的 用户 大概 什么时候 能够 体验 到 呢?

我们 希望 我们的 用户 在 今年年底 就 可以在 最新 的 旗舰 智能手机 上, 去 体验 到 盛世 爱的 应用。 并且 在 明年 在车上 也可以 去 体验 到。 我们 每年 的 骁龙 峰会 都会 去 发布 我们 最新 的 产品。 今年 的 峰会 将于 夏威夷 时间 10月24日 到 26日举办, 我们 将 带来 每年 最 重磅 的 新品 发布, 同时 我们 也 带来 高通 在 A I 以及 生成 实验 方面 最前沿 的 创新 成果。

最后 跳出 刚才 我们 聊 的 所有 这些 东西, 从 你 自己的 角度, 现在 有 哪些 最新 的 产品 技术 让 你 感觉到 非常 的 兴奋, 让 你 非常 期待 科技 的 未来。

我 觉得 首先 就是 跟 生殖 I 相关 的, 就 叫 通用 人工智能。 挚爱 的话 我 相信未来 一定 是一个 非常 有 前景 的 方向。 我 特别 期望 今后 未来 的话, 不 只是 我 从 电影 里 看到 像 头号 玩家、 熊 大 大战、 黑客帝国, 包括 阿 丽塔 这些 科幻电影。 我是 然后 我 特别 希望 在 未来 的 某 一个 时刻, 我 真正 的 就是 生活在 那个年代 里。

对, 还有 包括 像元 宇宙, 这个 也是 我们 认为 未来 的 一个 是一个 非常重要 的 一个 使用 场景。 高通 在 这 一方面 我们 也 做了 很多 布局, 包括 在 S R 领域 的 这个 芯片, 以及 我们 人工智能 怎么 去 帮助 S R 领域 能够 去 把 它的 内容 能够 去 做到 最好, 还有 就是 多 设备 互联, 其实 几个 设备 之间 去 使用, 去 同步 信息 是一个 很 头疼 的 事情。 未来 的话 我相信 咱们 所有的 设备 都 可以 很 好的 协同 在一起 工作。 而 尤其是 有有 AI 去 赋能 的话, 可以 让 设备 之间 很 智能 的 可以 把 所有的 这种 工作 能够 去 安排 好啊。 这个 也是 一个 我 觉得 能够 在 今后 的 生活 能够 去 体验 到, 并且 能够 对我 生活 有 这 有 非常 大 的 帮助 的 一个 事情。 还有 最后一个 就是 移民火星。

我们 都在 想 这个 事情。 也 不知道 他 什么时候开始。

卖票 是 这是 一个梦想, 这是 希望 有生之年 能够 去 到 另外一个 就 去 看一看。

好的, 非常感谢 chat 今天 做客 我们的 科技 早知道, 从 他的 角度 跟 我们 聊 一 聊 A I 端 侧 A I 大 模型 等等 这些 非常 流行 的 话题。 我 觉得 特别 重要 的 是, 我们 作为 播客 的 主播 和 制作人, 跟 音频 打交道 的 这些 从业者, 今天 从 chat 的 分享 里面 让 我们 看到 了 高通 在 研发 和 生态 运作 上面 这些 方面 的 努力。 让 我们 习以为常, 就是 以为 日光之下 无心 事 的 这个 音频 的 领域。 让 我们 看到 其实 也 正在 迎来 一波 新的 技术革命, 给 我们的 创作者 以及 收听 端的 听众 都 能够 带来 一些 很 有用 或者 很 有趣 的 这种 体验 的 提升。 我也 希望 听众 能够 从 我们 今天 的 聊天 当中 有所 收获。 最后 我也 echo 一下 刚才 chat 提到 的, 如果我们 的 听 友 当中 有 数码 爱好者, 有 关注 A I 进展 的 朋友, 请 一定 不要 错过 高通 在 下周 即将 开幕 的 骁龙 峰会。 好的, 再次 感谢 chat 今天 做客 科技 早知道。

谢谢 主播, 大家 回头见。

这 期 what nex 科技 早知道 就 到 这里 了。 听 完 之后 如果你 有 任何 的 想法, 欢迎 在 评论 区 里面 给 我们 留言, 我们 每 一条 都会 认真 的 看。 如果 你喜欢 我们的 节目, 请 记得 给 我们 五星 或者 好评, 分享 给 更多 的 朋友, 也会 对 我们 非常 有 帮助。 你 也可以 单独 写邮件 给我, 邮箱地址 是 听 T I N G 艾特 声 点 F M, 我 都会 一一 回复。 同时 公众 号 和 微博 也可以 搜索 生动活泼 声 是 声音 的 声, 节目 相关 的 更多 信息 会 在 公众 号 里 出现, 微博 和 公众 号 都 会有 不定期 的 福利 给 到 大家。

如果你 想要 跟 我们 更加 紧密 的 讨论 和 分享, 或者 是 想要 认识 和你一样 有 求知欲 的 新 朋友, 可以 加入 我们的 微信 群。 进入 听众 群 的 方法 是在 公众 号 文章 中 扫 码 添加, 或者 是 公众 号 后台 回复 科技 早知道, 即可 获取 邀请码。 期待 你的 加入, 我们 下期 见。