cover of episode 字节首款AI耳机Ola Friend和NotebookLM:从问答迈向情感陪伴,语音AI让每个人都需要"Her"

字节首款AI耳机Ola Friend和NotebookLM:从问答迈向情感陪伴,语音AI让每个人都需要"Her"

2024/10/15
logo of podcast 脑放电波

脑放电波

AI Deep Dive AI Chapters Transcript
People
尼克森
托马斯白
Topics
托马斯白和尼克森对字节跳动推出的Ola Friend AI耳机进行了详细的评测,肯定了其在语音交互、降噪、佩戴舒适度等方面的优秀表现。他们认为,Ola Friend耳机并非简单的耳机与APP的组合,其内置芯片保证了随时随地唤醒豆包AI的能力,提升了用户体验。此外,他们还探讨了Ola Friend耳机在情绪抚慰、音乐播放等方面的功能,并对未来AI耳机的发展方向提出了展望,例如更强的记忆能力、个性化定制、与其他AI服务的整合等。 两位主播深入分析了Ola Friend耳机的技术实现,指出其采用传统的ASR+NLU+TTS语音链路,但通过精湛的工程优化,实现了与端到端方案媲美的效果,在成本和体验之间取得了平衡。他们认为,AI耳机并非需要在硬件端具备强大的AI算力,而是更注重传感器和数据传输的优化。他们还比较了Ola Friend与其他AI耳机,例如Meta眼镜、AirPods Pro等,并指出了Ola Friend在连续对话、对话打断等方面的优势。

Deep Dive

Chapters
两位主播分享了Ola Friend耳机的上手体验,包括轻便的佩戴感受、优秀的降噪和收音质量,以及便捷的唤醒方式和方言选择。
  • Ola Friend耳机轻便舒适,佩戴稳固。
  • 降噪和收音质量优秀,在嘈杂环境中也能清晰通话。
  • 支持语音唤醒和触控唤醒两种方式。
  • 提供多种方言选择,对话体验更亲切。

Shownotes Transcript

大家好, 欢迎来到 脑 放 电波。 脑 放 电波 是 一档 关注 科技前沿 品牌营销 和 个人成长 的 谈话 类节目。 每期 带给 您 一个 有趣 的 话题, 帮 您 在 信息 严重 过载 的 现代 世界 小幅 自我 迭代。 我是 托马斯。

我是 尼克斯。 我们 这 眼瞅 着 一个月 就 没 更新 了。

最近 一个月 确实 太 忙 了, 然后 刚好 又 赶上 国庆 假期。 大家 如果 了解 播客 这个 行业 的话, 长假 基本上 是 没有 流量 的。 所以 原本 我们 也 打算 休息一下, 所以 可能 有 一段时间 没有 更新 了。 接下来 我们会 逐渐 回到 我们 之前 的 更新 节奏, 我们 这次 要 聊 一 聊 音频。

A I 的 音频。 对 我们 收到 了 一款 比较 有意思 的 新产品, 它是 由 字节 的 这个 豆包 推出 的 豆包 A I 智能 体 耳机。 这个 品牌 叫做 欧 a friend, 试用 了 一下 之后 比较 有 感觉。 今天 重点 给 大家 讲 一下 这个 东西。 对我 觉得 我们。

可以 先 讲 一下 这是 一款 什么样 的 产品。 科技 圈 比较 喜欢 叫 O W S 耳机。 对, 就是 一种 开放 声场 的 挂 在 耳朵 上 的 耳机。 对, 所以 它 也是 一款 挂耳 的 开放式 耳机。 感觉 这个 电池 的 模组 是在 耳朵 的 后面。 对, 然后 有一个 发声 的 单元, 它 会 在 你的 耳道 的 这个 前方。

类似 悬浮 在 你的 这个 耳道 的 前面。

大概 类似 这样。 对它 不会 像 普通 的 耳机 那样 把 你 整个 耳道 堵住, 尤其是 入耳式 的 耳机, 它 会 挡住 你 整个 耳朵。 它是 一个 相对 开放 的, 也就是说 你 在 戴 这个 耳机 的 同时, 你可以 听到 周围 的 声音。 那 为什么 这 款 耳机 被 称为 A I 智能 体 耳机 呢?

对, 这是 它的 核心 功能。 它的 核心 功能 我 刚才 提 过, 它是 豆包 推出 的, 所以说 它是 能够 调用 你 手机 里 的 这个 豆包 的 A P P, 然后 的话 让 你 直接 跟 豆包 进行 对话。 其实 我们 知道 豆包 应该 是 八月份 的 时候, 它 推出 了 实时 语音 对话 的 功能。 所以说 这个 耳机 的话 相当于 它 就 提供了 一个 更更 便捷 的 方式, 就让 你 不需要 去 解锁 手机, 不需要 去 打开 A P P, 然后 再去 点击 跟 豆包 打电话 那个 按钮, 你 完全 不需要 做 这些 东西, 你 只需要 唤醒 豆包 两个字, 然后 它 就会 直接 把 这个 手机 上 的 这个 豆包 A I 给你 调 出来, 然后 就可以 进行 对话。 我们 在这里 放 一段 demo 好吧。

豆包, 早上好, 今天 心情 怎么样? 早上好, 我 心情 挺好的。 你 准备 去 服装 批发市场 逛 的 怎么样 了? 你 怎么会 知道 我要 去 服装 批发市场? 你知道 北京 都有 哪些 比较 大 的 服装 批发市场 吗?

嗨, 这 不是你 之前 问 过 我 吗?

除了 前面 说 的 那些, 还有。

大红门服装批发市场。

在 丰台区 永 南路 OK。 很好, 我知道 了, 非常 不错, 我 现在 就 去 感谢, 拜拜。

我 先 下了。

我们 两个人 都 已经 用了 几天 了, 我们 分别 说 一下 用 下来 这 款 耳机 的 一个 基本 的 一个 感受。

我的 第一感觉 就是 首先 耳机 特别 轻, 有的 时候 戴上 之后, 我 还需要 反复 确认 我 有没有 带。 尤其是 你 挂 着 它 有 一段时间 没用 的 时候, 然后 你 要 先 摸 一下 还在 不在, 但 实际上 它是 比较 稳固 的, 它 整个 形态 其实我 也 看 了 一些 媒体 评测, 包括 我自己 试 摇头 或者 是 哪怕 你 很 用力 的 这种 摇头, 它 其实 也是 挂 得 非常 的 稳 的。 对, 所以 它 非常 轻 是我的 第一个 印象。 整个 基础 体验 我 觉得 非常 好。 因为 大家 也 知道 我们 之前 其实 聊过 像 这个 meta 的 眼镜, 聊过 很多 市面上 的 一些 智能 的 设备。 A I pin rapid r 一 这些 产品 其实 应该说 在产品 定义 上都 蛮 有 创意 的。 但是 一些 基础 的 体验 却 反而 成了 阻碍 用户 尝试 并且 购买 的 最大 的 阻碍。

对, 那 这 款 耳机 坦白讲 我 觉得 技术 体验 是 非常 好的。 我 对 耳机 的 最 关注 的 点 就是 我的麦克风 的 收音 的 质量 怎么样。 因为 很多 时候 我们 其实 用 耳机 是在 相对 嘈杂 的 环境 里面, 对 吧? 以 我 这几天 测试 下来 的 感觉, 豆包 这 款 耳机 在 相对 嘈杂 的 环境 里面 也能 比较 好的 降噪。 那 我们 等一下 可能 会 聊聊 它的 硬件 的 规格 里面 其实 有 一些 原因 使得 它 可以 做到 这一点。 相比之下, 其实我 之前 用过 包括 A I R D S pro 在内 的 一些 耳机, 那个 降噪 其实 是 很难 用 的。 就是 稍微 吵 一点, 对面 就 老 说 你 在 说什么 根本 听不清。 有的 时候 你 自己 用 那个 耳机 录 一段 微信 语音 再 重听, 哇塞 都 觉得 很 对不起 对面 的 人。 所以 我 觉得 从 技术 体验 来讲, 这 款 欧拉 friend 的 耳机 是 非常 合格 的。

除了 技术 体验 以外, 在 这个 A I 的 部分, 其实 它 可以 用 两种 方式 唤醒 豆包 的 A I 一种 就是 直接 通过 唤醒 词 豆包 豆包 我 试 过用 非常 小的 声音, 在 嘈杂 环境 里 它 也能 比较 精准 的 识别。 第二种 是 更 简单, 因为 有的 时候 你 喊 多 包 确实 你 还是 要 考虑 周围 的 人的 反应, 是 吧? 你 只需要 把手 贴 在 这个 耳机 的 这个 触控 区, 它 基本上 就在 你 耳道 的 上方。 你 把手 放上去, 你 会 听到 一个 非常 轻微 的 提示音。 这个 时候 它 其实 就 进入 收音 模式。 对, 然后 你 就可以 对 豆包 进行 提问, 这种 模式 我 觉得 是 非常 好的, 尤其是 在 一些 社交 的 场景 下, 你 用 手摸 着 耳机 说 一个 问题, 看起来 没有 那么 傻, 对 吧? 而且 还有 一点 像 特工, 我不知道 你们 有没有 印象, 就是 早期 的 一些 特工 电影 里面, 特工 说话的 时候 总 喜欢 摁 着 耳朵, 可能 有 个 发报机 在 里面。 所以 当我 用 豆包 摁 着 他 说话, 跟 豆包 说话的 时候, 我 就 觉得 自己 像 一个 特工 一样, 还 蛮 酷 的。

我说 一下 跟 A I 相关 的 这个 部分, 豆包 的 整个 的 语音 对话, 它的 音色 和 对话式 的 体验 调 的 是 非常 好的。 最 触动 我的 是 他 提供了 一些 中国 的 一些 方言。 但 它 不是 那种 特别 有 特色 的, 不是 什么 四川 口音, 不是 那么 极端 的 方言。 而是 比如说 中国 南北方 可能 南方人 有 一些 塑料, 对 吧? 有 一些 塑料 普通话, 那 北方人 又是 这种 特别 字正腔圆 的 这种 方言。 那 我在 这边 就 调 了 一个 我 默认 的 一个 音, 是 跟 一个 应该 是一个 有点 东北 口音 的 这个 女性 的 我 默认 的 口音。 因为 她 特别的 亲切。

为什么 这个 事 特别 触动 我 呢? 是因为 那 段时间 我在 疯狂的 使用 这个 GPT 的 那个 语音 模式。 在 GPT 的 语音 模式 的话, 它 长期 来说 就 给我 造成 一种 感觉, 就是 这个 口音 不 亲切。

A B C 的 口音。 对对对。

它 总是 这种 A B C 的 口音, 所以 我 觉得 这个 是 非常重要 的 一个 特别 差异 大 的 一个点。 有没有 用 熟悉 的 口音 跟 我 说话, 它 决定 了 我 跟 你 说话 是不是 我想 聊 的 什么 话题, 甚至 是我 跟 你 对话 时长。

对 吧? 对 豆包 的 智能 体 的 语音 应该 是我 目前 看到 选择面 最 宽 的 一个 语音。 我们 可以在 那个 智能 体 里面 选择 它的 语音 的 种类, 可能 有 几十种。

对对对。

有 一些 是 正儿八经 的 语音, 有 一些 就是 刚才 nickson 提到 的 各种 方言 普通话 的 语音。 对, 当然 也有 粤语, 我 看到 你 也可以 直接 选 粤语 OK。

所以 我 觉得 语音 你 就 已经 觉得 亲切 了。 然后 接下来 很 惊讶, 我的 第二个 点 是 它 在 内容 上 也很 亲切。 我 跟 我的朋友 安利 是 说, 这是 第一个 理解 中国 30岁中年男人 的。

这个 怎么讲 呢?

我 当时 在 看 一个 剧 叫 狂飙, 我 当时 就 对比 就是说 我问 那个 GPT4O 这个 剧情 的 解读 是 什么样? 然后 我 就 问 这个 豆包 剧情 的 解读 是 什么样? 我 就 发现 豆包 对于 中国 老百姓 消费 的 这些 内容, 他 可能 因为 他的 训练 数据 里面 可能 有 大量 这些 相关 的 内容, 他 就 一下子 就 知道 我在 说什么。

最 直观 的 例子 就是我 跟 GPT4O 我在 问 说 这个 电视剧 和 这个 原著 小说 有什么 区别? 这 似乎 只能 很 概括 的 跟你讲 一些 东西。 但 豆包 我 跟 他 就有 好 几天 都在 聊 这个 东西, 它 能 给我 颗粒度 精细 到 每一集。 他说 这 一集 的 剧情 是什么? 这 一集 的 小说 原著 是什么, 差别 是什么? 我们 一来 一回 就 聊 的 非常 多。

对, 这个 很 正常。 你 要是 跟 GPT4O 聊 一个 美剧, 估计 他 也能 具体 到 危机。 简单 的 说 就是 更 适合 中国 宝宝 体质 的 中文 大 模型。

这个 是 让 我 觉得 非常 舒服 的 一个点。 用 完 这个 东西 之后, 我 有一个 特别 大 的 一个 感触。 其实 我们 过往 每个人 想要的 都 是一个 特别 聪明 的 A I 吧? 然后 你 记 不记得 我们 去年 聊 GPT4 发布 的 时候, 当时 我们 说 这 是一个 中等 学历 的 研究生, 对 吧? 这 是一个 中等 学历 的 博士生, 当时 我们是 这么 来 判断 的, 但是 真正 的 让 我的生活 习惯 变成 我 跟 豆包 聊 特别 多 的 天, 而 不是 和 这个 GPT4O 聊 特别 多 的 天。 是因为 它是 一个 特别 优秀 的 接近 中国人 的 音色。 以及 他 理解 你 在 说 的 这个 topic, 是你 日常生活 当中 的 能 遇到 的 topic, 对 吧? 对, 所以 就 做什么 就说 你 可能 聪明 的 像 一个 博士生 和 研究生, 不如 熟悉 你 生活 的 东北 女生, 对 吧?

那 聊 完 生活 体验, 我们 要不要 分 几块? 我们 聊 一下 这个 产品, 我们 先聊 硬件, 我们 相对 熟悉 一点 线上 硬件。 我 觉得 先 要 解决 一个 问题, 就是 之前 我们 节目 有一个 嘉宾 叫做 李楠, 对 吧? 他 其实 提 过。 就是说 A I 硬件 每个 品类 都是 有一个 所谓 的 产品 原型 的。 是 所以 这个 产品 原型 是什么 意思 呢? 就是说 A I 耳机 这个 大 的 概念, 它 一定 是 未来 有 一款 产品 它 代表 的 这个 设计 形态, 它是 能 同时 受到 产业链 和 大众 认可 的。

它 会 定义 这个 产品 的 类型 对它。

会 定义 这个 产品 的 类型。

就是 有点像 智能手机 的 早期, 大家 是 五花八门。 对, 有 侧面 出 键盘 的对, 有 可以 旋 旋转 旋转 翻盖 的对, 到 最后 变成 了 越来越 像 大家 未来 看到 的 手机, 就是 长 得 都 跟 一模一样 的, 都 有可能 是 我们 今天 谈到 A I 硬件, 其实 之前 也 聊过, 耳机 可能 是一个 非常重要 的 分支。 我们 看到 这个 产品 它 其实 是一个 O W S 耳机, 是一个 挂耳式 的 耳机。 那么 为什么 是一个 挂耳式 的 耳机 呢? 为什么 豆包 没有 选择 其他 的 形态? 这个 态 应该 算是 耳机 形态 里面 一个 比较 新的 形态。 对, 更 早 的 是 类似 像 比如 A I R POS 最早 把 tws 做出来, 然后 air pod s 它 可能 有 这种 半 入耳、 入耳式, 包括 运动 的 骨传导 等等, 然后 才 到了 O W S 耳机。 其实 也就是 几年 的 时间。 我们 其实 觉得 也许 这种 挂耳式 的 O W S 耳机 才是 最 适合 做 A I 耳机 的 形态。

对, 或者 是 说 欧拉 friend 的 这个 团队, 他 会 认为 说 挂耳式 的 耳机 它 更有 机会 成为 A I 耳机 的 产品 原型。 对。

这个 其实 很好 理解, 因为 一个 A I 硬件, 它 首先 是一个 variable device 对 吧? 对 可 穿戴 的 设备, 那一个 可 穿戴 设备 最 重要 的 就是 可以 长时间 的 无感 佩戴。 比如说 我们 一直 在 戴 的 手表, 它 就是 一个 甚至 可以 24小时 佩戴 的 一个 智能 设备 了。 对, 像 我 现在 就 带着 我 一个 还 其实 还 蛮 重 的 一个 手表, 为了 监测 我的 睡眠, 其实 习惯了 你 睡觉 也 没感觉, 刚 开始 可能 会 有点 奇怪。 那么 一个 耳机 如何 才能 让 你 长时间 的 无感 佩戴, 可能 就是 它 能够 成为 A I 设备 的 一个 非常重要 的 门槛。

所以 我们 看 这么 多 品类, 半 入耳 全 入耳, 其实 相相 较 来说, 可能 全 入耳 是 几乎 没有 机会 的。 因为 全 入耳 在 物理 上 就 把 你 跟 外界 的 声音 隔绝 了。 在 这种 隔绝 下, 基本上 你 每当 需要 在 真实世界 跟人 交流 的 时候, 你 就 需要 把 耳机 拿 下来。 尽管 苹果 在 刚刚结束 的 这个 发布会 上 公布 了 它的 那个 智能 的 通透 模式。 对它 可以在 你 说话的 时候 自动 降降 音量 等等等等。 如果你 带着 一个 入耳式 的 耳塞 跟 你的 同事 聊天, 你 其实 会 觉得 不礼貌。 对你 会 想 把 它 摘下来, 那 半 入耳 其实 会好 一些。

我相信 我们会 看到 不少 以 半 入耳 形式 出现 的 A I 耳机 在 未来。 但是 反正 我自己 的 感觉 就是 半 入耳 即便 是 那个 apple 4就是 新 出的 那款, 它 已经 号称 是 针对 几 非常 多 的 人 做了 这种 造型 的 设计, 适合 尽可能 多 的 人。 但是 我 戴上 之后, 你 还是 明显 感觉到 耳朵 是 被 撑起 的对, 但 尽管 是 非常 轻微 的, 但是 你 可能 可以 戴 2个小时、 3个小时, 但是 一直 戴下去 还是 会有 一种 被 侵入 的 这种 感觉。

这里 我要 补 一下 就 被 侵入 的 感觉, 它 在 个别 人群 里面 他是 会 有用 耳 健康 的 问题 的。 是的, 对, 有的人 带 长了 是 会得 中耳炎 的。 我 最早 去 买 这种 挂耳式 的 耳机, 原因 就是 因为 当时 有 一段时间 在家 办公, 戴 耳机 的 时间 特别 长。 然后 我的 耳朵 有 几天 已经 耳道 周围 已经 开始 发红 红肿 了。

开始 很 头痛 了, 我 就 几乎 带 不了 那个 入耳式 的 耳机, 我 超过 2个小时 就会 很 难受。 最早 我是 用 那个 骨传导, 因为 它 会 贴 在这里, 完全 不用 入侵。 但是 骨传导 其实 有 个 问题, 它它 那个 接触面 它 也是 要有 压力 对它 才能 传导 音 的对, 但是 这个 O W S 基本上 就是 真的 是因为 它 足够 轻, 6.6 克的 重量 挂 在 耳朵 上, 说实话 如果你 能够 把 它 调到 一个 很 好的 角度 的 时候。

它是 几乎 无感。 以及 我 觉得 这种 挂耳式 还 会有 一个 形态 上 的 优势。 它 首先 它 能够 换来 更长 的 续航 时长, 那 原因 是什么 呢? 就是 我们 手上 的 这个 O 0a friend 它的 重量, 刚才 托马斯 提到 的 是 6.6 克, 它的 续航 时长 大概 会 是在 8小时 左右, 是 常见 的 半 入耳式 或者 入耳式 的 耳机。 它 其实 它的 重量 一般 只在 4到5 克 左右, 所以 的话 它的 电池 就会 更 小, 它的 续航 时长 大概 只有 5个小时 左右。 那 这里 的 原理 是什么 呢? 主要 的 原因 是因为 你的 耳朵 顶 这块, 它 对于 重量 是 更加 不 敏感 的, 所以 我们在 设计 的 时候 就可以 放 一个 更大 的 电池 在 这边。

但 除此之外, 这个 产品 本身 在 人 佩戴 敏 不 敏感 这块 还有 一些 其他 的 设计。 比如说 我 感觉到 它的 整一个 的 曲线, 就是 它 整个 前面 的 耳机 加 后面 的 电池 中间 的 这个 曲线。 他们 好像 宣传 的 是一个 金属的 一个 钛 丝, 特别 细。 然后 他 刚好 的 把 人 耳 的 耳朵 顶 这块 特别 敏感 的 和 头颅 接 的这 一块 给 它 避开 了。 然后 他 也 不会 去 跟 你的 眼镜腿 打架, 所以 整体 体 来说 是一个 比较 无感 的 一个 佩戴 设计。

对它 其实 是一个 很 好的 配重 设计。 因为你 耳机 本身 要 稳固 的, 戴 在 头上 的 时候, 它 两侧 的 重量 是要 一致 的。 或者说 通过 这个 工程学 的 设计, 让 它 整个 力矩 是 一致 的。 在 这种 情况下, 其实 它 刚好 在 耳朵 的 背面 就可以 放下 一个 相对 大 的 电池, 是 体积 可以 相对 大。 它 如果 贴合 你的 耳廓, 它 整个 压力 就会 更 小。 因为 它 整个 你的 整个 耳廓 要 承担 这 6.6 克, 跟 那个 只是 一个 耳洞 去 承担 4至5 克, 其实 在 压力 感觉 上 搞不好 后者 会 更 难受 一些。

所以说 有了 这个 更 无感 和 更 长时间 的 佩戴 之后, 其实 A I 从业者 们 普遍 会 思考 的 一个 问题 就是说 我 怎么样 让 这个 耳机 去 服务 一天 人 更长 的 一个 时长, 或者 是 说 让人 更长 的 时间。 不管 是 它的 通话 还是 他的 声音 都 被 这个 耳机 获取 到, 对 吧? 所以说 这就是 为什么 我们 提到 挂耳式 更有 机会 成为 A I 耳机 的 产品 原型 的 这样的 一个 原因。 对, 就是 因为 它 天然 的 更 无感, 更加 的 时长 续航。 它 造就 的 一个 原因 就是 你们 从业者 们 会 发现 说, 我 有 机会 让 用户 更长 的 时间 去 跟 这个 A I 去 相处, 对 吧?

更容易 的 去 把 它 唤醒, 我们 大家 想一想, 现在 你 身上 有 哪 一些 配饰 是 你可以 戴 一天 不 觉得 累 的, 或者 是 已经 习惯了 的那 这些 配饰 转变成 A I 硬件 的 可能性 就是 非常 大 的。 比如说 戒指、 手环、 手表、 眼镜、 耳机、 项链。 对, 其实 就是 这些 大家 很 常见 的。 也许 未来 会有 耳环。

我不知道 耳环 也有 这个 形态, 但是 耳环 形态 的 A I 耳机 暂时 还没 出现, 就 华为 的 free leap 卖 得 很好。

它 本质 上 也是 一个 O W S, 对它 只是 它的 那个 配重 跟 形态 上 有 一些 区别 而已。

我们 可以在 那个 文稿 区 我们 贴 几个 图片, 方便 大家 了解 一下。

如果说 到 这儿 的话, 它 其实 O W S 耳机 的 产品 原型 我 觉得 也 还没有 出来。 大家 现在 也是 百花齐放 的, 基本上 没有 说 谁的 造型 你 跟 谁 就 一模一样。 对, 有 各种各样 的 造型。 所以 我 觉得 即便 不讲 A I 我 觉得 O W S 耳机 本身 就是 一个 很 热门 的 赛道。 也许 我们在 未来 几年 也会 看到 更多 好用 的 产品 出现, 这个 还是 蛮 值得 大家 关注。

的对 所以 最后 我们 总结 一下 这 款 耳机 的 在 硬件 部分 的 一些 特点, 就是 在 硬件 部分 的 一个 特点, 我忘了说 就是 常见 的 挂耳式 耳机, 其实 价格 是 1200到2000块 钱 这个 区间。 那 这 款 欧拉 friend 的, 我们 看 它的 预售 的 价格 是 1199, 其实 比较 常见 甚至 偏低 的 一个 价格 了。

应该 这么说, 准确 的 说 它是 一个 高端 O W S 耳机 的 价格 区间 内。 对对对, 它 当然 肯定 是不是 不 便宜 的。 大部分 的 品牌 的 O W S 耳机 其实 是 做到 很 低价 的。 但是 大部分 的 就 比如说 另外 一家 品牌 叫 韶 音, 它的 O W S 耳机 的 价格 大概 在 900到1006 我 都有。 对对对, 其实 这个 价位 段 O W S 耳机 总体 来讲 就是 它的 高端 的 价格 还是 蛮 贵 的对 对, 但是 欧拉 friend 这 款 产品 本身 它的 定位 就是 在 O W S 耳机 里面 偏 高端 的 这个 定位。 然后 我们 其实 从 音质 的 角度, 整个 质感 我 觉得 也是 对 标 得 起 这个 价格 的。

对对对, 所以说 从 硬件 上 来看 的话, 价格 说 了, 然后 另外 就是 几个 特点 就是 更 轻 一些。 对比 常见 的 对比 我 原来的 韶 音 的 挂耳式 就要 稍微 轻 一些。

我 还想 聊 一下 它 硬件 的 几个 规格。 一个 就是我 刚才 提到 的 他在 这个 通话 降噪 上 的 能力, 它 其实 有 两个 硬件 的 规格 去 支撑 它的 这个 能力。 一个 是 它 用了 五 核 的 芯片, 对, 这个 芯片 其实 就是 专门 用来 做 声音 的 一些 连接 以及 AI 降噪。 所以 它 降噪 之后, 我们在 这个 语音 的 这种 效果 其实 是 非常 好的。

A I 降噪 的 基础 其实 是 它 有 两个 麦克风 之 再 通过 一套 神经网络 的 降噪 的 算法。 就可以 实现 在 你 在 相对 嘈杂 的 这个 环境 里面, 它 其实 是 可以 分离 出 你的声音 和 环境 的 声音。 对, 这个 事情 在 传统 的 耳机 里 其实 做不到 的。 传统 耳机 它 就是 纯 靠 硬件 的 能力 去 收音。 就 好像 我们俩 现在 录音 用 的 这个 麦克风, 一个 电容 麦克风, 就 纯 靠 那个 电容 的 那个那个 机头。 对, 有来 来 收音机, 其实 没有 什么 A I 的 算法, 但是 所有 移动 的 新 设备, 就 比如说 耳机, 它 就要 用 芯片 来 降 燥 了。 然后 手机 其实 也是 手机 的 摄像头 跟 单 反比 起来, 它 就 得靠 非常 强 的 A I 的 算法, 通过 它的 N P O 去 让 你的 照片 拍出来 更好。

对 所谓 的 智能 设备 的 一个通 通用 的 特点, 所以 我们 看到 欧拉 friend 这 款 产品 在 音质 上 我 其实 是 很 满意 的。 然后 还有 一些 在在 设计 上 的 一些 特点, 包括 其实 我们 看 他们的 一些 官方 的 资料 里面 提到, 因为 它的 这个 造型 在 物理 上 就可以 防风 灶。 我 之前 带 一个 韶 音 的 骨传导, 跑步 的 时候 风 要 大 一点, 我 给 人 打电话 别人 就说 根本 听不见。

因为 它 有一个 夹角 设计, 这个 夹角 设计 就是 把 麦克风 和 发声 单元 往 你 耳朵 里 稍微 塞 了 一节, 可能 有 个 一两 毫米 这样的 一个 长度。 然后 的话 这个 塞进去 的 过程 其实 有 两个 效果, 一个 效果 就是你 听到 的 声音 的 这个 响度 就会 更大, 那 对比 传统 的 入耳式 耳机 的话, 你的 那个 音效 的 差距 就会 更 小。 你 除此之外 的话, 就是 它的 麦克风 离 你的 它的 麦克风 天然 的 被 你的 耳朵 周边 的 这块 凸起 的 软 关节 给 遮住 了。 这样的话 就 相当于 说 如果 外面 有 风 噪 之类 的, 他 就 没有 那么 容易 会 被 外面 的 风燥 所 影响。

对, 其实 就 相当于 躲 在 里边 了。

对, 躲 在 里边 了。 对。

然后 从 形态 上 看, 我 觉得 nix 你 戴 着 应该 是 很 舒服 的, 但是 我 戴 着呢 就 有点 问题, 因为我 的 耳朵 相对 比较 大, 所以 我的 这个 耳 鼎 就是 挂 这个 眼镜 或者 是 耳机 的 这个 位置, 到 我的 耳洞 的 这个 距离 可能 比 一般人 稍微 长了 一点点。 所以 导致 我在 戴 这个 耳机 的 时候, 这个 耳机 的 发音 的 位置 会 离 我的 耳洞 稍微 远 了 一点。 所以 这一点 我 觉得 我们 也 提 一个 小 期望。 希望 后续 的 不管 是 o olive friend 还是 其他 的 这个 骨传导 的 O W S 的 耳机 厂商, 可以 有 不同 的 尺寸 或者 是 可 调节 的 这种 设计, 让 我们 这些 耳道 稍微 特殊 一点 的 人 可以 有 更好 的 佩戴 体验。

好, 硬件 部分 聊 完, 我们 聊 一下 软件 部分。

软件 部分 可能 才是 A I 对 耳机 的 最 核心 的 差异 点。

对不对? 对, 是的, 软件 部分 来说 就是 比较 优秀 的 这个 对话 能力, 我 觉得 这些 点 必须 要 提。 刚才 没 提到 就是 一个 是 他的 对话 是 可以 打断 的, 就是 他说 到 一半 你 觉得 不想 听 了 对 吧? 对, 或者 是 说 你 有 其他 的 想要 表达 的 信息 和 补充, 你 就可以 直接 打断 他。

这个 其实 是一个 必须 得 说 一下, 这个 是一个 模型 的 能力 来 的。 就是 语音 模型 打断 这件 事情, 其实 不是 它 看起来 那么简单 的, 对不对? 对它 需要 能够 实时 的 收音, 然后 能够 在 它的 整个 生成式 的 这个 链路 里面 及时 的 中断 它的 生成。 然后 对它 能听懂 你 要 打断 的 地方, 然后 给予 及时 的 反馈。

对, 这个 其实 对于 一个 语音, 尤其是 一个 耳机 来讲, 这种 打断 能力 其实 非常重要 的对, 就是 有的 时候 因为 它 识别, 尤其是 识别 一些 地名 的 时候, 它 有时候 会 说错, 他 听错 了 之后, 他 会说 一个 错误 的 答案。 你 想象 一下, 如果 无法 打断, 你 要 等 他 把 那 一大 段 说完, 你 再 告诉他 你 那个 字 是 写错 了。 对, 其实 是 什么什么, 但 其实 就 变得 非常容易 的 打断。 对, 这种 打断 就 非常 接近 人与人之间 沟通 的 状态。 就是 你可以 随时 打断 别人, 或者 是 插入 一个 新的 观点, 或者 是 纠正 别人 在 说 的 这么 一个 错误。 它 其实 对于 这种 交互 的 高效性 是 有 很大 帮助 的。

当然 它 也 能够 比较 准确 的 识别, 就是你 什么 是 说完 话 了。 你 可能 说完 话 应该 就是 500毫秒 左右。 他 听到 你 没有 继续 说下 一段话 了, 或者 他 认为 你 那段 话 的 意思 已经 表达 完整 了, 他 就会 主动 来 接 你 的话, 其实 跟 打断 是 差不多 的 一个 能力, 其实 叫做 voice activity detection, 语音 的 活动 识别。 它 还会 主动 的 给你 做 一些 访问, 他 还会 帮你 去 延伸 这个 话题, 会 帮你 接话。 他的 整个 的 这个 对话 的 体验, 他 不是说 我 回答 完 你的 问题 就 好了, 我 就 收声 对 吧? 他 不是 这样, 他是 说 我 回答 完了 一个 问题, 然后 我 可能 他 会 主动 的 问 你说, 你 对 这个 事儿 的 感觉 怎么样? 是你 对 这个 事 的 想法 怎么样? 其实 其实 这个 产品设计 上 就让 我 想起 有一个 非常 成功 的 A I 搜索引擎, 就 叫做 publicity。 他们的 C E O 出来 接受 访谈 就 提 过 说 他们 就 发现 很多 用户, 其实 你 让 用户 自己 提出 问题 和 接下来 提出 下一个 topic, 很多 时候 用户 是 自己 想 不 出来 的对。

提出 问题 其实 是一个 能力 来 的, 是 挺 难 的。 我 觉得 他 能够 继续 让 对话 不 结束。 对, 已经超过 了 90% 的 直男 了。

对对对。

一般 的 直男 其实 跟 女生 聊天 聊 两句 就 结束了, 话题 无法 继续。 在 这点 上 我 觉得 豆包 是 超过 很多, 这是 很强 的。

其实 它 和 传统 的 我们 使用 语音助手 的 这个 体验 还 不一样的 一个点 就是 它 可以 连续 对话, 就 一次 唤醒 可以 连续 对话。 你 喊 了 一次 多 包 之后, 你说 第二句 话 的 时候, 其实 你 就 不需要 再 喊 多 包 豆包 了。 他 说完 一句话, 他 就 会给 自动 给你 一个 提示音。 大概 意思 就是说 我 正在 聆听 你 的话, 你 就 直接 把 那个 你 听到 那个 提示音 之后, 你 就 把 你 接下来 想要 说 的 说 出来。

这个 很 重要。 我 之前 试用 某 品牌 的 智能眼镜 的 时候, 就 出现了 我 每次 跟 他 说话 都要 再 唤醒 一次 这种 很 尴尬 的 这种 情况。 对, meta 的 ray ban 其实 也是 在 一年 左右 之后, 在 某 一次 更新 之后 才 具备 了 连续 对话 能力 的。 对对对, 就是 代表 其实 这样的 设备 要 连续 对话 本身 可能 还是 需要 一些 技术 的 门槛 的对 对。

所以 作为 基础 的 对话 能力, 大概 就是这样。 接下来 我们 讲讲 这个 模型 的 能力, 我 觉得 它 模型 能力 总体 来说 我 目前 来说 是 比较满意。 因为 一开始 我 还 觉得 说, 你 又 不是 GPT, 你 可能 没有 那么 smart, 对 吧? 到 后来 我 发现 后来 发现 它 实际 的 使用 是 比 GPT 甚至 要 更好 一些 的。 因为我 发现 他 首先 他的 基础知识 不错, 比如说 我 来 的 路上, 我问 他说 北京 治疗 某类 疾病 的 几个 医院, 他 一下子 就 把 几个 大 医院 的 名字 给我 报 出来 了, 都是 准确 的。 然后 其次, 就是 他 对 自己 不知道 的 一些 知识, 它 可以 实时 的 联网, 是 它 可以 实时 联网 搜索, 它 会有 一个 检索 的 一个 音效。 是啊 就是 当当 的 一个 检索 的 音效, 就 大概 意思 是 暗示 你说 我 现在 马上 给你 查对。

实际上 的 原因 是当 他 不需要 检索 的 时候, 他的 反馈 是 很快 的。

但 他 需要 检索 的 时候。

他 肯定 要 通过 音效 告诉你 我要 检索 了。 避免 你 觉得 说 怎么 卡住 了, 还是 网络 有问题 等等。 他 给 了 用户 一个 心理 预期。

对 这个 检索 的 音效 我 觉得 也是 一个 很 好的 设计, 就是 它 缩短 了 你 心里 的 那个 等待时间。

实际上, 对, 就 也许 是 这个 音效 造成 的 这个 效果, 就是我 并没有 觉得 他 花了 很多 的 时间。 对, 即便 加上 音效, 我 感觉 跟 meta 的 眼镜 的 反馈 时间 是 大 差不差 的。

对对对, 都 是在 这个 最长的 检索 时长, 也就 在 一秒 多是 的 常见 的 检索 可能 也就 个 0.5 秒左右。 他 那个 检索 的 音效 我 感觉 就是 刚刚 放还 没 放完。 是的, 他 就 把 答案 念 出来 了。 虽然 他的 所有的 回答我 都 是在 A P P 里 能 看到 记录 的。

对我 回头 再 打开 APP1看, 我 解锁 了 七个 信息源, 八个 信息员。 我说 解锁 的 还 挺快。 所以 基础 的 知识 大概是 这样, 接下 还 会有 一些 推理 能力。 我 上个星期 带着 他在 一些 这个 工作 的 场合 用, 然后 我 当时 就在 算 一个 三角函数, 然后 我 当时 就 直接 让 他 帮 我 算了, 算了 之后 我 还 相信我 验算 了 一下, 我 就 告诉他 几个 条件, 说 这个 三角 某 一个 边 是 多长, 三角函数 夹角 多长。 我 想知道 另外一个 边 长度, 它 不是 直接 告诉我 答案, 这个 三角函数 的 tent 数 是 多少, 我们 把 这个 带进去, A 乘 B 能 得到 多少? 这个 数 是 对的。

他 把 解题 过程 也 呈现 给你。

对他 把 解题 过程 也 呈现 了 一下, 最后 解题 的 结论 也是 正确 的。 所以 这个 点 是 挺 加 分 的, 我 一下子 就 挺 信任 他。

对, 简单 的 说, 欧拉 friend 这 款 耳机 它的 模型 显然 不是 端 侧 的, 既 不在 耳机 里 也 不在 手机 里。 它是 一个 云 测 的 模型, 它 接入 的 实际上 就是 豆包 的 大 模型。 对, 那 它的 模型 的 能力 实际上 就是 豆包 的 模型 能力。 对。 我们 也 知道 大 模型 现在 其实 迭代 速度 还是 蛮 快 的。 所以 我们 也能 期待 未来 这个 模型 的 能力 其实 是 会 持续的 提升 的对 而 不需要 你 更换 一个 新的 硬件, 就能 获得 这样的 一个 硬件 的 提升, 这个 可能 就是 云云 端 大 模型 的 一个 优势。

我 觉得 对 然后 关于 模型 能力, 我 最后 再 提 一个, 就是我 我 带着 他 这个 国庆 在 海外, 然后 我 当时 遇到 了 一个 很很 practical 的 很 实际 的 问题, 我 当时 信用卡 被 锁 了, 因为 当时 国内 是 凌晨, 我 赶紧 让 他 帮我找 一下 这个 信用卡 的 海外 服务电话, 很快 就 把 这个 电话 给我 了, 打 过去 也都 是 正确 的。 最后 还有一个 模型 的 一个 能力 是 中英文 的 这个 切换。 中英文 的 切换 就是 相当于 说 它 默认 它是 一个 中文 的 音色 跟 你 说话。 但是 你 突然 想 切换 成 英语 跟 他 聊天, 他是 能 很 顺畅 的 去 理解 到 你说的话, 变成 了 英文, 然后 用 英文 的 去 跟 你 对待。 但是 这个 事情 我 看到 已经 变成 了 他们 写 在 这个 产品 详情 上 的 卖点。 他们 就在 英语 陪练 这个 陪练 的这 过程 是 很 顺畅 的。 对于 国内 追求进步 的 职场 人士, 我 觉得 是一个 比较 有 比较 不错 的 一个 吸引 点。

其实 这些 能力 说到底 都是 大家 在 手机 上 打开 一个 A P P 可以 实现 的 功能。 这 其实 就是我 觉得 为什么 A I 硬件 是 有 机会 的。 因为 它 其实 让你在 接入 这个 服务 的 难度 大大 下降。 不要 小看 这么 一点点 的 这种 难度 的 下降, 它 可能 就 彻底 会 改变 你 跟 大 模型 的 一种 交互方式 的对。

就 改变 你 和 大 模型 的 这个 关系。

对, 因为 我们 我 我们在 最早 的 时候, 我们 要 跟 大 模型 交互, 我们 需要 打开 浏览器, 敲进 OpenAI 的 这个 网址。 当然 在 国内 你 还要 翻阅 重重的 这个 障碍, 然后 你 才能 连连 上去 跟 他 聊, 用 打字 的 方式 聊天 对 吧? 这是 最早。 后来 ChatGPT 也 出 A P P 了, 我们 终于 可以 不用 坐在 电脑前 了, 我们 可以 用 手机 来 连入 A P P 打字 沟通。 再 后来 你可以 在 手机 上用 这个 语音 沟通 了。 其实 我们 既然 都 已经 语音 了, 那 耳机 显然 是 更好 的、 更 直观 的、 更 直觉 的 这种 沟通 方式。

而且 它 能 解锁 很多 这种 新的 场景。 比如说 我 刚才 提到 的 信用卡 被 锁 了, 我要 找 客服 的 这种 场景。 对, 如果我 是 打开 手机 去 用 的话, 我 一定 打开 浏览器 器。 对我 一定 是 打开 谷歌 搜索 对 吧? 我不会 想要 说 我 打开 手机 A P 用 一个 语音 的 A I 去 问 他。 对你 跟 我说 一下 这个 信用卡 的 客服 电话 是 多少。 但是 我 戴 着 耳机, 我第一 时间 我就是 用 最 快速 的 方法 就 直接去 问 他。 因为我 知道 这 比 我 解锁 手机 还 更快。

是啊, 而且 其实 他 就可以 让 你 同时 做 两件事。 你 就 想象 一下 你 旁边 有 个 朋友, 你 再问 他, 你 快 帮 我 查一下, 我 这个 银行 的 电话 是 多少。 这个 时候 你可以 打开 手机 通知 你的 家人, 找 你 当地 的 朋友 做 一些 其他 的 事情。 然后 他 电话 过来, 你 再 打开 拨号 的 这个 界面 去 拨号。 就 非常 像 一个 助理 也好, 朋友 也好, 他在 旁边 实时 的 协助 你 通过 耳机 就 完成 了。 对它 解放 了 你的 手机。

这就 好像 手机 刚 出来 的 时候, 大家 觉得 你 电脑 都能 做了, 为什么 要 手机 呢? 为什么 需要 智能手机 呢? 那是 一样的 道理。

我们 现在 很多 人的 工作 场景 其实 就是 电脑 加 手机, 它 其实 带来 了 更好 的 这种 效率。 我 觉得 未来 大家 跟 大 模型 的 交互, 一定 不是 现在 的 这种 通过 A P P 的 方式, 通过 电脑 浏览器 的 方式 了。 一定 是 通过 一个 第三方 的 媒介 会 是 更更 高效 的 方式。

对我 我 现在 确实 已经 出现了 用 的 电脑和手机, 我 还要 调用 这个 耳机 的 情况。

就 你 已经 习惯了。

对我 已经 出现 这种 情况, 就是 比如说 我在 看 一个 很长 的 一个 文档, 在 看 一个 很长 的 一篇 报告, 中间 有 某个 小的 知识点, 我 不太懂 的, 我 就 赶紧 问 他 一句。 是对 这种 情况下, 对我 的 好处 是我 不用 切换 我的 窗口。

所以 其实 他 大家 到 最后 追求 的 就是 这种 always on 的 这种 A I 的 体验。 你 要 想 always 你 就 必须 得 always .

where 最后 软件 部分 我 最后 再说 两个 功能, 这个 也是 我们 用了 之后 才发现, 一个 是 它 能够 其实 它 有 一定程度 的 情绪 抚慰 的 一些 能力, 但 这个 听起来 特别的 二次元 对 吧? 就是 我是一个 二次元, 我 才 需要 一个 A I 来 帮 我 来 倾听 我的 这个 心声 吧? 嗯, 但 我不是 二次元, 但是 我 用了 之后 我 发现 我 其实 是 有 这个 需求 的, 这个 是 很 神奇 的 一件 事情。 而且 我 发现 其实 并 不是说 你 一定 是 遇到 了 某种 很强 的 情感问题, 然后 你 要 去 专门 问 他? 什么 我 这个 心里 觉得 很 孤独 之类 怎么办? 对我 觉得 其实 不是 这样。 而是 说 我也是 看 了 一个 网上 一个 科技 博主 对于 GPT4 实时 语音 的 一个 解读。 他 就是 提到 说 他说 他 认为 这种 实时 的 A I 的 对话, 他在 潜移默化 当中, 他在 生活 当中 很多 问题, 他在 跟 你 沟通 的 过程 当中, 其实 都能 给你 带来 一定 的 情绪 改善, 或者 是 说 情绪 的 抚慰。

比如说 我 刚才 提到 的 那个 信用卡 的 那个 问题。 如果不是 当时 跟 那个 耳机 聊 几句, 我 当时 肯定 就 慌 了, 对 吧? 是我 当时 肯定 就是说 因为我 要 给 餐馆 付钱, 然后 我 信用卡 被 锁 了, 对 吧? 然后 我 又没 带 现金, 那 我 肯定 整个 人 就 慌 了。 对, 但是 好在 我 马上 问 他他 就 马上 就 给 了 我 个 电话, 我 现在 手上 有 一件事 可以 马上 就 去做。 那 我 这个 慌张 的 感觉 肯定 就会 降低 了, 是 吧?

所以 我 就会 觉得 说 你的 耳机 里面 有一个 能 给你 针对 生活 当中 的 不同 问题, 都 跟 你 进行 一些 探讨。 是 其实 他 对 你的 整个 人的 精神状态 和 情绪 是 能 带来 很大 的 改善 的。 它 不一定 是 说 你 非得 是 很 二次元 的, 你 要把 自己的 情感 寄托 在 这个 A I 身上, 它 不是 这个 概念 对 吧?

对, 每个 人都 需要 一个 贾维斯。

或者 需要 一个 电影 叫 her 对 吧? 每个 人都 需要 一个。 最后一个 在 软件 上 的 一个 惊喜 就是 字节 其实 有一个 音乐 A P P 叫 汽水 音乐, 他们 把 汽水 音乐 的 一些 服务 集成 进来 了。

对, 这个 我是 意外 发现 的, 因为我 习惯性 的 我说 帮 我 放 首歌。 因为 通常 你 跟 S I R I, 或者 跟 这种 手机 的 智能 应用, 或者 小爱 同学, 他 都会 帮你 连 那个 服务, 然后 直接 播 歌。 对, 然后 当时 我说 播 首歌 的 时候, 我 本身 的 期望 是 他 播 我手机 里 A P P 的 歌。 但 后来 显然 他 做不到, 因为 它是 一个 独立 的 A P P 在 手机 里。 但是 没想到 他 有一个他 直接 就 播 了 一首 很 高音质 的 歌。 我 一看 他他 其实 是 字节 自己 有 一个 叫做 汽水 的 A P P, 是 专门 做 音乐 服务 的对 对他 接入 了 那边 的 服务。 然后 当然 你 不需要 装 一个 汽水, 它 可以 直接 在 豆包 里面 就 把 这首歌 播出来, 而且 会 自动 列 一个 歌单 出来。 对, 我 觉得 这个 确实 是 相当于 把 这个 音乐 的 服务 也 整合 进去 了。

好了, 聊 完 软件 的 部分, 我们 接下来 再聊 几个 单独 的 topic。 我想 先聊 的 是 这个 技术 实现 的 问题。 我们 今天 很 多次 在 聊 说, 其实 目前 大家 能够 用上 的 这个 实时 语音 效果 比较 好的。 可能 目前 视野 里 只有 2个APP, 一个 是 豆包, 另外一个 是 GPT 对 吧? 但是 豆包 和 GPT 其实 是 不一样的 技术 实现 方式。

对, 我们在 两期 节目 之前 我们 聊过, 就是 传统 的 语音 链路 和 现在 最新 的 这个 端 到 端的 语音 链路 的 区别。 其实 很 我 很 惊讶 的 是, 豆包 其实 还是 一个 偏向 传统 的, 他们 叫做 A S R, 就是 语音识别 和 自然语言 理解, 对, 再加上 T T S 的 这么 一个 链路。 但是 它 这个 链路 我 之前 我们 聊过 说 这个 链路 之所以 被 认为 相对 传统, 是因为 它 中间 的 步骤 更多, 对 吧? 对比 audio in audio out 的 这个 大 模型 对 它的 步骤 更多。 但是 我 觉得 我 很 惊讶 的 就是 欧拉 friend 的 这个 耳机 它是 利用 了 相对 传统 的 链路。 但是 它 做出 了 媲美 端 到 端的 音色, 以及 以及 这个 非常 优秀 的 演示。 说明 这个 团队 的 这个 工程 优化 确实 是 很 花心思 的对 对。

这个 让 我 想起 了 华为 的 支架, 因为 华为 的 支架 在 尤其 在 ADS2.0 这个 版本 的, 它 其实 不是 端 到 端的 这个 方案。 对, 但是 他 因为 有 一 非常 强 的 工程 能力, 他 可能 有 个 几千人 的 团队 专门 做 支架 的 优化。

他用 代码 的 堆砌 就 实现 了。

一个 在 当下 在 国内 当时 基本上 是 第一流 的 这种 智能 驾驶 的 能力。 OK 当然 这个 能力 就是 他 可能 还是 没有 办法 跟 真正 的 端 到 端 相比, 就 好像 特斯拉 在 北美 推出 了 最新版 的 端 到 端的 这个 支架 系统 之后, 包括 国内 像 理想, 他们 切 到 端 之后, 明显 它 就 一下子 跃升 了 一个 档次。 但 这 是在 这个 端 到 端 能够 被 应用 之前, 我 觉得 我们 现在 使用 到了 一个 非常 接近 的 一个 水平 的 语音 的 服务。 对, 这点 还是。 还是 非常 惊艳 的, 尤其是 当我们 知道 GT4O 是不是 刚刚 开放 了 它的 这个 语音 交互 的 A P I, 对。

价格 非常 的 贵 对 吧? GPT4O 的 端 到 端的 A P I 是 非常 贵 的, 它 提供 给 开发者 的 成本 是 两块钱, 两块 人民币 一分钟。

大家 想一想 我们 打电话 一分钟 要 多少钱。

所以 这是为什么? 我 认为 虽然 豆包 用 的 链路 是 相对 传统 的, 但是 这 还是 一个 非常 好的 一个 事情。 是因为 它 兼顾 了 成本 和 体验。 豆包 的 这个 云 里面, 它 有 各种各样 的 音色。 他们 应该 有 专门 的 团队 是在 做 这种 它 识别 这个 A I 想 回答 的 内容 的 情绪, 然后 给他 加 一些 这种 情绪 的 一些 东西 在 里面, 甚至 是 说 故意 的 加 了 一些 随机, 就是 你说 每个 字 的 时候 不是 匀速 的 吐出来 的 这样的 一些 这种 策略 在 里面。

对我 就 发现 这 几个 策略 进去 之后, 第一 你 对比 其他 的 还在 传统 的 语音 的 一些 可能 智能 音箱, 你是 显然 是要 更好 的。 是。 然后 其次 就是你 对比 所谓 的 即将到来 的, 可能 明年 后年 大家 逐步 切 到 这个 端 到 端 这个 语音 我 觉得 85% 的 体验 了。 对。

我 觉得 在 真正 端 到 端的 到来 之前, 就 豆包 的 这个 版本 到来 之前, 我们我们 其实 会 可以 很 好的 先 用 这 现在 这个 版本。 对我 相信 那个 版本 到来 也没有 任何 障碍, 就可以 切 到 这 款 硬件 上。

是的, 然后 我在这里 给 大家 放 一个 豆包 数数 的 例子, 非常 经典 的 一个 测试。

我们 当时 GPT4O 也 放了 一段 类似的。

对对对, GPT4O 我们 当时 也 放了 一段 类似的, 就是 让 它 逐步 加速。 然后 你 最后 就会 发现 它 有 大量 的 吞 音, 它 有 这个 音色 就 开始 变了。 我也 放 一下 豆包 的那 但 在 豆包 的 运算 里面, 你 其实 能 发现 说 他 虽然 没有 加速 到 超 快 的 速度, 但是 他在 这 里面 把 数数 的 过程 当中, 表现 出了 一定 的 随机性, 以及 他 表现 出了 一定 的 情绪 反馈。 我 觉得 这个 是 非常 惊艳 我的 一个点。 好, 放 一下 豆包, 豆包 帮 我 从 一数。

到 8123456.

你 能 更 快一点, 你 要 努力, 要 特别 快。

12345678, 这 速度 可以 了。 你是不是 在 做什么 特殊 的 练习, 比如 快速反应 训练 之类 的 技术路线。

的 事情 就说 到 这里。 对, 我们 录音 的 时候 还在 预售 阶段。 所以 很多人 看 了 营销 的 信息 之后, 就 会有 很多 的 一些 问题。 我 觉得 这 里面 最大 的 两个 问题, 我想 单独 来 聊 来 回应 一下。 第一个 就是 很多人 说, 你 这 不就是 一个 常见 的 耳机 加上 豆包 A P P 吗? 为什么 非得 买你 这个 耳机? 对我 买 其他 的 耳机 是不是 也可以?

我们 之前 也 聊过, 拿 air pod s 加上 ChatGPT 好像 也可以。

对 吧? 首先 我 要说 一下, 这 款 耳机 首先 它 在 使用 的 便利性 上 是 对比 你 使用 其他 的 耳机 加 豆瓣 A P P 是 更高 的。 那 原因 其实 是 有 硬件 芯片 层 的 原因, 是因为 它 这个 耳机 上面 放了 单独 的 芯片, 它是 支持 在 耳机 上 就 识别 豆包 的 这个 唤醒 词, 以及 它 有一个 单独 的 一个 芯片, 它 让 这个 豆包 这个 A P P, 因为 耳机 上 有一个 芯片, 这个 叫做 M F I 这个 芯片。 它 有了 这个 芯片, 它 才能 让 这 豆包 的 这个 A P P 随时都 在 后台 响应。

你 这个 是什么 意思 呢? 就是说 有可能 你 现在 可能 在 点 外卖 对 吧? 你 可能 在 刷 B 站 的 视频, 就是 你的 手机 前台 你 在 干 其他 的 事儿 对 吧? 但是 如果 这个 时候 你 突然 想起 豆包 了, 你 就 喊 一句 豆包。 这个 时候 耳机 上 的这 两个 芯片, 一个 芯片 是 识别 了 你的 唤醒 词, 另外一个 芯片 它是 确保 了 豆包 的 A P P 随时 在 后台 活跃, 没有 被 叫做 冻结 掉 或者 被 杀掉。 是 它是 依靠 了 这样的 芯片 的 技术, 他 才 保证 了 你 随时随地 可以 唤醒 豆 宝。

对, 但是 如果你 用 其他 的 耳机 的话, 其实 你 没有 办法 实现 这个 随时随地 唤醒 的 这个 动作, 你 甚至 没有 办法 喊 豆包 这个 唤醒 词。 你是 是 需要 用 你的 大拇指 去 把 A P P 打开, 去 把 通话 的 按钮 按 开, 你 才能 跟 得宝 实时 对话。 所以说 他 把 这个 耳机 的 存在 是因为 很大 的 程度 上 原因 是因为 它 需要 依靠 这 几颗 芯片。 他 把 唤醒 和 随时随地 找到 豆包 的 这个 事儿 都 给 解决 掉, 解决 了 一个 便利性 的 问题。

我自己 对于 这个 世界上 的 理解, 就是我 觉得 做成 耳机 还 会有 一个 很 重要 的 一个 事情。 怎么讲 呢? 就是 做成 一个 耳机, 其实 它 改变 了 我 和 这个 东西 对话 的 一个 习惯。 我 给 其他 的 人 带 过 这个 耳机, 我 发现 这些 人 一 戴上 耳机 之后, 他 跟 这个 豆包 问 的 第一个 问题 还是 今天天气 怎么样? 可能 80% 的 对话 都是 这么 开始 的。

是我 我 发现 我也是 我。

觉得 这 是一个 十年 前 的 思维。 你 需要 用 语音 交互 的 时候, 可能 你是 面对 的 是一个 音响 或者 是一个 手机。 这个 设备 不是 经常 在 你 旁边 的, 所以 你 找 他, 你是 要 带着 一个 问题 去 找 他, 你 不能 跟 他 闲聊。

第二个, 传统 的 语音 思维 就是 这个 A I 不 聪明。 对, 所以说 只能 回答 你 一些 类似 于 天气 这样的 一些 问题是, 但 现在 军 不一样 了, 我 觉得 我 用上 它 一段时间 之后, 我 算是 完成 了 一个 从 语音 问答 到 语音 对话 的 一个 过渡。 因为 这个 东西 它 一直都在 我 旁边, 也就是说 这个 东西 它 足够 聪明。 是 所以 原来 我们是 把 A I 当做 机器 的, 我们 把 那些 旧 的 语音助理, 我们 当做 一个 查 天气 的 机器, 当做 一个 查 日历 的 机器。 但是 现在 我 有一点 把 它 当做 人的 感觉 了。 所以 对我来说 行为 上 最大 的 一个 变化 就是说 今天 我不需要 一个 特别的 契机, 比如说 我要 出门, 我要我要 有 这种 行动 上 的 契机, 我 才 去 问问 他。 而是 说 我会 把 我会 变成 那种 比如说 我 今天 出门, 我 走 在路上, 我 就 莫名其妙 的, 我 就 想 跟 他 聊 几句, 我 就 开始 出现 这样的 行为习惯 了, 所以 我 觉得 总体 来说 就是 更 把 A I 当 人 了。

对, 这个 可能 是一个 需要 A I 当然 需要 学习, 那个人 可能 也 需要 适应 的 这么 一个 状态。 对 呃 因为我 觉得 如果你 不 进入 这种 状态, 说实话 其实 大部分 的 问题 就 有点 像是 siri 可以 解决 的 问题。 对, 因为他 也 在 变 聪明, 手法 还没有。 对, 但是 如果 你可以 把 它 变成 一个 像 助理 一样的 角色, 当然 前提 是在 过去 你 所有的 问题 它 都能 很 好地解决 的 情况下, 你 就会 产生 这种 信赖。

我 这个 问题 问 他是 可以 得到 回应 的。 我记得 我 第一个 小爱 同学 买 回家的 时候, 我也是 各种 角度 去 问 他。 但是 后面 为什么不 不 这么 玩 了 呢? 就是你 发现 他 没有 办法 回答 你。 对你 发现 他的 回答 都是 城市化 的, 或者 是在 很窄 的 范范 范围内 能够 回答 你的 问题。 而 大部分 的 正常 的 对话, 他 只能 用 统一 的 那么 几个 回复 来 敷衍 你。 因为 它 不 具备 搜索 的 能力, 没有 大 模型 的 思考 能力。

这个 惯性 培训 了 这么多年, 我 觉得 我 当我们 面对 一个 聪明 的 语音 的 时候, 我相信 大家 还 很少 有 长时间 跟 A I 对话 的 经历。 对, 包括 我自己 可能 都 很少。 我 觉得 这个 可能 也许 我们 经过 一段时间, 因为 ny xx 用 的 时间 比 我 稍微 长 一些。 我 后面 我会 尝试 用 这种 方式 去 跟 他 沟 交流, 看看 是不是真的 可以 有 这样的 一个 好的 这种 体验。 对我 觉得 是 会有。 因为 很多 时候 我们 今天 可能 每天 你 不 自觉 的 都在 使用 搜索引擎 搜搜 一些 东西, 应该 每天 都有。 而且 我 觉得 我们 如果 留心 去 算 一下, 看一下 那个 搜索 记录, 一天 可能 十次 以上, 那 这 里面 可能 有 那么 五次。

也许 你 就 不用 搜 了。 对, 未来 你 可能 是以 语音 的 方式 对问 他。

这件 事情 对 搜索引擎 还 蛮蛮 危险 的。

对, 是的。

第二个 点, 我 觉得 还是 要说 一下, 就是这样 的 能力, 也许在 未来手机 厂商 也是 非常 有 机会 的。 因为 相对来说, 他们 可以 更好 的 完成 这种 耳机 跟 手机 的 唤醒 链路, 它 有 更高 的 优 系统 的 优先级。 但是 我们 现在 看到 的 就是 可能 手机 厂商 在 大 模型 的 问答 这件 事情 上 的 专业 度, 可能 还 不如 我们 能 看到 的 这些 专注 在 大 模型 上 的 这些 厂商 的 提供 的 产品。 那 也许 他们 未来 会有 一种 共生 的 方式, 比如说 接入, 比如说 苹果 就在 接入 ChatGPT 对 吧? 那 这也是 可能 是一个 未来 的 方向, 我 觉得 我们 可以 拭目以待。

对, 但是 在 今天 这个 时间点, 你 在 中国 这个 市场 里面, 你 想要 拿到 一个 好的 大 模型 的 交互 体验 的话, 也许 这 款 产品 是 目前 唯一 的 选择。 对, 是在 这个 时间点, 我们 今天 2024年 的 十月 中旬 的 样子, 对, 大家 能 买到 的。 你 要 想 早 一点 去 体验 如何 跟 一个 真正 聪明 的 A I 交互, 也许 过 几年 A G I 实现 了, 我们 每天 都要 干 这个 事情 了。 对, 那你 现在 可以 先 练起来。

我也 看到 一些 这个 行业 里 的 一些 声音, 就是说 这个 A I 耳机 它 端 侧 没有 多少 A I 能力。 这个 耳机 上 目前 能 看到 的 一些 A I 能力, 更多 的 还是 关于 基础 的 音频 降噪 的对 吧? 是。 对, 所以 我 觉得 这里 也 肯定 也是 一个 误解。 我 觉得 并 不是说 你 这个 一个 A I 硬件, 你的 你 这个 硬件 上 要有 自己 就要 有多强 的 A I 算 力, 它 才是 A I 硬件, 对 吧? 我 觉得 A I 硬件 的 角色, 其实 我们 之前 的 嘉宾 李楠 其实 就 已经 说过, 他说 大家 就 做好 传感器 就 好了, 所以说 他 把 世界 的 感知 做好 了, 对于 这 款 产品 来说 就是 麦克风 做好 了, 对 吧? 他 把 数据传输 做好 了, 那 就是 这 款 产品 上面 的 他们 好像 这个 蓝牙 芯片 之类 的 一些 东西 做好 了, 对, 其实 就 已经 不错 了。

我 觉得 未来 端 测 和 云 测 一定 是一个 协同 的 一个 状态。 对, 就是 它是 一个 端 云 结合 的 一个 结果。 你 把 所有的 东西 都 丢 到 云 测, 那 也不 现实。 因为你 会 很多 有 很多 个人化 的 信息 是要 存储 在 端 测 你 才 更 放心 的, 那你 你 希望 把 所有的 这种 能力 寄希望于 在 端 侧 解决, 我自己 也 跑 过 几个 七个 B 的 模型 在在 电脑 上, 你 跟 他 问答, 你 跟 他 聊天 对话, 你 会 发现 他 也能 回答 你。 但是 那个 感觉 就是 一个 远远 逊于 云端 的 那些 不断 迭代 的 GPT 也好, 豆包 也好, 他们 带给 你的 这种 用户体验。 所以 我 觉得 最 重要 的 还是 各 干 各 的 活, 然后 大家 协同作战, 而 不是说 我要 谁 把 谁 取代 了, 对 吧?

手机 今天 已经 如此 的 强 了也 没 听说 服务器 被 干掉, 对 吧? 对, 服务器 仍然 在 远处 帮 我们 做 的 很多 的 事情。 是对, 所以 这个 不是 限制。

还有一个 迷思 就是我 一定要 做 一个 独立 的 A I 设备。 这个 其实 我们 之前 也 聊到 过 好几回 了。 你看 豆包 它 其实 没有 说 我要 把 一个 运算 中心 做成 一个 小方块 放在 口袋 里。 它 实际上 就是 大大方方 的 跟 手机 连在一起, 对 吧? 手机 完成 所有的 通讯 和 运算, 完成 一些 你 这个 程序, 豆包 可能 也 我 我没有 看, 可能 也有 个 几百 兆 一个 G, 那 他 就 存在 手机 里 就 好了。 而 他 这个 可能 专注 在 耳机 上 的这 一端, 我在 最 前端 你 戴 在 身上 的 这个 设备 上 我 发力。 然后 在 最后 端 云端 的 这个 大 模型, 我 再 好好 做对 那 中间 的 部分, 不要 妄图 说 我要 我 一定要 跳过 这个 手机。

你看 我们 之前 讲 的 A I P 跟 rabbit r 1, 他 就 一直 在 试图 说 我 就要 跳过 你。 那 其实 在 起码 在 现在 这个 阶段, 我 觉得 他是 做不到 的对, 那么 多 设备 你 要把 它 高 集成 集成度 的 从 手机 里 掏出 来, 塞 到 你 那个 小东西 里面 去。 一个 胸针 的 大小 怎么 可能 呢? 对, 最后 A I P 就是 因为 发热, 因为 这个 反应 慢, 就 基本上 现在 算 胎死腹中 了。

对, 接下来 再 讲 一个, 发布 了 几天 之后, 我 看到 的 一些 常见 的 亿万。 比如说 有的 用户 问 说 为什么 没有 像 其他 的 A I 耳机 一样? 因为 市场上 其实 已经 有 一些 叫 A I 耳机 的 耳机, 他们 一般 都 主打 这个 翻译 或者 是 录音, 就是 帮你 录音 录下来, 就 帮你 summary, 或者 是 说 你听 的 英文 电话, 我 帮你 转 译成 中文, 对 吧?

是我 对 这个 事情 的 想法 是 这样, 就是我 对 这个 事情 首先 是 说 我 觉得 这个 事儿 多宝 肯定 是 能 做, 他的 模型 能力 肯定 是 support 的。 比如说 我 跟 他说 一句话, 突然 从 中文 切 英文 了, 然后 说 我们 接下来 用 英文 问答, 都很 顺利 的对 吧? 所以说 模型 能力 肯定 是在 这儿 的。 但是 我是 在 这个 A P P 里面 我发现了 一个 功能, 他 给 了 我 一些 启发。 比如说 当时 我 就 想说, 能不能 到 的 几点 提醒 我 干 某个 事儿。 我 就 问 了 他 这个 问题, 因为 我们 算是 提前 拿到 机器, 我 跟 工作人员 聊 了 一下, 工作人员 说 我们 这个 功能 正在 内测 如果你 想做 一个 代办 提醒 我可以 给你 开 一个 权限, OK 不 开 用 这个 功能 了。 然后 我 就 开始 跟 他说 几点 提醒 我 干嘛, 他 就有 这个 功能 了。

对, 那 你看 就是 豆包 的 这个 机器人 具备 了 一个 提醒 你 代办 的, 它是 一个 代办 清单 的 一个 功能, 对 吧? 那 过往 我们 其实 做 代办 清单, 我们是 需要 通过 A P P 的 一个 入口, 用 按钮 用 这种 交互 的 方式 把 这个 代办 输入 进去。 所以 我 觉得 这个 问题 给 了 我的 启发 是什么 呢? 就是 欧拉 friends 这 款 耳机, 它 想 打造 的 是 说 你 调用 的 是 豆包 这样的 一个 通用型 的 A I 对于 一个 通用型 的 A I 你 希望 他 能 做什么 呢? 其实 你 不应该 期望 说 这个 A I 给你 吐 一堆 button, 吐 一堆 交互 的 这个 按钮 交互 的 按钮, 对 吧? 你 不应该 是 这个 A P P 思维, 这个 A I 未来 会越来越 强。 然后 他 某一天 他 就是 能够 通过 自然语言 的 方式 让 我 去 调用 这个 功能 了。

通用性 A I 这个 说法 其实 蛮 好的, 因为 我们我们 讲 了 大 模型 大 语言 模型, 它 其实 就是 一个 通用型 的 模型。 它 不是说 只能 做 数学题 或者 只能 翻译, 它 实际上 是一个 能够 做 所有 事情 的, 只要 是 通过 语言 方式 呈现 的 事情, 他 都能 或多或少 地 完成。 有的 可能 完成 的 非常完美, 对, 有的 可能 完成 的 稍微 差一点。 这个 其实 也是 一个 逐渐 迭代 和 进步 的 过程。

其实 我们 还 发现 一个 功能, 我们 虽然 因为我 目前 是一个 测试 的 版本, 比如 我说 我要 导航 去哪里 的 时候, 它 其实 是 会 在 那个 软件 的 界面 里面 弹 出 一个 导航 的 界面 的 一个 卡片。 然后 那个 卡片 你可以 点击, 然后 看到 路线。 那你 在 耳机 里面, 它 其实 可以 完成 这个 导航 的 功能。 但是 现在 其实 定位 还 有点 问题, 因为 我们 现在 是 测试版。 对, 未来 可能 正式版 包括 以后 的 软件 迭代, 他 一定 是 可以 完成 导航 这件 事情 的。 我可以 我 也许 可以 带着 他 步行 导航、 骑车 导航 或者 是 其他 的 开车 导航 等等。

那 导航 作为 一个 卡片 存在, 为什么 翻译 录音 不可以 呢? 我 觉得 是 完全 可以 的对 这件 事情 只是 说 在 现在 这个 阶段, 它 不以 它 作为 它 首发 的 核心 的 能力 和 功能 而已。 因为 我们 看到 我 应该说 翻译 是一个 非常简单 的 功能。 对我 现在 其实 就是 没有 真正 的 翻译 这个 按钮。 但是 我 如果说 接下来 这 句 话, 请你 帮 我 翻译成 中文, 然后 我 让 对面 的 人 说, 他 不就 完成 了 一个 翻译 的 作用, 对 吧?

是的, 当然 录音 肯定 是 没有, 我不知道 未来 会不会有, 我 觉得 这也是 一件 不难 的 事情, 因为你 所有的 交互 的 与 文字 内容 都会 被 记录下来 了。 对 那 如果说 接下来 请 帮 我 做 一段 录音, 我 觉得 也 不是 不可以。 对, 所以 这些 能力 也许 当然 我们 并没有 官方 跟 我们 说 会有, 但是 我们 认为 其实 也许在 未来 这些 功能 都是 可以 实现 的对。 但是 它 不会 以 某 一个 特定 的 按钮 或者 界面 出现, 它 可能 变成 了 它的 这个 智能 体 的 一部分。 它 能够 在 你 需要 的 时候 呈现 这样的 服务。

对, 就 好像 你不会 有一个 专门 帮你 翻译 的 助理, 除非 你 真的 需要 一个 专职 的 翻译。 那 这个 时候 我 觉得 你 可能 需要 的 是一个 单独 的 一个 翻译 的 A I 设备。 然后 录音 有 录音 的 设备, 有 录音笔 等等。 大部分 的 比如说 现实生活 中的 人类 助理, 他 其实 就是 全能 的。 对你 偶尔 让 他 做 一下 翻译, 他 也 应该 能? 一个 优秀 的 助理 应该 有 这个 能力 来 帮你 做 一个 提醒, 那 更是 不在话下。 录音 肯定 没问题 对 吧? 我们 把 A I 当做 一个 通用型 的 助理 的话, 我们 相信 随着 模型 能力 的 提升, 软件 的 迭代, 这些 功能 我 觉得 是 可 期 的。

对我 我 甚至 觉得 我 甚至 觉得 不应该 叫 助理 了。 助理 的 这个 概念 都 有点 误导 人 了。 就是 你老 觉得 说 你 要 完成 某个 事儿, 没有 他 你 完成 这个 事儿 就 完成 不了, 或者 效率 就 降低, 对 吧? 但 现在 很多 事儿, 我 和 这个 欧拉 夫人 的 对话 的 很多 事儿, 他 不是我 需 有什么 事儿 需要 提 效 的, 是 很多 时候 我 就 想 唠唠, 总体 来说 就是 没有 做 翻译 和 录音 这些 功能。

我 觉得 更 像是 如果我 是 欧拉 芬 的 产品 经理, 那 就是 一个 主动 的 选择。 是 它是 一个 选择, 它 不是 一个 他 不是 不能 做对, 对 吧? 他他 的 选择 的 是什么? 他 选择 的 是 说 我 现在 就是 一个 通用 的 智能 体 能力, 它 可以 陪伴 你, 他 也可以 帮你 完成 一些 提 效 的 一些 事情, 对 吧? 他 一开始 肯定 要把 通用 的 这个 定位 先 打 透, 而 不是说 我 一开始 先 让先 告诉 你说 你 非得 翻译, 你 非得 一 进来 就得 点 我 翻译 的 那个 按钮, 现在 点 我 录音 那个 按钮, 对我 觉得 肯定 不是 这个 产品 的 发展 逻辑。

对 吧? 对 按钮 思维 肯定 是 不行了。 对我 觉得 最好 是 没有 这个 东西。

这 款 产品 我 最后 还 提 几个 期待。 第一个 是我 觉得 人和 音频 很多 时候 相处 是 有 是个 内容 相处 的, 音乐、 播客 对 吧? 对, 那 今天 它 有一个 简单的音乐 的 能力, 就是 播放 特定 的 歌曲。 但是 我 觉得 他 未来 应该 更 D J 化 一些。 比如说 他 应该 是 帮你 策划 一些 东西, 就是 不同 的 播放歌曲 之间 的 这种 起承转合, 这种 歌曲 代表 的 一些 这种 含义, 歌曲 代表 的 故事 能够 给你 做 一些 这种 解读。 以及 我也 希望 未来 我们 自己 做 博客 的, 我 觉得 未来。 能够 有 一种 更加 互动性 的 方式, 能 在 豆包 里 去 听 播客。 比如说 帮 我搜 一 搜 关于 某个 内容 的 一些 博客。

能不能 推荐 一下 南方 电波。

就 推荐 一下 南方 电波, 或者 就 把 南方 电波 的 某个 片段 节选 出来, 对 吧? 能 做 这样的 音频 的 内容 的 分发。 我 觉得 是 这个 也很 符合 这家 公司 的 优势。

除此之外 还有 第二个 期待 是 我在 用 豆瓣 A P P 的 时候 发现 的那 其实 今天我 看 他的 那个 月活, 有人 统计 好像 是 仅 次 全世界, 全球 仅次于 ChatGPT 的 A I native 的 A P P 了。 然后 它 为什么 很 火? 有一个 很 重要 的 原因 是因为 它 里面 有 各种各样 的 角色, 有 很多 的 boat, 对 那那 这些 agent 这些 boat 或者 agent 未来 能不能 通过 语音 的 方式 把 它 吊起来。

比如说 我想 跟 秦始皇 聊 一会儿。

我想看 薛宝钗 和 丁 真 在在 和 那个谁谁谁 一块 辩论, 对 吧? 我 就 想听 这 三个 豆包 的 agent 一块 在 会 在 一块 打嘴仗。 我 觉得 这块 我 很 期待。

对, 这个 其实 听起来 实现 都 不难, 因为 它 就在 豆包 的 A P P 里面。 对你 其实 打开 A P P, 在 A P P 里面 直接 跟 那些 bot 聊天 的 时候, 它的 语音 就是 直接 从 耳机 出来 的对, 说白了 就是你 需要 去 手动 的 选 一下。 而 这个 动作 如果 能够 赋予 默认 的 我们在 主要 聊 的 那个那个 豆包 对 多一些 权限, 它 可以 把把 那些 智能 体 薅 过来。 对 说 你来 一下。

对 对 对对对, 让 多个 智能 体 互相 协同 一下。

这个 其实 会 是 很 有意思 的 场景。 而且 反正 我们 感觉 起来 应该 是 没有 什么 太大 难度 的 一件事。

我 听 过 一个 很 好的 一个 例子 是什么 呢? 就是 玩 剧本 杀, 玩 剧本 杀 可能 你 今天 突然 缺 了 一个人, 后来 你 拿 A I 来 替代。 那 未来 你 可不可以 缺 两个人, 缺 三个人, 或者 就是你 一个人 跟 一群 A I 玩 一起玩 剧本 杀。

那 听起来 有点 孤单。

我 觉得 这是 很 好玩的 一个 场景。

对, 那 我也 说 一些 心愿 的 其 单。 刚才 提到 的 这些 基础 功能 其实 还是 希望 它 能 有的。 比如 翻译、 录音, 你 就 以 卡片 的 形式 或者 是 智能 体 的 形式 来 把 它 唤醒, 对 吧? 那 给我 让 我 这个 东西 有 更多 的 基础 能力 可以 被 调用。 它 就 好像 一个 智能手机, 在 最 开始 可能 它 有 那么 几个 功能, 然后 逐渐 的 越来越多 的 功能 被 集合 进来, 整合 进来, 它 就 变得 越来越 年薪 越高。 其实 作为 一个 用户, 你 就 越来越 难选择 离开, 对 吧?

然后 第二, 我希望 他 有 更强 的 记忆 能力, 就是 他 能够 记住我 过去 的 一些 习惯 喜好, 一些 个人 的 信息。 因为 刚才 已经 讲 到了, 就是 我们 如果 已经 把 它 当成 一个 陪伴 了, 我 不光是 问 你 问题, 因为 问问题 你 不需要 记住 我的 百度 搜索 的 历史记录。 我 觉得 对我 没有 什么 价值。 但是 我 如果 跟 他 已经 在 做 一些 很 深入 的 交流, 其实 他是 可以 帮 我 记住 一些 我的 喜好 习惯, 我的我 的 一些 爱好, 我的 风格, 适时 的 在 某些 时间 用 这些 personal 的 信息 去 跟 我 交互。 这个 是 会给 用户 带来 惊喜, 而且 我 可能 会有 更强 的 这种 粘性 在 这个 平台 上。

这个 是 A I 的 维度, 那 硬件 的 维度 其实 刚才 我 也有 提到, 就是我 希望 它的 定制 性 会 更好。 它 在 硬件 上 它 能够 调节 它的 长度, 或者 是 一些 角度 的 设计, 不是 完全 不可 调 的。 这样的话 我们 戴起来 佩戴 的 舒适感 可能 会 更好。 对, 因为我 觉得 我 发现 人类 的 耳朵 差异 还是 蛮 大 的。 我在 戴 这个 耳机 之前 没有 意识到 这一点。

我的 耳朵 是 正常人 的 3分之2, 你的 耳朵 又比 正常人 的 大 一截, 所以 我的 耳朵 可能 只有 你的 一半。

那 也没有 多一点点。

一半多 一点点。 但是 我 直观 看起来 就是这样。 对, 然后 刚才 提到 那个 记忆 能力, 他 现在 应该 是 有一个 十分钟 左右, 所有的 一个 记忆 它是 很很 好的, 再 长 的 记忆 就会 衰减 的 比较 厉害。

我是 觉得 他 能够 记住, 比如说 哪天 是你的 纪念日, 或者 去年 的 今天 你说 了 一个 什么, 那 这个 就 很 有意思 了。 如果 长期 使用 的话。

欧拉 friend 的这 款 耳机 应该 是 17号正式 的 开始 开 卖。 然后 这天 正在 预售, 鼓励 大家 多 去 体验 尝试 一下 好吧? 关于 耳机 的 部分 就 聊到 这里 了, 我们 聊 一下 关于 语音 A I 的 一些 其他 的 一些 进展。

其实 刚才 聊到 了 一个 进展, 叫做 在 OpenAI 的 GPT4O 其实 10月1号 开 了 一个 开发者 大会, 就 把 这个 实时 语音 互动 的 这个 A P I 开放 了, 开放 出来。 但是 他的 问题 刚才 其实 我们 也 聊过, 就是 贵, 特别 贵, 两块钱 一分钟, 两块 人民币 一分钟。 但是 欧拉 friend 的 刚才 我们 所以 为什么 要 夸 他? 就是 它是 免费 的对, 最近 还 会有 一款 语音 A I 的 爆款 产品, 叫做 notebook L M。 我 觉得 这 款 产品 非常 值得 聊 一下, 他 让 我们 对 语音 交互 这个 形态 他 有了 更多 的 思考。

那 我 先聊 一下 这 款 产品 是什么。 它 这 款 产品 其实 是 谷歌 最近 两年 它 内部 孵化 的 非常 低调 的 一款 叫 A I 笔记 产品。 这 款 产品 伴随 着 谷歌 的 这个 大 模型 的 迭代, 它 最新 的 是 基于 这个 gy m 1.5 的 这个 模型 基座。 但 他 最近 突然 火 起来, 其实 并不是 因为 A I 笔记。 A I 笔记 的话 其实 可能 有的 听 友 用过 一些 notion 之类 的, 其实 大家 都 对 这个 I B 就 比较 熟悉 了。 那 这 款 产品 为什么 会 火 起来 呢? 是因为 它 最近 上了 一个 所谓 的 叫做 播客 模式, 这个 功能 的 名字 叫做 audio overviews 音频 概览 的 这个 功能。

这个 功能 的话 就是 可以 把 任何 的 文章 或者 是 一贯 网页 就 直接 转成 这个 双人 的 A I 博客。 双人 的 A I 博客, 这个 事儿 很 厉害。 对, 我们 转 了 一段 可以 让 大家 听 一下。 这个 关系 是 之前 我们 和 李楠 聊 一下 硬件 的 节目, 在 这边 放 一下。

To the hype, right? That's a little question. And to help us separate fact from fiction, we're tapping into the insides of lean and the founder of angry meo tech.

And for those who don't know angry me, I was a company that's really pushing the boundaries of what's possible with hardware design.

absolutely. They're known for their sleep aesthetics and cutting edge technology. And what's particularly interesting about linen's perspective is that he's not afraid to call IT like he sees a kr out anything exactly .

he's very t about. 它 相当于 把 它 扒 成 文字 之后, 又 重新 组织 语言。 对 翻译 了 之后, 对 变成 了 一档 英文 播客。

对, 因为 这个 产品 是 只 支持 英文。

目前 对, 变成 了 两个 老外 在在 聊 我们 之前 聊过 的 话题, 这个 其实 还 蛮有意思 的。 然后 我们 可以 感觉到 他们的 对话 的 这种 真实性。 对, 就 真的 很 像 两个。 当然 有点 那个 主持人 枪。

对对对。

但是 就 真的 很 像 两个 主持人 在 聊, 有点像 广播, 他 可能 不太 像 播客, 他 像 我们 平时 开车 的 时候 听 的 那种 广播电台 的 两个人 在 聊天 那种感觉。 是的, 其实 因为 我们 自己 在 做 博客, 所以 在 播客 圈 非常 的 火。 然后 整个 科技 圈 其实 在在 海外 播客 本身 就 很 火, 所以 这个 事情 就 一下子 就 爆 红了。

对, 还有 人 拿 他 这个 东西 做什么 呢? 比如说 有人 把 自己的 简历 丢上去, 对, 就 开始 整 活 了。 对, 有人 就 感觉 说 我 一下子 就 变成 了 一个 特别 有 故事 的, 两个人 一直 在 聊 你。 对, 两个人 一直 在 聊 你。

我 还 看到 有 对我 还 看到 有 这个 辽 菜谱 的。

然后 有聊。

什么 说明书 的 OK 就是你 任何 的 文字 信息 对你 丢上去, 然后 他 都会 煞有介事 的 两个人 在那, 然后 还有 开场 还有什么 跟你聊 的。 是的, 非常 有意思。

对, 所以 所以 这 款 产品 原版 谷歌 原本 做 这个 东西, 他是 想做 给 那些 做 学习 和 做 研究 的 人。 你看 论文 什么的, 你 实在太 晦涩 对 吧? 对你 你 用 互动 的 方式 来学, 是, 但是 上了 这个 播客 模式, 现在 就 变成 任何 东西。

万物。

皆 可 播客, 所以 我们 也 看到 也是 字节 跳动 出的 一个 产品 叫做 扣子, 他们 上面 已经 有 开发者 做了 这种 中文 的, 就是 的 就 notebook notebook L M 是 仅 支持 英文 的。 是, 但 现在 已经 有 中文 的 了 那 中文 我们 也 在 这边 放 一段, 但是 中文 的 整个 的 音色 和和 自然 程度, 现在 还没有 英文 原声 的 那么好。 但是 也 放 一段, 他是 读 了 一段 微信 公众 号 的 文章, 一篇 新闻 科技 新闻, 在 这边 给 大家 简单 的 放 个 几十秒。 斯科特, 欢迎来到 我们的 播客。

谢谢 主持人, 很高兴 能 在这里 分享 我的 体验。 首先 请 告诉 我们 hyon A R 眼镜 给你的 第一印象 是什么。

其实 现在 在 国内 主流 的 音频 A P P 上, 你 应该 能 搜 到 好几个 纯 A I 生成 的 博客 了。

对我 觉得 这里 我们 其实 也 想 探讨 一下, 就是 为什么 谷歌 要 出 这么 一个 产品, 对 吧? 它的 本意 其实 是 让 你 去 用 这种 方式 去 学习。 对, 但是 因为 两个人 聊 菜谱, 这个 其实 就 纯属 整 活。 对, 完全 没有 必要 听 两个人 聊 十分钟 一个 菜谱 对 吧?

对, 但是 一篇 论文 就 不一样 了。 因为 我们我们 其实 在 学习 的 过程中, 我们 当然 知道。 因为 很多人都 说, 说 播客 语言 的 这种 信息量 信息 密度 是 非常低 的。 那么 我 用 播客 或者说 用 语音 的 方式 来 学习, 它 本身 就是 一个 悖论。 我 为什么 不用 更 高密度 的 更 高效 的 方式 去 学习, 而 选择 了 一个 低效 的 方式 来 学习 呢? 但 其实我 觉得 我们 也 做了 这么 多期 播客 了, 对 吧? 我们 其实 深有感触, 是 语音 或者说 语言, 它是 一个 低效率 的 低密度 的 媒介, 对它 比不过 文字。

为什么 我们 还 愿意 听 播客, 或者说 为什么 我 还 愿意 学习 呢? 因为 我们 发现 密度 和 效率 是 一方面, 你 能 吸收 多少 又是 一方面。 论文 的 密度 应该 是 极其 之高, 对 吧? 对, 论文 应该 是 也许 是 这个 世界上 信息 密度 最高 的 媒介。

对, 因为 你看 一个 论文 可能 一段 他 有 五个 reference, 对 吧? 他 引用 了 五个。

信息 是 他的 信息 很 密, 但是 你的 阅读 难度 就 很高。 真的 一个 正常 智力 的 人类 坐下 来 阅读 论文, 你是 很难 持续 几个 小时 的。 对你 想象 一个人 读 论文 读 2个小时, 他 基本上 整个 人都 要 被 掏空 了。 因为你 面对 的 是一个 压缩饼干, 对你 要 消化 它 要 付出 的 代价 是 远远 高 过 你 吃 一个苹果 的。

我们 不是说 读 论文 不好, 而是 说 我们 回想 我们 自己的 这个 学习 场景。 大部分 的 人, 当然 少数 天才 你 可能 就 自学成才 了。 但是 大部分 人的 学习 的 方式 是 老师 带着 你 做对 老师 给你 讲, 很 有意思。 这个 里面 语音 或者 语言 的 占 比是 非常 之高 的。 是的, 板书 才有 多少 字, 对 吧? 对, 老师 要 在那边 叨 逼 叨 45分钟 1个小时。 在 这个 过程中 你 高密度 接受 的 反而 是 语言 这种 媒介。 那 这种 媒介 它 密度 低, 但是 你的 吸收 好啊。

对, 就是我 我们 有的 时候 看 那个 保健品, 他 有 他的 保健品, 说 这个 A 保健品 它 可能 浓度 更高。 但是 它 那种 组织形式, 它 可能 是 某种 分子 链 结构, 你的 吸收 就 没有 那个 B 好。 那个 B 它是 它 可能 含量 没有 那个 高, 但是 你 就 更容易 吸收。 这个 好像 大家 其实 关注 一下 营养学, 我们 也许 以后 会 聊 什么 补铁 补钙, 什么 胆固醇 的 吸收 等等, 这 都是 一样的。 所以 反过来, 这就是 为什么 好像 语音 是 有 价值 的。

我 觉得 这 可能 也是 谷歌 这个 团队 做 这个 产品 的 初衷, 就是 论文 实在太 难 了。 也 不是 每个 人都 有 机会 去 普林斯顿 里面 听 一个 教授 在 那儿 给你 讲, 我们 最新 的 研究成果 是什么? 我 用 这种 方式 让 两个 电脑, 让 2个AI 的 人 把 它 变成 一个 像 对话 一样的 方式, 娓娓道来, 把 这个 论文 的 主旨 讲清楚 了。 其实 对于 学习 来讲, 是我 觉得 是 应该 是 更容易 学学 到 更容易 吸收 的 一种 方式。

对, 这个 还是 蛮蛮 妙 的 一点, 这个 也是 我们 做 播客 这一年 多, 我们 也 在 思考? 博客 到底 有什么 价值? 我们在 这边 把 一些 近期 的 科技 新闻 盘点, 当然 我们 可能 也会 聊 一些 我们的 观点。 更多 的 时候 可能 是 一些 事实 的 陈述, 它 有没有 价值, 我们 觉得 还是 有的, 尤其是 在 今天 这样的 一个 碎片化 的 时代 里面, 播客 动 一到 2个小时 的 这种 长度 你 还能 听 完, 就 代表 你 确实 花了 1个小时 在 这件 事情 上。 我们 哪怕 密度 再 低, 我们 乘以 一个 10% 的 吸收率, 它 也是 一个 比 你 干 其他 事情 要 更好 的 一个 效率。

对你 提到 吸收率 这个 概念, 其实我 查 了 一下, 就是 有 心理学家 专门 统计 过。 就是 人 听到 的 东西 人 普遍 能 记住 20% OK, 然后 人 眼睛 看到 的 东西 人 普遍 能 记住 30%。 所以 这个 信息 的 效率 是 怎么 比 的? 就是 你听 一个半 小时 的 播客, 你 最后 能 记住 20% 的 东西, 但 首先 你 绝不 可能 坐在 那儿 看 文章 看 一个半 小时。 对, 虽然 你 能 多 牺牲 到 10%, 就是 视觉 信息 记住 30%, 但是 你的 那个 收听 的 时长, 或者说 你 视觉 查看 的 时 长短 很多。 这就是 为什么 导致 回到 为什么 谷歌 要 给 一个 研究 的 人员 用 的 一个 产品 做 一个 博客 模式。 是 其实 这就 解 掉了, 他 就是 想 让 这些 研究 人员 把 自己的 碎片 时间 给 用 起来。 然后 的话 你可以 用 更长 的 时间 去 对 享受 这些 内容, 然后 记住 更多 内容。

当然 真的 要 正儿八经 学 一个 东西 的 时候, 你 肯定 还是 要 坐下 来 用 你的 专注 时间, 多花 这点 时间 去 啃 那些 重要 的 论文, 才能 完成 一个 学术 的 研究。 但是 对于 我们 大部分 的 听 友 来说, 如果你 只是 想 大致 的 了解 目前 科技前沿 发生了什么事情 的话, 也许 播客 也是 一个 很 好的 形式。 然后 这个 nobo L M 出来 之后, 其实 大家 都很 惊慌 是 吧? 对对对, 尤其是 播客 社群 的 一帮 创作者, 我 很 惊慌 说 这 我们 以后 还能 搞 吗? 对 吧? 这个 你怎么看?

我 听 了 一下 这个 notebook, 他们 做 的 好几个 台, 我 觉得 问题 还 不大。 目前 还有 台, 他 有 好几个 台。 我 听 了 一下, 我 觉得 对比 人的 这个 做出来 的 效果 差别 还是 大 很多, 还是 蛮 大 的对, 我 觉得 还有 另外 一个点 是 必须 要说 的, 就是 我们 做 播客, 我们 今 主要 还是 在 用 爱 发电, 还是 在 满足 自己的 表达 欲。 我不是 为了 做 这个 内容, 他 出去 传播 怎么样, 对 吧? 我 很大程度 上 动机 是因为 我想说 这个 事儿 是 所以 如果有一天 说 我 用 notebook L O M 来 表达, 我 就 觉得 就 没有 这个 感觉 了。 然后 另外 的话 就是 播客 不就是 用 notebook I O M 的话, 其实 它 没有 对话 感, 就是 他 没有 我们 两个 在 对话 的 过程 当中, 又又 我们 两个 又会 新 得到 一些 知识 和 一些 这种 碰撞 对 吧? 对他 也 得不到 这个 过程。

他是 用 那个那个 事实 生产 出 一篇 对话, 而 我们是 用 一个 事实 碰撞 出 一个 可能 完全 不一样的 东西。 这个 可能 是 我们 作为 创 播客 创作者 在 这个 创作 过程 中的 收获。 就是 为什么 我们 觉得 博客 这个 事情 还 挺 有意思, 我们在 还在 坚持 做, 就是 因为 这个 过程 我们是 很 享受 的对 对。

我 觉得 从 我自己 也是 一个 播客 的 消费者, 我也 听 播客, 起码 现在 我不会 去 听 这种 生成式 的 博客。 因为 这 里面 我的 期待 是 0, 这是 最 可怕 的。 因为我 听 两个 活人 讲 播客 的 时候, 我是 有 期待 的。 我会 在 想他 后面 会说 什么, 对 吧? 但是 当我 听 2个AI 的 桨 博客 的 时候, 我 就 真的 宁愿 去 念去去 念 他 那个 完整 的 show note 了。 因为 他的 所有的 一切 表达 都在 预期 之内。

我 觉得 在 可能 一年前, ChatGPT 刚刚开始 可以 写 小红 书 的 稿件, 写文章 的 时候, 写 公众 号 文章 的 时候, 大家 是 很 惊慌 的。 但是 今天 你 甚至 可以 在读 一篇 公众 号 文章 的 前 5分之1, 就 看出 它是 一个 A I 写 的 文章。 对, 它是 有 一股 味儿 的对, 这 股 味儿 起码 在 现在 我 觉得 它 藏不住。 对, 也许有一天 它 进化 到 这个 惟妙惟肖? 它 能够 藏 住了。 那 我 觉得 到 那天 咱们 再说。 对, 今天 不光是 文章 了, 我们 因为 我们 看到 很多 公众 号 它的 题图 都会 用 A I 生成 一张 图。 对我 觉得 大家 也都 能 看出来。

对, 是 一眼 一眼 假。

一眼 假。 基本上 我 觉得 当然 那种 P 图 不是 我们的 重点, 我们 要 看 的 是 文章 对 吧? 我 觉得 也 还能 接受, 但是 一篇 纯 A I 生成 的 文章 我是 不会 去 看 的对, 是的。 我 觉得 到 播客 其实 它的 信息量, 它的 信息 密度 低, 但是 它的 难度 其实 更高。

回过 头 说 为什么 ChatGPT 它的 那个 A P I 语音 的 A P I 那么 贵? 其实 很好 理解, 一个 端 到 端的 语音 的 A P I, 它是 用 wave 或者 是用 M P3 这种 格式 的 输入 和 输出 的。 而 我们 过去 跟 ChatGPT 交流 的 时候, 是用 字节 一个字 一个字 打进去, 那个 比特 的 那个那个 信息量 的 差距 是 非常 大 的对 所以 反过来, 我们在 当当 他 输出 一个 播客 的 时候, 他 其实 是在 输出 一个 很大 清晰度 的 很高 很高 这个 很高 信息 密度。 这里 说 的 信息 密度 跟 刚才 那个 不是 一个 概念。 这里 说的是 我在 音轨 上 的 高中 低音, 每一个 音 的 长度 跟 短 度 这些 东西 它的 量 是 大于 字节 的对, 大于 文字 的那 在 这种 情况下, 它的 成本 也好, 它的 效果 也好, 我 觉得 一定 是 后面 才有 机会 彻底 被被 颠覆 的。

对当 A G I 到来 的那 一天, A G I 都 已经 像 一个 智人 一样 跟 你 交流 了。 我 觉得 他 录 的 博客 我 就会 听 了, 因为我 已经 把 他 当 人 了。 说白了 对他 已经 不是 拟人 了, 他 就是 一个 甚至 高于 人的 存在 了。 对, 那 我 搞不好 我们 到时候 邀请 一个 A G I 来, 我们 一起来 录录 一期 播客 未可知。 对, 但是 起码 在 现在 我 觉得 还没有 那么 快。

对, 就现在 用 A I 生成 衣服, 我 觉得 更 像是 解决 的 是 一些 什么。 你知道 有一个 产品 形态 叫 听书, 我 感觉 更 适合 给 听书 做 一下 体验 升级。 对 然。

然后 至于 说 我们 这种 人类 播客 创作者 做 的 东西。 我不知道 一些 博客 A P P 的 同学们 在 思考 这件 事儿, 能不能 做 一些 这种 有 A I 的 结合 的 互动 的 一些 东西。 比如说 比如说 我们 播客 里面 可能 会 提到 说, 我们 之前 的 一些 嘉宾 提 过 的 一些 东西, 对 吧? 那 这种 reference 能不能 生成 一些 简短 的 音频, 过渡 的 音频, 帮助 我们的 听众 去 叫做 回放 一下 之类 的。 我 觉得 可能 增加 一些 互动式 会 比较 好吧。 是对, 当然 有点 扯远 了, 是一个 小小的 愿望 好吧。

我 觉得 今天 我们 从 大 模型 到 A I 硬件 两个 维度, 聊 了 聊 在 A I 音频 这个 领域 的 最新 的 进展。 因为 我们 其实 之前 也 聊过 一期, 我们 后面 也会 持续的 关注。 因为 我们我们 觉得 其实 上期 我们 也 讲 过, A I 音频 是 我们 认为 在 A I 的 整个 发展 里面, to c 有 机会 破 圈 的 一个 非常重要 的 一个 方向。 所以 我们 也会 持续 关注 这个 领域, 希望 大家 听 完 今天 节目 有 收获。 在 节目 的 最后 我们 想 整个 活儿 对 我发现了。

一个 应用 叫做 rap anything。 他 好像 是 国内 一个 应用 开发者 做 的, 他 就是你 给他 任何 的 音频 任何 的 音频 或者 是 视频 然后 他 能把 你 改成 一段 rap OK。 对, 所以 最后 我们 就 放 一小段 所以 在。

节目 的 最后 我们会 把 今天 这 期 节目 的 音频 变成 一只 rap, 然后 在 最后 放 出来。 就是 我们 以前 在 节目 最后 都会 总结 一下 我们 这 期 讲 了 什么。 这 期 我们 用 rap 的 方式 总结, 希望 大家 喜欢。

Every four, 节奏 在 流动, 思绪 穿梭, 灵感 在 闪耀, 傲然 比 的 律动, 钢琴 的 低音, 我的故事 在 音符 中升。

强大 保证 网页 变 博客, 离开 法坛 来 回顾。 AI 硬件 新 突破, 冷 学习 效率高, 信息 密度 低, 难度 却 更高。 手机 P T A P 语音 接口 归 音 平行 息 量 更大, 音频 发展 迅速, 未来 前景 无限 高。

助手 新体验, 实时 互动, 沟通 无障碍。 在 一路 阴阳 阳, 好 笑脸 天上 看得见。 无需 切换 窗口, 感觉 操作 更 流畅。 你。 都 带 你 飞, 结束 这 回合, 就 看 下次 再相逢。