欢迎 大家 收听 三 五环, 我是 刘飞。 今天 邀请 到 的 是 志 杰, 跟 大家 打 声 招呼。
大家好, 我是 志 杰, 现在 在 负责 通义 听 悟 的 产品 跟 研发。
要么 志 杰 老师 简单 简述 一下 自己 过去 的 经历。
我 经历 其实 挺 简单 的, 跟 这个 语音 和 A I 相关 的 技术 结缘, 应该 就是说 在 这个 大学 本科毕业, 准备 报考 研究生 的 时候, 就 觉得 像 语音识别、 语音 合成 这些 技术 挺 有有 用处 的。 那个 时候 其实 也没有 说 像 这些 技术 叫 A I 正好 我在 中科大 有一个 比较 有名 的 实验室, 就是 中科大 的 这个 语音 实验室。 然后 就 义无反顾 的 就 去就 去 报考 了 这个 实验室, 最后 也有 机会 加入 这个 实验室, 就 从此 开始了 对 这个 语音 技术 的 有关的 研究 的 工作。 所以 毕业 以后 加入 微软亚洲研究院, 当时 也是 做 这个 语音 方面 的 研究 工作。
然后 在 微软 待 了 差不多 八年 左右 的 时间 以后, 当时 我 觉得 我的 兴趣 可能 也 更多 的 会 迁移 到 如何 用 这些 语音 的 技术 去做 产品, 并且 让 这个 产品 能够 服务 更多 的 普通人 身上。 所以 就 当时 有一个 机会, 就 加入 了 阿里, 然后 一直 在 阿里云 达摩院 等等 这些 阿里 里边 的 部门 都 待 过, 但是 始终 觉得 没有 变化 的 一件 事儿 就是说 一方面 怎么 继续 做 算法 的 研究, 把 最好 最先 的 这个 算法 能够 不断 的 去 提升 他的 各方面 的 水平。 然后 第二件 事儿, 就是 在 这个 研究 之外, 也 做 这个 研究成果 的 一些 转化。 就是说 把 好的 算法 怎么能 通过 一个 真正 能够 触 达 刚才 讲 的 那么 多 的 用户 的 这些 产品。
然后 通过 这种 触 达, 我 觉得 两个 挺 有意思 的 事情 会 发生。 第一个 就是说 我们会 去 知道 算法 怎么 产生 价值。 也就是说 一个 高 的 技术 怎么能够 产生 高 的 价值, 这 是一个 方面, 就 是从 算法 到 产品 这个 方向。 反过来 其实 很 有意思 的 一个地方 是 反过来 的, 从 产品 到 算法 的 这个 方向。 因为 一旦 是一个 产品, 它 有 用户 就能 不断 的 收到 反馈 需求, 没错。 而且 这里 边 可能 还有 真 需求, 有 伪 需求, 有 真的有 价值 的 反馈 跟 没有 价值 的 反馈。 如何 反过来 把 这些 反馈 能够 去 吸收, 能够 去 提炼, 最后 转化 为 对 我们 算法 研究 的 方向, 像 选题 等等 这些 东西 的 一些 指导。
我 觉得 这个 双向 的 这种 互相 的 促进 是在 阿里 做 这个 A I 技术 特别 有意思 的 一个地方。 所以 到 阿里 里边, 我 觉得 也 分为 几个 阶段。 第一个 阶段 就是 构建 技术 的 底盘。 当时 因为 阿里 在 早期 的 时候 A I 技术 刚刚开始, 所以 是 我们 这 一帮人 把 比较 国际 上 比较 先进 的 算法 技术 能够 带到 咱们 阿里 这边 来。 所以 那个 时候 更多 的 就是 纯 技术 的 打造。
然后 当 技术 积累 到 一定 阶段 以后, 我们 就 开始 服务 于 阿里 的 内部。 比如说 当时 我们 有 挺 大 的 客户服务 的 呼叫 中心, 就是 大家 讲 的 这种 电话 客服。 其实 这个 无论 在 淘宝 还是 蚂蚁 的 场景 里边, 其实 是 非常 重要 的 一个 部门。 然后 每天 有 大量 的 数据 在 这个 地方 产生。
然后 我们 通过 服务 内部 的 方式, 第一次 尝到 说 把 一个 算法 怎么 变成 一个 产品。 后来 因为 有 云 的 契机, 其实 同样 的 阿里 内部 使用 的 这些 A I 语音 A I 的 产品, 也是 可以 通过 阿里云 的 方式, 其实 用 A P I 的 方式 去 对外 输出 的。 所以 这个 就 走向 了 下一个 阶段, 怎么 把 一个 内部 的 产品 变为 了 一个 云上 的 产品。 能够 让 行业 里边 的, 比如说 他 同样 是 做 电话 客服, 呼叫 中心 等等等等, 这样的 企业 能够 通过 集成 这 样子 的 A P I 就能 研发 出 自己的 含有 A I 技术 的 产品。 后来 这些 事情 就 越来越 多了。 除了 电话 客服 以外, 像 我们的 手机 上 的 语音 的 听写, 像 一些 语音 的 搜索, 我们 讲 这个 人工智能 电视 能够 跟 他 做 语音 的 点播 电视节目 等等等等。 越来越多 的 这些 应用 出现。 但是 这些 背后 的 服务, 我们 这个 云上 的 这个 语音 A I 的 这些 产品。
所以 基本上 讲完 这部分 以后, 其实 我们 就 完成 了 一个 说 从 更多 的 服务 于 内部, 而 变化 成了 一个 在云上 的 一个 to b 的 这么 一个 产品。 可以 被 开发者, 可以 被 别的 应用 的 伙伴 所 集成, 然后 在 他们的 场景 里面 创造 更多 的 价值。 可能 一年 多 以前, 我 觉得 我们 完全 没有 to c 的 这个 mindset。 我们 就是 一个 to b 的 提供 的 这么 一个 部门。
不管 内部 外部 都 是对 企业 的。
对 吧? 对, 因为 基本上都 是 说 不会 自己 做 那个 终端 的 产品, 而是 被 别人 所 集成。 这个 是 我们 当时 的 主要 的 这种 产品 的 这种 形态。 契机 其实 也很 有意思, 就是 在 内部 有一个 内部 的 工具 产品, 就是 听 悟 的 这个 前身 有 好多 老的 名字。
但 basically 他 做什么 呢? 就是 因为 我们 内部 有 很多 的 H R 同学、 秘书 同学 等等, 他们 可能 会 参与 不少 的 会议。 好多 是 线下 的, 有 一些 是 月度 周 度 的这 这种 例会。 有的是 这个 战略 会 挺 重要 的, 有的是 例如 说 我们 人力资源 的 一些 会议, 他们 就 内生 的 会有 一个 会议 音频 的 记录, 整理 的 这么 一个 需要。 所以 我们 本着 一个 帮 我 放放, 对对对, 真的 是 就是 帮帮 他们 好玩的 一个 心态, 没有 特别 多 的 功利 的 一些 打算, 就在 内部 提供 这么 一个 网站 给 到 大家。 大家 用 自己的 电脑 或者 用 自己的 手机, 实时 的 或者说 录 完 以后 放到 这个 网站 来, 然后 方便 他们 去 整理。
结果 没想到 在在 那 内部 这个 铁粉 是 越来越多, 拓展 到了 很多 我们 之前 没有 想到 的 一些 应用 的 可能性。 比如说 我们的 投资 部门 的 同学, 他们 其实 会 到 行业 里面 去 看 很多 的 带头 的 公司, 就要 做 一些 叫叫 尽职调查。 其实 这个 里边 也有 很多 的 一对一 的 或者 一对 多 的 这种 访谈。 它 不是 会议 了, 就是 问问题, 然后 别人 回答。 然后 其实 就会 发现 说, 这件 事情 的 用处 好像 也 不止 说 开会 这 一件 事儿, 后面 又有 很多 像 发布会, 比如说 我们的 年会, 年会 因为 您 知道 阿里 也有 很多 外籍 的 员工, 对 吧? 那 也会 有 年会 的 组委会 的 同学 看到 这个 产品 以后 问 我们 说, 能不能 一边 演讲, 在 台上 有 嘉宾 或者 领导 的 演讲, 一边 你们 就 把 这个。
英文 给 翻译 了 同步 的 字幕。
对对对, 现在 大家 看起来 可能 都 不是 什么 新鲜 的 东西 了。 在 那个年代, 大概是 什么时候? 我要 追溯 最早 一次 做 这件 事情 可能 是 17年 了, 17年 OK。 对, 我们 其实 每场 会 当时 会有 这个 金牌 速记员 在 下面 用 那个 专业 的 数据 机器 去去 敲 字 的。 其实 后来 发现 当时 的 这个 语音识别 的 技术, 已经 基本上 跟 数据源 的 准确率 已经 不相上下。 而且 他 不 累。 速记员 其实 记 不了 很 长时间, 超过 半个 小时, 可能 人 毕竟 是 会 是 是 会 疲劳 的对 对, 直到现在 我 认为 人 还是 不可 被 替代, 替代 的。 就是说 他 对 背景 知识 的 了解 和 理解, 专业 的 名词 等等 这些 的 掌握, 是 机器 今天 仍然 不可能 说有 他 那么 深 的 对于 公司 这个 来龙去脉, 一些 黑话, 一些 昵称 的 理解 的 那个 时候。
是不是 背景 上 有一个 技术 相对 比较 成熟, 算 力 各方面 其实 到了 一个 条件, 就 这个 条件 是 让 大家 能 用 这个。 对, 因为我 记得 其实 这个 技术 的, 比如说 底层 的 逻辑 和 方法 很 早就 有了, 对 吧?
对, 本身 说 语音识别 说 白话 就是 语音 转成 文字, 对 这个 问题 是 清晰 定义 的。 它的 这个 指标, 比如说 像 这个 准确率 有 多少 个 字儿 是 准的, 多少 个 字 不准, 对 吧? 这些 都是 清晰 定义 的。 所以 它是 一个 历久弥新 的 一个 老问题, 是 只是 说 层出不穷 的。 在 过去 的 几十年 间, 应该 所有的 全世界 的 研究 和 应用, 我 觉得 都 是在 叫叫 什么 呢? 我 把 它 形容 为 在 叫 解锁 场景, 把 以前 做不了 的 事情 变得 可以 做, 把 以前 做 不 好的事情 变得 可以 做好。 比如说 今天 我们 带 一个 这种 头戴式 的 耳麦, 把 麦克风 放在 您 的 这个 嘴巴 面 钱, 然后 我 字正腔圆 的 去 念 一篇 这个 稿子。
对 吧? 以前 那种 就 好 识别 一些 是 吧?
对, 这 样子 就会 到 今天 的 技术, 这就是 可 可能 可以 说 是一个 solved problem。 但是 以前 并不是 的, 可能 六七十年代, 那那 现在 显然 并不是 的对 吧? 后面 我们 解锁 到 说 拿出 一部 普通人 都 可以 的 手机, 然后 您 可以 跟 他 做 搜索 的 那样的 query。 比如说 我们 今天 用 我们 阿里 的 高德 的 这个 语音 的 导航, 您 说 我要去哪里 帮 我 导航 到哪里, 对 吧? 像 这样的 问题, 它 更 宽泛 了, 因为 地名 路名 非常 多。 又是 一部 普通 的 手机, 并不是 放在 嘴巴 旁边 的, 甚至 可能 会 架 在 那个 车子 里边 的 那个 环境 噪音 就 很 明显 了, 也都 不一样。 对, 所以 以前 也 不能 做。 现在 不仅 是 能 做, 我 觉得 基本上 也是 做 的 比较 好了。 再到 大家 近年来 比较 熟悉 的 那个 智能 音箱, 看起来 跟 高德 那个 场景 差不多。 我只是 从 找 路 变成 了 点歌, 对 吧?
但 他 其实 当年 有一个 重大 的 两个 挑战。 第一个 是 说 我的 手 碰 不到 它, 所以 我需要 去 唤醒。 语音 的 唤醒 其实 并不是 是 特别的 难, 关键 是 误 唤醒。 对, 咱 没 唤醒 你的 时候 你 会 跳出来。
对 吧? 之前 智能 音箱 火 的 时候 很多 那种 段子, 就是 不知道 说什么 就 突然 又被 唤醒 了。
对对对, 其实 在 唤醒 率 和 误 唤醒 率 一个 要 提高 一个 要 降低 之间 就是 一一对 矛盾。 第二个 挑战 就是 您 看 音箱 里 放在 家里 的话, 离 我 嘴巴 就 更 远 了, 是 可能 是 3米5米之外 的 清晰度, 就 设备 没错, 所以 当时 要 用 挺 多个 麦克风 组成 一个 麦克风 阵列。 来解决 所有 刚才 讲 的 这些 问题。
好, 我们 刚才 讲 的 这些 东西 大家 发现 没有? 都 有一个 特点, 它是 叫 人机 语音 交互。 就是 您 跟 高德 去 说, 您 跟 音箱 去 说, 基本上都 是 说 在 解决 一个 什么 问题 呢? 就是我 怎么 控制 你 控制 机器。 其实 这是 一类 当年 已经 是 很难 的 问题, 但 逐渐 到 现在, 您 如果 用 siri 也好, 是 天猫 精灵 也好, 基本上 应该 还行。 对, 能 达成 你的 任务 完成 式 的 这种。
对他 能 理解 就 回回 不回 不 回答 好是 另外 一 回事。
但是 不能 理解。 对, 但 基本 的 任务 完成 性 的 点歌、 找 路 这样的 需要 查 天气 等等。 我 觉得 今天 的 准确率 应该 还是 比较高 了。 是的, 这就是 一个 典型 的 例子。 其实 麦克风 离 嘴 的 距离 其实 越来越远, 然后 可以 查 的 东西 越来越多。 但是 本质 上 这种 解锁 就 到了 一定 阶段 了。 我 觉得 今天 总结 一下, 我 觉得 今天 这种 任务 完成 式 的 人机 语音 交互, 基本上 我们 做 的 还 到了 一定 的 水平 了。
在 全世界, 在 业界 里边。 于是 我们 就在 想 what's next? 因为 过去 我们是 不断 的 解决 难题, 对 吧? 解决 越来越大 的 难题。 那 what's next? 就是 什么样 的 难题 是 接下去 的 5到10年 既有 价值 问题 又 难。 然后 一旦 解决 这个 问题 以后, 这个 收益 或者 带来 的 价值 会 更大。 于是 我们 逐渐 在 几年 前 就 慢慢的 把 我们的 这个 研究 和 产品化 的 经历, 从 这个 人机 语音 交互 move 到 一个 什么?
对 人人 语音 交流 的 这种 理解 跟 分析 上面 来 解释一下 什么 是 我们 理解 的 人人 的 语音 交流? 就像 刚才 我们 举 的 例子, 像 会议 就是 一个 非常 信息 密集 的 重要 的 一个 场合。 人 在 会议 里边 交换意见, 形成 结论, 再去 执行, 然后 再再 到 下一个 会议 来 review 我们 定下 的 这些 action items, 有没有 被 更好 就是 总结, 然后 再 move on 到 下一个 会议。 所以 我 觉得 尤其 像 咱们 在 职场, 在 大公司, 我们的 工作 做 完? 都 通过 这样的 方式 来 交互 信息。
这 里面 全 是人 跟人 之间 的 这种 交流。 但是 您 注意到 一点, 这个 跟 字正腔圆 的 说 天猫 精灵, 我要 听 周杰伦 的 歌, 对对对, 完全 的 不一样。 大家 在 里面 都很 热情 的 想 表达 自己的 观点, 巴不得 能够 说服 别人。
表达 的 里面 可能 有 很多 情绪, 有 很多 这种 可能 不是 那么 确定性 的 一些 表达 和 抽象 的 词汇, 包括 还有 一些 刚才 你说的 背景 知识。
对, 背景 知识 还有我 可能 会 嗑, 我 可能 会 重复。 对我 可能 会有 很多 语气词, A 的 声音 可能 会 盖 过 B 的 声音。 对, 两个人 开始 争论 起来 了 对 吧?
By the way 这 里面 可能 有 A B C D 好几个 角色。 当我们 刚才 讲 人机 云 交互, 就是你 你 一个人 跟 机器, 那 这里 边 全 是 技术 问题, 全 是 挑战。 咱们 要说 收音 质量 的话, 对 吧? 那那 不比 那个 不比 家庭 那种 安静 的 环境 下 会 更 理想。 同时 再说 几个 典型 的 人人 语音 交流 的 场景。 比如说 我们的 教学 就是 一个 老师 对 好多个 学生 在 传授 这个 知识, 也是 一个 很 有 价值 的 一个地方。 好, 包括 再 回到 刚才 我们我们 提 过 的 这个 企业 里边 的 培训, 包括 内外 的 一些 演讲, 包括 我们 这个 采访。 其实 语音 本身 就是 人 跟人 之间 交流 最 重要 的 一种 形式。
不管 是 在职 场 还是 在 任何 社会 里面 的 连接, 就是 全 靠 人的 沟通。
对对对, 而且 会有 而且 沟通 不是 用 肢体, 肢体 当然 是 辅助 了。 我 觉得 甚至 像 我们 做 语音, 我 觉得 比较 骄傲 的 是 说 这个 语音 这个 模态 它是 最。
基础 的 一种。
对, 甚至 是 不可或缺 的。 原因 是 您 打电话 是 可以 交流 的, 不一定 非要 用 视频 通话, 对 吧? 但是 如果 没有 语音, 就是 不能 面, 就 很难 交流, 画面 就 很难 交流 了。 好, 所以说 其实 motivation 也就是 来源于 这儿, 就是 在 思考 说 what's next? 下一个 要 被 解锁 的 场景 是什么? 在 这个 场景 里边 需要 的 技术 是什么? 所以 我们 就 开始 投入 对 人人 语音 交流 的 这些 技术 基础 的 一些 构建。
举 几个 例子, 比如说 我们 一 长 段 录音, 怎么能够 区分 出来 是 两个人、 三个人 或者 四个人。 不仅 是 知道 里边 有 多少 个人, 而且 把 每个人 在 什么时候 说 的话 把 它 标记 出来。 这个 本身 就是 一个 叫 受害人 日志 speaker direction 的 这么 一个 技术。 您 去 看 这个 如果 原汁原味 的 照抄 人人 交流 的 这个 语音, 有 好多 的 语气词, 好多 的 重复, 好多 的 磕巴 的 地方, 就是 很 用 眼睛 去 看 那个 文字 的 时候 很很 难看, 阅读 起来 很 累。 那 这个 里边 又 需要 把 这些 口语化 的 一些 语音 转 文字 的 结果, 把 它 给 顺滑 或者说 是 叫 润色, 使得 它 读 起来 更 适合于 我们 平时 阅读 的 这种 习惯。
对, 其他 的 像 这个 环境 里边 的 掌声、 音乐声, 这 音频 事件 的 检测 等等 这些 技术。 其实 当时 我们 都在 投入, 投入 了 还 不算。 我 觉得 很 重要 一点 就是说 我们 希望 说是 就 开启 了 我们 刚刚 才 讲到 的 从 to b 到 to c 的 一定程度 上 to c 的 这个 转换。
就是说 这些 技术 毕竟 只是 技术, 怎么能 让 最好的 让 大家 能够 感受到, 再 反过来 给 我们 反馈。 于是 我们 就 决定 干脆 做 个 产品, 做 一个 to c 的 产品。 对, 干脆 做 个 产品。 一开始 可能 是 更 像 prototype, 后面 变更 像 一个 product, 内部 的 internet al 的 product。 再到 后面 可能 做 一个 发布 的 产品。 我 一直 想说 这个 产品 其实 没有 那么 大 的 功利性, 他 不是说 先 有 说 我要 做 一个 产品, 然后 再来 做 一个 产品。 他 可能 略微 是 先 有一个 对 未来 的 这个 场景 的 一个 想法 和 判断。
或者 一个 认同, 就是 认为 这个 应该 是 有 价值 的 没错。
再 做了 技术, 然后 把 技术 包装 成 产品。 这个 产品 更 像是 技术 的 一个 小 触角, 把 它 伸出 去, 为的是 收集 反馈。 然后 再 带 回来 给 技术 做 选题, 然后 给 技术 做 哪些地方 该 特别 要 去 精进 的, 精进 的 那些 技术 我们 可能 更多 的 去 关注。 对, 有点 是 这么 一个 感觉。 对 嗯。
就 技术 和 产品 一定 得 这样 有一个 良好 的 正向 循环, 不然 技术 很 容易 就 变成 闭门造车。 如果 只有 产品 没有 技术, 你 又 没有 壁垒。 对, 而且 刚才 我 听 下来, 我 觉得 有一个 方面 很 有意思。 就是 很多人 会 觉得 有 一些 技术 是 那种 什么 类似 武学秘 籍, 对 吧?
都 想到 一个点, 就是 这个 点 可以 打败 天下无敌 手。 但是 实际上 很多 我们在 用 的 产品, 你 要 考虑 的 场景 非常 多。 然后 你 就 包括 刚才 讲 的, 他 可能 一个 核心 的 技术 背后 有 很多 技术 去 支持 去 支撑。 是 它 并不是 像 大家 想 的 一样, 只要 有一个 好的 技术 的 想法, 我 就能 做出 一个 好 产品 了。 是的 对。
是的, 你 讲 的 特别 对, 这也是 我 觉得 特别 有 体会 的。 就是说 常常 问 咱们 一个 问题, 我 既 做 research 也 做 product, 早年间 做 research 更 多一些, 现在 这几年 做 product 更 多一些, 老 问。 所以 我 两边 都有 一些 经验 跟 一些 经历 了, 所以 老 问 自己 一个 问题, 到底 是 做 research 还是 做 product 呢? 其实 不太 一样。 Research 本身 你是 可以 make assumption 的, 就是说 你可以 不断 的 加 更多 的 assumption。 其实 每每 加 一个 assumption, 其实 underline 一个 逻辑, 就是 其实 把 问题 变得 更 简单 了。 对, 把 问题 解构 了, 然后 我们 先 按住 一些 不太 有利 的 因素。 假设 到了 以后, 把 一些 我们 想 去 研究 的 单一 的 维度 去做 研究。
对, 就是 单点 去 突破 对 吧? 而且 一般 讲 论文 就 可能 是我 有一个 非常 明确 的 量化 指标 在 一个 比较 没错, 有点像 纯净 的 这种 实验室 环境 里 没错, 它 能不能 提升 没错。
对, 这个 当然 是 很 有 价值 的, 也是 research 应该 有的 重要 的 一个 手段。 但 反过来, 做 产品 是 不可以 有 assumption 的对, 因为他 这个 场景 一旦 被 选定, 他的 问题 就是 确定 的。 只是 说 他的 手段 不知道。 所以说 一定程度 上 在 这个 点 上, 做 product 甚至 我 觉得 会 比做 research 更 复杂, 是 更难。 所以 这是 第一个。
第二个 就是 您 讲到 的, 我 觉得 现今 的 科技 的 这个 环境 或者 体系 底下, 可能 越来越 不会 出现 封闭式 的 那样的 所谓 的 打 个 引号 的 这种, 只有我知道 的 黑科技 现在 像 我们 做 的 很多 的 工作, 其实 开源 和 开放 大家 逐渐 形成了 越来越大 的 一个 共识。 如果 您 知道 的话, 现在 我们 阿里 里边 的 很多 的 A I 模型, 都是 通过 一个 叫 model scope 的 网站 向 全社会 其实 去 开放 的。 说白了 今天 我们 通义 听 悟 背后 的 很多 的, 例如 说 像 我们的 语音识别 的 模型, 我们的 标点 的 模型, 打 标点 的 模型, 我们的 顺滑 的 模型, 我们的 声纹 就是 分 角色 的 那个 模型。 但是 说 那个 模型 本身。 您 是 可以 直接 到 model scope 的 网站。
可以 获得 的。
是我的 体会 是 说 这 是件 好事。 就 好像 当年 我 一开始 做 research 的 时候, 你 如果 需要 知道 这个 世界上 最 先进 的 这个 research 在哪里, 你 需要 跨越 重洋 去 开 一个 会。
还得 费 一点 功夫 开开 一个 会, 各种 学术会议。 对。
一开始 那个 会 发 的 那个 会议 资料 是 一大 本书, 是 纸质 的, 很重 的, 要 跨洋 要 扛 回来的 一本书。 后来 终于 有 光盘 了, 到 最后 终于 有 U 盘 了, 但是 到 现在 已经 有 网络。 对 对对对, 所以说 当年 您 说 如果说 要 做 一个 跨洋 的 飞机, 去 把 一本书 背 回来。 那 我 觉得 在 那种 信息 的 这个 条件 底下, 肯定 会 产生 一些 事实 是 somebody 知道, everybody else 可能 是 不知道 的对。
就 存在 很强 的 信息 不对称。
到 现在 有了 那么 方便 的 互联网, 有了 开源 开放 的 这个 公 洪流 以后, 我 觉得 可能 未来 就 不太会 存在 特别 大 的 gap。 就像 今天 大 模型 大家 看到 的 趋势 也是 一样, 对 吧? 是 既有 闭源 的 少数 的 大 模型, 也有 开源 的 方面 更多 的 大 模型。 我 觉得 回到 您 刚才 那个那个 问题, 我 觉得 再 往后 看 这件 事情 可能 会 变得 逐渐 的, 我 觉得 会 变得 越来越 的 开放。
对, 而且 大家 现在 开放 的 心态 看, 也 并 不是说 我是 以 一个 纯 公益 的 心态, 而是 意识 到了 刚才 你说的 那 一点, 其实 从 技术 到 产品 还有 挺 长 的 一段路 走, 对 吧?
您 说 他 是不是 功利, 他 是不是 无私, 或者 他 是不是 公益 的? 对我 觉得 其实 不是 的。 对我 后来 越来越 深刻 意识到 一个点, 是 说 今天 AI 技术 高技术 产生 高 价值。 说 一个 大白话, 重点 不是 去 卷 过 你的 同行, 重点 是 把 价值 的 蛋糕 真正 能够 去 发现。 对, 可能 作为 一个 inside, 我 反而 会 比较 保守, 或者说 更加 的 可能 给 自己 脸上 贴金, 可能 自省 一点, 是 说什么 呢? 今天 严格 说 我 认为 AI 技术 我们是 看到 了 它 巨大 的 价值 的 曙光。
潜力 在。 但是 我 觉得。
离 真正 的 兑现 还差 好久。 我 现在 这个 年纪, 我 觉得 再做 个 十年二十年, 看到 一些 更有 价值 的 场景 能够 被 解锁, 我 觉得 是 完全 值得 期待, 而且 一定 会 发生 的。 但是 他 没 那么 快。 对, 但是 您 说 他 现在 到底 产生 了 什么 价值? 您 可以 去 问 周 身边的人, 对 吧? 其实 我们 期待 的 A I 是 把 一些 很多 的 我们 人 不愿意 干 的 一些 一些 所谓 的 dirty work 或者 routine, 要 去 重复性 的 劳动 的 一些 工作。 更多 的 真的 是 能够 帮 我们 做到, 让 我们 人 能够 更多 的 有 一些 时间 去做 更多 的 创造性 的 一些 工作。 但 我 觉得 现在 离 这个 愿景 还 远远 没有 实对。
我 觉得 这个 就是 正好 应 上 你 前面 说 的那 一段。 就是你 从 一个 一直 做 语音 技术, 从 刚 开始 发现 大家 有了 一些 基本 的 能 转 语音 转 文字 的 技术, 到 真的 我们 现在 可用, 对 吧? 在 全 场景, 在 各种 环境 下都 能 捕捉到 对方 的 意图, 甚至 会议 这种 复杂, 这 中间 有 很长 的 路。 要是 几十年 功夫, 它 并不是 一招, 或者说 有一个 技术, 有一个 大 模型 就 放在 那就 剩下 的 都 不用 管 它。
其实 很很 长 的 路, 没错, 是 讲到 这里, 其实 我们 为什么 要把 听 悟 升级 为 通义 听 悟? 然后 对外 就像 刚才 讲 的, 本来 的 原来的 老的 听 悟 就是 我们 阿里 内部 的 一对 我们 给 内部 的 工具, 对, 纯粹 就是 不放 的, 也能 帮助 很多人, 但是 也很 有 成就感, 有时候 在 我们 阿里 内部 场合 看到 在 一个 大 会场, 有 同学 打开 笔记本, 就是 咱们 这个 产品 这个 界面, 自己是 觉得 挺 挺 欣慰 的。 就像 自己的 孩子 一样, 至少 在 去年 的 时候 一直 在 苦苦 追寻 一个 突破口。 今天 他 除了 把 它 转成 文字 以外, 到底 还能 多 做些什么? 这件 事情 其实 一直 苦苦 寻找, 一直 没找到, 但是 模模糊糊 感觉到 一定 是在 N O P 技术 的 这个 突破 上面 的。 原因 是 当时 是 只要你 录音 环境 够 好, 大家 的 普通话 还 OK。 不要 着急, 好好 说。 那 这个 语音 转 文字 的 这个 准确度, 让 我自己 做 这个人 已经 觉得 够了。
对, 至少 在 我 跟 我 跟 我 刚刚 学 这个 技术 的 时候, 我 觉得 不可想象 了。 是 虽然 我们的 用户 可能 还是 仍然 会 吐槽 他, 巴不得 百分之百。 对, 但 对于 做到 我 做 我 这个 技术 的 人 来讲, 我 觉得 已经 今天 这个 进步。 对, amazing.
它是 可 完全 可用。 对, 肯定 是 没有 完美, 但是 可用 是 可用 的对, 以前 是 不可 用。 对对对。
但是 到了 所谓 认知 智能 的 程度, 去 理解 的 程度, N O P 的 就 总 让人 觉得 有点儿 不够 用, 隔靴搔痒。 就是 有点 有用, 好像 又没 完全 有用。
是 大量 的 NLP 技术 还没有 到 那种 真的 能 用到 具体 应用 场景, 就 可能 翻译 已经 是 算 走 的 比较 往前 的 了。
对, 您 说 翻译 也 特别 好。 就是说 翻译 当时 我们在 我们 这个 语音 翻译 的 还 不同于 这个 文本 翻译。 当时 有些 好多 问题 挺 挠头 的。 比如说 翻 文本 翻译 里边 有一个 重要 的 一个 有利 的 一个 因素 是什么 呢? 就是 这个 句号 是人 打的。
对对对, 语音 你 没法 断句 了 是 吧? 对。
而 断句 对于 翻译 本身 的 这个 准确率 的 影响 可以 说是 巨大 的。 明白, 所以 断句。
本身 又是 一个 NLP 问题, 对 吧? 对。
本身 就是 个 NLP 问题。 对, 这个 口语 的 翻译 跟 书面语 的 翻译 又 完全 不一样, 难度 又是 一个 不可同日而语 的 一个 难度 等等等等。 所以 看着 也 还是 有点 隔靴搔痒。
好 s way 还有一个 重要 的 问题是, 当时 是一个 N L P 是一个 小 模型 的 年代, 每一个 任务 要 去 折腾 一个 小 模型。 对我 可能 打 标点 一个 模型, 我 打完 标点 后 翻译 一个 模型, 翻译 以后 我 总结 一个 模型 对 吧? 我 提取 一个 会议 的 要点, 或者 一个 视频 分享 演讲 的 一个 重点, 又是 一个 模型, 每个 模型 其实 也没有, 也是 有 套路 的。 对, 收集 数据, 标注 数据, 找到 某 一个 好用 的 modeling 的 这个 t technical, 就是 选择 这个 model 的 backbone。 然后 就是 训练。 对, 训练 完了 以后 再 收集 这个 bad case, 然后 去做 feature 的 engineering 也好, 做 这个 mod 的 tune 也好, 基本上 就是 工业化 的 小 模型 的 生产 的 这个 对 对 那 这个 routine 对 吧?
对, 很多, 但是 很 费劲。 对, 就 继续 学习, 多 学习 那些。 对 同行 推进, 我 每每 对 语音 这边 看起来 就是 一个 语音 转 文字 的 任务, 大不了 有 个 声纹 的 任务, 好像 任务 就 那么 两三个, 特别 聚焦。 N O P 的 那个那个 领域 就是 无穷 多 的 任务, 对, 无穷 多 的 小 模型。 对对对, 这是 当时 的 状态, 是我 觉得 契机 就 真的 是 来源于 大 模型 有关的 曙光。 在 去年 的 时候 就是 更 大程度 上 出现了。 其实 大 模型 本身 在 阿里 的 投入 也是 很很 有 历史 了。 其实 好几年 的 这个 时间 了, 去年 的 契机 是 说 当然 就是 another 曙光 在 地平线 上 被被 看到 了当 我就是 第一次 看到 他的 做 这个 改写, 做 摘要、 做 作文 的 这个 效果 的 时候, 我 觉得 当时 的 震撼 真的 是 很大。
你 第一次 用 的 时候 也是 没想到 是 吧?
对, 对, 没想到。 当时 觉得 是 以前 的 好像 我所 看到 的 N R P 技术, 不太能 自己 创作 出 这么 长 的 一篇 文章。 而且 看起来 还是 合理 的, 可能 达到 了 可能 中学生 的 这种 水平。 在 这种 创作 基础上 创作 是你 给他 一个 小的 题目, 他他 给你 创作 出 一个 作文, 有点像 写作文 命题作文。 但是 这个 能力 坦率地 讲, 当时 的 感受, 我 刚才 用 的 中学生 这个 形容 严格 说 你 会 去 看到 说 他的 观点 的 犀利 的 程度 和 他 举 的 例子 跟 旁征博引, 还有 一些 对 一些 细节 的 描写, 你 觉得 比 人的 这个 还是 有 距离 的。 我们 不得不 说, 我只是 给 了 他 一个 提示 而已, 一个 作文题 而已。 能 写 到 这个 程度, 至少 比 我 此前 所 看到 的 小 模型 的 这个 N O P 技术, 我 觉得 已经 是 有 巨大 的 进步 了。 但是 就像 刚才 说 的, 这个 时候 我们 能不能 给他 make 一些 assumption, 降低 它的 难度 对不对?
这个 难度 降低 在哪? What if? 因为我 又 想 在 想 跟 我 语音 的 场景 做 结合, what if 我 把 一篇 真的 就是 一篇 演讲 给 到 你。 这个 演讲 本身 是人 所 deliver 的, 这个 speech 本身 是 人人 delivered 的。 你 用 你 那么 强 的 改写 和 创作 的 能力, 你 不要 脱离 这个人 讲 的 内容。 你 帮 我们 做 几件 事情。 第一件 事情 帮 我们 把 它 分割 成 语义 上面 有 价值 的 章节。 从 1分30秒 到 5分20秒 他 讲 了 这个 topic, 五分 30秒到8分钟 他 讲 了 另外一个 topic, 帮 我们 干 这件 事情。
在 干完 这件 事 分割 好 以后, 每一个 它的 章节 的 内容 讲 了 这么 多 的话, 帮 我们 做 个 摘要, 用 几句话 把 他的 中心思想、 主要内容 帮 我们 改写 出来。 您 看 这个 就 跟 我给你 一个 宽泛 式 的 作文题, 要 简单 了 对 吧? 然后 这 样子 去 一 试, 一看 大 模型 的 给 出来 的 这个 东西 的 效果 让人 惊艳。 那个 是真的 被 震 被 吓 到了。
对, 我我我 觉得 它 就是 包括 刚刚 才 你说的 那种, 它 能 替代 很多 小 模型, 这个 是 非常 让人。
吃惊 的对 吧? 您 讲 的 对我 您 提醒 我 刚才 没 讲到 的 一个点 是 说。 他 今天 不再 需要 N 多个 小 模型 来做 刚才 那 几个 任务 了。 对, 而是 一个 大 模型 把 刚才 那 几个 任务 一起 做了。
对, 因为我 之前 也是 学 N R P 的, 就 之前 那个 N R P 领域 大家 公认 的 是 一 的, 其实 大 模型 很多年 前 就有 了。 对, 大家 就 觉得 大 模型 解决 大 模型 的 问题, 对 吧? 你 一道 垂直 领 大 模型 就 没 那么 好用 了。 对, 那 我 做 词性, 做 句法, 对, 做 那个 其他 的 这些 我 都 还是 要 用 小 模型, 但是 现在 发现 你 全都 覆盖 了, 没错。
对 对, 没错。 我 觉得 当 看到 这个 效果 被 吓 到 的 那个 moment, 我 觉得 基本上 就是说 这个 产品 我们 准备 把 它 做成 一个 产品 了, 准备 对外 的 那个 moment。 但是 主要 还是 说 想 真的 想 把 它 做成 一个 产品 了。 因为 这件 事情 我 觉得 解锁 了 一个 非常重要 的 一件 事情, 就是说 什么 呢? 就是 语音 跟 语言 的 技术 在 这个 场景 里边 不再 是一个 工具 了, 他 有 可能成为 一个 助手 了。 这是 真正 的 变化 的 moment。
我 讲 一下 就是 工具 大家 能 理解 对 吧? 就是 刚才 说 的 这个 很 容易 理解, 就是 语音 转 文字 的 工具。 然后 转成 文字 以后, 后续 的 这些 过程, 比如说 我是 整理 出 一个 尽 调 的 报告, 或者 我 总结 出 一个 访谈 的 一个 采访 的 一个 一个 发表 的 一个 稿子, 那 后面 这部分 就 交给 人类 了。
我们 就 拿 我们 现在 最 主要 的 音视频 的 这个 consume, 就是 消费 阅读 观看 的 这个 场景 来说。 正好 您 今天 是一个 播客。 我 以前 不听 播客, 但是 最近 关注 播客 挺 多 的。 OK 大部分 的 现在 是 音频 播客 为 多, 对 吧?
我 觉得 最 有意思 的 地方 是你 很难 通过 拖动 或者 这种 方式 来 了解 整个 播客 的 内容。 视频 我 可能 还 可以 拖 一拖, 看看 画面, 很快 的 了解 一些 东西。 音频 您 不听 完, 不听 比较 长 的 段落, 基本上 是 很难 了解 捕捉 信息 的 细致 的 内容 的。 是 所以 我们 假设 在 这个 里边, 我 觉得 刚才 所有的 这个 大 模型 带来 的 改变, 在 这个 场景 里边 可能 有 机会 给 我们 提供 一种 不一样的 全新 的 一种 听 播客 的 体验。 是因为 我也 看到 在 咱们 很多 博主 的 这个 网站 上, 播 主 会 手工 的 会 把 有 时间轴, 时间轴 能够 会 出来, 对 吧?
At least 我 觉得 对于 博主 这 段 艾特 list, 我们 这些 刚才 讲 的 段落 分割 总结 和 产生 摘要 的 这个 能力, at least 我 觉得 可以 帮助 他们 先 给 到 一个 草稿, 它 可以 也可以 做做 一些 编辑, 这个 没有 问题, 把 时间轴 拖 一拖, 把 内容 改一改, 这个 可能 半 工具。 但 如果 有朝一日 我 觉得 今天 这个 曙光 兑现 的话, 大 模型 应该 是要 有 能力 做到 几乎 不怎么 需要 修改 的。 博主 们 只需要 尽情 的 去 focus 在 他的 interview 和 他的 话题 上 就 好了。 剩下 这个 分割 段落 总结 这些 工作, 自然而然 的 就 提供 一个 有 quality 的 一个 总结 就 出来 了, 对 听众 或者 观众 的 体验 就会 不一样。
Number one 我 觉得 在 浩瀚 的 很多 的 博客 里边, 我 能不能 快速 的 去 找到 我 真正 感兴趣 的 某 一个 某 一期 的 内容。 说不定 我 一个 博主 我也 不一定 真的 会 关注 他的 每 一期。 会不会有 一期? 我 特别 感兴趣, 跟 我所 关注 的 领域 特别的 match。 然后 再 进 到 这 一期 以后, 可能 有些 知识 我 可能 是 比较 了解 的, 是我的 已知 的 信息, 有些 东西 是 真正 这个 嘉宾 带来 的 我 特别 感兴趣 的 心意。 本身 我可以 通过 滑动 的 方式, 在 这些 刚才 讲 的 段落 之间 去 导航, 然后 我 看到 这 段 特别 感兴趣我, 就 点击 进去 把 这 一段 给 完整 的 给 它 停掉。 基本上 它 有可能 会提 提供 一个 一目十行 的 一个 体验。
我 觉得 我们 不是说 来说 我们 就 只看 文字 了, 一定 不是 这 样子 的。 这个 助手 就是 给你 做 一个 briefing, 对, 一个 简报。 对, 每天 早上 告诉你 今天 有 一件事 会 发生 有 哪些 当你 想 zoom y 去 看 这个, 仍然 给 到 你 完整 的 原始 的 体验。 我 觉得 这件 事情 刚才 以 播客 为 例子, 其实 apply 到 很 广阔 的 音视频 的 所有的 内容 消费。
对对对, 主要是 音视频, 我们 毕竟 没有 脱离 语音 和和 这个 部分。 它 可以 是 教学 的 内容, 可以 是 播客 的 内容, 可以 是 演讲。 比如说 我们的 一些 像 泰 的 这样的 知识 之类 的 一些 演讲, 对 吧? 那 他 不是 来教 你 一个 东西, 他 就是 觉得 我 有一个 idea 想 分享 给 所有人, 特别 想 别人 知道 对 吧? 现在 所有的 这些 信息 都是 平铺 持续 爆炸 的 一个 阶段。 其实 我们 要 一定程度 上, 这个 助理 应该 可以 来 帮助 您 挑选出 您 最 感兴趣 的 一些 内容。 因为他 知道 您, 对 吧?
然后 在 某个 地方 讲 的 某个 事情, 你可以 相应 的 在 一些 更 垂直 的 一些 所谓 的 我们 讲 的 弊端 的 这些 领域。 比如说 像 金融 领域, 每次 财报 一发, 会有 一些 我们 叫 earnings call 对 吧? Earnings conference call 就 基本上 公司 的 高 管 有 机会 面对面 的 跟 我们的 投资者 去做 交流。 对 我们 公司 当然 高 管 都 会有 这 样子 的 财报 发完 以后 的这 会议 哈那 像 美国 的 一些 比较 有名 的 公司, 比较 有名 的 创始人, 像 musk 这样的 人 也都 经常 参与 各种各样 的 这样 访谈 的 一些 东西。
那 what if 有一个 你的 助理 来, 如果你 特别关注 财经类 的 信息 的话, 他 帮你 把 所有 这些 东西 听 完 以后, 告诉你 简报 你 发生了什么, 你 愿意 看 的 东西 你 再去 看一遍。 所有 这些 可能性 我 觉得 一下 就 被 打开 了。 我 觉得 今天 我们 仍然 在 处于 一个 非常 享受 的 for fun 的 这么 一个 过程中。 因为 这个 产品 暂时 现在 也不 收, 对, 就是 交个朋友 对 吧?
然后 其实我 我 觉得 我们 作为 做做 racer 技术 产品 的 人, 真 不是 像 刚才 讲 的, 先 说 我要 做 一个 产品, 然后 再来 组织 技术。 我们是 反 的, 我们是 有 一堆 技术, 想 看看 怎么用。 对, 就 跟 大家 一起 探索, 跟 我们的 用户 一起 探索 怎么用。 我 觉得 特别 期待 发生 的 一种 场景 是 我们 这个 产品 能够 被 各行各业 的 人, 就是 跟 您 交个朋友。 我们的 用户, 因为 他在 各行各业, 他 来 反过来 告诉 我们 说, 你 这个 玩意儿 可以 这么 用。 如果 理想 的 状态, 对, 如果 能 发生 这个 过程 就会 特别的 享受。
OK. 我 刚才 你 讲 的 时候, 我 想到 两个 问题 第一个 是 其实 前面 我们 讲 讲 了 整个 通义 听 悟 的 这个 历程。 之前 可能 这就是 一个 for 泛 的 一个 小 项目, 然后 现在 结合 大 模型 有了 更多 场景。 当然 刚才 也 聊 了 愿景 对 吧? 愿景 就是 它 能 变成 一个 个人 助理, 或者说 能够 覆盖 各种 音视频 的 这些 场景, 就 帮助 大家 筛选 内容。 这 中间 有没有 你 觉得 可能 比较 明确 的 里程碑 或者 阶段? 就 比如说 现在 大家 的 目标 是什么? 要 用 什么 方式 和 路径 去 达成 那个 远景。
我 觉得 现在 我们 还是 聚焦 做 减法, 就是 把 如何 去 消费 general 的 这个 音视频 这件 事情 做好。 这个 消费 是 指 不是说 花钱 的 消费, 就 消费 解释一下 是 consume 的 概念, 就是说 我们 把 watch 这个 音视频 观看 变成 一个 阅读。 这个 问题 其实 并 不简单, 而且 并 不小。
虽然 已经 做 减法, 但 并 不小。 原因 是 我们 刚才 讲到 一个 关键词 叫 journal 的 音视频, 我 如果 非要 给 它 加 个 定语 的话, 我 觉得 相对来说 我会 把 它 先 narrow down 到 那个 知识类、 信息 类 的, 而 不是 娱乐 类 的对, 我们 先 把 娱乐 类 的 先 放开。 知识 信息 类 的, 像 刚才 说 的 演讲, 教学 等等, 它 其实 也不 窄 了, 有 好多 的 可能性 了。 我想说 我们 先 能不能 把 这件 事情 能够 做好, 成为 大家 真的 是 每天 routine 会 想 起来 用 的 这么 一个 助手。 就 好像 说 我 只要 是 看到 一个 视频 的 博主, 某 一个 有意思 的 演讲, 某 一场 科技产品 的 发布会, 我 就 自然而然 的 会有 一个 想法, 说 我 放到 通义 听 悟 里面 去 消费。
而且 我 认为 这样的 消费 是 顺其自然, 而且 给我 带来 了 真正 的 阅读 上 的 愉悦 的 价值 的。 一个 是 省 了 时间, 我 不用 看完, 或者 是 他 总结 的 特别 好, 我 能够 更好 的 了解 这个 内容。 又 或者 它 变成 了 我 personal 的 一个 存档 archive, 我 时不时 的 就能 再 回来 search, 就是 找 回来 我 原来 听 过 的 一些 东西。 先 达到 这 样子 的 一个 可能 的 一个 里 所谓 的 里程碑。
在 这个 里边 其实 已经 我 就像 刚才 讲 的, 已经 问题 够 难, 而且 产品 的 挑战 也 够 大 了。 至少 我们 现在 还没有 成为 这么 一个 大家 routine 在 使用 的 东西, 对, 希望能够 更快 的 成为 它 对 吧? 拿 这次 我们 新 做 的 这个 feature, 就是 这个 P P T 提取 来 举例, 也是 这么 一个 典型 的 例子。 就是 这个 跨界 其实 也 蛮 大 的, 只是 因为 我们的 用户 反馈, 就是说 他 看 很多 这个 课程 老师 就是 对 着 这个 P P T 来讲 的。 但 讲完 以后, 我 觉得 这样 按 你们的 这个 语义 分割 并 不好。 我希望 按 P P 的 这个 页面 来 分割, 每个 页面 讲 了 什么 呢? 你 帮 我们 总结 出来。
这 又 给 了 一层 输入。
对对对, 所以 其实 这就是 一个 需要。 但是 这个 跨界 蛮 大 的 原因 是 之前 我们 只 涉及 到了 语音 AI 语 那个 语义 A I 现在 要 做 这个 事情 是一个 视觉 A I 了。 对, 但是 好在 就像 刚才 说 的, 现在 我们的 A I 的 模型 model scope 上 哪个 模态 的 模型 没有 呢? 都有。 那 今天 本身 的 视觉 的 embedding 到 视觉 的 抽取 这件 事情 也能 做 的 相当 的 不错 了。 那 我们 就 很快 的应 这个 需要 就 把 有关的 视觉 的 模型 也 integrate 到 这个 产品 来。 然后 跟 刚才 的 语音 和 语义 的 A I 融为一体, 就 提供 这么 一个 功能。 相信 有 机会 的话 就能 帮 到 说 通用 视频 场景 里边 的 这种 P P T 讲解 的, 或者 这种 类型 的 讲解 的 这个 消费 就会 变得 更 直觉, 更容易。
包括 像 之前 我在 B 站 可能 看 一些 老师 的 一些 课, 可能 有的 就是 板书 对 吧? 那就 板书 之类 的 或者 P P T 对 之类 的。 它 可能 画面 的 信息 不是说 时刻 都在 变化 的对, 但是 他 可能 有 一些 固定 的 环节 或者 那个 章节? 你 就能 比较 好的 拆分。
没错。 同时 消费 还不 只是 这个 P C web 端的 这种 消费, 也有 移动 端, 也有 各种各样 的 学习 的 场景。 我 简单 讲 一下, 倒 不是 来说 这个 产品 本身, 我只是 想 这个 背后 的 逻辑 就是说 围绕 大家 的 在 消费 场景 里面 的 各种各样 的 真正 的 用户 场景 和 使用 场景, 我们 来 做好 有关的 这个 产品 的 服务。
比如说 有的 同学们 就是喜欢 开 一个 视频 网站, 一边 看 一边 去 学。 其实 这次 在 这个 视频 网站 你 就会 打开 那个 浏览器, 对 吧? 那 这次 那个 浏览器插件 的 这个 子 产品, 就是 干 这件 事情 的。 就 等于 你 唤起 它, 然后 他 把 您 看到 的 这个 课程 的 全程 音频 内容 给 它 记下来, 录下来。 然后 也是 提供 所有 听 悟 通义 听 悟 的 理解 的 能力。
好, 包括 咱们 这次 还有 这个 移动 端的 首次 的 正式 的 推出。 就是 未来 会 做到 一种 体验 是 说 您 可能 看到 一个 视频, 你 从 E C 上 把 它 upload 上去, 你 就可以 去 干 别的 事情 了。 等 过 一会儿 通义 听 悟 把 它 分析 好了 以后, 咱们 在路上、 在车上、 在 地铁 里 随时随地 翻出来, 就是 用 这个 空闲 的 时间 就 把 这个 内容 给 消费 了。 就有 这么 一种 体验, 在 移动 端 也可以 发生 了。
对 那 听 物 这个 产品 现在 在 整个 通义 大盘 当中, 它是 一个 什么样 的 位置 呢? 或者说 它是 一个 什么 协作 模式 呢?
明白, 我我我 想 这么 来 回答, 就是说 通义 其实 有 好几层, 我 觉得 第一层 是 它 模型 层, 就是 例如 说 您 看到 的 这个 像 万象、 千 问 为 代表 的 一系列 的 跟 这个 大 模型 有关的 模型 本身。 做 这部分 的 同学 可能 更多 的 是 偏 研究者 和 算法 的 同学 为主, 他们的 任务 清晰 定义 的对 吧? 就是 提升 这个 模型 的 效果, 用 更好 的 数据 训练 出 更 聪 打 个 引号, 更 聪明 的 以及 更 能干 的 这个 模型 出来。
在 这个 模型 层 的 上 一层, 我 觉得 会 是 我们 可以 去 思考 它的 这个, 把 它 变为 模型 服务。 模型 服务 它是 一个 有点 像是 一个 工程 的 东西。 但是 今天 在 大 模型 的 年代, 这个 工程 可不 简单。 它 涉及到 成本, 涉及到 弹性, 涉及到 fine tune。 因为 原来 只是 inference, 现在 更多 还有 find tune 对 吧? 等等等等 的这 这 一层, 所以 这 一层 会 是 叫 模型 服务。
我 老 打 一个 比喻, 模型 好 比作 是 卫星, 模型 服务 好比 做 是 运载火箭。 这 两个 东西 结合 在一起 以后, 才能 把 这个 卫星发射 出去, 产生 这个 价值, 对 吧? 这 两个 东西 都是 我们的 基础设施。 实际上 好, 接下来 慢慢 会 到 应用层 了, 开始 有 基础设施, 没有 任何 应用 的 属性, 它是 journal 的 应用层。 我们 现在 明显 的 看到 有 好些 像 我们的 这个 企业 专属 大 模型 这个 部分 就是说 怎么能 把 刚才 讲 的 这些 模型 基础 应用 到 一个 行业 里面 去, 应用 到 一个 企业 里面 去, 产生 他在 那个 垂直 场景 下 的 价值。
这 一部分 是 非常 我 觉得 我们的 探索 也是 非常 热烈 的, 有点 百花齐放。 因为 行业 众多, 行业 的 问题 也是 五花八门。 到底 哪些 是 适合 用 大 模型 作为 一个 手段 来 解决问题, 来 创造 价值。 这个 部分 的 探索 阿里 在 做, 全社会 我 觉得 也 在 做, 阿里 的 客户 也 在 做, 很多 时候 形成了 一种 场景 应用 到 本身 的 这个 落 技术 落地 的 团队 之间 的 一种 联动。 这个 是 大家 今天 探索 的 如火如荼 的。
刚才 这个 分类 我 觉得 或多或少 有点 偏 弊端, 它是 不 直接 面向 consumer 的那 在 to c 端 就是 大家 看到 的 就会 回到 您 的 问题, 就是 通义 听 悟 万象、 通义 千 问 的 那个 聊天 的 那个 chat 对 吧? 那 这 几个 产品 就是 我们 C 端的 一个 触角, 就是 直接 的 跟 我们 C 的 用户 产生 刚才 讲 的 交互。 所以 从 体系 上 来讲, 我 总结 一下, 下面 有 模型 层, 模型 服务 层。 上面 有 我们的 以 企业 专属 大 模型 为 代表 的 这个 to b 的 一系列 的 产品, 以及 我们 to c 的 像 通义 千 问 chat 通义 万 相通 义 听 悟, 这 一系列 的 to c 的 触角。 明白。
就 我可以 理解, 其实 除了 对 to c 的 这个 产品, 你们 可能 to b 就 通过 阿里云 服务 的 客户 有 一些 服务, 同时 你们 自己 也 在 提供 给 其他人。 比如说 他 想 用 听 悟 背后 的 这些 技术, 对 提供 给 他们 这些 服务。 没错 没错, 明白 没错。 对, 就 感觉 现在 我 理解 第一个 问题 的 回答, 大概 就是 可能 我们 有一个 愿景, 而且 想 往 哪个 方向 去 是 相对 比较 明确 的 了。 这个 路径 当中 就是 以 一个 相对 开放 的 心态。 比如说 现在 大家 而且 都是 实际 反馈 的 需求, 大家 可能 像 刚才 说 的, 很多 人是 在 看 视频, 那 我 就有 一个 浏览器插件 在 P C 端, 在 外部 端, 大家 有 这个 P P T 去 分 章节 的 需求, 我 就 先 做 这个 去 补充, 然后 继续 收集 用户, 让 大家 先 用 起来。
我 觉得 志 杰 老师 前面 说 的 日常 这个 词儿 特别 好。 就是我 前段时间 当 大 模型 大 语言 模型 火 的 时候, 其实 整个 行业 包括 媒体, 像 互联网 圈、 创投圈, 大家 都都 沸腾 了, 都在 聊 这个 东西。 但是 到 后来 你 会 发现 很多人 在 用, 甚至 有 一些 高频 用, 它 主要 就是 娱乐 或者 就是 试试看 玩, 但是 最后 能 落到 日常 的 场景 里 的 非常少, 就 可能 只有 一些 局限 的 场景。 比如说 学术 领域 就 很多 大学生 的 很多 博士生, 他们 可能 用 这个 就 直接 用 ChatGPT 或者 怎么样 它 去 使用。 那 可能 比如说 对 我们 主播 来说, 我们 可能 比如说 我 日常 就有 的 时候 会 用 听 悟 去 做做 这个 转 文字, 去做 进一步 的 处理。 但是 除了 这些 场景, 其实 对于 普通人 来说, 还没有 到 一个 能 真的 日常 去 用 的 一个点。 没错, 对。
在 科技 圈 我 觉得 这 样子 的 hype moment 是 层出不穷 的, 就是 大家 容易 忘记, 对, 就是 吹 过 的 牛皮。 对, 真正 能够 在 您 讲 的日常 能够 被 实现 的 凤毛麟角, 可能 也是 一个 健康 的 过程。 就是 先 有 泡沫, 对, 然后 到达 hip 的 顶峰。 对, 然后 最近 最后 慢慢的 潮水 退去, 趣味 纯真 对 吧? 对, 真正 大浪淘沙, 把 这个 真正 的 金子 能够 逃出来。 我 觉得 我也想 反过来 问 您 的 问题, 您 平常 手机? 用 手机 语音助手 的 次数 多 吗? 用来 干嘛?
倒 不是 特别 多, 不是 每天 用, 但是 偶尔 会 上 闹钟 和 倒计时, 对 吧? 就 这 几个 场景。 对对对。
但是 曾几何时, 这 样子 的 功能, 我们 说 我们 希望 它 成为 互联网 的 下一个 入口。
是 智能 音箱 和 对 智能助手。
对对对 吧, 有 想法 是 好的, 大胆 假设, 因为我 是 做 技术 的, 也 不是 做 商业 的, 也 不是 做 这个 什么的。 所以说 我自己 的 视角 会 比较 顺其自然 的 来 看待 这个 问题。 一定程度 上 我 甚至 会 认为 这 不是 以 我们 人的 意志 为 转移 的。 对人 可以 去做 实验, 但是 实验 的 结果 很大程度 上 不是 靠 人的 努力 能够 完全 来 改变 的。 对他 真的 是一个 自然而然 的 一个 日常 的 一个 过程。
对我 就是 志 杰 说 的 特别 好的 一点 是你 像 我 做 产品 经理, 我们 产品 经理 其实 也是 做 实验, 只不过 对 最后的 反馈 不是你 说了算, 是 市场 说了算。
对, 或者 是 我们的 运营 数据 和 对 最后 数据 的 数据 说了算。 对, 没错, 其实 我们 训练 模型 也是 一样, 就是 优化 过程, 就是 站在 你 模型 当前 的 这些 preventers, 然后 你 有一个 objective function, 然后 你 朝着 你的 objective function 走 一步, 然后 再看 训 所有的 大小 模型, 也就是 这么 一个 过程。 但 这个 你 未必 真的 是 能够 一下 到达 那个 global 的 那个 optimal。
所以 这个 是我 觉得 做 技术 和一 一部分 做 产品, 大家 比较 我 我 觉得 比较 认可 的 一点 就是 最后 拿 数据 说话 对 吧? 最后 拿 真的 是不是 落地 说话, 而 不是说 你 靠 故事 说话。 对。
这里 边 真正 的 学问 不在 故事, 因为 一旦 时间 拉长, 所有的 故事 都会 水落石出 的。 是 真正 的 学问 在于 创新 的 速率, 就是说 要 有一套 比较 好的 一套 A I 的 创新 的 一套 体系 跟 方法, 使得 我们在 given 一个 fixed 的 amount of time 里边, 你 做 实验 的 次数 可以 更多。 就 好像 我们 吹 模型 对 吧? 用 CPU1段时间 里, 你 迭代 的 次数 就会 小于 G P U, 所以 今天 G P U 很 火, 对 吧? 是 其实 放在 做 产品、 做学问、 做 研究 可能 也是 一样。 是 其实 就是说 你 有没有 一套 办法 能够 在 given 一段时间 你 尝试 或者 叫 试错 的 这个 机会 更多。 同时 你 试错 的 成功率, 因为 你的 这套 体系, 你 会 slightly 比 乱世 的那 那个那个 试 的 方法 会 slightly 增加 一点 成功 的 概率, 然后 剩下 的 交给 时间。 我 觉得 这件 事情 是 真正 的 功力 所在, 不 在于 那个 故事。
对我 觉得 这 是一个 特别 好的 思路 和 理念。 它 就 不仅 是 说 指导 技术, 甚至 指导 AI, 甚至 可能 是 其实 指导 的 是 我们 做事 的 各种 方式。 对, 就 做事 的 方式 不是你 哪天 大家 经常 看 武侠小说 里面 面壁, 对 吧? 突然 想到 一个 主意, 这个 一定 就 厉害 了, 一遍 就 火 了。 没错, 武林高手。 而是 你 反复 的 去做 这个 事儿, 对, 反复 试错。 对对对。
如果 真 有 那样的 lucky 的话, 那 不应该 再做 这个? 技术 产品 或者 我 这边 可以 买彩票, 买买 股票, 买 很多 东西 对 吧? 是是是, 都 可以。 那个那个 就是 back on 你的 buck.
我 觉得 是 这个 甚至 是一个 人生态度, 就是你 并不是 找 一个 一蹴而就, 或者说 这一下 就能 搞定 的 一个 方式。
对对对, 因为 我 个人 也 经历 了 很多 所谓 的 A I 技术 的。 这个 虽然 有限 的 职业生涯 的 时间, 对, 就是我 我 毕业 的 时候, 严格 说 做 所谓 什么 语音识别 这些 所谓 的 现在 教 A I 技术 的 人是 找不到 工作 的。
是是是 就是。
因为 它 只有 少数 的 几个 真正 的 世界级 的 大厂, 对他 需要 储备 并且 研究 这些 当时 遥不可及 的 技术。 那个 时候 因为 它的 准确率, 语音识别 准确率, 什么 语音 合成 的 自然 度, 离 所谓 的 大众 日常 的 应用 那 差 太远 了。
我我我 记得我 当时 实验室, 我们 R P 实验室 其实 毕业 的 大部分 都是 去做 工程, 而 不是 做 算法, 对 吧? 就是 当时 没有 这种 需求, 确实。 对对对, 就 刚才 你 讲 的 时候, 我 就在 想 一个 问题, 也是 我 跟 身边 朋友 都在 思考 的 一个 问题是 类似 比如说 有一个 助理, 或者说 我们 不 叫 助理, 就 任何 这种 做 文摘 的 场景, 做 总结 的 场景。
这 里面 可能 面临 一个 问题是, 比如说 比较 严肃 的 一些 资料 或者 数据。 比如说 刚才 您 举 的 例子 像 财报 或者 什么样。 比如说 我是一个 炒股 的, 我是一个 基金经理, 我想 让 他 帮 我 整理。 但是 这 里面 就有 准确度 的 问题。 就 哪怕 他的 准确 出 误差 的 概率 是 1%, 但是 这 一个点 万一 被 我 碰到 了, 我 把 这个 数据 看 错了, 我 把 这个 财报 看 错了, 最后 这个 造成 的 影响 可能 是 非常 严重 的。 所以 现在 很多人 在 相对 严肃 的 一些 数据 或者 文字 的 处理 上, 还 是不是 特别 相信 这个。 你 觉得 这个 会 是 一 可 解决 的 吗? 或者说 你 怎么 看待 这个 问题?
自己 其实 也 在 琢磨 这个 问题, 而且 最近 也有 一些 新的 体会。 先 讲点 好玩的 题外话, 就是我 觉得 人的 成见 真的 是 根深蒂固, 特别 在 大 模型 上面。 其实我 我 老 坦率 的 说, 我 现在 是 不相信 任何 大 模型 的, 虽然 我 跟 这个 行业 有关, 开 个 玩笑, 解释一下, 希望 大家 也 不要 断章取义 的 去 理解 这个。 就是说 我 觉得 人 天生 有 感觉, 一旦 有一个人 打 引号 的 人 跟 你 糊弄 过, 或者 丢 过 你 一回, 你 永远 不会 再 相信 他 了。
这个 事情 映射 到大 模型 很 切题, 就是 大家 得 承认 或多或少 现在 世界上 的 各种 大 模型, 大家 讲 什么? 这个 叫 一本正经 的 胡说八道, 对 吧? 或多或少 当你 跟 他 聊过 100次1000次以后, 会有 一次 他 会 说错, 他 也 不是故意 的对 吧? 是, 但是 因为 它的 这个 模型 的 对齐 的 原因 或者 别的 一些 原因, 他 会 告诉你 一个 错误 的 事实。 而且 说 的 这个 义正言辞 严 的 这个 对 一本正经 的。
然后 我 觉得 很很 有意思 的 是, 心理 上 你 会 产生 一个 感觉, from now on 未来 他 达成 所有 东西 你 都会 give a second thought。 那 对你 会 觉得 这个人 的话 可能 有些 问题, 对 吧? 这 是人 从小 根深蒂固 的 一个。 就是 你说 一次 谎, 可能 你 就 会对 说说 很 多次 谎。 但是 他 毕竟 不是一个人, 是 他 不是 他他 不是 诚信 问题, 他 真的 是 能力 问题, 怎么 解 这个 问题 呢? 包括 听 物 这个 产品 一定 也会 遇到 这样 问题。 虽然 我们 现在 还 只是 基于 你 原汁原味 的 内容 总结, 我们 不会 去 发散。 那 未来 我 觉得 可能 会有 相应 的 功能 会 出来, 一定 也会 面临 同样 的 用户 对 我们的 这 样子 的 挑战。
我 觉得 在在 今天 的 这个 技术 条件下, 这个 reference 或者 叫 cat 这件 事情 可能 是 可以 来 缓解 这个 焦虑 了。 就是说 每一个 大 模型 给出 的 关键 的 一些 信息点, 他 要 同步 的 给出 他的 这个 reference 在哪里。 就像 我们 写 论文 要 set 一个 paper 一样, 他 需要 把 观点 类 的、 事实 类 的 东西, 他 需要 把 同步 的, 我 从 哪里 知道 这个 东西 能够 列出来。 然后 这样 可以 帮助人 做 一个 筛选 和 甄别。 By the way, 即使 在 人类 的 世界 里, 对 同一个 事情 的的 认识 可能 也是 有 两拨 人的, 吧? 你说 加冰 的 好喝, 他说 不 加冰 的 好喝, 都 有可能 对 吧? 但是 没有关系, 我 觉得 从 助理 的 层层 面, 他 理解 完了 这个 以后, 他 有 自己的 观点 也 没问题, 他 能 告诉你 有 两种 观点 也 没问题, 最好 给 一个 reference。 对 呃 我 觉得 这个 是 在现阶段 可能 能够 来 缓解 刚才 讲 的 这个 问题 的 一个 产品 上 可能 可以 做 的 一个 处理。
就是 刚才 和 我们 聊 的 这个 话题, 我 其实 最近 一直 在 想 有一个 思考, 就是 A I 或者说 大 模型 大 语言 模型, 它 其实 是一个 技术, 它 不是 最终 呈现 的 产品。 就是 那个 对话框, 你 跟 他 聊天, 那 不是 就是 唯一 的 使用 方式。 对, 他 其实 就像 刚才 说 的, 你 不是 专门 做 N R P 的, 其实 是 做 语音 技术 的 一个 专家。 你 看到 大 语言 模型, 你 就 突然 感知 到 它 能 结合 的 非常 大 的 机会, 能 迅速 落地 到 很多 各种各样 的 场景。
我 觉得 这个 就是 有点像 什么 呢? 我 最近 在 想 它它 是一个 技术, 它 可能 就是 python 对 吧? 就是 python 出来 之后, 没错, 他 可能 并 不是说 人人 都 用 python 或者说 python 有 多 牛逼。 而是 python 结合 了 很多 产品 之后, 他 就能 创造 比 以前 的 语言 更有 价值 的 地方。 是的, 对我 觉得 它是 一个 底层。 对, 这个 是我 觉得 比较 有意思 的 一个 思考。 就是 既 不要 因为 现在 他 做不到 的 一些 东西 就 否认 他, 也 不要 觉得 他 就是 能 解决 一切。
对, 完全同意。 现在 其实 整一个 我 认为 今天 整一个 大 模型 的 应用 的 发展 阶段, 其实 还在 选题。 对, 看到 了 曙光 还在 选题, 都在 摸 场景。 对, 压根儿 还没有 特别。 当然 不能说 完全 没有, 应该 反过来说 是 仅 有 少数 的 或者 是 极少数 的 几个 功能 也好, 场景 也好, 真正 已经 走向 我们 刚才 讲到 的日常 了。 我 觉得 还是 有 挺 多 的 很 好的 潜力 有待 我们 去 挖掘 的这 是 一件 好事儿。 所以 大家 不要 期待 这件 事情 可以 瞬间 transform 对 吧? 很多 东西, 但是 这件 事情 一定 会 到来。
OK 那那 我们 就是 在 刚才 聊 的 是 比较 近 的 这些。 如果 再再 远 一点, 你 会 觉得 长期 看 那个 A I 它 能 创造 的 价值 是 像 大家 之 前提 的 那种, 是真的 就是 个人 助理。 不光是 在 内容 上, 在 各种 方面 可能 都会 融入 大家 生活。 这个 你是 会 我。
觉得 保持 一个 比较 乐观 的 态度, 同时 又是 一个 求索, 或者说 顺其自然 的 一个 态度。 就 回到 我们 刚才 讲 的那 一段, 比如说 我们 拿 微软公司 来说, 他 现在 这个 co pilot? 那 展示 出来 的 功能 是 非常 让人 兴奋 的。 打 个 引号, 都 上了 年纪 的 人 应该 会 记得 有 个 叫 回形针 的 一个 office 里边 的 一个 形象, 对 吧? 对对对, 你说 这个 是 office 多少? 对, office 95眉笔。
对, 很早 那个 时候, 对, 就 word.
里面 其实 当年 那个 老老 的 土土 的 那个 回形针, 他 想做 的 事情 跟 今天 没有 任何 区别。 对, 只是 受限于 当时 的 历史 条件, 他 做不了, 也没有 形成 日常, 然后 他 就 退休 了。 所以说 我 觉得 助理 这件 事情 一直 是 人们 孜孜以求 的对 A I 的 这个 愿景 更老 一点。 星球大战 的 电影, 里面 的 那个 机器人 也是 星球大战 里面 的 助理 吧? 对, 其实 这些 都是 助理。
助理 这个 问题, 我 觉得 从 科幻 一直 到 我们的 老百姓 的 认知, 这个 问题是 well define, 而且 一直 存在, 而且 年 存在 的 年代 远 比 大家 认为 的 要 长。 帮你 翻译, 帮你 做 处理 一些 日常 的 一些 事物, 帮你 订 一个 餐厅 等等等等。 这个 问题 本身 well define, 而且 这个 被 提出 已经 隐藏 历史 了。 我 觉得 这个 助理 本身 要 实现 当然 就是 智能 的。 如果 他 不是 一个 真的 秘书, 那 他 一定 就是 artificial 的。 所以 基本上 就 讲 明白 这个 东西 的 这个 逻辑 了。 对, 有朝一日 会 成功 的, 希望 他 更 早 到来 而已。
对 其实 像 我们 去 让 助理 去做 很多 事情, 这件 事儿 本身 没有 那么 难。 因为 互联网, 因为 各种 技术 的 发达, 但是 意图 的 捕捉 这 一步 始终 是 比较 难 的。 就是 以前 他 没没 做到 这 一步, 那 这 一步 现在 看起来 是 有 机会 被 填上。
因为 现在 慢慢 有些 其中 有 个 debate, 到底 是 你 更 了解 你, 还是 假设 如果你 有一个 助理 哈他 更 了解 你, 你的 家人 更 了解 你。
还是 数据 更 了解 你我。
觉得 慢慢 会有 一些 人, 现在 说 大 数据 比你更 了解 你, 对 吧? 这 同样 是 另外一个 曙光, 我 觉得 今天 真的 是 有可能。 所以 我们 刚才 讲到 的 真人, 他 看到 的 数据 毕竟 是 有限 的, 你的 个人 的 数据? 但是 大 数据 可能 看到 了 很多 不一样的 更多 的 一些 东西, 包括 跟 你 相似 的 人。 所以 一定程度 上 AI 更 了解 你 这件 事情, 觉得 真的 可能 是 可以 发生 的 了。
对, 尤其 前面 说 的 那个, 也是 我 之前 一直 在 想 设想 的 一个 场景。 就是 内容 消费 上 其实 以前 受限于 技术 条件, 或者说 其实 很多 音视频 如果说 文字 相对 还好, 文字 或者 书籍 因为 它是 比较 好 检索 的, 它 有 各种 标签。 但是 对于 很多 音视频 或者说 你 有 一些 复杂 条件 的, 就 比如说 我 接下来 有 2个小时 比较 空闲, 我想看 部 电影, 那 这个 电影 我想看 一些 轻松 一点 的。 然后 同时 又是 在 我 一个 之前 想 看 的, 比如说 待 看 的 一个 列表 里 的那 这个 其实 之前 大家 都 得 自己 去 完成, 自己 去做 判断, 自己 可能 还要 搜搜 半天 去去 刷 很久, 包括 说 我 接下来 想 看 一些 什么 短 的 内容 等等 的 各种 视频, 或者 上上 哪个 老师 的 课, 我喜欢 什么样 的 东西。 这种 它 就 变得 如果 变得 可 检索, 那就 这个 事儿 真的 是 非常 感觉 非常 的 有趣, 非常 有意思, 也 非常 有 价值。 是是是 同意。
对, 就是 有点像 早期 R S S 对 吧? 那个 时候 它 不够 智能, 其实 是你 手工 自己 去 订阅。 是 但是 未来 是不是 有 机会 他 帮你 筛选, 就 全网 的 这些 信息 我 帮你 筛 一档, 没错, 对。
这个 会 非常 好, 没错。 所以 我相信 这个 也是 您 看 大 模型 出来, 可能 最受 商业 上 最受 震撼 的 是 搜索引擎 公司 排名 靠 前, 对 吧? 他 其实 本质 上 也是 在 想说, 这个 技术 会不会有 颠覆性 的 全新 的 找 资料 的 这个 搜索 的 体验 可能 会 出现 所以 几家 search engine 的 公司 会 特别关注 这个 模型。
OK 我问 一个 比较 好奇 的 技术 上 的 问题, 就是 对于 大 模型 来说, 大 语言 模型 大家 都 知道, 就是 芯片 很贵, 对 吧? 然后 可能 训练 的 成本 也 非常 高。 但是 现在 坊间, 就是 市面上 大家 也有 一种 说法 是 说, 其实 是 可以 用 一些 低成本 的 方法 也 做大 语言 模型。 但是 他 可能 那个 大, 就是 相对来说 肯定 小小 一些。 那 这样的话, 其他 的 中小 团队 也有 机会, 或者说 垂直 领域 也有 机会。 在 某些 场景 下, 因为 刚才 你 也 提到 你们 在 做 很多 具体 场景 的 探索, 你 觉得 这个 是 有可能 的 吗? 还是 说 未来 就是 全部都是 大 模型 的 天下?
我 其实 通过 这些年 的 经验 和 过去 的 一些 历程, 我会 这么 来 想 这个 问题。 第一 我们 绝不 纠结 手段, 无论 它是 大 或者 小。 这个 问题 无非 都是 回到 一个 精度 和 成本 之间 的 一个 吹 到 真正 在 应用 层面, 研究 层面 我们 按下不表。 研究 层面 是 开放 的, 但是 一旦 到 进入 应用 层面, 永远 不会 逃离 这个 精度 和 成本 这 两个 维度 的 trade off。 所以 在 这个 意义上讲, 我们 就 不会 去过 多 的 纠结 它 背后 到底 是 绝对 的 大 或者 绝对 的 小, 所以 这是 第一个 观点。
第二个 的 观点 就是说 历史上 其实 反复 都在 重演 一件 事情。 不论是 摩尔定律 或者 什么的, 十年 前 的 大 模型 就是 今天 的 小 模型, 或者 换句话说, 今天 的 小 模型 也是 十年 前 的 大 模型。 是 所以 随着 技术 的 特别是 算 力 的 发展, 一定 会有 更大 的 模型 会 出来。 我 认为 今天 的 大 模型 也会 变成 小 模型, 一定 会 朝着 这个 方向 去 发展 的。 所以 大家 当 看到 历史, 看到 精度 和 成本 之间 这个 trade off 以后, 我 觉得 大家 不再 更多 的 去 纠结 本身 的 这个 大 或者 小的 绝对 的 数 了。 会 回到 但凡 做 应用, 我 觉得 什么 手段 能 真的 能 解决 您 的 问题, 什么 手段 将将 能 解决 您 的 问题。
甚至 还有 奥卡姆剃刀 的 这个 理论, 对 吧? 当 这个 工具 已经 powerful 的 能 解决 你的 问题 的 时候, 你 一定 选择 更 简单 的 那个 东西。 所以 我会 这么 去 看 这个 角度。 明白。
我问 最后一个 问题。 就现在 当然 我们 前面 说 对 A I 能够 融入 我们的 日常生活 是 乐观 的。 但是 也有 一些 朋友 可能 比较 悲观 或者说 比较 担忧。 就是 A I 在 尤其是 渗透 进 一些 办公 场景 之后, 大家 的 就 可能 有 一些 工作 就 被 替代 掉了。 包括 OpenAI 自己 团队 之前 也 发 过 一篇 关于 劳动力市场 的 可能 会 被 替换 的 这种 论文。 那个 论文 里 也 提到 可能 很多 工作 会 面临 比较 大 的 影响。 这个 事儿 你 会 怎么看? 你 对 最后 造成 的 影响 是?
我看 那个 媒体 上 大家 也是 各 持 双方 观点 的。 就是 有的 会说 之前 每次 技术 迭代 它 会有 一个 过渡期, 但 过渡期 之后 大家 还 会有 新的 更多 的 工作 出来, 大家 是一个 乐观 的那 有的 会说 是 相对 比较 悲观, 因为 人 能 做 的 事儿 越来越少 了。 对, 就是 这个 你是 怎么看 的?
我 个人 会 比较 赞同 您 讲 的 前面 一个 观点。 就是 经济 活动 的 本身 就是 在 不断 的 提高效率 的 这么 一个 过程 当中, 就是 劳动生产率, 对 吧? 那么 拉长 了 时间 来看, 我相信 是 会 在 一部分 可能 工作 被 替代 掉 的 同时, 更多 的 工作 和 更 富 创造性 的 工作 会 涌现 出来 是 会 涌现 出来 的。 新的 我们 现在 可能 完全 无法 想象 的 一些 经济 里边 的 一些 形态 会 出来。 就 好像 当 只有 第一产业 的 时候, 可能 经济 基本上 增长, 就是 跟 人口 成正比。 那个 时候 不会 想到 有 工业, 有了 工业 以后 不会 想到 还有 服务业。
再 回到 客观 的 说, 对 个体 对 短期 的 阵痛 会不会 存在? 一定 会 存在 的。 人类 社会 就是 这么 去去 滚滚 向前 的。 这件 事情 也 同样 我 觉得 可能 也 不是 本身 我们 回到 他是 给 人类 整体 创造 了 更多 的 福祉, 还是 不适 的 这个 角度。 去 把 不适 的 那个 部分 去 减缓 他的 阵痛 的 那个 部分, 去 更多 的 去 扩大 它的 带来 的 价值 的 部分。
这里 边 也 一定 不是 一蹴而就 的, 或者说 是一个 断崖 式 的 剧烈 的 变化。 甚至 不是 技术 单一 能够 去去 解决 的 问题。 这个 里面 有 治理, 有 我们的 社会 层面 的、 人文 层面 的, 很多 的 因素 叠加 起来 一起来 做 这件 事情。 我 觉得 靠 我们的 经验 也好, 或者说 过去 技术革命 或者 技术 发展 带来 的 这些 历史上 的 学习 也好, 我 觉得 对 处理 好 这件 事情 应该 是 乐观 的。 今天 毕竟 还是 有 很多 对 人类 来说 特别 有利 的 因素, 今天 使得 我们 有 资源 来做 这件 事情。 比如说 大家 可能 没有 意识到 一个 问题, 就是 光是 能 吃 饱饭 这件 事情, 其实 没有 多少 年 的。
对对对。
其实 基本 的 温饱 这件 事情, 今天 的 人类 整个 社会 比 100年 前 所 拥有 的 资源 应该 是 不成问题 的 问题 了。 其实 解决 了 温饱 是个 很 伟大的 事情, 但 其实 就有 机会 有余 量 要 做 更多 的 别的 事, 来 把 技术 带来 的 这些 冲击 解决 的 更好。 这 在 以前 大家 连 温饱 都 没 解决 的 时候, 就是 有人 会 因为 这件 事情 而 死亡。 那 今天 人类 社会 的 资源, 我 觉得 解决 这个 问题 只会 比 以前 更容易, 或者说 更更 缓和, 或者说 更更 聪明。 不是 因为 智慧 聪明 的, simply 就是 物质条件 更更 充裕 了。
整体 是 理性 乐观。
理 我是 偏 乐观 的, 说白了 就是说 技术 一定 会 发展。 技术 的 发展 总体上 是 好的, 是 给 人类 带来 更多 的 更大 的 福祉 的 新的 机会 和 工作 机会。 各方面 我相信 会 更多 的 会 被 创造 出来, 局部 的 阵痛 一定 会有。 但是 同时 我 觉得 以 今天 我们 社会 的 发展 的 程度, 这些 阵痛 的 解决 我 觉得 是 靠 我们的 智慧, 是 能够 你 过去 解决 的 更好 的。
O K 最后 对于 比如说 现在 在 关心 A I 的 朋友, 你 有什么 建议 或者 有什么 想要 跟 大家 讲 的 吗?
我我我 谈不上 建议 了, 我 觉得 大家 你你你 会 发现 就是 这个 热点 总会 切换, 每一个 技术 本身 总有 起起伏伏, 而且 是不是 说 一波 多次 的 起起伏伏, 对 吧? 可能 是 周期性 的 这种 起起伏伏。 我 觉得 回到 一个点, 因为我 我 本身 做 技术 更 多一些, 我 倒 相对来说 现在 会越来越 平静, 我 觉得 会 比较 拉长 时间 的 看。 这件 事情 既 不会 在 他 高潮 的 时候 过度 的 兴奋, 也 不会 在 他 低潮 的 时候 就 可能 垂头丧气 了, 垂头丧气 或者 甚至 会 离开了, 这个 说 的 不好听 一点, 可能 就是 因为我 只会 做 这件 事情, 也 不会 做 别的 事情, 所以 就会 平静 的 去 思考 说 我们 到底 有没有 给 这个 社会 创造 价值。
而且 我 觉得 你 坚持 这个 事儿, 除了 说 你 会 这个 事儿 之外, 还有一个 你 可能 也 认同 他 长期 的 价值。 你 肯定 是 觉得 虽然 不知道 是 三年 五年, 你 也 没法 预测 去年 那个 大大 语言 模型 但是 你不知道 五年、 10年 还是 什么时候, 但是 你 总 觉得 它是 有 价值 的, 所以 你 才 在 这个 领域 内。
是的, 您 讲 的 很 对。 对, 我我我 觉得 我也 我 这 我也是 这么 想 的。 对我 觉得 所以说 回到 这个 问题 的话, 我 觉得 就是 聚焦 到 价值, 然后 其他 的 交给 时间。
对我 觉得 也是 看待 A I 也是, 如果 你的 工作 确实 你 感觉 被 A I 替代 的 可能性 很高, 那 可能 说明 这个 事儿 比如说 很 机械化, 或者说 本身 创造 的 价值 不够 多, 那么 我们 就 去 想尽办法 去 切换 到 更有 价值 的 事儿 上去。
另外 我 觉得 最后 补充 一下, 我 觉得 大家 也 不要 对 现在 这个 有过 高 的 期待。 至少 从 我 现在 看到 的, 我 仍然 是 会 是 认为 它是 曙光, 而 不是 真的 这个 太阳 当空照 的 那个那个 状态。 对 人类 的 创造力 比 现在 的 我们的 这个 模型 依然 还是 碾压 式 的。 是, 而且 人类 的 那个 创造力 不是 概率 化 的, 或者 这个 就是 叫 最大 似然 估计 的 这 样子 的 那个那个 概念。 人类 的 创造力 是真的 是 创造, 就是 无中生有。 对, 这件 事情 是 不可替代, 不可替代 的 是 OK。
非常感谢 志 杰 对 那个 通义 听 悟 感兴趣 的话, 也可以 体验 一下 听 悟 的 产品。 包括 刚才 我们 也 聊, 你 这边 也是 抱着 一个 心态, 不是说 大家 来 用, 然后 我们 来做 一个 商业 产品。 而是 大家一起来 探索 一下 场景, 有 任何 反馈, 有 任何 需求, 这边 也能 都能 听到, 对 吧?
是的, 好, 非常感谢。
好的, 那就 这 期 就 这 我们 下期 再见, 拜拜。
谢谢 大家, 拜拜。
欢迎 在 小宇宙 苹果 podcast 的 订阅 和 收听 3、 五环, 也 欢迎 在 评论 区 留言 交流, 如果 喜欢 三、 五环 的话, 也 恳请 您 在 苹果 podcast、 spotify 或者 喜马拉雅 留下 你的 宝贵 好评, 下期 再见。
他们说 要 好好活。 活 成 一部 适合 的 电影。 废话 多, 假话 也 多。 别 太认真 说过 的 话题, 我爱你。
失去 也 并 不在意。 我爱你。 失去。 不在意, 总是 在意。 总是 在 无处 去 躲藏着, 才会 更。 伤心。 街 的 荒凉 别 阻挠。 让先 去 自由的 寻找 之后 才会。 属于 你, 我的路。