用 声音。
碰撞。
世界 生动活泼。 Hello, 大家好, 我是 丁丁, 欢迎 收听 全新 一期 科技 早知道。 Hello, 大家好, 欢迎来到 我们 今天 的 科技 早知道。 说到 今年 逆势 增长 的 科技 趋势, 镜头 最 猛 的 就是 AIGC 了。 AIGC 的 全称 是 A I generated content, 翻译 过来 就是 人工智能 内容 生成。 我们 今天 的 节目 分为 上下 两个 部分。 我们 分别 邀请 到了 起源 世界 的 联合 创始人 兼 C T O 龙 海涛 和 科大 讯 飞 A I 研究院 的 副院长 高建 清 两位 来 聊 AIGC 的 话题。 他们 在 这 波 AIGC 热潮 出来 之前, 就 已经 在 这个 领域 耕耘 多年 了。 所以 今天 请 他们 来 聊 一 聊 这个 领域 的 商业化 和 产品 落地, 以及 怎么 平衡 技术开发 创新 和 商业化。 并且 展望 了 未来 的 发展方向, 希望 这 期 节目 能 给 大家 在 AIGC 领域 带来 一些 新的 认知。 好了, 下面 就是 我们 今天 的 节目。 Hello, 龙 总, 你好你好。
你好。
在 我知道 您 一直 是在 A I 这个 领域, 您 大概 帮 我们 介绍 一下 您 的 背景。
我是 13年到17年 是在 阿里, 主要 负责 阿里 的 搜索 广告 系统 的 架构设计, 也是 主导 了 新一代 的 这种 离线 系统, 在线 引擎, 商业化 的 这种 业务 系统 的 架构设计。 当时 高峰 的 时候, 接近 可能 就是 阿里 的 一半 的 收入 都是 跑 在 这个 系统 上面。 16年 双十一 之后, 我们 又 成立 了 一个 叫 认知 计算 实验室 的。 当时 也是 看到 阿尔法 狗 横空出世 以后, 就是 击败 李世石。 然后 当时 对 我们 这些 做 这种 传统 机器学习 的 同学 是一个 很大 的 一个 技术 上 的 一个 冲击。 第一次 看到 就是说 可以 有一个 系统 能够 从零开始, 然后 通过 自我 的 这种 学习, 然后 去 达到 一个 人类 的 一个 水平, 甚至 超过 人类 的 一个 水平。 所以 那 之后 我们 就 成立 了 一个 认知 计算 实验室。 当时 就 选择 用 星际争霸 这个 游戏 来去 研究 这种 复杂 环境 下 的 这种 动态 决策 的 问题。 当时 也是 可能 是 世界上 第一篇 就是 用 深度 强化 学习, 在 这个 星际 这么 复杂 的 环境 里面 解决 当时 是 微操 的 这样的 一个 场景, 当时 也是 发 了 一个 paper, 我们 当时 叫 big net。 然后 17年之后, 我们 就 从 阿里 出来 创业 然后 成立 在 全世界, 目前 在 起源 世界, 我是 担任 C T O, 然后 主要 负责 是 平台 和 产品 相关 的 工作。
一开始 大家 可能 对 起源 的 这个 认知 是在 这个 游戏 的 AIGC 的 领域。 但是 好像 经过 这几年 的 一些 商业化 的 摸索, 其实 现在 起源 也是 扩展 到了 非常 多 的 一些 AIGC 的 其他 的 领域。
是吗? 当时 其实 最早 的 时候 是 发 paper, 是在 这个 游戏 环境。 当时 选择 游戏 环境 来做 这个, 其实 我们 公司 的 目标 是 做 A G I, 就是 通用 人工智能。
其实 通用 人工智能 它 经历 了 有 几个 阶段。 从 最早 其实 像 丁 曼 的 open I 他们 都 是在 像 阿尔法 狗、 阿尔 star, 然后 dota 这样的 一些 游戏 里面 去做 这种 实验, A I 的 决策 能力, 这是 其实 是 第一个 阶段, 我们 叫 A I 决策。 然后 从 G T 开始 的话 就是 往 这个 A I 生成。 这 其实 都 是在 拼 这个 A G I 的 一个 拼图。 A I 生成 这块 就是现在 我们 今天 讨论 的 AIGC 这块 的 文本 生成 的 图像 生成, 那 我们 看到 我们 自己是 有一个 一个 路径 图 的那 A G I 其实 后面 还有 一 块拼图 是 我们 叫 A I 推理。 你 发现 就是说 从 A I 决策 A I 生成 A I 推理, 这样的话 可以 拼出 一个 A G I 的 这样的 一个 拼图。 目前 我们 现在 是在 AIGC 的 A I 生成 的 这个 阶段。
其实 我们 最早 的 时候, 17年 的 时候 是在 做 A I 决策 这块 事情 比较 多一些。 当时 我们 也是 选择 像 星际争霸 这样的 一个 环境 来 去做 我们的 实验。 自然而然 就是 我们 从 游戏 里面 来, 然后 去 应用 到 游戏 里面 去做 商业化, 其实 也是 比较 自然 的 一个 路径。 所以 我们 基于 前面 做 的 这些 A I 决策 和 I 生成 的 这些 能力 的话, 目前 是 在游戏 行业 里面 是 提供了 一些 解决方案。 比如说 这个 虚拟 玩家 就是说 在 一些 游戏 里面 去 填充 一些 生态, 然后 去 做 一些 这种 心理 的 控制。 就 用 一些 高度 智能, 高度 理 人的 这样的 一些 机器人 在 里面, 去做 这种 托管 的 温暖 橘, 去 提升 整个 的 游戏 这种 体验 和 留存。
所以 我们 说 的 N P C 未来 可能 就 不是 代表 了 这个 意思 了。
N P C 对, 还有 N P C 就是 虚拟 角色 这 一块。 然后 这块 的话 主要 就是说 像 一些 语言 的对 画, 然后 他的 一些 剧情 的 发展 推动, 他的 一些 自主 行为, 包括 模拟 出来 一个 小的 这种 小 社会 一样。 这些 N P C 能够 在 里面, 就像 福瑞 盖 一样, 在 那个那个 自由城 里面, 他 自己是 有 自己的 这种 生活 线, 那个 电影 是 吧? 对, 有 自己的 性格。 这个 是 展望 将来, 就是 虚拟世界 的话, 应该 是 会 是一个 这种 数字 原住民 的 这种 概念 的 一个 存在。 这块 也是 我们 重点 在 做 的 一块 内容。 然后 第三块 可能 就是 我们 叫 A I G C 的 这种 设计师 设计师 的话 就 设计 一些 像 这个 关卡 的 这种 生成, 数值 的 生成, 包括 一些 美术 资产 生产 的 整个 游戏 行业 里面 非常 需要 的 这样的 一个。
因为 游戏 它是 一个 高度 的 内容 的 一个 重度 的 这样的 一个 产业。 其实 你 发现 一个游戏 它 开发 个 两年、 三年、 五年 都 是一个 很 常态 的 事情。 其实 大部分 的 时间 都 是在 做 内容, 像 一些 3D的 资产, 场景、 角色 等等。 那 现在 为什么 像 L G C 在 游戏 行业 里面 能够 引起 这么 大 的 一个 震动, 就是 包括 生成 一些 图片。 那 其实 也是 想 这个 东西 可能 是 会对 游戏 产业 有一个 很大 的 一个 推动。 如果说 能够 把 这些 现在 还是 在 2D, 如果 将来 3D资产 也 能够 生成 的话, 那 会 从 原来 可能 五年 时间 变成 缩短 到 一年 时间。 这个 可以 想象 整个 对 行业 的 这样的 一个 对 颠覆式 的 一个 生产 效率。 所以 这个 就是 我们在 游戏 行业 里面 的 一些 商业化 落地 和 技术 的 积累 的 一些 方向。
除此之外, 其实 我们在 向 数字 人 行业 也是 有 一些 尝试 和 商业化 的 落地 的 一个 情况。 因为 之前 大多数 的 做 数字 人的 都是 一些 会 注重 阿瓦 塔 它的 皮 的 这块 的 东西, 就 他的 形象、 姿态 等等 这样的。 但 其实 它 后面 大多数 都是 像 中指 人 或者 是 一些 固定 的 文本 在 驱动 的那 现在 我们是 希望 利用 AIGC 的 能力, 在 数字 人 里面 的话 去 取代 这些 真人, 或者 部分 取代 这些 真人, 然后 用 A I 的 方式 去 驱动。 这 里面 就 包括 像 这种 表情 的 这种 驱动, 然后 他的 口型, 他的 一些 肢体 动作, 然后 包括 对话 系统。 那 这块 的话 我们 就 希望 能够 有一个 7乘24小时 都 可以在 用 A I 来 驱动 的 这样的 一些 形象。
因为 我们 其实 在 节目 当中 之前 聊过 一些 海外 的, 像是 GPT three, 然后 包括 lambda 最近 其实 都是 蛮 火 的。 但 它 其实 只是 这个 AIG4 的 一小部分。 其实 游戏 里 他 刚刚 您 讲 到了, 其实 涉及 的 是 非常 广泛 的。 可能 这个 游戏 里面 的 虚拟人, 这个 虚拟 玩家, 他的 生成 的 对话, 就是 一个 文本 的 生成, 对 吧? 然后 他 可能 我们 现在 看 的 像是 更多 的 这些 图片 的 生成。 可能 刚才 讲 的 其实 在 设计 这 一块, 其实 已经 是 二弟 的 这样的 A I 的 生成 已经 在 使用 了, 是吗? 所以 可能 游戏 是 其实 是 集 各种 技术 大成 的 这样的 一个 应用 的 场景。
对 游戏 的话 包括 数字, 我们 跟 一般 的 A G C 的 一些 方向 可能 还 不太 一样。 它 区别 主要是 在 两点, 第一点 就是说 大多数 的 I G C 目前 它 都 是一个 单 模态 的 这样的 一个 方向。 比如说 我 就 专注 在 文本 对 吧? 比如说 jasper A I 国外 的 一个 公司, 它 就是 帮助 这些 创作者 去 辅助 生成 一些 文案, 包括 像 营销 文案、 广告文案 这样的, 有些 是 纹身 图 的 这样的 一些 公司 对 吧? 它 就是 生成 一些 图片, 像 stable division 这样 些 公司。
其实 我们是 偏向 多 模态 的。 刚才 讲 的 文本、 语音、 表情、 肢体 动作、 行为 决策 等等。 这些 东西 集成 到 一个 我们 叫 A I 鼻影 的 这样的 一个 新物种 了。 背后 的话 是 通过 这个 A G I 或者 A I G C 的 这样的 技术 来去 驱动 的。 它 表现出来 是 一个多 模态 的 这样的 一个 高级 的 一个 形态。
第二点 就是 我们会 偏 实时 互动 一些, 就 是不是 那种 偏 静态 的 辅助 创作 的 这样的 一个 心态。 那是 互动 它 会 像 游戏、 虚拟世界、 数字 人, 它 其实 都是 偏 这种 实时 交互 的那 这块 要求 会 更高 一些。 不管 从 工程 上 还是 从 算法 上 来讲, 我们 也是 觉得 这样的 一个 形态, 它 会 是 将来 市场 贡献 最大 的 一个 一 赛道。
因为 我们 可能 是 期待 未来 是 web 3的这样的 一个 更多 虚拟 的 场景 的 发生。
还是 对 就 我们 期望 的 未来 的 一个 场景, 可能 是 越来越 这种 3D化, 曾经是 场景 化 对 吧? 那 里面 是 有 这样的 一些 虚拟 角色。 然后 在 虚拟世界 里面, 这个世界 是 足够 的 大, 内容 足够 丰富。 然后 里面 的 这些 虚拟 角色 它 足够 智能, 足够 的 拟人, 那 这 里面 都 需要 像 A I 的 一些 强大 的 能力 来去 生产 内容, 然后 去 提供 很 沉浸式 的 这种 体验。 这块 都会 用到 A I 的 这些 技术。
像 海外 您 有没有 看到 像是 这种 多 模态 的 A I B N, 他们的 这个 落地 和 他们的 现在 商业化 的 情况 是 怎么样 的?
在国外 就是 有 一些 创业 公司 在 做 这块 的 工作, 比如 像 有 一家 公司 叫 in word。 英特尔 的 A I 这家 公司 的话, 目前 是 他们 应该 是从 google 的 一个 团队 出来 的。 他们 做 的 事情 会 跟 我们 有 一些 像。 他是 做了 一个 A I 的 角色 生成 的 这样 一个 平台, 它 可以 提供 一些 工具, 然后 跟 像 这个 epic 的 real 引擎, unity 引擎 能够 集成。 然后 允许 这个 professional 的 这种 专业人员 或者 是 user, 他 可以在 上面 创建 这种 A I 的 虚拟 角色。 可以 定义 他的 一些 人设, 他的 性格, 他的 情绪 状态 形象, 就可以 放到 一个 虚拟 场景 里面。 然后 你 就可以 跟 他用 这种 超自然 的 对话, 然后 他在 里面 可以 跟 你 比较 自然 的 去 应答。
这块 的话 我们 先 看 他们 也是 在游戏 这种 社交 元 宇宙, 还有 像 迪士尼 这样 一些 公司 合作。 然后 整体 来看 就 这 一块 还是会 是在 商业化 的 一个 早期 的 一个 情况。 对, 因为 它 应该 是 AIGC 里面 最 复杂, 然后 技术 实现 方面 也会 最有 挑战 的 一个 方向。
对, 因为 您 刚刚 讲 的, 其实 单 模态 我们 看 的 最近 其实 蛮 多 的, 就 特别是在 融资 市场上 是 特别 火热 的。 像 刚刚 讲 的 像 jasper 他 也是 刚 拿了 好像 超过 1亿美元。 我 看到 好像 应该 是 这 两天 的 信息 是 notion 这种 文本 的 这样 工具 的, 他们 也 开始 在 做自己 的 A I 了。 然后 可能 帮你 建议 一些 搜索 结果, 帮你 建议 一些 标题, 建议 一些 你 编辑 的 这些 内容。 可能 下一步 大家 猜 是不是 像是 grammar 这种 可能 帮助 你 写作 的 工具, 他们 也会 A I 化。 所以 单 模态 的 感觉 好像 最近 的 它的 商业化 会 更加 起来 了 一些。
对, 然后 之前 是 这个, 我不知道 您 其实 从 2017年 到 现在, 其实 已经 过了 蛮 长 一段时间 了。 在 整个 AIGC 的 商业化 这 一块 是 怎么样 的 一个 变动 或者 是一个 变迁。 您 看到 的对。
确实 是 这样的, 就是 单 模态 的 文本、 图像、 视频 这块 会 做 比较 靠 前。 因为 它是 一个 存量 市场 的 一个 颠覆 或者 一个 升级, 所以 它的 市场 其实 不用 去 验证, 就 它 以前 也 需要 写作, 对 吧? 也 需要 这种 图片 这些 内容。
比如说 我们 现在 用 AIGC 的 手段, 能够 向 十倍 速 或者 百倍 速 的 这个 效率 去 提升 的那 它 显然 就是 非常 快 的 就可以 起来。 所以 这个 也是 在 通过 这些 创业 公司 的 他 都 的 一些 商业化 的 一些 数据, 也可以 看到 对 吧? 像 国外 的 一些 这种 比较 成功 的 SaaS 公司, 它 其实 每年 都是 有 大 几千万 的 这种 收入 的, 就是 起来 的 非常 快。 那 像 A I bin 这个 市场 就是 多 模态 的 这块 的, 其实 它是 一个 一些 新的 需求 的 一个 创造。 所以 这块 的话 它的 商业化 的 进程 或者说 它 会 比较 远 一些, 目前 还是 比较 早期 的 一个 状态。 对, 但是 它的 是 空间 可能 是 将来 是 更大 的 一个 情况。
感觉 好像 像 刚刚 讲 的, 像 单 模态 这种 大公司, 好像 也是 比较 担心 自己的 这个 生意 会不会 被 这个 创业 公司 抢走了。 然后 不管 是 google 还是 microsoft, 其实 都在 往 这个 方面 在 投资 和 做 这样的 产品。 就 感觉 是人 有 我也 一定要 有, 要不然 就 可能 在 落后 整个 市场 了, 大家 可能 是 这样的 一种 焦虑。
大公司 肯定 也会 去做, 就像 adobe 或者 是 微软 对 吧? 那 微软 本身 它 也是 投资 了 A I 那 最近 他们 应该 也是 发布 了 一个 工具。 对, 也是 基于 大力 的 主模型 在 上面 做 这种 应用。 但 现在 这种 垂 类 的 这种 萨斯 公司 应该 市场 也 足够 大。 然后 他说 如果说 在 一个 垂 类 能够 把 这块 技术 结合 场景, 能够 把 体验 做到 非常 极致 的话, 其实 它 也是 有 它的 生存 的 空间 的那 另外 一点, 其实 为什么 说 单独 它它 会 起来 比较 快 呢? 其实 也是 跟 技术 的 一个 发展 成熟度 是 有关系 的那 其实 现在 的 像 AIGC 的 这种 技术 的话, 它是 比较 适合 线下 的 这种 生成。 因为 它 现在 就 刚才 讲 了, 就是 A G I, 它是 A I 决策, A I 生成 A I 和 这个 推理。 其实 现在 A I 还 缺失 推理 这块 的 能力, 所以 现在 的 A I G C 的 内容 它 其实 是不是 那么 可控 的。
举 个 例子, 它 有点像 玩 老虎机 一样, 就是说 我 生成 十次 可能 有 五次 挺好的。 然后 有 一是 特别 惊艳, 然后 可能 还有 两三次 是 这种 bad case 的 这种。 这个 就是说 这样的 一个 技术 成熟度, 它是 比较 适合 做成 这种 线下 的 这种 生成。 包括 像 这种 一起 编程, 像 github 他们 做 那个 copilot 就是 一起 编程 这种。 我 其实 线下 我 去 只要 14里面 我 有 一次 是 比较 好的。 那 它 其实 就 已经 是 非常 好的 一个 结果 了。 比 它 之前 人工 去做 的话, 如果说 我们 要 用 在线 上 实时 的话, 那 它 要求 就 非常 高了。 那你 可能 要 做到 90% 以上 或者 95%, 他 要 都是 非常 好的 一个 质量, 那 才有可能 一个 大规模 的 商业化 的 一个 应用。 因为你 很难 想象 说 我 跟 一个 N P C 或 一个 数字 人, 你 跟 他 聊天 50%.
70% 还都 是 一些 奇奇怪怪 的 东西。
你 没 奇怪 的 东西 的话, 那你 可能 就 聊个 几轮 就 不想 再聊 了, 对 吧? 那 当然 现在 可以 结合 一些 工程 的 手段, 然后 包括 整个 A I 的 G C 的 质量, 确实 也是 在 飞速 的 一个 提升 的 过程。
像 当时 这个 起源 一开始 就 走 游戏 的 AIGC, 其实 它是 更 复杂 或者 是 更难 的 一条路。 为什么 会 可能 考虑 先 走 这条?
可能 跟 我们 公司 的 一些 使命 和 愿景, 还有 这个 激情 有 一些 关系。 对, 我们是 20年 6月份, 然后 在 北京 大饭店 举办 了 一个 星际 的 一个 比赛。 当时 是 邀请 了 两位 我 也就是 职业 的 冠军 选手, 来去 检验 我们在 星际 里面 的 A I 的 一个 水平。 打了 四场, 然后 四场 都是 A I 取得胜利。 那 现在 像 阿里 的 这种 三国志 战略版 类似的 外国 觉醒, 像 这样 一些 大游戏, 其实 都是 我们的 合作 的 一个 合作伙伴。
这种 大 的 这种 策略类 游戏。 他 每次 要 推出 一个 新的 武将, 新的 英雄 的 时候, 他是 会 去 策划 去 看 这个 英雄 出来 以后, 会对 我 现有 的 这个 阵容 会有 一个 什么样 的 影响。 他 会有 自己的 一个 预期。 以前 的话 他 会 通过 一些 传统 的 做法 去做, 从 它的 设计 到 验证, 可能 需要 一个月 甚至 两个月 的 时间 才能 看到 新的 武将。 那 他 对 这个 书 体系 的 一 影响 到底 是 怎么样 的那 现在 通过 我们的 系统 做 完 以后 的话, 可以 把 这个 时间 缩短 到 2到5天, 快 的话 就 两天, 就可以 把 这套 数值 能够 设计 的 更加 的 平衡。
包括 像 虚拟 角色 战旗 类 游戏, 每个 玩家 他 要带 五支 队伍。 然后 这个 队伍 里面 他 又要 从 上百 五家 里面 去 挑选 组成, 然后 每个 武将 又有 好几个 这种 战法, 组合 起来 是一个 可能 10到20次 方 的 这样的 一个 大 的 这样 搜索 空间。 传统 做法 它是 用 这种 行为 数据 去 控制, 其实 非常复杂, 然后 很 容易 出 这种 问题。 现在 其实 用 我们的 新的 这种 A I 的 方法 去 做了 以后 的话, 现在 目前 可以 达到 自身 的 这种 策划 的 水平, 就 人类 的 这种 水平。 并且 是 可以 很快 的 适应 各种各样 的 地图。 地图 它 有 上 百张 可以 看到, 就是 用 A I 计算 方式 能够 去 大幅 的 提升 这种 生产 的 效率。 其实 在 我们的 客户 里面 的话, 他 其实 把 已经 把 原来 所有的 这个 行为 数 的 全部 换成 A。
其实 行为 数 之前 也都 是一种 算法 是吗? 但 只不过 是 现在 可能 A I 的 算法 更优 一些。
行为 树 其实 它是 一种 专家系统, 它是 通过 写 这种 规则 编程, 它 其实 下限 会 比较高 一些。 因为 它是 通 个人 去 写 的, 那 有一个 保证, 但是 它 上限 就会 比较 低, 那 取决于 说 这个 工程师 的 编码 能力, 以及 他的 领域 知识 对 吧? 像 阿尔法 狗 下棋 的话, 它 就是 完全 另外 一套 就是 通过 构建 一 环境, 然后 他 自己 学习, 从 数据 里面 学习, 从 经验 里面 学习, 那 它 下限 可能 比较 低。 如果说 你 算法 做 的 不好, 那 它 趋于 随机 对 吧? 那 它是 但是 它 上限 会 比较高。 你 只要 堆 机器, 然后 给他 更多 数据, 他的 智力 水平 就会 指数 的 提升。
就 比如说 一个 像是 刚刚 您 讲 的 两个 案例, 他们 在 训练 整个 这样 A I 的 过程, 他的 这个 时间 会 更长 吗? 还是 其实 他是 有一个 就像 sas 软件 一样, 让 它 其实 很快 的 能够 被 企业 所 应用。 它的 这个 开发 的 周期 会 是 很长 吗?
其实 数值 设计, 包括 A I 设计师 这 一块 的话, 其实 是 比较 快 的那 我们 前面 第一个 案例 是 做 的 会 稍微 长 一点 时间, 大概 花了 三四个 月。 但是 在 第二个 案例 的 时候, 就 我们 做 完 三国 战略版, 然后 再 迁移 到 这个 万国 觉醒 的 时候, 其实 只 花了 一个月 的 时间 就可以 应用 到 线上。 然后 虚拟 玩家, 虚拟 角色 的话 就会 周期 会长 一些。 因为 它 涉及到 一些 对接, 然后 游戏 环境 的 改造, 这块 时间 是 会 花 的 多一些。 训练 的话 主要 也是 看 场景, 如像 这种 3D的 射击类 的 游戏, 这个 就会 训练 的 时间 会长 一些。 因为 它是 非常复杂 的 一个 场景。 它的 大 地图 几公里 乘 几公里 的 这样 大 地图, 然后 两三个 月 的 时间, 这样 才能 做到 一个 比较 好的 一个 水平。
在 过去 的这 几年 的 创业 当中, 您 是 觉得 可能 商业化 的 困难 更大 一点, 还是 可能 在 技术 研发 的 上面 会 更 困难 一些, 还是 这 两个 其实 是 并行 的?
其实 都是 比较 有 挑战 的。 就 我们 所在 的 这个 领域 的话, 是 本身 他 技术 也是 在 不断 的 在 突破 一些 瓶颈。 从 最早 能够 自主 学习, 自主 决策, 然后 到 能够 自己 生成, 自己 能 理解 对 吧? 那 到 后面 可能 可以 自己 推理 等等。 其实 这个 整个 的 技术 的话 也是 在 一个 重重的 这种 挑战。
然后 商业化, 其实 我们 坚持 这 五年 时间, 其实 我们是 有 自己的 一套 方法论 的。 就是说 技术 和 商业 我们是 要 齐头并进。 技术 成熟 到 一定程度, 我们 就 解锁 相应 的 一些 场景。 所以 我们 从 一开始 17年 的 时候, 我们是 专注 在 决策 这块 的 技术。 然后 对应 的 一些 场景 就是 一些 工业 仿真 的 数字 仿真, 这样 智能 决策 的 一些 产业 端的 一些 商业化 落地。 再 往后 的话, 我们 A I 生成 这块 AIGC 的 能力 上来 以后, 我们 又 在游戏 在 数字 人 这块 去 解锁。
以 终 为 始 的 这样 倒推。 然后 研发 的 目标 是 这样 的对 对。
就是 每一步 就是我 的 技术 成熟度 跟 我的 商业化 是要 能够 匹配 的对, 我们我们 并 不是说 我们 纯粹 就 去 推动 A G I 的 边界, 然后 去做 这种 底层 的 科学研究, 对 吧? 也 不是说 那种 我 直接 拿 别人 的 A P I 拿 别人 模型 过来, 然后 我 只 做 垂 类 的 这种 商业化。
还是 蛮 实打实 的。 并不是, 因为我 觉得 今天 跟 您 聊, 也 主要 是因为 其实 您 进入 了 好几个 A I 这个 周期。 像 1617年 其实 是一个 刚才 讲 的 阿尔法 狗, 然后 刚 出来 其实 是 有一个 A I 的 投资 热潮 的。 因为 当时 可能 没 那么 多 落地 的 场景, 但是 公司 需要 长期 的 发展, 需要 活 下来。 所以 到 现在 可能 又是 一个 小的 增长 的 一个 周期 了。 可能 很多 A I 的 公司 就 活 不到 现在 就 已经 挂掉 了。 所以 我 觉得 你们 可能 是在 商业化 上面 是 做 的 非常 的 聪明 的对。
这个 也是 其实 也是 市场 的 一个 倒逼 的 一个 情况。 因为 A I 公司 它 确实 要 能够 自己 造血, 然后 自己 养活 自己, 这个 是 我们 这几年 一个 心得。 对。
这 一个 小的 热潮 可能 从 去年 开始, 因为 元 宇宙 这个 概念 又 突然 出现了。 然后 对 起源 这样的 公司 来说, 他 你们是 怎么样 看到 这样的 一个 小的 周期 的 或者 大 周期 我不知道, 因为 没有 办法 预见未来。
对, 因为 我们 从 17年 出来 的 时候, 当时 就有 一个 公司 的 一个 内部 的 一个 slogan, 就是 我们 叫 打造 通用 智能, 然后 构建 平行世界。 第一次 融资 的 时候, 那个 P P T 第一页 就是这样 的 一个 东西。 然后 我们是 构建 了 一个 我们 觉得 是一个 双螺旋, 这边是 平行世界, 那 当时 没有 元 宇宙 这个 概念, 然后 这边是 通用 智能, 那 其实 就是 平行世界 或者 元 宇宙。 它 其实 为 这个 通用 智能 提供了 一个 很 好的 一个 载体 和 母体。 因为 它 在 里面 就是 提供 场景, 然后 提供数据, 然后 去 定义 我们的 这个 通用 智能。 那 反过来, 通用 智能 出来 以后, 其实 我们的 这些 造出来 A I B 都 可以 服务。 在 这个 虚拟世界 里面 创造 内容, 然后 创造 这种 A I 角色 和 互动 体验。
在 数字 人 这 一块儿, 其实 去年 已经 有 蛮 多 的 可能 像是 中指 人 这种 东西 在 出来。 但是 你们 其实 是 专业 在 怎么样 想 把 这个 游戏 虚拟人 的 智能化, 在 这个 方面 还是 做了 很多 的 尝试 和 深挖 的这 块儿 已经 有 一些 商业 应用 了。
这块 其实 我们 还没有 对外 披露, 也是 在 做 一些 商业化 的 落地 和 尝试, 主要 有 一些 比较 快速 的 一些 落地 的 场景。 比如说 这种 A I 区 动 他的 口型 表情 这块 是 比较 成熟 的 一些 技术方案 都 可以 做。 包括 前段时间 我们 参加了 世界 人工智能 大会 的 一个 比赛。 他 就是 去 驱动 这种 口型, 分了 两组 测试, 一组 测试 是 十个 真人 去 评判, 就是 跟 针对 中指 人 驱动 的 口型 它是 是不是 吻合。 然后 还有 一些 就是 通过 一些 指标 去 判断。 这块 我们 两项 都是 拿了 第一 后, 也 是因为 这样 一个 比赛, 其实 有 很多 的 以前 做 数字 人的 形象 皮 的 这样 公司 来 找 过来 合作, 也是 需要 我们 通过 这种 A I 的 驱动 方式 来去 代替 掉 它 原来 比较 生产率 比较 低下 的 这样的 一些 终端 的 方案, 这块 目前 是在 一些 像 传媒, 金融, 一些 虚拟 员工 这样的 一些 场景 里面 在 落地。
第二块 就是 这种 对话 系统 之前 的话 都是 需要 人 在 后面 去 生成 文本, 或者说 他 只能 把 续 之如 搏 的话, 他 只能 去 练 一个 稿子 对 吧? 那 其实 现在 像 一些 电商 的 直播间, 像 这样的 一些 场景 的话, 它是 需要 跟 一些 观众 进行 一种 实时 互动 的那 这 里面 它 需要 一些 比较 强 的 这种 自然语言 对话 的 这样的 一个 系统, 能够 去做 这种 比较 顺畅 的 人机交互。 这块 其实 也是 我们 正在 商业化 落地 的 一个 场景。
所以 两边 其实 你们 都在 做 一个 他是 这个 外皮, 然后 一个 是 里面 的 这个 自然语言 的 生成。 所以 两边 来说 的话, 你们是 同时 在 发力 是吗? 因为 很多 公司 他 就 只是 专注 的 在 做 一块儿。
还 会有 别的 一些 方向。 这两块 其实 是 我们 比较 合适 的 一个 技术 方向。 然后 另外 像 对话 这 一块 的话, 确实 是 通用 人工智能 里面 非常 核心 的 一块 技术。 这块 其实 我们是 重点 在 做 这块 的 研发。 因为 像 语言 的话, 其实 是 人的 非常重要 的 一个 关键 的 一个 组件。
因为我 前几年 其实 在 硅谷 看过 的 公司, 他 也是 好像 先是 跟 一些 名人 开始 合作, 像是 奥巴马 或者 这样的 一些 名人。 然后 拿着 奥巴马 的 录像 来 训练 数字 孪生 的 这样的 一个 形象。 对, 然后 他们说 最 关键 最难 的 地方 就像 您 刚刚 讲 的, 其实 嘴 这 一块儿 就是你 嘴 的 这个 舌头 动 的 这样的 是 很 能够 分辨 出 你到底 是 真人 还是 这个 假人。 你 不能 这么说, 好像 不太 不是 很 专业, 所以说 这 一块 的 难度 是 最高 的。 不知道 您 能不能 跟 我 讲讲 这个 是 为什么? 然后 您 刚刚 讲 的 是 这个 可能 跟 中指 人 在 后面 和 这个 A I 这个 驱动 的, 为什么 这 一块 它的 这个 细节 也是 确实 这么 的 重要。
其实 口型 这块 是 确实 比较 关键 的 一个 部分, 但 其实 最难 是 眼神 这块 的 它的 驱动 然后 包括 一些 微表情 这样的, 然后 口型 目前 是 其实 走 的 比较 前面。 那 因为 通过 一些 数据通, 一些 算法, 它 就可以 拟合 的 比较 好。 那 这 里面 其实 比较 关键 还是 数据 这块 的, 那 数据 的 质量, 然后 加上 算法 的 一些 先进性。 现在 其实 眼神 这块 是 比较 难 做 的对。
会有 这种 uncanny valley 的 这样的 一个 效应, 就 做 的 特别 像, 其实 大家 会 觉得 很 可怕, 然后 大家 可能 不需要 那么 想。
其实 有 一些 做法, 现在 目前 比如说 他是 用 2D的, 你可以 理解, 就像 其实 换脸 一样, 对 内容 就是 特别的 真实。 你 基本 黔 实验室 有一个 主播, 然后 他 播 了 可能 有 好多天 就 没人 发现 他是 一个 是 吧? 是一个 A I 在那 播。 所以 这块 其实 也是 取决于 我们 要 应用 在 什么样 的 场景 里面。 它 相对 游戏 来讲 的话 就是 更加 的 短平快 一些。
然后 方案 也会 比较 偏 这种 sas 化 的。 像 刚才 讲 的 这种 直播 的话, 它 其实 推送 一个 视频流 过来 就 好了, 所有 东西 都是 在云端 就可以 做好。 然后 偏 这种 语言 的 驱动, 其实 它是 比较 通用 的, 它 不像 在游戏 里面 你 要 做 一个 A I 的 角色 或者 玩家 的话, 它是 跟 环境、 跟 你的 玩法、 跟 你 世界观 是 高度 耦合 的。 但 像 数字 人 的话, 它 会 更 SARS 化, 更 标准化 的 这样的 一个 交付。
因为我 感觉 好像 这种 真人 的 数字 人 好像 还 是不是 特别的 多是 吗?
偏 真人 的话, 它 其实 它的 互动性 就会 比较 弱 一些。 所以 你 看到 的 所有的 东西, 他 可能 都 是在 自己 播 诵, 所以 能 互动 的 基本 都是 那种 写实 的 或者 卡通 的。
明白 了解 了, 就是 还是 有 种植 人 在 后面, 这 是一个 皮。
对, 但是 未来 的 可能 3到5年 应该 都会 被 大部分 可能 会 被 认出来。
明白, 就是 因为 我们的 这个 A I G C 的 生成 的 语言 这 一块, 其实 是 已经 慢慢 在 成熟 起来 了。
这 反正 从 市场 的 需求 来看 的话, 也是 这块 的 需求 比较 旺盛。
我们 刚刚 讲到 其实 是从 这个 决策 生成, 然后 再到 未来 的 这个 推理。 在 推理 这块 是 会有 什么样 的 一些 应用, 我想 买 什么样 的 一种 技术 的 展现 形态?
可以 看到 就是 像 A I 生成 这 一块 的话, 它 其实 是 跟 理解 是 有关联 的。 你 想想 如果说 一个 A I 它 能够 生成, 能够 预测, 它 背后 的 含义 就是说 它 确实 就是 理解 了 一些 东西 的。 你 不能 理解 的话, 其实 你是 很难 生成 和 预测 的这 里面 就是说 缺 一个 模块, 就是 推理 的 这个 模块。 就是 它 能够 举一反三, 能够 可以 用 一些 小的 数据, 它 就可以 学 出 更多 的 任务, 对 吧?
然后 包括 像 为什么 现在 图像 不能用 在 这种 专业 领域, 目前 还 停留 在 给 比如说 美术 的 这些 从业人员 找 灵感 的 一个 阶段。 这个 其实 也 是因为 像 他的 一些 可控性 其实 是 没有 做到 的。 比如说 这个 美术 的 专业 人, 他 希望 说 能够 精确 控制 它的, 甚至 这种 笔触 他的 阴影, 然后 他他 的 着色, 它 透视 关系。 然后 包括 像 这种 对话, 其实 也是 你 跟 一个 大 模型 去 对话 的。 会 发现 就是 比如 他的 前后 的 一致性, 或者说 甚至 他 不能 记住 之前 的 一些 说过 的 一些 话。
对 吧? 就是现在 是一个 不 太聪明 的 样子 的 一个 助理。
对对对, 所以 他 现在 这种 对话 的话, 他 会 结合 大 模型, 然后 会 结合 一些 对话 系统 来 去做。 包括 一些 这种 语言 的 理解, 包括 一些 检索, 它 会 搭 起来 这样 一些 传统 的 一些 做法, 然后 才能 去 保证 说 我的 对话 系统 能够。 更加 的 能够 实用。 如果你 直接 基于 大 模型 来 去做 的话, 其实 会有 很多 的 一些 这样的 不 可控 的 问题。 因为 我们 像 我们的 应用 场景 里面, 像 游戏 里面? 或者 数字 里面, 他 会 比较 开放 域 的 聊天, 而且 还会 是 结合 某 一种 世界观。 那你 在 这个 原 神的世界 里面, 你 不能 跟 他 聊 这个 键盘 鼠标? 你 不能 出现 这种 词, 就 我是 在 一个 什么 年代, 我在 什么 世界观, 我 就 应该说 什么样 的话。
所以 现在 在 可能 我们 达到 我们的 A I 小 助理 们 能够 比较 聪明 的 给 我们 做出 一些 推理 方面 的 这些 建议。 我们 现在 的 一些 瓶颈 可能 会 是 在哪里? 然后 大概 需要 多少 年, 可能 这个 瓶颈 才会 能够 被 克服 掉。
应该 推理 就 据 我们 所知, 应该 也是 像 OpenAI 这些 公司 在 攻克 的 他们 所谓 这个 A G I 的 最后 一块 堡垒 了。 可能 还 缺少 一个 神经网络 里 的 某个 结构 能够 适合 做 推理 的。 所以 你可以 看到 现在 这种 语言 或者 是 图像 生成, 为什么 它的 效果 会 这么好? 也 是因为 之前 像 attention 上 那个 transformer 在 一些 关键 的 结构 上 的 一些 突破。 我自己 个人 认为 的话 是 应该 会有 一个 比较 大 的 一个 结构 上 的 一个 突破, 能够 适合 让 这个 神经网络 能够 做 推理。
所以 可能 还是 需要 蛮 长 一段时间 的。
这个 也 对 可能 需要 一些 底层 上 的 一些 科学 上 的 一些 突破。
所以 这个 时间 也很 难 讲 到底 是 可能 3到5年 其实 不太好 说。
对, 这个 很难 预测。 但是 就是你 不要 高估 这个 一年 两年 时间 能 做 的 事情, 但 也 不要 低估 十年。
对, 从 阿法 狗 到 现在 61年 的 时间, 六七年, 这个 是 会 是你 当时 有 畅想 过 吗? 说 六七年 可能 要 人工智能 会 到 什么样 的 一个 节点, 或者 他 能够 到达 什么样 的 一个 状态, 是 比 你 想象 的 快 还是 慢?
其实 比 我们 想象 的 预期 的 是要 快 的 发展 要 更快 一些 是 吧? 对 当时 我们 出来 说 星际 能够 在 三年 内 击败 职业 冠军, 这个 根本 不可想象 的。 可能 我们 当时 觉得 三年 以后 能够 表现 的 比较 正常, 像 人 一样 就 非常 不错 了。 而且 那个 概率 我们 当时 觉得 也就 5%。
我 对, 但是 没想到 三年 时间 确实 是 达到 这个 职业 冠军 的 水平。 包括 当时 G P 刚 出来 的 时候, 我们 也是 非常 的 震惊 的, 就是 一个 A I 系统 能够 写 了 一篇 东西, 对 文章 然后 上千 字, 然后 还 前后 一致性? 比较 好。 它 其实 是 突破 了 一个 范式, 然后 验证 的 就是说 我 为 更多 的 数据, 一个 很 好的 结构, 为 更多 算 力, 它 就 会越来越 好。 现在 也可以 看到 G P2、 G P3 对 吧?
所以 对于 你们 来说, 可能 未来 最 兴奋 的 或者 是 让 你们 觉得 这个 人工智能 的 时代 就是 完全 到来 了, 会 是 什么样 的 一个 时间, 或者 什么样 的 一个 样子。 我们 不说 时间 了。
高度 智能 高度 的 利人, 然后 他 有 自己的 情感 数字生命 的 一个 心态。 然后 他 应该 会 是 每个人都会 拥有 的 一个 这样的 一个 情感 陪伴, 加上 生活 的 这样的 一个 助手。 就像 这种 贾维斯。
或者 是 说 2001 的 那种 面 杀手 里面。
一个 joy, 类似 这种 形态, 这个 是 我们 觉得 会 比较 兴奋 的 一个 未来。
好的, 非常 谢谢 龙 总。 今天 给 我们 科普 了 好多 最近 我们 比较 火热 的 AIGC 的 整个 业态。 然后 包括 可能 现在已经 落地 的 商业模式, 可能 还有 未来 的 一个 我们的 畅想。 好的, 非常 感谢您。
也 感谢 他。
好。
照例 插播 我们 关于 胡同 周年 月 的 消息, 我们的 活动 已经 接近 尾声 了, 胡同 漫游的 终点站, 我们 想 邀请 有 台 的 主播, 胡同 的 会员 来到 我们的 新 办公室 里面 聚一聚, 放松 一下, 聊聊天。 不过 在 这样的 特殊 时期, 线下 的 活动 总是 充满 了 各种 的 不确定性, 希望能够 和 大家 顺利 的 见面。 活动 的 详情 已经 在 show no 里面 更新 了, 请 大家 自行 点击 查看。 另外 再 宣传 一下 我们的 周年 订阅 优惠活动 马上 就要 结束了。 本次 周年 活动 中 各个 分会场 的 音频, 我们会 在 活动 结束 后 发给 生动 胡同 的 会员 们。 新 订阅 的 伙伴们 也可以 通过 音频 回顾 来 了解 本次 活动 的 内容。 所以 大家 不用担心 已经 错过了 订阅 的 方式 和 优惠 的 说明 已经 放在 了 收到 里面。 最后 你们的 慷慨 支持 是 我们 持续 做好 内容 的 强大 动力, 欢迎 大家 加入 我们的 声能 胡同。
I've been a fan of yours, macintosh, in nineteen eighties. Well, you know, we just kind of figure that out. Even though apple was big, it's still like half a .
percent of 最近 在 我们 生动活泼 自己的 群 里面, 有一个 小伙伴 扔出来 的 一期 播客 节目, 就是 知名 主播 joe rogan 采访 乔布斯 的 一期 节目。 然后 我和我 的 合伙人 汤 老师 就 直呼, 我们 可能 要 失业 了。 对, 前段时间 我们 做了 这个 lamda di 然后 在 自然语言 或者 是 图片 等 人工智能 内容 创作 领域 的 一些 节目。 今天 我们 想来 聊 一 聊 声音 赛道 的 AIGC, 也 想 满足 一下 我自己 的 好奇心, 我自己 离 失业 还要 有 多久? 今天 我们的 嘉宾 是 高建 清 博士, 他是 科大 讯 飞 A I 研究院 的 副院长。 您好, 高院, 欢迎 做客 我们的 科技 早知道。
你好, 丁 老师。
高院 您好。 您 先 介绍 一下 自己的 这样的 一个 研究 方向, 和 您 之前 在 科大 讯 飞 负责 的 一些 项目 和 内容。
我在 讯 飞 做了 16年 的 智能 语音 方面 的 工作, 现在 也是 负责 科大 讯 飞 研究院 语音 方向。 最早 我是 主导 研发 了 国内 最早 的 电话 自助 客服 系统, 后来 是 创建 了 讯 飞 的 语音 转写 团队, 主要 主导 我们的 语音识别 系统 的 研发。 而是 在 业界 最先 将 我们的 演讲 和 会议 场景 的 撰写 做到 实用化。 并且 孵化 了 像 讯 飞 听见 的 会议 系统, 智能 录音笔、 智能 办公 本 这些 产品。 最近 几年 也 开始 逐渐 带领 我们 整个 团队 做 语音 合成 方面 的 工作, 也就是 今天 我们 要 聊 的 AIGC 这个 领域 的 一个 很 重要 的 组成部分。 另外 的话 也 做了 很多 关于 智能 语音。
产业化 方面 的 一些 工作。 Foot came on the show. How's IT going? Good to see body.
It's a 咱们 昨天 其实 在 聊天 的 时候, 大概 也 聊 了 一下。 我们 听到 的 这样的 一个 周 rogan 采访 乔布斯 这样的 一 播客, 它 背后 其实 它的 这个 难度 或者 是 它的 这个 难点 在哪里? 它 值不值得 我们 担心 我们 未来 可能 会 失业 了。
Things, things today, we talked about things I didn't know a lot about, and that was really fun. That worked out well for me. Steve jobs, ladies and gentlemen, good, good night.
首先 我们在 这 里面 看到 两个 关键 的 技术, 语音 合成 以及 对话 文本 的 生成。 语音 合成 是 相对来说 是 比较 成熟 的, 这个 大概 就是 我们 需要 收集 很多 乔布斯 的 一些 语音 来学 一个 语音 合成 的 训练, 一个 语音 合成 的 系统。 语音 合成 系统 里面 主要 的 难度 是, 首先 我们 怎样 在 不是 太 大量 的 数据 下 能够 实现 我们的 音色 能, 比如说 跟 乔布斯 很 像。 然后 另外 发音 过程 中有 很多 的 每个人 发音 有 他 自己的 特色, 它的 韵律, 它的 节奏。 像 我们 需要 标注 数据 里面 的 一些 具体 的 一些 文本 的 一些 信息, 发音 的 信息。 同时 我们 还要 收集 到 足够 多 的 这种 训练 数据。 最后一个 可能 因为 音频 相对来说 是 比较 久远 录制 的, 那么 它的 音质 可能 不会 特别 高。 那么 我们 怎么样 做 一个 非常 高质量 的 合成 系统, 听 感 质量 比较高 的 语音 合成 系统, 这个 也是 技术 中的 关键。
比如说 是 可能 最近 我也 看到 大家 比较 火 的 就 AIGC 是在 图片 方面 的 应用, 可能 像是 这个 open I 它 训练 一个 像是 dolly 这样的 引擎, 它是 需要 可能 60万美元, 然后 大概 时间 也是 比较 久 了。 那 我不知道 可能 就是 音频 的 这样的 一个 领域, 它的 一个 训练 的 时长 和 成本 大概是 在 多少。
图片 领域 我们 现在 看到 的 这个 模型 的话, 它 更多 的 是用 一个 预 训练 的 这样 一个 技术。 它 其实 是 需要 收集 到 海量 的 一些 无 监督 数据。 所以 在 这种 情况下 的话, 因为 数据量 很大, 算法 的 模型 也 比较 大, 所以 他 可能 需要 的 时间 是 比较 长 的。 我们 刚刚 说 的 比如说 恢复 乔布斯 的 声音, 这些 的话 更多 的 是 采用 一个 有 监督 的 方案。 这种 的话 它 更多 的 是在 数据处理 上 的 代价 是 比较 大 的。 那么 模型 的 训练 其实 代价 是 不大 的, 我们 采用 的 是一个 正常 的 模型 来做 这样 一个 事情 的, 整体 的 训练 时长 和 训练 的 时间 都是 可控 的, 时间 应该 就是 在 几个 小时 就可以 完成。
这么 快。 对, 那 大概是 需要 多少 的 这样的 样本, 我看 好像 图片 的话, 大概是 需要 21张 图片 才能 才 把 这个 道理 训练 出来。 这个 语音。
针对 像 一些 精品 的 发言人 的话, 可能 需要 数十 小时 以上。 但是 当你 不一定 能够 收集 到 这么 多 声音 的话, 其实 现在 的 技术 的话 也可以 做到 一个 不错 的 一个 程度。 对, 刚刚 我们 说 了, 就是 让 乔布斯 和 一个 主持人 做 一个 访谈。 这 里面 其实 包含 两个 关键 的 技术。 第一个 是 语音 合成, 第二个 的话 是 文本 的 生成。 我们 认为 语音 合成 可能 技术 相对来说 是 更 成熟 的。 但是 对于 文本 生成 来说, 其实 现在 的 难度 我 认为是 更大 的。 也就是说 我们 要 形成 一个 这样 一个 完整 的这 一个 访谈, 那么 访谈 的 内容 它 也是 要 自动 生成 的, 这个 难度 是 更大 的。
我 认为 现在 生成 一些 看起来 make sense 的 一些 句子 其实 是 可以 的。 但是 如果 需要 传递 一个 深层 意义 的 观点, 观点 它是 有 铺垫, 有 一定 的 递进 关系 等等。 那 这个 难度 现在 其实 是 很大 的。
我看 了 乔布斯 的这 段 视频 的 一些 采访 的 文稿, 大体 的 通顺 度 等等, 这个 都是 非常 好的。 但是 他 是不是 表达 了 一个 非常 有 自己 观点 的 这样 一个 信息。 从 这个 的 层面 来说, 我 觉得 现在 还是 不够 的。 他 可能 就是 学习 了 乔布斯 以往 表达 的 很多 的 观点 的 这些 文本, 也就是说 它 其实 是一个 垂直 领域 的, 非常 相关 的 是 跟 乔布斯 的 发言 相关 的 这些 文本, 然后 生成 了 一个 采访 的 文稿。 如果 是 说 只是 声音 是 合成 的话。
那 可能 意义 就 少了 很多 了。
对, 意义 可能 就 少了 很多。
好的, 那 我们 再 回到 我们 现在 生成 的 这样的 语音, 它 跟 我们 真人 的 这样的 表达, 它 现在 相似 程度 能够 到达 多少?
我 觉得 现在 最新 的 合成 系统, 我们 所谓 的 机械 感 其实 现在已经 很小 了。 我们 评价 一个 语音 合成 系统 一般 采用 mos 分 来 表达, 满分 35分。 可能 我们 说 最 优秀 的 播音员 的话, 可能 也许 能够 达到 5分。 但是 我们 普通人 因为 口音 的 原因, 没有 受过 特殊 的 训练。 其实 我们 现在 非常 好的 语音 合成 系统 的话, 真人 如果 是 说 莫斯科 是 4点5分, 那么 机器 可能 是在 4点4分 这个 样子 其实 差距 已经 非常 小 了。
明白, 我 还是 觉得 我 可能 会 失业。 因为 经常 会 有人 来 吐槽 说, 你 这块 好像 这个 怎么说 的, 这个 不 标准。 对, 然后 咱们 现在 的 比如说 是 生成 出来 的 这种 语音 之后, 可能 还会 做 一些 细节 方面 的 处理。 出来 之后 会不会有 一些 觉得 这块 好像 不太 像 真人 会 这么说 的, 包括 语气 什么的, 你们 会 怎么样 再做 一些 深度 的。
一些 工作 吗? 目前 我们 绝大部分 这种 合成 都是 不再 需要 调整 了, 因为 调整 的话 可能 人工 的 代价。
也 非常 的 大。
OK 对, 但是 我们 现在 其实 也 研发 了 一个 这样的 一个 工具。 其实 是 希望 我们的 普通 的 人, 比如说 我们的 产品 经理 也可以 参与 声音 的 创造。 这个 工具 的话 是 支持 对 声音 里面 一些 关键 的 信息 进行调整。 比如说 什么 地方 需要 重音, 什么 地方 需要 停顿。 比如说 有的 时候 可能 多音字 的 发音 不对, 只需要 在 我们的 文本 层面 进行调整 就可以 了。 比如说 你 要 合成 一句话, 觉得 这个 文本 原来的 合成 系统 它是 这个 地方 应该 要 停顿, 但是 它 没有 停顿, 那么 你 就在 这个 文本 之间 插 一个 停顿 的 符号。
我不知道 最近 您 有没有 看到 meta 的 C E O 扎克伯格, 他 发布 了 一段 视频, 就是 他 跟 有一个 一个 华人, 然后 他们 在 没有 对应 的 文字 之间, 然后 用 英语 和 闽南语 之间 的 这样的 互相 的 一个 翻译 的 一个 视频。 对, 然后 有人 觉得 这个 好像 也没有 什么 技术难度, 好像 也 有人说 好像 是 讯 飞 玩 剩下 的。 我不知道 你 有没有 看过 这个 视频。
The researchers process mark, do you know that our team created the first translation to support a spoken language?
Yeah, this is great.
Hockey is spoken by millions of people. But since there's no standard writing system, that makes a pretty chAllenging to build .
a translation system like this.
这 实在是 进展 不 数百万 人工 和 警卫, 但是 兵。
对, 这个 是 前段时间 比较 有名 的 一个 视频, 我也 确实 是 看过。 从 技术 的 角度 来说, 这个 是一个 无文本 的 翻译。 因为 闽南话 它是 一个 偏 口语化 的 语言, 它的 文本 的 数据 是 非常少 的。 总的来说 没有 文本 桥接 的 这个 翻译 的话, 它的 实现 难度 还是 非常 大 的。
就是 传统 我们 实现 的 从 一个 语音 到 另外一个 语音 的 翻译 的话, 其实 它是 分 三个 过程 的。 是 先 把 拿 这个 英文 和 闽南语 举例。 它是 先 把 英文 的 语音识别 成 英文 的 文本, 然后 再 接 了 一个 文本 的 翻译 系统 翻译成 闽南话。 然后 再加 一个 合成 系统, 将 闽南话 合成 出来。 因为 闽南话 是一个 文本 上 比较 欠缺 的 甚至。 可能 很多 文字 现在已经 不存 存在 的 这么 一个 语言。 所以 我们 直接 用 这种 级联 的 方案 的话, 可能 就会 存在 着 困难。
如果 是 说真的 实现 这个 商用 的 这个 文本 翻译 系统 的话, 它 确实 是 需要 非常 大 的 平行 的 语料 的。 英语 的 语音 跟 闽南话 的 语音 之间 的 相对 应 的 语音, 是 其实 是 需要 非常 大量 的 这种 对应 关系。 这种 其实 收集 起来 是 非常 的 困难 的。 这个 也是 为什么 端 到 端 翻译, 目前 在 学术界 还是 非常 热 或者 非常 火 的 一个 研究 的 话题, 或者 是 学术 的 问题。 但是 在 商业界 可能 没有 那么 广泛 的 被使用。 就是 因为 我们 商业系统 里面 可能 有 语音 的 标注, 或者 是 说 翻译 文本 到 另外一个 语言 翻译 文本 的 这种 标注, 这种 语料 是 非常 多 的。 但是 两种 语音 之间 它的 这种 平行 语料, 其实 的 收集 起来 是 非常 困难 的。 这个 也就是 为什么 我们 端 到 端的 翻译 在 工业界 没有 发展 的 这么 快 的 一个 原因 之一。
因为我 知道 其实 现在 在 电影 领域 用 这样的 技术 还是 挺 多 的。 然后 包括 有一个 乌克兰 的 创业 公司 叫做 free speech er。 他们 其实 是 一帮 星球大战 系列 的 达 斯韦德。 因为 这也是 一个 比较 老的 一个 franchise, 一个 电影 系列, 所以 他们 有 一些 演员 已经 非常 老了, 甚至 是 有 一些 已经 去世 了。 所以 他用 自己的 这个 声音, 然后 他 把 他 授权 给 这样的 公司, 让 用 这个 公司 来 生成 以后 未来 电影 的 这样的 一个 语音, 是 这样的 一种 方式 在 合作。 对, 我不知道 就 这种 算是 现在 在 这个 领域 最大 的 一种 商业 应用。 就是 在 零售 方面 还是 其实 我们 想象 空间 其实。
可能 会 更 大我 觉得 这个 还是 比较 新的 一种 商业模式。 本质 上 来说 还是 成本 和 效果 之间 trade off 的 这个 问题。 对于 一些 高品质 或者说 对 质量 要求 非常 高 的 一些 商业片, 找 最 顶级 的 配音演员 可能 是 最好的。 最好的 人 一定 是 比 现在 的 机器 要好。
但是 像 这个 创业 公司, 它的 一些 应用 的 方式 的话, 我 觉得 它 其实 也是 有 一定 的 商业空间 的。 可能 是 对于 一些 要求 不 那么 高 的 一些 场景。 比如说 我们 现在 像 短 视频 的 这个 领域, 很多 短 视频 的 制作 的话, 现在已经 开始 用 AIGC 的 这种 方式, 用 语音 合成 这种 方式 来做。 因为 它 成本 的 要求 其实 是 非常 的 高 的。 如果 语音 合成 能够 发展到 一定 的 程度, 那么 它 配出来 音 也 确实 是 非常 的 好。 其实我 觉得 这个 商业空间 其实 也是 非常 大 的。
就现在 的 有 因为 平常 刷 一些 这个 短 视频 里面 可能 会有 蜡笔小新 的 声音, 或者 有 某些 方言 的 声音, 其实 也是 AIGC 的 这样的 一种 应用。
对 吗? 是的, 现在 其实 短 视频 里面 是 有 蛮 多 的 是 AIGC 的 一些 应用。
所以 这块 应该 是 运用 最多 的。 但是 它 这个 商业价值 产生 最大 的 也是 这 一块 吗? 还是 有 其他 的 一些 应用。
语音 合成 目前 商业 最大 的 地方 一个 应该 是 语音 交互。 然后 后面 其他 的 比如说 像 听书, 像 新闻 播报、 短 视频 制作 的 这个 领域 的话, 算是 目前 新兴 发展 起来 的 一个 领域。 为什么 说 语音 交互 是 发展 最快 的? 也 其实 语音 交互 已经 有 从 siri 出来 到 现在 可能 已经 有 十多年 的 时间。 语音 交互 里面, 因为 人 要 与 机器 交互, 其实 语音识别、 自然语言 理解、 语音 合成 都是 里面 非常 关键 的 一个 技术 模块。
因为 在 汽车 交互 这个 领域, 它是 一个 垂直 的 领域。 一般 的 乘客 或者 是 驾驶员 在 开车 的 过程中, 他 所要 交互 的 事情 其实 是 有限 的。 典型 的 比如说 听 广播 导航, 然后 一些 车 控 的 命令 等等, 就是 是 一些 受限 领域 的 一些 交互 的 方式。 在 这种 情况下 的话, 其实 语音 交互 其实 是 可以 打磨 的 非常 好的。
目前 我 认为 语音 交互 在 汽车 和 家庭 这些 垂直 领域 的话, 其实 已经 发展 的 非常 快。 而且 可以 说 已经达到 了 好用 的 阶段。 特别是 一些 新能源 汽车, 或者 是 说 现在 发 的 一些 新车 的话, 语音 交互 已经成为 这 里面 的 标配 了。
所以 可能 是在 真正 的 技术 他 可能 已经 到 这里。 但是 在 大家 的 这个 实际 使用 上面, 好像 感觉 好像 没有 我们在 科幻电影 中 看到 的 那么 的 频繁。 还是 这个 数据 正在 缓慢 的 上升, 是 大家 需要 一个 可能 还得 需要 一些 时间。
两个 方面。 第一个 方面 的话 还是 技术 要 发展到 一定 的 程度, 这个 系统 要 好用, 真正 的 好用 可能 用户 才 愿意 用。 第二个 方面 的话 就是 这个 场景 它 确实 是 刚 需 的。 只是 一个 玩 的 场景 或者 是 秀 的 场景 的话, 那么 他 可能 很快 新鲜 过去 以后, 大家 就 不会 使用 了。
为什么 我们 说 在 汽车 和 家庭 这样的 场景, 我们 现在 语音 交互 发展 的 越来越好? 首先 就是 在 这 两个 场景 的话, 语音 交互 它 确实 是 刚 需, 所以 会有 越来越 多多 的 用户 去 使用 它。 这样的话, 当我们 发现 这些 场景 确实 有 用户 价值 的话, 那 其实 我们 就有 非常 大 的 动力 在 这个 场景 进行 非常 细致 的 打磨。 另外一个 方面 的话, 我 觉得 语音 交互 将来 更 高级 别的 发展 的话, 应该 是 会 发展 成 一个 有 情感 陪伴 的 这个 系统。 你 其实 是 可以 跟 机器 去 进行 很 深入 的 一些 沟通。
One thing that is the companionship relationship, we have a IT.
我记得 好像 应该 是 亚马逊 在 上半年 的 时候, 好像 又 发布 了 一个 产品。 就是 把 你的 逝去 的 亲人 先 保存 在 这样的 一个 像 alexa 这样的 一个 语音 的 这样的 一个 系统 里面, 然后 未来 可能 让 他 长期 的 陪伴着 你。
We love. Let's take a look on one of the new capabilities we are working on.
which alexa can grama finished reading me, the visit of us. Okay.
but how about my courage as the lie? And anxiously, you have plenty of curry, James.
sure. As you sign this experience, instead of alexa's voice, reading the book is the kid's grandma's voice is the companionship relationship we have with IT in this finish pro.
更 高级 别的 交互 的话, 它 其实 是 要是 个性化 的, 他是 懂 你的, 他是 有 情感 的。 这些 的话 可能 就是 我们 交互 系统 向 进一步 发展 更好 的 方向 发展 的 一个 趋势。 整个 一个 语音 交互 或者 是 人机交互系统, 它 其实 包括 感知、 表达 和 大脑 三大块。 感知 就是 我们 通常 说 的 语音 唤醒、 语音识别, 它是 让 机器 懂 你的 一些 声音, 能 懂 你的 一些 内容, 懂 你的 情感。 然后 表达 的话 可能 就是 语音 合成 或者 是 虚拟人 等等 这些。 可能 语音 交互 里面 最 核心 的 还是 这个 交互 系统 本身 的 这个 大脑。 所谓 的 大脑 的话, 其实 它是 需要 理解 你 跟 我 交互 的 是 什么样 的 内容。 完了 以后 还要 生成 一个 非常 好的 跟人 一样的 回复 语。 那么 这个 回复 与 里面 可能 是要 完成 你的 一些 任务 的, 然后 这个 回复 与 怎么样 在 更 拟人化 的 表达出来, 这个 都是 非常 关键 的。 只有 这些 关键 的 技术 都 做好 的话, 我们 才能 做 一个 所谓 的 有 思想 的 语音 交互 系统。
所以 我们 其实 现在已经 看到 了 像是 lambda, 还有 GTP3 这样的 一些 可能 所谓 的 未来 可以 成为 大脑 的 这样的 一些 人 AI 的 算法, 它 可能 还是 得 需要 更长 一些 的 时间。 然后 再加上 我们在 可能 声音 领域, 然后 在 其他 一些 领域 的 一些 技术, 然后 它 合 起来 可能 才 会有 一个 更加 智能 的 这样的 一些 产品 来 服务 我们。
人工智能 现在 在 很多 领域 慢慢的 其实 是在 帮助 了 很多 的 人, 最 典型 的 是 代替 了 很多 原来 人类 非常 繁杂 的 一些 脑 洞。 但是 确实 他 可能 在 一些 类似 于 有 思想 有 创造 或者 是 艺术性 的 领域 的话, 这个 难度 技术难度 是 更大 的, 也是 需要 更 长时间 的 发展。
对, 因为 可能 最近 大家 关注 的 像是 doi, 然后 包括 可能 stable diffusion 这 样子 的 人工智能 作画 的 应用。 其实 这 几个 月 大家 都 用 的 是用 的 如火如荼, 然后 觉得 好像 是 颠覆 了 很多 人的 工作。 让 一些 绘图 的 这样的 工作人员, 或者 是 设计师, 还是 一些 P S 的 这样的 一些 工作人员, 他们 可能 未来 工作 会 简化 的 非常简单, 或者 甚至 有些人 就 没有 工作 了。 我不知道 在 人工智能 语音 这 一块儿 会不会有 这样的 一个 时间 节点, 或者 是 让 大家 就 觉得 我的 工作 好像 有点 岌岌可危 了。
类似 于 刚才 表达 的 观点, 机器 擅长 做 的 这个 事情, 让 机器 来 做人 更 擅长 的 可能 是 更加 具有 创造性 的, 更加 具有 思想 的 这些 工作。 在 我们 声音 领域 的话, 其实 也有 很多 这种 人 耦合 的 这种 方式。 比如说 像 法院 的 庭审, 这个 庭审 的 过程 其实 背后 是 有一个 书记员 在 记 每句话 的。 这个 以前 是一个 法院 里面 应该 叫 是 书记员。 书记员 这个 岗位 他在 做 这个 事情, 其实 这是 需要 人 非常 专注 的, 很 专业 的 一个 事情。 记 起来 其实 是 非常 的 困难 的, 而且 是 强度 很大 的那 现在 我们 机器 做 语音识别, 对 机器 来说, 你说的 每句话, 它 可以 快速 的 非常 实时 的 就 把 你的 结果 识别 出来。 我们 现在 的 数据 员 的话, 可能 就 可以在 机器 识别 的 结果 上 做 少量 的 修改。 从 语音 到 文字 这种 最 繁杂 的 劳动 是 机器 来 帮你 做 的, 但是 机器 的 识别率 可能 不是 百分之百, 它 需要 一些 修改, 然后 他 也 需要 一些 提炼。
因为 我们 人 讲 的话, 他 可能 有 很多 时候 是一个 很 口语化 的 东西。 但是 我们 最后 形成 的 一个 记录 的话, 是 需要 一个 书面语 的 东西。 那 我们的 我们 没有 让 书记员 事业 我们 有 很 好的 帮助 了。
他不知道 最后 能不能 让 您 帮 我们 再 展望 一下, 就是 人工智能 和 声音 结合 的 这个 方向 的 一些 赛道 或者 是 应用。 可能 会 在 未来 的 几年 会有 一个 小的 爆发。
在 技术 领域, 我 觉得 两个 重要 的 方向。 首先 是 感知, 或者说 从 我们 怎么样 把 语音 的 内容 或者 情感 识别 出来 这个 方向 的话, 我 觉得 可能 更多 的 还是 要 解决 一些 现在 语音识别 面临 的 一个 更加 复杂 的 场景。 我们 先 解决不了 的 一些 问题。 举 个 例子, 我们 语音识别 里面 的 经典 的 鸡尾酒会 的 问题。 比如说 开 一个 party, 很多人 在一起 讲话, 那么 人是 有 能力 听懂 其中 的 某 一个人 的 讲话 的。 但是 机器 在 这种 场景 下, 因为 非常 的 嘈杂, 对于 他 来说 是 非常 的 困难 的。 这个 真实的 应用 场景 的话, 可能 比如说 会议, 采访, 这些 里面 可能 都会 存在 这个 鸡尾酒会 的 这些 问题。
现在 其实 也会 有 一些 解决 的 方案。 比如说 我们 可能 用 麦克风 阵列 的 技术, 或者 是 说 我们 用 多 模态 的 技术。 麦克风 阵列 可能 就是 采用 更多 的 麦克风, 然后 来进行 更好 的 降噪。 多 模态 的话 可能 就是 我们 要 结合 语音 和 视频 的 信息。 比如说 你的 唇形 的 信息 跟 语音 的 信息 的 结合。 那么 可能 对于 这种 噪声 场景 下 语音识别 的 问题 的话 就可以 更好 的 解决。 我 觉得 这个 可能 是在 语音识别 类 这个 方向 的 一个 接下来 在技术上 的 一个 研究 的 热点, 或者 是 说 也是 我们 必须 要 攻克 的 问题。
语音 合成 方向 的话, 为什么 我们我们 现在 听 的 一些 语音 合成 的 声音 还是 有 一些 机器人 的 感觉, 或者说 长时间 听 你 可能 还是 不 舒服。 这 里面 我 觉得 可能 第一个 要 攻克 的 一个 情感 的 问题, 怎么样 让 我们 语音 合成 出来 的 声音 更 具有 情感化。 第二个 发展 的 方向 的话, 口语化 的 合成词。
现在 很多 语音 合成 的 系统, 如果 你听 的 时间 非常 长 的话 会 觉得 不 舒服。 里面 有 一部分 原因 的话 是因为 我们 每 一句 的 声音 都会 非常 的 工整, 它 都 是一个 像 播报 类型 的 这个 声音。 你 时间长 了 听起来 会 就会 觉得 不 舒服。 人 他 其实 他的 声音 是 非常 的 自然 的, 它 里面 会有 一些 口语化 的 一些 内容, 停顿 等等 这样 一些 东西 在 里面。
如果 是在 可能 应用 层次 上面, 有没有 一些 可能 是 马上 大家 会 比较 兴奋 的 一些 应用。
方面 我 觉得 最大 的 一个 方向 的话 还是 与 交互。 其实 语音 交互 发展 的 这么多年, 到 目前为止, 他 可能 还是 在 垂直 领域 做 的 比较 好用。 但是 如果我们 在 更加 开放 的 领域 怎么样 做得 更好? 如果 这个 方向 突破 的话, 它 其实 在 很多 领域 都会 得到 应用。
第二个 大 的 领域 的话, 可能 就是 跟 我们 媒体 相关 的 海量 音频 的 转写。 这个 也是 一个 非常 重点 的 一个 方向。 也就是说 比如说 我们 现在 其实 是 有 很多 短 视频, 有 很多 媒体 每天 都会 产生 大量 的 这个 视频 的 信息。 这个 视频 的 信息 它 其实 是一个 非 结构化 的 无 组织 的 一个 信息。 怎样 把 这些 信息 更 高效 的 转 写成 文本, 然后 更 高效 的 进行 内容分析, 变成 一个 有 结构化 的 信息 能够 存储 下来。 这个 也是 未来 几年 发展 的 一个 很 重要 的 方向。
好的, 这个 确实 是 跟 我们 还 蛮 息息相关 的。 因为 我们 其实 在 平常 录播 课 的 时候, 还是 希望 是 把 它 转成 文本。 然后 我们在 文本 上 编辑 可能 会 更 快一点, 再去 再 进行 剪辑。 这样的 协调 下来 的话, 可能 我们会 省 蛮 多 时间 的。
是的, 那 反正 跟 反正 今天 跟 您 聊 下来, 就 感觉 我们 短时间 可能 还是 不会 失业 的。 然后 未来 如果 是 有 更好 的 大脑 这样的 这个 A I 然后 再加上 语音 的 训练 的 这样的 一套 表格, 我不知道 怎么 来 描述 他。 但 即使 是 那样的 比较 诚心 的话, 我 还是 需要 我们 告诉他 去 聊 什么 内容, 然后 有 结构化 的 去 聊, 到时候 我们 就可以 更 少 时间 的 去 工作。 然后 只要 告诉他 去 怎么 去 工作 就 OK 了。 如果 是要 畅想 一下 的话。
对, 也许 可能 有一个 采访。 那么 如果说 将来 有一天 是不是 机器 知道 你 要 采访 的 人, 那么 他 可能 可以 根据 这个 采访 人的 特性, 他的 专业 领域, 可能 就 会给 你 生成 一个 采访 的 提纲, 甚至 可能 你 想 采访 的 什么 语言 文本 等等, 它 都 可以 给你 进行 一个 生成。 当然 它 是不是 你的 思想, 或者 是 说 是不是 你 真正 想要的, 那 我 觉得 人类 其实 是 可以 进行 进一步 的 加工 的。
好的, 今天 非常感谢 高院 帮 我们 科普 了。 最新 的 可能 是在 AIGC 在 声音 领域 方面 的 一些 应用, 以及 未来 我们 可能 会 在哪 一些 方面 看到 AIGC 声音 领域 的 一些 新的 技术 和 应用 的 发展。 非常感谢 今天 参加 我们的 节目, 谢谢 高原。
感谢 林 老师。
另外 节目 的 最后 也 想 告诉 大家, 我们 为 科技 早知道 的 听众 准备 了 三套 讯 飞 听见 专 享 卡, 包含 同 传 录音、 转 文字 以及 小语种 转写 不 限量 等 权益。 大家 可以在 我们 本期 节目 的 评论 区 或者 生 小英 微信 的 朋友圈 里面 留言, 我们 将 随机 抽取 三位, 结果 将在 下期 节目 上线 前 评论 区 公布。 这 期 what nex 科技 早知道 就 到 这里 了。 听 完 之后 如果你 有 任何 的 想法, 欢迎 在 评论 区 里面 给 我们 留言, 我们 每 一条 都会 认真 的 看。 如果 你喜欢 我们的 节目, 请 记得 给 我们 五星 或者 好评, 分享 给 更多 的 朋友, 也会 对 我们 非常 有 帮助。 你 也可以 单独 写邮件 给我, 邮箱地址 是 听 T I N G 艾特 声 点 F M, 我 都会 一一 回复。 同时 公众 号 和 微博 也可以 搜索 生动活泼 声 是 声音 的 声, 节目 相关 的 更多 信息 会 在 公众 号 里 出现, 微博 和 公众 号 都 会有 不定期 的 福利 给 到 大家。
如果你 想要 跟 我们 更加 紧密 的 讨论 和 分享, 或者 是 想要 认识 和你一样 有 求知欲 的 新 朋友, 可以 加入 我们的 微信 群。 进入 听众 群 的 方法 是在 公众 号 文章 中 扫 码 添加, 或者 是 公众 号 后台 回复 科技 早知道, 即可 获取 邀请码。 期待 你的 加入, 我们 下期 见。