We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode S6E40|从单模态到多模态,人工“智障”何时才能不鸡肋

S6E40|从单模态到多模态,人工“智障”何时才能不鸡肋

2022/11/30
logo of podcast What's Next|科技早知道

What's Next|科技早知道

AI Deep Dive AI Chapters Transcript
People
高建清
龙海涛
Topics
龙海涛:从AlphaGo的冲击到成立认知计算实验室,再到创业公司起源世界,专注于AI决策、AI生成和AI推理,最终目标是AGI。在游戏领域,起源世界提供虚拟玩家、AI设计师等解决方案,显著提高游戏开发效率。多模态AI是未来发展方向,目前商业化处于早期阶段。 龙海涛:起源世界专注于多模态AI,并将其应用于游戏、数字人等领域,实现实时互动。多模态AI技术复杂,商业化进程较慢,但未来市场空间巨大。 龙海涛:单模态AIGC商业化进程快,因为是对存量市场的升级,而多模态AI则创造新的需求。AI技术发展成熟度影响商业化进程,目前更适合线下生成。 龙海涛:起源世界选择从游戏AIGC入手,是因为游戏是验证AI能力的理想环境,并已在多个游戏中取得成功。AI可以显著提高游戏开发效率,例如缩短数值设计和武将设计时间。 龙海涛:AI算法比行为树算法更优,因为它可以从数据和经验中学习,上限更高。AI在游戏中的应用开发周期因场景而异,数值设计和AI设计师的开发周期较短,而虚拟玩家和虚拟角色的开发周期较长。 龙海涛:AI公司面临技术研发和商业化的双重挑战,起源世界通过技术和商业齐头并进的方式来应对。AI公司需要自给自足,才能长期生存。 龙海涛:元宇宙为通用人工智能提供了很好的载体和母体,而通用人工智能反过来可以为元宇宙创造内容和体验。 龙海涛:起源世界在数字人领域专注于虚拟人的智能化,并已有一些商业应用。AI驱动的对话系统应用于电商直播等实时互动场景。 龙海涛:数字人技术中最难的部分是眼神和微表情的驱动,而口型驱动相对成熟。未来三到五年内,大部分虚拟偶像的中之人都会被AI取代。 龙海涛:AI推理能力的突破需要底层科学技术的突破,时间难以预测。AI发展速度比预期更快。未来AI发展目标是创造高度智能、高度拟人、拥有情感的数字生命体,作为情感陪伴和生活助手。 高建清:科大讯飞在语音合成和语音识别领域取得了显著进展,并开发了相应的商业化产品。AI生成播客的关键技术在于语音合成和对话文本生成,语音合成相对成熟,而对话文本生成难度更大。 高建清:语音合成模型训练成本和时间相对较低,而图片生成模型则需要大量无监督数据和较长的训练时间。AI生成高质量对话文本的难度比语音合成更大,需要考虑观点的逻辑性和连贯性。 高建清:目前先进的语音合成系统已经能够达到很高的质量,与真人语音的差距很小。无文本语言翻译的难度很大,需要大量的平行语料。 高建清:AI语音合成技术在电影领域已有应用,但其商业应用仍处于早期阶段。语音合成技术的最大商业应用领域是语音交互,其次是听书、新闻播报和短视频制作。 高建清:未来语音交互将朝着个性化、情感化方向发展,成为有情感陪伴的系统。在技术领域,语音识别和语音合成是两个重要的方向,需要解决复杂场景下的语音识别问题和提高语音合成的自然度和情感化程度。 高建清:未来语音交互应用场景将更加广泛,例如开放领域的语音交互和海量音频的转写。

Deep Dive

Chapters
This chapter explores the rise of AIGC (AI-generated content) and its impact on various industries, focusing on its application in gaming. The discussion includes the evolution of AI, from decision-making to content generation, the potential of AIGC to revolutionize game development, and the shift from single-modal to multi-modal AI.
  • AIGC is revolutionizing content creation across various industries.
  • Multi-modal AI, integrating text, voice, expressions, and actions, is expected to have the greatest market impact.
  • AIGC can significantly reduce game development time by automating content creation, potentially shortening development cycles from years to months.

Shownotes Transcript

用 声音。

碰撞。

世界 生动活泼。 Hello, 大家好, 我是 丁丁, 欢迎 收听 全新 一期 科技 早知道。 Hello, 大家好, 欢迎来到 我们 今天 的 科技 早知道。 说到 今年 逆势 增长 的 科技 趋势, 镜头 最 猛 的 就是 AIGC 了。 AIGC 的 全称 是 A I generated content, 翻译 过来 就是 人工智能 内容 生成。 我们 今天 的 节目 分为 上下 两个 部分。 我们 分别 邀请 到了 起源 世界 的 联合 创始人 兼 C T O 龙 海涛 和 科大 讯 飞 A I 研究院 的 副院长 高建 清 两位 来 聊 AIGC 的 话题。 他们 在 这 波 AIGC 热潮 出来 之前, 就 已经 在 这个 领域 耕耘 多年 了。 所以 今天 请 他们 来 聊 一 聊 这个 领域 的 商业化 和 产品 落地, 以及 怎么 平衡 技术开发 创新 和 商业化。 并且 展望 了 未来 的 发展方向, 希望 这 期 节目 能 给 大家 在 AIGC 领域 带来 一些 新的 认知。 好了, 下面 就是 我们 今天 的 节目。 Hello, 龙 总, 你好你好。

你好。

在 我知道 您 一直 是在 A I 这个 领域, 您 大概 帮 我们 介绍 一下 您 的 背景。

我是 13年到17年 是在 阿里, 主要 负责 阿里 的 搜索 广告 系统 的 架构设计, 也是 主导 了 新一代 的 这种 离线 系统, 在线 引擎, 商业化 的 这种 业务 系统 的 架构设计。 当时 高峰 的 时候, 接近 可能 就是 阿里 的 一半 的 收入 都是 跑 在 这个 系统 上面。 16年 双十一 之后, 我们 又 成立 了 一个 叫 认知 计算 实验室 的。 当时 也是 看到 阿尔法 狗 横空出世 以后, 就是 击败 李世石。 然后 当时 对 我们 这些 做 这种 传统 机器学习 的 同学 是一个 很大 的 一个 技术 上 的 一个 冲击。 第一次 看到 就是说 可以 有一个 系统 能够 从零开始, 然后 通过 自我 的 这种 学习, 然后 去 达到 一个 人类 的 一个 水平, 甚至 超过 人类 的 一个 水平。 所以 那 之后 我们 就 成立 了 一个 认知 计算 实验室。 当时 就 选择 用 星际争霸 这个 游戏 来去 研究 这种 复杂 环境 下 的 这种 动态 决策 的 问题。 当时 也是 可能 是 世界上 第一篇 就是 用 深度 强化 学习, 在 这个 星际 这么 复杂 的 环境 里面 解决 当时 是 微操 的 这样的 一个 场景, 当时 也是 发 了 一个 paper, 我们 当时 叫 big net。 然后 17年之后, 我们 就 从 阿里 出来 创业 然后 成立 在 全世界, 目前 在 起源 世界, 我是 担任 C T O, 然后 主要 负责 是 平台 和 产品 相关 的 工作。

一开始 大家 可能 对 起源 的 这个 认知 是在 这个 游戏 的 AIGC 的 领域。 但是 好像 经过 这几年 的 一些 商业化 的 摸索, 其实 现在 起源 也是 扩展 到了 非常 多 的 一些 AIGC 的 其他 的 领域。

是吗? 当时 其实 最早 的 时候 是 发 paper, 是在 这个 游戏 环境。 当时 选择 游戏 环境 来做 这个, 其实 我们 公司 的 目标 是 做 A G I, 就是 通用 人工智能。

其实 通用 人工智能 它 经历 了 有 几个 阶段。 从 最早 其实 像 丁 曼 的 open I 他们 都 是在 像 阿尔法 狗、 阿尔 star, 然后 dota 这样的 一些 游戏 里面 去做 这种 实验, A I 的 决策 能力, 这是 其实 是 第一个 阶段, 我们 叫 A I 决策。 然后 从 G T 开始 的话 就是 往 这个 A I 生成。 这 其实 都 是在 拼 这个 A G I 的 一个 拼图。 A I 生成 这块 就是现在 我们 今天 讨论 的 AIGC 这块 的 文本 生成 的 图像 生成, 那 我们 看到 我们 自己是 有一个 一个 路径 图 的那 A G I 其实 后面 还有 一 块拼图 是 我们 叫 A I 推理。 你 发现 就是说 从 A I 决策 A I 生成 A I 推理, 这样的话 可以 拼出 一个 A G I 的 这样的 一个 拼图。 目前 我们 现在 是在 AIGC 的 A I 生成 的 这个 阶段。

其实 我们 最早 的 时候, 17年 的 时候 是在 做 A I 决策 这块 事情 比较 多一些。 当时 我们 也是 选择 像 星际争霸 这样的 一个 环境 来 去做 我们的 实验。 自然而然 就是 我们 从 游戏 里面 来, 然后 去 应用 到 游戏 里面 去做 商业化, 其实 也是 比较 自然 的 一个 路径。 所以 我们 基于 前面 做 的 这些 A I 决策 和 I 生成 的 这些 能力 的话, 目前 是 在游戏 行业 里面 是 提供了 一些 解决方案。 比如说 这个 虚拟 玩家 就是说 在 一些 游戏 里面 去 填充 一些 生态, 然后 去 做 一些 这种 心理 的 控制。 就 用 一些 高度 智能, 高度 理 人的 这样的 一些 机器人 在 里面, 去做 这种 托管 的 温暖 橘, 去 提升 整个 的 游戏 这种 体验 和 留存。

所以 我们 说 的 N P C 未来 可能 就 不是 代表 了 这个 意思 了。

N P C 对, 还有 N P C 就是 虚拟 角色 这 一块。 然后 这块 的话 主要 就是说 像 一些 语言 的对 画, 然后 他的 一些 剧情 的 发展 推动, 他的 一些 自主 行为, 包括 模拟 出来 一个 小的 这种 小 社会 一样。 这些 N P C 能够 在 里面, 就像 福瑞 盖 一样, 在 那个那个 自由城 里面, 他 自己是 有 自己的 这种 生活 线, 那个 电影 是 吧? 对, 有 自己的 性格。 这个 是 展望 将来, 就是 虚拟世界 的话, 应该 是 会 是一个 这种 数字 原住民 的 这种 概念 的 一个 存在。 这块 也是 我们 重点 在 做 的 一块 内容。 然后 第三块 可能 就是 我们 叫 A I G C 的 这种 设计师 设计师 的话 就 设计 一些 像 这个 关卡 的 这种 生成, 数值 的 生成, 包括 一些 美术 资产 生产 的 整个 游戏 行业 里面 非常 需要 的 这样的 一个。

因为 游戏 它是 一个 高度 的 内容 的 一个 重度 的 这样的 一个 产业。 其实 你 发现 一个游戏 它 开发 个 两年、 三年、 五年 都 是一个 很 常态 的 事情。 其实 大部分 的 时间 都 是在 做 内容, 像 一些 3D的 资产, 场景、 角色 等等。 那 现在 为什么 像 L G C 在 游戏 行业 里面 能够 引起 这么 大 的 一个 震动, 就是 包括 生成 一些 图片。 那 其实 也是 想 这个 东西 可能 是 会对 游戏 产业 有一个 很大 的 一个 推动。 如果说 能够 把 这些 现在 还是 在 2D, 如果 将来 3D资产 也 能够 生成 的话, 那 会 从 原来 可能 五年 时间 变成 缩短 到 一年 时间。 这个 可以 想象 整个 对 行业 的 这样的 一个 对 颠覆式 的 一个 生产 效率。 所以 这个 就是 我们在 游戏 行业 里面 的 一些 商业化 落地 和 技术 的 积累 的 一些 方向。

除此之外, 其实 我们在 向 数字 人 行业 也是 有 一些 尝试 和 商业化 的 落地 的 一个 情况。 因为 之前 大多数 的 做 数字 人的 都是 一些 会 注重 阿瓦 塔 它的 皮 的 这块 的 东西, 就 他的 形象、 姿态 等等 这样的。 但 其实 它 后面 大多数 都是 像 中指 人 或者 是 一些 固定 的 文本 在 驱动 的那 现在 我们是 希望 利用 AIGC 的 能力, 在 数字 人 里面 的话 去 取代 这些 真人, 或者 部分 取代 这些 真人, 然后 用 A I 的 方式 去 驱动。 这 里面 就 包括 像 这种 表情 的 这种 驱动, 然后 他的 口型, 他的 一些 肢体 动作, 然后 包括 对话 系统。 那 这块 的话 我们 就 希望 能够 有一个 7乘24小时 都 可以在 用 A I 来 驱动 的 这样的 一些 形象。

因为 我们 其实 在 节目 当中 之前 聊过 一些 海外 的, 像是 GPT three, 然后 包括 lambda 最近 其实 都是 蛮 火 的。 但 它 其实 只是 这个 AIG4 的 一小部分。 其实 游戏 里 他 刚刚 您 讲 到了, 其实 涉及 的 是 非常 广泛 的。 可能 这个 游戏 里面 的 虚拟人, 这个 虚拟 玩家, 他的 生成 的 对话, 就是 一个 文本 的 生成, 对 吧? 然后 他 可能 我们 现在 看 的 像是 更多 的 这些 图片 的 生成。 可能 刚才 讲 的 其实 在 设计 这 一块, 其实 已经 是 二弟 的 这样的 A I 的 生成 已经 在 使用 了, 是吗? 所以 可能 游戏 是 其实 是 集 各种 技术 大成 的 这样的 一个 应用 的 场景。

对 游戏 的话 包括 数字, 我们 跟 一般 的 A G C 的 一些 方向 可能 还 不太 一样。 它 区别 主要是 在 两点, 第一点 就是说 大多数 的 I G C 目前 它 都 是一个 单 模态 的 这样的 一个 方向。 比如说 我 就 专注 在 文本 对 吧? 比如说 jasper A I 国外 的 一个 公司, 它 就是 帮助 这些 创作者 去 辅助 生成 一些 文案, 包括 像 营销 文案、 广告文案 这样的, 有些 是 纹身 图 的 这样的 一些 公司 对 吧? 它 就是 生成 一些 图片, 像 stable division 这样 些 公司。

其实 我们是 偏向 多 模态 的。 刚才 讲 的 文本、 语音、 表情、 肢体 动作、 行为 决策 等等。 这些 东西 集成 到 一个 我们 叫 A I 鼻影 的 这样的 一个 新物种 了。 背后 的话 是 通过 这个 A G I 或者 A I G C 的 这样的 技术 来去 驱动 的。 它 表现出来 是 一个多 模态 的 这样的 一个 高级 的 一个 形态。

第二点 就是 我们会 偏 实时 互动 一些, 就 是不是 那种 偏 静态 的 辅助 创作 的 这样的 一个 心态。 那是 互动 它 会 像 游戏、 虚拟世界、 数字 人, 它 其实 都是 偏 这种 实时 交互 的那 这块 要求 会 更高 一些。 不管 从 工程 上 还是 从 算法 上 来讲, 我们 也是 觉得 这样的 一个 形态, 它 会 是 将来 市场 贡献 最大 的 一个 一 赛道。

因为 我们 可能 是 期待 未来 是 web 3的这样的 一个 更多 虚拟 的 场景 的 发生。

还是 对 就 我们 期望 的 未来 的 一个 场景, 可能 是 越来越 这种 3D化, 曾经是 场景 化 对 吧? 那 里面 是 有 这样的 一些 虚拟 角色。 然后 在 虚拟世界 里面, 这个世界 是 足够 的 大, 内容 足够 丰富。 然后 里面 的 这些 虚拟 角色 它 足够 智能, 足够 的 拟人, 那 这 里面 都 需要 像 A I 的 一些 强大 的 能力 来去 生产 内容, 然后 去 提供 很 沉浸式 的 这种 体验。 这块 都会 用到 A I 的 这些 技术。

像 海外 您 有没有 看到 像是 这种 多 模态 的 A I B N, 他们的 这个 落地 和 他们的 现在 商业化 的 情况 是 怎么样 的?

在国外 就是 有 一些 创业 公司 在 做 这块 的 工作, 比如 像 有 一家 公司 叫 in word。 英特尔 的 A I 这家 公司 的话, 目前 是 他们 应该 是从 google 的 一个 团队 出来 的。 他们 做 的 事情 会 跟 我们 有 一些 像。 他是 做了 一个 A I 的 角色 生成 的 这样 一个 平台, 它 可以 提供 一些 工具, 然后 跟 像 这个 epic 的 real 引擎, unity 引擎 能够 集成。 然后 允许 这个 professional 的 这种 专业人员 或者 是 user, 他 可以在 上面 创建 这种 A I 的 虚拟 角色。 可以 定义 他的 一些 人设, 他的 性格, 他的 情绪 状态 形象, 就可以 放到 一个 虚拟 场景 里面。 然后 你 就可以 跟 他用 这种 超自然 的 对话, 然后 他在 里面 可以 跟 你 比较 自然 的 去 应答。

这块 的话 我们 先 看 他们 也是 在游戏 这种 社交 元 宇宙, 还有 像 迪士尼 这样 一些 公司 合作。 然后 整体 来看 就 这 一块 还是会 是在 商业化 的 一个 早期 的 一个 情况。 对, 因为 它 应该 是 AIGC 里面 最 复杂, 然后 技术 实现 方面 也会 最有 挑战 的 一个 方向。

对, 因为 您 刚刚 讲 的, 其实 单 模态 我们 看 的 最近 其实 蛮 多 的, 就 特别是在 融资 市场上 是 特别 火热 的。 像 刚刚 讲 的 像 jasper 他 也是 刚 拿了 好像 超过 1亿美元。 我 看到 好像 应该 是 这 两天 的 信息 是 notion 这种 文本 的 这样 工具 的, 他们 也 开始 在 做自己 的 A I 了。 然后 可能 帮你 建议 一些 搜索 结果, 帮你 建议 一些 标题, 建议 一些 你 编辑 的 这些 内容。 可能 下一步 大家 猜 是不是 像是 grammar 这种 可能 帮助 你 写作 的 工具, 他们 也会 A I 化。 所以 单 模态 的 感觉 好像 最近 的 它的 商业化 会 更加 起来 了 一些。

对, 然后 之前 是 这个, 我不知道 您 其实 从 2017年 到 现在, 其实 已经 过了 蛮 长 一段时间 了。 在 整个 AIGC 的 商业化 这 一块 是 怎么样 的 一个 变动 或者 是一个 变迁。 您 看到 的对。

确实 是 这样的, 就是 单 模态 的 文本、 图像、 视频 这块 会 做 比较 靠 前。 因为 它是 一个 存量 市场 的 一个 颠覆 或者 一个 升级, 所以 它的 市场 其实 不用 去 验证, 就 它 以前 也 需要 写作, 对 吧? 也 需要 这种 图片 这些 内容。

比如说 我们 现在 用 AIGC 的 手段, 能够 向 十倍 速 或者 百倍 速 的 这个 效率 去 提升 的那 它 显然 就是 非常 快 的 就可以 起来。 所以 这个 也是 在 通过 这些 创业 公司 的 他 都 的 一些 商业化 的 一些 数据, 也可以 看到 对 吧? 像 国外 的 一些 这种 比较 成功 的 SaaS 公司, 它 其实 每年 都是 有 大 几千万 的 这种 收入 的, 就是 起来 的 非常 快。 那 像 A I bin 这个 市场 就是 多 模态 的 这块 的, 其实 它是 一个 一些 新的 需求 的 一个 创造。 所以 这块 的话 它的 商业化 的 进程 或者说 它 会 比较 远 一些, 目前 还是 比较 早期 的 一个 状态。 对, 但是 它的 是 空间 可能 是 将来 是 更大 的 一个 情况。

感觉 好像 像 刚刚 讲 的, 像 单 模态 这种 大公司, 好像 也是 比较 担心 自己的 这个 生意 会不会 被 这个 创业 公司 抢走了。 然后 不管 是 google 还是 microsoft, 其实 都在 往 这个 方面 在 投资 和 做 这样的 产品。 就 感觉 是人 有 我也 一定要 有, 要不然 就 可能 在 落后 整个 市场 了, 大家 可能 是 这样的 一种 焦虑。

大公司 肯定 也会 去做, 就像 adobe 或者 是 微软 对 吧? 那 微软 本身 它 也是 投资 了 A I 那 最近 他们 应该 也是 发布 了 一个 工具。 对, 也是 基于 大力 的 主模型 在 上面 做 这种 应用。 但 现在 这种 垂 类 的 这种 萨斯 公司 应该 市场 也 足够 大。 然后 他说 如果说 在 一个 垂 类 能够 把 这块 技术 结合 场景, 能够 把 体验 做到 非常 极致 的话, 其实 它 也是 有 它的 生存 的 空间 的那 另外 一点, 其实 为什么 说 单独 它它 会 起来 比较 快 呢? 其实 也是 跟 技术 的 一个 发展 成熟度 是 有关系 的那 其实 现在 的 像 AIGC 的 这种 技术 的话, 它是 比较 适合 线下 的 这种 生成。 因为 它 现在 就 刚才 讲 了, 就是 A G I, 它是 A I 决策, A I 生成 A I 和 这个 推理。 其实 现在 A I 还 缺失 推理 这块 的 能力, 所以 现在 的 A I G C 的 内容 它 其实 是不是 那么 可控 的。

举 个 例子, 它 有点像 玩 老虎机 一样, 就是说 我 生成 十次 可能 有 五次 挺好的。 然后 有 一是 特别 惊艳, 然后 可能 还有 两三次 是 这种 bad case 的 这种。 这个 就是说 这样的 一个 技术 成熟度, 它是 比较 适合 做成 这种 线下 的 这种 生成。 包括 像 这种 一起 编程, 像 github 他们 做 那个 copilot 就是 一起 编程 这种。 我 其实 线下 我 去 只要 14里面 我 有 一次 是 比较 好的。 那 它 其实 就 已经 是 非常 好的 一个 结果 了。 比 它 之前 人工 去做 的话, 如果说 我们 要 用 在线 上 实时 的话, 那 它 要求 就 非常 高了。 那你 可能 要 做到 90% 以上 或者 95%, 他 要 都是 非常 好的 一个 质量, 那 才有可能 一个 大规模 的 商业化 的 一个 应用。 因为你 很难 想象 说 我 跟 一个 N P C 或 一个 数字 人, 你 跟 他 聊天 50%.

70% 还都 是 一些 奇奇怪怪 的 东西。

你 没 奇怪 的 东西 的话, 那你 可能 就 聊个 几轮 就 不想 再聊 了, 对 吧? 那 当然 现在 可以 结合 一些 工程 的 手段, 然后 包括 整个 A I 的 G C 的 质量, 确实 也是 在 飞速 的 一个 提升 的 过程。

像 当时 这个 起源 一开始 就 走 游戏 的 AIGC, 其实 它是 更 复杂 或者 是 更难 的 一条路。 为什么 会 可能 考虑 先 走 这条?

可能 跟 我们 公司 的 一些 使命 和 愿景, 还有 这个 激情 有 一些 关系。 对, 我们是 20年 6月份, 然后 在 北京 大饭店 举办 了 一个 星际 的 一个 比赛。 当时 是 邀请 了 两位 我 也就是 职业 的 冠军 选手, 来去 检验 我们在 星际 里面 的 A I 的 一个 水平。 打了 四场, 然后 四场 都是 A I 取得胜利。 那 现在 像 阿里 的 这种 三国志 战略版 类似的 外国 觉醒, 像 这样 一些 大游戏, 其实 都是 我们的 合作 的 一个 合作伙伴。

这种 大 的 这种 策略类 游戏。 他 每次 要 推出 一个 新的 武将, 新的 英雄 的 时候, 他是 会 去 策划 去 看 这个 英雄 出来 以后, 会对 我 现有 的 这个 阵容 会有 一个 什么样 的 影响。 他 会有 自己的 一个 预期。 以前 的话 他 会 通过 一些 传统 的 做法 去做, 从 它的 设计 到 验证, 可能 需要 一个月 甚至 两个月 的 时间 才能 看到 新的 武将。 那 他 对 这个 书 体系 的 一 影响 到底 是 怎么样 的那 现在 通过 我们的 系统 做 完 以后 的话, 可以 把 这个 时间 缩短 到 2到5天, 快 的话 就 两天, 就可以 把 这套 数值 能够 设计 的 更加 的 平衡。

包括 像 虚拟 角色 战旗 类 游戏, 每个 玩家 他 要带 五支 队伍。 然后 这个 队伍 里面 他 又要 从 上百 五家 里面 去 挑选 组成, 然后 每个 武将 又有 好几个 这种 战法, 组合 起来 是一个 可能 10到20次 方 的 这样的 一个 大 的 这样 搜索 空间。 传统 做法 它是 用 这种 行为 数据 去 控制, 其实 非常复杂, 然后 很 容易 出 这种 问题。 现在 其实 用 我们的 新的 这种 A I 的 方法 去 做了 以后 的话, 现在 目前 可以 达到 自身 的 这种 策划 的 水平, 就 人类 的 这种 水平。 并且 是 可以 很快 的 适应 各种各样 的 地图。 地图 它 有 上 百张 可以 看到, 就是 用 A I 计算 方式 能够 去 大幅 的 提升 这种 生产 的 效率。 其实 在 我们的 客户 里面 的话, 他 其实 把 已经 把 原来 所有的 这个 行为 数 的 全部 换成 A。

其实 行为 数 之前 也都 是一种 算法 是吗? 但 只不过 是 现在 可能 A I 的 算法 更优 一些。

行为 树 其实 它是 一种 专家系统, 它是 通过 写 这种 规则 编程, 它 其实 下限 会 比较高 一些。 因为 它是 通 个人 去 写 的, 那 有一个 保证, 但是 它 上限 就会 比较 低, 那 取决于 说 这个 工程师 的 编码 能力, 以及 他的 领域 知识 对 吧? 像 阿尔法 狗 下棋 的话, 它 就是 完全 另外 一套 就是 通过 构建 一 环境, 然后 他 自己 学习, 从 数据 里面 学习, 从 经验 里面 学习, 那 它 下限 可能 比较 低。 如果说 你 算法 做 的 不好, 那 它 趋于 随机 对 吧? 那 它是 但是 它 上限 会 比较高。 你 只要 堆 机器, 然后 给他 更多 数据, 他的 智力 水平 就会 指数 的 提升。

就 比如说 一个 像是 刚刚 您 讲 的 两个 案例, 他们 在 训练 整个 这样 A I 的 过程, 他的 这个 时间 会 更长 吗? 还是 其实 他是 有一个 就像 sas 软件 一样, 让 它 其实 很快 的 能够 被 企业 所 应用。 它的 这个 开发 的 周期 会 是 很长 吗?

其实 数值 设计, 包括 A I 设计师 这 一块 的话, 其实 是 比较 快 的那 我们 前面 第一个 案例 是 做 的 会 稍微 长 一点 时间, 大概 花了 三四个 月。 但是 在 第二个 案例 的 时候, 就 我们 做 完 三国 战略版, 然后 再 迁移 到 这个 万国 觉醒 的 时候, 其实 只 花了 一个月 的 时间 就可以 应用 到 线上。 然后 虚拟 玩家, 虚拟 角色 的话 就会 周期 会长 一些。 因为 它 涉及到 一些 对接, 然后 游戏 环境 的 改造, 这块 时间 是 会 花 的 多一些。 训练 的话 主要 也是 看 场景, 如像 这种 3D的 射击类 的 游戏, 这个 就会 训练 的 时间 会长 一些。 因为 它是 非常复杂 的 一个 场景。 它的 大 地图 几公里 乘 几公里 的 这样 大 地图, 然后 两三个 月 的 时间, 这样 才能 做到 一个 比较 好的 一个 水平。

在 过去 的这 几年 的 创业 当中, 您 是 觉得 可能 商业化 的 困难 更大 一点, 还是 可能 在 技术 研发 的 上面 会 更 困难 一些, 还是 这 两个 其实 是 并行 的?

其实 都是 比较 有 挑战 的。 就 我们 所在 的 这个 领域 的话, 是 本身 他 技术 也是 在 不断 的 在 突破 一些 瓶颈。 从 最早 能够 自主 学习, 自主 决策, 然后 到 能够 自己 生成, 自己 能 理解 对 吧? 那 到 后面 可能 可以 自己 推理 等等。 其实 这个 整个 的 技术 的话 也是 在 一个 重重的 这种 挑战。

然后 商业化, 其实 我们 坚持 这 五年 时间, 其实 我们是 有 自己的 一套 方法论 的。 就是说 技术 和 商业 我们是 要 齐头并进。 技术 成熟 到 一定程度, 我们 就 解锁 相应 的 一些 场景。 所以 我们 从 一开始 17年 的 时候, 我们是 专注 在 决策 这块 的 技术。 然后 对应 的 一些 场景 就是 一些 工业 仿真 的 数字 仿真, 这样 智能 决策 的 一些 产业 端的 一些 商业化 落地。 再 往后 的话, 我们 A I 生成 这块 AIGC 的 能力 上来 以后, 我们 又 在游戏 在 数字 人 这块 去 解锁。

以 终 为 始 的 这样 倒推。 然后 研发 的 目标 是 这样 的对 对。

就是 每一步 就是我 的 技术 成熟度 跟 我的 商业化 是要 能够 匹配 的对, 我们我们 并 不是说 我们 纯粹 就 去 推动 A G I 的 边界, 然后 去做 这种 底层 的 科学研究, 对 吧? 也 不是说 那种 我 直接 拿 别人 的 A P I 拿 别人 模型 过来, 然后 我 只 做 垂 类 的 这种 商业化。

还是 蛮 实打实 的。 并不是, 因为我 觉得 今天 跟 您 聊, 也 主要 是因为 其实 您 进入 了 好几个 A I 这个 周期。 像 1617年 其实 是一个 刚才 讲 的 阿尔法 狗, 然后 刚 出来 其实 是 有一个 A I 的 投资 热潮 的。 因为 当时 可能 没 那么 多 落地 的 场景, 但是 公司 需要 长期 的 发展, 需要 活 下来。 所以 到 现在 可能 又是 一个 小的 增长 的 一个 周期 了。 可能 很多 A I 的 公司 就 活 不到 现在 就 已经 挂掉 了。 所以 我 觉得 你们 可能 是在 商业化 上面 是 做 的 非常 的 聪明 的对。

这个 也是 其实 也是 市场 的 一个 倒逼 的 一个 情况。 因为 A I 公司 它 确实 要 能够 自己 造血, 然后 自己 养活 自己, 这个 是 我们 这几年 一个 心得。 对。

这 一个 小的 热潮 可能 从 去年 开始, 因为 元 宇宙 这个 概念 又 突然 出现了。 然后 对 起源 这样的 公司 来说, 他 你们是 怎么样 看到 这样的 一个 小的 周期 的 或者 大 周期 我不知道, 因为 没有 办法 预见未来。

对, 因为 我们 从 17年 出来 的 时候, 当时 就有 一个 公司 的 一个 内部 的 一个 slogan, 就是 我们 叫 打造 通用 智能, 然后 构建 平行世界。 第一次 融资 的 时候, 那个 P P T 第一页 就是这样 的 一个 东西。 然后 我们是 构建 了 一个 我们 觉得 是一个 双螺旋, 这边是 平行世界, 那 当时 没有 元 宇宙 这个 概念, 然后 这边是 通用 智能, 那 其实 就是 平行世界 或者 元 宇宙。 它 其实 为 这个 通用 智能 提供了 一个 很 好的 一个 载体 和 母体。 因为 它 在 里面 就是 提供 场景, 然后 提供数据, 然后 去 定义 我们的 这个 通用 智能。 那 反过来, 通用 智能 出来 以后, 其实 我们的 这些 造出来 A I B 都 可以 服务。 在 这个 虚拟世界 里面 创造 内容, 然后 创造 这种 A I 角色 和 互动 体验。

在 数字 人 这 一块儿, 其实 去年 已经 有 蛮 多 的 可能 像是 中指 人 这种 东西 在 出来。 但是 你们 其实 是 专业 在 怎么样 想 把 这个 游戏 虚拟人 的 智能化, 在 这个 方面 还是 做了 很多 的 尝试 和 深挖 的这 块儿 已经 有 一些 商业 应用 了。

这块 其实 我们 还没有 对外 披露, 也是 在 做 一些 商业化 的 落地 和 尝试, 主要 有 一些 比较 快速 的 一些 落地 的 场景。 比如说 这种 A I 区 动 他的 口型 表情 这块 是 比较 成熟 的 一些 技术方案 都 可以 做。 包括 前段时间 我们 参加了 世界 人工智能 大会 的 一个 比赛。 他 就是 去 驱动 这种 口型, 分了 两组 测试, 一组 测试 是 十个 真人 去 评判, 就是 跟 针对 中指 人 驱动 的 口型 它是 是不是 吻合。 然后 还有 一些 就是 通过 一些 指标 去 判断。 这块 我们 两项 都是 拿了 第一 后, 也 是因为 这样 一个 比赛, 其实 有 很多 的 以前 做 数字 人的 形象 皮 的 这样 公司 来 找 过来 合作, 也是 需要 我们 通过 这种 A I 的 驱动 方式 来去 代替 掉 它 原来 比较 生产率 比较 低下 的 这样的 一些 终端 的 方案, 这块 目前 是在 一些 像 传媒, 金融, 一些 虚拟 员工 这样的 一些 场景 里面 在 落地。

第二块 就是 这种 对话 系统 之前 的话 都是 需要 人 在 后面 去 生成 文本, 或者说 他 只能 把 续 之如 搏 的话, 他 只能 去 练 一个 稿子 对 吧? 那 其实 现在 像 一些 电商 的 直播间, 像 这样的 一些 场景 的话, 它是 需要 跟 一些 观众 进行 一种 实时 互动 的那 这 里面 它 需要 一些 比较 强 的 这种 自然语言 对话 的 这样的 一个 系统, 能够 去做 这种 比较 顺畅 的 人机交互。 这块 其实 也是 我们 正在 商业化 落地 的 一个 场景。

所以 两边 其实 你们 都在 做 一个 他是 这个 外皮, 然后 一个 是 里面 的 这个 自然语言 的 生成。 所以 两边 来说 的话, 你们是 同时 在 发力 是吗? 因为 很多 公司 他 就 只是 专注 的 在 做 一块儿。

还 会有 别的 一些 方向。 这两块 其实 是 我们 比较 合适 的 一个 技术 方向。 然后 另外 像 对话 这 一块 的话, 确实 是 通用 人工智能 里面 非常 核心 的 一块 技术。 这块 其实 我们是 重点 在 做 这块 的 研发。 因为 像 语言 的话, 其实 是 人的 非常重要 的 一个 关键 的 一个 组件。

因为我 前几年 其实 在 硅谷 看过 的 公司, 他 也是 好像 先是 跟 一些 名人 开始 合作, 像是 奥巴马 或者 这样的 一些 名人。 然后 拿着 奥巴马 的 录像 来 训练 数字 孪生 的 这样的 一个 形象。 对, 然后 他们说 最 关键 最难 的 地方 就像 您 刚刚 讲 的, 其实 嘴 这 一块儿 就是你 嘴 的 这个 舌头 动 的 这样的 是 很 能够 分辨 出 你到底 是 真人 还是 这个 假人。 你 不能 这么说, 好像 不太 不是 很 专业, 所以说 这 一块 的 难度 是 最高 的。 不知道 您 能不能 跟 我 讲讲 这个 是 为什么? 然后 您 刚刚 讲 的 是 这个 可能 跟 中指 人 在 后面 和 这个 A I 这个 驱动 的, 为什么 这 一块 它的 这个 细节 也是 确实 这么 的 重要。

其实 口型 这块 是 确实 比较 关键 的 一个 部分, 但 其实 最难 是 眼神 这块 的 它的 驱动 然后 包括 一些 微表情 这样的, 然后 口型 目前 是 其实 走 的 比较 前面。 那 因为 通过 一些 数据通, 一些 算法, 它 就可以 拟合 的 比较 好。 那 这 里面 其实 比较 关键 还是 数据 这块 的, 那 数据 的 质量, 然后 加上 算法 的 一些 先进性。 现在 其实 眼神 这块 是 比较 难 做 的对。

会有 这种 uncanny valley 的 这样的 一个 效应, 就 做 的 特别 像, 其实 大家 会 觉得 很 可怕, 然后 大家 可能 不需要 那么 想。

其实 有 一些 做法, 现在 目前 比如说 他是 用 2D的, 你可以 理解, 就像 其实 换脸 一样, 对 内容 就是 特别的 真实。 你 基本 黔 实验室 有一个 主播, 然后 他 播 了 可能 有 好多天 就 没人 发现 他是 一个 是 吧? 是一个 A I 在那 播。 所以 这块 其实 也是 取决于 我们 要 应用 在 什么样 的 场景 里面。 它 相对 游戏 来讲 的话 就是 更加 的 短平快 一些。

然后 方案 也会 比较 偏 这种 sas 化 的。 像 刚才 讲 的 这种 直播 的话, 它 其实 推送 一个 视频流 过来 就 好了, 所有 东西 都是 在云端 就可以 做好。 然后 偏 这种 语言 的 驱动, 其实 它是 比较 通用 的, 它 不像 在游戏 里面 你 要 做 一个 A I 的 角色 或者 玩家 的话, 它是 跟 环境、 跟 你的 玩法、 跟 你 世界观 是 高度 耦合 的。 但 像 数字 人 的话, 它 会 更 SARS 化, 更 标准化 的 这样的 一个 交付。

因为我 感觉 好像 这种 真人 的 数字 人 好像 还 是不是 特别的 多是 吗?

偏 真人 的话, 它 其实 它的 互动性 就会 比较 弱 一些。 所以 你 看到 的 所有的 东西, 他 可能 都 是在 自己 播 诵, 所以 能 互动 的 基本 都是 那种 写实 的 或者 卡通 的。

明白 了解 了, 就是 还是 有 种植 人 在 后面, 这 是一个 皮。

对, 但是 未来 的 可能 3到5年 应该 都会 被 大部分 可能 会 被 认出来。

明白, 就是 因为 我们的 这个 A I G C 的 生成 的 语言 这 一块, 其实 是 已经 慢慢 在 成熟 起来 了。

这 反正 从 市场 的 需求 来看 的话, 也是 这块 的 需求 比较 旺盛。

我们 刚刚 讲到 其实 是从 这个 决策 生成, 然后 再到 未来 的 这个 推理。 在 推理 这块 是 会有 什么样 的 一些 应用, 我想 买 什么样 的 一种 技术 的 展现 形态?

可以 看到 就是 像 A I 生成 这 一块 的话, 它 其实 是 跟 理解 是 有关联 的。 你 想想 如果说 一个 A I 它 能够 生成, 能够 预测, 它 背后 的 含义 就是说 它 确实 就是 理解 了 一些 东西 的。 你 不能 理解 的话, 其实 你是 很难 生成 和 预测 的这 里面 就是说 缺 一个 模块, 就是 推理 的 这个 模块。 就是 它 能够 举一反三, 能够 可以 用 一些 小的 数据, 它 就可以 学 出 更多 的 任务, 对 吧?

然后 包括 像 为什么 现在 图像 不能用 在 这种 专业 领域, 目前 还 停留 在 给 比如说 美术 的 这些 从业人员 找 灵感 的 一个 阶段。 这个 其实 也 是因为 像 他的 一些 可控性 其实 是 没有 做到 的。 比如说 这个 美术 的 专业 人, 他 希望 说 能够 精确 控制 它的, 甚至 这种 笔触 他的 阴影, 然后 他他 的 着色, 它 透视 关系。 然后 包括 像 这种 对话, 其实 也是 你 跟 一个 大 模型 去 对话 的。 会 发现 就是 比如 他的 前后 的 一致性, 或者说 甚至 他 不能 记住 之前 的 一些 说过 的 一些 话。

对 吧? 就是现在 是一个 不 太聪明 的 样子 的 一个 助理。

对对对, 所以 他 现在 这种 对话 的话, 他 会 结合 大 模型, 然后 会 结合 一些 对话 系统 来 去做。 包括 一些 这种 语言 的 理解, 包括 一些 检索, 它 会 搭 起来 这样 一些 传统 的 一些 做法, 然后 才能 去 保证 说 我的 对话 系统 能够。 更加 的 能够 实用。 如果你 直接 基于 大 模型 来 去做 的话, 其实 会有 很多 的 一些 这样的 不 可控 的 问题。 因为 我们 像 我们的 应用 场景 里面, 像 游戏 里面? 或者 数字 里面, 他 会 比较 开放 域 的 聊天, 而且 还会 是 结合 某 一种 世界观。 那你 在 这个 原 神的世界 里面, 你 不能 跟 他 聊 这个 键盘 鼠标? 你 不能 出现 这种 词, 就 我是 在 一个 什么 年代, 我在 什么 世界观, 我 就 应该说 什么样 的话。

所以 现在 在 可能 我们 达到 我们的 A I 小 助理 们 能够 比较 聪明 的 给 我们 做出 一些 推理 方面 的 这些 建议。 我们 现在 的 一些 瓶颈 可能 会 是 在哪里? 然后 大概 需要 多少 年, 可能 这个 瓶颈 才会 能够 被 克服 掉。

应该 推理 就 据 我们 所知, 应该 也是 像 OpenAI 这些 公司 在 攻克 的 他们 所谓 这个 A G I 的 最后 一块 堡垒 了。 可能 还 缺少 一个 神经网络 里 的 某个 结构 能够 适合 做 推理 的。 所以 你可以 看到 现在 这种 语言 或者 是 图像 生成, 为什么 它的 效果 会 这么好? 也 是因为 之前 像 attention 上 那个 transformer 在 一些 关键 的 结构 上 的 一些 突破。 我自己 个人 认为 的话 是 应该 会有 一个 比较 大 的 一个 结构 上 的 一个 突破, 能够 适合 让 这个 神经网络 能够 做 推理。

所以 可能 还是 需要 蛮 长 一段时间 的。

这个 也 对 可能 需要 一些 底层 上 的 一些 科学 上 的 一些 突破。

所以 这个 时间 也很 难 讲 到底 是 可能 3到5年 其实 不太好 说。

对, 这个 很难 预测。 但是 就是你 不要 高估 这个 一年 两年 时间 能 做 的 事情, 但 也 不要 低估 十年。

对, 从 阿法 狗 到 现在 61年 的 时间, 六七年, 这个 是 会 是你 当时 有 畅想 过 吗? 说 六七年 可能 要 人工智能 会 到 什么样 的 一个 节点, 或者 他 能够 到达 什么样 的 一个 状态, 是 比 你 想象 的 快 还是 慢?

其实 比 我们 想象 的 预期 的 是要 快 的 发展 要 更快 一些 是 吧? 对 当时 我们 出来 说 星际 能够 在 三年 内 击败 职业 冠军, 这个 根本 不可想象 的。 可能 我们 当时 觉得 三年 以后 能够 表现 的 比较 正常, 像 人 一样 就 非常 不错 了。 而且 那个 概率 我们 当时 觉得 也就 5%。

我 对, 但是 没想到 三年 时间 确实 是 达到 这个 职业 冠军 的 水平。 包括 当时 G P 刚 出来 的 时候, 我们 也是 非常 的 震惊 的, 就是 一个 A I 系统 能够 写 了 一篇 东西, 对 文章 然后 上千 字, 然后 还 前后 一致性? 比较 好。 它 其实 是 突破 了 一个 范式, 然后 验证 的 就是说 我 为 更多 的 数据, 一个 很 好的 结构, 为 更多 算 力, 它 就 会越来越 好。 现在 也可以 看到 G P2、 G P3 对 吧?

所以 对于 你们 来说, 可能 未来 最 兴奋 的 或者 是 让 你们 觉得 这个 人工智能 的 时代 就是 完全 到来 了, 会 是 什么样 的 一个 时间, 或者 什么样 的 一个 样子。 我们 不说 时间 了。

高度 智能 高度 的 利人, 然后 他 有 自己的 情感 数字生命 的 一个 心态。 然后 他 应该 会 是 每个人都会 拥有 的 一个 这样的 一个 情感 陪伴, 加上 生活 的 这样的 一个 助手。 就像 这种 贾维斯。

或者 是 说 2001 的 那种 面 杀手 里面。

一个 joy, 类似 这种 形态, 这个 是 我们 觉得 会 比较 兴奋 的 一个 未来。

好的, 非常 谢谢 龙 总。 今天 给 我们 科普 了 好多 最近 我们 比较 火热 的 AIGC 的 整个 业态。 然后 包括 可能 现在已经 落地 的 商业模式, 可能 还有 未来 的 一个 我们的 畅想。 好的, 非常 感谢您。

也 感谢 他。

好。

照例 插播 我们 关于 胡同 周年 月 的 消息, 我们的 活动 已经 接近 尾声 了, 胡同 漫游的 终点站, 我们 想 邀请 有 台 的 主播, 胡同 的 会员 来到 我们的 新 办公室 里面 聚一聚, 放松 一下, 聊聊天。 不过 在 这样的 特殊 时期, 线下 的 活动 总是 充满 了 各种 的 不确定性, 希望能够 和 大家 顺利 的 见面。 活动 的 详情 已经 在 show no 里面 更新 了, 请 大家 自行 点击 查看。 另外 再 宣传 一下 我们的 周年 订阅 优惠活动 马上 就要 结束了。 本次 周年 活动 中 各个 分会场 的 音频, 我们会 在 活动 结束 后 发给 生动 胡同 的 会员 们。 新 订阅 的 伙伴们 也可以 通过 音频 回顾 来 了解 本次 活动 的 内容。 所以 大家 不用担心 已经 错过了 订阅 的 方式 和 优惠 的 说明 已经 放在 了 收到 里面。 最后 你们的 慷慨 支持 是 我们 持续 做好 内容 的 强大 动力, 欢迎 大家 加入 我们的 声能 胡同。

I've been a fan of yours, macintosh, in nineteen eighties. Well, you know, we just kind of figure that out. Even though apple was big, it's still like half a .

percent of 最近 在 我们 生动活泼 自己的 群 里面, 有一个 小伙伴 扔出来 的 一期 播客 节目, 就是 知名 主播 joe rogan 采访 乔布斯 的 一期 节目。 然后 我和我 的 合伙人 汤 老师 就 直呼, 我们 可能 要 失业 了。 对, 前段时间 我们 做了 这个 lamda di 然后 在 自然语言 或者 是 图片 等 人工智能 内容 创作 领域 的 一些 节目。 今天 我们 想来 聊 一 聊 声音 赛道 的 AIGC, 也 想 满足 一下 我自己 的 好奇心, 我自己 离 失业 还要 有 多久? 今天 我们的 嘉宾 是 高建 清 博士, 他是 科大 讯 飞 A I 研究院 的 副院长。 您好, 高院, 欢迎 做客 我们的 科技 早知道。

你好, 丁 老师。

高院 您好。 您 先 介绍 一下 自己的 这样的 一个 研究 方向, 和 您 之前 在 科大 讯 飞 负责 的 一些 项目 和 内容。

我在 讯 飞 做了 16年 的 智能 语音 方面 的 工作, 现在 也是 负责 科大 讯 飞 研究院 语音 方向。 最早 我是 主导 研发 了 国内 最早 的 电话 自助 客服 系统, 后来 是 创建 了 讯 飞 的 语音 转写 团队, 主要 主导 我们的 语音识别 系统 的 研发。 而是 在 业界 最先 将 我们的 演讲 和 会议 场景 的 撰写 做到 实用化。 并且 孵化 了 像 讯 飞 听见 的 会议 系统, 智能 录音笔、 智能 办公 本 这些 产品。 最近 几年 也 开始 逐渐 带领 我们 整个 团队 做 语音 合成 方面 的 工作, 也就是 今天 我们 要 聊 的 AIGC 这个 领域 的 一个 很 重要 的 组成部分。 另外 的话 也 做了 很多 关于 智能 语音。

产业化 方面 的 一些 工作。 Foot came on the show. How's IT going? Good to see body.

It's a 咱们 昨天 其实 在 聊天 的 时候, 大概 也 聊 了 一下。 我们 听到 的 这样的 一个 周 rogan 采访 乔布斯 这样的 一 播客, 它 背后 其实 它的 这个 难度 或者 是 它的 这个 难点 在哪里? 它 值不值得 我们 担心 我们 未来 可能 会 失业 了。

Things, things today, we talked about things I didn't know a lot about, and that was really fun. That worked out well for me. Steve jobs, ladies and gentlemen, good, good night.

首先 我们在 这 里面 看到 两个 关键 的 技术, 语音 合成 以及 对话 文本 的 生成。 语音 合成 是 相对来说 是 比较 成熟 的, 这个 大概 就是 我们 需要 收集 很多 乔布斯 的 一些 语音 来学 一个 语音 合成 的 训练, 一个 语音 合成 的 系统。 语音 合成 系统 里面 主要 的 难度 是, 首先 我们 怎样 在 不是 太 大量 的 数据 下 能够 实现 我们的 音色 能, 比如说 跟 乔布斯 很 像。 然后 另外 发音 过程 中有 很多 的 每个人 发音 有 他 自己的 特色, 它的 韵律, 它的 节奏。 像 我们 需要 标注 数据 里面 的 一些 具体 的 一些 文本 的 一些 信息, 发音 的 信息。 同时 我们 还要 收集 到 足够 多 的 这种 训练 数据。 最后一个 可能 因为 音频 相对来说 是 比较 久远 录制 的, 那么 它的 音质 可能 不会 特别 高。 那么 我们 怎么样 做 一个 非常 高质量 的 合成 系统, 听 感 质量 比较高 的 语音 合成 系统, 这个 也是 技术 中的 关键。

比如说 是 可能 最近 我也 看到 大家 比较 火 的 就 AIGC 是在 图片 方面 的 应用, 可能 像是 这个 open I 它 训练 一个 像是 dolly 这样的 引擎, 它是 需要 可能 60万美元, 然后 大概 时间 也是 比较 久 了。 那 我不知道 可能 就是 音频 的 这样的 一个 领域, 它的 一个 训练 的 时长 和 成本 大概是 在 多少。

图片 领域 我们 现在 看到 的 这个 模型 的话, 它 更多 的 是用 一个 预 训练 的 这样 一个 技术。 它 其实 是 需要 收集 到 海量 的 一些 无 监督 数据。 所以 在 这种 情况下 的话, 因为 数据量 很大, 算法 的 模型 也 比较 大, 所以 他 可能 需要 的 时间 是 比较 长 的。 我们 刚刚 说 的 比如说 恢复 乔布斯 的 声音, 这些 的话 更多 的 是 采用 一个 有 监督 的 方案。 这种 的话 它 更多 的 是在 数据处理 上 的 代价 是 比较 大 的。 那么 模型 的 训练 其实 代价 是 不大 的, 我们 采用 的 是一个 正常 的 模型 来做 这样 一个 事情 的, 整体 的 训练 时长 和 训练 的 时间 都是 可控 的, 时间 应该 就是 在 几个 小时 就可以 完成。

这么 快。 对, 那 大概是 需要 多少 的 这样的 样本, 我看 好像 图片 的话, 大概是 需要 21张 图片 才能 才 把 这个 道理 训练 出来。 这个 语音。

针对 像 一些 精品 的 发言人 的话, 可能 需要 数十 小时 以上。 但是 当你 不一定 能够 收集 到 这么 多 声音 的话, 其实 现在 的 技术 的话 也可以 做到 一个 不错 的 一个 程度。 对, 刚刚 我们 说 了, 就是 让 乔布斯 和 一个 主持人 做 一个 访谈。 这 里面 其实 包含 两个 关键 的 技术。 第一个 是 语音 合成, 第二个 的话 是 文本 的 生成。 我们 认为 语音 合成 可能 技术 相对来说 是 更 成熟 的。 但是 对于 文本 生成 来说, 其实 现在 的 难度 我 认为是 更大 的。 也就是说 我们 要 形成 一个 这样 一个 完整 的这 一个 访谈, 那么 访谈 的 内容 它 也是 要 自动 生成 的, 这个 难度 是 更大 的。

我 认为 现在 生成 一些 看起来 make sense 的 一些 句子 其实 是 可以 的。 但是 如果 需要 传递 一个 深层 意义 的 观点, 观点 它是 有 铺垫, 有 一定 的 递进 关系 等等。 那 这个 难度 现在 其实 是 很大 的。

我看 了 乔布斯 的这 段 视频 的 一些 采访 的 文稿, 大体 的 通顺 度 等等, 这个 都是 非常 好的。 但是 他 是不是 表达 了 一个 非常 有 自己 观点 的 这样 一个 信息。 从 这个 的 层面 来说, 我 觉得 现在 还是 不够 的。 他 可能 就是 学习 了 乔布斯 以往 表达 的 很多 的 观点 的 这些 文本, 也就是说 它 其实 是一个 垂直 领域 的, 非常 相关 的 是 跟 乔布斯 的 发言 相关 的 这些 文本, 然后 生成 了 一个 采访 的 文稿。 如果 是 说 只是 声音 是 合成 的话。

那 可能 意义 就 少了 很多 了。

对, 意义 可能 就 少了 很多。

好的, 那 我们 再 回到 我们 现在 生成 的 这样的 语音, 它 跟 我们 真人 的 这样的 表达, 它 现在 相似 程度 能够 到达 多少?

我 觉得 现在 最新 的 合成 系统, 我们 所谓 的 机械 感 其实 现在已经 很小 了。 我们 评价 一个 语音 合成 系统 一般 采用 mos 分 来 表达, 满分 35分。 可能 我们 说 最 优秀 的 播音员 的话, 可能 也许 能够 达到 5分。 但是 我们 普通人 因为 口音 的 原因, 没有 受过 特殊 的 训练。 其实 我们 现在 非常 好的 语音 合成 系统 的话, 真人 如果 是 说 莫斯科 是 4点5分, 那么 机器 可能 是在 4点4分 这个 样子 其实 差距 已经 非常 小 了。

明白, 我 还是 觉得 我 可能 会 失业。 因为 经常 会 有人 来 吐槽 说, 你 这块 好像 这个 怎么说 的, 这个 不 标准。 对, 然后 咱们 现在 的 比如说 是 生成 出来 的 这种 语音 之后, 可能 还会 做 一些 细节 方面 的 处理。 出来 之后 会不会有 一些 觉得 这块 好像 不太 像 真人 会 这么说 的, 包括 语气 什么的, 你们 会 怎么样 再做 一些 深度 的。

一些 工作 吗? 目前 我们 绝大部分 这种 合成 都是 不再 需要 调整 了, 因为 调整 的话 可能 人工 的 代价。

也 非常 的 大。

OK 对, 但是 我们 现在 其实 也 研发 了 一个 这样的 一个 工具。 其实 是 希望 我们的 普通 的 人, 比如说 我们的 产品 经理 也可以 参与 声音 的 创造。 这个 工具 的话 是 支持 对 声音 里面 一些 关键 的 信息 进行调整。 比如说 什么 地方 需要 重音, 什么 地方 需要 停顿。 比如说 有的 时候 可能 多音字 的 发音 不对, 只需要 在 我们的 文本 层面 进行调整 就可以 了。 比如说 你 要 合成 一句话, 觉得 这个 文本 原来的 合成 系统 它是 这个 地方 应该 要 停顿, 但是 它 没有 停顿, 那么 你 就在 这个 文本 之间 插 一个 停顿 的 符号。

我不知道 最近 您 有没有 看到 meta 的 C E O 扎克伯格, 他 发布 了 一段 视频, 就是 他 跟 有一个 一个 华人, 然后 他们 在 没有 对应 的 文字 之间, 然后 用 英语 和 闽南语 之间 的 这样的 互相 的 一个 翻译 的 一个 视频。 对, 然后 有人 觉得 这个 好像 也没有 什么 技术难度, 好像 也 有人说 好像 是 讯 飞 玩 剩下 的。 我不知道 你 有没有 看过 这个 视频。

The researchers process mark, do you know that our team created the first translation to support a spoken language?

Yeah, this is great.

Hockey is spoken by millions of people. But since there's no standard writing system, that makes a pretty chAllenging to build .

a translation system like this.

这 实在是 进展 不 数百万 人工 和 警卫, 但是 兵。

对, 这个 是 前段时间 比较 有名 的 一个 视频, 我也 确实 是 看过。 从 技术 的 角度 来说, 这个 是一个 无文本 的 翻译。 因为 闽南话 它是 一个 偏 口语化 的 语言, 它的 文本 的 数据 是 非常少 的。 总的来说 没有 文本 桥接 的 这个 翻译 的话, 它的 实现 难度 还是 非常 大 的。

就是 传统 我们 实现 的 从 一个 语音 到 另外一个 语音 的 翻译 的话, 其实 它是 分 三个 过程 的。 是 先 把 拿 这个 英文 和 闽南语 举例。 它是 先 把 英文 的 语音识别 成 英文 的 文本, 然后 再 接 了 一个 文本 的 翻译 系统 翻译成 闽南话。 然后 再加 一个 合成 系统, 将 闽南话 合成 出来。 因为 闽南话 是一个 文本 上 比较 欠缺 的 甚至。 可能 很多 文字 现在已经 不存 存在 的 这么 一个 语言。 所以 我们 直接 用 这种 级联 的 方案 的话, 可能 就会 存在 着 困难。

如果 是 说真的 实现 这个 商用 的 这个 文本 翻译 系统 的话, 它 确实 是 需要 非常 大 的 平行 的 语料 的。 英语 的 语音 跟 闽南话 的 语音 之间 的 相对 应 的 语音, 是 其实 是 需要 非常 大量 的 这种 对应 关系。 这种 其实 收集 起来 是 非常 的 困难 的。 这个 也是 为什么 端 到 端 翻译, 目前 在 学术界 还是 非常 热 或者 非常 火 的 一个 研究 的 话题, 或者 是 学术 的 问题。 但是 在 商业界 可能 没有 那么 广泛 的 被使用。 就是 因为 我们 商业系统 里面 可能 有 语音 的 标注, 或者 是 说 翻译 文本 到 另外一个 语言 翻译 文本 的 这种 标注, 这种 语料 是 非常 多 的。 但是 两种 语音 之间 它的 这种 平行 语料, 其实 的 收集 起来 是 非常 困难 的。 这个 也就是 为什么 我们 端 到 端的 翻译 在 工业界 没有 发展 的 这么 快 的 一个 原因 之一。

因为我 知道 其实 现在 在 电影 领域 用 这样的 技术 还是 挺 多 的。 然后 包括 有一个 乌克兰 的 创业 公司 叫做 free speech er。 他们 其实 是 一帮 星球大战 系列 的 达 斯韦德。 因为 这也是 一个 比较 老的 一个 franchise, 一个 电影 系列, 所以 他们 有 一些 演员 已经 非常 老了, 甚至 是 有 一些 已经 去世 了。 所以 他用 自己的 这个 声音, 然后 他 把 他 授权 给 这样的 公司, 让 用 这个 公司 来 生成 以后 未来 电影 的 这样的 一个 语音, 是 这样的 一种 方式 在 合作。 对, 我不知道 就 这种 算是 现在 在 这个 领域 最大 的 一种 商业 应用。 就是 在 零售 方面 还是 其实 我们 想象 空间 其实。

可能 会 更 大我 觉得 这个 还是 比较 新的 一种 商业模式。 本质 上 来说 还是 成本 和 效果 之间 trade off 的 这个 问题。 对于 一些 高品质 或者说 对 质量 要求 非常 高 的 一些 商业片, 找 最 顶级 的 配音演员 可能 是 最好的。 最好的 人 一定 是 比 现在 的 机器 要好。

但是 像 这个 创业 公司, 它的 一些 应用 的 方式 的话, 我 觉得 它 其实 也是 有 一定 的 商业空间 的。 可能 是 对于 一些 要求 不 那么 高 的 一些 场景。 比如说 我们 现在 像 短 视频 的 这个 领域, 很多 短 视频 的 制作 的话, 现在已经 开始 用 AIGC 的 这种 方式, 用 语音 合成 这种 方式 来做。 因为 它 成本 的 要求 其实 是 非常 的 高 的。 如果 语音 合成 能够 发展到 一定 的 程度, 那么 它 配出来 音 也 确实 是 非常 的 好。 其实我 觉得 这个 商业空间 其实 也是 非常 大 的。

就现在 的 有 因为 平常 刷 一些 这个 短 视频 里面 可能 会有 蜡笔小新 的 声音, 或者 有 某些 方言 的 声音, 其实 也是 AIGC 的 这样的 一种 应用。

对 吗? 是的, 现在 其实 短 视频 里面 是 有 蛮 多 的 是 AIGC 的 一些 应用。

所以 这块 应该 是 运用 最多 的。 但是 它 这个 商业价值 产生 最大 的 也是 这 一块 吗? 还是 有 其他 的 一些 应用。

语音 合成 目前 商业 最大 的 地方 一个 应该 是 语音 交互。 然后 后面 其他 的 比如说 像 听书, 像 新闻 播报、 短 视频 制作 的 这个 领域 的话, 算是 目前 新兴 发展 起来 的 一个 领域。 为什么 说 语音 交互 是 发展 最快 的? 也 其实 语音 交互 已经 有 从 siri 出来 到 现在 可能 已经 有 十多年 的 时间。 语音 交互 里面, 因为 人 要 与 机器 交互, 其实 语音识别、 自然语言 理解、 语音 合成 都是 里面 非常 关键 的 一个 技术 模块。

因为 在 汽车 交互 这个 领域, 它是 一个 垂直 的 领域。 一般 的 乘客 或者 是 驾驶员 在 开车 的 过程中, 他 所要 交互 的 事情 其实 是 有限 的。 典型 的 比如说 听 广播 导航, 然后 一些 车 控 的 命令 等等, 就是 是 一些 受限 领域 的 一些 交互 的 方式。 在 这种 情况下 的话, 其实 语音 交互 其实 是 可以 打磨 的 非常 好的。

目前 我 认为 语音 交互 在 汽车 和 家庭 这些 垂直 领域 的话, 其实 已经 发展 的 非常 快。 而且 可以 说 已经达到 了 好用 的 阶段。 特别是 一些 新能源 汽车, 或者 是 说 现在 发 的 一些 新车 的话, 语音 交互 已经成为 这 里面 的 标配 了。

所以 可能 是在 真正 的 技术 他 可能 已经 到 这里。 但是 在 大家 的 这个 实际 使用 上面, 好像 感觉 好像 没有 我们在 科幻电影 中 看到 的 那么 的 频繁。 还是 这个 数据 正在 缓慢 的 上升, 是 大家 需要 一个 可能 还得 需要 一些 时间。

两个 方面。 第一个 方面 的话 还是 技术 要 发展到 一定 的 程度, 这个 系统 要 好用, 真正 的 好用 可能 用户 才 愿意 用。 第二个 方面 的话 就是 这个 场景 它 确实 是 刚 需 的。 只是 一个 玩 的 场景 或者 是 秀 的 场景 的话, 那么 他 可能 很快 新鲜 过去 以后, 大家 就 不会 使用 了。

为什么 我们 说 在 汽车 和 家庭 这样的 场景, 我们 现在 语音 交互 发展 的 越来越好? 首先 就是 在 这 两个 场景 的话, 语音 交互 它 确实 是 刚 需, 所以 会有 越来越 多多 的 用户 去 使用 它。 这样的话, 当我们 发现 这些 场景 确实 有 用户 价值 的话, 那 其实 我们 就有 非常 大 的 动力 在 这个 场景 进行 非常 细致 的 打磨。 另外一个 方面 的话, 我 觉得 语音 交互 将来 更 高级 别的 发展 的话, 应该 是 会 发展 成 一个 有 情感 陪伴 的 这个 系统。 你 其实 是 可以 跟 机器 去 进行 很 深入 的 一些 沟通。

One thing that is the companionship relationship, we have a IT.

我记得 好像 应该 是 亚马逊 在 上半年 的 时候, 好像 又 发布 了 一个 产品。 就是 把 你的 逝去 的 亲人 先 保存 在 这样的 一个 像 alexa 这样的 一个 语音 的 这样的 一个 系统 里面, 然后 未来 可能 让 他 长期 的 陪伴着 你。

We love. Let's take a look on one of the new capabilities we are working on.

which alexa can grama finished reading me, the visit of us. Okay.

but how about my courage as the lie? And anxiously, you have plenty of curry, James.

sure. As you sign this experience, instead of alexa's voice, reading the book is the kid's grandma's voice is the companionship relationship we have with IT in this finish pro.

更 高级 别的 交互 的话, 它 其实 是 要是 个性化 的, 他是 懂 你的, 他是 有 情感 的。 这些 的话 可能 就是 我们 交互 系统 向 进一步 发展 更好 的 方向 发展 的 一个 趋势。 整个 一个 语音 交互 或者 是 人机交互系统, 它 其实 包括 感知、 表达 和 大脑 三大块。 感知 就是 我们 通常 说 的 语音 唤醒、 语音识别, 它是 让 机器 懂 你的 一些 声音, 能 懂 你的 一些 内容, 懂 你的 情感。 然后 表达 的话 可能 就是 语音 合成 或者 是 虚拟人 等等 这些。 可能 语音 交互 里面 最 核心 的 还是 这个 交互 系统 本身 的 这个 大脑。 所谓 的 大脑 的话, 其实 它是 需要 理解 你 跟 我 交互 的 是 什么样 的 内容。 完了 以后 还要 生成 一个 非常 好的 跟人 一样的 回复 语。 那么 这个 回复 与 里面 可能 是要 完成 你的 一些 任务 的, 然后 这个 回复 与 怎么样 在 更 拟人化 的 表达出来, 这个 都是 非常 关键 的。 只有 这些 关键 的 技术 都 做好 的话, 我们 才能 做 一个 所谓 的 有 思想 的 语音 交互 系统。

所以 我们 其实 现在已经 看到 了 像是 lambda, 还有 GTP3 这样的 一些 可能 所谓 的 未来 可以 成为 大脑 的 这样的 一些 人 AI 的 算法, 它 可能 还是 得 需要 更长 一些 的 时间。 然后 再加上 我们在 可能 声音 领域, 然后 在 其他 一些 领域 的 一些 技术, 然后 它 合 起来 可能 才 会有 一个 更加 智能 的 这样的 一些 产品 来 服务 我们。

人工智能 现在 在 很多 领域 慢慢的 其实 是在 帮助 了 很多 的 人, 最 典型 的 是 代替 了 很多 原来 人类 非常 繁杂 的 一些 脑 洞。 但是 确实 他 可能 在 一些 类似 于 有 思想 有 创造 或者 是 艺术性 的 领域 的话, 这个 难度 技术难度 是 更大 的, 也是 需要 更 长时间 的 发展。

对, 因为 可能 最近 大家 关注 的 像是 doi, 然后 包括 可能 stable diffusion 这 样子 的 人工智能 作画 的 应用。 其实 这 几个 月 大家 都 用 的 是用 的 如火如荼, 然后 觉得 好像 是 颠覆 了 很多 人的 工作。 让 一些 绘图 的 这样的 工作人员, 或者 是 设计师, 还是 一些 P S 的 这样的 一些 工作人员, 他们 可能 未来 工作 会 简化 的 非常简单, 或者 甚至 有些人 就 没有 工作 了。 我不知道 在 人工智能 语音 这 一块儿 会不会有 这样的 一个 时间 节点, 或者 是 让 大家 就 觉得 我的 工作 好像 有点 岌岌可危 了。

类似 于 刚才 表达 的 观点, 机器 擅长 做 的 这个 事情, 让 机器 来 做人 更 擅长 的 可能 是 更加 具有 创造性 的, 更加 具有 思想 的 这些 工作。 在 我们 声音 领域 的话, 其实 也有 很多 这种 人 耦合 的 这种 方式。 比如说 像 法院 的 庭审, 这个 庭审 的 过程 其实 背后 是 有一个 书记员 在 记 每句话 的。 这个 以前 是一个 法院 里面 应该 叫 是 书记员。 书记员 这个 岗位 他在 做 这个 事情, 其实 这是 需要 人 非常 专注 的, 很 专业 的 一个 事情。 记 起来 其实 是 非常 的 困难 的, 而且 是 强度 很大 的那 现在 我们 机器 做 语音识别, 对 机器 来说, 你说的 每句话, 它 可以 快速 的 非常 实时 的 就 把 你的 结果 识别 出来。 我们 现在 的 数据 员 的话, 可能 就 可以在 机器 识别 的 结果 上 做 少量 的 修改。 从 语音 到 文字 这种 最 繁杂 的 劳动 是 机器 来 帮你 做 的, 但是 机器 的 识别率 可能 不是 百分之百, 它 需要 一些 修改, 然后 他 也 需要 一些 提炼。

因为 我们 人 讲 的话, 他 可能 有 很多 时候 是一个 很 口语化 的 东西。 但是 我们 最后 形成 的 一个 记录 的话, 是 需要 一个 书面语 的 东西。 那 我们的 我们 没有 让 书记员 事业 我们 有 很 好的 帮助 了。

他不知道 最后 能不能 让 您 帮 我们 再 展望 一下, 就是 人工智能 和 声音 结合 的 这个 方向 的 一些 赛道 或者 是 应用。 可能 会 在 未来 的 几年 会有 一个 小的 爆发。

在 技术 领域, 我 觉得 两个 重要 的 方向。 首先 是 感知, 或者说 从 我们 怎么样 把 语音 的 内容 或者 情感 识别 出来 这个 方向 的话, 我 觉得 可能 更多 的 还是 要 解决 一些 现在 语音识别 面临 的 一个 更加 复杂 的 场景。 我们 先 解决不了 的 一些 问题。 举 个 例子, 我们 语音识别 里面 的 经典 的 鸡尾酒会 的 问题。 比如说 开 一个 party, 很多人 在一起 讲话, 那么 人是 有 能力 听懂 其中 的 某 一个人 的 讲话 的。 但是 机器 在 这种 场景 下, 因为 非常 的 嘈杂, 对于 他 来说 是 非常 的 困难 的。 这个 真实的 应用 场景 的话, 可能 比如说 会议, 采访, 这些 里面 可能 都会 存在 这个 鸡尾酒会 的 这些 问题。

现在 其实 也会 有 一些 解决 的 方案。 比如说 我们 可能 用 麦克风 阵列 的 技术, 或者 是 说 我们 用 多 模态 的 技术。 麦克风 阵列 可能 就是 采用 更多 的 麦克风, 然后 来进行 更好 的 降噪。 多 模态 的话 可能 就是 我们 要 结合 语音 和 视频 的 信息。 比如说 你的 唇形 的 信息 跟 语音 的 信息 的 结合。 那么 可能 对于 这种 噪声 场景 下 语音识别 的 问题 的话 就可以 更好 的 解决。 我 觉得 这个 可能 是在 语音识别 类 这个 方向 的 一个 接下来 在技术上 的 一个 研究 的 热点, 或者 是 说 也是 我们 必须 要 攻克 的 问题。

语音 合成 方向 的话, 为什么 我们我们 现在 听 的 一些 语音 合成 的 声音 还是 有 一些 机器人 的 感觉, 或者说 长时间 听 你 可能 还是 不 舒服。 这 里面 我 觉得 可能 第一个 要 攻克 的 一个 情感 的 问题, 怎么样 让 我们 语音 合成 出来 的 声音 更 具有 情感化。 第二个 发展 的 方向 的话, 口语化 的 合成词。

现在 很多 语音 合成 的 系统, 如果 你听 的 时间 非常 长 的话 会 觉得 不 舒服。 里面 有 一部分 原因 的话 是因为 我们 每 一句 的 声音 都会 非常 的 工整, 它 都 是一个 像 播报 类型 的 这个 声音。 你 时间长 了 听起来 会 就会 觉得 不 舒服。 人 他 其实 他的 声音 是 非常 的 自然 的, 它 里面 会有 一些 口语化 的 一些 内容, 停顿 等等 这样 一些 东西 在 里面。

如果 是在 可能 应用 层次 上面, 有没有 一些 可能 是 马上 大家 会 比较 兴奋 的 一些 应用。

方面 我 觉得 最大 的 一个 方向 的话 还是 与 交互。 其实 语音 交互 发展 的 这么多年, 到 目前为止, 他 可能 还是 在 垂直 领域 做 的 比较 好用。 但是 如果我们 在 更加 开放 的 领域 怎么样 做得 更好? 如果 这个 方向 突破 的话, 它 其实 在 很多 领域 都会 得到 应用。

第二个 大 的 领域 的话, 可能 就是 跟 我们 媒体 相关 的 海量 音频 的 转写。 这个 也是 一个 非常 重点 的 一个 方向。 也就是说 比如说 我们 现在 其实 是 有 很多 短 视频, 有 很多 媒体 每天 都会 产生 大量 的 这个 视频 的 信息。 这个 视频 的 信息 它 其实 是一个 非 结构化 的 无 组织 的 一个 信息。 怎样 把 这些 信息 更 高效 的 转 写成 文本, 然后 更 高效 的 进行 内容分析, 变成 一个 有 结构化 的 信息 能够 存储 下来。 这个 也是 未来 几年 发展 的 一个 很 重要 的 方向。

好的, 这个 确实 是 跟 我们 还 蛮 息息相关 的。 因为 我们 其实 在 平常 录播 课 的 时候, 还是 希望 是 把 它 转成 文本。 然后 我们在 文本 上 编辑 可能 会 更 快一点, 再去 再 进行 剪辑。 这样的 协调 下来 的话, 可能 我们会 省 蛮 多 时间 的。

是的, 那 反正 跟 反正 今天 跟 您 聊 下来, 就 感觉 我们 短时间 可能 还是 不会 失业 的。 然后 未来 如果 是 有 更好 的 大脑 这样的 这个 A I 然后 再加上 语音 的 训练 的 这样的 一套 表格, 我不知道 怎么 来 描述 他。 但 即使 是 那样的 比较 诚心 的话, 我 还是 需要 我们 告诉他 去 聊 什么 内容, 然后 有 结构化 的 去 聊, 到时候 我们 就可以 更 少 时间 的 去 工作。 然后 只要 告诉他 去 怎么 去 工作 就 OK 了。 如果 是要 畅想 一下 的话。

对, 也许 可能 有一个 采访。 那么 如果说 将来 有一天 是不是 机器 知道 你 要 采访 的 人, 那么 他 可能 可以 根据 这个 采访 人的 特性, 他的 专业 领域, 可能 就 会给 你 生成 一个 采访 的 提纲, 甚至 可能 你 想 采访 的 什么 语言 文本 等等, 它 都 可以 给你 进行 一个 生成。 当然 它 是不是 你的 思想, 或者 是 说 是不是 你 真正 想要的, 那 我 觉得 人类 其实 是 可以 进行 进一步 的 加工 的。

好的, 今天 非常感谢 高院 帮 我们 科普 了。 最新 的 可能 是在 AIGC 在 声音 领域 方面 的 一些 应用, 以及 未来 我们 可能 会 在哪 一些 方面 看到 AIGC 声音 领域 的 一些 新的 技术 和 应用 的 发展。 非常感谢 今天 参加 我们的 节目, 谢谢 高原。

感谢 林 老师。

另外 节目 的 最后 也 想 告诉 大家, 我们 为 科技 早知道 的 听众 准备 了 三套 讯 飞 听见 专 享 卡, 包含 同 传 录音、 转 文字 以及 小语种 转写 不 限量 等 权益。 大家 可以在 我们 本期 节目 的 评论 区 或者 生 小英 微信 的 朋友圈 里面 留言, 我们 将 随机 抽取 三位, 结果 将在 下期 节目 上线 前 评论 区 公布。 这 期 what nex 科技 早知道 就 到 这里 了。 听 完 之后 如果你 有 任何 的 想法, 欢迎 在 评论 区 里面 给 我们 留言, 我们 每 一条 都会 认真 的 看。 如果 你喜欢 我们的 节目, 请 记得 给 我们 五星 或者 好评, 分享 给 更多 的 朋友, 也会 对 我们 非常 有 帮助。 你 也可以 单独 写邮件 给我, 邮箱地址 是 听 T I N G 艾特 声 点 F M, 我 都会 一一 回复。 同时 公众 号 和 微博 也可以 搜索 生动活泼 声 是 声音 的 声, 节目 相关 的 更多 信息 会 在 公众 号 里 出现, 微博 和 公众 号 都 会有 不定期 的 福利 给 到 大家。

如果你 想要 跟 我们 更加 紧密 的 讨论 和 分享, 或者 是 想要 认识 和你一样 有 求知欲 的 新 朋友, 可以 加入 我们的 微信 群。 进入 听众 群 的 方法 是在 公众 号 文章 中 扫 码 添加, 或者 是 公众 号 后台 回复 科技 早知道, 即可 获取 邀请码。 期待 你的 加入, 我们 下期 见。