欢迎 收听 硅谷 101, 这是 一档 分享 当下 最 新鲜 的 技术 知识 与 思想 的 科技 博客。 我是 红军, 最近 很多 小伙伴 让 我 聊 一下 GPT4, 我们的 节目 正在 制作 的 过程中, 同时 我也 建议 如果 大家 还没有 看过 OpenAI 的 发布会, 可以在 B 站上去 搜 一 搜。 因为 最 高效 的 获取信息 的 手段 还是 去 看 一手 信息。 同时 如果 英文 比较 好 或者 是 有 技术 背景 的 小伙伴, 大家 也可以 把 OpenAI 发布 的 关于 GPT4 的那 篇 论文 拿出 来看 一下。 这 篇 论文 对 整个 的 技术 解释 的 非常 详细, 同时 它 还有 一些 隐藏 的 角落。 比如说 他说 在 GPT4 发布 之前, 他们 已经 花费 了 八个 月 的 时间 去 进行 安全 研究、 风险 评估 还有 迭代。 也就是说 大家 看到 ChatGPT 发布 的 时候, 其实 那个 时候 GPT4 已经 可以 发布 了。
我们 这 期 的 节目 其实 还是 去 沿着 我们 原有 的 做 生成式 A I 特辑 的 这个 思路, 我们 去 聊 一下 生成式 A I 对 各行各业 可能 存在 的 改变。 之前 我们 邀请 艺术家 来 聊过 对 艺术 行业 的 改变, 对 生物医药 行业 的 改变, 对 像 jasper 点 A I 这样 做 市场营销 的 应用层 的 改变。 这 期 我们 就 来 聊 一下 生成式 A I 会 怎么样 的 改变 游戏 行业。
这 期 跟 我们在一起 的 嘉宾 是 quo n tum engine 点 A I 的 创始人 吕 骋。 Jessie e hello Jessie 你好。
嗨 大家好, 很高兴 能 在这里 跟 大家 聊天。
我们 刚刚 提到 了 A I 去 改变 游戏 行业。 你 觉得 现在 从 整个 游戏 行业 跟 ChatGPT 的 结合 来看, 亲爱的 GPT 他 会 怎么样 去 改变 到 游戏 行业, 有没有 一些 可以 落地 的 东西?
我 个人感觉 可以 分成 从 两个 角度 去 看。 第一个 角度 可以 从 玩家 的 终端 体验 去 思考。 第二个 角度 我们 可以 从 一个 传统 的 娱乐 场景 开发 流程, 或者说 它 生产 的 pipeline 去 思考。 用户 玩家 的 终端 体验 来 思考 的话。 这个 事情 倒 不难理解。 因为 我们 毕竟 有 像 黑客帝国, 西部 世界, 包括 头号 玩家 或者 失控 玩家 这样 很多 的 科幻 的 电影, 已经 在 对 未来 的 immersive experience, 或者说 沉浸式 的 娱乐 体验 有过 一定 的 描述 了。
我们在 从业 的 过程中 就 发现 比较 大 的 机会。 就是现在 有 机会 做 人类 历史上 第一个 你可以 变成 任何 一个 角色, 以 任何 的 你想要的 角度 去 体验 这个 游戏, 并且 你可以 自由 控制 角色 的 对话 也好, 反应 也好, 想要 执行 的 这些 任务 也好。 通过 自然语言 的 方式, 结合 大 语言 模型 在 后面 做 技术 的 支撑。 其实 是 可以 把 像 西部 世界 那样 科幻 剧 里面 的 场景 是 完全 实现 了的。 所以 我们 觉得 在 用户端 最大 的 突破 应该 是 它 可以 形成 一种 真正意义 上 的 角色扮演。 你可以 玩 任何 一个 角色, 以 你 任何 想要的 方式 推进 故事 的 剧情。 其他 所有的 N P C 都会 以 原 模型 为基础 的 A I 来 驱动, 你 将 会 以 自然语言 去 产生 跟 这个 游戏 其他 人物 的 互动, 其他 这些 人物 也会 以 自然语言 的 方式 来 给你 回馈。 所以 基本上 就是 西部 世界 这种 科幻片 里面 讲 的 比较 原始 的 概念。
我们 认为 在 今年 现在 看 这个 机会, 尤其是 像 ChatGPT 这样的 接口 可以 使用 了 之后, 我们 认为 技术 边界 算是 被 打破 了, 是 可以 实现 玩家 的 主观 体验 了。 另外一个 角度 其实 也很 重要, 从 游戏 生产 或者说 从 开发者 的 角度 去 思考。 比如说 现在 主流 游戏 的 这些 游戏 引擎, 我们 有 epic 的 unreal five, 有 unity, 也有 像 比如 C D P R 的 red engine, 就是 做 赛博朋克 和 做 red redemption 的 这个 engine。 这些 游戏 引擎 其实 它 还是 在上 一代 的 基于 蓝图 或者说 基于 preset sequence 来 设计 的 游戏 的 制作 流程。
荒野大镖客 二 里面 团队 花了 很长 的 时间 去做 一个 下雨 的 sequence。 为什么 大家 觉得 这个 游戏 非常 的 真实, 或者说 卖 的 非常 好的 一个 原因 是因为 它 对 细节 的 控制 做得 非常 拟真。 在 下雨 的 例子 里面, 一般 的 游戏 下雨 其实 就是 它 突然 一下 天空 开始下雨, 这个 在 视觉 上 相对来说 比较 好 实现 的。 但是 在 荒野大镖客 二 这个 例子 里面, 团队 做了 一系列 的 sequence。 比如说 准备 下雨 之前, 角色 骑着马 的 时候, 你 会 发现 马 的 尾巴 开始 不停 的 扇 虫子。 因为 这个 下雨 的 气压 导致 蚊虫 变 多, 街边 的 人 会 出来 把 晾 在 外面 的 衣服 收回 去。 因为 天 要 阴 了, 远边 的 一个 乌云 飘过来, 在 过程中 你 才会 发现, 巴拉巴拉 一点 小雨点, 然后 变成 瓢泼大雨。
整个 的 sequence 在 他们的 团队 开发 过程中, 其实 是 花了 很多很多 时间 去做 的。 但是 现在 在 新的 技术 里面, 尤其是 自然语言 和 A I 驱动 的 技术 里面, A I 是 有 能力 去 通过 读 文字 性 的 剧本, 把 剧本 里面 的 剧情 自动 的 构建 成 一个 开放 世界 的 逻辑。 并且 所有的 人物、 物体、 角色 都会 可以 跟 A I 驱动 的 引擎 产生 互动。
我们的 实现 里面, 当我们 的 A I 的 接口 返回, 这个人 走 到了 红色的 桌子 那儿, 并且 拿起 了 一个苹果。 其实 我们 现在 新的 技术 是 可以 把 这 一个 prompt 或者 AIGC 出来 的 一个 文字 转换成 一个 Jason 的 文件。 这 一段 Jason 的 代码 其实 可以 会 inject 到 传统 的 引擎 里面 去。 比如说 虚幻 五 这样的 引擎, 或者说 red 这样的 引擎 里面 自动 的 生成 一个 蓝图, 一个 动态 的 蓝图。 然后 这个 蓝图 自动 的 会 驱动 里面 的 角色 真的 走到 红色的 桌子 前面 去 拿 苹果。 所以 我们 看来 现在 A I 引擎 这边 对 传统 的 游戏 开发 的 pipeline 是 有 一定 的 挑战 和 颠覆 的。 我 个人 认为 在 未来 的 五年, 我们 做 一个 3A游戏 的 时间 可能 会 大大的 缩短, 并且 预算 会 大大的 减少。 在 终端 的 玩家 体验 里面 会 变得 更 可 交互、 更 沉浸, 更 符合 角色扮演 的 或者 开放 世界 最 本源 的 含义。
听 完整 个 的 过程 非常 震撼。 因为你 分了 两个 场景, 第一个 场景 是 类似 于 角色扮演, 第二个 场景 是对 开发者 的 影响。 我 觉得 我们 也可以 都 分开 更 深入 的 讨论一下。
我 之前 就是 有 跟人 聊到 ChatGPT 的 时候, 他 跟 我说 了 一个 场景, 我 觉得 听 上去 还 蛮 震撼 的。 他说 当 有了 生成式 A I 比如说 像 diffusion 的 扩散 模型, 那么 玩家 可以在 里面 捡 到 的 道具 没有 两把 是 相同 的。 以前 大家 捡 到 的 道具 可能 都是 游戏 厂商 设定 的 一些。 还有 一种 是 基于 像 ChatGPT 这种 transformer 的 自然语言 模型。 他 可以 做到 的 是 让玩家 在 玩 整个 游戏 的 时候, 每 一句 的 对话 都是 不一样的。 而且 我看 最近 好像 是 也有 一些 游戏 厂商 披露 说 去 引入 到 对话 系统 以后, 能 明显 的 感觉 游戏 它 留住 用户 的 数据 变 多了。
我 觉得 这是 大家 一起 在 看 的 新的 方向, 跟 所有 行业 里面 在 观察 的 方向 都 比较 吻合。 从 我们 从业者 的 角度, 其实 看到 比较 大 的 价值。 除了 说 刚才 在 传统 的 游戏 开发 的 pipelines 的 流程 上 是一个 彻底性 的 颠覆 以外。
我 认为 在游戏 行业 里面 很 重要 的 一件 事情 是 I P 大家 现在 主流 的 3D游戏, 如果说 能够 持续 很多年 都 长青 的话, 玩家 粉丝 群 或者说 他的 die hard fans 对 他们 I P 的 故事 的 沉浸 感 是 非常 强 的。 像是 看 一个 电影, 比如说 你 看过 黑客帝国 的 电影, 或者说 你 看过 Harry porter 的 电影。 那 其实 这个 电影 你看 完 以后, 这个 故事 就 那样 了。 你 再看 100遍, 其实 你 也 知道 结果 是 怎么样, 它 不会 产生 任何 的 变化。 但是 现在 如果 把 所有的 N P C U A I 去 驱动, 把 一些 逻辑 由 A I 的 引擎 去 代替 的话, 就 像你 玩 一千遍 会有 1000个不一样的 结果。 这样 其实 变相 的 延长 了 一个 I P 或者 一个游戏 的 生命周期。 因为 你可以 持续 不断 的 玩 下去, 然后 不停 的 去 从新 的 角度 触发 一些 新的 游戏 内 对 玩家 的 反馈, 包括 剧情 对 玩家 的 反馈, 包括 一些 结果 和 行为 对 玩家 的 反馈。 就是 把 一个 封 好的 一个 罐头 变成 了 永远 有 新 东西 出来 的 一个 宝箱 了。 我们 觉得 这一点 听起来 对 行业 里面 的 商业模式 的 影响 还是 比较 大 的。
我们 刚刚 多次 提到 了 N P C, 用 一句话 解释一下 什么 是 N P C。
它的 全称 在 英文 里面 叫 non player character, 叫 不能 玩 的 角色。 也就是说 传统 游戏 里面 的 N P C 指的 是 传统 游戏 里面 你 看到 的 这些 已经 在 里面 的 角色。 在 现在 的 新的 quantum 的 技术 的 驱动 下, 其实 这个 词 已经 不怎么 准确 了。 因为你 现在 可以 玩 所有人 了, 所以 他们 不应该 再 叫 no playable character 了。
你 刚刚 其实 还 提到 了, 比如说 当 有一个人 走进 一个 咖啡厅, 拿起 了 一杯咖啡。 然后 这个 是 可以 用 ChatGPT 结合 虚幻引擎 5来联合 去做 的 这样的 一个 具体 过程。 如果 要 分解 是 什么样? 我 大概 能 想到 虚幻引擎 5, 它 可以 提供 整个 光线 的 变化, 做 实时 的 渲染。 我 不太 明白 的 是 ChatGPT 跟 大 语言 模型 在 中间 扮演 的 是一个 什么样 的 角色。
我 刚才 说 的 特定 的 场景, ChatGPT 目前 他是 做不了 的, 但是 我们的 quana mansion 可以 做, 已经 做了。 我 简单 解释一下 我们 自己的 quana managing 跟 ChatGPT 的 区别, 以及 为什么 我们 可以在 刚才 这个 场景 里面 实现 前端 视觉 引擎 的 联动。 其实 这 里面 分 两块, 你可以 把 ChatGPT 理解 成 一个 至少 它 前端 现在 的 网页 的 形态 更 像是 一个 搜索引擎 或者 是一个 问答 工具。 它是 一个 基于 文字 输入 的 一个 Q A, 一个 问 一个 答。
Quantum managing 在 整个 架构 上, 只有 在 ll m 的 语言 模型 上 是 使用 了 ChatGPT 和 它 相应 的 竞争对手 的 接口。 但是 我们在 这 上面 做 的 一系列 架构 可以 做 几件 事情。 第一件 事情 就是 在 我们的 引擎 里面, 当然 一会儿 我 很 乐意 给 大家 做 一个 demo, 虽然 是 播客, 但是 我们 也是 支持 T T S, 所以 大家 是 可以 听见 里面 的 反馈 的。 我们 做 的 第一件 事儿 就是你 可以在 我们的 引擎 里面 预设 或者说 输入 一个 任何 你 想要 体验 的 剧情 或者 文字。 或者 你可以 在 项目 级 的 游戏 开发 里面 或者 电影 开发 里面, 你可以 把 整个 电影 或者 游戏 的 剧本 全部 都 上 传给 我们 引擎, 就是 文字 性 的 剧本。
我们的 引擎 获得 的 一个 能力 就是 我们 可以 把 吃 进去 的 东西 分解掉, 把 里面 究竟 场景 是什么 场景, 故事 是什么 故事? 人物 是 哪些 人物? 人物 和 人物 之间 的 关系 是什么? 他们的 目的 是什么? 他们 自己的 人设 是什么? 在 差不多 10到20 秒 之内 全部 训练 出来。 然后 把 这个 训练 出来 的 结果 再 丢 给 ChatGPT 的 A P I, 用 语言 模型 去 驱动 它们 之间 的 对话。 而且 我们 不光是 生成 了 角色 的 对话, 我们 还会 持续 不断 生成 行为, 我们 叫 纳 ration 或者 叫 action。
刚才 举 的 那个 例子 是我 跟 A I 驱动 的 N P C 对话。 我 先 给 我们的 引擎 预设 一个 条件, 就是我 跟 比如说 这个人 叫 James, 我 跟 James 在 星巴克 里面 开 一个 短 会。 然后 我们的 引擎 接收 到 这 句 input 以后, 我们会 知道, 这 里面 有 Jessie, 这 里面 有 James, 他们 在 starbuck starbucks 是一个 coffee, 他们 在 里面 去 开 一个 短 会。 并且 这个 starbucks 如果你 描述 的 比较 精确 的话, 他 就 知道 这 里面 有一个 红色的 桌子, 红色 桌子 上面 有一个 咖啡机。 在 他 接收 到 或 提取 到 这些 信息, 学习 到 这些 信息 以后, 其实 这个 James 就会 被 ChatGPT 的 语言 模型 所 替代。 James 说 的 所有 话, 你 就可以 理解 为是 像 跟 ChatGPT 版本 的 James 去 对话 一样。
但是 我们的 引擎 在 过程中 还会 处理 这个 新的 结果。 比如说 James 说, hey, what's up just is been a long time, 并且 他 走过来 跟 我 握 了 个 手。 其实 我们的 引擎 会 把 这 一句 narration prom 出来, 就是说 James walks to Jessie and shakes hand with him。 这 句 话 我们会 把 它 prom 出来, 我们 把 这 句 英语 会 translate 成 一个 Jason 的 文件。
那 一段 代码 像 虚幻引擎 5, in particular 就是 unreal engine 5。 它 其实 整个 引擎 是 支持 以 C 代码 去 重构 的, 或者 重写 的, 或者说 写 各种 A P I 的。 所以 我们 其实 在 虚幻引擎 上 写 了 一个 quantum engine, 我们 自己 引擎 的 A P I。 这个 A P I 会 把 这 一段 产生 出来 prompt 的 英语 这个 text 转换成 一个 Jason, 这个 Jason 又会 丢进 unreal 里面, 变成 它 里面 的 蓝图 系统在 虚幻引擎 系统 里面, 所有的 texture 也好, character 也好, 它的 行为 就是 它的 action 都是 由 蓝图 来决定 的。 只不过 在 现有 的 虚幻引擎 5里面, 这个 蓝图 是 需要 手动 preset 的那 我们 通过 real five 的 plugging, 能够 把 框架 是 实时 产生 出来 的 action 或者 narration 转换成 Jason 在 虚幻引擎 的 项目 里面 实时 的 生成 一个 动态 的 蓝图。 也就是说 我们 把 整个 手动 添加 蓝图、 设置 蓝图、 规定 路径、 规定 行为 这 一个 部分 自动化 了。 然后 这个 蓝图 相当于 也是 直接 从 这 段 代码 动态 生成 的, 所以 每一个 新的 action 我们 都会 实时 的 生成 蓝图, 蓝图 就会 在 这个 引擎 里面 控制。 James 这个 N P C 走到 红色的 桌子 上, 拿起 那个 苹果。
所以 我 理解 至少 是 分为 三步 的。 第一步 是 你们 自己的 预设 加 奖 设 分 进去, 然后 你们 先 自己 处理, 中间 这 一层 才是 A P I 接口。 第三步 是 你说的 对话 行为 加 虚幻引擎 5来去 生成 动态 的 效果。
其实 所有 我 刚刚 讲 的 都 已经 实现 了, 大家 如果 有 兴趣 的话, 我们 网站 上都 有。 但是 主要 这 里面 的 难点 是 怎么样 让 用户 input 的 任何 一段话 一个 描述, 一个 针对 场景 的 或者 体验 的 描述, 或者说 吃 进去 大量 的 语料。 比如说 伊隆 马斯 接受 了 采访, 或者说 一个 电影 的 全部 剧本, 可能 3000字、 5000字, 甚至 1万字、 两万 字 剧本。 怎么样 能把 它 立刻 在 短时间 内 训练 出来 的 同时, 能够 把 文字 的 体验 转化成 动态、 多模、 多 语言、 多轮 的 一个 自然语言 的 交互。 这 一块 其实 是 我们的 核心。
你们 现在 的 交互 还是 基于 自然语言, 是一个 文字 的 体验, 还没有 丰富 到 一个 类似 于 视频 跟 游戏 的 场景。
我们 其实 已经 把 刚才 讲 的 unreal 5的给你 写 好了。 我们 作为 一家 技术 公司, 我们 暂时 不会 去 思考 自己 要 原创 一个游戏。 因为 原创 一个故事 和 原创 一个游戏 所 需要 的 资源 也好, 时间 也好, skill set 包括 团队 也好, 都是 很难 的。 我们 其实 现在已经 遇到 了 跟 已经 有的 studio 去做 一些 合作。 举 个 例子, 我们 最近 在 做 的 一件事 是 跟 一些 mode community 合作。 我们会 在 赛博朋克 2077 或者 GTA5 这样的 游戏 上 打 我们 mode。 不需要 改变 它 游戏 的 已有 的 任何 的 画面, 或者说 游戏 的 逻辑, 我们 就可以 把 它 里面 的 N P C 变成 自由 对话, 并且 可以 执行 一些 自动化 的 一些 动作 了。 所以 你可以 理解, 如果你 玩 过 赛博朋克 2077 的话, 我们 接下来 的 一个 项目 就是 会 在 赛博朋克 里面 打 帽 的 第一步。
如果你 进 到来 生 酒吧, 就是 after life bar 里面, 在 原版 的 游戏 里面, 所有的 random 的 N P C 都是 没有 智能 的。 而且 它是 没有 故事 背景, 没有 对话 的。 你 走向 他他 只会 跟 你说 一个 你 要 干嘛 这样 一个 固定 的 台词。 这个 帽子 就会 让 你可以 跟 来生 酒吧 里面 的 任何人 产生 自然语言 的 对话。 所以 第一步 我们 应该 是在 做 一个 core producing 的 model。 但是 我们 让 虚幻引擎 或者 red 引擎 里面 跟 quantum 的 联动 这件 事儿 已经 实现 了。 只不过 我们 自己 没有 完整 的 从头到尾 做 一款 游戏, 我们 暂时 没有 这样 想。
所以 我 理解 第一步 你们是 把 自然语言 的这 一部分 游戏 里面 开放 世界 的 对话 准备 好。 之前 我们 说 开放 世界 的 游戏 他的 对话 还是 死 的, 固定 的 所有的。
游戏 现在 对话 都是 死 的。 目前 来讲 我们。
可以 来 试一下 吗?
可以, 我 现在 跟 大家 在 播客 上用 纯 音频 的 方式 去 尝试 一下。 大家 可以 想 一个 随便 什么样 的 场景, 简单 描述 一句话 就行了。
那 我们 来 试 一个 商业 场景, 我们 把 商业 上 的 两个 大佬 搬出来, 当 马斯克 走进 一家 特斯拉 的 店, 想 把 一辆 特斯拉 的 车 卖给 比尔盖茨。
那 就是 很 好玩的 一个 东西。 我 试一下, 我 现在 在 做 的 事情 是我 把 刚才 你说的 那句话 打成 中文, 然后 提交 给 我们的 引擎。
就是我 说 的这 句 pump 的 词 对 吧?
对对对, 我 用 中文 来 打, 稍等一下, 我在这 里面 输入 的 是 马斯克 走进 一家 特斯拉 4S店, 他 试图 向 比尔盖茨 卖 一台 特斯拉 model s 我们 看看 我们 框 里面 阵 的 实现 效果 怎么样。 我 现在 把 这 句 话 输入 到了 窗口 里, 我 只要 点 提交, 接下来 的 10到20 秒, 它 会 自动 去 训练 这个 场景, 去 理解 这个 场景。 等到 生成 了 以后, 我们的 界面 就可以 去 自由的 选择 里面 所 涉及 的 角色。 我 先来 点 提交。
Elon mask walks into a tesla dealership looking around at the sleep cars on display. He spots bill gates browsing the model less. 我 现在 发现 他是 英文, 我 一会儿 会 试图 让 他 讲 中文, 看 他 会不会 切换 过来。 O hey, elan, just checking out this model as it's quite impressive. 这是 比尔盖茨 说 的, 我 现在 是 一楼 mask, 我可以 介入 我们。
播客 录制 的 环境。 Jessie 那边 的 引擎 是 听不到 我的声音 的, 我们是 两条 音轨 分开 录制 的, 所以 那顷 Jessie 来 替代 我。 当 伊隆 马斯克 提问。
这 很棒, 我 都 有些 眼馋 了。 你们 对 这个 车上 把手 的 木质 外壳 和 大屏幕 真是 相当 用心。 现在 的话, 他 已经 开始 说 中文 了, 我 现在 是 elon musk, 我会 说 我 觉得 我们 特斯拉 model s 是 现在 市面上 最酷 的 电动车, 反正 你 也 不差钱, 要不要 考虑 收 一辆 呢? 我 现 是一种 musk。 所以 在 这个 过程中 你是 可以 自然 切换 的。 你可以 一会儿 当 这个人, 一会儿 当 那个人, 你 不说话 的话, 它 会 自动 演练 下去, 这 很 有 吸引力。
我 看看吧, 谢谢 伊朗。 如果你 说话的 时候, 他 才会 打断。 如果你 介入 某 一个 角色, 你说的话 的 时候, N B C 就 开始 对 你的 input 来 产生 反馈。 大家 现在 看不到 我的 屏幕, 这 很 有 吸引力。 我 看看吧, 谢谢 伊朗, 我 一会儿 来 解释一下 他 这 屏幕 上 显示 什么。 Hey bill, 你 觉得 你 买车 的 时候 最 看重 的 是 哪些 特性 呢? 在 我的 屏幕 上 它 不光 显示 了 每个 人的 对话。
它 还 显示 了 我 认为。
最 重要 的 是 安全性 和 舒适性。 特斯拉 在 这方面 做 的 非常 好。
它 还 显示 了 iraq, 还 显示 了 比尔盖茨 继续 浏览 特斯拉 model SR16 max 等待 他的 决定。
但是 他的 比尔盖茨 是 一个女生。
是 这样的, 我 解释一下, 这个 是因为 我们 录音 环境 的 问题, 我的 那个 麦克风 来 可以 满足 我 所有的 要求, 谢谢。 这个 jane 的 声音 它 有 一些 consistency 问题, 但 它 会 切换 回来的。 因为我 现在 需要 听 quane 讲 什么的, 同时 我的 耳机 里面 听到 jane, 所以 有时候 会 有点 乱。 但是 没关系, 我 继续 跟 大家 演示, 我可以 跟 没错, 看起来 特斯拉 可以 满足 我 所有的 要求, 谢谢 伊朗。 您 觉得 您 今天 可以 做出 购买 的 决定 吗? 如果 您 今天 买 的话, 我可以 给你 打 个 8折, 你看 怎么样? 这 听起来 不错。 好, 我 就买 一辆, 谢谢 伊朗, 我 很快 的 卖 了 一辆车 给 bill get。
然后 我 这 还是 可以 把 这个 故事 推 到 不同 的 角度。 比如说 但是 bill 我 看到 你 之前 在 电视 上 做 过 采访, 你说 你 买的 第一台 电动车 是 一辆 保时捷 的。 Taken 那个 时候 好像 你说 了 我们 特斯拉 不少 坏话。 怎么 今天 决定 在 我们 这 4S店 转转, 想 买 我们的 车 了?
我 想听 他的 回答。
你 其实 可以 完全 把 它 盖 到 不同 的 方向, 你 不一定 一定要 顺着 A I 给你的 prompt 来讲。 看看 bill gates 怎么会, 这个 优惠 太棒了, 我 买 了 伊朗, 谢谢。 他 基本上 拒绝 回答 了 我 刚 那个 问题。 他说 我是 觉得 你 今天 这个 优惠 太棒了, 我 买 了 谢谢 伊朗。 还 蛮有意思 的, 这个 简单 的 demo 就 已经 完成 了。 因为我 已经达到 我的 目的 了, 我 把 这个 车 已经 卖给 了 bill gates。
在 网站 上 有 视觉 和 台词 本身 的 prompt, 其实 体验 会 更好。 现在 纯 音频 的话 会 稍微 有 一点点 confusing, 但是 你 在 这个 过程中 体验 的 时候, 就 像是 一个 zoom call 或者 一个 google chat。 你 其实 可以 自由选择 你 想要 扮演 的 角色, 你 用 麦克风 自然语言 对话 就可以 了。
我 跟 听众 解释一下, 在 大家 进入 到 框, 他们 安静 他的 画面 以后, 左上角 是 会有 帮 我们 区分 的 角色 的。 比如说 你是 the musk 还是 你是 标 gates, 你是 可以 选择 你 自己 要当 哪个 角色 的, 然后 可以 随时 切换。
基本上 现在 的 能力 就是 刚才 我们 描述 的 这样。 你可以 在 里面 打 任何 一个 对话 或者 描述 一个 体验。 我们的 引擎 会 试图 了解 在 你 输入 的这 句 话 里面, 它 到底 意味着 是 什么样 的 故事, 什么样 的 人设, 都有 哪些 人? 每个人 他 自己的 任务, 或者说 他 自己的 人设 到底是什么。 所有的 这些 都会 自动 设置 好在 10到20 秒 的 过程中, 训练 完毕 以后, 你 就可以 扮演 里面 的 任何 一个 角色 了。 基本 的 逻辑 是 这样的, 现在 我可以。
给 演示 做 一下 难度 升级 吗? 把 马斯克 变成 一个 不 那么 好的 卖 车 者。 因为 当时 大家 知道 比尔盖茨, 他是 特斯拉 的 一个 大 的 做 空 者。 马斯克 现在 说 A B 考虑到 你 也 做 空过, 我们 现在 你 需要 全力 购买 这个 车, 我们 不给 你 任何 优惠。
其实 可以 的, 我 来 试一下。 Jane, 其实 咱们 俩 之前 没有 沟通 过 需求, 对 吧? 这 是你 临时 提出来 的。 其实很简单, 要 想做 你 刚才 想 跟 我说 的 东西 的话, 我 只需要 把 你 刚才 的 描述 输入 进去 就行了。 我 来说 我说 马斯克 想要 卖 一辆 特斯拉 给 比尔盖茨, 这是我 输入 的 第一句 话。 我说 的 第二句 话 是 比尔盖茨 非常 讨厌 特斯拉, 也 并不 看好 这个 品牌, 但 他 想 听听看 马斯克 想 怎么 卖。 我 其实 就这样 讲 就行了, 基本上 就是 把 你 那句话 原封不动 的 说 进去 了。 我们 来看。
比尔盖茨 的 办公室 里, 马斯克 和 比尔盖茨 坐在 一起。
第一句 话 他 静音 了。 他说 hey bill, 我 听说 你 对 特斯拉 不 感冒。
是啊, 我 认为 电动车 还有 很多 问题 需要解决。
这是 比尔盖茨, 我 现在 就 不玩了。
我 让 他们, 我知道你 对 特斯拉 不 感冒, 但是 我想 给你 展示 一下 我们的 新车型。
我 让 他 自己 跟 自己 对话。
好吧, 你 有 两分钟 时间 说服 我。 首先 我们的 车 是 完全 电动 的, 所以 它 对 环境友好。 其次 我们的 车 拥有 最新 的 自动驾驶 技术, 这 意味着 你可以 放心 的 让 车 自己 开, 好吧, 我承认 这 听起来 很酷, 但是 我 还需要 考虑一下。 当然 你可以 考虑一下, 但是 如果你 现在 下订单, 我们 会给 你 一个 特别 优惠 的 价格, 好吧, 我会 考虑一下 的。
我 刚刚 完全 没有 介入 这个 对话, 刚才 所有的 东西 都是 他们 自己 对话 的。 我 再来 recap 一下, 马斯克 说 我们的 车 还有一个 独特 的 功能, 它 可以 通过 智能手机 控制, 你可以 远程 启动、 锁定、 解锁 车门, 可以 调整 座椅 和 空调, 还有 特别 准备 的 狗狗 模式, 让 你可以 把 你的 宠物 放在 车 里面。 如果你 要 出去 忙 的 时候, 它 可以 自动 调整 车内 的 空调。 然后 比尔盖茨 说好 吧, 我承认 这 听起来 很酷, 但 我 还是 需要 考虑一下。 然后 马斯克 就 马上 说, 当然 你可以 考虑一下, 但是 如果你 现在 下单, 我们 会给 你 一个 特别 优惠 的 价格。 Bill 说好 吧, 那 我 来 考虑一下。
基本上 这是我 刚才 复述 了 整个 他 generation 的 所有 东西。 所以 我 刚才 第二个 demo 其实 只 多了一个 新的 预设。 我 预设 了 bill gates 其实 对 特斯拉 是 不 感冒 的。 但是 我没有 说 他 要 做 空 特斯拉, 我 也没有 说 他 之前 对 特斯拉 这些 common。 同时 我 这 句 话 也没有 说什么 是 特斯拉 的 车 到底 哪儿 好, 它 有什么 独特 的 功能。 所有的 这些 东西 都是 通过 我们的 神经网络 的 一个 爬虫, 它 实时 获取 的 信息。 也就是说 对 用户 来讲, 你 其实 并不需要 把 每一件 事 都讲 的 特别 清楚。 你 只要 把 一个 简单 的 描述 描述 清楚, 剩下 所有的 东西 是 我们 框架 mention 来做 的。
刚刚 这个 demo 里面 我是 作为 人 来讲 是 没有 插画 的, 所以 这是 A I 和 A I 自己 完成 了 一 整轮 对话。 当然 可以 像 刚才 一样, 我可以 任何 时候 张 聘 跳进 来说 我是 马斯克 或者 我是 bill gates, 我 以 我的 角度 去 推进 这个 剧情。 A I 那个 时候 也就 会 根据 玩家 的 真实 反馈 来 实时 调整 他的 逻辑 和 决策 了。
我 现在 可不可以 以 比尔盖茨 的 身份 继续 跳 到 刚刚 那个 对话 里。
我 来 试一下 你 想 怎么说。 你 如果 是你 朋友的话。
我 来 帮你 讲。 我想说 如果你 让 我 入股 特斯拉, 我 就 考虑 买 你们的 车。 我 想听听 马斯克 的 反应。
我 来 试试。 要不 这样。 如果你 让 我 投资 你们 特斯拉, 并且 拥有 你们的 股份 的话, 那 我 就 考虑 今天 买一台。 你 觉得 这个 deal 看起来 怎么样? 他说 这 是一个 很难 操作 的 事实, 但是 没有 因为你 如此 的对 我们的 价值观 所 产生 认同 和 认可。 并且 我也 认识 你 那么 久 了, 我 还是 希望 得到 你的 支持, 让 特斯拉 取得 更多 的 成功。 我 觉得 这 是一个 可以 达成 的 交易, 让我们一起 努力, 共同 创造 更好 的 未来。 如果你愿意 的话, 我会 尽快 把 入股 相关 的 文件 通过 邮件 发到 你 这里。
挺好玩 的那 我。
其实 可以 再 推进 一下, 我说 那 太棒了。 但是 我 前一段 不小心 把 所有的 资产 全部 压 在 了 F T X 里面, 所以 我 现在 破产 了, 我 最多 只能 投 你 一块钱。 投 一块钱 的话, 你 还 愿意 让 我 入股 特斯拉 吗? 马斯克 惊讶 的 说。
我们 可以 商量一下 细节。 所以 就是 我们 可以 产生 剧情 内 的, 剧情 外 的 所有的 用户 自由 对话 的 内容。 其实 你 不一定 说 你 一定要 符合 原来的 剧本 或 符合 原来 人设。 但是 就算 你 产生 完全 剧情 外 的 内容 的话, 我们 其他 的 N P C 也会 站在 他们 自己 人设 的 角度 和 故事 背景 的 角度, 给 大家 做出 符合 他们 人设 和 他们 故事 背景 的 一个 回答。 其实 他们 并 不会 乱 去 回答 的, 所以 这个 是 我们 非常 独特 的 一个 特点。
所以 在游戏 里面 你 给 他的 设定 越多, 剧本 越 详细, 你的 限定词 越多, 他 可能 能够 演绎 的 更 精彩, 是 这么 一个 逻辑 吗?
这 里面 其实 有一个 平衡 的, 因为你 如果 一字 不动 的 把 所有的 文档 都 输进去 的话, 那 其实 每个 角色 他的 所谓 的 逻辑 或者说 智能 的 受限 可能 就 越来越多。 但是 如果你 描述 的 非常 的 浅 的话, 可能 又 没有 很多 的 信息 的 精确性。
我们 现在 找到 的 比较 好的 一个 swe point, 或者说 一个 比较 好的 比例。 就是 如果你 描述 的 这个 人是 一个 互联网 上 有 大量 的 知识 背景 和 素材 的 一个 角色。 无论 他是 个 现实生活 中人, 还是 一个 小说 或者 电影 或者 游戏 里面 的 角色, 其实 我们 都 已经 可以 了解 的 比较 精确 了。 像是 一楼 mask 或者 bill gates 刚才 这个 例子。 但是 如果你 描述 的 是一个 在 网上 没有 太多 信息 的 这个 角色 的 时候, 我们 就 希望 你可以 稍微 多一点 的 文字 去 描述 这个人 简单 的 背景, 或者 这个 事情 简单 发生 的 状态。 也就是说 我们 这个 神经网络 的 处理 方法 是 会 主动 的 去 获取 互联网 上 根据 你 输入 的 information 或者说 信息 做 匹配 的 一件 事情 的。 我们 可以 匹配 的 越多, 它 可以 描绘 的 就 越 准。 但是 如果我们 匹配 不多, 我们 也 允许 用户 以 非常 繁杂 的 内容 去 教会 我们 这个 引擎 这 到底 是 什么样 一个故事, 到底 是 什么样 一个人。
所以 在 好莱坞 的 电影公司 或者 游戏 公司 做 core producing 的 时候, 大多数 他们的 一个 新的 I P 或者 一个 新的 故事, 网上 是 没有人 知道 的。 那 我们 就可以 把 他 所有的 剧本, 比如说 这个 剧本 20页、 30页、 50页, 一次性 的 全部 丢 到 引擎 里面 去 训练。 这样的话 我们 立刻 就可以 获得 一个 完整 的 剧本 所 涉及 世界 的 一个 开放 世界 的 体验。
这 相当于 是 把 剧本 游戏化 的 一个 过程。 只要 你们 拿到 了 一些 好莱坞 好的 剧本, 好的 I P 基于 ChatGPT 跟 虚幻引擎, 其实 你们是 完全 能 做 一个 开放 世界 的 游戏 出来 的。 当然 可能 没有 我说 的 跟 大家 想象 中的 这么 简单, 但是 至少 做 中间 的 很多。
环节 是 完全。
可以 的对, 完全 是 这样的。 我 想到 最近 还有一个 非常 火 的 公司 叫 character 点 AI。 他们 现在 也是 拿了 A X G Z 的 他的 融资。 我看 他 最新 一轮 的 融资 估值 已经 是 10亿美元 了。 应该 就是 在 我们 录播 课 的 四天 以前 拿到 的 融资, 也 算是 一个 独角兽 来 进 到了 迪士尼 的 孵化器 做 的 in word 点 A I 他们 去年 也是 拿了 5000万美元 的 A 轮 融资。 我看 英特尔 和 微软 都有 头。 你 觉得 类比 这些 角色扮演 的 游戏, 这些 产品 它的 核心 竞争力 跟 它 针对 的 这些 不同 场景 是什么? 未来 这些 产品 它是 在 抢 同一个 市场, 它是 竞争对手, 还是 说 他们 其实 每一个 产品 都很 不一样, 有一个 很大 的 市场, 大家 可以在 里面 共同 生存。
Inward 和 CarOlina 点 A I 我们 比较 早 也 关注 到 有 这 两家 公司。 其实我 自己 也 去 试用 他们的 产品, 我 建议 大家 也 去 试用 一下 我们的 产品, 也 试用 一下 他们的 产品。 现在 in word 和 character A I 他们 做 的 方式 是一个 单体 的 N P C 基本上 是一个 单体 的 拆 包。 也就是说 character 点 A I 或者 英文 点 A I 这 两家 公司 又有 一点点 不一样。 Character 点 A I 它 其实 用 自己的 语言 模型 训练 出了 一个 角色。 比如说 现在 大家 去 开 点 A I 的 网页 的话, 他 能 做 的 是 他 有 一楼 mask 这个 虚拟 角色, 你可以 talk to elon musk, 或者 他 有 马里奥 的 虚拟 角色, 你可以 talk to mario。 这个 是 他们 现在 能 做 的。
但是 他 现在 的 主要 的 商业模式 和 商业 逻辑 还是 一个 chatbot 的 一个 商业 逻辑。 相当于 他们 这个 大 乙方, 他们 还是会 找 一些 前端 的 应用 场景 去 给 他们 提供 这个 接口。 但是 他们 跟 我们 做 的 本质 上 的 区别 就是 他们是 一个 自己的 模型 下 训练 的 一个 单体 的 chatbot。 这个 chatbot 相当于 跟 他 发短信, 你 也 不能 跟 他 自然 对话, 你 可能 只能 跟 他 发 打字, 他 其实 根本 没有 一个 预设 的 场景。
比如说 我们 可以 说 伊隆 马斯 跟 bill gas 在 4S店 卖 一台 车 给 bill gas。 他 这个 伊隆 马斯 他 就是说 oh hi 我是 隆, 你 有什么 想 跟 我说 的 吗? 基本上 就是这样, 你 跟 他说 的 所有 东西 都是 比较 generic 的 一个 单轮 回复, 你 也 不可能 说 我 搞 个 局, 我 把 一楼 mask 比尔盖茨 或者 jeff besons 全部 搞 在 一桌, 我 跟 他们 对话, 然后 我想 切换 什么 就 切换 什么, 我 用 自 语言 去 对话。 其实 中间 这 里面 是 有 很大 的 gap 的。 我们 自 认为 在 这一点 上, 产品 跟 他们是 不同 类 的 产品, 而且 在 具体 的 技术 实现 上 是要 比 他们 做 的 好的。
Inward 点 A I 我 认为是 更 初级 的 一个 实现 方式。 它 其实 跟 character A I 也 一样, 也是 一个 创建 一个 自己的 N P C。 这个 N P C 可以 产生 一些 自然 的 对话, 但是 这个 inward 点 A I 的 N P C, 你是 需要 手动 的 给 它 预设 每 一条 它的 场景。
在此 我 劝劝 大家, 作为 行业 的 从业者, 千万不要 去 看 融资 新闻。 融资 新闻 屁用 都 没有, 一个 公司 可以 融 几个 鳖 脸, 他 最后 还是会 死。 我 认为 这个 不是 公司 最终 做成 和 做 失败 的 决定性 因素。 尤其是 我们 自己 对 创业 感兴趣, 或者说 自己 对 这个 行业 感兴趣。 其实 最简单 的 方法 就是 把 你 自己 变成 用户, 你 真的 去 他们 网站 上去 用 一 用 就 好了。 所以说 我自己 也 试 了 inward 点 A I。
Inward 点 A I 现在 他们的 首页 你 要 create 一个 N P C, 你 需要 手动 的 去 填 它 N P C 的 名字、 背景、 故事、 性格 一大堆 东西。 你可以 上去 试一下, 你 需要 填 大概 几千 字 的 文字, 并且 你 需要 手动 的 去 设定 他的 脾气 是 90% 的 内向 还是 10% 的 外向。 他的 易怒 程度、 它的 sadness、 它的 depression 程度, 它的 各种 所有的 这些 东西 全部 要 手动 设置。 我 认为 这个 东西 对 我们 来说, 其实 这是 我们 很 排斥 的 概念。 因为 我们 希望 是从 你 输入 的 prom 的 自动 角度, 直接 可以 去 把 这个 人设 也好, 环境 也好, 能够 学习 出来。 所以 本质 上 我们 框架 managin 跟 这 两家 公司 做 的 事儿 其实 有点 不太 一样。 但是 从 技术 角度 上 来说, 或者 从 前端 用户体验 来说, 其实 我们 比 他 已经 做 的 有 领先 了。
看得出来 每 一家 在 做 基于 角色 的 实时 交互 的 时候, 大家 的 思路 跟 路径 还有 方法 都是 非常 不一样的我 觉得 in word 它 那个 页面 非常复杂, 门槛 非常 高。 我不知道 他 是不是 针对 的 是 一批 更 深度 的 玩家。 因为 大家 要 做 那么 复杂 的 一个 参数 跟 文字 的 词, 不是 深入 玩 的话, 我 觉得 所有的 时间 都 去做 这些 文档 工作, 写 一篇 小作文, 对 吧?
他们 针对 的 应该 不是 玩家, 他们 针对 的 应该 是 行业 里面 的 其他 的 这些 studio。 我 觉得 他们 应该 是个 to b business.
他们 根本 就 不是 一个 to c business。 那你 觉得 现在 基于 ChatGPT, 有 很多很多 的 应用层 在 上面 做 开发, 有 很多很多 做 角色扮演 的 应用层。 你 觉得 这个 应用层 大家 的 壁垒 跟 核心 竞争力 是 在哪儿 呢?
我 觉得 在 应用层, 其实 核心 壁垒 是 前端 的 用户体验。 这件 事儿 我可以 展开 讲 一下。 很多人 觉得 其实 把 文字 变成 语音, 让 用户 自然 对话 这件 事儿 没什么大不了 的, 确实 没什么大不了, 实现 上 是 可以 实现, 而且 在 今年 2023年 这个 技术 的 环境 下, 其实 相对来说 是 比较 好 实现 的。 但是 这 里面 出现了 很多 大量 的 用户体验 的 优化 问题。
我 举 个 例子, 比如说 在 应用层, 如果你 要 做 一个 自然 对话 的 应用 的, 基于 大 语言 模型 的 应用 的 时候, 你 会 发现 latency 和 速度 是 用户体验 的 至关 的 关键词。 我们在 现实生活 中 跟 一个人 去 对话 的 时候, 一问一答 的 情况下, 一般 真人 他 会 觉得 500毫秒 左右 是一个 能够 忍受 的 极限。 如果我 问 一个 问题, 你 回答我 一句话。 等 我问 问题 的 最后一个 字儿 读完 的 时候, 到 你 回答我 第一个 字 之间 是 500毫秒 或 以内, 大家 才会 觉得 这个 对话 比较 自然, 才会 觉得 你 在 听我 说话, 并且 你 明白 我在 说什么。 但是 一旦 这个 速度 响应 超过 了 500毫秒, 其实 在 现实生活 中人 就会 产生 疑惑 了。 人 就 会说 是不是 你 没 听 清, 我要 不要 再说一遍, 或者 是不是 你 注意力 没 在 我 这儿, 你是不是 要 听我讲, 或者说 我 是不是 说 的 太快, 我要 再说 慢一点。
如果 一旦 超过 一秒 以上 的话, 这个 事儿 其实 就 相当于 变成 了 你 怎么 这么 半天 还没 理 我, 或者说 你 怎么 故意 不理 我, 或者 你到底 能不能 听见 我 说话。 整个 在 自然 交互 下, 如果我们 把 它 放在 游戏 的 应用 场景, 或者说 前端 一个 语音助手, 或者说 像 类似 O S 这样的 一个 应用 场景 下, 你 会 发现 速度 非常重要。 而且 这个 上面 open I 也不 负责, 因为 ChatGPT 的 接口, 大源 的 接口 基本上 现在 是以 单轮 和 文字 来 出的。 而且 其实 ChatGPT 出 字儿 也 不是 那么 快。 如果 你们 试 过 的话, 它是 一个 现场 的 生成 完全 蹦。 我们 怎么样 把 刚才 我们 quantum engine 的 demo, 就 elon musk 这个 demo, 或者说 怎么能 把 前端 用户 的 体验 的 latency 做到 自然。 我愿意 说, 并且 我 觉得 说话 是 非常 自然 的 一个 体验, 并且 我 认为 你 这个 A I 响应 足够 聪明。 我们 就是 在 做 这个 速度。
但是 你 稍微 去 研究 下, 你 会 发现 我们 其实 之前 扫过 一遍 接口。 这 里面 包括 的 open I 的 返回 速度, 我们 丢包 的 速度, open I 的 处理速度, open I 把 这个 包 丢 给 我们的 速度, open I 生成 的 速度, 加上 我们 这个 包 文字 拿到 以后 去 阿 座 的 T T S 转成 语音 的 速度, 语音 M P3 传到 我们 服务器 的 速度, 服务器 拨出 这个 M P3 的 速度。 整个 速度 扫 起来 以后, 你 会 发现, 如果你 不做 任何 优化, 你 只是 接 它 接口 的话, open I 可能 需要 4秒钟 把 你 这个 东西 才能 处理 好。 你 丢 到 T T S 里面, T T S 要 花 3秒钟 可以 生成 一个 audio。 这个 audio 如果你 不做 处理 的话, 丢 到 你的 前端 可能 又 需要 2秒。 那 前前后后 你 可能 需要 十几秒 它 才能 回 你那 怎么样 把 十几秒 做到 500毫秒, 甚至 做到 200毫秒, 那 大家 觉得 真的 很快 的 时候, 中间 这里 就是 看 真功夫 的 时候 了。
前端 的 壁垒 其实 就是你 把 一个 产品 做到 从 零分 做到 60分非常简单。 从 60分做到 80分, 做到 90分, 你 稍微 努力 一下 也可以 做到。 但是 从 90分往 上 每一分 可能 就 需要 花 一年、 两年 甚至 更多 的 时间 去 完善。 所以说 前端 的 产品, 你说 我们 作为 终端用户 来讲, 没有人 在 用 iphone 的 时候 想 把 它 拆开 看 里面 到底 是 怎么 work 的。 没有人 用 自动驾驶 的 时候, 会 想要 一行 一行 边 看, 边 坐在 那儿 用 自动驾驶 边 读 的 它的 代码。
用户 其实 最 讨厌 前端 的 产品, 把 技术 拿到 前面 看。 因为 用户 不管 的, 用户 不 care, 用户 care 的 是 这个 产品 的 功能性 和 他 是不是 能 让 我 用 起来 爽, 这个 是 他们 care 的 所有 东西。 所以 我 这里 其实 还是 很喜欢 比较 早期 的 苹果 的 设计 的 哲学 的。 就是 他 一定 是 把 技术 的 东西 藏 在 背后 的, 他 不想 给 用户。 你为什么 要 给他 解释 这个 东西 呢? 他 没有 必要 知道。 而且 你 给他 解释 了, 也不 代表 你的 体验 就会 更好。 真正 的 科技, 尤其是 这种 比较 工程化 的 科技, 我 认为是 需要 藏起来 的。 最终 把 它 融合 在 用户 的 体验 里面, 能 让 用户 的 体验 能 多 加 几分, 我 认为 这 才是 至关重要 的。
而且 这件 事儿 说 实在 的 其实 是 有 壁垒 的, 真的 是 有 壁垒 的。 因为 大多数 这些 活儿 他 都是 脏活 累活, 而且 是 非常 枯燥 的 一个 优化 和 提高 的 过程。 我不 认为 这是 每一个 公司 都 愿意 干 的, 我 也不 认为 这是 每个 公司 都 看得起 愿意 做 的。 但是 这 恰恰 是 用户 这边 产生 最大 的 用户体验 的 impact。 一些 需要 做 的 工作。 其实 在 长期 的 过程中, 如果你在 这些 事情 上去 深耕, 去 硬 磕, 去做 积累 的话, 你的 产品 可以在 用户 的 角度 上 会 产生 比较 质 的 变化。 到 一定程度 的话, 即使 你的 算法 可能 比 别人 更 烂, 或者 你 用 的 是 ChatGPT, 别人 用 的 是 G P, 你 用 G P3, 别人 用 GP3.5, 大家 还是会 觉得 你的 比 他的 好用。 所以 我 觉得 用户 在 评价 一个 产品 的 时候, 绝对 不是 看你 这个 代码 有 多 厉害, 或者 你 这个 后台 的 架构 有 多 厉害。 他 就是 看 这个 产品 最终 他 买到 手里, 或者 他 用到 手里 的 时候 到底 长 什么样, 到底 好不好 用。
你说 这个 我自己 的 感触 非常 的 深。 我自己 在 试用 ChatGPT 的 过程中 发现 我没有 办法 跟 这个 A I 连续 对话。 是因为 每次 我 给他 一个 问题, 他的 反馈 速度 太慢 了, 我 等 他 打字 的 框框 咚咚 咚咚 东, 我要 等 很久。 然后 在 这个 等 的 过程中 我 就会 不 耐心, 就会 切换 到 其他 的 网页。 可能 逛 着 逛 着 我 就 忘了我 还在 去 跟 他 进行 一个 对话。 我 经常 是 第二天 上来, 发现 我们 前一天 的 对话 还没有 完, 再来 的 时候 他的 连接 已经 断掉 了, 这种 事情 经常 发生。
而且 我 其实 还 想到 一个 zoom 的 例子, 我们 刚刚 不是 zoom 去 通话 吗? 早期 zoom 为什么 能 在 一个 非常 成熟 的 视频会议 的 市场? 其实 当时 有 skype cisco 的 web E X 这样的 会议 产品 zoom 它是 怎么 冲出来 的?
我 当时 听 他们的 分享 是 早期 技术 没有 那么 好的 时候, 大家 打 视频 电话 都会 延时, 都会 卡顿。 他们 我在 卡顿 的 时候, 我 去 优先 保证 你的声音 不 中断, 可以 把 画面 卡 了。 但是 其实 我们 只要 能 正常 听到 对方 的 语音, 那个 画面 卡 一下 就 卡 一下。 如果说 再 卡顿 我 还是 解决不了 的话, 我 让 你的声音 的 音质 降低 一个 音质 档次。 但是 我 还是 要 保证 你们的 通话 是 流畅 的, 只是 你的 音质 不是 一个 高清 的 高质 的 音质。 跟 你 刚刚 跟 我说 的, 要 去 解决 用户 延时 的 核心 的 痛点 是 非常 相似 的这 一点 给 我的 感触 很 深。 我们 其实 在 不停 的 去 视 视频会议 的 过程中, 现在 最 要 解决 的 就是我 用 哪个 软件 不会 卡, 很 会 抓 核心 痛点 的。
就像 我说 的, 你 有没有 壁垒, 这 不是 一个 起因 论, 这 是个 结果 论。 你 这个 产品 还没 build 的 时候, 你不会 觉得 它 有 壁垒。 你 觉得 一个 东西 有 壁垒 的 时候, 都是你 觉得 这个 东西 真的有 壁垒 的 时候, 所以 它是 个 结果 论。 那 这个 壁垒 的 最终 贡献 contribution 其实 很多 的 通过 这些 非常 枯燥 的 优化 和 这些 小的 点的 一个 不断 的 深耕 叠加 出来 的 壁垒。 所以 这些 东西 其实 我们 特别关注 的, 也是 我们 认为 需要 真正 去 花 那个 功夫, 花 那个 时间 去 下功夫 的 地方。
你说 大 语言 模型 上面, 你为什么 要 重复 造 轮子 呢? 而且 技术 本身 有没有 壁垒? 大 语言 模型 GPT 也是 基于 那 几篇 公开的 论文 做出来 的, OpenAI 给出 的 答案 是 七年 加上 几十 亿美金, 应该 是不是 有人 愿意 或者 能够 以 花 更 短 的 时间, 或者说 花 更 少 的 钱 呢? 今天我 在 整个 行业 上, 我 认为 都是 很难 的。
我 再 把 用户体验 往前 推 一步, 更 推 到 一个 消费者 可以 感知 的 上面。 比如说 我 跟 quantum engine 的 对话, 我 跟 character 点 A I 的 对话, 还是 基于 文字 或者 语音 的那 大家 在 玩 这种 代入 式 的 角色 的 时候, 我们 还是 很 希望 去 看到 有一个 视频 形象。 他 有 声音, 包括 对话, 他的 声音 是 男生 的 声音, 或者 他是 一个 跟 bill gates 或者 elon musk 他的 声音 比较 接近 的 声音。 有 形象, 有 视频、 有 展示。 你 觉得 从 现在 的 文字 到 视频, 它的 步骤 有 多长 呢? 还是 说 它 其实 就是 游戏 公司 做 的 事情 了。
这 是个 很 好的 问题。 这 里面 其实 有 两个 阶段 的。 第一个 方法, 我们 现在 走 的 这个 方法, 我们 把 一个 传统 的 开发 流程, 从 你 必须 要 做 故事, 你 必须 要 调 蓝图, 你 必须 每一个 帧 都要 每一个 场景 都要 去 手动 做 蓝图 做 规划。 到 最后 你 去 准备 regin, 就是 准备 N P C 的 动 补, 然后 准备 这个 上面 的 皮肤, 变成 了 我们 现在 只要 故事, 只要 皮肤 短期 AIGC 在 我 个人 看来 是 没法 取代 真人 对 好的故事 的 描述 或 独特 的 视角 的 体验 的。 尤其是 我在 好莱坞 传统 的 导演, 他们 在 行业 里面 积累 的对 什么样 的 故事 能够 触动 人类 的 情感 这件 事儿 的 积累, 我 认为是 现在 是 比 A I 要强 的。 短期 可能 A I 还是 需要 跟 真人 学习 很多 才 可以, 所以 我 个人 认为 这部分 应该 是 属于 人 族 的。 还有 一部分 认为 我 现在 也 在 看, 比如说 made journey, 或者说 交易, 或者说 是 diffusion, 或者说 所有的 AIGC 的 这些 视觉。
我 个人 认为 目前 可以 说 你 生成 一张 海报 或者说 生成 一张 墙纸 这件 事儿 肯定 A I 已经 做 的 很 好了。 但是 你 要 去 原创 一个 形象, 一个 角色 或者说 一个 角度 的话, 我不 认为 现在 这个 时间 是 成熟 的 时间。 所以 我 觉得 我们 更 倾向 于 把 这 两 部分 还是 由 人类 来做。 就是说 相当于 加上 视觉 的话, 还是 在 虚幻引擎 里, 或者 像 unity 里, 或者 叫 red engine 里面。
我们 只需要 找 一个 团队 去做 最后的 场景 物体 的 皮肤 就可以 了, 就 有点像 王者 荣耀 的 皮肤。 我 认为 这个 皮肤 这件 事儿 还 必须 得 真人 来做, 才 可以 做得好, 才 可以 做 的 有 原创性。 我 个人 也 试 了 所有的 AIGC 的 视觉 的 东西, 他们 还是 比较 难以 准确 的 把 控 到 最终 exactly 你 想要 什么样 的 地步 的, 他们 还是 比较 泛化 的。 所以 我 认为 短期 可能 这件 事儿 还是 由 人 来做 更 合理。 不是说 AI 做不了, AI 可以 做, 但是 我们 认为 用人 来做 更 合理。 但是 长期 看来 这些 模型 应该 是 可以 把 这件 事儿 也 取代 了。
因为 我们 之前 聊过 生成式 A I 它 在 生成 图片 的 时候, 能不能 真的 去 帮助 到 这些 艺术家。 他们 其实 觉得 他在 精确 的 get 到 艺术家 的 需求 的 时候, 还是 有 很多 问题 的。 所以 现在 在 整个 的 游戏 领域, 大家 用 称 程式 ai 做 的 最多 的 反而 是 游戏 道具 的 徽章。 因为 它 生成 徽章 或者 3D世界, 大家 去做 一些 底层 的 纹理, 就 仅仅只是 这么 一 小步, 可能 已经 帮助 到 很多 了。 因为 以前 他们 去做 这种 纹理, 要 去 拍照, 要 去 搞 各种 一层 一层 的 搭建, 也是 一个 很难 的 事情。 现在 就像 你说的, 塑造 人物 是 非常 难 的。 但是 它 可以 塑造 背景 中的 一部分 底层 的。 比如说 房间 的 纹理 是 怎么样 的, 草坪 的 纹理 是 怎么样 的, 他 能 帮 到 这 一步, 其实 已经 把 过程 加速 很多 了。
我 觉得 这 里面 最大 的 debate 就是说 A I 可以 生成 一个 东西, 生成 的 特别 好。 但是 你 要不要 照单全收? 因为 现在 的 模型 和 逻辑 你 只能 照单全收。 有些 studio 或者说 有些 工作室, 他 根本 就 不愿意 去 照单全收。 他 必须 要 每一个 事情 都是 他 原创, 必须 他 自己 要死 磕 每个 细节 的。 它 其实 本质 上 就 跟 现在 AIGC 的 业务 逻辑 是 冲突 的。
像你 刚才 讲 的, 比如说 地上 的 草皮 的 texture, 天空 的 texture, 徽章 的 这种 icon design logo design, 我 认为 现在 AIGC 已经 可以 做。 You think is cool, but you don't really care about IT. 这些 东西 其实 都是 可以在 这个 范畴 里面 就 已经 完全 做了, 但是 我 现在 认为 他 做不到。 You think is cool, and you really care about IT, and you need to look, stare and look at IT every single day. 这个 东西 他 现在 做不了, 这个 东西 还是 得人 来做。
所以 核心 其实 如果 未来 我们 想做 一个 真正 的 像 西部 世界 这样的 非常 开放 的 游戏, 大家 可以 根据 自己的 剧情 设定 走 的话, 还有 非常 多 的 步骤。 就像 你说的, 可能 最 核心 的 步骤 还是 说 一个 剧本。 好莱坞 所有的 人都 信奉 最好的 东西 是要 一个 好故事。 这个 故事 的 框架 下, 现在 人的 生成 还是 得 游戏 公司 来做。 A I 能 帮助 到 一些 部分, 但是 不 排除 未来 A I 能够 介入 的 部分 会越来越 多。 就这样 总结 可以吗?
基本上 我们 现在 只需要 两个, 就是 文字 的 剧本 加上 最终 的 皮肤 中间 的 部分 已经 完全 可以 自动化 了。
你 觉得 从 整个 游戏 行业 的 发展 来看, 整个 游戏 行业 加速 了 几次? 大 的 技术 是什么? 可以 给 大家 总结 一下 吗? 刚刚 有 提到 虚幻引擎, 我 有 提到 其他 的 GPT, 你 可不可以 大概 跟 大家 总结 一下 游戏 行业 的 发展 跟 加速 它的 技术。
我们 就 从 最早 的 游戏 来说, 我 觉得 有一个 观点, 就是说 游戏 不一定 是 高清 画面 的 才 好玩。 我自己 也是 个 重度 游戏玩家, 我 觉得 游戏 的 本质 是 需要 好玩, 但 好玩 不 代表 非得 是 4K120 贺 自 H D R 虚幻 1500的素材 的 材质, 我 觉得 这 两个 中间 还是 有 一定 的 空间 的。 你 比如 塞尔达, 塞尔达 很 好的 游戏, 那 它 也 不是 最高 清 的, 它 在 720P 上 运行, 大家 也是 很 上瘾 的。 更 早 的 一些 游戏, 比如说 俄罗斯方块、 贪吃蛇, 他 今天 看起来 它 也是 好玩的 游戏。
我 觉得 整个 游戏 发生 了 几个 变化。 第一个 变化 就 是从 最早 的 阿塔 里 的 胖, 就 那个 乒乓球 从 八位 到 16位到 32位, 这 是一个 巨大 的 提升。 从 像素 到 更 高清 的 图形 的 渲染, 这 是一个 大 的 提升。 然后 从 2D到 尾 3D到 全 3D到 绝大多数 3D是 贴图, 到 全部 3D都 实时 渲染, 这 又是 一个 大 的 提升。 我 认为 整个 你 观察 游戏 的 行业 的 发展, 画面 的 提升 对 游戏 的 销量 的 影响, 或者说 对 游戏 的 行业 的 影响 其实 是 不大 的。 但是 玩法 的 创新, interaction 上 的 变化 对 整个 游戏 行业 的 销量 才是 巨大 的。
以前 a Terry 的 胖, 你就是 一个 摇杆。 后面 比如说 street fighter, 你就是 在 arcade 街机 的 游戏, 街机 游戏 交互 上面 你就是 一台 游戏机, 就是 一个游戏。 你 去 那儿 每一次 玩 那个游戏 你 要 投币 玩玩。 后来 有了 电脑 的 材质 了, 然后 每个人 家里 可以 买一台 电脑, 这个 电脑 上 你可以 跑 1000个游戏, 两千个 游戏、 5000个 游戏, 随你便。 到 后面 你 有 this station, 你 有 这个 game boy 了, 有 移动 了, 其实 你 不光是 家里 能 玩, 路上 也能 玩 了。
通过 交互 材质 的 变化, 也就是说 你 怎么 去 玩 这个 游戏 的 变化, 他 不断 的 在 叠加 每天 平均 每个 用户 在游戏 上 的 平均时间 的 整个 游戏 的 发展方向 是 他 希望 把 这个 游戏 变得 越来越 accessible 以及 immersive。 Accessible 就是 以前 你 要 去 玩游戏, 你 必须 得到 村口 的那 台 游戏厅 里面 才 可以, 你 还得 等 人家 玩完 了 你 排队。 现在 的 accessible, 你 只要 有 手机, 你 坐在 马桶 上 你 也可以 玩, 你走 在路上 也可以 玩, 你 在 打车 的 路上、 公交车上、 地铁 上都 可以 玩。 他的 accessibility 变强 了, 所以 你 在 entertainment 游戏 上 投入 的 时间 变 多了。
第二个 immersive ess 就是 以前 你 只是 推 一个 摇杆, 左右 控制 一个 白条, 到 现在 你 变成 了 你是 魔兽 公会 里面 的 主力 D P S 输出, 每 周二 你 要 下 副本, 它的 沉浸式 变强 了, 以至于 由于 你 在 里面 投入 的 时间 变得 越来越 多了。 所以 再 往后 去 看 的话, 我 认为 这 一波 的 AIGC 其实 主要是 在 interaction 上 或者 immersive ess 上 做了 一个 变革。 也就是说 通过 刚 演示 的 这种 新的 contention 能力, 它 可以 真正 让 你 变成 西部 世界 那样, 你 想成为 哪个 角色, 你 自由 对话, 我 认为 这 是一个 immersive ess 的 提升。 你 更 愿意 花 更多 的 时间 在 同样 一个故事 下 或 同样 一个 剧本 下 玩 更 久, 并且 玩儿 更 多次, 并且 以 不同 的 角度 玩 更 多次。 最终 还是 导致 了 我们 对 用户 的 时间 的 占有 的 提升。 我 认为 这个 其实 是 游戏 行业 里面 真正 看 的 东西。
我 觉得 跟你聊 天 非常 受 启发, 你 非常 会 抓住 本质 的 问题, 而 不是 表象 的。 大家 看到 更 炫酷 的 画面。
这些 我 从来 都不 觉得 炫酷 的 画面 是 关键。 你 这样 想你 要 更 聪明 的话, 你 应该 试图 想 是 怎么样 用 low bug 做出 更好 卖 的 游戏, 而 不是说 花 很多很多 钱 去做 一个 不一定 能 卖 的 游戏。
还有 最后一个 问题, 刚刚 有 提到 对 游戏 行业 很 重要 的 一个点 是 怎么 去做 更 具有 交互式, 更 具有 沉浸 感 的 游戏。 现在 有了 AIGC, 有了 生成式 A I 你 觉得 整个 游戏 行业 会 因为 这个 技术 的 到来 发生 一些 产业 格局 上 的 变化 吗?
我 觉得 一定 会 的。 有一个 特别 好的 例子 就是说 pixel Steve jobs 当年 成立 的 动画 公司 pixar 的 玩具总动员 大概 应该 都 看过。 吴迪 和 巴斯光年 的 那个 动画片, 没 记错 的话, 96年、 97年、 98年 左右 制作 和 发售 的。 我 认为 未来 这个 行业 里面 会有 更多 的 pixel, 会有 一大批 A I power 新型 的 公司 产生。
你看 当年 pixar 的 故事 的话, 玩具总动员 就是 toy story。 它的 这个 剧本 并不是 一个 一定 会 成功 的 剧本, 它 也是 一个 比较 cliche 比较 老套 的 一个 设定。 青少年 的 成长, 跟 爸妈 的 冲突, 加上 玩具 里面 的 英雄救美, 基本上 是 很 俗套 的 一个故事。 但 为什么 玩具总动员 toy story 变成 了 一个 legend, 变成 了 一个 业界 的 经典? 是因为 它是 当时 人类 历史上 第一个 全 90分钟、 全 3D渲染 的 电影。 他是 first of this kind, 他是 第一个。
当时 pixel 在 推出 了 玩具总动员 以后, 在 接下来 四年 里面, 没有 任何 一个 公司 可以 做 同样 的 事, pixel 才 成为 了 当年 的 pixel。 这件 事 在 AIGC 的 游戏 和 娱乐 行业 里面 会 再次发生 的。 我 认为 会有 一个 新的 pixar 的。 他们 也 是因为 在技术上 产生 了 足够 多 的 优势, 能够 让 他们 产出 在 别的 地方 都 不能 体验 到 的 一个 独特 体验。 以至于 这个 故事 可能 三 默 都 不重要 了。
体验 的 创新 足够 底层, 足够 差异 足够 大。 而 让玩家 们 一定 得 试一下 这个 东西 到底是什么。 我 认为 这个 是 更 可能发生 的 事情。 也就是说 我 个人 人 认为 在这里 会 产生 更多 的 新型 的 studio, 他们 不一定 有 老牌 的 游戏 工作室, 或者 老牌 的 好莱坞 的 studio 经验 这么 多, 或者说 人脉 那么 广, 或者说 埃 批 这么 全。 但是 他们 能够 做出 其他 的 最大 的 studio 都 做 不 出来 的 体验。 这个 体验 又是 一个 崭新 的 体验, 又是 玩家 所 喜欢 的 体验。 以至于 这些 studio 可能 会 在 接下来 变成 一个 主流 的 studio, 以至于 后面 他们的 技术 可能 才会 被 传统 这些 study 所 渴求、 所 接受、 所 大规模 的 应用。 我 认为 这样的 发展 可能 是我 预测 中 比较 合理 的 一个故事。
未来 由 生成式 A I 带来 的 新的 东西, 他 可能 会 去 创造 一个 完全 大家 都 没有想象 到 的 游戏 体验。 至于 这个 是什么, 就 到了 非常 拼 想法 的 阶段 了。
这件 事 是 一定 会 发生 的。 利用 新 科技 做出来 的 一定 是 完全 不一样的 东西, 我 认为 玩家 是 会 接受 的。 但是 说 玩家 接受 以后 会不会 真的 觉得 这个 东西 太 厉害 了。 回到 我们 刚才 聊 的 最后 终端 的 用户体验 的 问题 了。 从 90分往 上 每 一份 做 其实 很难 的, 大家 一定要 达到 一个 壁垒 的 边界。
还有一个 例子, iphone 第一代 发售 的 时候, 之所以 iphone 那么 厉害, 其实 第一代 发售 的 时候 跟 APP store 没 一点 关系。 因为 iphone 第一代 没有 APP store, 只有 9个APP。 Iphone 当年 第一代 发售 最 厉害 的 是 它 解决 了 multi touch, 它 把 电容屏 做成 了 电阻屏。 其实 触屏 这个 事儿, iphone 发布 的 十几年 前 就 已经 成熟 了。 微软 最早 和 惠普 做 的 P D A 就 已经 是 触屏 的 touch screen 了。 当时 iphone 之所以 那么 牛逼 的 原因, 是因为 你 在 iphone 这个 手机 上 就 觉得 这个 触控 太 丝滑 了。
你 想一想 早期 的 这些 安卓 最 被 人 诟病 的 就是 它 那个 不跟 手 的 问题。 系统 界面 不跟 手, 技术 很多 的 都 已经 被 实现 了。 但是 就是 那一 单点 决定 了 在那里 产生 了 一个 用户体验 的 壁垒。 接下来 我们 这个 行业 或 任何 一个 行业 都是 一模一样 的 道理。 你可以 把 技术 结合 进去, 你可以 把 产品 实现 出来。 但 实现 出来 以后, 你 在产品 的 终端 体验 上 抠 的 有 多 狠, 你 最终 体验 到底 有 多好, 才是 决定 这 一类 公司 会 成功 与 失败 的 关键。
从 你 举 的 例子 来看, 是一个 资深 的 乔布斯 粉。
我 觉得 早期 的 苹果 的 很多 哲学 是 业界 的 人 应该 都是 很 认同 的。 比较 不幸 的 就是 在 现在 这个 比较 快 的 时代, 好多 人 又 开始 觉得 这些 事情 变得 没 那么 必要 了。 我 个人 是 很 认可 当年 那 一段时期 的 苹果 的, 但 我是 很不 认可 现在 的 苹果 的。 但 我也 不是说 想成为 第二个 谁, 或者 想 完全 copy 他的 哲学。 我只是 觉得 他 当时 讲 的 这些 东西 放在 现在 看 还是 valid 的, 还是 有效 的, 还是 有 道理 的。 希望 大家 去 我们的 网站 试一试 我们的 产品, 也 给 我们 多 提提 意见。
今天 谢谢 Jessie, 我 觉得 聊得 非常 的 精彩, 感谢。 好的, 他们的 网站 是 quantum engine 点 A I 是。
但 中间 有一个 横杠 engine 点 A I 然后 麻烦 jane 可以在 你的 频道 里面 分享 一下。
我们 可以 把 网址 放在 show notes 当中。 如果 大家 对 我们 今天 的 节目 感兴趣, 或者 大家 对 AIGC 是 如何 改变 游戏 行业 有 一些 自己的 想法, 欢迎 大家 给 我们 写 评论, 写 留言。 中国 的 听众 可以 通过 苹果 播客、 小宇宙、 喜马拉雅、 蜻蜓 F M、 荔枝 F M、 网易 语音 音乐 和 QQ 音乐 来 收听 我们。 海外 的 听众 可以 通过 苹果 博客、 spotify、 google podcast 和 amazon music 来 收听 我们。 谢谢 大家 的 收听, 谢谢。