We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode S8Bonus | 抱歉,Sora 还不能称为「世界模拟器」

S8Bonus | 抱歉,Sora 还不能称为「世界模拟器」

2024/2/23
logo of podcast What's Next|科技早知道

What's Next|科技早知道

AI Deep Dive AI Chapters Transcript
People
丁叫
和成
李崇轩
Topics
李崇轩:Sora的成功源于对技术路线的坚持、强大的工程能力积累以及对Diffusion模型、Transformer架构和隐空间的有效运用。其局限性在于模型基于概率分布,不可避免地会出现错误,但可以通过扩大模型规模和数据量来减少错误。未来可能出现基于3D模型的视频生成模型,这将是AI技术发展的重要方向。距离AGI还有很长的路要走,但Sora是AI技术的重要突破。 和成:Sora能够生成60秒视频的关键在于其对scaling方法论的坚持、强大的工程能力以及在模型架构和数据处理上的创新,例如时空分块(space-time patch)。Sora的训练数据可能包含真实数据、AI生成数据和游戏引擎生成数据,其配比和处理方式是其核心竞争力之一。Sora的商业化模式可能类似于ChatGPT,但其用户界面需要改进。Sora代表的端到端视频生成技术对现有视频处理技术构成冲击,但其在可控性、故事性和商业应用方面仍有待提高。短期内难以完全取代传统的3D建模和渲染引擎,但与传统渲染引擎的结合可能成为未来发展方向。Sora推动了AI技术的发展,但距离AGI还有很长的距离。 丁叫:Sora模型的技术原理、局限性、商业化前景及对AGI的影响是本期讨论的重点。 李崇轩:Sora的成功源于对技术路线的坚持、强大的工程能力积累以及对Diffusion模型、Transformer架构和隐空间的有效运用。其局限性在于模型基于概率分布,不可避免地会出现错误,但可以通过扩大模型规模和数据量来减少错误。未来可能出现基于3D模型的视频生成模型,这将是AI技术发展的重要方向。距离AGI还有很长的路要走,但Sora是AI技术的重要突破。 和成:Sora能够生成60秒视频的关键在于其对scaling方法论的坚持、强大的工程能力以及在模型架构和数据处理上的创新,例如时空分块(space-time patch)。Sora的训练数据可能包含真实数据、AI生成数据和游戏引擎生成数据,其配比和处理方式是其核心竞争力之一。Sora的商业化模式可能类似于ChatGPT,但其用户界面需要改进。Sora代表的端到端视频生成技术对现有视频处理技术构成冲击,但其在可控性、故事性和商业应用方面仍有待提高。短期内难以完全取代传统的3D建模和渲染引擎,但与传统渲染引擎的结合可能成为未来发展方向。Sora推动了AI技术的发展,但距离AGI还有很长的距离。 丁叫:Sora模型的技术原理、局限性、商业化前景及对AGI的影响是本期讨论的重点。

Deep Dive

Chapters
讨论Sora视频生成模型的技术突破和背后的原理,包括Transformer和Diffusion模型的结合,以及时空分块等技术细节。
  • Sora结合了Transformer和Diffusion模型,生成60秒高质量视频
  • 时空分块技术作为Transformer的输入单元
  • Sora可能在训练数据中使用了游戏引擎生成的数据

Shownotes Transcript

我们在 春节 前 推出 的 全新 付费 播客 不止 金钱, 上线 仅 四周 就 收获 了 相当 多 听 友 的 认可, 销量 也 大大 超出 了 我们的 预期。 感谢 大家 的 支持。 新年 新气象, 我们 也将 原计划 到 2月18日 结束 的 早 鸟 优惠价 99元 延长 到 元宵节, 2月26日 再 恢复 到 原价 129元。 希望 不止 金钱, 在 新的 一年 里面 也能 帮助 大家 更好地 应对 工作 和 学习 生活 中的 变化, 让 钱包 和 生活 都 变得 更加 确定。 大家 可以 点击 show no 查看 不止 金钱 的 节目 简介, 以及 收听 节目 的 预告。 用 声音。

碰撞。

世界 生动活泼。 Hello 大家好, 我是 丁 叫, 欢迎 收听 全 新一集 what next 科技 早知道。 Hello 大家好, 欢迎来到 我们 今天 的 科技 早知道。 这一次 是 我们在 2024年 龙年 的 第一期 节目。 本来 不想 那么 早就 开始 复 更 的, 但是 这个 open I 又 打出 了 一个 王炸 的 一个 新的 项目。

就是 sora sora sora .

sora .

g every available AI video generate the potential to revolutionize the content creation space。

然后 相信 大家 可能 也 在 不同 的 这些 社交 媒体 上面 看到 非常 多 的 可能 原本 并不是 在 讨论 科技 的 一些 博主 都 开始 在 聊 sora 了。 我们 科技 早知道 也 不能不 聊 这个 话题。 所以 今天 我们 也 请来 了 两位, 一位 是 学术界 的 这样的 专家, 另外 一位 是 AI。 特别是在 这个 视频 领域 的 创业者, 来 分析 一下 sora 它的 背后 的 技术, 以及 它的 商业化 和 对 未来 的 一些 影响。 第一位 是 李 从 宣, 李老师 是 中国人民大学 高 瓴 人工智能 学院 副教授, 博士生 导师。 Hello, 李老师 跟 我们 大家 打个招呼。

丁 老师好, 大家好, 很高兴 能 参加 科技 早知道 的 这个 节目 和 大家 分享。

李老师 也是 专门 是在 做 diffusion 方面 的 研究, 非常 深入, 然后 有 非常 多年 的 这些 经验。 另外 一位 是 合成 的 alumina, 也是 A I 领域 的 连续 创业者, 之前 是 做 这个 NLP 领域 的, 现在 的 new cast 点 A I 是 跟 视频 A I 相关 的, 然后 合成 也 跟 大家 打个招呼。

Hello 大家好, 今天 非常 期待 跟 大家 一块 聊 一 聊 sora 跟 视频。

我们 先 来说 一下 这个 sora 出来, 我不知道 大家 觉得 有 意外 和 不 意外 的 地方 吗?

首先 就是 通过 大规模 的 训练, 然后 用 这种 transformer 的 架构, 用 d fusion 的 这种 算法 去做 大规模 的 视频 训练。 这个 事情 本身 实际上 是 不 意外 的。 因为 在 搜索 之前, 其实 大家 一步一个脚印 的 这个 视频 生成 质量 确实 在 慢慢的 都在 提高。 但是 意外 的 地方 在于, 就是 没想到 能 这么 快 就有 这么 大 的 一个 突破。 特别是在 这个 时 长视频 的 生成 的 质量、 一致性, 包括 一些 人物 或者 是啊 动物 的 出现 有 消失, 然后 这种 一致性 等等。

对我 同意 就是说 有 两层。 第一层 的 意外 其实 就是 跟 咱们 去年 用 的 比较 多 的 一些 开源 的 文档 视频 生成 模型 来 比 的话, 它 的确 是 一致性, 然后 抖动 这些 问题 都 已经 很 好的 解决 了。 更大 的 一个 意外 的 点 就是 他们 丢 出来 这样 一个 概念, 就是 物理 世界 的 一个 模拟器。 这个 其实 是 让 大家 想象 空间 最大 的 一个地方, 当然 也是 争议 比较 大 的 地方。

其实 从 去年 开始, 我们 已经 看到 了 非常 多 的 文字 生成 视频 的 一些 小的 项目, 甚至 是 一些 科技 公司 他们的 荣幸。 然后 包括 去年 年底 我们 非常 关注 的 这个 皮卡, 包括 李 飞飞 教授 和 我 做 的 这样的 一个 项目, 它 叫 W A L T。 他们 也是 基于 这个 transformer 和 diffusion 的 模型 来 生成 的。 然后 他在 自己的 X 上面 也 发布 了 大概 有 3秒钟 的 一个 视频。 但是 这一次 sora 有 60秒钟, 这个 还是 挺 令人 惊讶 的。 其实 刚刚 李老师 也 在 说, transformer 加上 diffusion 这 样子 的 模型, 其实 是在 学术界 大家 都是 已知 的那 索尔 它 到底 是 在哪 一些 方面 是 有 一些 新的 突破, 然后 能 让 我们 最后 看到 的 这个 效果 是 这么 的 令人 惊艳。

其实 很多 的 情况下, 学术界 的 一些 技术 上 或 方法 上, 或者 是 原理 上 的 创新, 都是 一 小步 一 小步 的。 在 累积到 一定程度 之后, 就是 有 有人 会有 公司 会 把 它 集成 成 一个 系统, 会有 一个 突出 的 这样 一个 demo 的 展示, 或者 一个 很 出圈 的 一个 产品。 其实 从 可能 阿尔法 go google 的 工作, 包括 open I G P T 这些 工作, 都是 一些 非常 典型 的 代表。 从 这个 里面 diffusion 的 训练 和 采样 的 算法, 然后 包括 为 diffusion 而 设计 的 transformer 的 架构, 包括 一些 在 眼 空间 去做 d fusion 的 生成。 通过 这种 encode decode 方式 对 原来的 这种 绕 data 去做 压缩。 这些 在 近几年 的 学术界 的 工作 当中, 都 其实 都 提到 了 这个 技术 相对来说 是 比较 成熟 的, 然后 open I 非常 领先 的。

我 认为 最 让人 印象 深刻 的 第一点 肯定 是 他们 对于 这种 技术路线, 或者说 这个 scaling 这 一套 方法论 的 一种 坚持, 这 肯定 是 最 重要 的。 就是 他们 能够 去 想到 别人 不敢 想 的 一种 结果, 或者 能 相信 skin 给 大家 带来 算法 或 其他 的 这种 突破 以外 的 这种 更大 的 这种 加成, 这 是一种。 然后 还有 就是 它的 工程 的 这种 积累, 包括 数据 上, 包括 算 力 上, 包括 服务器 的 整个 的 运维 上, 然后 包括 大 模型 的 训练 上, 他们 都有 很深的 积累。 从 GPT 到 darling three 这些 模型 他们 都 会有, 就 从 小学 到大。 甚至 在 大 模型 训练 之前, 它 通过 一些 经验性 的 规律 能够 预测 我 用 多大 的 模型, 然后 多少 的 数据 就 应该 能 达到 什么样 的 效果。 所以 它是 一种 相对来说 非常 流程化, 或者 是一种 带 引号 的 科学 的 这种 训练 的 方式。 所以 导致 他的 工程 能力 是 断层 性 的 领先 的。 然后 在 这 里面 回到 原初 的 这个 问题, 为什么 能 做到 60秒? 本身 这 里面 可能 有些 细节, 就 比如说 他 提出了 一种 特殊 的 叫做 时空 的 叫 space time patch, 就是 时空 的 分块, 作为 这个 传 former 的 这个 单元 的 这种 输入, token 的 输入, 包括 一些 其他 的, 比如说 各种各样 纵横比, 各种各样 的 像素, 各种各样 时长, 包括 图像 本身 不同 的 这种 视觉 数据, 统一 的 认为 是啊 视频 的 这种 输入, 然后 去做 训练。

在此之前 应该 市场 上面 做 的 最好的 文字 生成 图像, 我不知道 是不是 算是 runway 这个 公司。

业界 这 一块 我 觉得 还是 挺 多 的。 是因为 有可能 是 runway, 然后 会有 一些 benchmark, 包括 后来 stability 出的 S V D, 或者说 picture 这边。 甚至于 国内 后来 也 出了 一些 类似的 文档 视频 的 模型。

主要是 像 李教授 刚才 讲 的, 从 技术 架构 层面 上, 它是 一个 系统工程。 它 不是说 一个 单个 模型 的 一个 架构 的 不一样。 当然 我们 现在 大家 都 知道, sera 是 应用 的 一个 diffusion。 作为 一个 book, 它的 核心 为什么 能 生成 60秒? 跟 业界 来去 其他 来 比 的话, 就是 整体 上 除了 这样的 一个 模型 以外, 它 还有 一些 所谓 的 刚才 说 的 这种 video compression 的 一个 network。 它 其实 就是 把 一个 复杂 的 一个 多维 的 一些 数据, 像 视频 极高 程度 的 压缩 到 一个 隐 空间。 这就 使得 它的 整个 的 一个 算法, 整个 的 一个 推理, 包括 训练 这 一块, 再到 最终 的 一个 视频 产出 的 效率 是 可以 提高。 所以 这个 层面 上 你可以 通过 它 这个 数据 的 压缩 的 一个 技术, 再 结合 他 那个 paper 里边 提到 的 用 doe 或者 是 图像 视频 到 文本 描述, 用 文本 描述 的 方法 来去 aug 整个 的 一个 训练。

数据。 也是 在 某种程度 上 让 它 在 隐 空间 中 得到了 对 这些 数据 的 一个 编码 进行了 一个 优化。 所以 总结 来讲 就是 它 在 视频 数据 的 一个 编码, 把 它 投射 到 一个 隐 空间 去做 整个 的 生成。 这 一块 是 很大 的 一个 亮点。 用了 不同 的 方法, 这个 也是 可能 就是说 现在 大家 猜 它 为什么 能 生成 出 60秒的 一个 原因。

能不能 帮 我们 解释一下 什么 叫做 隐 空间?

隐 空间 可以 这么 理解, 它 其实 就是 一个 相当于 抽象 的 概念。 但 更多 的 是一个 把 高维 数据 在 一个 低 维度空间 的 一个 表示。 在 视频压缩 或者 server 这个 场景 里边 的 高维 数据, 更多 的 就是 我们 输入 的 视频 源。 经过 这样的 一个 压缩, 把 里边 的 一些 特征, 就是 多维度 的 一些 信息。 就 比如说 画面、 构图, 然后 一些 空间信息 以及 时序 信息, 经过 这样的 一个 压缩, 降 维 到 一个 更 小 更 简洁 的 一个 表现形式 上。 那 更 小 更 简洁 的 一个 表现形式, 就是 我们 所谓 上 的 这个 隐 空间。

总结 来说, 它 其实 就是 一个 把 高 维度 的 一个 原始数据 压缩 到 一个 低 维度 的 一个 表征。 同时 能把 一些 原始数据 里边 的 核心内容 跟 结构, 还有 一些 特征 能 保留。 当然 这里 边 也会 有 一些 的 细节 上 的 一些 流失。 但是 这样的 一个 高 维度 的 一个 压缩 到 隐 空间 这样的 一个 操作, 能 很大程度 上 减少 存储 或者说 是 整个 数据传输 所 需要 的 一些 资源。 也可以 在 整个 的 隐 空间 就是 便于 后面 的 一个 数据处理, 尤其是 在 计算 层面 上, 对于 这种 低 维度 的 一些 计算 密集 方面 来讲 的话, 它 也可以 提高 他的 一个 处理速度, 降低 他的 一个 能耗。 这就是 一个 隐 空间 跟 sera 这边 的 一个 关系。

但是 如果我们 看 他们 发布 的 这个 technique paper 的话, 当时 我们 把 高 维度 的 视频压缩 到 一个 低 维度 的 一个 隐 空间 以后, 后来 他们 将 这些 数据 转换成 一个 patch, 也就是 类似 于 我们在 语言 模型 上 的 一个 token。 那 这样的 一些 patch, 就 一个 一个 这样的 patch 就是 一个 连续 的 一个 序列。 这样的话 可以 便于 这个 模型 在 简化 的 一个 表示层 上 去 进行 一个 学习。 从而 能 让 它 像 语言 模型 一样 可以 去 可以 进行 规模化 生成 更长 的 视频。 然后 也 不会 说 是因为 计算 量过大 而 变得 不切实际。

对 整个 效果 太好。 所以 大家 也都 在 猜测, 然后 包括 我也 看到 像是 meta 的 那个 A I 的 负责人 也是 在 猜测。 可能 在 sora 大家 用 的 这个 训练 数据 都 不是 这个 帧 的 视频 的 数据, 而是 一个 可能 叫做 生成 的 是从 游戏 引擎 生成 出来 的 数据。 所以 这 样子 的 这个 数据 可能 能够 更容易 获取, 然后 它的 这个 量 可能 也会 更大。 我不知道 这块 也是 现在 不管 是 学界 和 业界 的 一个 标准做法, 还是 也是 他们的 独创。

这个 事情 是 这样, 就是说 在 很多 的 文道 图 的 生成 过程 当中, 大家 会 发现 用 一些 高质量 的 A I 生成 的 图像 然后 加入 训练 会对 我们的 就 比如说 其他 A I 生成 的 图片 加进来, 会对 一个 另外一个 模型 的 训练, 有时候 会有 非常 正 讲 的 帮助。 也 包括 如果 这个 游戏 引擎 它的 产生 的 形态 t data 会 非常 的 流畅, 一致 三维 一致性 很好。 因为 它 本身 是 渲染 出来 的, 或者 时长 上 有 很大 的 这种 可能性。 就 比如 它 可以 搞得 很长, 因为 它是 生成 的, 所以 它 加进来 之后 可能 会对 训练 有 帮助。 但 它的 这个 open I 的 技术 报告 里面, 对 数据 的 保护 是 非常 好的。 大家 只 知道 的 是什么 呢? 一定 会有 不同 像素 的 不同 纵横比 的 数据, 一定 会有 image 的 数据。 但是 没有 讲 各个 数据 的 量 配比 以及 视频 数据 的 来源, 是 网上 找 的, 还是 说 请 的 专业 的 人士 去 标注 的, 包括 他 里面 可能 有 艺术生, 会对 这种 光影 之类 的 这种 数据 会有 很深的 这种 分析, 大家 也 只能 是 猜测 了。

然后 这个 事情 我 感觉 跟 学术界 偏离 的 会 非常 远。 就是 算法 原理, transformer diffusion 这些, 我相信 大家 都 知道。 对, 但是 对于 这种 大 模型 的 这种 训练, 数据 怎么 配比, 怎么 处理, 这些 其实 是真的 只有 有 那么 多卡 的 人 去 上手 去 训练, 可能 才能 在 发现 这个 东西 的对。

所以 就 您 的 如果 是 咱们 做 一个 很 大胆 的 设想 或者 猜想 的话, 您 觉得 他是 什么样 的 那种 状态 呢?

我 个人 觉得 会有 一定量 的 真实 数据, 会有 一定量 的 高质量 筛选 后 的 真实 数据, 然后 会有 一定量 的 这种 伪 数据, 不管 是 A I 产生 的 还是 游戏 引擎 产生 的。 但是 它的 训练 阶段 可能 会 很多, 也就是说 它 可能 会 在 很 大规模 的 网上 采集 的 和 很多很多 游戏 引擎 产生 的 sync D C 上先 去 训练。 然后 训练 完 之后, 到 后期 再 在 比如说 筛选 的 这种 质量 很高 的, 比如说 时时 长 比较 长, 或者 是 这个 人物 特别 清晰, 或者 是 这个 光影 配比 会 很好看, 再去 在 上面 做 微调。 这种 分阶段 的 训练, 其实 在 很多 的 这种 文道 图 的 模型 上 也都 是 应用 的 很 广泛, 像 stable discretion 这些。 对我 猜测 应该 是 这样。

合成 有 猜测 吗? 有一个 我想 补充 的 就是 我们在 用 多 模态 这边 去做 整个 的 一个 视频 理解 或者 是 描述 这样的 一个 工作。 可能 也是 对于 他们 在 做 训练 数据 的 一些 采集 和 标注 上 起到 了 很 重要 的 一个 作用, 尤其是 提 效。

就 比如说 他们 有 一些 像 教授 刚才 讲 的 筛选 过 的 优质 的 一些 样本, 那 这些 样本 的话 毕竟 是 比较 少。 但是 我们 其实 他们 现在 官 网上 能 拿到 的 很多 的 视频 是 非常 量 非常 大 的, 但是 质量 都是 非常 差, 有 一些 是 缺少 标注。 但是 使用 这种 所谓 的 这种 特征向量 的 这种 配比, 或者说 是 进行 一个 semantic search, 就是 语义 搜索。 其实 也能 是 通过 先是 拿 一批 优质 的 样本, 已经 标识 的 找到 一批 类似的, 这样 来去 扩充 它的 一个 是 训练 数据。 所以 这也是 一种 方法, 其实 就是 用 小规模 的 训练 数据 去 通过 特征向量 在 海量 的 数据 里面 找到 近似 的 一些 高质量 的 数据, 来 提升 它的 一个 训练 集 的 一个 质量 跟 它的 一个 规模, 提升 整个 系统 的 性能。 这也是 一种 猜测, 就是 借助 了 这种 文本 跟 整个 向量 的 一个 比对。

大家 在 训练 的 样本 上面 这个 参数, 大家 有没有 一个 同样 的 一个 猜测 呢?

对我 猜 是 大概 几十亿 的 量级。 为什么呢? 是因为 很多 的 文道 图 的 模型, 比如说 stable division, 包括 后边 的 S D 叉 L 然后 还有 其他 的 这种 模型, 大概 都 是在 几亿 到 10亿, 或者 是 十亿 多, 20亿, 它 大概 这个 量级。

Open I 有 dari three。 然后 dari three 它的 优势 是 因为 有 GPT 的 这种 加成, 所以 他 对 语言 的 理解 会 很好。 但是 从 整个 的 生成 像素、 质量 上, 我 觉得 跟 stable diffusion 差 不太 多。 所以 我 感觉 它的 数据 的 规模 差不多 闻到 图 就是 在 几亿 到 10亿10亿 左右。 我 猜想 他 技术 暴力 没有 提, 但是 他 一定 会 想办法 用上 大力。

Three 的 参数 做 初始化 或者 什么 之类 的。 就是 在 文档 视频 中, 你可以 认为 美珍 会有 一些 生成 的 过程, 或者 有 一些 参数, 它 可能 可以 会 服用。 它 里面 特殊 提到 的 一个 是什么 呢? 它 能够 生成 2048乘2048 像素 的 图像, 也就是 它 本身 搜索 是 能 生成 图 的, 它 比 已有 的 会 大 一些。 所以 我我我 认为 就 大概是 四倍 八倍 这个 量级, 差不多 就 几十亿 当然 这也是 猜测 猜测。

因为 现在 市场上 几个 不同 的 公司, 他们 底层 的 模型 也 不太 一样, 混合 成 咱们 现在 之前 聊到, 其实 那个 皮卡 你 跟 我 讲 他 这个 叫做 unit 模型 是吗? 我不知道 这个 模型 是 什么样 的 一个 模型。

这个 在 我 理解 就是 纯 是一个 diffusion 的 一个 模型, 它 去做 整个 的 一个 生成。 那 像 现在 的 这边 的 sora 更多 的 是一个 fusion transformer, 那 backbone 其实 是从 原来的 unit 换成 了 一个 transformer。 这也是 为什么 它 生成 的 这个 视频 的 整个 的 一个 画质 的 稳定度, 它的 抖动, 这些 问题 都 得到了 一些 相应 的 解决。

因为 transformer 再加上 diffusion 其实 发挥 了 不同 的 优势。 Transformer 定 它是 有 一定 的 局部 或者 是 global 的 context。 那 像 原来的 这种 diffusion 可能 更 注重 的 是在 一些 细节 局部 的 细节。 所以 两边 这个 优势 结合起来 也是 看到 了 一些 亮点。 但是 就 回到 咱们 一开始 的那 那个 问题, 我 觉得 像 这样的 一些 技术 架构, 其实 过去 这 一两年 其实 大家 都在 不同 的 一些 尝试, 并不 算是 特别 新。 当然 教授 可以 再 补充 一些 细节。

何 老师说 的 很好, 我 简单 补充 一点, 就是 大家 可能 觉得 transformer 的 这种 扩展 性能 会好 一些, 就是 比 unit 这种 C N base 的 这种 model 会好 一些。 就 可能 有 一些 实验性 的 观察, 认为 transformer 模型 变大 了, 更能 吃 进去 更多 的 数据, 然后 展现出 更好 的 这种 结果。

市场上 还有 不同 的 一些 其他 的 技术路线 之争 吗? 还是 现在 大家 都 觉得 路线, 可能 未来 就是 diffusion 加上 transformer 这个 模型。

对我 我 个人 就是 分 两个 维度。 第一个 维度 就是 生成 的 方法 上, 或者 怎么 去 建模 概率分布 上, 这个 时候 就是 diffusion 和 自 回归 扩散 和 自 回归 的 对比, 或者 就是 扩散 和 语言 模型。 大家 都讲 语言 模型 就是 GPT 那种 预测 下一个 单词 的 那种, 预测 下一个 的这 这 两个 我 个人 觉得 diffusion 的 优势 在于 它的 采样 是一种 粗糙 到 精细 的, 所以 它 没有 那个 限制, 就是 没有 正比 于 数据 维度 的 采样 速度 的 限制。 就 字符 归 你 每次 预测 下一个 的话, 它 一定 是 正比 于 你的 采样 长度 的, 所以 这是 上 的 优势。

那 diffusion 的 劣势 在于 什么 呢? 就是 现有 的 diffusion 方法, 它 还 比较 依赖于 这种 数据 的 这种 连续性, 它 要 去 定义 它的 这种 一个 叫 评分 函数, 一个 四 高 function 的 东西。 但 它 可能 更 适用于 vision, 目前 还没有 在 文本 上 验证 它的 有效性, 所以说 这是 diffusion 就 方法 上 diffusion 和 自 回归 的 对比。

然后 还有 另外一个 维度 是 网络结构, 就是 刚才 讨论 很多 的 transformer 和 unit。 然后 刚才 何 厂长 说 的 很多, 就是 大家 现在 可能 觉得 transformer 会好 一些。 当然 这个 网络 架构 上 还有 新的 发展, 可能 也有 很多 没有人 再去 尝试 做 更 高效 的 这种 transformer 或者 新的 架构。

我 觉得 反正 业界 就 基本上 在, 我 理解 它 其实 就是 用 diffusion transformer 作为 一个 主流 的 方向。 还有一个 就是 之前 咱们 过去 这 一两年 比较 火 的 auto regressive, 就是说 这种 language model, 然后 去做 整个 的 一个 prediction。 所以 这 两个 我 觉得 都是 有 自己的 优势。 但是 具体 最终 哪一个 可能 在 视频 生成 领域, 或者说 多 模态 的 foundation model 层面 上 跑 出来, 那就 看 最终 的 一个 任务。 但是 目前 从 业界 上 来看, 就是 diffusion transformer, 它 在 视频 生成 这个 任务 上, 的确 是 表现出来 了 一些, 就是 要 要好 于 其他 的 一些 架构 的 一个 效果。 所以 目前 我 觉得 这个 还是 取决于 最终 我们 要 实现 的 一个 目标 跟 任务。 能 说 在 视频 生成 这个 层面 上, 我们 现在 看到 diffusion transformer 更有 优势。

李老师, 我们 上次 在 剪彩 的 时候, 其实 您 提到 了 还有 挺 多 其他 家的 大 模型, 然后 也是 采用 了 diffusion 加 transformer 的。 比如 像是 可能 我 刚刚 讲 的 那个 李 飞飞 的 那个 what W A L T, 然后 像是 您 也 提到 过, 像是 华为 都有 类似的 文字, 生成 视频 的这 样子 的 一个 模型。 我不知道 这些 公司 它 会 很快 的 迎头赶上 吗? 如果 从 您 的 角度 来, 你 会 觉得 怎么看?

我 个人 觉得 就是 不管 是 学术界 还是 工业界, 他们 都会 去 进一步 去做 视频 生成, 因为 本身 这个 任务 是 非常 重, 我 觉得 从 技术路线 上 大家 也 可能 会 选择 不同 的。 比如说 language model 加 transformer 做 视频 也可以, 用 diffusion 这样 去做 也可以。 但是 最大 的 问题在于 什么 呢? 在于 有 几个 壁垒, 第一个 事情 是, 还是 训练 经验, 没有人 比 open I 更有 训 大 模型 的 经验, 所以 这个 事情 是一个 很 重要 的 问题。 第二个 事情 在于 语言 模型 和 之前 文道 图 生成 模型 的 积累。 就是说 文道 图 生成 模型 的 积累 这个 很 容易 理解, 跟 文道 视频 有 很多 相关 的 地方。

语言 模型 的 积累, 其实 刚才 何成 老师 提到, 就是说 他在 文本 的 这个 训练 的 时候, 文本 的 标注 上 会有 一个 叫 recapturing 这样的 一个 操作, 就是 用 一个 G P S V 或者 是 微调 的 版本 去 把 视频 打 上 非常复杂、 非常 长、 非常 细致 的 这种 文本 标签。 这个 对于 最后的 效果 会 很 好啊。 在 大理 three 里面 也有 这个 技术。 然后 包括 到 最后 在 测试阶段, 然后 他 还会 把 用户 输入 的 这种 短 的 这种 提示 词 给 它 变成 长 的, 然后 适合 这个 地区 model 去 生成 的。 所以 这个 既有 基础 模型 的 能力 上, 也会 对 能不能 做到 sora 这个 效果 有 很大 的 影响。 那那 本身 语言 模型 还有 文道 图 模型, OPPO 还都 是 最 领先 的, 我们 叫 壁垒 也好, 或者 是 领先 的 这种 优势。 所以 大家 跟 自己 比 的话, 肯定 都 会有 很大 的 提高。 但是 我 觉得 可能 我们 很难说 短时间 内 就 一定要 达到 soa 一样的 效果, 这 可能 比较 困难。

那 如果 像是 可能 已经 在 做 一个 有 物理 世界 模拟器 这种 类似 东西, 像是 游戏 的 模拟器, 或者 像是 这个 NVIDIA 那个 on universe 就 这 样子 的 公司。 他们 是不是 比起 现在 可能 像是 google 或者 是 meta, 它 来 train 一个 纹身 视频 的 这样的 一个 模型, 它 更有 优势 一点?

对我 觉得 这个 其实 是 不同 的 一个 任务。 就是 on universe 那边 的话, 它 其实 是 还是 一个 传统 的 一个 软件, 来解决 我们 这 原来 传统 的 这种 物理 世界 的 模拟。 然后 也 包括 整个 的 最终 像 audio to face, 以及 其他 的 所谓 的 这种 数字 孪生。 它 其实 是用 传统 的 方法 去 实现。 现在 我 觉得 就是 sora 这边 OpenAI 给 我们 展现 了 一种 可能, 就是 用 数据 驱动 来 去做 整个 物理 世界 的 一个 模拟。 当然了, 现在 对于 物理 世界 模拟 这个 词儿 是一个 double code。 我们 现在 还 不确定 这个 模拟 的 定义 到底是什么, 但是 这 两条线 是 不一样的。 就是 media 那边 像 on universe 或者说 U E, 我们 都 是用 传统 的 方式 去做 这件 事情。

如果说 在 行业 里边 跟 sofa 这边 比较 接近, 或者说 是 有 类似的 一些 方案 的话, 我 觉得 可能 最快 迎头赶上 应该 是 google。 就是 google 这边 的 像 去年 我们 看到 像 这个 video point? 这样的 一个 模型, 我 觉得 它是 作为 一个 视觉 的 一个 foundation model, 可以 从 text to video, text image, image to video, 就是 一系列 的 综合性 的 任务 上都 能 通过 这样的 一个 模型 来去 解决。

大家 这次 有没有 看到 一些 阻扰 他的 局限, 因为他 也 发 了 一些 视频, 就 比如说 是 好几个 小狗 还是 小狼, 然后 在 跑 着 跑 着, 莫名其妙 多出 几只。 包括 有 那个 视频 背后 有的人 那个 手 就会 很 奇怪, 他是 莫名其妙 的 从 身体 其他 部分 伸出 来 的。 所以 我不知道 大家 从 专业 的 角度 来看, 索尔 她 现在 的 这个 局限 在哪里。

丁 老师 您 说 的 就 基本上 他们 展示 出来 的 一些 例子 里面, 也 确实 会有 各种各样 的 问题, 会 出现 幻觉 或 等等 这种 这个 问题 只能 被 缓解。 就是 按照 这个 scaling 这 一套 的话, 就 没有 办法 去 完全 的 克服 这种。 就 是从 数学基础 上 或者 就是 foundation 上 你 去 看 的话, 他 就是 一个 概率分布。 统计 上 我 建 了 有限 的 data, 然后 我 用 很大 的 模型 去去 拟合 或者 去去 fit 它的 这个 distribution。 他 当然 会有 可能 出错, 因为 他他他 并没有 一个 强制 的 约束, 希望 他 去 一定要 怎么样, 百分之百 的对 吧? 然后 你 继续 学习 都是 叫 近似 概率 正确, 对 吧? 所以 它 就是 大 概率 是 对的。 只是 说 在 skating 的话, 它 可能 就会 能 做 的 事情 越来越多, 出错 的 情况 越来越少, 出错 的 可以 容忍 的 东西 可以 越来越多, 会越来越 有用。 他 永远 不会 说 我 百分之百 一定 不会 出错, 或者 百分之百 一定 会 模仿 一个 物理 规律, 这是 不可能 的。

大家 其实 很多 在 网上 发 的 是 一年 以前 威尔史密斯 吃面条 的 那个 视频。 所以 他 那个 看起来 就 很 恐怖, 那个 脸 都是 模糊 的, 然后 那个 也是 七扭 8歪的。 所以 从 去年 到 现在 这个 进展, 我 就 觉得 他是 应该 是在 这个 consistency 上面, 就 diffusion 的 这块 是 有 长足 的 进展。

那 可能 刚刚 像 您 说 的, 他 可能 概率 就是 这么 高, 那 可能 只能 是 无限 的 这个 接近 没有 错误, 但 它 不可能 完全 排除 错误, 是 这样的 一个 理解 吗? 对, 是的。 因为 现在 其实 是 ChatGPT 它 会有 这个 训练 数据 不足 的 问题, 就 包括 我 可能 最近 也会 去 问 GPT4有 一些 问 到 他 最新 的 一些 信息, 或者 可能 涉及到 一些 需要 他 去 帮 我 读 一些 文章 的 这些 东西。 然后 他 就会 告诉我 这个 不好意思, 然后 我们 可能 没有 这些 内容 的 一些 access 或者 权限, 所以 你 可能 得 自己 去 看 这些 文章。 我不知道 会不会 在 这个 数据 的 access 上面 也会 是 OpenAI。 然后 这个 sora 方面 很大 的 一个 瓶颈, 他 就 可能 没有 那么 多 的 数据 可以 去 训练 它的 这个 sa 模型, 它 不能 scale.

我 觉得 肯定 会 的。 他 需要 在 特定 范式 下, 根据 的 一些 需求 去 重新 构建 或者 标注 一些 高质量 的 数据。 这个 是 肯定 的。 因为 任何 的 这种 模型 训 出来 以后, 都 可能 会有 一些 长尾。 所谓 的 一些 长尾, 比如说 咱们 举 一些 具象 的 例子, 他在 视频 生成 之中 可能 缺乏 某 一个 构图, 或者说 缺乏 某 一个 画风, 或者说 缺少 某 一个 艺术风格 的 表达。 简单 的 角度 来讲, 都是 需要 去 在 这个 方向 去 重新 构建 这样 一些 数据。

如果说 是从 他的 物理 世界 模拟器 的 角度 来讲 也是。 如果说 这样的 一个 场景 的确 就是 之前 他的 distribution 就是 有 这样的 一个 问题, 有 这样的 一个 偏见。 那 他 就 需要 在 这样 模拟 这样 一个 物理 规律 边 去寻找 类似的 一些 高质量 数据 去 补充。 这个 肯定 是一个 长期 的 一个 工作。

只不过 是在 这 两个 层面 上, 我们 从 肉眼 可见 的 pixel level 能 想象 到 就是 我们 所谓 定义 的 这种 画风 也好, 构图 也好, 以及 我们 这边 所谓 的 这种 美感 也好。 但是 在 他的 skinning law 里面 表现出来 的 其实 就是 一些 有的是 可以 描述 的, 有时 不能 描述 的 一些 物理 规律。 有些 物理 规律 是 我们 人 尝试 都 知道 的, 可以 用 语言表达 的。 但是 它 肯定 也有 一些 是 我们 无法 知道 这 一系列 的。 所有的 这些 特定 场景 的 一些 需求, 都是 需要 有 固定 的 数据 的 一些 标注 跟 构建 去 重新 去 迭代。

当然 我 这边 也 抛 一个 问题 给 李教授, 就是 这块 有没有可能 存在 像 我们在 GPT 或者 ChatGPT 层面 上 的 一个 架构。 就是 可以 提供 这样的 一些 翻 的 capability, 让 他在 没有 见到 的 一些 比如说 范式, 或者说 是 没有 见到 的 一些 数据 层面 上 有 更好 的 一个 泛化 能力。 或者说 是一个 一个 学习 的 一个 能力。 能 提升 他在 这 一些 特定 场景 上 的 一个 predation 的 一个 质量。

从 一个 学术 角度 来讲, 或者 从 open I 他们 本身 追求 的 角度 来讲, 其实 这个 问题 很 本质。 我们 也 希望 在 视觉 的 或者 是 视频 的 这种 模型 上, 见到 和 语言 一样的 这种 强 泛化 的 能力。 比如说 这种 微调 的 或者 更进一步 的 这种 情境 学习 的 能力, 这种 能够 去去去 做。 我不 觉得 就 是从 算法 或 技术 上, 视觉 这边 面临 和 语言 那边 不一样的 问题。 我 觉得 从 算法 上 和 模型 上 可能 是 ready 的。 就是 这个 事情 就是 在 视频 上 这些 东西 已经 具备 了, 那 缺乏 的 是什么 呢? 缺乏 的 可能 就是 skill up 的 这种 情况, 或者 是在 skill up 过程 当中 新 出现 的 视觉 数据 和 语言 数据 不一样的 东西。 然后 我们 之前 没有 研究 过, 不 理解, 就 大概是 这个 意思。

或者 怎么说呢? 就是说 GPT 语言 上, 它 从 GPT2 到 GPT3到 4, 这些 就是 它的 模型 的 规模 是 扩大 很多很多 之后, 才会 出现 我们 刚才 说 的 一些 很很 强有力 的 这种 拆 GPT 的 这种 各种 泛化 的 能力。 但 在 视频 上 我们 现在 就 大家 当时 是 猜测 可能 也就 几十亿 的 参数, 几 B 的 参数。 这种 情况下, 即便 在 语言 同 规模 下, 也没有 出现 那些 强化 化 能力, 语言 模型 同 规模 下, 何况 就是 它 数据 维 本身 维度 很高, 你 需要 很多很多 的 token 才能 生成 一个 视频。

但是 这个 视频 的 内容 可能 一两句话 就说 清楚 了, 所以 在 这种 情况下, 我们 可能 需要 更大 的 模型 才能够 对比 到 语言 上, 对, 这 是我的 一个 猜想。 这 是一个 很 重要 的 一个 问题, 一个 很 开放 的 问题。 学术界 你 没有答案, 我 觉得 diffusion, 还有 这些 网络 架构 是从 数学 上 或者 从 原理 上 够了。 但是 有可能 我们 还有一个 复杂度 的 问题, 就是 我们 现有 的 这个 视觉 的 数据 也好, 或者 是 这个 训练 的 算 力 也好, 不 支撑 我们 用 这些 原理 训 到 一个 能够 去 泛化 的 这样 一个 模型。 有可能 是因为 就 今天下午。

我 看到 在 mota 他 twitter 发 了 一条, 他说 这个 scaling low 而 decided by god。 就是 scotland 是 被 上帝 决定 的, 对于 他们 来说, scotland en 也是 在 他们 控制 范围 之外 的。 然后 我看 下面 那个 open I 的 官网 说, 昨天 我们 发生 了 一些 事故。 好好好。

对对对。

这个 确实 很 向往, 就有 可能 很多 事情 非常 有待 探索, 可能 只有 他们 才 开始 能 接触 这个 东西。 对。

他是 在 跑 在 前面。 那 我想 问 一下, 合成 就是 在 这个 索尔 之前, 然后 其实 你 就 一直 是在 做 一些 这种 比较 长 的 视频。 然后 怎么样 去 提取 它的 一些 素材, 把 它 做成 短 视频。 就在 这块 其实 你 研究 的 比较 多。 我不知道 对你 来说, 或者 对 这个 普通 的, 或者 对 其他 的 一些 AI 视频 的 创业者 来说 的话, 大家 现在 在 考虑 的 什么, 或者 担心 的 是什么?

我们 之前 做 的 更多 的 是 像 在 视频 层面 上 的 内容 理解。 所以 他的 在 这 一块 的 任务 其实 是一个 视频 分析, 视频 理解 的 一个 任务。 然后 基于 这些 视频 理解 视频 任务, 然后 再 重新 去 重组, 然后 去 拼出 一个 新的 一个 视频。 就 相当于 它 其实 是一个 A I 做 剪辑 的 一个 任务。

像 丝袜 这边 的话, 它 其实 是一个 端 到 端的 一个 A I 生成 的, 就 是从 文本 到 视频 生成 的。 我 觉得 肯定 会有 一定 的 冲击, 这种 冲击 的话, 如果说 一个 好的 一个 prom 能 去 完成 一个 端 到 端的 视频, 这是 最好。 但是 目前 来看, 我们 现在 能 看到 的 所有的 这种 视频 的 demo 都是 来自于 他们 官方。 也 期待 我们 能 去 真正 手把手 的 去 用 这样的 产品 的 时候, 到底 它的 一个 缺陷 在哪里。 以及 它 是否 能 在 产品线 上 达到 这种 像 demo 这样的 端 到 端的 效果, 以及 它 最终 产出 的 这个 质量, 在 十个 里面 有 多少 个是 能 达到, 我们 可以 去 商用。 因为 在 商用 层面 上, 我 觉得 目前 应用 层面 上, 大家 更 希望 的 是一个 可控 的, 有 一定 的 故事 主线 的, 然后 能 跟 业务 目标 挂钩 的 一些 视频。

我不知道 可能 他们的 第一个 商业化 的 点 是不是 还是 可能 有点 类似 像 Chat GPT4 这样的 一个 商业模式。

你 会有 一些 猜测 吗? 我猜 我 觉得 应该 还是会 像 GPT, 然后 GPT four, 然后 像 plus 这样的 一些 产品, 会 在 他们的 这个 平台 里边 去 enable 一部分人。 但是 现在 我 觉得 即使 是 这种 chat, 它 也 不一定 是 最好的 用户界面。

就像 我们。 如果 往 回去 看, 就是 在 chat 层面 上, 我们是 有 向 ChatGPT 或者说 最早 的 OpenAI 的 一个 playground。 图像 层面 上, majority 那边 这样的 一个 在 disco 里边 的 一个 对话 的 一个 形式 去 生成 图。 Stability 那边 有一个 studio 可以 去做 一些 轻的 一些 编辑, 这些 我 觉得 都是 需要 的。 但是 在 视频 层面 上, open a 会不会 把 这个 视频 生成, 或者说 视频 的 一些 轻 剪辑, 或者说 再 放到 他们 那个 playground 里边, 以 一种 U I 的 界面 呈现, 还是 说是 纯 放到 一个 chat 里面。 这个 也是 非常 值得 大家 去去 思考, 以及 也是 非常 期待 的。 因为 从 我 来看, 如果说 纯 一个 chat 的话, 它 毕竟 在 整个 的 一个 video 层面 上 是 比较 低效 的。 还是 希望 有一个 能 真正 能 在 一个 U I 层面 上去 用 interface 上 的 一个 迭代, 能 让 这个 模型 跟 这样的 一个 能力 能 凸显 出来。

因为他 做 端 到 端, 从 文字 直接 生成 视频 了。 然后 咱们 其实 之前 也 聊到, 是不是 很多 中间层 的 技术 就 完全 可能 会 被 全 灭掉 了, 就 完全 可能 不复存在 了。 然后 包括 可能 大家 熟悉 的, 比如 三 弟 建模, 这些 东西 是不是 以后 就 完全 不需要 了。 我不知道 你 有没有, 后面 我 再 跟 一些 相关 的 朋友 再聊 一 聊。

现在 目前 体 感觉 得 就是说 看 最终 我们 对于 这个 物理 世界 模拟 这件 事情 的 一个 定位。 但是 如果说 三 弟 建模 如果 最终 产出 就是 一个 rendering 的 一个 视频 的话, 我 觉得 在 某种程度 上 它 会提 效。 但是 说 如果 全部 取代, 就 比如说 把 原来的 这个 物理引擎 取代, 我 觉得 短期内 还是 不大可能。 因为 原来的 物理引擎 还是 有 自己的 一个 独特 的 地方。 比如说 可控性, 场景 里边 跟 人物 的 关系, 人物 的 一个 三 弟 的 一个 设计, 这些 逻辑性 跟 这些 因果 规律, 还有 物理 世界 的 这些 我们 这边 的 一些 规则。

其实 OpenAI 只是 在 数据 层面 上 体现 了 一定 的 泛化 能力, 但是 没办法 就 准确 的 表达。 更 希望 能 看到 的 就是 open a 能 跟 这样的 一些 传统 的 渲染 引擎 进行 行 一个 对接。 就 比如说 作为 一个 apter, 这样 把 这样的 一些 A I 的 能力 能 去 介入 到 比如说 我们 这边 的 blender, 或者说 是 优异, 甚至于 ARM livers 这样的 一些 产品 里边。 能 让 更多 的 这些 创作者 借助于 传统 的 可控 的 这种 编辑 的 或者说 是 这种 渲染 引擎, 再 结合 OpenAI 这样的 一个 能力。 但是 中间 这个 add apt 怎么 去 设计, 这个 现在 也 不知道, 这个 也 非常 期待 这个 行业 里边 的 一些 大佬 们 能 去 这边 去 找到 一些 新的 一些 转换方法, 能把 它 能 衔接起来。

反正 从 过去 的 一年 多 的 时间, 不管 是 语言 大 模型 还是 从 这个 文生 图 这块, 其实 大家 都是 经历 了 好几个 阶段。 他 也 不是 一步到位 的, 特别是在 这个 文生 图 这块 儿, 其实 也是 迭代 了 好几代 产品, 才能够 真的 是 被 大家 应用 起来。 然后 好像 去年 应该 钱 赚 的 最多 的 应该 是 没 journey, 大概 赚 了 有 两个 亿。 对他 一个 小的 可能 50人的 团队 来说, 应该 也 算 OK 了。 是不是 sora 也会 比如说 是 会 在 好几个 迭代 之后, 我们 才 actually 真正 能够 变成 一个 可用 的 产品, 然后 就像 小米 真理 一样。

对, 这个 我相信 因为 从 现在 目前 来看, 就是 twitter, 或者说 大家 都在 讲 的 这个 它的 一个 渲染 还是 需要 比较 长 的 时间。 就 比如说 差不多 得 二十 来 分钟, 我 看到 这样的 一些 推特 上 的 一些 message。 但是 我 如果 这 真正 要 可 商用 的话, 现在 像 这样的 一个 规模 的 一个 算 力, 如果 支持 上百万 的 用户, 他 是否 有 这样的 一个 infrastructure, 这个 现在 都 不知道 整个 的 一个 推理, 它 是否 能 skill up 到 规模化 运用, 这是 第一第二 的 一个 挑战。

我 觉得 如果 跟 刚才 你 举例 made journey 那边 比 的话, 产品化 从 developer 角度 来讲, 它 现在 其实 更多 的 有点像 GPT3 当年 的 一个 状态。 它 其实 就是 一个 通用 的 一个 生成 模型。 它 还是 需要 有一个 更 友好 的 一个 界面 能 让 大家 用 起来。 就 比如说 当时 拆 GPT 出来, 它 其实 就是 比 GPT 更好, 是因为 它 有一个 产品化 的 一个 过程, 能够 让 大家 体现 出来, 所以 产品化 也是 一个 的 层面, 我 觉得 这 两个 点 都很 重要。

之前 你 跟 我 讲 在 训练 模型 这 一块儿, 成本 其实 下降 了 很多。 所以 现在 我们 其实 也没有 办法 来 推测 到底 生成 一个 60秒的 这样的 一个 视频, 它的 成本 在哪里, 太难 了 是吗?

对, 这个 我 觉得 就是说 从 训练 跟 推理 层面, 它是 两个 不同 的 一个 事情。 推理 层面 上 跟 训练 可能 就 完全 不一样, 可能 还会 去做 很多 的 一些 优化 跟 蒸馏 也好。 但是 现在 来看, 如果说 一个 视频 生成 20分钟, 我 觉得 这个 对于 作为 一个 现象级 的 产品 还是 比较 难。 所以 它 还 只能 说是 限制 在 一些 artist 或者说 是 一些 个人 创作者 层面 上, 这种 邀请 only 的, 然后 小规模 的 去做 迭代 和 尝试。 至于 这个 产品 最终 可能 会 是否 规模化, 像 chat P P T, 我 觉得 这就是 大家 拭目以待。 当然 另外一个 重要 的 reason, 除了 刚才 讲 的 一个 产品化 的 能力 跟 推理 速度, 还有一个 很 重要 的 一点 刚才 忘 漏掉 了, 就是 合规性 就是 它的 potential 的 一个 risk, 就是 他的 那个 Y, 这个 一般 都会 是一个 比较 长 漫长 的 过程, 所以 这 三个点 我 觉得 都会 限制 这个 产品 能被 大规模 快速 去 使用。 但是 也 期待 这 三个点 能 快速 被 解决。

行, 我们 最后 其实 再聊 一 聊 他 对 自己的 这个 定位, 就是 物理 世界 的 一个 模拟器。 我不知道 大家 对 这个 论断 是 怎么看 的。

对我 我 觉得 毫无疑问 的 是, 大家 肯定 现在 soa 它 并不是 世界 物理 世界 的 模拟器, 这个 是 毫无疑问 的。 关键在于 大家 对于 最终 的 世界, 物理 世界 的 模拟器 怎么 定义, 以及 大家 觉得 这条路 能不能 通向 一个 物理 世界 的 模拟器。 因为 什么 呢? 就是说 你 现在 这个 阶段, 我相信 甚至 是在 几年 内, 你 可能 都 可以 继续 去 扩大 模型 规模。 然后 去 有 不同 的 是 各种各样 新的 数据 去 扩大 数据 的 规模, 然后 得到 更好 的 结果。 但 这个 事情 它 有可能 会 终结, 就是 什么 意思 呢? 就是说 突然间 到 一定 规模 之后, 我们 不能 再去 scaling up, 就是你 加 数据 或者 增大 模型 可能 会 失效, 或者说 是 达不到 你 预期 的 增长 曲线, 这种 情况下 他 可能 有一个 上界, 那 这种 情况下 怎么办?

然后 现在 大家 的 讨论 肯定 是 说 有有 两派 观点。 一派 观点 就 认为 我 觉得 可以, 比如 欧文 也 觉得 可以, 我 觉得 就 应该 这么 做。 然后 还有 另外一个 觉得, 就是说 我们 从 最终 终极 的 目标, 如果 定义 为 它 就是 像 物理 世界一 完全 一样 遵循 这种 物理 规律 的话, 可能 只有 数据 可能 是 不够 的。 就 比如说 我 可能 宏观 的 物体 的 运动 都 可以 用 牛顿运动定律 或者 是 这个 朗 之 万 动力学 去 建模。 它 有 一些 普 适 的 规律。

这 一派 的 观点 主要 的 问题在于 什么 呢? 我们 没有 特别 明确 的 特别 promising 的 方案 需要 去 探索, 还需要 去 探索 一个 方案, 就是 怎么 把 这种 物理 规律 的 这种 东西, 这种 建模 朴实 的 规律 去 嵌入 进来, 还不 影响 模型 它 自己的 skating 的 能力, 去 吃 数据 的 能力, 去去 生成 高质量 的 图像 的 这种 能力, 或者 是 这个 高质量 的 这种 数据 的 能力。 所以 这个 是我 觉得 是 争论 的 比较 大 的 点。 然后 我 觉得 无论如何 就是 大力出奇迹 这条路 目前 看起来 还是 非常 promising, 也 值得 去 深入 去做, 然后 有 不同 的 这种 见解 是 很 正常 的。 我 个人 自己的 判断 是 他 可能 不一定 能够 推 到 真正 的 物理 世界 的 模拟器, 但是 它 在 很多很多 的 应用 中 去 作为 一个 物理 世界 模拟器 的 近似 可能 就 足够 了。 比较 乐观。 但 anyway 学术界 打 这个 观点 不同 就 很 正常 了。

我 觉得 我 今天 看到 the information 上面 的 一篇 新闻, 然后 这个 是 公司 就 叫做 magic。 他们 想要 做 新一代 的 coding 的 跟 L O M 底层 模型。 然后 他们 用了 一种 叫做 active reasoning 的这 样子 的 一个 技术。 据说 可能 是 跟 去年 OpenAI 它 宣布 的 那个 叫 q star 有 一些 类似。 然后 他们 其实 就是 可能 在 一个 开放 的 环境 中, 动态 的 会 收集 一些 更多 的 信息, 甚至 是 可能 会 加 一些 其他 的 sensor。 我不知道 这个 是不是 可能 是 现在 大家 在 追求, 可能 在 物理 世界 的 模拟器 之外, 我们 可能 再加 一层 怎么样 让 L O M 去 更加 更多 的 去 自己 去 探索。 然后 因为他 自己 有 自己的 sensor, 有 自己的 其他 的 一些 获取信息 的 一些 触点。 这个 会 是一个 天方夜谭 吗? 还是 其实 是 有 一些 学术研究 人员 是在 这边 在 探索 的。

这方面 懂得 不多, 我 就 简单 说一说 我 听 上去 可能 有 两个 概念, 就是 除了 我们 今天 聊 了 很多 生成 建模, 但是 人工智能 其实 范畴 很大。 还有一个 概念 就是 跟 搜索, 其实 很多 像 当时 阿尔法 go 里面 就是 深度 学习 和 搜索 的 一个 结合。 Q star 也会 有 一些 大家 觉得 会 跟 传统 的 一些 启发式 的 搜索 方法 会有 关系。 对, 所以 搜索 是一种 可能性。

然后 还有 一种 可能性 就是 提到 和 环境 交互, 实际上 是 强化 学习。 其实 这个 word model 本身 提到 的 最多 的 还是 在 强化 学习 里面, 就是 世界 模拟器。 它 就是 能够 去 用 一种 虚拟 的 环境 帮助 一个 智能 体 去 交互。 然后 它 避免 了 他在 现实 中 去, 比如 撞车, 或者 是 有 一些 其他 的 事情, 这种 交互 太 昂贵 等等。 所以说 我 个人 觉得 会有 这种 生成 之外 的 技术 融入 进来, 然后 构成 一个 真的 一个 系统 或 一个 A I 去做 的 更好。

这是 没有 问题 的, 可能 未见得 就是 skating up 之后 这个 问题 就 解决不了。 但是 有可能 比如说 加入 检索, 或者 是 加入 一些 其他 的 这种 强化 学习 的 方法。 对 现有 的 这种 来说。 是一个 复杂度 更 低 的 一种 解决方案。 就 比如说 你 检索 可能 很 容易 去 帮助 你 去做 一些 反 事实 幻觉 的 这种 检查和 这种 纠正。 但是 你 要是 通过 skill up 的话, 你 可能 需要 不知道 多少倍 的 数据 才能 做到。 所以 我 觉得 是 可以 的。

是一个 思路。

他说 的 比较简单。

就 等于 像是 我们 给他 加 了 眼睛, 然后 加 了手, 然后 可能 我们 就 离 A G I 可能 稍微 还 可能 再 前 进一步。 是的, 可以 这么 理解。 OK 很多人 其实 现在 就 猜测 说 我们 其实 是不是 离 H I 又 近 了 一步。 包括 我也 看到 像是 这个 meta 的 A I 首席 科学家 耶伦 坤, 他 也 在 批评 很多。 大家 你不懂 的 你 就 不要 乱 在 这儿 评论。 然后 其实 很多人 在 攻击 他, 就是 好像 说是 他 这个 自以为是 太一 这种 心态 在 做 这样的 一个 评论。 从 李老师 从 您 的 这个 角度 来看, 我们 离 A G I 到底 还有 多远? 然后 sora 是不是 让 我们 往 前进 了 一步, 然后 如果我们 要 再 往 A G I 的 方向 再 走 的话, 我们 其实 下一步 immediately 就是 我们 最近 的 一步, 我们 还要 突破 一些 什么东西?

这个 问题 很好 也 很大。 这个 我 只能 说 一些 浅显 的 见解, 部分 回答 一些 这些 问题。 首先 学术 上, 因为 A G I 这个 东西 大家 甚至 不同 人的 定义 都 不太 一样, 所以 有 争端 很 正常。 我 首先 觉得 短期内, 大家 肯定 还会 去做 skating up, 这是 毫无疑问 的。 因为 这个 东西 不仅仅是 学术 上 的 问题, 它 有可能 有 很多 经济 上 这种 商业 上 的 价值。 从 学术 的 角度, 我也 鼓励 这样 去做。 因为 有 很多 东西, 就 比如说 如果 open 还 没花 那么 多 钱 去 纯 soa 我们 就 不知道 原来 skating up 或 现有 的 diffusion 和 transformer 就能 做成 这样, 能 做成 这么好。 对对对, 这种 实验 的 观察 其实 非常重要, 它 能 给 我们 消除 很多很多 的 不确定性, 让 我们 去 对 下一步 的 方向 把握 更大 一些。 然后 我 觉得 sora 毫无疑问 是 进步, 他 未见得 就是 杨丽坤 心目 中的 A G I 的 进步, 但是 对于 我 来说, 它 肯定 是 A I 本身 的 技术 的 一个 很 重要 的 一个 突破。

然后 下一步, 除了 我 刚才 讲到 我们 要 skating up 之外, 我 看好 下一个 新的 新的 soa 出现 在3。 因为 现在 最近 其实 我们 也 做 学术界 很多, 还 包括 其他 公司 都 做了 一些 3D生成 的 基础 模型。 当然 这个 效果 肯定 没 到 出圈 的 程度, 但 我 觉得 技术 上 相对来说 比较 成熟 了, 有可能 一年、 两年 甚至 半年 或者 怎么样, 就 可能 有一个 小 团队 在 open I 就 用 这个 技术 去 建立 一个 3D的 模型。 然后 你 三 弟 加上 视频, 就是 这种 几何 的 3D加上 时间 的 这个 dynamics, 那 它 就是 一个 视觉 的 小世界 的 生成 是 没有 问题 的。 就是说 从 原理 上 来讲, 这 可能 是一个 一个 简单 的 预测。

我 同意 李教授 这边 的 一些 观点, 反正 我 觉得 肯定 是 把 整个 的 一个 A I 所谓 的 通用 人工智能 这边 推进 了 一步。 但是 还是 大家 对于 这个 概念 可能 是 比较 promising。 我 觉得 反正 目前 来讲, 所谓 到底 是否是 一个 物理 世界 的 一个 模拟器, 我 觉得 这个 争论 也好, 或者说 是 推进 也好, 都 不重要。 重要 的 是 我们 已经 看出来 这样的 一个 可能性。 基于 这个 可能性, 我们 才会 去 探索 更多 的 一些 A G I 层面 上 的 一些 未来。 那 真正 要 到 A G I 我 觉得 还是 差 的 挺 远 的。 目前 层面 上 把 所有 这些 一个 所谓 A G I 的 一个 定义 搞清楚, 以及 它 需要 的 一些 特征 都 具备, 还是 需要 一段路。

好的, 我们 今天 节目 差不多 也就 到 这里 了。 然后 我们 迄今为止 都是 有 很多 的 猜测 是 还是 希望 等到 我们 亲手 能 来 试用 的 时候, 我们 也 在 第一时间 来 再 请 两位 回来 给 大家 再做 一轮 分析 和 讨论 好吗? 然后 谢谢 两位 今天 的 分享。

好, 谢谢 二位 老师。

这 期 what nex 科技 早知道 就 到 这里 了。 听 完 之后 如果你 有 任何 的 想法, 欢迎 在 评论 区 里面 给 我们 留言, 我们 每 一条 都会 认真 的 看。 如果 你喜欢 我们的 节目, 请 记得 给 我们 五星 或者 好评, 分享 给 更多 的 朋友, 也会 对 我们 非常 有 帮助。 你 也可以 单独 写邮件 给我, 邮箱地址 是 听 T I N G at 声 点 F M, 我 都会 一一 回复。 同时 公众 号 和 微博 也可以 搜索 生动活泼 声 是 声音 的 声, 节目 相关 的 更多 信息 会 在 公众 号 里 出现, 微博 和 公众 号 都 会有 不定期 的 福利 给 到 大家。

如果你 想要 跟 我们 更加 紧密 的 讨论 和 分享, 或者 是 想要 认识 和你一样 有 求知欲 的 新 朋友, 可以 加入 我们的 微信 群。 进入 听众 群 的 方法 是在 公众 号 文章 中 扫 码 添加, 或者 是 公众 号 后台 回复 科技 早知道, 即可 获取 邀请码。 期待 你的 加入, 我们 下期 见。