We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Vol.76 | 新模型Sora爆火!AI行业除了震撼还有隐患

Vol.76 | 新模型Sora爆火!AI行业除了震撼还有隐患

2024/2/20
logo of podcast 第一财经

第一财经

AI Deep Dive AI Chapters Transcript
People
O
OpenAI
专业动画师
广
广发证券
播客节目
浙商证券
Topics
播客节目: 本期节目探讨了Sora模型的实际应用效果、对科技圈、动画圈、影视圈等行业的影响,以及AI生成视频的潜在风险和担忧。Sora模型能够生成长达60秒、多机位、高度拟真细节的视频,展现出强大的AI生成视频能力,有望改变全球AI视频赛道的格局,并颠覆现有的内容行业。 牛虻: Sora生成的视频在画质、细节、光影、色彩方面表现出色,足以用于前期镜头样板和与客户沟通,但对于更精细的内容调控(如色彩、光影、道具、人物动作等)还达不到客户满意程度,目前AI还不能完全替代人工。 孟凡: Sora生成的视频帧率高、宽容度高,物体运动符合规律,但在逻辑性上存在问题(例如场景与提示词不符),精细度还不够,目前还不能直接用于影视作品,但可用于前期开发和概念设计。 OpenAI: Sora作为模拟器,存在许多限制,例如无法准确模拟物理效应、理解因果关系、混淆空间细节,以及难以精确描述时间推移等。这些问题是由于概率模式的逻辑硬伤所致。 陈维忠、吴博、张含望: Sora存在因果关系推理问题,这是目前所有类似模型都存在的问题,未来可通过增加训练量和数据来改善,但无法根治;真正突破需要解决因果关系问题。 玉刚: Sora可能对影视特效公司造成冲击,但同时也降低了视频制作成本,未来AI视频生态将发生巨大变化,影视行业可能演变成服务业。 专业动画师: Sora的实用价值还有待观察,因为动画制作需要反复修正,AI目前还无法提供精雕细琢的作品。 浙商证券: Sora短期内可提升图像和短视频制作效率,改变创意、生产和营销工作流;长期来看,将改变信息生产和分发环节,专业和用户生成内容都将广泛采用AI工具。 广发证券: 高质量的训练数据和核心人才是AIGC大模型成功的关键,Sora创新性地采用了视频压缩网络时空补丁的方法。 播客节目: Sora的商业化进程需要考虑技术局限性、版权合规、内容伦理等问题;AI深度伪造技术可能产生大量虚假音视频图像,需要采取措施识别和应对。OpenAI正在寻求资金以提高全球人工智能芯片产能,AI技术革命仍在继续。

Deep Dive

Chapters
Sora模型的出现引发了全球AI视频领域的震动,其生成的视频质量得到了认可,但同时也存在一些不足。例如,视频逻辑性有时欠佳,在处理一些复杂的物理现象和因果关系时存在问题。
  • Sora能够生成长达60秒、多机位、细节高度拟真的视频镜头
  • Sora视频在画质、画面细节、光影和色彩方面表现出色,可用于前期镜头样板和概念沟通
  • Sora视频存在逻辑性问题,例如人物反向奔跑、物体悬浮等
  • Sora帧率较高,计算能力强,影片宽容度高
  • Sora目前尚不能直接用于影视作品,但已足够震撼,可用于前期开发和概念设计

Shownotes Transcript

十分钟 帮你 理清 一个 正在 发生 的 商业 逻辑。 Sora 横空出世, 科技 圈 又 迎来 一个 王炸。 2月15日 OpenAI 发布 了 首个 纹身 视频 模型 sora, 可以 生 成长 达 60秒多 机位, 具备 高度 拟真 细节 的 镜头。 Sora 在 A I 生成 视频 方面 彰显 出的 能力, 可以 说 改变 了 全球 A I 视频 赛道 的 格局, 有望 颠覆 现有 的 内容 行业。

各位 听众 大家好, 欢迎 收听 本期 的 异彩 播客。 由 sora 引发 的 讨论 仍在 继续, 同时 对 sora 存在 的 问题 研究 也 逐渐 深入。 本期 我们 就 来 聊 一 聊 外界 是 如何 看待 sora 的 实际 应用 效果。

Sora 对 科技 圈、 动画 圈、 影视圈 等 行业 的 真实 影响 有 哪些? A A I 生成 视频 未来 到底 值不值得 我们 担忧? 目前 sora 所 生成 的 视频 内容 得到 影视 行业 人士 的 普遍 认可, 但 其中 的 bug 仍然 存在。

Mr I novel 视觉 预演 工作室 创始人、 导演 牛虻 说, sora 视频 中的 画质、 画面 内容 中的 细节、 光影、 色彩 都 比较 精细。 对 导演 来说, 在 拍摄 前期 做 一个 简单 的 镜头 样板 是 够用 的对 广告片 拍摄 来说, 也可以 用 这种 样板 来 与 客户 更好 的 进行 概念 上 的 沟通 和 确认。 但 如果 涉及 镜头 的 运动 角度 以及 其他 更 精细 的 内容 调控, 比如 色彩、 光影、 道具、 人物 动作 等等, 目前 A I 还 达不到 令 客户 满意 的 程度。

摄影 专业人士 孟凡 对 异才 记者表示, sora 视频 帧率 较高, 说明 计算能力 比较 强, 且 影片 的 宽容度 更高, 如 调色、 细节 表现、 高速 镜头 展现 等。 在 直观 感受 上, sora 模型 产出 的 视频 运进 自然 物体 运动 符合规律, 但 用 sora 生成 的 视频 逻辑性 会 差一点, 比如 一段 提示 词 为 一个人 跑步 的 场景 中, 主角 在 跑步机 上 反向 奔跑。 提示 词 为 考古学家 在 沙漠 发现 塑料 椅子 的 视频 中, 椅子 呈现 悬浮 状态。 还有 像 老奶奶 吹 蜡烛, 火苗 却 不动 等等。 另 一位 纪录片 从业者 也 表示, sora 还 不能 直接 用于 影视作品, 因为 它的 精细 度 还 不够, 但 确实 已经 足够 震撼, 完全 可以 用于 前期 开发, 尤其是 概念设计 的 部分 宣传片 从业者 表示, sora 只 发布 了 部分 作品, 并且 还没有 开放 公共 测试, 能不能 代替 剪辑 不确定。 无论如何, 这些 工具 最后 都是 为人 服务 的, 人的 个人 感情 复杂性 的 表达 不可替代。

针对 目前 sora 存在 的 不成熟 之处, OpenAI 方面 在 作为 世界 模拟器 的 视频 生成 模型 技术 报告 中 表示, sora 作为 一个 模拟器, 目前 表现出 许多 限制, 它 并没有 准确 的 模拟 许多 基本 互动 的 物理 效应, 比如 玻璃 破碎、 吃 食物 之类 的 互动 等等。 除此之外, 还 可能 无法 理解 因果关系、 混淆 提示 的 空间 细节, 以及 难以 精确 描述 随着 时间推移 发生 的 事件 等。 多位 人工智能 领域专家 对此 表示, 目前 存在 的 问题 都 是因为 概率 模式 的 逻辑 硬伤 所致。 广发证券 倾向 认为, 在 底层 基础 技术 原理 上, soa 并未 有 实质性 的 突破。

中科 深 智 创始人 兼 C E O 陈维 忠 认为, sora 因 其 并非 严格 的 推理模型, 目前 还 存在 因果关系 推理 问题。 但 这个 问题 不是 sora 自身 的 问题, 而是 目前 所有 类似 模型 均 存在 的 问题, 类似 于 大 模型 普遍存在 的 幻觉 问题, 未来 会 随着 训练 的 加强 而 得到 改善。 比 远 智能 C E O 吴博 表示, 通过 加大 训练量, 增加 训练 数据 与 物理 逻辑, 该 问题 会 逐渐 得到 改善, 但 无法 根治。 南洋理工大学 副教授 张含 望 说, 想要 真正 突破 最底层 逻辑 上 的 问题, 因果关系 是 一条 必经之路。 如果 不 把 因果关系 加上 去, 大 模型 只是 在 进行 强行 关联。 幸运 的话, 模型 在 回答问题 时 能够 给出 正确 答案, 否则 就会 胡说八道。 事实上, sora 背后 的 学术 原理 业内 都 清楚, 但是 从 原理 到 落地, 中间隔着 数据 和 模型 两座 大山, 而 这也是 OpenAI 不同于 其他 竞争对手 的 优势 所在。

在 sora 所 引发 广泛关注 中, 除了 对于 质量 和 技术 的 探讨, 还有 外界 对 其 即将 带来 的 行业 迭代 充满 好奇。 就 影视 行业 而言, 得知 soa 视频 发布 后, 时光 矩阵 联合 创始人 玉刚 称 自己的 心态 冰火两重天。 一方面, 对于 影视 特效 公司 而言, 该 消息 算不上 一个 好消息。 他的 第一个 感觉 是, 特效 公司 要死 了 吗? 他 还说, 没有 想 过 A A I 视频 会 这么 快 发展到 这个 精度。 原本 以为 起码 还要 3到5年, 结果 从 兔年 春节 到 龙年 春节, 短短 一年, OpenAI 实现 了 从 文字 生成 文字 到 文字 生成 视频 的 迭代。 但 从 另一个 角度 来说, 作为 导演 看 了 solo 之后 拍 视频 做成 特效 并 放到 荧幕 上, 这部 最贵 的 动态 预演 环节 完全 可以 通过 A I 实现 成本 的 节省。 他 预计 未来 A I 视频 生态 将 发生 巨大 的 变化, 影视 行业 或许 将 会演 变成 服务业, 视频 生产 的 概念 也将 发生变化。

对于 这种 solar 颠覆 行业 的 极端 观点, 一位 专业 动画师 给出 了 不一样的 看法。 他 认为 除了 作为 展示 A I 潜力 的 范例 作用 之外, solar 的 实用价值 还有 待 观察。 因为 动画 制作 本质 上 是 需要 反复 修正 的 过程, 特别是在 为 客户服务 时 更是如此。 目前 A I 还 无法 提供 给 客户 一个 精雕细琢 的 作品, 只是 一些 粗制滥造 的 东西。 这些 细节 看似 挑剔, 但 他们 正是 客户 对 知识产权 或 产品 所 持有 的 态度。

浙商证券 认为, 短期内 sora 还有 其他 的 同类产品 可以 大幅 提升 图像 和 短 视频 的 制作 效率, 改变 创意、 生产 以及 营销 工作流, 提升 短 视频 的 产品 生产力。 但是, 对于 业态 更加 复杂 的 长视频 和 游戏, 受限于 模型, 还 无法 准确 理解 因果关系 以及 其他 技术 难点, 现阶段 或许 只能 以 提供 美术 灵感 支持 为主。 中长期 来看, sora 及 同类产品 将 参与 到 改变 信息 生产 和 分发 两大 环节 的 进程 当中, 专业 生产 内容 将 广泛 采用 A I 工具 辅助生产, 用户 生成 内容 将 借助 A I 工具 逐步 替代 专业 生产 内容。 同时, AI 生成 视频工具 的 商业化 进程 也将 逐步 提速。

至于 此次 sora 给 行业 带来 的 启示, 广发证券 表示, 一方面, 数据处理 与 存储 方式 是 重要 创新, 不同 处理方式 可能 带来 AIGC 效果 的 跃升。 Solar 创新性 的 采用 了 视频压缩 网络 时空 补丁 的 方法, 将 不同 分辨率、 不同 宽高比 等 所有 类型 的 视频 数据 标准化 处理, 并且 保留 了 原始数据 的 细节, 这是 sora 能 支持 多样化 的 视频格式 且 实现 视频 效果 明显 跃升 的 基础。 启示 主要 有 两个, 一、 高质量 的 训练 数据 仍是 AIGC 类 大 模型 成功 的 关键。 2、 核心 人才 是 AIGC 推动 的 另 大 关键。 这两点 最终 或 将 使得 头部 厂商 强者 愈 强。 另外 需注意 的 是对 A 股 相关 AIGC 应用 公司 而言, 短期内 从 投资 维度 看, solo 的 主题 意义 更为 显著。

需要 看到 的 是, sora 的 商业化 进程 仍需 观察。 一方面, 技术 文档 提到 的 当前 局限性 需 逐步 解决, 另一方面, 版权 合规、 内容 伦理 等 课题 仍是 AIGC 类 应用 需要 克服 的 挑战, 文生 视频 也不 例外。 目前, OpenAI 并没有 透露 训练 模型 涉及 的 视频 数量 以及 其 具体 来源, 只是 表示 所有 训练 材料 均 来自 公开 渠道 或者 是 已 授权 的 内容。 除此以外, 人工智能 深度 伪造 技术 可能 会 产生 大量 的 虚假 音视频 以及 图像。 脸书 母公司 meta 的 全球 事务 总裁 直言, 无法 一刀切 直接 禁止 A I 生成 的 内容 在 社交 媒体 传播, 因为 打地鼠 式 的 做法 总是 会有 漏洞 存在。 现在 采取 的 做法 主要是 披露 任何 由 A I 生成 的 内容 都 需要 打 上 水印 告知 看到 的 用户。 不过 如何 识别 不同 平台 生成 的 A I 内容 还是 一大 难点。

OpenAI 引发 的 技术革命 还在 向前。 彭博社 援引 消息人士 称, 阿尔特 曼 正在 寻求 美国政府 的 批准, 希望 从 中东 筹集 数10亿美元 的 资金, 用于 提高 全球 人工智能 芯片 的 产能。 好了, 本期 节目 到此 就 结束了。 你 有 尝试 过 A I 纹身 视频 吗? 你 觉得 sora 的 未来 前景 怎么样? 会 改变 什么? 欢迎 来 评论 区 留言, 我们 下期 再见。