We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

【人工智能】Sora等视频生成模型并不懂物理规则？| 豆包团队8个月研究成果 | 杨立昆点赞 | DiT架构 | 世界模型 | 泛化能力 | Scaling Law

2024/11/12

Summary 字节跳动的豆包大模型团队经过八个月的研究发现，现有的视频生成模型虽然能够生成看似符合物理常识的视频，但实际上并未真正理解物理规律。即使增加模型的参数和训练数据，这些模型仍然无法掌握像牛顿第一定律这样的基本物理概念，它们只能依靠记忆和模仿已有的数据来生成视频，面对新场景时的泛化能力极为有限。研究团队通过一系列实验，定量分析了模型在不同泛化场景下的表现，揭示了其在视频表征和组合泛化方面的局限性。他们强调，要提升视频生成模型的物理建模能力，关键在于增加组合的多样性，而不是单纯扩大数据量。

Shownotes 最近，字节的豆包大模型团队历经 8 个月的时间，完成了一项针对“视频生成模型到底懂不懂物理规律”问题的系统性研究。实验结果明确表示，视频生成模型目前虽然可以生成一些、看似符合常识的视频，但是还没有办法理解真实的物理规律。

https://arxiv.org/abs/2411.02385 https://phyworld.github.io/

成为此频道的会员，即可享受提前一天，观看频道最新发布视频的福利： https://www.youtube.com/channel/UCGWYKICLOE8Wxy7q3eYXmPA/join

【人工智能】Sora等视频生成模型并不懂物理规则？| 豆包团队8个月研究成果 | 杨立昆点赞 | DiT架构 | 世界模型 | 泛化能力 | Scaling Law

最佳拍档

Shownotes Transcript

【人工智能】Sora等视频生成模型并不懂物理规则？| 豆包团队8个月研究成果 | 杨立昆点赞 | DiT架构 | 世界模型 | 泛化能力 | Scaling Law 00:00 Share

最佳拍档

Shownotes Transcript

【人工智能】Sora等视频生成模型并不懂物理规则？| 豆包团队8个月研究成果 | 杨立昆点赞 | DiT架构 | 世界模型 | 泛化能力 | Scaling Law