We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 【人工智能】Sora等视频生成模型并不懂物理规则?| 豆包团队8个月研究成果 | 杨立昆点赞 | DiT架构 | 世界模型 | 泛化能力 | Scaling Law

【人工智能】Sora等视频生成模型并不懂物理规则?| 豆包团队8个月研究成果 | 杨立昆点赞 | DiT架构 | 世界模型 | 泛化能力 | Scaling Law

2024/11/12
logo of podcast 最佳拍档

最佳拍档

Shownotes Transcript

Summary 字节跳动的豆包大模型团队经过八个月的研究发现,现有的视频生成模型虽然能够生成看似符合物理常识的视频,但实际上并未真正理解物理规律。即使增加模型的参数和训练数据,这些模型仍然无法掌握像牛顿第一定律这样的基本物理概念,它们只能依靠记忆和模仿已有的数据来生成视频,面对新场景时的泛化能力极为有限。研究团队通过一系列实验,定量分析了模型在不同泛化场景下的表现,揭示了其在视频表征和组合泛化方面的局限性。他们强调,要提升视频生成模型的物理建模能力,关键在于增加组合的多样性,而不是单纯扩大数据量。

Shownotes 最近,字节的豆包大模型团队历经 8 个月的时间,完成了一项针对“视频生成模型到底懂不懂物理规律”问题的系统性研究。实验结果明确表示,视频生成模型目前虽然可以生成一些、看似符合常识的视频,但是还没有办法理解真实的物理规律。

https://arxiv.org/abs/2411.02385 https://phyworld.github.io/

成为此频道的会员,即可享受提前一天,观看频道最新发布视频的福利: https://www.youtube.com/channel/UCGWYKICLOE8Wxy7q3eYXmPA/join