We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Video generation with realistic motion

2025/1/23

Practical AI: Machine Learning, Data Science, LLM

AI Deep Dive AI Chapters Transcript

People

Paras Jain

Topics

Paras Jain: 视频生成技术发展至今，取得了显著进展，但仍面临诸多挑战。首先，视频数据量巨大，且需要模型理解物理规律和现实世界的规则，这使得模型训练难度大，成本高。其次，高质量的视频数据难以获取和筛选，因为互联网上的大部分视频缺乏高质量的动态信息。再次，复杂的运动模拟，例如体操动作，也对模型提出了极大的挑战。最后，视频生成模型的评估需要结合定性和定量方法，既要考虑人类的视觉偏好，也要关注模型对物理规律的理解。Genmo 的视频生成模型发展历程经历了三个阶段，每个阶段都吸取了经验教训，并对模型架构和训练方法进行了改进。Genmo 开源其视频生成模型的决定，是基于模型大小和计算资源的权衡考虑，旨在平衡模型能力和社区的可及性。视频生成模型的训练对GPU资源消耗巨大，且长序列长度带来了额外的挑战。Genmo 的 Mochi 模型采用分阶段架构，先进行视频压缩，再进行扩散模型训练，以降低计算成本。Mochi 模型在运动模拟和指令遵循方面取得了显著进展，在基准测试中与顶级闭源模型不相上下。视频生成模型的应用场景涵盖娱乐和专业内容创作领域，例如替代素材视频、创意构思和视频编辑。基于视频生成模型的视频编辑技术正在发展，例如添加、删除或修改视频中的物体。未来的创造力将是人机协作的产物，人类负责提出创意，AI 负责放大和实现创意。Genmo 的长期愿景是通过视频生成技术推动人工智能领域的创新，最终实现对现实世界的理解和模拟。 Chris Benson: 就视频生成模型的评估方法提出了疑问，并与Paras Jain讨论了如何平衡定量和定性评估方法，以及如何设计有效的测试用例来评估模型对物理规律的理解。 Daniel Whitenack: 与Paras Jain讨论了视频生成模型的应用场景，以及如何将视频生成技术融入到大众的日常生活中。

Deep Dive

Chapters

This chapter explores the history and current state of video generation technology. It highlights the challenges in creating realistic motion and the increasing role of compute power in enabling larger models.

Video generation has lagged behind other AI advancements.
Creating realistic motion is a major challenge.
Compute power is crucial for scaling video generation models.
Sora's release was a watershed moment.

Shownotes Transcript

欢迎收听《实用人工智能》播客，本播客旨在使人工智能对所有人来说都实用、高效且易于理解。如果您喜欢这个节目，您一定会喜欢《变更日志》。周一发布新闻，周三进行深入的技术访谈，周五则是一个适合您周末欣赏的精彩脱口秀节目。您可以在任何收听播客的地方搜索“变更日志”来找到我们。

感谢我们的合作伙伴 Fly.io。在五分钟或更短的时间内启动您的 AI 应用程序。请访问 Fly.io 了解详情。

欢迎收听另一期《实用人工智能》播客。我是丹尼尔·怀特纳克，PredictionGuard 的首席执行官，一如既往地与我的联合主持人克里斯·本森一起，他是洛克希德·马丁公司的人工智能首席研究工程师。克里斯，你好吗？

我很好。新年快乐。这是我们 2025 年的第一场演出。新年快乐。是的，这是我们今年录制的第一个节目。第一次重新拿起麦克风讨论人工智能，而且我认为这绝对会成为 2025 年的一个主题，这将是

当然，多模态人工智能总体上，但我认为很多人都在想知道它在 2025 年会走向何方，那就是视频生成。因此，我们非常高兴今天能邀请到 Paras Jain 加入我们，他是 Genmo 的首席执行官。你好吗？我很好。新年快乐，大家。能来到这里真是太好了。

是的，欢迎。我知道我们一直在努力促成这次合作，我认为时机安排得很好，因为正如我所说，人们都在思考视频生成以及它将在 2025 年如何发展。也许从在这个领域工作并对此进行了深入思考的人那里，也许……

许多听众最近才开始思考这个话题，但你已经深入思考了一段时间了。你能否让我们大致了解一下发生的事情，是什么导致了视频生成以及它在 2024 年的状态？然后，在我们进入新的一年之际，更普遍地说，就人们可以访问实际发布的系统或发布的模型而言，视频生成的当前状态是什么？是的，当然。从我们今天所处的位置来看，已经走过了一条漫长的道路。我认为

你知道，鉴于你在所谓的 AI 左脑中所感受到的兴奋，那就是语言模型、推理、你的 O 系列模型，我认为右脑的进步已经滞后了一段时间了，对吧？就像人们并没有真正大规模地广泛使用创造性 AI 一样。我认为视频是这里最终的创造性模式，对吧？如果你仔细想想，

我们人类进行交流的方式很大程度上是通过视觉媒介，特别是通过运动的视频。因此，我认为视频作为最终形式的创造性多模态合成令人难以置信地令人兴奋。它总是非常令人兴奋，但技术确实落后于人们真正想要的东西。因此，这很有趣，我的联合创始人从事了一些最早的图像生成模型和 3D 生成工作。然后视频总是我们想要瞄准的这种

大型模式。我认为 2023 年和 2024 年真正有趣的是，首先是图像生成的发展，这可以说是视频的先驱。但即便如此，从图像生成模型到视频生成模型的差距仍然很大，因为如果你仔细想想，

一张图像可能有数千个像素，甚至一百万个像素，但一段简短的视频片段中可能有数亿甚至数十亿个像素。因此，需要跨越巨大的差距。我的意思是，计算能力已经大幅提升，这使得更大的模型成为可能。因此，我认为……

自从我们重新安排这次播客以来，Sora 就上市了，对吧？我认为这对于许多人来说都是一个令人兴奋的时刻，让他们看到了视频生成可能实现的目标。对我来说，我认为这是一个非常早期的预兆，就像，你知道，未来会发生什么？我认为我们现在还处于早期阶段。- 是的，对于那些不知道的人来说，Sora 来自 OpenAI，对吧？- 是的，正确。

是的。我的意思是，你谈到了视频生成的一些挑战，它是一种不同的东西。我知道有些人可能会，你知道，如果他们是我们节目的长期听众，我们已经播出了关于稳定扩散和这些类型的视频模型的节目。

图像生成，如果你想成为视频生成模型构建者，主要是什么，我想，你必须考虑不同之处，无论是在你将使用的模型类型方面，还是在策划数据等方面，你必须经历的过程方面？是的，我的意思是，我认为首先，视频数据，

非常数据密集，对吧？就像你比较图像或文本一样，文本很小，图像更昂贵，但视频在短片中的数据量比图像多 100 倍。因此，当你考虑训练这些模型时，这确实是最大的挑战，

你如何构建可以扩展以处理大型数据集的架构和系统？这对社区来说是一个很大的瓶颈。我的意思是，同样，在 Genmo，我们一直在大力创新以使其成为可能。但我认为这就是为什么进展比图像或语言上市要慢一些的原因。但是，对于正在训练此模型的公司来说，他们必须策划

海量数据集，通常以 PB 为单位的数据，基本上只是为了预训练这些模型。这非常密集。许多从业者也开始在这些模型中发现这一点，但即使这仍然比你的稳定扩散更具挑战性，例如。

这肯定会让新进入者难以进入该领域。仅仅是你在开始之前必须设置的巨大工作量可能超出了大多数组织能够做到的事情，除非他们在这个领域拥有特定的专业知识或经验。是的，绝对的。我的意思是，我们花了很长时间才准备好预训练模型。我们稍后会详细讨论这一点，但我们在 2017 年开源了最先进的视频生成模型之一。

这里部分目标是让其他人有机会，对吧？让他们拿起一个模型并开始微调它。他们正在跳过，比如，

也许谈谈数据方面，因为我知道这是其中一件事情，我的意思是，在技术方面一直是一个难题，但我认为尤其是在图像和视频方面，有很多关于如何做到这一点的问题。

嘿，那么你究竟可以在哪里获取所有这些视频和图像？以及与之相关的权利是什么？但我还认为，在以下方面需要进行明确的策划……

我看到人们使用的所有这些提示，例如，“生成这个”，你知道，它是用佳能单反相机拍摄的等等。所有这些事情也必须在提示方面进行策划。所以是的，你能谈谈一下数据策划以及……

这些数据的来源，你甚至可以在哪里获取视频，然后是策划过程。是的，我的意思是，我认为预训练通常，这对于图像模型、文本模型、音频模型和视频都是正确的，它们依赖于，你知道，大量的互联网规模数据。但我认为视频的独特挑战在于它只是

你知道，很容易被噪音淹没，对吧？我认为这里一个非常有趣的角度是我们，例如，关注的是我们如何使用视频模型学习高质量的运动？事实证明，你在互联网上找到的大多数视频都不会动。它就像一个静态物体，或者有人在说话。如果你仔细想想，这实际上并没有教生成模型关于世界的信息。它没有教物理学。它没有教它物体如何相互作用。因此，它不会学习强大的推理能力。因此，我们思考的方式是，

真正使用视频模型的目标是学习物理学和现实主义以及支配我们世界的规律。因此，你可能会想到惯性、质量、光学、流体力学，所有这些基本属性以及它们如何相互作用。这确实是视频生成的目标，即学习一个可以模拟此过程的引擎，因为

输出是视频，我们可以消费它。它很有创意，也很漂亮。但这里最难的一步是找到真正可以帮助你学习这些世界基本规则的数据。这是我们在各个方面面临的最基本差距之一。

这并非易事。在你描述的过程中，我很好奇，我想象你训练的一些东西比其他领域更难让模型学习。而且，我的意思是，如果你只考虑将其缩小到动物、哺乳动物和人类，它们的移动方式不同，生理结构和解剖结构在这些方面略有不同，如果它们要制作逼真的视频，所有这些都必须由模型推断出来。

根据你的经验，你谈到了运动是如此重要的东西，随着时间的推移，有些事情越来越难做到正确，不仅仅是你今天所处的位置，而是对于整个行业来说，整个行业以及早期的情况如何？你遇到了哪些困难？是的，我认为这很有趣，现在人们用来测试不同视频生成器的一个测试案例是体操。对。

我认为这样做的原因是，你在网上看到的关于 Sora 或其他视频生成器进行体操的视频很搞笑。我认为答案之一是视频生成模型现在还做不到。这是非常复杂的人体运动。这非常罕见。因此，你谈到了数据策划，例如，

没有那么多复杂的运动。我们看到人们在自然界中做扭曲、旋转和后空翻等动作。对。因此，这很有趣，这需要对人体运动学如何运作有一个基本的了解，才能正确地模拟它，而不会让人感觉不舒服。所以，是的，

这对人们来说一直是一个挑战。例如，在我们早期训练的时候，我的意思是，在我们公司历史上，我们已经经历了三个基本的预训练基础模型。有趣的是，Mochi 是我们最新的模型，之前的模型是 Replay，行走实际上是一件非常基本的事情，非常难以掌握。事实证明，在 2023 年早期到中期，大多数视频生成器都会让人类像悬浮飞行器一样悬浮。对。

他们的脚不会动。他们只是漂浮在地面上并移动。因此，这些模型无法合成，更不用说体操了，只是行走。因此，例如，作为一家公司，我们必须跨越的关键时刻之一。我认为这可能是有些人节日期间喝了太多波旁威士忌蛋酒。那种漂浮的东西在那里。我肯定见过那种绝地武士的氛围。是的。

这在某种程度上很酷，但如果你不想要它，那就不是那么棒了。这里的一件事是，我认为我们对 Genmo 的评估基础设施进行了大量投资。并且作为其中的一部分，就像，你如何对这些能力进行基准测试？我们有一个测试案例是，你知道，你可能有一个女人在喝一杯加冰的水，你想看看，嘿，冰的移动是否逼真？有水流，但也有，

你知道，有趣的是，千载难逢的是，角色会试图从杯子的侧面喝水，这在物理上是不一致的。你实际上会在我们的一些竞争对手模型中看到这一点。这是我们一直在努力开发的东西。我认为仅仅这个孤立的测试案例本身就传达了很多关于视频生成模型理解现实规律的能力的信息。对。就像，是的，这是一个绝地武士的障眼法。就像你不能……

你不应该能够做到这一点，对吧？当您使用您开发的这些测试案例时，这是否有很多……

人工审查或如何如何创建围绕它的工具，因为我知道有一些比较，比如这张图像和那张图像，或者这个帧和那个帧，你可以比较接近程度等等，但是可能有很多

图像的整体接近程度。但如果女人从杯子的侧面喝水，即使周围的一切都很好，也会出现一个重大的失败时刻。是的，我的意思是……

缺乏公开可用的定量基准。我认为公开可用的基准之一是这些排行榜。因此，人工分析有一个视频生成排行榜。我的意思是，我们是排名第一的开源模型，并且与封闭模型不相上下。这只是人类的偏好。

数十万人并排查看两个视频，然后说这个更好或那个更好。你可能会得到像国际象棋风格的 ELO 等级。我认为这是最好或更好的公共基准之一。你知道，在内部，我们思考这个问题的一种方式是，当我们测量这些能力，例如世界理解和物理学时，人类实际上很难通过这种方式进行评级。事实证明，当我们人类并排查看两个视频时，你说，你更喜欢哪个？你通常更喜欢分辨率略高或细节更多的那个。

但如果你仔细想想，如果我要在实际的生产应用中使用它，比如电影制作或游戏或其他什么，我可能实际上更关心运动。因此，我们实际上必须覆盖人类的直觉，你的第一印象是选择细节并

使用这些测试案例作为一种功能测试，说明我们如何衡量这些能力。在我的职业生涯中，我实际上是从自动驾驶开始的。我在一家将深度学习应用于自动驾驶感知的早期公司工作。而且，你知道，我从我们如何构建深度学习系统的功能安全测试中汲取了很多灵感，对吧？这样，你将列举这些测试案例和用例，你实际上可以说你是否通过了该测试案例场景，对吧？所以

无论是人类必须进行审查，我们也开始开发更自动化的指标，我的意思是，它只是产生了更结构化的评估形式，我认为这非常重要，否则世界对我们来说太复杂了，无法测试所有内容，对吧？所以我们必须根据用例逐个进行测试并衡量进度。事实证明，随着模型和数据集规模的扩大，我们开始看到完成率的提高。这为我们提供了进度的一个半定量基准。

朋友们，人工智能正在改变我们开展业务的方式，但我们需要的人工智能解决方案不仅要有雄心壮志，而且还要实用且适应性强。这就是 Domo 的人工智能和数据产品平台发挥作用的地方。它是为当今人工智能领域的挑战而构建的。

借助 Domo，你和你的团队可以将人工智能和数据转化为创新的用途，从而产生可衡量的影响。虽然许多公司专注于近端应用或单一模型解决方案，但 Domo 的一体化平台更加强大，具有值得信赖的人工智能结果，而无需彻底改造您的整个数据基础设施，安全的人工智能代理可以连接、准备和自动化您的工作流程，

帮助你和你的团队轻松地获得见解、接收警报并采取行动，通过根据您的角色量身定制的引导式应用程序，以及选择要使用哪些人工智能模型的灵活性。因此，Domo 不仅仅是提高生产力。它旨在改变您的流程，帮助您做出更明智、更快速的决策，从而推动真正的增长，这一切都由 Domo 的信任

灵活性以及多年来在数据和人工智能创新方面的专业知识提供支持。当然，最好的公司都依赖 Domo 来做出更明智的决策。了解 Domo 如何释放数据的全部潜力。访问 ai.domo.com 了解更多信息。网址是 ai.domo.com。

Paras，我想知道，你提到了 Genmo 的这种预训练历史以及最新的模型，当然我们想谈谈这个，但我相信最新的模型是根据你过去尝试的事情和你在那里的历史而来的。因此，你能否简要介绍一下你的团队的历史以及

他们如何解决这个问题，你们如何解决这个问题以及你们经历的几代人。当然。所以我们现在大约成立了两年。我们实际上是在 2022 年圣诞节开始创办这家公司的。所以这是一个节日。我和 Jay 都是公司的联合创始人。首先，我们是兄弟。我认为这非常独特。太棒了。所以

你知道，我们并没有真正计划与兄弟一起创办公司。我的意思是，这有点奇怪。我的意思是，你知道，通常你会有一些兄弟姐妹之间的竞争等等。我不知道。我们没有那么多，但事实证明我们的技能组合非常互补。我们俩都在加州大学伯克利分校攻读博士学位。我从事大型分布式系统的工作，你知道，在加州大学伯克利分校的 amp 实验室和 rise 实验室。这是创建 Apache Spark 和……的同一个实验室，嗯……

Ray 和 AnyScale 项目。因此，用于扩展大型语言模型的真正强大的机器学习系统。这就是我的论文主题。与此同时，Ajay 正在研究现代图像生成的基础。所以

他加入伯克利是为了研究早期的图像生成模型。这有点像你的 GAN 时代。我认为对他来说，一件非常令人不满意的的事情是生成对抗网络就像海市蜃楼。它实际上并不是一个基于学习真实运动或动力学的接地损失目标。它有点像这场游戏，但你得到了图像生成的伪影。所以我认为……

他的故事非常有趣，因为他最终写了他的论文，DDPM，或去噪扩散概率模型论文，这是我们今天使用扩散来思考图像生成的基础之一。这是该领域引用率最高的论文之一。我认为这源于，我认为，早期的倾向是，我们如何构建理解物理和现实主义而不是仅仅像人工玩这种游戏一样产生图像的视频图像模型，将其建立在真实的生成式预训练之上。所以这是

公司早期的学术历史，但创办公司时，我们决定做视频，因为在 2022 年这似乎是不可能的。这完全超出了前沿。我们说，从根本上说，我们需要一种新的架构来解决这个问题。因此，让我们从系统角度和分布式系统角度，以及机器学习角度来发现正确的方法。我的意思是，是的。

自成立以来已经大约两年了。我们已经进行了三次大型预训练运行。每次我们都会学习一些关于世界的新知识，并将这些知识整合到我们的方法、框架和架构中，以说明我们如何训练这些模型。但我认为，唯一的基础是运动。我们总是开玩笑说 Genmo 并没有真正

和解释，但我们有点追溯地应用了生成运动的概念，对吧？Genmo 就像，我们非常关心运动和视频，这确实是我们的创始历史和我们处理视频生成框架的核心要素。

我想知道，你让我，在你谈论它的过程中，我有一两个问题，你谈到了这种演变，你知道，从生成对抗网络 GAN 开始，以及你们找到的架构进展。你能谈谈这方面的内容吗？例如，你知道，如果你在 GAN 时代进入这个领域，那就是重点，但是，你知道，什么，我很好奇，从高层次来看，

问题出在哪里？为什么这对你们不起作用？你们接下来看什么？你知道，你能否大致介绍一下几个主要的架构曲折，让我们了解你们的旅程可能是什么样的？是的。我认为最早形式的图像生成模型，我认为，开始运作良好的是自回归图像生成模型。这与大型语言模型非常相似。你有点……

你知道，你可能会取一张图像并将其变成一个单向量，一条线。所以如果它像，你知道，28x28 的图像，现在你有一条直线上的 784 个像素，你只需一个接一个地解码下一个。所以这是最早形式的图像生成。有一些模型，如 PixelRNN 或 PixelCNN 或 ImageGPT，它们来自 OpenAI，是这里最早运作良好的作品。但问题是图像有数百万个像素。这永远无法扩展到生成高分辨率图像。

我认为 Ajay 在 2018 年、2019 年早期研究这个项目时有趣的是，我认为我记得他训练了一个自回归图像生成模型。他训练的第一个模型是在 L-Sun 上训练的，这是一个基本上是卧室的数据集。

但如此有趣的是，它就像一个 5x5 或 10x10 像素的小区域，它会开始在人们卧室的背景上放置艺术品。为什么？因为这正是自然界的样子。这就是房地产列表的样子。但从某种意义上说，这是人工智能生成的艺术的第一个迹象，它使用了早期的图像生成模型。

问题是这无法扩展，对吧？因为你逐个像素地进行操作。所以制作一张小图像需要数小时。我的意思是，所以 GAN 是接下来的一种主要方法。我认为这确实对这方面有所帮助。GAN 使用这种生成对抗目标进行训练。这有点像生成器和鉴别器之间的一场决斗游戏。但它们很难训练。

事实证明，它们会进入这些糟糕的状态，例如，模式崩溃是最大的问题之一。这意味着你可以生成单个域的图像，但你无法使用 GAN 生成世界上的所有内容。因此，你可以获得一个非常好的模型来制作面孔，或者一个非常好的模型来制作卧室图片，或者一个非常好的老虎模型。但很难说在一个 ImageNet 上训练一个模型，这意味着覆盖数千或数千个。

数千个不同的类别，对吧？因此，扩散模型是一种非常令人兴奋的方法，Jay 开始研究它，因为它有可能提供这种模式覆盖率

你可以学习世界的多样化表示，这些表示不仅仅是像面孔或动物这样的单个域，而是所有内容。因此，你知道，这就是导致 DDPM 的原因。我认为从那时起，我的意思是，你已经有了后期融合、稳定扩散方法，然后视频生成我认为是下一个主要的演变，但是，但是学习范式大多保持不变，保持与这种类似，就像学习这种，就像，你知道，扩散设置或迭代去噪一样，对。这是这种扩散问题的公式，但是，

看到它的扩展程度令人惊叹，从最早的扩散模型到我们现在使用的视频生成，像素规模实际上扩展了 10,000 倍。

我想在这方面，你是如何决定的，我想，因为我知道你做的一部分工作，而且我认为你创建的模型的意图是通过某种方式开源它们。正如你前面提到的，将一些东西发布到社区中，人们可以在那里进行实验、尝试和微调。你是如何考虑的

模型的大小以及，以及那种，这完全是由产生某种大小的视频或某种分辨率所需的因素驱动的吗？某种你追求的性能指标？你是如何做出一些这些权衡决策的，嗯，也许还有你所拥有的计算能力？

是的，我的意思是，首先，预训练非常需要 GPU。我的意思是，我们可以访问超过 1000 个 H100 级……

因此，我的意思是，这非常需要 GPU，但我认为这也是如何有效利用该硬件的问题。视频的一个关键挑战是它们具有非常长的序列长度，训练视频生成模型相当于训练一个百万标记长度的上下文窗口，就像一个新的语言模型一样。因此，这带来了一系列与大型语言模型中通常看到的参数缩放相关的巨大挑战。

我认为有趣的是，某些能力只会在某些参数规模下出现。就像我谈到的行走一样，使用 10 亿或 20 亿参数的模型或比这更小的模型来实现行走非常困难。它只是，

我们似乎正在经历视频生成工具、模型和应用程序的激增。然而，视频生成模型通常难以处理一些基本的物理现象，例如逼真的行走动作。这使得一些生成的视频缺乏真实的动作，令人失望的是，摄像机视角过于简单。Genmo专注于视频生成的运动方面，并发布了一些最好的开放模型。Paras加入我们讨论视频生成及其在Genmo的历程。加入讨论Changelog++会员在本集中节省了2分钟，因为他们去除了广告。立即加入！赞助商：Domo——人工智能和数据产品平台。利用Domo的人工智能和数据产品增强您的整个数据旅程。

Genmo

<raw_text>0 你不会学习这种能力。因此，你需要一定的规模才能使其发挥作用。但与此同时，你并没有看到像1000亿或万亿参数规模的模型，就像你在前沿级语言模型中看到的那样。因此，我们开源了Mochi one，它是一个100亿或110亿参数规模的模型。它很大，比你传统的、旧的视频生成模型大得多，但它仍然可以在消费级GPU上运行。人们可以访问它并使用它。这是我们为了适应社区而故意做出的选择，同时确保它不会太小而限制其功能。而且，据我所知，随着时间的推移，在我尝试使用不同的视频生成演示或产品时，我注意到的一件事是

肯定存在一个元素，你只能生成这么多，我设想，正如你提到的，正在生成一个序列，它与从语言模型中生成的序列类似，它迭代地或重复地调用

模型，生成的越多，计算量就越大。关于视频模型，这是一个正确的假设吗？或者，我认为人们……

至少如果他们听过这个播客或自己做过关于语言模型如何生成标记的研究，他们会比较熟悉，对吧？所以我有一个提示，模型生成一个标记，然后将其添加到我的提示中。然后我迭代地生成另一个标记。并且

所以模型被调用的次数越多，我生成的也就越多。对于生成这些视频序列来说，情况也是如此吗？在现实环境中，这些模型的实际计算和使用有哪些问题？是的，我认为视频生成模型与大型语言模型有一些共同点，但也有一些关键的区别。首先……

语言模型一次自动解码一个标记。所以如果你想生成，你知道，1000个标记，无论多少，比如说，500个单词，

你需要对模型进行500次前向传递或1000次前向传递。在视频生成模型中，每个像素都是一次生成的。因此，每次传递都会生成视频中所有空间和时间上的像素。我们进行多次去噪步骤。所以你从一个纯噪声样本开始，经过大约50次或104次传递，所有这些像素最终都会变成全分辨率。如果你使用我们的产品，你就会看到

我们将这些像素在它们实时去噪时流式传输到你的浏览器。所以你会看到一个完整的视频，而不仅仅是一帧，而是一个完整的视频。但它有点模糊。慢慢地，视频变得越来越清晰，细节开始显现。你会看到斑点。

变得越来越详细。最终，你会得到精细的细节，比如头发、牙齿或植物的叶子等等。这出现在这个的最后阶段。同样，运动可能从粗粒度运动开始，但随着去噪过程的进行，最终会变得更加详细和逼真。所以这是一种不同的轴线，我们进行计算。就像你做标记和解码一样，在视频模型中，你有了这个去噪步骤。

但是，在架构上，至少在Mochi开源的情况下，有一件非常重要的事情需要讨论，它是一种多阶段模型。首先，我们称之为变分自动编码器或VAE，它指的是视频压缩。视频上的像素太多了，我们无法在模型中直接学习。它只是……

太贵了。所以在Mochi中，我们通过变分自动编码器设置训练这个100倍的视频压缩模型，它接收输入视频并实际投影并生成我们所说的序列。所以你从像，你知道，数百万像素的东西变成了最终有效地占用大约，你知道，50000个标记等效于语言模型中的50到100000个标记。所以我们首先进行压缩阶段，然后在这个潜在空间中，

这实际上是扩散模型正在学习的东西，对吧？所以这个100亿参数的模型正在学习重建，你知道，100倍下采样或压缩的空间。

你是否设想，随着计算能力的快速增长，会有一个点，压缩将不再需要，你将能够在不需要压缩的情况下生成非常大和详细的视频，仅仅是因为未来的计算能力如此强大？或者你认为这不太可能，我们将继续追逐压缩并做其他事情？所以第一个扩散模型实际上是我们所说的像素空间模型。所以它们是在序列的全分辨率下完成的。

所以这对于图像来说仍然是可行的。我认为有趣的是，这种潜在扩散设置的性能优于像素空间方法，即使在计算上仍然可行的情况下也是如此。你知道，我认为这很有趣，因为像

自回归设置和扩散设置之间的架构混合了很多。例如，我们的团队在今年欧洲的2024年就看到了这一趋势。而且，你知道，一些人已经开始探索结合自回归模型、扩散模型的不同元素，无论是在像素空间还是潜在空间。我认为这是一个非常多样化的空间，而且非常欠发达。例如，我们开源了mochi，我们实际上开发了一种新的架构，我们称之为ASIM did或非对称did，这只是人们所处领域的一种演变。我的意思是，

人们利用这种扩散转换器设置进行架构设计。这是它如此昂贵的部分原因，但我们开始采取一些早期步骤来进行架构探索。所以我希望我们最终能够，长话短说，找到压缩和实际生成部分之间的全局最优解。今天，我们出于计算原因对其进行了分解，我认为随着我们结合这些不同的元素，它会变得越来越模糊。♪

Paras，你提到了Mochi。这是你在Genmo创造的最新成果。你能谈谈Mochi与之前的模型以及Mochi的关系吗？我的意思是，你提到Mochi在某些基准测试中取得了顶尖的性能。你能否

帮助我们理解它在现有视频模型生态系统中的位置，以及它对你们来说从上一代到这一代的进步意味着什么。首先，在我深入探讨这个问题之前，我相信视频生成还处于非常早期的阶段。我认为我们只完成了1%。所以我认为人们看到这些东西会感到非常惊讶，但现实与视频生成的现状之间存在巨大的差距，对吧？我认为……

这种心态非常重要，因为当我们回顾2023年中期，也就是我们拥有上一代模型的时候，视频生成的领域是，对不起，2024年中期，当我们拥有上一代模型Replay时，它们会合成高分辨率视频，但它们不会移动。它们并不那么有趣。对。所以你会看到一个人的视频，他们只是站在那里，也许有摄像机运动。所以摄像机可能会绕着这个人旋转或平移一点。

但主体不会移动。对我们来说，这表明在2024年中期，视频生成设置存在某种学习失败。所以这是

首先，我们想要解决视频生成最重要的事情是解决运动，特别是主体运动。因此，Mochi one在最新的前沿级闭源模型（例如谷歌Veos或Sora）中处于并驾齐驱的地位，尤其是在运动基准测试方面。我认为这非常重要且微妙，但这正是我们想要通过视频生成解决的关键组成部分。第二个

对我们来说，在Mochi中非常重要的一点是提示遵守。这很常见。我认为很多人都有这种使用视频生成的经验。正如你所说的，我想要X，对吧？例如，你可能会说，你知道，一个经典的测试是，你知道，我想要一只戴着帽子的狗，手里拿着茶杯，但它会做到这一点，但是这些东西的顺序和这些元素的构成是错误的，对吧？所以它们可能坐在它旁边，但并没有拿着它。

我们在用户研究中与一位用户讨论了视频生成。他们描述了视频生成的现状，就像拉绳子一样。你想要绳子朝一个方向走，但你就是无法让它走，对吧？这真的很难。因此，在Mochi中，除了运动之外，我们还大力投资于提示遵守。因此，提示遵循我认为是一个非常重要的因素，这对于使这些系统实际可用至关重要。

我们很想谈谈，你知道，我们也开源了这个，因为没有好的开放模型，更不用说封闭模型了。有一些封闭模型，Runway和Sora已经在他们的博客中预览了几个月，但没有人真正……

训练并发布了一个开放模型。所以这阻碍了这个领域的进步。因为我们还处于早期阶段，我们的观点是发布这个模型，并为人们实际研究运动和提示遵守等方面创造这个基础，这对于该领域至关重要。它也对我们公司有利，因为人们正在基于我们的模型进行构建，对吧？

那么，你看到人们想用这个模型做什么？人们可能会解决的不同类别用例是什么？哪些是高价值的？是的，我认为每个人的第一次体验都是玩耍。所以，人们只想打开它，他们想看到一些疯狂的东西，对吧？例如，

一个婴儿骑着一只狗，对吧？所以我认为这总是很有趣的一个例子，就像，你知道，你可能有一些在现实世界中不会发生的事情，你想让模型去做。所以人们从这里开始，探索表面区域。但是当我们关注实际的用例时，我认为真正有趣的是，这种视频生成技术正在逐渐进入企业内容创作工作流程。我认为这就像

创作，然后是编辑，这是视频生成实际应用的两个方面。创作，我的意思是，首先，许多人开始探索使用视频生成来代替库存视频，如果你找不到你想要的库存目录中的确切内容，你可以直接生成它，它将附带所有正确的适当许可证，它是独属于你的，对吧，没有人能获得该视频，因为

你制作了它，对吧？它是n=1，所以这对于许多内容创作工作流程来说非常强大。视频也很难且昂贵，而且很难迭代，对吧？你拍摄一次，如果它不完美，你知道，你可能想要重新提示并重新编辑它，所以

我认为这是一个令人兴奋的应用，例如，在内容制作的头脑风暴、预可视化和故事板过程中。如果你在循环中使用像视频生成器这样的工具，这会快得多。然后是编辑。实际上，这正是我接下来要说的，关于编辑，是如何设想它作为人们积极攻击的问题而融入其中的？在视频生成的背景下，编辑视频意味着什么？如果你从头开始生成视频，

编辑这样的视频意味着什么？这将如何完成？现在有人真的在考虑这个问题吗？这是否摆在桌面上？我们发布Mochi 1作为开源项目。我们不知道人们会用它做什么。一件非常令人兴奋的事情是，在开源后的两周内，一位社区成员构建了这个名为Mochi Edit的工作流程。这是一个基于我们的开源模型构建的完整视频编辑管道。有了它，你可以添加、删除或更改对象。这是一个疯狂的视频。你可以在GitHub上搜索Mochi Edit。而且……

我认为他向我展示的演示非常酷。他们拍摄了一个人说话的视频，然后他们说，给他戴一顶帽子。它实际上给他戴上了一顶完全逼真、精确的3D跟踪帽子。看起来完全逼真。我认为使用传统的视频编辑管道，在跟踪、渲染和合成所有内容之间，整个过程可能需要两到三周的时间，老实说。

非常酷。你认为，我的意思是，我知道如果我记得没错的话，可口可乐公司为他们的冬季广告制作了一个广告，可口可乐公司使用Gen AI制作了一个广告。你认为，好吧，这可能是一个更广泛的问题，但你认为人们如何理解

在2025年，我们将在公众层面如何体验视频生成？你认为它会开始，它将以何种方式开始融入人们的日常生活？因为我和Chris，好吧，每个人都记得，我们在播客上讨论了ChatGPT之前的许多语言模型，但是

你知道，我们在感恩节晚餐上并没有讨论它们，对吧？不，根本没有。所以你确实有这样的时刻，就像可口可乐的视频，人们更广泛地谈论这个，但这可能不像ChatGPT那样是视频生成的时刻。关于公众将在未来一年如何开始与这项技术交叉的任何想法？

我的意思是，我认为早期采用者肯定已经开始使用视频生成。我的意思是，我们的平台拥有超过200万用户，他们使用它，不仅仅是开源，开源可能比这多出很多倍。但我认为这与传统媒体相比仍然只是一小部分。我认为最大的限制因素之一，就像我分享的那样，是你控制它的能力，就像

你知道，一旦你能够从中获得一些东西，哇的时刻几乎是瞬间的。例如，你会要求它做一些在现实世界中不可能存在的事情，然后你就会亲眼看到它。我的意思是，那……

对大多数人来说都是令人瞠目结舌的体验，对吧？但我认为困难的部分在于，这项技术需要太多的专业知识来提示和理解如何才能从模型中获得良好的结果，才能使其可用。我认为2024年是我们将看到指令遵循和提示遵守得到解决的一年，这使得这些东西能够真正遵循你想要说的话。我认为这就像从GPT-3转变为基于聊天的指令微调一样，GPT-3在某种意义上只是一个未对齐的语言模型，它……

会漫无目的地谈论任何话题，但并非以特别有用的方式，对吧？我认为这对于语言模型来说是一个突破性的时刻。我认为视频模型的情况非常相似，它到达了一个时刻，即有人可以拿起它并使用它，而无需成为人工智能专家。你知道，今天许多人已经……

在Midjourney或其他传统形式的图像生成方面很有天赋，这些图像生成可以转化为视频。我认为这是必须解决的关键时刻之一，才能让它获得突破性的曝光。但我只是想象一个世界，我认为五年后，当我们到达一个点时，你知道，孟买或肯尼亚的一个穷孩子可能只有一部手机和一个好主意，按下手机上的按钮，它就能获得奥斯卡奖，对吧？就像那样，那将改变世界。老实说，我认为我们离那并不远。

是的，我认为……我喜欢你以这种扩展代理的方式来表达这一点。所以，与其说是人工智能模型，我认为……

人们认为它们是一种令人沮丧的事情的方式是，哦，这些东西会使一切自动化。我将看到的每个视频，我将永远不会再看到很酷的视频了，因为它们都将是人工智能生成的，没有创造力。但我认为，我们从语言模型中看到的东西，甚至从图像生成中看到的东西是，人类可以带来如此多的创造力。但它也……

使许多潜在的生产民主化，对那些有惊人想法但可能无法获得好莱坞电影摄制组的人来说。对。所以我喜欢，我喜欢你的愿景中仍然存在这种人类代理被扩展的元素，甚至，你知道，人们，人们能够讲述他们可能不会讲述的故事。所以我喜欢这一点。

我有一个问题要问你。这是一个有点随机的问题，但很有趣。人们经常问我这个问题。

随着我们前进，创造力意味着什么？当我们拥有这些工具时，人类的创造力正在发挥作用，你拥有这些工具，有些人认为它们在某种意义上是有创造力的，有些人则不这么认为，但它是什么样的？人和工具一起做什么，肯尼亚男孩正在做什么？你怎么看待这个问题？你怎么解释它？我认为人类的智慧和创造力是

所有有趣内容形式的根源。如果你有人工智能，我知道人们很害怕，嘿，我打算使所有这些东西自动化。但是如果你看看LMS会漫无目的地谈论什么，它就像所有训练输入的总平均值。这对任何人都不是特别有趣或新颖的，对吧？例如，

我认为最伟大的电影来自那些有新想法的人，对吧？以及对世界的新视角，对吧？对人类是什么以及我们所生活的世界的新的诠释，对吧？由此，你有了伟大的媒体，对吧？我认为这将永远是正确的。人类在这里的角色将永远是推动前沿。我的意思是，语言模型学习和视频模型学习只是通过添加

平均和聚合，压缩他们周围的所有信息。但在某种意义上，他们永远无法独自推动前沿。但是，人类加上视频模型，却是一种完全不同的野兽，对吧？现在你有了我称之为创造力放大的东西，对吧？就像人类独自产生创造力一样。但是有了这个视频模型，它现在以一种旧技术永远不可能实现的方式进行放大，对吧？例如，

迭代周期可能需要数年时间，甚至一生时间才能经历并发现一个想法空间。现在有人可以在几个月或几周内做到这一点，只是迭代新的想法，测试它们，并看到它们为自己可视化。

我想这自然地引导我们进入……这是一个很好的更广泛的愿景，但你对Genmo的具体愿景是什么？什么让你夜不能寐？随着你进入充满新可能性的新一年，你最兴奋的是什么？所以我想……

我们的愿景在很长一段时间内一直非常一致，那就是构建视频生成的前沿模型。但目标是释放人工智能的右脑。它完全被忽视了。我的意思是，OpenAI和这些前沿模型已经接管了左脑。我们说，嘿，另一边和左脑一样有能力，也一样重要。所以，你知道，我称之为思考，想象一下人工智能可以表达任何可能或不可能的事情，对吧？我认为……

第一步是创造力，是媒体，人们创造，就像我描述的那样，这种赋能创造者的愿景。但从长远来看，我认为这真的很有趣，因为如果我们可以探索这个合成现实的世界，它将解锁在具体化人工智能方面的巨大进步，例如。当这项技术开始变得真正强大时，我从我的职业生涯中的自动驾驶开始，而最大的问题是存在太多的边缘情况需要模拟。

对吧？即使你在路上行驶了数百万英里，仍然会发生新的事情，但是我认为视频模型将首次能够训练出能够在现实世界中运行并真正理解所有可能现实的强大代理，他们可以通过这种方式进行模拟，对吧？就像那是一种全新的范例，我认为我们甚至在使用o01风格的模型进行推理时也开始看到这种范例，但是

对我来说，这是我们将为视频生成看到的长期任期潜力中最令人兴奋的之一。我们Genmo正在努力实现这一未来。

好吧，感谢你在这个领域中的深入研究。这确实令人鼓舞，非常感谢你在你进入这些创新之际抽出时间与我们聊天。令人兴奋的事情。当你发布下一个版本时，请回来。欢迎你回来聊聊。非常感谢你，Paras。很高兴与你聊天。谢谢，Daniel。谢谢，Chris。

好了，这就是我们本周的节目。如果你还没有查看我们的ChangeLog时事通讯，请访问changelog.com/news。在那里你会发现29个理由，是的，29个理由说明你应该订阅。

我会告诉你第17个理由，你实际上可能会开始期待星期一。听起来好像有人得了星期一的病。changelog.com/news上还有28个理由在等着你。再次感谢我们在Fly.io的合作伙伴、Breakmaster Cylinder的节拍以及你们的收听。现在就到这里，但我们下次再聊。

Video generation with realistic motion 45:11 Share

Practical AI: Machine Learning, Data Science, LLM

Deep Dive

Shownotes Transcript

Video generation with realistic motion