We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

How World Foundation Models Will Advance Physical AI With NVIDIA’s Ming-Yu Liu - Episode 240

2025/1/7

The AI Podcast

AI Deep Dive AI Chapters Transcript

People

Mingyu Liu

Topics

Mingyu Liu: 我是NVIDIA的研究副总裁，也是IEEE院士。世界基础模型是基于深度学习的时空视觉模拟器，能够模拟各种环境和行为，帮助我们预测未来并做出更好的决策。它可以用于训练物理AI代理，提高代理在推理过程中的决策能力，并根据文本、图像、视频和动作提示生成虚拟世界。世界基础模型可以根据不同的物理AI设置进行定制，以适应不同的摄像头数量和位置。它与大型语言模型不同，大型语言模型关注文本描述和理解，而世界模型关注模拟，通常以视频形式呈现。世界基础模型对于物理AI开发者至关重要，因为物理AI系统与环境交互并可能造成实际损害。世界模型可以用于模拟，从而降低风险。它可以用于验证物理AI系统的不同检查点，减少在实际环境中部署带来的风险和时间成本。它可以预测未来，并作为策略模型的初始化，减少策略模型训练所需的数据量。它可以在机器人采取行动之前进行模拟，选择最佳方案。目前世界模型的准确性评估方法仍在发展中，需要考虑物理定律、物体持久性等多个方面。NVIDIA的Cosmos平台提供预训练的世界基础模型（基于扩散和自回归）、标记器和微调脚本，帮助开发者定制模型。我们发布Cosmos平台是为了帮助物理AI开发者，因为他们可能缺乏构建世界模型的资源和专业知识。Cosmos平台提供基于扩散和自回归的两种世界基础模型，前者生成质量更高，后者速度更快，以满足不同需求。自回归模型在准确性方面可能不如扩散模型，但在与物理AI系统集成方面更容易。世界基础模型可以作为合成数据生成引擎、策略评估工具和策略初始化工具，并在决策过程中提供数据参考。自动驾驶和人形机器人行业将从世界模型中获益最多。我们与多家公司合作开发世界基础模型，通过了解合作伙伴的需求来改进平台。世界基础模型仍处于早期阶段，未来发展将很快，因为大型模型的基础设施已经建立，并且存在巨大的需求和投资。未来需要研究如何更好地将世界模型集成到物理AI系统中。可以参考NVIDIA网站和白皮书了解更多信息。

Deep Dive

Chapters

This chapter introduces World Foundation Models (WFMs) as deep learning-based space-time visual simulators capable of predicting future events and simulating various environments. It explains how WFMs differ from LLMs and video generation models, focusing on their simulation capabilities for training and decision-making in physical AI.

WFMs are deep learning-based space-time visual simulators.
WFMs simulate physical environments, enabling better AI decision-making.
WFMs differ from LLMs by generating simulations (videos/pixels) instead of text descriptions.

Shownotes Transcript

您好，欢迎收听 NVIDIA AI Podcast。我是主持人 Noah Kravitz。英伟达首席执行官黄仁勋最近在内华达州拉斯维加斯举行的

CES 消费电子展上发表了主题演讲。在黄仁勋谈到的许多令人兴奋的公告中，就包括 NVIDIA Cosmos。Cosmos 是一个世界基础模型的开发平台，我认为我们都将在未来几个月和几年里大量讨论它。什么是世界基础模型？好吧，

幸运的是，我们这里有一位专家来告诉我们所有关于它的信息。刘明宇是 NVIDIA 的研究副总裁。他也是 IEEE 会士，他将在这里向我们讲述世界基础模型，它们的工作原理，它们的意义以及为什么我们应该关注它们未来的发展。所以，事不宜迟，刘明宇，非常感谢你加入 NVIDIA AI Podcast，欢迎。很高兴来到这里。那么，让我们从基础开始吧，如果你愿意的话。什么是世界基础模型？当然。

所以，世界基础模型是基于深度学习的时空视觉模拟器，可以帮助我们展望未来。它可以模拟访问，可以模拟人们的意图和活动。这就像 AI 的数据交换。想象一下许多不同的环境，并可以模拟未来。因此，我们可以根据此模拟做出正确的决策。

我们可以利用世界基础模型的想象力和模拟能力来帮助训练物理 AI 代理。我们还可以利用这种能力来帮助代理在推理过程中做出正确的决策。您可以根据文本提示、图像提示、视频提示、动作提示以及图层的组合生成虚拟世界。我们称之为世界基础模型，因为它可以生成许多不同的世界。

而且因为它可以针对不同的物理 AI 设置进行定制。- 对。- 成为定制的世界模型，对吧？因此，不同的物理 AI 在不同位置具有不同数量的摄像头。因此，我们希望世界基础模型可以针对不同的物理 AI 设置进行定制，以便它们可以在其设置中使用。- 我想问你世界模型与 LLM 和其他类型的模型有何异同。

但我认为首先我想退一步问你，世界模型与生成视频的模型有何异同？因为我的理解，请纠正我的错误，我的理解是你可以提示世界模型生成视频。

但是该视频是根据你刚才谈到的内容生成的，基于对物理世界中物理和其他事物的理解。这是一个不同的过程。所以我不知道如何最好地为听众解释它。但一个起点可能是，世界模型如何与 LLM 或生成式 AI 视频模型区分开来？所以……

世界模型与 LN 不同，因为 LN 专注于生成文本描述。它产生理解。而世界模型正在生成模拟。模拟最常见的形式是视频。所以它们正在生成像素。因此，世界模型和视频基础模型是相关的。

视频基础模型是一个生成视频的通用模型。它可以用于创意用例，也可以用于其他用例。在世界模型中，我们关注的是视频生成的这一方面。基于你当前的观察和你世界中参与者的意图，你将展开未来。对。是的。所以它们是相关的，但重点不同。明白了。谢谢。那么，为什么我们需要世界模型呢？我的意思是，我认为我知道这个问题部分答案。我们正在谈论模拟物理 AI 和所有这些令人惊奇的事情。但是，你知道，从你的角度告诉我们对世界基础模型的需求。

我认为世界基础模型对物理 AI 开发人员很重要。你知道，物理 AI 是在现实世界中部署了 AI 的系统

与数字 AI 不同，这些物理 AI 系统会与环境互动并造成损害。所以这可能是真正的伤害。对。因此，物理 AI 系统可能会控制机械臂或其他一些设备，从而改变物理世界。是的，我认为物理 AI 有三个主要用例。好的。

好的。它完全围绕模拟。第一个是，你知道，当你训练物理 AI 系统时，你训练一个深度学习模型，你有一千个检查点。你知道你想部署哪个吗？对。如果你单独部署，你会非常耗时。所以，这很糟糕。它会损坏你的厨房。对吧？所以，

使用墙模型，你可以在模拟中进行验证。因此，你可以快速在许多不同的厨房中测试这个策略。在……

你部署在真正的厨房之前。经过这些验证步骤后，你可能会缩小到三个检查点，然后进行实际部署。你可以更容易地部署你的物理 AI。这让我想起了我们之前关于药物发现的播客。

嘉宾们谈到了模拟实验和不同分子组合的能力，所有这些工作都可以让他们缩小到那些值得在实际物理实验室中尝试的实验。所以听起来你好像知道，能够模拟一切并缩小范围对开发人员来说一定是一个巨大的优势，是的，第二个应用是……

你知道，角色模型，如果你能预测未来，你对基础知识有一定的了解。你可能知道所需的行动

来推动世界走向未来。策略模型，在物理 AI 中部署的典型模型是关于预测行动的，对观察给出的正确行动。世界模型可以用作策略模型的初始化，然后你可以用更少的数据来训练策略模型，因为世界模型已经用许多不同的观察结果进行了预训练，这些观察结果来自数据资产。如果没有世界模型，

训练策略的程序是什么？所以一个程序是你收集数据。

然后你开始进行监督微调。对。然后你可能会使用。所以它是实践性的，是手动的。你必须获得所有数据。很多。是的。第三个是，当一个模型足够好，高度准确且快速时，你知道，在机器人采取任何行动之前，你只需模拟不同的特征。对。并检查你真正想要实现的目标并选择那个。

是的，就像在你做出任何决定之前，我身边有一个数据交换。它们会降级吗？你提到当模型足够快和足够准确时，准确性会下降。我不知道问这个问题是否公平。所以问吧，以最好的方式解释它。但是，例如，你如何确定世界模型的准确性，或者衡量世界模型的准确性？是否存在需要达到的基准才能在不同情况下部署？或者这是如何工作的？

是的，这是一个很好的问题。我认为角色模型的开发仍处于起步阶段。对。所以人们仍在努力寻找衡量角色模型性能的正确方法。我认为角色模型必须具备几个方面。一个是遵循物理定律。当你扔球时，你应该预测它在正确的位置，基本上。

在物理日志上，对吧？而且在 3D 环境中，我们必须具有对象的持久性，对吧？所以对你来说，

转过身再回来，你知道，物体应该留在那里，对吧？如果没有其他参与者，它应该留在相同的位置。我认为我们需要捕捉许多不同的方面。我认为研究界的一个重要部分是提出正确的基准，以便社区能够在正确的位置前进，以使这个重要领域民主化。对。

对。所以说到前进，也许我们可以谈谈，或者你可以谈谈 Cosmos 以及在 CES 上宣布的内容。所以

在 CS 中，Jensen 宣布了 Cosmos 世界模型开发平台。这是一个面向开发人员的世界模型平台。因此，在这个平台中，有几个组件。一个是预训练的世界基础模型。我们有两种世界基础模型。一种是基于扩散的。另一种是基于自回归的。

我们还为墙基础模型提供了标记器。标记器将视频压缩成标记，以便转换器可以将其用于其任务。除了这两点之外，我们还提供后训练脚本，以帮助物理 AI 建设者根据其物理 AI 设置微调预训练模型。

有些汽车有八个摄像头，对吧？我们依靠我们的世界基础模型来预测八个视图。最后，我们还有这个视频策划工具包。因此，处理视频，大量的视频已经是一项计算任务。有很多部分需要处理。并且媒体收集库已准备好一起进行计算代码，想要帮助

一个模型开发人员利用库来读取数据。他们是想构建自己的角色模型，还是根据我们预训练的角色基础模型来查找一个？因此，作为 Cosmos 一部分提供的模型对开发人员开放使用，它们对其他企业开放吗？是的。这是一个开放式重量开发平台。这意味着模型是开放式重量的，模型权重在商业使用前发布。

我们认为这对物理教育建设者很重要。物理教育建设者需要解决大量问题才能构建真正有用的机器人、自动驾驶汽车。

为我们的社会。有很多问题，角色模型就是其中之一。而这些公司可能没有资源或专业知识来构建角色模型。英伟达关心我们的开发人员，我们知道他们中的许多人都在努力对

物理 AI 产生巨大影响。所以我们想帮助他们。这就是我们为他们创建这个角色模型开发平台的原因，以便他们可以处理其他问题，我们可以为我们社会的转型贡献我们的艺术。绝对的。我想问你，你能解释一下扩散模型和自回归模型之间的区别吗，尤其是在这种情况下？为什么同时提供两者？用例和观点是什么

优缺点。因此，自回归模型或 AR 模型是一个一次预测一个标记的模型，条件是已经观察到的内容。因此，GPT 可能是最流行的自回归模型，一次预测一个标记。另一方面，扩散是一个同时预测一组标记的模型。

并迭代地从这些初始标记中去除噪声。区别在于，对于 AR 模型，在 GBT 上进行了大量的投资，有很多优化，因此它们可以运行得非常快。而 Deep Fusion，因为标记是一起生成的，所以更容易拥有连贯的标记。生成质量往往更好。

两者都对物理 AI 建设者有用。所以有些人需要速度，有些人需要高精度。所以两者都很好。优秀。到目前为止，最成功的自回归模型是基于离散标记预测的，就像在 GBT 中一样。

所以你几乎是一组整数、标记，你在训练过程中产生它们。在墙基础模型的情况下，这意味着你必须将视频组织成一组整数。你可以想象这是一项具有挑战性的压缩任务。由于这种压缩，自回归模型往往在准确性方面更难以应对，但它还有其他好处。例如，

它的设置更容易集成到物理 AI 设置中。明白了。

我正在与刘明宇交谈。刘明宇是 NVIDIA 的研究副总裁，他一直在向我们介绍世界基础模型，包括在 Jensen 的 CES 主题演讲中宣布的 NVIDIA Cosmos，这是一个世界模型的开发平台。我们一直在谈论，你一直在解释什么是世界模型，它与其他类型的 AI 模型有何异同，刚才自回归和扩散之间的区别。

让我们稍微改变一下话题，谈谈应用。Cosmos 如何，我们的世界基础模型将如何影响各个行业？是的，我们相信……

首先，世界基础模型可以用作合成数据生成引擎来生成不同的合成数据。就像我之前说的那样，世界模型也可以用作策略评估工具，以确定哪个检查点或哪个策略是

一个更好的候选者，让你在物理世界中进行测试。对。而且，如果你能预测未来，你可能可以重新配置它来预测通向那个未来的行动。所以这是一个策略返回初始化。对，对。还要在你进行任何努力之前，在你身边进行数据交换。因此，在测试期间，安排展开并为每个时刻选择最佳决策。是否有特定的行业我知道……

在工厂和工业工作中工作，任何涉及机器人的工作，但你认为哪些特定行业可能会比其他行业更早地从世界模型中受益？是的，我认为自动驾驶汽车行业和人形机器人行业将从这些世界模型的发展中受益匪浅。他们可以模拟在现实世界中难以拥有的不同环境。

以确保代理有效地运行。对。所以我认为这是世界模型可以影响的两个非常令人兴奋的行业。英伟达显然拥有悠久的历史，正如你所说，这不仅仅是推出硬件。还有软件、堆栈、生态系统，所有支持开发人员的工作，因为如果

开发人员没有使用这些产品构建改变世界的产品，那么就会出现问题，对吧？关于世界基础模型的一些合作伙伴关系、生态系统？也许有一些合作伙伴已经在使用你可以谈论的技术做一些有趣的事情。是的。我们正在与几家类人机器人公司和销售驾驶汽车公司合作，包括 1X、Wabi、D'Auto、S10 和许多其他公司。对。所以，

所以，英伟达相信苦难。我们相信真正的伟大来自苦难。因此，与我们的合作伙伴合作，我们可以看看他们面临的挑战，体验他们的痛苦，并帮助我们构建一个真正对他们有益的角色模型平台。太棒了。是的。所以我认为这是让领域发展得更快的重要部分。绝对的。

好的。所以你谈到了能够预测未来，你刚才谈到了事情发展得更快。你对未来有什么看法？世界基础模型的下一步是什么？你认为未来五年或调整时间范围到任何有意义的时间范围，这将走向何方？所以我正在尝试成为一个世界模型，试图预测未来。没错。是的。是的。

是的。我相信我们仍然处于世界基础模型发展的初期阶段。该模型可以在某种程度上进行物理模拟，但不够好或不够强大。这是进行巨大变革的关键点。它很有用，但我们需要让它更有用。因此，人工智能领域发展非常迅速。所以从 GPT-3 到 CheGPT 只是……

对。是的，我们忘记了这一切进展如此之快。是的，进展太快了。我相信物理 AI 的发展也将非常迅速，因为大规模模型的基础设施已经建立起来。所以这种大密度模型转换，对吧？

而且迫切需要为干旱土壤、驾驶汽车、人形机器人提供物理辅助。而且还有很多投资。所以我们有伟大的基础，许多年轻的研究人员想要有所作为。我们也有很大的需求和投资。我认为这将是一个非常令人兴奋的领域，事情将发展得非常迅速。

我不想说它将在五年或十年内解决。所以我认为还有很长的路要走。更重要的是，我们还需要研究

如何最好地将这些角色模型集成到物理 AI 系统中，以便真正使它们受益。对。这是否仅仅是通过与实地的合作伙伴合作，将研究与应用相结合并进行迭代和学习来实现的？是的，我相信是这样。我相信苦难。所以我相信与我们的合作伙伴携手合作，了解他们的问题是取得进展的最佳方式。为了

对于那些希望了解更多关于我们正在讨论的任何方面的人，显然在 NVIDIA 网站上有一些资源，当然还有 Jensen 主题演讲和公告的报道。是否有特定的地方，也许是一个研究博客，也许是你自己的博客或社交媒体渠道，人们可以去了解更多关于 NVIDIA 与

世界模型以及你认为听众可能会感兴趣的其他任何方面的工作？是的。我们有一篇关于 Cosmos 世界模型的白皮书

完美的。我们欢迎您下载并阅读，并让我知道它是否对您有用，并让我知道您的反馈，我们将努力为下一个版本做得更好。优秀。刘明宇，和你交谈真是太荣幸了。我肯定对世界模型以及一些细节和应用有了更多的了解。

展望未来。所以感谢你。我相信观众也是如此。但是，正如你所说，你正在做的工作还处于早期阶段，而且变化如此之快。因此，我们将密切关注你正在进行的研究和应用，并祝你一切顺利。我期待再次与你联系，看看从这里开始事情将如何快速发展。谢谢。感谢你的邀请。这很有趣。我希望下次我可以分享更多，你知道，也许是角色模型的更高级版本。

绝对的。再次感谢你加入播客。谢谢。谢谢。

How World Foundation Models Will Advance Physical AI With NVIDIA’s Ming-Yu Liu - Episode 240 20:31 Share

The AI Podcast

Deep Dive

Shownotes Transcript

How World Foundation Models Will Advance Physical AI With NVIDIA’s Ming-Yu Liu - Episode 240