We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

NVIDIA’s Ming-Yu Liu on How World Foundation Models Will Advance Physical AI - Episode 240

2025/1/7

The AI Podcast

AI Deep Dive AI Insights AI Chapters Transcript

People

Mingyu Liu

Topics

Mingyu Liu: 世界基础模型是基于深度学习的时空视觉模拟器，能够模拟未来，预测人们的意图和活动，帮助我们做出更好的决策。它可以根据文本、图像、视频和动作提示生成虚拟世界，并针对不同的物理AI设置进行定制。世界模型与大型语言模型（LLM）不同，LLM专注于生成文本描述，而世界模型专注于生成模拟，最常见的形式是视频。世界基础模型对于物理AI开发者至关重要，因为物理AI系统与环境交互并可能造成实际损害。世界模型可以用于训练物理AI系统的验证，通过在模拟中测试不同的检查点，减少在真实环境中部署的风险和时间成本。它还可以预测未来，帮助理解实现目标所需的行动，从而改进策略模型的训练，并在决策前提供“数据交换”。目前世界模型的准确性评估仍处于早期阶段，需要考虑物理定律、物体持久性等多个方面。研究界需要制定合适的基准来推动该领域的发展。 NVIDIA Cosmos是一个面向开发者的世界模型开发平台，提供预训练的世界基础模型（基于扩散模型和自回归模型）、分词器和微调脚本等工具，旨在帮助物理AI开发者更容易地构建和使用世界模型。扩散模型生成质量更好，自回归模型速度更快，两者各有优缺点，适用于不同的需求。世界基础模型可以用于生成合成数据、评估策略以及在决策前提供“数据交换”，从而改进物理AI系统。自动驾驶汽车和人形机器人行业将从世界模型的发展中获益最多。NVIDIA与多家公司合作开发世界基础模型，通过与合作伙伴合作，了解他们的挑战，从而构建更有益于他们的世界模型平台。世界基础模型技术仍处于早期阶段，未来需要改进物理模拟的准确性和鲁棒性，并研究如何更好地将世界模型集成到物理AI系统中。 Noah Kravitz: 作为主持人，Noah Kravitz主要负责引导访谈，提出问题，并对Mingyu Liu的回答进行总结和引导，推动访谈的进行。他并没有提出自己的观点，而是通过提问来帮助听众更好地理解世界基础模型的概念、应用和未来发展。

Deep Dive

Key Insights

What is a World Foundation Model and how does it function?

A World Foundation Model is a deep learning-based space-time visual simulator that predicts future scenarios by simulating environments, human intentions, and activities. It acts as a data exchange for AI, enabling the generation of virtual worlds based on text, image, video, or action prompts. These models are customizable for different physical AI setups, such as varying camera configurations, to simulate and predict outcomes in real-world environments.

How does a World Foundation Model differ from a Large Language Model (LLM) or a generative AI video model?

A World Foundation Model differs from an LLM, which generates text descriptions, by focusing on simulating environments and generating videos. While video foundation models create videos for various use cases, World Foundation Models specifically generate simulations based on current observations and actor intentions, predicting future scenarios. They emphasize physics-based accuracy and object permanence in 3D environments.

Why are World Foundation Models important for physical AI development?

World Foundation Models are crucial for physical AI developers because they enable simulation-based training and verification of AI systems before real-world deployment. This reduces the risk of physical harm or damage caused by AI systems interacting with the environment. They also help in policy evaluation, synthetic data generation, and predicting future actions, making physical AI deployment safer and more efficient.

What are the key use cases for World Foundation Models in physical AI?

The key use cases include: 1) Simulating and verifying AI policies before real-world deployment to avoid damage, 2) Predicting future scenarios to guide AI actions, and 3) Serving as a policy initialization tool, reducing the amount of training data required. These models act as a 'data exchange' for decision-making, enabling AI systems to simulate outcomes and choose optimal actions.

What is NVIDIA Cosmos, and how does it support World Foundation Model development?

NVIDIA Cosmos is a developer-first platform for World Foundation Models, announced at CES. It includes pre-trained models (diffusion and autoregressive), tokenizers for video compression, post-training scripts for fine-tuning, and a video curation toolkit. The platform is open-weight, allowing developers to customize models for specific physical AI setups, such as self-driving cars or robotics, and accelerate development in the field.

What industries are expected to benefit most from World Foundation Models?

The self-driving car and humanoid robot industries are expected to benefit significantly from World Foundation Models. These models enable simulation of complex environments that are difficult to replicate in the real world, ensuring AI agents behave effectively. NVIDIA is already collaborating with companies like 1X, Wabi, D'Auto, and S10 to integrate these models into their systems.

What challenges remain in the development of World Foundation Models?

World Foundation Models are still in their infancy, with challenges in achieving robust and accurate physics-based simulations. Current models can simulate physics to some extent but lack the robustness needed for widespread application. The research community is working on establishing benchmarks to measure performance and improve the integration of these models into physical AI systems.

What is the difference between diffusion models and autoregressive models in World Foundation Models?

Autoregressive models predict tokens one at a time, making them faster due to optimizations like those in GPT. Diffusion models predict a set of tokens together, iteratively removing noise, which results in higher coherence and generation quality. Both are useful for physical AI: autoregressive models for speed and diffusion models for accuracy. NVIDIA Cosmos offers both to cater to different developer needs.

Shownotes Transcript

随着AI的快速发展，创建能够有效模拟和预测现实世界环境中结果的模型变得越来越重要。世界基础模型是能够模拟物理环境的强大神经网络，使团队能够增强AI工作流程和开发。NVIDIA副总裁兼IEEE Fellow Ming-Yu Liu加入了NVIDIA AI播客，讨论了世界基础模型及其对各个行业的影响。 https://blogs.nvidia.com/blog/world-foundation-models-advance-physical-ai/ https://www.nvidia.com/cosmos/</context> <raw_text>0 您好，欢迎收听NVIDIA AI播客。我是您的主持人Noah Kravitz。英伟达首席执行官黄仁勋最近在内华达州拉斯维加斯的

CES消费电子展上发表了主题演讲。在黄仁勋谈到的许多令人兴奋的公告中，就包括NVIDIA Cosmos。Cosmos是一个世界基础模型的开发平台，我认为在未来几个月和几年里，我们都会对此进行大量的讨论。什么是世界基础模型？好吧，

幸运的是，我们这里有一位专家来告诉我们所有关于它的信息。刘明宇是NVIDIA的研究副总裁。他也是IEEE Fellow，他在这里将向我们讲述世界基础模型，它们的工作原理，它们的含义以及为什么我们应该关注它们未来的发展。所以，事不宜迟，明宇，非常感谢你加入NVIDIA AI播客，欢迎。很高兴来到这里。那么，让我们从基础开始吧，如果你愿意的话。什么是世界基础模型？当然。

所以，世界基础模型是基于深度学习的时空视觉模拟器，可以帮助我们展望未来。它可以模拟访问，可以模拟人们的意图和活动。这就像AI的数据交换。想象一下许多不同的环境，并且可以模拟未来。因此，我们可以根据此模拟做出良好的决策。

我们可以利用世界基础模型的想象力和模拟能力来帮助训练物理AI代理。我们还可以利用这种能力来帮助代理在推理过程中做出良好的决策。您可以根据文本提示、图像提示、视频提示、动作提示以及图层的组合生成虚拟世界。我们称之为世界基础模型，因为它可以生成许多不同的世界。

而且因为它可以定制到不同的物理AI设置。- 对。- 成为一个定制的世界模型，对吧？不同的物理AI在不同位置有不同数量的摄像头。因此，我们希望世界基础模型可以针对不同的物理AI设置进行定制，以便它们可以在其设置中使用。- 所以我想问你世界模型与LLM和其他类型的模型有何相似或不同之处。

但我认为首先我想退一步问你，世界模型与生成视频的模型有何相似或不同之处？因为我的理解，请纠正我如果我错了，我的理解是你可以提示世界模型生成一个视频。

但是该视频是根据你刚才谈到的内容生成的，基于对物理世界中物理和其他事物的理解。这是一个不同的过程。所以我不知道如何最好地为听众解释它。但一个起点可能是，世界模型如何与LLM或生成式AI视频模型区分开来？所以……

世界模型与LN的不同之处在于LN专注于生成文本描述。它生成理解。而世界模型正在生成模拟。模拟最常见的形式是视频。所以它们正在生成像素。因此，世界模型和视频基础模型是相关的。

视频基础模型是一个生成视频的通用模型。它可以用于创意用例，也可以用于其他用例。在世界模型中，我们关注的是视频生成的这一方面。基于你目前的观察和你

世界中参与者的意图，你将未来展开。对。是的。所以它们是相关的，但重点不同。明白了。谢谢。那么，为什么我们需要世界模型呢？我的意思是，我认为我知道这个问题部分答案。我们正在谈论模拟物理AI和所有这些令人惊奇的事情。但是，你知道，从你的角度谈谈对世界基础模型的需求。

我认为世界基础模型对物理AI开发者很重要。你知道，物理AI是在现实世界中部署AI的系统

与数字AI不同，这些物理AI系统与环境互动并造成损害。所以这可能是真正的伤害。对。所以物理AI系统可能正在控制机械臂或其他一些设备，改变物理世界。是的，我认为物理AI有三个主要的用例。好的。

好的。它都是围绕模拟展开的。第一个是，当你训练一个物理AI系统时，你训练一个深度学习模型，你有一千个检查点。你知道你想部署哪个吗？对。对。如果你单独部署，你会非常耗时。所以，这很糟糕。它会损坏你的厨房。对。所以，

使用世界模型，你可以在模拟中进行验证。因此，你可以快速在许多不同的厨房中测试这个策略。然后……

你部署在真实的厨房里。在这些验证步骤之后，你可能会缩小到三个检查点，然后进行实际部署。你可以更容易地部署你的物理AI。这让我想起了我们之前关于药物发现的播客。

嘉宾们谈到了模拟实验和不同分子组合的能力，所有这些工作都可以让他们缩小到那些值得在实际物理实验室中尝试的实验。所以听起来，你知道，就像能够模拟一切并缩小范围一样，对开发者来说一定是一个巨大的优势，是的，第二个应用是……

你知道，角色模型，如果你能预测未来，你对基础知识有一定的了解。你可能知道所需的行动

来引导世界走向未来。策略模型，在物理AI中部署的典型模型是关于预测行动的，对，给定观察结果的行动。世界模型可以用作策略模型的初始化，然后你可以用更少的数据来训练策略模型，因为世界模型已经用许多不同的观察结果进行了预训练，这些观察结果来自数据资产。如果没有世界模型，

训练策略的程序是什么？所以一个程序是你收集数据。

然后你开始进行监督微调。对。然后你可能会使用。所以它是实践性的，是手动的。你必须获得所有数据。很多。是的。第三个是，当一个模型足够好，高度准确且快速时，你知道，在机器人采取任何行动之前，你只需模拟不同的特征。对。并检查你真正想要实现的目标并选择那个。

是的，就像在你做任何决定之前，我旁边有一个数据交换。它们会退化吗？你提到当模型足够快和足够准确时，准确性会下降。我不知道问这个问题是否公平。所以问吧，以最好的方式解释它。但是，例如，你如何确定世界模型的准确性？或者如何衡量世界模型的准确性？是否存在需要达到的基准才能在不同情况下部署？或者这是如何工作的？

是的，这是一个很好的问题。我认为角色模型的开发还处于起步阶段。对。所以人们仍在努力寻找衡量角色模型性能的正确方法。我认为角色模型必须具备几个方面。一个是遵循物理定律。当你扔球时，你应该预测它在正确的位置，基本上。

在物理日志上，对吧？而且在3D环境中，我们必须具有对象的持久性，对吧？所以对你来说，

转过身再回来，你知道，物体应该仍然在那里，对吧？如果没有其他参与者，它应该保持在相同的位置。我认为我们需要捕捉许多不同的方面。我认为研究界的一个重要部分是提出正确的基准，以便社区能够在正确的位置前进，以使这个重要领域民主化。对。

对。所以说到前进，也许我们可以谈谈，或者你可以谈谈Cosmos以及在CES上宣布的内容。所以

在CES上，黄仁勋宣布了Cosmos世界模型开发平台。这是一个以开发者为首的世界模型平台。所以在这个平台上，有几个组件。一个是预训练的世界基础模型。我们有两种世界基础模型。一种是基于扩散的。另一种是基于自回归的。

我们还为世界基础模型提供了标记器。标记器将视频压缩成标记，以便转换器可以将其用于其任务。除了这两点之外，我们还提供后训练脚本，以帮助物理AI构建者将其预训练模型微调到他们的物理AI设置。

有些汽车有八个摄像头，对吧？我们依靠我们的世界基础模型来预测八个视图。最后，我们还有这个视频策划工具包。所以处理视频，很多视频本身就是一个计算任务。有很多部分需要处理。并且媒体收集库已经准备好一起进行计算代码，想要帮助

世界模型开发者利用该库来读取数据。他们是想构建自己的角色模型，还是基于我们预训练的角色基础模型来微调一个模型。所以作为Cosmos一部分提供的模型，对开发者开放使用，对其他企业开放吗？是的。所以这是一个开放式权重开发平台。这意味着模型是开放权重的，模型权重在商业使用前发布。

我们认为这对物理教育构建者很重要。物理教育构建者需要解决大量问题才能构建真正有用的机器人、自动驾驶汽车。

为我们的社会服务。有很多问题，而角色模型就是其中之一。而这些公司可能没有资源或专业知识来构建角色模型。英伟达关心我们的开发者，我们知道他们中的许多人都在努力对

物理AI产生巨大影响。所以我们想帮助他们。这就是我们为他们创建这个角色模型开发平台的原因，以便他们可以处理其他问题，我们可以为我们社会的转型贡献我们的艺术。绝对的。我想问你，你能解释一下扩散模型和自回归模型之间的区别吗，尤其是在这种情况下？为什么同时提供两者？用例和观点是什么

优缺点。所以，自回归模型或AR模型是一个一次预测一个标记的模型，以已经观察到的内容为条件。所以，GPT可能是最流行的自回归模型，一次预测一个标记。另一方面，扩散模型是一个同时预测一组标记的模型。

并迭代地从这些初始标记中去除噪声。区别在于，对于AR模型，在GBT的大量投资下，有很多优化，所以它们可以运行得非常快。而Deep Fusion，因为标记是一起生成的，所以更容易拥有连贯的标记。生成质量往往更好。

两者对物理AI构建者都有用。所以有些人需要速度，有些人需要高精度。所以两者都很好。优秀。到目前为止，最成功的自回归模型是基于离散标记预测的，就像在GBT中一样。

所以你几乎是一组整数、标记，你在训练过程中产生它们。在世界基础模型的情况下，这意味着你必须将视频组织成一组整数。你可以想象这是一个具有挑战性的压缩任务。由于这种压缩，自回归模型往往在精度方面更难以处理，但它还有其他好处。例如，

它的设置更容易集成到物理AI设置中。明白了。

我正在与刘明宇交谈。明宇是NVIDIA的研究副总裁，他一直在向我们介绍世界基础模型，包括在黄仁勋的CES主题演讲中宣布的NVIDIA Cosmos，这是一个世界模型的开发者平台。我们一直在谈论，你一直在解释什么是世界模型，它与其他类型的AI模型有何相似和不同之处，刚才自回归和扩散之间的区别。

让我们稍微改变一下话题，谈谈应用。Cosmos，我们的世界基础模型将如何影响各个行业？是的，我们相信……

首先，世界基础模型可以用作合成数据生成引擎来生成不同的合成数据。就像我之前说的那样，世界模型也可以用作策略评估工具，以确定哪个检查点或哪个策略是

一个更好的候选者，让你在物理世界中进行测试。对。而且，如果你能预测未来，你可能可以重新配置它来预测通向那个未来的行动。所以这是一个策略返回初始化。对，对。还要在你进行任何努力之前，在你身边进行数据交换。所以在测试时间，调度展开并为每一刻选择最佳决策。是否有特定的行业我知道……

在工厂和工业工作中工作，任何涉及机器人的工作，但你认为哪些特定行业可能会比其他行业更早地从世界模型中受益？是的，我认为自动驾驶汽车行业和人形机器人行业将从这些世界模型的发展中受益匪浅。他们可以模拟在现实世界中难以实现的不同环境。

以确保代理有效地运行。对。所以我认为这是世界模型可以影响的两个非常令人兴奋的行业。英伟达显然拥有悠久的历史，正如你所说，这不仅仅是推出硬件。还有软件、堆栈、生态系统，所有支持开发者的工作，因为如果

开发者没有用这些产品构建改变世界的产品，那么就会出现问题，对吧？关于世界基础模型的一些合作伙伴关系、生态系统？也许有一些合作伙伴已经在用你谈到的技术做一些有趣的事情。是的。我们正在与几家类人机器人公司和自动驾驶汽车公司合作，包括1X、Wabi、D'Auto、S10等等。对。所以，

所以，英伟达相信苦难。我们相信真正的伟大来自苦难。因此，与我们的合作伙伴合作，我们可以看看他们面临的挑战，体验他们的痛苦，并帮助我们构建一个真正对他们有益的角色模型平台。太棒了。是的。所以，我认为这是让领域发展更快的重要部分。绝对的。

好的。所以你谈到了能够预测未来，你刚才谈到了事情发展得更快。你对未来有什么看法？世界基础模型的下一步是什么？你认为未来五年或调整时间范围到任何有意义的时间范围，这将走向何方？所以我现在正在尝试成为一个世界模型，试图预测未来。没错。是的。是的。

是的。我相信我们仍然处于世界基础模型开发的初期阶段。该模型可以在某种程度上进行物理模拟，但不够好或不够强大。这是进行巨大变革的关键点。它很有用，但我们需要让它更有用。所以AI领域发展得非常快。所以从GPT-3到CheGPT只是……

对。是的，我们忘记了这一切进展如此之快。是的，进展太快了。我相信物理AI的发展也会非常快，因为大规模模型的基础设施已经建立起来。所以这种大密度模型转换，对吧？

而且迫切需要对干旱土壤、驾驶汽车、类人机器人提供物理辅助。而且也有很多投资。所以我们有伟大的基础，许多年轻的研究人员想要有所作为。我们也有很大的需求和投资。我认为这将是一个非常令人兴奋的领域，事情将会发展得非常快。

我不想说它会在五年或十年内解决。所以我认为还有很长的路要走。更重要的是，我们还需要研究

如何最好地将这些角色模型集成到物理AI系统中，以便真正使它们受益。对。这是否仅仅是通过与领域的合作伙伴合作，将研究与应用相结合，并进行迭代和学习来实现的？是的，我相信是这样。我相信苦难。所以我相信与我们的合作伙伴携手合作，了解他们的问题是取得进展的最佳方式。为了

对于那些想了解更多关于我们正在讨论的任何方面的人，显然在NVIDIA网站上有资源，当然还有对黄仁勋主题演讲和公告的报道。是否有具体的地方，也许是一个研究博客，也许是你自己的博客或社交媒体渠道，人们可以去了解更多关于NVIDIA在

世界模型方面的工作以及你认为听众可能会感兴趣的其他任何内容？是的。我们有一篇关于Cosmos世界模型的白皮书

完美。我们欢迎您下载并阅读，并让我知道它是否对您有用，并让我知道您的反馈，我们将努力在下一次做得更好。优秀。明宇，和你交谈真是太荣幸了。我确实对世界模型以及一些细节和应用有了更多的了解。

展望未来。所以感谢你。我相信观众也是如此。但是，正如你所说，你正在做的工作，它还处于早期阶段，而且变化如此之快。所以我们都会密切关注你正在进行的研究和应用，并祝你一切顺利。我期待再次与你联系，看看从这里开始事情将如何快速发展。谢谢。谢谢你的邀请。很有趣。我希望下次我可以分享更多，你知道，也许是角色模型的更高级版本。

绝对的。再次感谢你加入播客。谢谢。谢谢。

NVIDIA’s Ming-Yu Liu on How World Foundation Models Will Advance Physical AI - Episode 240 20:31 Share