We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Fei-Fei Li: World Models and the Multiverse

2025/6/4

a16z Podcast

AI Deep Dive AI Chapters Transcript

People

Erik Torenberg

Fei-Fei Li

Martin Casado

总合伙人，专注于人工智能投资和推动行业发展。

Topics

Fei-Fei Li: 我认为，空间智能是超越语言的关键智能组成部分。语言只是对现实世界的一种有损编码，而真正的智能需要理解和操纵3D空间。我们现在所缺少的，正是一个能够理解和模拟真实世界的世界模型。这个模型不仅能用于机器人，还能激发创造力，甚至创造出无限的虚拟宇宙，让我们以多元宇宙的方式生活。 Martin Casado: 我认为，语言在传达复杂现实方面存在局限性。当我们试图在实际世界中导航时，我们更多地依赖于我们对世界的直接感知和重建能力。空间智能对于机器人、视频游戏、艺术和设计等领域至关重要。世界模型能够从2D视图创建完整的3D表示，并允许我们操纵、移动和测量3D世界中的物体。 Erik Torenberg: 如今的AI对话主要集中在语言上，但我们可能忽略了更基础的东西：空间。空间智能对于AI的发展至关重要。

Deep Dive

Chapters

This chapter explores the concept of spatial intelligence, a fundamental aspect of intelligence often overlooked in today's AI landscape. It highlights the limitations of language-based AI models (LLMs) and the need for AI systems that can understand and reason about the 3D physical world. The discussion involves the importance of world models and how they can reshape the future of AI.

Spatial intelligence is a critical part of overall intelligence, going beyond language capabilities.
Current AI conversation is dominated by language models (LLMs), but spatial understanding is missing.
World models are AI systems that perceive and act in 3D space.
Fei-Fei Li and Martin Casado independently recognized the importance of world models before it became mainstream.

Shownotes Transcript

那个空间，三维空间，外面的空间，你脑海中的空间，这种空间智能让人们能够做到许多语言无法表达的事情，是智力的一个关键部分。Vivian 凑到我身边，她说：“你知道我们错过了什么吗？”我说：“我们错过了什么？”她说：“我们错过了世界模型。”我说：“是的！”

我们实际上可以创造无限的宇宙。有些是为机器人准备的，有些是为创造力准备的，有些是为社交准备的，有些是为旅行准备的，有些是为讲故事准备的。它突然会让我们能够以一种多元宇宙的方式生活。想象力是无限的。

当我们今天谈论人工智能时，谈话主要集中在语言、大型语言模型、标记和提示上。但如果我们忽略了一些更基本的东西呢？不是文字，而是空间，我们穿行和塑造的物理世界。我今天的嘉宾认为我们确实忽略了。Fei-Fei Li 是现代人工智能的先驱，她通过将数据置于机器学习的核心地位，帮助开启了深度学习时代。现在，她是 World Labs 的联合创始人兼首席执行官，正在构建世界模型，即能够感知和作用于三维空间的人工智能系统。

她与 A16Z 普通合伙人 Marcin Casado（计算机科学家、REPE 创始人）一起参加了此次访谈，Fei-Fei 在组建公司时最先联系的人之一。今天，他们解释了为什么空间智能是通用智能的核心，以及为什么现在是超越语言的时候了。让我们开始吧。

提醒一下，此处的內容仅供参考。不应将其视为法律、商业、税务或投资建议，也不应将其用于评估任何投资或证券，并且不针对任何 A16Z 基金的投资者或潜在投资者。请注意，A16Z 及其关联公司也可能持有本播客中讨论的公司投资。有关更多详细信息，包括我们投资的链接，请访问 a16z.com/disclosures。

Feifei，非常感谢你今天加入我们。Martine，你能不能简单地为 Feifei 吹嘘一下，并为不熟悉她的人总结一下她对人工智能的贡献？是的，她不需要太多的介绍，她做了很多事情，我无法一一列举。所以我可能只会提到与这次访谈相关的那些。当然，她是 Twitter 董事会成员，也是 Google 的高管。

World Labs 的创始人兼首席执行官。但非常重要的是，我们都知道人工智能，我们都谈论神经网络，并且有许多人专注于提高神经网络的效率。但 Fei-Fei 真正地将数据引入了等式，我们现在认识到这实际上可能是更大的问题，也是更有趣的问题。所以，正如每个人称呼她那样，她确实是人工智能的教母。

Fei-Fei，你为什么一定要让 Martin 成为第一个投资者？首先，我认识 Martin 十多年了。2009 年，我作为一名年轻的助理教授加入斯坦福大学，而 Martin 当时正在那里完成他的博士学位。所以我一直都知道，当然，Martin 的导师 Nick McKeown 也是我的好朋友。我一直都知道 Martin 会成为一个非常成功的企业家和非常成功的投资者。所以我们会见面，我们会谈论事情。

但是当我制定 World Labs 的想法时，我正在寻找我所谓的“独角兽投资者”。我不知道这是否是一个词，但这就是我思考这个问题的方式。他不仅是一位非常成熟和成功的投资者，能够陪伴企业家度过这段旅程中的起起伏伏。

他能够非常有见地，能够带来知识、建议和资源。但我尤其在寻找一位思想伙伴。因为我们在 World Labs 做的事情是深度科技。我们正在尝试做一些其他人从未做过的事情。我们非常确信，这将从根本上改变世界。但我需要一位计算机科学家

一位人工智能的学生，了解产品、市场、客户、市场营销，并且能够每天每时每刻作为思想伙伴与我通电话或见面。我们就是这样做的。我们几乎每分钟都在交流。

这是真的。太棒了。我们第一次联系的起源故事实际上非常有趣。所以 Fefi 很明显已经考虑这个想法很长时间了，比它开始的时候还要早。所以甚至可能是几年。她对人工智能为了基本导航世界而需要什么有着非常深刻的直觉，对吧？是的。

但我们在马克的豪华午餐会上，有一群人工智能人士，每个人都对大型语言模型感到非常兴奋，对吧？它在谈论语言。我得出了一个独立的结论，仅仅是因为我实际上做了很多图像投资，那就是这并不是故事的结尾。所以如果他们在桌子尽头，所有这些人都在谈论它，如果他向我倾斜，她说：“你知道我们错过了什么吗？”我说：“我们错过了什么？”她说：“语言。

我们缺少一个世界模型。”我说：“是的！”然后它就到位了，因为我一直都在高层次思考这些事情，但正如她所做的那样，她只是完美地表达了这一点。所以她花了一年的时间思考这个问题，并与人们交谈等等。所以在某种程度上，我们以我们自己曲折的道路到达了非常相似的直觉。她的想法更加完善。我的只是一个花哨的东西。但之后，我们实际上进行了一些对话，我们都同意我们在这个想法上是一致的。实际上，我不知道你是否知道这一点，但是

当然，在午餐期间，我们在世界模型理念上取得了共鸣。但那时我已经在与各种人交谈，不仅是计算机科学家、技术人员，还有投资者、潜在的商业伙伴，

老实说，大多数人都不明白。你知道，当我提到世界模型时，他们会点头，但我可以看出那只是礼貌的点头。所以我打电话给 Martin。我说：“你介意来斯坦福大学喝杯咖啡吗？”然后 Martin 一坐下，我就说：“Martin，你能为我定义一下你的世界模型吗？”

我真的很想听听 Martin 是否真的明白，他关于真正理解三维结构、形状和

世界构成的人工智能模型的定义，正是我所说的。我说：“哇，他是我迄今为止谈过的唯一一个真正明白的人。这不仅仅是点头。”哇。好的，我们将讨论 World Labs 和这方面的细节。但首先，我想带你们回到你们的博士时代、教授时代，并反思……

如果你能回到过去，并了解人工智能过去 10 年发生的事情，你认为最大的惊喜是什么？或者是什么你没有预料到的事情会震惊你年轻时的自己？或者你对这个领域的发展方向有很好的感觉吗？是的，这具有讽刺意味，因为正如 Martin 所说，我是将数据引入人工智能领域的人，但我仍然继续对

不是智力上的惊讶，而是情感上的惊讶，即渴望数据的模型、数据驱动的人工智能能够发展到如此程度，并真正具有令人难以置信的思维机器涌现行为，对吧？是的。让我们深入了解具体内容。为什么还要启动另一家基础模型公司？大型语言模型还不够吗？

我的智力旅程不是关于公司或论文的。它是关于寻找北极星问题的。所以这不像我醒来就说，我必须开一家公司。在过去的几年里，我每天醒来，日复一日地思考，语言之外还有很多东西。语言是事物的一种极其强大的编码方式。

思想和信息，但它实际上并不是对所有动物和生物生存的三维物理世界的强大编码。如果你观察人类的智力，那么很多东西都超出了语言的范畴。语言是一种有损的方式来捕捉世界。语言的一个微妙之处是纯粹的生成性。语言不存在。

在自然界中。我们环顾四周，没有课程表或文字。而

整个物理的、感知的、视觉的世界都在那里。动物的整个进化史都是建立在如此多的感知和最终的具体智能之上的。人类，我们不仅生存、生活、工作，而且我们还在语言之外，通过构建世界和改变世界来建设文明。所以这就是我想解决的问题。为了解决这个问题，

显然，研究很重要，我作为一名学者花了数年时间进行研究。这仍然很有趣，但我确实意识到，尤其是在与 Martin 交谈之后，现在是时候集中进行工业级努力、集中努力，在计算数据方面的人才方面是

确实是将此付诸实践的答案。这就是为什么我想启动 World Labs 的原因。太棒了。Eric，你可以做一个非常简单的思想实验，来突出语言和空间之间的区别。

所以如果我把你在一个房间里，蒙上你的眼睛，然后我描述一下这个房间，然后我让你完成一项任务，你能够完成它的几率非常小。我说：“哦，你前面 10 英尺的地方有一个警察。”我说：“你知道，这只是，这是一种非常不准确地传达现实的方式，因为现实是如此复杂，而且如此精确，对吧？另一方面，如果我摘下眼罩……

你可以看到实际的空间，对吧？你的大脑实际上正在重建三维空间，对吧？然后你就可以去操作东西，触摸东西了，对吧？所以一种思考方式是，我们做了很多语言处理，我们用它来交流和表达高级思想等等。但是当涉及到导航实际世界时，我们真的非常依赖世界本身以及我们重建世界的能力。你是什么时候意识到语言可能已经足够了呢？因为它似乎并不广为人知。我并没有经常听到这个说法。

好吧，如果你问我，什么是这个令人惊讶的突破？语言首先出现是因为我们在机器人技术上付出了巨大的努力，对吧？我的意思是，我觉得即使是将自动驾驶汽车作为一个行业来看，我们也已经投资了

1000 亿美元。我记得 Sebastian Thrun 在 2006 年赢得了 DARPA 大挑战赛。我们说：“万岁，自动驾驶汽车完成了”，对吧？然后 20 年后，我们终于到了，投资了 1000 亿美元等等。这是一个二维问题。所以我们正在走的道路是，你是否真的解决了世界导航问题？它比大型语言模型突然出现更难，而且它们

它们的单位经济效益是正面的。它们基本上立即解决了所有这些语言问题。所以，

实际上，Fei-Fei 在我们早期交谈时非常漂亮地表达了这一点，那就是我们大脑中处理语言的部分实际上是相当新的。所以我们实际上效率很低，对吧？所以计算机做得更好并不令人惊讶。但是大脑中实际进行导航的部分，你知道，空间部分已经存在了很长时间，它是一百万个大脑。也许爬行动物的大脑已经存在了四百万年。甚至更久。它是三叶虫的大脑。

是的，是的，对。我们谈论过心碎。对。五亿年。是的。所以这就像我们正在展开进化一样，对吧？所以语言部分对于高级概念和笔记本电脑类工作非常非常重要，这就是它目前正在影响的东西。但是当涉及到空间时，从机器人技术到任何你试图构建物理事物的地方，你都必须解决这个问题。然后我们从自动驾驶汽车中知道这是一个非常棘手的问题。

然后也许这是值得讨论的。大型语言模型浪潮让我们了解了如何去做。所以感觉时机到了。我的旅程非常不同，因为我一直都是视觉的，对吧？所以我觉得

我不需要大型语言模型来让我相信大型语言模型很重要。我想说的是，我们不是在这里贬低语言。我非常兴奋。事实上，看到 ChatGPT、大型语言模型和这些基础模型取得如此突破性的成功，激励我们意识到世界模型的时刻已经临近。但 Martin 说得非常漂亮。那就是

空间，三维空间，外面的空间，你脑海中的空间，这种空间智能让人们能够做到许多语言无法表达的事情，是智力的一个关键部分。它从古代进化而来

动物，一直到人类最具创新性的发现，例如 DNA 的结构，对吧？三维空间中的双螺旋结构。你不可能只用语言来推断出来。这只是一个例子。我最喜欢的科学例子之一是巴基球，碳分子结构如此

精美地构建。这种例子表明空间和三维世界是多么深刻。让我们描绘更生动的画面。当 World Labs 实现其愿景或语言模型实现其愿景时，我们可以向观众展示哪些应用程序或用例来使其具体化？是的，有很多，对吧？例如，创造力非常直观。我们有从设计到电影到建筑到工程的创作者

工业设计和创造力不仅仅是为了娱乐。它可以用于生产力、机械以及许多其他方面。这本身就是一个高度视觉化、感知化、空间化的工作领域或领域。当然，我们提到了机器人技术。

对我来说，机器人技术是任何具体化的机器。它不仅仅是人形机器人或汽车。中间还有很多东西，但所有这些都必须以某种方式弄清楚它所处的三维空间，必须经过训练才能理解三维空间，并且必须做一些事情，有时甚至与人类合作。这需要空间智能。当然，我认为对我来说非常令人兴奋的一点是

对于整个人类文明来说，我们所有人作为一个整体生活在一个三维世界中，那就是物理地球三维世界。我们中的一些人去了月球，但你知道，人数很少。但这是一个世界。

但这正是数字虚拟世界令人难以置信的原因。凭借这项技术，我们应该谈谈这项技术，它是生成和重建的结合。我们实际上可以创造无限的宇宙。有些是为机器人准备的，有些是为创造力准备的，有些是为社交准备的，有些是为旅行准备的，有些是为讲故事准备的。它突然会让我们能够以一种多元宇宙的方式生活。想象力是无限的。

我认为这非常重要，因为这些对话听起来很抽象，但实际上并非如此。但它们听起来很抽象的原因是，它确实是水平的，就像大型语言模型一样，对吧？所以如果你说大型语言模型擅长什么？我们用于情感对话的同一个大型语言模型。我们用它来编写代码。我们用它来做清单。我们用它来进行自我实现，对吧？

所以我认为我们可以对这些模型的作用变得相当具体，对吧？所以让我试一试，当然，Feifei 是专家。所以有了这些模型，你可以看到世界的景象，比如世界的二维景象，然后你实际上可以创建一个三维完整表示，包括你没有看到的景象，比如桌子的背面，例如在计算机中。

所以，只给出一个二维视图，你就有完整的东西了。然后你问，好吧，你能用它做什么呢，例如？好吧，你可以操纵它，你可以移动它，你可以测量它，你可以堆叠它。所以任何你在空间中可以做的事情，你都可以做，对吧？我的意思是，你可以做建筑，你可以做设计。

但事实证明，填补桌子背面意味着你可以填补从未存在过的东西，对吧？所以假设我只有一个二维图片。我可以创建所有东西的 360 度视图，对吧？所以现在你有了完全生成的。那么这意味着什么呢？这意味着电子游戏，这意味着创造力。所以这是一个超级水平的部分，它基本上采用一台拥有世界单一视图或世界多个视图的计算机，并创建一个完整的 3D 表示，然后计算机可以对其进行操作。所以你可以看到这是一个非常非常

具体而关键的东西，从机器人技术到电子游戏到艺术和设计，无所不包。是的。似乎我们直到现在才完全欣赏三维组件。这么说公平吗？这么说公平。事实上，我认为

进化花了很长时间。三维不是一个容易的问题，但我总是回到几年前我和我六岁的孩子谈论为什么树木没有眼睛。根本原因是树木不会移动。它们不需要眼睛。所以事实上，整个人口

动物生命的基石是移动、做事和互动，赋予感知和空间智能以生命。反过来，空间智能将像 Martin 所说那样，从水平方向上彻底改造人类正在进行的许多工作和生活方式。是的，令人着迷。但这绝对值得提出一个问题，为什么你不能只使用二维视频来实现这一点呢，对吧？三维对于这一点来说非常非常重要。

Vivi，你建议让我们更深入地了解这项技术。我们可以分享更多关于它如何工作的信息，或者有什么突破，或者什么值得评论的技术？正如 Martine 指出，它需要是三维的吗？或者为什么你不能只使用二维呢？我认为你可以使用二维做很多事情。但事实是，二维不会让你走得太远。事实上……

今天的多模态大型语言模型已经在机器人学习领域产生了巨大的影响，帮助指导你了解下一步，了解世界的状态。但从根本上说，物理发生在三维空间中，互动发生在三维空间中。在桌子的后面导航需要发生在三维空间中。构成世界，无论是物理的还是数字的，都需要发生在三维空间中。所以

从根本上说，这个问题是一个三维问题。一种思考方式是，如果是一个人正在观看，比如说，一个二维视频，这个人可以在他们的脑海中重建三维空间，对吧？

但是假设我有一个机器人，它拥有模型的输出。如果那是二维的，然后你让机器人去做，我不知道，距离测量或抓取某些东西，那么信息就会丢失。你得到了 XYZ 平面。Z 平面根本不存在，对吧？所以对于许多空间性的东西，你需要向计算机提供这些信息，这样你才能在三维空间中进行导航。

所以二维视频对于人类来说是很棒的，因为我们已经可以将其转换成三维。但是对于任何计算机程序来说，它都需要是三维的。实际上，我想告诉你一个个人故事。大约五年前，具有讽刺意味的是，由于我角膜受伤，我的立体视觉丧失了几个月。

这意味着我实际上是用一只眼睛看的。正如 Martin 所说，我的一生都接受了立体视觉的训练。所以即使我用一只眼睛看，我也知道三维世界是什么样的。但对于我来说，作为一个计算机视觉科学家来说，这是一个迷人的时期，可以进行实验。

世界是什么样的。一件真正让我印象深刻的事情是，我害怕开车。哇。首先，我无法上高速公路。那个速度，我不能，你知道。但我只是在我自己的社区开车，我意识到我没有很好地衡量我的车和停在我家附近小路上的车之间的距离。

即使我非常了解我的车有多大，邻居的车有多大，停着的车有多大。我认识这些路很多年了。但是在那里开车，我必须非常慢，大约每小时 10 英里，这样我才不会刮坏汽车。这正是我们需要立体视觉的原因。

这实际上很好地解释了为什么如果你正在进行一些处理，三维实际上是关键，对吧？是的。所以我并不推荐这样做，但如果你在那里，用一只眼睛停好你的车一，然后开你的车二。那是你自己的车。在技术方面，对于大型语言模型，很多研究都是在大型公司进行的。这里研究的现状如何？这绝对是一个……

与大型语言模型相比，这是一个更新的研究领域。说它完全是新的并不完全公平，因为在计算机视觉领域，我们一直在做一些零散的工作。例如，三维计算机视觉中发生的一次重要革命是神经辐射场或 NERF。这是由我们的联合创始人 Ben Mildenhall 和他在伯克利的同事完成的。这是一个

大约四年前，使用深度学习进行三维重建的方法真正席卷了世界。我们还有一位联合创始人 Christoph Lassner，他的开创性工作是高斯散点表示开始再次流行的部分原因，作为一种表示体积三维空间的方法。当然，Justin Johnson，我的前学生，也是 World Labs 的联合创始人，

是第一代深度学习计算机视觉学生中的佼佼者，他们在 Transformer 出现之前就做了很多基础工作，我们使用 GAN 来进行图像生成，然后是风格迁移，这真正普及了一些生成

我们在这里所做工作的组件或成分。所以事情正在学术界发生，事情正在工业界发生。但我同意，现在令人兴奋的是

在 WorldLab，我们只是坚信我们将全力以赴地解决这个独特的重大北极星问题，专注于世界上最聪明的人才，包括计算机视觉、扩散模型、计算机图形学、优化、人工智能和数据。所有这些都汇聚到一个团队中，试图让这一切发挥作用并将其产品化。

我会说，从局外人的角度来看，我不是这些领域的专家，但感觉要解决这个问题，你需要同时在人工智能方面的专家，这就像数据和模型，就像实际的模型架构和图形一样，就像你如何在计算机的内存中以及屏幕上实际表示这些东西一样？所以这是一个非常特殊的团队，实际上能够解决这个问题，Fei-Fei 成功地组建了这个团队。好吧，这是一个鼓舞人心的结束语。Fei-Fei，非常感谢你加入我们。谢谢。谢谢，Eric。

感谢收听 A16Z 播客。如果您喜欢本集，请在 ratethispodcast.com/A16Z 留下评论。我们还有更多精彩的对话即将到来。下次再见。

Fei-Fei Li: World Models and the Multiverse 22:56 Share

a16z Podcast

Deep Dive

Shownotes Transcript

Fei-Fei Li: World Models and the Multiverse