这从根本上来说,在哲学上是一个不同的问题。
过去十年主要集中在理解已经存在的数据,但未来十年将集中在理解新数据。
视觉空间智能。这和语言一样基础,就像……不可或缺。
圣诞节的惊喜。但每天,你都知道会有令人惊叹的新发现,一些令人惊叹的新应用或算法出现。
如果我们看到某些东西,或者我们想象某些东西,两者都可以融合起来生成它。我认为我们正处于一场巨大的爆炸之中。
对许多人来说,过去两年的人工智能感觉像一场闪电战,创造并发布了无数的预训练模型,能够用自然语言生成图像,甚至翻译视频只需点击一下按钮。
但对一些人来说,比如李飞飞博士,我经常称她为“人工智能之母”,斯坦福大学计算机科学的长期教授(顺便说一句,她教过一些非常著名的研究人员,比如Andrej Karpathy),人们认为人工智能已经存在于一个持续数十年的连续体中。而这个连续体注定要进入物理空间世界。至少李飞飞和她新公司World Labs的联合创始人相信是这样。
这四位创始人以多种方式开创了生态系统,从ImageNet到Justin Johnson在Seam Graphs上的工作,再到Mellon在神经网络上的工作,甚至Christopher在预训练和对比学习上的工作。在本集中,你将听到Fei-Fei和Justin的讲述。当他们与a16z的普通合伙人一起探讨这一演变时,他们将从早期阶段到最近消费级AI应用的爆炸式增长,以及沿途的关键分水岭时刻。当然,我们将深入探讨World Labs背后的理念,以及他们选择专注于空间智能以及在这一前沿领域构建所需的一切,从算法到硬件。好了,让我们开始吧。
提醒一下,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且并非针对a16z基金的任何投资者或潜在投资者。请注意,a16z及其关联公司可能会在讨论的公司中持有投资。有关更多详细信息,包括我们投资的链接,请访问a16z.com/disclosures。
在过去两年中,我们看到了大量涌现的消费级AI公司和技术,发展势头迅猛。但你们已经做了几十年了。所以也许可以谈谈我们是如何走到今天的,以及你们在此过程中做出的主要贡献和见解。
这是一个非常激动人心的时刻,对吧?人工智能正处于一个非常激动人心的时刻。我个人已经做了二十多年了,我们已经走出了上一个AI寒冬。
我们见证了现代人工智能的诞生。然后我们看到了深度学习的兴起,它向我们展示了诸如玩国际象棋之类的可能性。但随后我们开始看到技术的深化以及一些早期可能性(如语言模型)的行业采用。
现在我认为我们正处于一场爆炸的中心,几乎是字面意义上的,因为现在除了文本,你还可以看到像素、视频、音频都具有可能的人工智能应用和模型。所以这是一个非常激动人心的时刻。我知道你们两位……
……非常出色,许多人都认识你们两位,因为你们在这个领域非常突出,但并非每个人都认识。所以也许值得回顾一下你们的背景,让听众了解一下。
是的,当然。我是在本科快结束的时候开始接触人工智能的。我本科学习的是数学和计算机科学。课程很棒。
但在快结束的时候,出现了一篇当时非常著名的论文,来自Hinton、LeCun和其他人(当时在谷歌大脑)的“猫”论文。那是我第一次接触深度学习这个概念。对我来说,这感觉就像一项令人惊叹的技术。
那是我第一次接触到这个配方,它将定义我未来十多年的生活,那就是你可以得到这些功能强大的学习算法,它们是可扩展的。将它们与大量的计算能力结合起来,将它们与大量的数据结合起来。
当你复制这些成分时,神奇的事情就开始发生了。我第一次接触到这个想法是在2011年和2012年左右,我只是想,哦,我的天哪,这将是我想做的事情。很明显,我必须去读研究生才能做这些事情,然后我看到李飞飞在斯坦福大学,当时世界上为数不多的几个人在这个领域。
那真是深度学习和计算机视觉的黄金时代,因为这确实是这项技术从最初的原型阶段开始发挥作用并广泛应用于各种应用的时代。所以在那段时间里,我们看到了语言模型的开始。我们看到了判别式计算机视觉的开始,你可以拍摄照片并以多种不同的方式理解其中的内容。
我们还看到了一些现在我们称之为生成式建模的早期迹象,生成图像,生成文本。许多这些算法的微小部分实际上是由学术界解决的。在我博士学习期间,有一段时间我每天早上醒来都会查看arXiv上的论文,就像期待圣诞节的礼物一样。
你知道,世界上某个地方一定会有令人惊叹的新发现、令人惊叹的新应用或算法。在接下来的几年里,世界上其他人都意识到了使用人工智能的可能性。所以每天都有新的圣诞礼物。但我认为,对于那些在这个领域工作十年或更长时间的人来说,我们已经有了很长时间的这种体验。
我从不同的角度接触人工智能,那就是从物理学,因为我的本科背景是物理学。但物理学是一种教你思考基本问题的学科,思考世界上仍然存在的未解之谜,当然,在物理学中,原子世界、宇宙等等。
但不知何故,这种批判性思维的训练让我对真正激发我想象力的基本问题产生了兴趣,那就是智能。所以我博士期间在加州理工学院学习人工智能和计算神经科学,所以我们实际上并没有重叠。但我们有相同的……
……导师。
是的,同一个导师。你的本科导师,我的博士导师,Pietro Perona。我的博士期间……
……我的博士期间,人工智能在公众眼中仍然处于寒冬,但在我的眼中却并非如此,因为那是一个充满生机的春天。机器学习、统计建模正在真正获得力量。
我认为我属于机器学习的原生一代。而你们这一代是深度学习的原生一代。所以机器学习是深度学习的前身。
我们尝试了各种模型。但有一件事在我的博士生涯结束时……
……以及我助理教授生涯的开始时出现,那就是人工智能中一个被忽视的因素,它在数学上对于推动泛化非常重要。但整个领域并没有这样思考。而我之所以这样说,是因为我们当时正在考虑贝叶斯模型或核方法等等的复杂性。
但我的学生和我的实验室比大多数人更早地意识到一个根本性的问题,那就是如果你让数据驱动模型,你可以释放出前所未有的力量。这正是我们对ImageNet进行大规模押注的原因,你知道,忘记我们现在看到的规模吧,当时只有数千个数据点。NLP社区有自己的数据集。
我记得你看到一个Vine数据集或NLP中的一些数据集,它很小。计算机视觉社区有数据集,但所有数量级都在数千或数万的数量级,我们想达到互联网规模。幸运的是,互联网的兴起也恰逢其时。所以我们赶上了这波浪潮。那是我来到斯坦福大学的时候。
所以这些突破点是我们经常谈论的ImageNet,它显然是使计算机视觉在基因组学中流行和可行的突破点。我们谈论两种核心突破。一个是Transformer架构,即注意力机制,以及表征融合。
这是思考这个问题的一种公平的方式吗?即有两个算法突破点来自学术界,谷歌,一切都是从那里来的?还是更刻意?或者还有其他一些我们没有过多谈论的重大突破将我们带到这里?
我认为更大的突破是计算能力。
我知道人工智能的故事也是计算能力的故事,但无论人们谈论多少,我认为人们都低估了,对吧?在过去十年中,我们看到的计算能力的增长速度是惊人的。第一篇真正被认为是深度学习计算机视觉突破性时刻的论文是AlexNet,这是一篇2012年的论文,其中一个深度神经网络在ImageNet挑战赛中表现非常出色,并且远远超过了所有其他算法。他们之前一直在研究的那些算法,他们在研究生院一直在研究的那些方法,AlexNet是一个拥有6000万参数的深度神经网络。
它在两块GTX 580上训练了六天,这是当时最好的消费级显卡,于2010年发布。所以昨晚我查看了一些数据,以便更好地理解这一点。最新的顶级显卡是A100。
你们想猜猜GTX 580和A100之间的原始计算能力提升了多少倍吗?没有人能猜到,它在数千倍的数量级。昨晚我计算了一下,在两块GTX 580上进行为期六天的训练,如果按比例缩放,在一块A100上只需要不到五分钟。Justin说得很有道理。AlexNet这篇关于ImageNet挑战赛的论文,实际上是一个非常经典的模型,那就是卷积神经网络模型。
它发表在1980年代。我作为研究生学习时记得的第一篇论文,而且它也有六七层。AlexNet和卷积神经网络之间实际上唯一的区别是两块GPU和大量的数据。是的。
所以我想现在大多数人都熟悉“痛苦的教训”。“痛苦的教训”说,如果你做一个算法,那就确保你能利用现有的计算能力,因为现有的计算能力会显现出来。另一方面,还有另一种说法似乎也很重要,那就是实际上是新的架构。
这是一个很好的例子。Transformer中的自注意力机制很棒。但这是一种你可以解释人类对数据进行标注的方式,因为是人类在句子中加入了结构。
如果你看看CLIP,你会说,好吧,我利用互联网让实际上让人类使用标签来标记图像,对吧?所以,这是一种数据的故事。这不是计算能力的故事。所以答案是两者兼而有之……
……你说的另一个非常好的点。所以我觉得实际上有两个在我看来相当不同的算法突破点。所以图像时代实际上是监督学习的时代。
在监督学习时代,你有很多数据,但你不知道如何单独使用数据。ImageNet和其他那个时期的数据集的预期是,我们将获得大量图像,但我们需要人们对所有我们将要训练的训练数据进行标注。一个人类标注者查看了每一张图像并对该图像做出了某种判断。而最大的算法突破是,我们知道如何训练那些不需要人类标注数据的东西。
是90年代的个人电脑。它确实有AI背景。在我看来,如果你在人类数据上进行训练,人类的标注……
……这只是不明确的。我知道你会这么说。我知道,是的,哲学上,这是一个非常重要的问题。但这实际上对语言比对像素更真实。
是的,是的,是的,是的。但我认为这是一个重要的区别,因为CLIP实际上是人类标注的。是的,我认为注意力机制,人类已经……弄清楚了事物之间的关系,然后你学习它们。所以这是人类标注,只是比明确的标注更隐含。
是的,它仍然是人类标注。区别在于,对于这个监督学习时代,学习任务受到更多限制。所以你必须想出一个我们想要发现的概念本体,对吧?如果你正在做图像识别,李飞飞和她的学生当时花了很多时间考虑ImageNet挑战赛中应该包含哪些一千个类别。那个时期的其他数据集,比如用于目标检测的COCO数据集,他们认真考虑了要包含哪些80个类别。
这进入了生成式AI。在我博士学习之前,你来了。所以我学习了机器学习的入门课程,学习了一些非常复杂的东西,比如确定性颜色,对我来说非常复杂,那就是预测建模。
然后我想起了你开启的那种整体愿景,但在过去四年中出现的东西,对我来说非常不同,不是识别物体,不是预测某些东西,而是在生成某些东西。所以也许可以回顾一下让我们走到这一步的关键突破,以及为什么它与众不同?我们是否应该以不同的方式思考它,或者这是否是连续统一体的一部分?
这太有趣了。甚至在我研究生时期,生成模型就已经存在了。我们想做生成。
没有人记得。即使是字母和数字,我们也试图做一些。杰夫·辛顿不得不生成论文。我们当时在思考如何生成。
事实上,如果你从概率分布的角度来看,从数学上讲,生成只是我们通常永远不会给任何人留下深刻印象的东西,对吧?所以,从数学上和理论上讲,生成的概念是存在的。但它是否发挥了作用?博士
?他的整个博士学位几乎就是一个故事,一个关于该领域轨迹的众多故事之一。他从数据开始他的第一个项目。我强迫他这么做。他不喜欢它。
所以在这一方面,我学到了很多真正有用的东西。我很高兴。你现在这么说。
所以实际上我的第一篇论文,无论是我的博士论文,还是我第一次学术出版物,都是图像的三元组。
带有场景图,尽管我们想将像素生成单词。然后,安德里真的致力于此,但这仍然是一种非常非常有损的生成方式,以及从像素世界中获取信息的方式。然后中间,他去做了一件非常著名的工作。
这是第一次有人做到实时,对吧?是的,是的。所以那里的故事是。
有一篇论文发表在2015年,一篇关于神经算法、艺术风格的论文,由莱昂尼达斯领导。这篇论文发表了,他们展示了他们已经转换成蒙克风格的真实世界照片。我们习惯于在2024年看到这样的东西,但这并不是2015年。
所以这篇论文有一天突然出现在arXiv上,这让我震惊了。2015年,我的大脑里突然有了这个天才的想法。这对我来说意义重大。
我心想,哦,我的上帝,我需要理解这个算法,我需要玩弄它,我需要制作我自己的图像间隔。然后我读了这篇论文。
然后在一个漫长的周末,我重新实现了它并让它工作。它实际上是一个非常简单的算法。所以我的实现大约有300行Lua代码,因为当时我使用的是Lua。
这是在预训练Torch之前。所以我们使用的是Lua Torch。但它非常简单,虽然很笨拙,但它很慢,对吧?所以这是一个基于优化的东西。你想要生成每一张图像,都需要在这个梯度下降循环上运行这个优化循环,才能生成图像。生成的图像很漂亮,但我只想让它更快。
然后我就这么做了。我认为,这实际上是你第一次体验到我可以让它发挥作用并产生行业影响。一群人
当时已经看到了这种艺术风格迁移。与此同时,有几名研究人员想出了不同的方法来加快速度。但我的方法吸引了很多关注。
在全世界面前。理解生成。在我博士论文的最后部分,实际上是输入语言。并从中获得完整的图片,这是我最早的否定性工作之一,使用的是GUN,它非常难以使用。问题是我们还没有准备好使用自然的语言片段。
然后你听说他致力于语法图,所以我们必须输入语法图语言结构。所以,羊、草、天空以图的方式,实际上是我们的一张照片,对吧?然后他和另一位非常优秀的研究生格里姆,他们让它再次工作。
所以你可以看到,从数据匹配到风格迁移到生成图像,我们开始看到你问这是否是对于我们这样的人来说是一个根本性的变化。它已经在持续发生。但对于世界来说,结果更加突然。
所以我读了你的书,对于那些正在收听的人来说,这是一本非凡的书。我真的很推荐阅读它。而且似乎很长一段时间,我喜欢很多,你感觉你的很多研究以及你的方向都指向了特殊的东西、像素的东西和智能。现在你在做World Labs,它围绕着空间智能。
所以也许可以谈谈,这对您来说是否是一段漫长的旅程?为什么你决定现在做这件事?是技术上的?是什么让它成为一个个人或市场举动,让我们从你可能进行的AI研究
转向World Labs。对我来说,它既是个人层面的,也是智力层面的,对吧。我整个学术生涯实际上是对追寻北极星的热情,但也相信这些新的北极星对于我们领域的进步至关重要。
所以一开始我记得研究生毕业后,我认为我的北极星是讲述图像的故事,因为对我来说,这是视觉智能的一个非常重要的部分,作为你所说的AI或AGI的一部分。但是当我和你一起做这件事时,我得到了,我的上帝,那就是我的生命之流。接下来我该做什么?所以你更快地来了。
我认为这需要一百年才能做到。但视觉智能是我的热情所在,因为我相信,对于每一个智能生物,无论是人、机器人还是其他形式,都知道如何观察世界、理解它、与之互动,无论你是导航、操作还是制造东西,你甚至可以建立一个基于视觉空间的文明。智能是如此基础,它与语言一样基础,甚至可能在某些方面更古老、更基础。
所以对我来说,我们的北极星是开启空间智能是很自然的。对我来说,时机是正确的,我们拥有这些要素。我们拥有计算能力。我们对数据的理解要深刻得多,比那些日子要深刻得多,那些日子要复杂得多。我们还有一些先进的算法,包括我们实验室的联合创始人,比如米尔顿·霍姆、克里斯托弗。后来他们在神经网络领域处于领先地位,我们正处于真正下注、专注并开启它的正确时刻。
所以我想澄清一下,对于那些正在收听的人来说,这家公司World Labs的成立,空间智能是你正在解决的问题的一种普遍描述。你能否尝试清晰地描述一下这意味着什么?
是的。所以空间智能是关于机器感知、推理和在三维空间和时间中行动的能力,以理解物体和事件如何在三维空间和时间中定位,世界中的相互作用如何影响这些四维位置在空间和时间上的变化,以及感知、推理、生成、与之互动,真正将机器从主机或数据中心中解放出来,并将它放到世界上,并理解其丰富的三维世界。
所以要明确一点,我们是在谈论物理世界,还是仅仅在谈论世界的正确概念?
我认为两者都可以。我认为两者都可以。这包含了我们的长期愿景。即使你正在生成单词,即使你正在生成内容,三维中的位置也有很多好处,或者如果你正在识别现实世界,能够将三维理解融入现实世界也是其中的一部分。
只是收听,就像另外两位联合创始人霍姆、克里斯塔,都是该领域的绝对传奇人物,处于同一水平。这四个人决定现在成立这家公司。所以我试图深入了解为什么现在是正确的时机?是的。
我的意思是,这对我来说又是更长远发展的一部分。但在博士毕业后,当我真正想发展成为自己独立的研究人员时,无论是为了我后来的职业生涯,我都一直在思考,AI和计算机视觉中有哪些重大问题?我当时得出的结论是,过去十年主要是在理解已经存在的数据,但未来十年将是关于理解新数据。
如果我们考虑这一点,已经存在的数据是可能已经存在于网络上的所有图像和视频。未来十年将是关于理解新数据,对吧?人们拥有智能手机。
智能手机配备摄像头。这些摄像头有新的传感器。这些摄像头位于三维世界中。你不仅仅是从互联网上获得一堆像素,对它一无所知,然后试图判断它是一只猫还是一只狗。我们想将这些图像视为物理世界的通用传感器。
我们如何利用它来理解世界的三维和四维结构,无论是在物理空间还是生成空间?所以我博士毕业后,在三维计算机视觉方面做了一个相当大的转变,与我当时在FAIR的一些同事一起预测物体的三维形状。
后来,我非常喜欢通过二维学习三维结构的想法,对吧?因为我们谈论了很多数据,三维数据本身很难获得,但因为存在非常强的数学联系。这里有两张图像,是三维世界的投影,这里有很多我们可以利用的数学结构。
所以即使你有很多二维数据,也有很多人和令人惊叹的工作来弄清楚。你如何从大量的二维观察中反推出世界的三维结构?然后在2020年,你问到了重大的突破时刻。
当时,我们的联合创始人米尔顿·霍姆发表了他的论文NeRF和神经辐射场,这是一个非常重要的突破时刻。这是一种非常简单、非常清晰的方法,可以从二维观察中反推出三维结构,这为整个三维计算机视觉领域注入了活力。我认为这里还有另一个方面,该领域以外的人可能不太了解。
那也是大型语言模型开始兴起的时候。所以语言建模的很多东西实际上是在学术界发展起来的。甚至在我博士期间,我也做了一些语言方面的工作。你还记得RNN、GRU,就像这个变形金刚之前。但在某个时刻,大约在GPT-2的时候,你实际上无法再在学术界进行这种建模了,因为它们需要更多的资源。但NeRF方法有一个非常有趣的事情,Ban想出了,你可以用单个GPU在几个小时内训练这些模型。
所以我认为当时发生了一个动态变化,那就是我认为很多学术研究人员最终专注于这些问题,因为有一些核心算法需要解决,而且你实际上可以在没有大量计算能力的情况下做很多事情,你可以在单个GPU上获得结果。由于这些动态,有很多研究,很多学术研究人员开始思考我们可以推进这个领域的哪些核心算法方法。然后我最终与FAA更多地聊天,我意识到我们实际上,她非常有说服力,很有说服力。
好吧,有那么回事。但你会谈到我试图从我的导师那里找出我自己的独立研究轨迹,结果非常相似,好吧。对于我的结局,我想要。
与我称之为贾斯汀的聪明人交谈。毫无疑问。我确实想谈谈像素的一个非常有趣的技术故事,大多数从事语言工作的人都没有意识到的是,它在计算机视觉领域是免费的。
我们这些从事像素工作的人实际上在三维重建这个研究领域有着悠久的历史,它可以追溯到70年代。你可以拍摄照片,因为人类对我们来说是正确的,所以通常从立体照片开始。然后你试图解释几何形状并从中创建一个三维形状。这是一个非常非常困难的问题,直到今天。
它并没有从根本上得到解决,因为存在对应关系等等。所以这个领域,这是一种更古老的三维思维方式,一直在发展,并取得了非常好的进展。但是当在生成方法的背景下,在扩散模型的背景下发生变化时,重建和生成突然开始真正融合。
现在在计算机视觉领域很短的时间内,很难谈论重建与生成和电子邮件。我们突然有了这样一个时刻,如果我们看到某些东西,或者如果我们想象某些东西,两者都可以融合到生成它。对我来说,这对计算机视觉来说是一个非常重要的时刻。但大多数人没有谈论到这一点,就像LLM一样,当图片。
空间是重建,你重建像一个真实的东西。然后如果你没有看到相同的东西,新的生成技术,对吧?所以这些事情在这个整个对话中非常相似。你谈论语言,你谈论像素。所以也许现在是谈谈空间智能以及你正在研究的内容与语言方法(当然现在非常流行)相比如何,是互补的还是对立的。
我认为它们是互补的。
我不知道。我的意思是,在这里说得太领先了,也许只是对比一下。就像每个人说的那样,我知道OpenAI,我知道GPT,我知道多模态模型。你谈论的很多内容都是像他们拥有像素和语言一样,这是否能做到我们想用空间推理做的事情?
是的。我认为要做到这一点,你需要稍微打开一下这些系统内部工作原理的黑箱。因此,对于语言模型和我们现在看到的多种语言模型,底层表示是一个一维表示。
我们谈论上下文长度,我们谈论转换器,我们谈论序列,注意力。从根本上说,它们对世界的表示是一维的。因此,这些东西从根本上在一维的标记序列上运行。
所以当你在谈论语言时,这是一个非常自然的表示,因为书面文本是一维的离散字母序列。这种底层表示是导致元素出现的原因。现在我们看到的多种模式,你最终会将其他模式塞进这种底层的一维标记序列表示中。
现在当我们转向空间智能时,这有点像反其道而行之,我们说世界的三维特性应该在表示中处于中心位置。因此,从算法的角度来看,这为我们打开了一扇大门,让我们能够以不同的方式处理数据,获得不同类型的输出,并解决完全不同的问题。所以即使在目前阶段,你也可以看看外面,然后说,哦,多模态模型。
可以查看图像。好吧,它们可以。但我认为它们的底层方法的核心并没有这种三维表示。
我完全同意贾斯汀的观点。我认为谈论一维与根本上的三维表示是最大的区别之一。现在,这件事有点哲学意味,但至少对我来说非常重要,那就是语言从根本上来说是一种纯粹生成的信号。
那里没有语言。你不会走到大自然中,发现天空中写着字。无论你输入什么数据,基本上都可以通过足够的泛化能力,输出相同的数据。这就是语言对语言。但三维世界并非如此。
那里存在一个三维世界,它遵循物理定律,由于材料和其他许多因素,它具有自身的结构。从根本上回溯这些信息,能够表示它并能够生成它,这完全是一个不同的问题。我们会借鉴语言和大型语言模型中类似的想法或有用的想法,但这在哲学上从根本上来说是一个不同的问题。
所以语言有一天,可能对物理世界的表示很糟糕。这是人类生成的,可能还有另一种生成模型,那就是像素。而这两种是图像和视频。就像有人可能会说,如果你看视频,你可以看到三维的东西,因为你可以移动摄像机或任何东西。所以,空间智能与,比如说,
视频有什么不同?当我考虑这个问题时,区分两件事很有用。一个是底层表示,另一个是用户面对的功能。在这里你可能会感到困惑,因为从根本上说,我们是二维的,对吧?我们的视网膜是我们身体中的二维结构,我们有两个。
所以,从根本上说,我们的视觉系统感知二维图像。但问题是,根据你使用的表示,可能会有不同的功能更自然或更不自然。因此,即使最终你可能看到的是二维图像或二维视频,你的大脑也会将其感知为三维世界的投影。所以有些事情你可能想做,比如移动物体,移动摄像机。
原则上,你可能能够通过纯粹的二维表示和模型来做到这一点,但这并不适合你要求模型执行的任务,对吧?对动态三维世界的二维投影进行建模,可以通过将三维表示置于模型的核心来实现。这将更好地匹配模型正在处理的表示类型和你想让模型执行的任务类型。所以我们的假设是,通过稍微多一点三维表示,可以更好地实现,为用户提供更好的功能。
这也可以追溯到最初。对我来说,为什么是空间智能?为什么不是平面像素智能?因为我认为智能的本质必须转向贾斯汀所说的智能的本质。如果你观察进化,对吧?智能的本质最终使动物和人类,特别是人类,作为一种智慧动物,能够在世界上四处移动,与之互动,创造文明,创造生命,创造三明治,无论你在三维世界中做什么,并将这些转化为一种以三维为本的技术,这对于可能的应用的洪流至关重要,即使其中一些应用看起来是二维的,但对我来说,它本质上是三维的。
我认为这是一个非常微妙且极其关键的点。所以我认为值得深入探讨。一个好的方法是讨论用例。所以,就目前而言,我们正在谈论的是生成一种能够进行空间智能的技术,即一个模型。那么,在下一阶段,这会更具体一些吗?
我们设想这些空间智能模型随着时间的推移能够做几件事。我非常兴奋的一件事是世界生成。世界生成类似于文本到图像生成器,或者我们开始看到文本到视频生成器,你输入图像,输入视频,就会出现令人惊叹的图像,令人惊叹的几秒钟的片段。但我认为你可以想象将这提升到一个新的水平,并生成三维世界。
因此,我们可以想象空间智能在未来帮助我们的一件事是将这些体验上传到三维世界中,你将获得一个完整的虚拟模拟,但这是一个充满活力且互动的三维世界,对吧?也许用于游戏,也许用于虚拟摄影,随便你。即使你让它工作,也会有数百万个应用程序。
教育,我的意思是,从某种意义上说,这开启了一种新的媒体形式,对吧?因为我们已经具备创建虚拟互动世界的能力。但这需要花费数亿美元和大量的开发时间。
结果,人们推动这种技术能力的地方是什么?是电子游戏,对吧?但由于这样做需要如此多的劳动,因此目前这种技术的唯一经济上可行的用途是那些可以以每件70美元的价格卖给数百万人的游戏,以吸引投资。
如果我们能够创造这些相同的虚拟、互动、充满活力的三维世界,你就会看到很多其他的应用,对吧?因为如果你降低了制作这种内容的成本,那么人们就会将其用于其他事情,对吧?如果你可以拥有某种个性化的、创造性的体验,就像这些AAA级电子游戏一样好、一样丰富、一样详细,而制作成本仅为数百万美元?但这可能只针对非常小众的东西,也许只有少数人会想要那种特定东西。这不是一个特定的产品或路线图,但我认为这是空间智能在更广泛领域中将开启的一种新型媒体的愿景。
如果我考虑一下世界,实际上,考虑一下不仅仅是场景生成的方面。我考虑的是物理学中的运动。那么,在极限情况下,这是否包括在内?如果我与其他语义互动,我的意思是,比如我打开一本书,是否有页面,以及其中的文字?它们是否意味着我会进行一个完整的深度实验?谈论静态场景。
我认为我看到了这项技术随着时间的推移而发展的过程。这是一件非常难以构建的东西。所以我认为静态问题稍微容易一些。但在极限情况下,我认为我们希望这能够完全动态化,完全互动化,所有你刚才所说的那些方面。
我的意思是,这就是空间智能的定义。所以会有一个发展过程,它将从更静态的开始。但你所说的所有内容都包含在空间智能的路线图中。我的意思是。
这与公司本身的名称有关。World Labs,就像世界一样,是关于构建和理解世界的。这实际上是一些内部术语,我意识到在我们说出这个名字之后,人们并不总是理解它。
因为在计算机视觉、重建和生成中,我们经常区分或区分你可以做的事情以及某种第一层级的对象,对吧?麦克风、杯子、椅子,这些都是世界上的直接事物。Fei-Fei从事的大量ImageNet风格的工作是关于识别世界中的物体,然后提升到下一层级,我认为是场景。
场景是物体的组合。现在我们有了这个录音棚,里面有桌子、麦克风、人和椅子,它们是物体的某种组合。但我们设想世界是超越场景的一步,对吧?场景是制作单个事物,但我们想打破界限,走出大门,离开桌子,走出大门,走在街上,看到汽车呼啸而过,看到树叶在动,并能够与这些事物互动。
我认为这真的很令人兴奋,因为仅仅提到“新媒体”这个词,这项技术使得现实世界、虚拟想象世界、增强现实世界或混合现实世界之间的界限变得模糊。
现实世界是三维的,对吧?所以在数字世界中,你必须有一个三维表示才能与现实世界融合。你不能有一个二维的,你不能有一个一维的,才能有效地与现实的三维世界交互。它解锁了什么。所以用例可以是。
相当无限的,因为这,谈论任何数量的这些案例,当你只是添加时,将更像是一个。
增强现实,对吧?是的,就在World Labs成立的时候,苹果发布了Vision Pro。他们使用了“空间计算”这个词。
我们几乎是他们几乎是同义词。但我们是空间智能。所以,空间计算需要空间智能,这完全正确。所以我们不知道它将采用什么具体的硬件形式。它可能是眼镜、隐形眼镜。但真实世界与你可以在其之上做的事情之间的接口,无论它是否是为了帮助你增强你的能力来修理机器和修理你的汽车,即使你不是训练有素的机械师,或者只是为了大众,突然间,这件技术将成为AR/VR混合现实的最终操作系统。
AR设备需要做的是始终开启,它与你同在。它正在观察世界。所以它需要理解它所看到的场景,并可能帮助你完成日常生活中的任务。
但我对虚拟和现实之间的这种融合也感到非常兴奋,如果能够实时理解周围环境,这将变得非常重要。在完美的3D中,它实际上也开始取代现实世界的大部分内容。就像现在一样,我们每个人拥有多少不同尺寸的屏幕用于不同的用例?你有你的手机,你有你的iPad,你有你的电脑显示器,你有你的电视,你有你的手表。这些都是辅助屏幕,因为它们需要在不同的环境和不同的位置呈现信息。但如果你能够将虚拟内容与物理世界无缝融合,它就会取代对所有这些的需求,它理想情况下会将你当下需要知道的信息与提供这些信息的正确机制无缝融合。
能够将数字虚拟世界与三维物理世界融合的一个巨大案例是让代理能够在物理世界中做事情。就像我说的,我不知道如何修理汽车,但如果我必须修理,我会戴上这个眼镜或隐形眼镜,突然间我就会得到指导。
但还有其他类型的代理,即机器人,包括各种机器人,而不仅仅是人形机器人。它们的接口,根据定义,是现实世界,但它们的计算机,它们的大脑,根据定义,是数字世界。那么,是什么将学习与行为从机器人的大脑连接到现实世界的大脑?它必须是空间智能。
所以你谈到了虚拟世界。你谈到了更像增强现实的东西。现在你刚刚谈到了纯粹的物理世界,基本上,这将用于机器人技术,对于任何将成为非常大型租赁公司的公司来说,尤其是在你将要进入如何思考深度标签的想法时,是否有任何这些具体的。
应用领域我们认为自己是检测公司,是提供可以服务于不同用例的模型的平台公司。
这三者中的任何一个。你认为早期有哪些更自然,人们可以期待公司更倾向于哪些?
我认为说设备还没有完全准备好并不令人惊讶。
事实上,我在研究生院第一次接触VR设备。这是你戴上它后会经历的那些具有变革意义的技术体验之一。你会想,我的天哪,这太疯狂了。我认为很多人都有这种体验。我第一次使用VR时,所以我很长时间以来一直对这个领域感到兴奋,我喜欢Vision Pro,就像我熬夜订购了第一批设备之一,就像它上市的第一天一样。但我认为现实是,它还不是一个面向大众市场的平台。
所以,作为一家公司,我们很可能会进入一个比这更成熟的市场,但你知道,我们是一家深度科技公司。
然后,我认为有时可以做到简洁和普遍性,对吧?我们有这样一种观念,即成为一家深科技公司。我们相信,有一些需要很好解决的根本性问题。如果解决得很好,就可以应用于许多不同的领域。我们确实将这项漫长的旅程视为构建和实现空间智能这一宏伟目标的过程。
所以,这是一个需要构建很多技术的项目。
在我看来,是的,我认为这是一个非常困难的问题。我认为,有时对于那些并非直接从事人工智能领域的人来说,他们只是将人工智能视为一种无法区分的大规模人才。而对于我们这些在这个领域待了更久的人来说,你会意识到,需要许多不同类型的人才走到一起才能构建任何东西,尤其是在这个领域。
我们已经谈到了一些关于数据问题的内容。我们也谈到了一些我在攻读博士学位期间研究过的算法,但我们还需要做很多其他事情。你需要真正高质量、大规模的工程能力。
你需要对三维世界有非常深入的理解。实际上,这与计算机图形学有很多联系,因为他们一直在从相反的方向解决许多相同的问题。因此,当我们考虑团队建设时,我们考虑的是如何找到世界上最顶尖的、在构建这个极其困难的事物所需的每一个子领域中都是世界顶级专家的那些人。
当我考虑如何为World Labs组建最佳的团队时,它必须从一群杰出的跨学科创始人开始。当然,贾斯汀很自然地成为了其中一员,他是我最优秀的学生之一,也是最聪明的技术专家之一。
但我还通过名声认识了另外两个人,其中一个人我甚至梦寐以求地想与之合作,对吧?一个是米尔顿,我们谈到了他的开创性工作,神经网络。但另一个人是克里斯托弗,他在计算机图形学界享有盛誉。尤其值得一提的是,他在因果关系流行起来之前的五年,就预见性地致力于三维建模的先驱——隐式表示。
然后在中国,我们的传奇人物,也许可以快速谈谈你如何努力组建团队的其余部分,因为同样,这需要在图形系统方面进行大量工作。
到目前为止,是的,我个人最引以为豪的是,我有幸与我整个职业生涯中遇到的最聪明年轻人一起工作,从斯坦福大学的教授职位开始。但是,我们在我们实验室里聚集起来的人才简直是现象级的。我从未见过如此集中的优秀人才。
我认为这里最大的区别在于,我们都是空间智能的信徒,所有这些多学科人才,无论是系统工程、机器学习、信息生成建模、数据还是图形学,我们所有人,无论是我们的个人研究历程、技术历程,甚至是个人爱好,都是如此。这就是我们真正找到创始团队的方式。这种能量和人才的集中度让我感到兴奋。我太喜欢它了。
所以我知道你有一个北极星来指引你。关于北极星的事情是,你实际上无法到达它们,因为它们在天上,但这是一种很好的指导方式。那么,你将如何知道你已经完成了你想要完成的事情?或者这是一件会无限期持续下去的事情?
首先,有真实的北极星和虚拟的北极星。有时你可以……
到达虚拟模型。就像我说的。
我认为我的一个北极星目标,需要一百年才能实现,是讲故事、图像,以及在我看来尚未解决的问题。所以我们可以到达我们的北极星。但对我来说,我认为当很多人和很多企业都在使用我们的模型来满足他们对空间智能的需求时,那一刻我知道我们已经取得了重要的里程碑。
实际上,实际上,我不认为我们会到达那里。我认为这是一件非常根本的事情。宇宙是一个巨大的、不断发展的四维结构,而大规模空间智能只是理解所有步骤并找出所有应用的过程。所以,我认为我们今天心中有一些特定的想法,但我认为这段旅程会带我们去我们现在甚至无法想象的地方。
优秀技术的魔力在于,技术会开启更多可能性和未知领域。所以我们将不断推进,然后可能性将不断出现。
谢谢你,贾斯汀。谢谢你,这太棒了。
谢谢马丁。谢谢。
好了,今天的节目就到这里。如果你坚持听完了,首先,谢谢你。我们对每一集都投入了大量的思考,无论是嘉宾的选择、日历的安排,还是与我们优秀的编辑汤米一起反复修改,直到音乐恰到好处。
所以,如果你喜欢我们制作的内容,请考虑在ratethispodcast.com/a16z上给我们评分,让我们知道你最喜欢的部分是什么。祝你今天愉快,我相信汤米也是如此,我们下次再见。