We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode NVIDIA's Plan To Build AI That Understands The Real World — With Rev Lebaredian

NVIDIA's Plan To Build AI That Understands The Real World — With Rev Lebaredian

2025/2/5
logo of podcast Big Technology Podcast

Big Technology Podcast

AI Deep Dive Transcript
People
R
Rev Lebaredian
Topics
Rev Lebaredian: 我认为Jevons Paradox很好地解释了为什么降低AI的成本会增加需求,因为这会解锁更多应用。NVIDIA选择计算机图形作为首个计算问题,因为它是一个永无止境的问题,持续的创新需求推动市场增长。智能是所有计算问题中最‘无限’的,更多的计算能力可以创造更高的智能,提高AI效率将增加其经济价值和市场需求。过去十年GPU在张量运算方面的性能提升了百万倍,这不仅来自硬件,还来自软件算法的改进。DeepSeq的进步延续了GPU在AI性能提升上的十年趋势。 要创造真正智能的机器,需要在AI中融入常识和物理知识,而不能仅仅依赖文本数据。AI的下一步是将相同的技术应用于物理世界,让AI学习物理规则而不是语言规则。未来最有价值的AI将能够与物理世界互动。将AI应用于物理世界将带来比信息技术更大的价值,因为物理世界市场的规模远大于信息技术市场。 训练物理世界AI不仅仅是输入文本描述,还包括视频、3D数据和物理模拟数据。NVIDIA Cosmos项目的目标是构建能够理解物理世界的机器人大脑,这项工作已经持续了大约十年。训练机器人大脑需要提供物理世界的经验数据,而模拟是获取这些数据的有效途径。NVIDIA Omniverse平台用于创建物理精确的模拟世界,用于训练和测试AI。Cosmos项目提供开源模型、工具和数据管道,以促进物理AI的开发。Cosmos项目面向所有需要与物理世界交互的应用,包括机器人、自动驾驶和传感器等领域。物理世界AI可以利用文本模型的知识库,并结合其他数据模式进行学习。AI的学习方式与人类相似,通过多种感官同时接收信息并建立关联。 虽然视频生成模型在理解物理方面取得了令人惊讶的进展,但仍然存在缺陷,例如缺乏物体持久性。目前的视频生成模型对物理世界的理解程度可能只有5%-10%,还有很大的提升空间。NVIDIA不仅仅是芯片公司,还开发软件和AI技术,以支持其加速计算平台。NVIDIA在大型语言模型的早期发展中发挥了关键作用,并开源了相关软件。机器人不会一夜之间取代所有人类工作,而是在解决劳动力短缺问题方面发挥作用。全球面临劳动力短缺问题,机器人可以填补这一缺口。人形机器人首先会在工业领域得到广泛应用,因为劳动力短缺和更容易被企业接受。AI将彻底改变好莱坞电影制作,使制作更逼真、更低成本的电影成为可能。机器人技术在战争中的应用具有巨大潜力,但也存在潜在的危险,需要建立规则和机制来防止滥用。NVIDIA的成功源于其长期坚持核心技术和人才培养。

Deep Dive

Shownotes Transcript

让我们谈谈英伟达推动生成能够理解现实世界的 AI 的努力,这项技术可以影响机器人技术、劳动力、汽车、好莱坞以及更多领域的未来。接下来,我们将邀请该公司 Omniverse 和模拟技术的副总裁加入我们。

我是莉亚·斯马特,来自领英新闻,我是《每日进步》(Every Day Better)节目的主持人,这是一个屡获殊荣的个人发展播客。每周加入我,收听引人入胜的故事和研究,在您的工作和个人生活中找到更多成就感。在领英播客网络、苹果播客或您收听播客的任何地方收听《每日进步》。

我是托默·科恩,领英首席产品官。如果您和我一样好奇事物是如何构建的,那么请收听我的播客《构建一》(Building One)。我和一些最优秀的产品构建者交谈。我一直受到挫败感的启发。它回到了我自己的个人痛点。所以我们不得不去农民那里说服他们。追寻好奇心是一种超能力。你必须痴迷于人类的处境。在苹果播客或您收听播客的任何地方收听《构建一》。

欢迎收听《大科技播客》(Big Technology Podcast),这是一个关于科技世界及其他领域的冷静、细致的对话节目。今天,我们邀请到了雷夫·利博雷迪安(Rev Liboredian)。他是英伟达 Omniverse 和模拟技术的副总裁,我们将就可能成为 AI 进步下一阶段的令人着迷的话题进行对话,即追求能够为 AI 提供常识的世界模型。

雷夫,我很高兴在这里见到你。几个月前,我们实际上在你们的总部待过一段时间,我很高兴你今天来到这里,并向大科技的观众介绍你。欢迎来到节目。感谢你们的邀请。好吧,在我们深入探讨世界模型之前,很明显,我们在深海革命之后进行了这次对话。我不知道你想怎么称呼它。现在每个人都在谈论英伟达。你们处于静默期,所以我们不会谈论财务状况。但我可以而且想问你一些关于英伟达的问题。

关于技术方面的问题,特别是关于杰文斯悖论(Jevons Paradox)。我一直听到英伟达、杰文斯悖论、杰文斯悖论、英伟达。什么是杰文斯悖论?你对此怎么看?我对杰文斯悖论的理解是,它本质上是一种经济原理,即当你降低某事物的运行成本时,你会创造更多的需求。

因为它在经济上变得更容易使用时,会解锁该技术的更多用途。我认为这确实适用于这种情况,就像它适用于过去 40、50 年几乎所有其他重要的计算创新一样,或者至少在我有生之年是这样。1993 年英伟达成立之初,英伟达选择

非常仔细地选择了第一个要解决的计算问题,以便创造条件,让我们能够继续创新并继续发展这个市场。这就是计算机图形学问题,特别是计算机图形学中的渲染,生成这些图像。我们选择它的原因是它是一个无穷无尽的问题。

无论你投入多少计算能力,无论我们投入多少创新,你总是想要更多。在我加入英伟达的 23 年时间里,我多次听到有人说,图形已经足够好了。

渲染已经足够好了。因此,很快,很快,英伟达的大型 GPU 和更强大的计算能力将不再需要。它们只会被 SoC 吞噬,或者作为集成显卡集成到另一个芯片中,然后消失。但这从未发生过,因为模拟光和物质物理学的根本问题是无穷无尽的。

我们在几乎所有重要的计算领域都看到了这一点。AI 就是其中之一。我的意思是,我们真的可以说我们现在已经达到了计算机足够智能,或者我们创造的智能足够好,所以它只会缩小吗?我们在那方面将不再需要更多的计算能力吗?我不这么认为。我认为智能可能是......

所有计算问题中最无穷无尽的。如果我们可以投入更多的计算能力来解决这个问题,我们可以创造更多的智能,并做得越来越好。因此,提高 AI 的效率只会增加其在许多我们想要应用它的应用程序中的经济价值,并增加需求。

我们能否谈谈 AI 模型变得更高效的进展?我知道这现在是一个热门话题,但在我看来,在过去几年中,我们确实看到模型变得越来越高效。那么,你能告诉我们关于大型语言模型在这方面的信息吗?我们已经看到随着时间的推移效率的提高?我的意思是,这并不是什么新鲜事。这种情况已经持续了

大约 10 年或 12 年左右,基本上是从我们在 GPU 上使用 AlexNet 首次发现深度学习开始的。如果你看看计算曲线,我们的 GPU 在方面能做什么

张量运算,我们需要进行的 AI 数学运算。在过去的 10 年里,我们的性能提升了大约一百万倍。

而这种提升不仅仅来自原始硬件。它也通过软件算法的许多层实现。因此,我们正在以非常快的速度、呈指数级地持续获得这些好处、这些加速,通过复合许多层,所有不同的层

从基本的硬件、芯片本身、系统级、网络、系统软件、算法、框架等等,计算发生在这些层面上。因此,我们在 DeepSeq 中看到的重大进步与我们过去十年一直遵循的曲线相同。

好的。在英伟达工作了 23 年。我会保存一个问题,在采访后期或结束时问你,因为我非常好奇你在英伟达工作的经历,特别是考虑到,你知道,从外部世界来看,该公司的技术曾被看好,然后人们质疑它,然后又重新看好,人们又开始质疑。很明显,我们现在看到了正在发生的事情。也许我们现在正经历一个小型周期。所以我很想知道你的经历。但我首先想谈谈技术。

让我带你进入我们在这个节目中与杨立昆(Yann LeCun)进行的对话,他是在 ChatGPT 推出后不久担任首席 AI 科学家的。

杨立昆做的一件事是,他说,问问 ChatGPT,如果你用左手松开一张纸会发生什么。我输入了它。它给出了一个非常令人信服的答案。这是完全错误的,因为文本中没有关于物理学的常识。

无论你多么努力地用文本教模型物理学,你都做不到。描述当你用手扔掉一张纸时会发生什么的文献不足,因此模型受到限制。杨立昆的观点基本上是,

如果你想获得真正智能的机器,你需要在 AI 中构建一些东西来教授常识,教授物理学,并且你需要超越文字来做到这一点。所以现在我把话题交给您,雷夫,因为我认为现在英伟达内部的一项重大举措是构建一个世界图像,

教 AI 模型杨立昆提到的那种缺乏的常识。我有一些后续问题,但我首先想听听你对你们正在做的事情的一些介绍,以及你们的努力是否旨在解决杨立昆提出的问题。杨立昆说的绝对是正确的。而且这也很直观,对吧?如果一个 AI 只接受过训练

在文字上,在我们数字化过的文本上,它怎么可能了解我们物理世界中的概念,例如红色到底是什么颜色,或者听到声音意味着什么,感觉意味着什么。它不可能知道这些事情,因为它从未体验过。

当我们训练模型时,我们实际上是在做的是,我们正在为该模型提供生活经验,它正在从我们提供给它的所有经验中分离模式或辨别模式。关于 GPT,LLM 的进步,从 Transformer 开始,真正令人惊叹的是,我们可以采用......

人类根本无法以清晰而可靠的方式直接定义的这一套非常复杂的规则,即语言规则。我们能够从语料库中提取出来。我们采用了所有这些文本,所有这些书籍以及您可以从互联网上抓取的关于这些内容的所有信息。不知何故,

这个模型弄清楚了多种不同语言中所有语言模式是什么,然后,因为它理解语言的基本规则,所以它可以做一些令人惊叹的事情。它可以生成新的文本,可以以不同的方式对您提供的文本进行风格化处理。它可以将文本从一种形式翻译成另一种形式,从一种语言翻译成另一种语言。它可以做所有这些很棒的事情。

但它缺乏关于我们世界的任何信息,除了那些文字中描述的信息之外。因此,AI 的下一步是让我们采用我们拥有的相同的基本技术,我们拥有的这台机器,我们可以向它提供生活经验,它会弄清楚模式和规则是什么,并向它提供关于我们物理世界的实际数据。

以及我们的世界是如何运作的,以便它可以将相同的学习应用于物理规则而不是语法规则、语言规则。它将了解我们周围的物理世界是如何运作的。我们的论点是,在我们未来将要创造的所有 AI 中,最有价值的 AI 将是那些能够与我们的物理世界互动的人工智能。

我们周围体验到的世界,由原子创造的世界。今天,我们正在创造的 AI 主要与我们的知识世界、信息世界、一和零有关,这些东西很容易在计算机的数字世界中表示。但是,如果我们可以将相同的 AI 技术应用于我们周围的物理世界,那么我们基本上就可以解锁机器人技术。我们可以拥有这些代理

拥有这种智能,甚至在特定任务中拥有超级智能,在我们周围的世界中做令人惊叹的事情,如果看看全球市场,看看世界上发生的全部商业活动和 GDP,知识信息技术每年大约在 2 万亿到 5 万亿美元之间。

但其他所有东西,交通运输、制造业、供应链、仓库和物流、药物生产,物理世界中的所有东西,大约是 100 万亿美元。因此,将这种 AI 应用于物理世界将为我们带来更多价值。所以这很有趣。它不仅仅是......

基本上是将现实世界的知识输入到大型语言模型中,对吧?这样他们就可以正确回答关于用手扔纸的问题。你们正在努力做的另一件事是为机器人打下基础,让它们进入我们的世界并在其中运行。所以,是的,这并不是像我们对这些文本模型那样输入信息。我们不会仅仅用文字来描述

当你扔掉一张纸时会发生什么。在学习过程中,我们将向这些模型提供其他感官。因此,他们将观看纸张掉落的视频。我们还可以提供更准确、更具体的 3D 领域信息。因为我们可以模拟

如今计算机内部的这些物理世界,我们有这些世界的物理模拟,我们可以提取关于该 3D 世界内部事物的位置、方向和状态的真实数据,并将其用作这些模型的另一种输入模式。

因此,我们最终将得到一个在许多不同数据模式(本质上是不同的感官)上进行训练的世界基础模型,它可以看到、可以听到、可以触摸和感受,以及我们可以做到的许多事情,或者其他动物可以做到的许多事情,甚至没有生物可以做到的事情,因为我们可以为它提供自然界中不存在的传感器,并且它可以从中

推断出世界的实际组合规则。这种关于物理世界如何运作的知识的编码,可以成为我们构建代理的基础

在现实世界中构建这些代理的大脑,也就是所谓的物理机器人。对。所以这就是你们最近宣布的 Cosmos 项目。那么,谈谈 Cosmos 是什么。我的意思是,很明显,它是一个世界基础模型,但是,你们构建它多久了,什么类型的公司和开发人员可能会使用它,以及他们可能会如何使用它?嗯,

我们可能已经致力于 Cosmos 大约 10 年了。我们设想最终这项新技术将随着深度学习的形成,这将成为我们创造机器人大脑所需的关键技术。

而这最终将为我们释放出巨大的价值。所以我们很久以前就开始致力于此了。我们很早就意识到,我们将面临的一个大问题是,为了训练这样一个模型,训练一个机器人大脑来理解物理世界并在其中工作,我们将不得不让它体验。

我们将不得不提供代表物理世界的数据。从现实世界中捕获这些数据并不是一件容易的事。这非常昂贵,在某些情况下非常危险。例如,对于自动驾驶汽车,

这是一种机器人。它是一个可以自主地、独自地弄清楚如何通过控制这个物理实体(一辆汽车)来从 A 点到达 B 点的机器人,通过刹车、加速和转向。我们该如何确保自动驾驶汽车真正理解当一个孩子跑进街道时,它应该停下来?

我们如何才能确保它实际上会在现实世界中做到这一点,而不会在现实世界中这样做?我们不想去捕捉一个孩子跑过街道的数据。我们可以通过在计算机内部模拟它来做到这一点。

所以我们很早就意识到了这一点。因此,我们开始应用我们之前在计算机图形学、电子游戏和电子游戏引擎以及这些世界内部的物理学方面所做的所有工作,以创建一个系统来进行物理上准确的世界模拟,以便我们可以训练这些 AI。所以我们称之为......

操作系统,如果你愿意的话,Omniverse。这是一个创建这些物理模拟的系统,然后我们用它来训练 AI,我们可以在将它们投入现实世界之前在同一个模拟中测试它们。所以我们将其用于自动驾驶汽车和其他机器人。因此,构建 Cosmos 实际上首先是从模拟世界开始的。

所以我们已经构建了这个堆栈和这些计算机相当长一段时间了。一旦 Transformer 模型被引入,我们开始看到大型语言模型可以做到的令人惊叹的事情,并且 ChatGPT 时刻到来后,我们理解这基本上解锁了我们真正推动机器人技术发展所需的一件事,那就是能够

对一组非常复杂的事物、一组复杂的规则拥有这种普遍的智能。因此,我们开始构建今天的 Cosmos,这实际上是在几年前,使用我们之前使用模拟和 AI 训练构建的所有技术。Cosmos 实际上是几件事。它是一些开放权重模型的集合

我们免费提供。除此之外,我们还提供了创建新的世界基础模型所需的所有工具和管道。因此,我们提供了我们开始训练的世界基础模型,这些模型在构建物理 AI 方面是一流的。

我们还有一个所谓的标记器,它本身就是一流的 AI。这是构建世界基础模型的关键要素。然后我们有策划管道,您

您选择和策划以馈送到世界基础模型训练中的数据至关重要。仅仅选择正确的数据就需要大量的 AI 本身。我们发布了所有这些东西,并将它们公开发布,以便整个社区可以加入我们一起构建物理 AI。

那么谁会使用它呢?是机器人开发人员吗?是那些正在构建的人吗,比如说,基于大型语言模型的应用程序,但只是希望它们更聪明一点?两者都是?将是所有这些。是的。我们认为,作为行业,世界正处于这场物理 AI 革命的开始阶段。没有一家公司,没有一个组织,没有

能够构建我们所需的一切。因此,我们正在公开构建它,以鼓励其他人在我们已经构建的基础上进行构建,并与我们一起构建它。这将基本上是任何涉及物理世界的应用程序。

所以这绝对包括机器人公司,以及广义上的机器人,包括自动驾驶汽车公司、机器人出租车公司,以及在我们的工厂和仓库中建造机器人的公司。任何想要制造具有感知能力并在现实世界中自主运行的智能机器人的公司,他们都需要这个,但是

这不仅仅是关于我们认为的那些四处移动的代理机器人。我们正在将传感器放置在我们的空间、城市、城市环境、建筑物内部。

这些传感器需要了解世界上正在发生的事情,可能是出于安全原因,为了协调其他机器人,改变我们建筑物和数据中心的气候和能源效率。因此,物理 AI 的应用范围很广。

这比我们通常认为的机器人应用要广泛得多。将有成千上万的公司构建这些物理 AI,而这仅仅是个开始。现在,您提到 Transformer 模型是这条道路上一个重要的发展,这显然是支撑我们在大语言模型中看到的许多真正创新的东西。

现实世界的 AI 可以从已经被转化为这些带有文本的 AI 模型的知识库中学习吗?例如,如果你的模型试图用常识来理解世界,它们是否将文本作为输入?它们将所有这些作为输入。

那么它如何与文本一起工作呢?这非常有趣,因为当我们谈到通向通用人工智能的进展时,这是一种非常,你知道,能够阅读某些东西然后在物理空间中直觉地理解它的含义的惊人的应用。你不这么认为吗?是的,我认为我的想法是这样的,我认为这是正确的,这些 AI 的学习方式与我们相同。当你来到这个世界时......

你不知道谁是妈妈,谁是爸爸。你甚至还不知道如何去看。你没有深度知觉。你无法看到颜色或理解它是什么。你不知道语言。你不知道这些事情。但你通过同时被所有这些信息轰炸来学习,通过许多不同的感官。所以当你的妈妈看着你并说:“我是妈妈”,指着,

你正在获得多种信息模式,包括本质上通过音频形式传来的文本。然后,当你学会阅读时,你学会阅读是因为老师指着字母,然后是单词,并发出声音。所以你建立了这种关联,你建立了这种关联,你正在阅读的信息

你理解,就像妈妈和表示那件事的字母一样,AI 的学习方式相同,当我们训练它们时,如果你同时向它们提供所有这些信息模式,它会将它们关联在一起。这就是今天的图像生成器的工作方式,当你使用文本提示生成图像时,并且

它能够生成的原因是,你知道,阴天多云的一天里,草地上的红球的图像,是因为在训练过程中,有一些文本与输入的图像相关联。

它知道在训练过程中,这些词语与该图像相关。因此,我们可以从这种关联中收集这种理解。

我们试图通过世界基础模型做到这一点,通过提供更多信息模式和更丰富的信息来将其提升到一个新的水平。但这其中的一部分仍然包括文本。我们将文本与视频和其他来自世界物理状态的真实信息一起输入。是的,这是一个多部分的问题,我很抱歉,但我

我真的不知道还有其他方法可以问。那么,你们输入的其他信息模式是什么?你真的需要经历这个模拟过程吗?我会告诉你,你知道,在我看来,这一切听起来都是一项有价值的努力,我相信它确实是。但我今天也看到了视频模型。这让我非常惊讶。

当我们看到视频生成模型时,它们确实对物理学有了解。就像图像一样,图像生成不是移动的,对吧?所以你知道,比如说,这个人坐在椅子上,但是视频,你可以看到人们在田野里行走,你可以看到草在动。

这意味着这些模型天生就具有如何运作物理学的概念,我认为。我将把它提交给你,因为你是这里的专家。但是,再说一次,杨立昆将在几周后参加节目。所以这可能只是在我的脑海里,因为我正在准备并思考我们上次的谈话。但我还要把它提交给你。也许我会问你的答案,我会让他对你的答案发表意见。但他总是谈论的是

人的大脑能够看到无限的可能性,并接受它不会让我们崩溃,所以如果你有一支铅笔,你把它举起来,你知道它会掉下来,但你知道它可能会以无限的方式掉下来,但它仍然会掉下来,对于一个接受过不同场景训练的 AI 来说,很难理解这支铅笔可能会以无限的方式掉下来,当被要求生成它时,然而

他们在视频生成方面做得非常好,比如展示他们理解这一点。所以为了重申一下,你们正在使用哪些不同的信息模式,如果我们已经从视频生成中获得了如此好的结果,为什么我们需要这个更广泛的模拟环境或这个 Cosmos 工具?所有这些都是非常好的问题。首先,我们使用许多模式。然而,训练 Cosmos 的主要模式是视频。

就像视频生成模型一样。但除此之外,还有文本。我们还向它提供我们可以从数据中收集的额外信息和标签,特别是当我们合成地生成数据时。如果你使用模拟器来生成视频,你就有......

关于视频中每个像素中发生的一切的完美信息。我们知道每个像素中每个物体的距离。我们知道深度,我们知道每个像素中的物体是什么,你可以分割出所有这些东西,传统上我们所做的

对于自动驾驶汽车的感知训练。因此,我们使用人类来从收集到的数小时的视频中标记所有这些信息,而且它不准确且不完整。因此,从模拟中,我们可以获得关于视频本身的完美信息。话虽如此,你的问题是

这些视频模型似乎真的了解物理学,而且了解得很好。我认为它们确实了解了多少物理学,这真是太神奇了。我们现在处于这个阶段,这有点令人惊讶。例如,五年前如果你问我,我们是否能够在这个阶段生成具有如此多物理学合理性的视频?

我实际上不确定,因为在此之前多年我一直都错了。在我看到 AlexNet 之前,我没想到在我的有生之年会看到图像分类。但我当时会反对它。所以我们已经走得很远了。话虽如此,我们看到的物理学中有很多缺陷。所以你可以在视频中看到这一点。其中一件基本的事情是物体永久性。如果

呃,你引导视频移动摄像机,然后转回,在视频开始时存在的物体就不再存在了,或者它们不一样了,对吧,所以这是一个对物理定律的如此根本性的违反,呃,很难说这些模型目前很好地理解物理学,而且还有很多其他的东西,呃,我的,我的

一生的工作主要集中在计算机图形学上,特别是渲染,这是一种 3D 渲染,本质上是一种物理模拟。它是关于光如何与物质相互作用并最终到达某种传感器的模拟。我们模拟摄像机在 3D 世界中会做什么以及它会从世界中收集什么图像。

当我查看许多生成的视频时,我看到了大量的缺陷,因为当我们进行这些模拟和渲染时,我们会注意到阴影是否错误、反射是否错误以及这些事情。对于没有受过训练的眼睛来说,它看起来是合理的。它看起来是正确的。

但我认为人们仍然可以感觉到有什么不对劲,你知道,当它是 AI 生成的,而不是的时候。就像几十年来,自从我们将计算机图形学引入电影的视觉效果以来,你知道,当一些,你不知道它是什么,但是如果那里的渲染不好,它感觉就像 CG,感觉不对劲。我们仍然有这种令人毛骨悚然的山谷效应。

话虽如此,我认为我们会迅速变得越来越好。因此,今天的模型对物理世界有惊人的了解,但它们可能只有应该理解的 5%、10%。我们需要让它们达到 90%、95%。

对。我刚看到一个海啸袭击某个岛屿的视频。我看了它。它就像超级逼真。当然,它在 Instagram 上,因为 Instagram 现在都是 3D 生成的。我的意思是,AI 生成的视频。我花了一秒钟,而且我越来越频繁地花一分钟时间来思考,哦,这是 AI 生成的。有时我必须查看评论,并相信大众的智慧,在这方面。但我认为,你可能也不是最好的评判者。

人类,我的意思是,我们并不擅长知道物理学是否真的准确。这就是为什么电影导演在进行爆炸和其他各种有趣的事情(如海啸)时,可以对物理学采取如此宽松的处理。

是的。嗯,这就像某个喜剧演员开的玩笑。他们说尼尔·德格拉斯·泰森喜欢在《地心引力》之类的电影上映后出来谈论这些电影在科学上有多不准确,

而一些喜剧演员则说,好吧,乔治·克鲁尼和桑德拉·布洛克是宇航员,这难道一点也不让你困扰吗?但这很有趣,我们可以观看这些视频,观看这些电影,并且至少在那一刻完全相信它们是真的。就像我们可以让自己沉浸在那一刻。没错。就像,是的,我身处这个故事中。我现在观看乔治·克鲁尼在宇宙飞船中的场景时,我感到了情绪,即使我知道他不是宇航员。

我认为出于这个目的,我的意思是,在我加入英伟达之前,我从事电影制作工作。那就是我做的,电脑图形视觉特效。这是一种完全合法的技术应用。只是这种级别的模拟不足以构建将成为机器人大脑基础或基本组成部分的物理人工智能。

我不希望我的自动驾驶汽车或在工厂操作重型机械的机器人接受与现实世界不符的物理训练。即使它看起来对我们来说是对的,如果它不对,那么它就不会正确运行,这是危险的。所以这是一个不同的目的。这就是为什么我们使用Cosmos

它实际上与视频生成器属于不同类别的人工智能。你可以用它来生成视频,但目的是不同的。它不是为了生成美丽的图像或有趣的艺术图像。这是关于使用人工智能模拟物理世界来创建模拟。

雷夫,我想问你一个关于视频生成器并非缺陷,而是其正确捕捉事物能力的后续问题。

然后我们将从这个话题转移。但对我来说,听到你和谷歌DeepMind的首席执行官德米斯·哈萨比斯(他刚刚来过,并对此发表了评论)谈论这些视频生成器在理解物理方面有多么令人惊讶地好,这让我感到惊讶和有趣。简也基本上在我们之前的谈话中有效地说,人工智能很难解决这些问题。我不会说他们已经解决了。

但每个人都对他们达到这个阶段感到惊讶。那么,你对他们是如何做到这一点的最佳理解是什么呢?虽然有缺陷,但效果却如此之好?我想,这是一个万亿美元的问题。你知道,多年来我们一直在押注,如果我们只是向问题投入更多计算和更多数据,那么......

这些规模定律将赋予我们真正有意义的智能水平,这将是能力上的阶跃式变化。我们无法肯定地知道。这很难预测。感觉我们正处于指数曲线之上,但我们处于指数曲线的哪个部分,我们无法判断。

所以我们不知道这将发生得多快。老实说,我对这些Transformer模型能够在此时此刻达到这种程度地提取物理定律感到惊讶。在这一点上,我相信几年后,我们将达到人工智能的物理理解水平。

这将开启我们需要的、需要应用于机器人技术的大部分应用。让我再问你一个关于这个问题的问题,然后我们将休息一下,讨论将机器人技术(例如)应用于劳动力以及在我们生活的各个领域的一些社会影响。

肯定有一大部分人口会感到惊讶。也许不是我们的听众,但相当一部分人口会惊讶地听到英伟达本身正在构建这些世界基础模型,并发布权重以帮助其他人在其之上构建。我认为,一些外部人士的看法是,嘿,英伟达不只是一家制造这些芯片的公司吗?那么,雷夫,你对此有何回应?

是的,这就是人们的看法。自从我23年前加入英伟达以来,这就是人们的看法。我们只是制造芯片,这从来都不是真的。芯片是我们工作中非常非常重要的一部分。它们是我们构建的基础。但是当我加入公司时,大约有1000人,当时有1000名员工。绝大多数是

工程师,就像今天一样。我们的大多数员工都是工程师。而大多数工程师都是软件工程师。我本人就是一名软件工程师。我根本不知道如何制造芯片。因此,我们的计算形式,加速计算,我们发明的计算形式,是一个完整的堆栈问题。这不仅仅是一个芯片问题。

这不仅仅是我们扔过围墙的芯片,然后让其他人弄清楚如何使用它。除非我们拥有这些软件层,否则它将无法工作,而这些软件层必须拥有与我们芯片和系统的架构相协调的算法。因此,在我们进入的这些新市场中,詹森称之为“00亿美元产业”,

我们必须从上到下发明这些新事物,因为它们还不存在,而且其他人也不太可能这样做。因此,我们构建了很多软件,现在我们构建了很多人工智能,因为这是构建计算机以支持所有这些东西所必需的。我们这样做了......

在大型语言模型的早期。很多很多年前,我们训练了当时在参数数量方面最大的大型语言模型。它被称为Megatron。因为我们做了这件事,我们构建了我们的计算机、芯片和计算机以及系统软件、框架、管道和所有在线内容。

我们能够调整它们来完成这些大规模的事情,并将所有这些软件发布到那里,然后这些软件被用来创建我们今天享受的所有大型语言模型。如果我们没有这样做,我认为我们不会拥有ChatGPT。这基本上是一样的。我们正在创建一个不存在的新市场,一种新的能力。我们看到

这是一项大于英伟达的努力。我们需要许多其他人参与其中。但鉴于我们的规模和我们的特殊专业知识,我们处于独特的地位可以做出一些贡献。所以我们将去做。然后我们将免费提供给其他人,以便他们可以以此为基础进行构建。

是的。对于那些想知道英伟达目前为何在市场上占据如此重要地位的人,我认为你刚刚听到了答案。所以我想休息一下,然后我想谈谈

当我们假设类人机器人从事我们根本没有真正引入人工智能的经济部门的劳动时,对社会的影响,以及当它比知识工作多出数万亿美元时意味着什么,我们将在休息后讨论这个问题

我是托默·科恩,领英的首席产品官。如果你和我一样好奇事物是如何构建的,以及创造世界知名产品需要哪些见解,那么请收听我的播客《Building One》。有很多东西可以学习,例如巴塔哥尼亚如何通过其供应链进行创新。我们必须去拜访农民并说服他们......

这真的很难。或者Adobe如何考虑某人第一次与Photoshop交互的方式。我一直对人们如何导航和找到自己的方向感到着迷。曾经想过耐克是如何将情感融入乔丹品牌的?你必须痴迷于人类现状。而且不止于此。Gleam如何使用人工智能重新发明知识搜索?你可以了解米其林星级厨师如何重新设计种子以获得风味,以及皮克斯如何培养创造性文化。

在Apple Podcasts或你收听播客的任何地方收听《Building One》。我们回到了《Big Technology Podcast》节目,与雷夫·莱巴雷迪安一起。他是英伟达Omniverse和模拟技术的副总裁。雷夫,我想问你一个问题,这个问题自从我们开始谈论你将使机器人能够接管以来,一直萦绕在我的脑海中。我不知道。“接管”是否合适?

接管我们目前在劳动力中所做的许多工作。我的意思是,你认为这里有哪些劳动力影响?因为是的,如果你一生都在从事某种体力劳动,接下来你就会知道,有人使用Cosmos平台或你的新产品,我认为它叫做Groot,它叫什么?Groot。- Groot,这是我们为类人机器人设计的项目。

构建和训练类人机器人大脑。好的,所以Groot,你知道,一些公司使用Groot开始将类人劳动应用于,比如说,工厂,甚至作为护理机器人。我是一名护士。突然之间,某个Groot制造的机器人现在开始帮助照顾老年人。这会带来什么劳动力影响?首先,我认为我们需要理解

这是一个非常棘手的问题。这不像一夜之间我们将用机器人取代人类在任何地方所做的一切。这是一个非常非常困难的问题。我们现在正处于一个拐点,我们终于可以看到构建解锁这些通用机器人可能性所需技术的途径。那就是

我们现在可以构建一个通用的机器人大脑。20年前,情况并非如此。我们可以制造物理机器人,即机器人的实际身体,但它将毫无用处,因为我们无法赋予它一个能够使其以通用方式在世界上运行的大脑。我们无法以有用的方式与之互动或对其进行编程以执行任何操作。这就是这里解锁的内容。

我和很多工业部门、制造业、仓储业和零售公司的首席执行官和高管交谈过。在我与之交谈过的所有这些公司中,在每个地区,都存在一个反复出现的主题。

全世界都面临着人口问题。我们没有那么多年轻人愿意从事现在退休的老年人一直在做的工作。如果你去底特律或德国的汽车工厂看看。大多数工厂工人都在变老,他们很快就要退休了。

而我与之交谈过的这些首席执行官,他们最担心的问题是,他们关于如何运营这些工厂和在其中工作的所有知识。将会丢失。年轻人不想来做这些工作。因此,我们必须解决这个问题。如果我们要维持,不仅仅是发展我们的经济,而是维持经济现状并生产相同数量的东西,我们需要找到一些解决方案来

这个问题。我们没有足够的工人。我们在运输业中已经看到了这一点。世界上没有足够的卡车司机来运送我们供应链中所有正在移动的东西。我们无法雇佣足够的司机。而且每年想要从事这项工作的年轻人越来越少。因此,我们需要自动驾驶卡车。我们需要自动驾驶汽车来解决这个问题。

因此,我认为在我们谈论取代人类想要做的工作之前,我们首先应该谈论使用这些机器人来填补人类留下的空白,因为他们不再想做了。对,而且可能会有专业化,例如......

以护理为例,给我注射疫苗的护士或将药物放入我的静脉输液管的护士。也许我们会让这个人留一段时间,即使他们也会犯错。但如果那是人类,我会感觉舒服得多。在我进行膝盖置换手术后带我下楼散步的护士,那可以是机器人。

也许比机器人更好。我们将看看事情将如何发展。我们相信,我们将首先看到像类人机器人这样的通用机器人真正兴起的地方是工业部门,原因有两个。一是需求量很大,因为我们缺乏工人。而且因为......

在这些空间中采用它们更有意义,在这些空间中,公司只是决定将它们放在那里,而且仓库和工厂大多是看不见的。我认为我们将开始看到类人机器人出现的地方是我们的家,你的厨房。不要告诉杰夫·贝佐斯。

它们会出现在那里,我认为这将是不均衡的。这甚至取决于地理位置。它们可能比在德国慕尼黑某人的厨房出现之前出现在日本某人的厨房里。我认为这是一件文化方面的事情。我个人甚至不想要另一个人在我的厨房里。我喜欢人类。

在我的厨房里,自己准备东西。我和妻子总是在彼此的空间里,所以我们会有点烦躁。所以拥有一个类人机器人会有点奇怪。我甚至不想雇佣其他人来做这件事。我们自己做。所以这是一种个人决定。我认为像照顾我们的老年人和医疗保健这样的工作,这些都是非常人性化的事情。

人类职业。你知道,护理工作中有很多内容,实际上并不是他们正在做的体力劳动。而是与另一个人建立的情感联系。为此,

我认为机器人不会很快从我们这里夺走这一点。好吧,问题是,我们是否有足够的护理专业人员来承担这些工作?这似乎真的处于危险之中。因此,可能发生的情况是,这将是一种组合。我们现有的护理专业人员将做需要情商、需要同理心、需要真正理解你正在照顾的另一个人所做的事情。然后他们可以指导他们周围的机器人

协助他们完成所有更平凡的事情,例如清洁,也许注射和静脉输液,我不知道。雷夫,这个未来还有多久?你认为多久?我还不敢猜测在医院或护理环境中进行这种互动。

现在还不行。我相信它将首先在工业部门发生。我相信在几年内我们将看到它。我们将看到类人机器人在最先进的制造和仓储中得到广泛应用。太棒了。我想在结束之前问你一个关于好莱坞的问题。我想我脑海中有一个问题,那就是

我们是否只会看到看起来很真实但却是电脑生成的电影?就像我们现在有电脑生成的电影,CGI,但它们看起来都像是CGI。但我认为——好吧,它们并不都像CGI。其中一些看起来非常棒。有点真实。但我很好奇,你认为好莱坞是否会转向一个超级真实且只是模拟的领域?绝对会。

请继续。绝对会。我的意思是,一两年前,《猩球崛起》上映了吗?我和妻子去看过。现在,我和妻子从我90年代中期在迪士尼工作从事视觉特效和渲染开始就在一起了。我有一家做渲染的创业公司,她也是其中一员。所以她眼光很好,几十年来她一直从事电脑图形和渲染工作。

当我们去看《猩球崛起》时,尽管那些猿猴显然不是真的,但她有一次转过身来说,那是全部CG,对吧?她简直不敢相信。我认为Weta在那里所做的事情令人惊叹。除了猿猴会说话之外,它与现实生活无法区分。就像,除此之外,它与现实生活无法区分。

但问题是,以我们过去所做的那种传统方式来制作这种级别的CG,需要大量的艺术性和技能,世界上只有少数几家工作室才能拥有他们拥有的团队和他们构建的管道。而且制作成本非常高昂。

我们正在使用人工智能,使用生成式人工智能,特别是使用世界基础模型构建的东西,一旦我们达到他们真正理解他们需要产生像《猩球崛起》这样的东西的物理深度的地步,一旦我们有了它,当然他们会使用它。

这些技术来生成相同的图像,因为这样做会快得多,而且成本也会低得多。这种情况已经开始发生了。雷夫,我知道时间快到了。我还有时间再问两个问题吗?当然。好的。所以,我越思考机器人技术,我就越思考它在战争中的应用。我知道像

当你开发基础技术时,你无法想到每一种排列组合,但我们生活在一个战争变得越来越自动化化的世界中。这有点令人惊奇的是,我们有一些战争仍在进行,人们仍在战壕中作战。所以,我只是很好奇,你是否考虑过机器人技术如何在战争中应用,以及是否有办法防止由此可能产生的一些不良用途。

你知道,我不是战争专家,所以我并不认为我是谈论我的蜜蜂不是如何的人。但我可以说这一点。这不是第一次引入一项如此强大的新技术,我们不仅可以想象

对人们有益的伟大用途,而且还有其在战争中使用的真正可怕的毁灭性后果,不知何故,我们设法没有造成这种破坏,

总的来说,尽管今天可能感觉不像,但世界变得越来越好,越来越和平,越来越安全。几乎从任何衡量标准来看,我们通过战争和这类悲剧造成的生命损失都比人类历史上任何时候都少。当然,最大的一个,每个人都在谈论的是核技术。

我的意思是,我是在80年代长大的孩子。这是冷战的高峰期,也是冷战的结束。但我记得每天都在想,你知道,这可能会发生。我们随时都可能有一些洲际弹道导弹到达洛杉矶。但它没有发生,因为不知何故......

每个人集体达成的普遍理解,即这对每个人来说都是如此糟糕,以至于我们建立了系统,即使我们在苏联和美国之间存在激烈的竞争甚至敌对关系,

我们不知何故发现我们应该创建一个防止这种事情发生的系统。我们对生物武器和化学武器也做了同样的事情。很大程度上,它们没有被使用,即使这项技术已经存在。所以我认为这是一个很好的指标,说明我们应该如何处理这项新技术,这项强大的人工智能新技术。

以及让我们对能够拥有这项技术而不至于造成如此毁灭性后果感到乐观的原因。我们可以制定规则和约定,即使可以使用人工智能以这种方式,我们也不应该这样做,我们都应该对此达成一致。任何越过这条线的人

应该为此承担后果,以阻止他们以这种方式使用它。是的,我希望你是对的。这似乎是我们作为一个社会将随着这些东西变得越来越先进而越来越多地处理的事情。好的,最后一个问题。

你已经在英伟达工作了,我们已经谈过几次了,23年了。我已经预告过了。所以,我只想问你,技术一直有利,它并不总是有利。你现在处于世界之巅,尽管上周出现了一些小问题,但无论如何。这似乎不会成为长期问题。你从你在英伟达的工作中可以告诉我们的一个见解是什么,关于技术世界是如何运作的?

首先,我可以告诉你英伟达是如何运作的。是的,这很好。我在这里的原因是我在这里工作了23年,这将是我最后一份工作。我对此很有把握。当我加入英伟达时,这不是计划。我认为我会在这里待一年,最多两年。现在已经23年了。当我达到20年时,

詹森在我们的下一次公司会议上列举了一堆关于各个团队在这里待了多久的统计数据,有多少人待了一年、两年等等。当你达到20年时,有超过650人待了20年。早些时候我说过,当我加入公司时,大约有1000人。这意味着当我开始在英伟达工作时在那里的大多数人20年后仍然在那里。

当我达到20年时,我并不像我想象的那么特别。这实际上是英伟达的一个非常奇怪的事情。我们有一些在这里工作了很长时间的人没有离开。对于大多数公司来说,这很奇怪,但对于硅谷科技公司来说尤其如此,人们经常更换工作。我相信我们之所以能够在所有我们的磨难和苦难中坚持下来,是因为

从根本上说,詹森在这里建立了一家公司,人们来这里做他们一生的工作,我们真的意思是:当你在这里时,你会感受到这一点。这不仅仅是赚钱或找工作。你来到这里是为了做伟大的工作,做你一生的工作,所以离开的想法只是

对我来说感觉很痛苦。我认为对许多其他人来说也是如此。我认为这实际上是为什么,尽管英伟达经历了起起伏伏。你可以回顾我们的股票图表,追溯到2000年代中期。我们在2006年推出了CUDA。这是一件非常重要的事情。我们坚持了下来。

分析师和没有人希望我们继续坚持下去,但我们继续投资它。我们的股价受到了巨大冲击,并在很长一段时间内保持平稳,持平或下跌。然后它终于发生了。人工智能诞生于我们的GPU上。这就是我们一直在等待的。我们全力以赴。从那以后,我们经历了起起伏伏。我们将继续经历起起伏伏,但我认为趋势仍然是向上和向右的,因为

这是一个令人惊叹的地方,那些想要做他们一生工作的人,世界上最优秀的人,他们想要做他们一生工作,他们来到这里,他们留在这里。

是的。雷夫,你看,和你交谈总是如此令人愉快。我非常享受我们在英伟达总部的时光。那是一天非常有趣的日子。我们做了一些很酷的演示,我很感激。我很高兴有机会今天和你谈论这项技术。这是一项令人着迷的技术。它是尖端的。显然,它引发了很多问题,我们今天已经解决了一些问题。我相信我们可以聊三个小时。我希望能够继续进行对话。感谢你来到节目。

感谢你的邀请,希望我们有一天能聊三个小时。那将很棒。好了,各位。感谢收听。Ranjan和我将在周五回来分析新闻。本周已经有许多新闻,OpenAI的深度研究即将发布。我刚刚为ChatGPT支付了200美元,这比我曾经想象的每月费用要高得多。但这就是我们今天的处境。所以我们将在周五讨论这个话题以及更多内容。感谢收听。我们下次再见,在《Big Technology Podcast》节目中。