We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode How AI robots learn just like babies—but a million times faster w/ NVIDIA’s Rev Lebaredian

How AI robots learn just like babies—but a million times faster w/ NVIDIA’s Rev Lebaredian

2024/12/3
logo of podcast The TED AI Show

The TED AI Show

AI Deep Dive AI Insights AI Chapters Transcript
People
B
Belaval
R
Rev Lebaredian
Topics
Belaval: 我认为计算机在许多领域已经超越了人类,但在机器人掌握物理智能方面仍然面临挑战。人类的物理技能是通过多年的练习和经验积累而获得的,而现实世界的练习是无法加速的。 然而,NVIDIA已经开发出强大的模拟环境,使机器人能够以超快的速度学习和掌握新技能。数百万次的重复练习,对于人类来说可能需要数年时间,但在模拟环境中只需几分钟就能完成。这在自动驾驶汽车领域已经有所体现,但其潜力远不止于此。通过构建能够理解物理世界的AI,NVIDIA为能够彻底改变各个行业、辅助复杂手术甚至帮助家务的机器奠定了基础。 那么,机器人如何发展出一种物理直觉呢?随着我们不断突破机器人的界限,未来会面临哪些挑战和机遇呢? Rev Lebaredian: 我的职位是NVIDIA Omniverse和模拟技术的副总裁,这是一个相对较新的概念。我职业生涯的早期是在好莱坞从事视觉特效工作,为《金刚》和《精灵鼠小弟》等电影制作高保真、高质量的奇幻世界。23年前,我加入NVIDIA,希望将我在电影中所做的工作——实时、快速地创建高保真、高质量的奇幻世界图像——通过GPU的计算能力,从电影中的线性体验转变为视频游戏或XR等沉浸式体验中的交互式体验。 NVIDIA从一家游戏硬件公司发展成为AI和模拟领域的领导者,其核心是加速计算。公司的创立理念是,通用计算机(基于CPU的架构)虽然强大,但在某些计算问题上速度不够快。摩尔定律虽然在一段时间内使计算能力快速提升,但我们认为,如果等待摩尔定律提供足够的计算能力来进行某些操作(例如视频游戏的计算机图形渲染),我们将不得不等待数十年甚至数百年。因此,NVIDIA致力于创造一种新的计算形式,它并非万能,但可以解决通用计算机无法解决的许多问题。我们称之为加速计算,并发明了GPU。 我们首先解决的是视频游戏中图像的3D渲染问题。在NVIDIA成立的1993年,这个市场还不存在。可编程着色技术的引入使GPU能够用于更多领域,而非仅仅是电脑图形渲染。在2000年代初期,我们为GPU添加了一个关键特性,即可编程着色,它模拟光线与3D世界中材料的交互方式。这使得塑料看起来像塑料,铝看起来像铝,木材看起来像木材。在此之前,我们能够使用的着色器和材料种类非常有限,这使得视频游戏看起来非常简单或卡通化,而不是逼真。在电影世界中,我们不受时间限制,可以花费数小时进行渲染。因此,电影中计算机生成的图像质量与视频游戏中看到的图像质量之间存在巨大差异。我们引入了可编程着色,这一特性使我们能够将相同的GPU用于计算机图形和渲染以外的更多用途。 很快,我们看到并非从事计算机图形学的其他研究人员也开始利用GPU的计算能力。他们将其他类型的物理问题(例如分子动力学和流体动力学)表述为计算机图形学问题。当我们意识到这种情况时——人们愿意将自己扭曲成使用图形API来做其他事情——我们说,让我们为他们简化操作。我们于2006年引入了CUDA,这是一种更自然的方式,可以在我们的GPU上编程非图形的通用事物。我们基本上等了六七年,看看杀手级应用是什么。我们设想某个开发者(可能是一位研究生)会想出一些令人惊叹的事情来利用这种计算能力,这花了一段时间。 2012年底,大约七年后,我们终于迎来了那一刻。发生的事情是多伦多大学的两名研究生和他们的教授——Ilya Sutskever、Alex Krizhevsky和他们的教授Geoffrey Hinton(他刚刚获得诺贝尔奖)——在2012年底发表论文时,他们使用名为AlexNet的深度学习神经网络击败了所有图像分类基准测试。这彻底改变了一切。这令人难以置信,因为在那之前,基本上所有其他针对ImageNet基准测试的方法都没有真正获胜,因为没有采用这种深度学习方法。这是深度学习第一次在计算机视觉领域让所有人为之震惊。 这有点疯狂,因为最初是从可编程着色器开始,试图让好莱坞的电影效果实时在你的电脑上运行。但正如你所说,同样的能力开启了计算机视觉的全新世界,并且肯定引起了全世界的关注,特别是你们(NVIDIA)的关注,我猜想比其他任何人都早。这是完全正确的。这似乎违反直觉,这个用来创建图像的东西竟然是你构建智能所需要的东西。但实际上,这一切都归结于计算。我们为计算机图形而构建的计算形式,我们处理大量的像素、大量的三角形、大量的在场景中四处反弹的光线。同样的计算形式也是你进行所有张量数学、所有矩阵数学所需要的东西。图像分类问题是一个长期存在的问题,我们都知道如果能够解决它将是多么伟大。自20世纪50年代以来,人们一直在试图解决这个问题。 这是一件非常有用的事情,能够自动区分你提供给计算机的图像中的内容。在那之前,我们会找一个非常聪明的人,一位计算机科学家,这个人会想象出一个能够进行图像分类的算法,然后将大脑中的内容转换成计算机并生成一个程序。这里发生的变化是,我们第一次能够创建一个算法来解决任何人都无法想象的问题。我们解决这个问题的方法是使用一台大型计算机(实际上是一台超级计算机)。我们向它提供了数百万个图像示例,并说,当你看到一个看起来像这样的图像时,那就是一只猫。当你看到一个看起来像这样的图像时,那就是一条狗。当你看到这个图像时,那就是一架飞机。我们做了足够多次,它就编写了软件,编写了算法,能够进行图像分类。因此,它做得比任何人类能够想象的算法都要好。 这太疯狂了,对吧?你谈论的是人类编写软件的时代。现在软件正在编写软件。这是正确的。有两个基本要素,一台超级计算机,大量的计算,你给它一大堆数据或你希望它做的事情的例子,它会根据你给它的例子为你找出算法。第一个,构建大型计算机,这是我们的强项,对吧?这是NVIDIA擅长的事情。我们喜欢构建强大的计算机并对其进行扩展。这就是十多年前我们开始做的事情。NVIDIA最近的爆炸式增长本质上是......因为我们十多年前押注这些大型计算机将非常有用。这就是现在每个人都在争先恐后想要的东西。他们正在建立这些AI超级计算机。 是的,每个国家和公司都想要更多你们的GPU。当然,最近的需求主要来自大型语言模型和扩散模型,我们在播客中讨论过很多次。但很有趣,就像ChatGPT一样酷,能够输入提示并获得图像一样酷,这些东西并不是圣杯。这些系统有其局限性,对吧?在我们转向物理AI时,你能谈谈这一点吗?是的,这是完全正确的。当我们意识到这种变化有多么深刻时,我们能够通过这种新的深度学习和AI技术来产生我们从未想过在我们有生之年能够拥有的算法。我们问自己的下一个问题是, 既然我们有了创造这些令人惊叹的新事物的可能性,我们应该去创造哪些呢?哪些将是最有价值和影响力的事情呢?现在,如果你退一步想想计算行业、IT行业,它在全球每年大约在2万亿到5万亿美元之间,这是一个巨大的数字,对吧?这是一个非常大的行业。然而,所有其他行业,那些与我们的物理世界相关的行业,原子世界,那是100万亿美元。这包括交通运输、人员运输、货物运输等市场。它包括制造业,即重新组合原子形成产品。它包括药物发现和设计,将原子重新组合成药物,等等。像所有这些关于我们物理世界的方面, 至少就人类通过市场对它们的价值而言,比信息要高得多。现在,信息是我们最容易数字化的事情。因此,我们使用这种新的机器学习、深度学习AI技术开发的第一个算法是有道理的,它将使用我们 readily available 的所有数据,这基本上就是互联网上的数据。但是,如果我们能够以某种方式利用这种新的超能力, 并将其应用于原子领域,我们就能解锁这个价值100万亿美元的市场。所有这些市场都采用制造业,例如。我们将IT和计算应用于制造业等市场。但是,如果你走进一家工厂,它与50年前的工厂并没有太大区别。它们在很大程度上没有受到计算的影响。 我们之所以无法做到这一点,是因为我们还没有真正建立起物理世界和计算世界之间的桥梁。连接比特和原子,宝贝。让我们开始吧。是的。如果你再考虑一下,桥梁本质上是机器人。完全正确。因此,我们考虑了这一点,并说,这现在可能成为现实。机器人技术,长期以来一直是一个梦想。但我们一直缺少的是构建机器人所需的基本算法, 一个真正有用的机器人大脑,以便我们能够将计算应用于现实世界。那么什么是机器人呢?机器人本质上是我们现实世界中的一个代理,它做三件事,并且循环地做这三件事。机器人是 感知我们周围的世界,物理世界。它通过传感器输入世界。它们可以是摄像头、激光雷达和雷达,各种传感器,无论传感机制是什么。它对输入的内容进行一些理解。它理解输入的内容。本质上,第一个神经网络AlexNet就是这样做的。它从现实世界中获取一些信息,一张图像, 照片,并理解其中的内容。接下来它做的事情是,物理世界中的机器人代理,它获取这些信息,即感知到的信息,并做出一些决策。决定它应该如何行动,它计划并决定它将如何影响世界。 第三件事是驱动。它实际上在世界上做一些事情。因此,一旦它做出决定,它就会做一些实际上移动或影响物理世界的事情。一旦发生这种情况,它就是一个循环。你感知你对世界的改变, 更新你的决定和计划,然后驱动。根据这个定义,许多东西都是机器人,而不仅仅是我们通常认为的机器人,比如C-3PO或R2-D2。自动驾驶汽车绝对是机器人。它必须感知周围的世界。其他汽车、停车标志、行人、骑自行车的人在哪里?它们的速度有多快?我周围的世界是什么样的? 在汽车周围,做出一些关于如何到达最终目的地的决定,并驱动、转向、制动或加速,而这个东西在一个循环中运行。如果你这样定义的话,很多东西都是机器人。我现在所在的建筑,也就是我们的Endeavor大楼,我们的总部, 每天当我进入它时,在接待区,我们有旋转门。那里有传感器。有一些摄像头。他们知道我什么时候走到旋转门前。它感觉到我走近了,然后根据图像分类算法决定我是谁, 与最初的AlexNet类似。一旦它确定我是Rev,它就可以在我的数据库中查找我,我是否应该有访问权限,然后它就会在世界上驱动。它打开旋转门让我通过,并在某个地方更新一些计数,现在我已经进入主要区域了。 因此,这座建筑本质上就是一个机器人。因此,如果你这样考虑机器人,并将机器人系统视为计算与价值100万亿美元的与物理世界打交道的行业的桥梁,你就会开始兴奋起来。你会想,哇,我们现在有可能对许多其他行业产生重大影响。 因此,关于这一点,我的意思是,这很有趣,对吧?你谈论的是几十年来工厂没有发生变化。你是对的。有一些企业资源计划软件来跟踪物品的库存以及物品的移动方式。但是原子世界并没有像比特世界那样取得那么多进步。为了释放这些基于物理的行业中巨大的、物理的、巨大的机会,缺少的部分是什么?我们今天没有的是什么?你们正在构建什么来实现这一点? 是的。这就是模拟发挥作用的地方。如果我们回到我们过去如何编写软件以及这种新的AI形式的关键区别,一个是超级计算,另一个是你需要那些数据或示例集来提供它,以便我们能够编写函数。那么,我们从哪里获取这些数据呢? 来学习我们周围世界的物理规律。你如何收集这些数据?它并不存在于互联网上。我们在互联网上拥有的东西主要是那些易于数字化的东西,而不是物理世界中的东西。 因此,我们的论点是,我们获得所需所有数据的唯一方法是,基本上将物理世界和所有物理世界的定律放入计算机中,创建一个物理世界的模拟。一旦你有了它,你就可以产生所有你需要的数据,基本上是这些AI学习物理世界的训练场。你不再受限于 我们现实世界中存在的所有限制。我们可以比现实世界中的时间更快地进行训练。只需增加更多的计算能力,你就可以每秒进行数百万秒的模拟。哇。从现实世界收集数据非常昂贵。让我们以一种机器人为例,自动驾驶汽车,自动驾驶车辆。 如果你想训练一个网络来感知一个孩子在任何条件下穿过街道,任何光照条件,任何城市。一年中的不同时间,所以不同的天气。是的,不同的天气条件。你将不得不实际走到现实世界中,让一个孩子在你车飞驰而过时穿过街道,并捕捉到它。 我的意思是,首先,很明显,这样做是不道德的,我们不应该这样做。 但仅仅是它的繁琐性,在每种可能的长期尾部场景中捕捉它,这简直是站不住脚的。你做不到。这太昂贵了,而且根本不可能。你知道,有一些非常罕见的天气条件。你可能希望在火山灰飘落的相同条件下,这可能发生在夏威夷。你甚至如何构建这种场景呢?但在模拟中,我们可以创造这一切。 此外,当你从现实世界获取数据时,你只有所需数据的一半。我们还需要了解这些信息和非结构化信息内部的内容。标签。标签,没错。因此,对于AlexNet,当他们训练它时,他们不仅有图像, 但他们还有标签,说明该图像是猫还是狗。当我们模拟一个世界时,我们可以完美地自动生成标签。你几乎可以免费获得它。但是,当你在现实世界中这样做时,你必须有一支人类军队或其他一些添加标签的机制,而且它们将是不准确的。在你将其部署到现实世界之前,你可能希望确保它能够工作。我们不想将机器人大脑放入自动驾驶汽车中。 并且只是希望当那个孩子穿过街道时它会工作。去测试它的最佳地点是在虚拟世界中,在模拟中。这是一个非常冗长的方式来达到,这本质上是我近年来一直在研究的。 在NVIDIA,我们多年前就看到了这种需求,所以我们开始构建我们所谓的Omniverse。Omniverse是一个“操作系统”,我们将所有模拟和虚拟世界技术都收集到其中。Omniverse的目标是专门进行尽可能物理精确的模拟。 这是关键。它必须与现实世界相匹配,否则我们的机器人将学习来自错误的物理定律。这与我之前所做的工作截然不同。 以及我在电影中的工作,以及进行模拟以制作我们在视觉特效和CGI电影或视频游戏中看到的令人惊叹的图像,这一切都是为了创造看起来非常酷的奇幻世界图像,虚假世界。 有各种各样的东西我们都在作弊。我们添加额外的灯光和化妆,并且为了使电影有趣、酷炫或令人兴奋,我们正在违反物理定律。尽管如此,这其中确实有一些诗意的东西。 它基本上可以追溯到你职业生涯的开始,就像所有这些东西,你们构建的所有这些能力来模拟物理定律,比如光传输,以及使材料特性正确。因此,反光、光泽、反射和折射都看起来非常好。这正是你所需要的。正如你所说,显然以物理精确的方式进行了调整。因此,这些机器人拥有某种可信的数字孪生、副本或现实世界的复制品,它们可以自由地犯错,并且 但还有你提到的时间膨胀方面,你可以扩展并让这些模型在数字领域做一些事情,就像在物理世界中需要永远才能做的事情一样。而且感觉这还有另一部分,就是你创建这些现实世界的数字复制品,它成为训练数据,因为正如你所说,你没有互联网可以从中提取所有这些文本或图像数据。 但是,你让机器人尝试一些事情,并且存在这种模拟与现实世界之间需要跨越的领域差距。你们正在构建的其他一些能力是什么,以实现这一点?是的,我有点过于简化了我们如何构建这些AI,只是将数据输入机器人。 进入超级计算机,然后就会出现这个令人惊叹的机器人大脑。这就是我们做的一些事情,但还有许多不同的学习形式。我认为你正在谈论的是所谓的强化学习。事实证明,这些机器人,学习的最佳方法之一就像人类和生物学习一样。当一个婴儿出生时,一个婴儿出生在这个世界上, 它仍然不理解周围世界的物理规律。婴儿看不见深度,他们还不能真正看到颜色,他们必须学习如何看颜色。随着时间的推移,几周后,他们开始学习这些东西。他们开始学习如何分类。他们对妈妈、爸爸、兄弟姐妹和苹果、保罗、苹果等周围的所有东西进行分类。他们只是通过经验来学习。 他们还通过大量的实验来学习物理定律。因此,当你第一次开始给你的婴儿食物并将食物放在他们面前时,他们做的第一件事之一就是扔掉它或扔掉它,打破东西,扔东西,弄得一团糟。这些本质上是科学实验。他们都是小科学家,他们尝试各种东西直到他们学会它。一旦他们理解了物理规律是如何运作的,他们就会继续前进。机器人以同样的方式学习。 通过这种称为强化学习的方法,我们将它们扔进虚拟世界或现实世界,但在现实世界中这样做太慢了。通常,我们是在虚拟世界中进行的。我们赋予这个机器人感知和驱动虚拟世界中的能力。 但它实际上什么也不知道。但我们给它一个目标。我们会说,“站起来”。我们让他们尝试数百万次站起来。你所暗示的,这个Isaac Sim,这是我们构建在我们Omniverse平台之上的机器人模拟器,在这个“操作系统”上,它允许你做许多你需要做的事情来构建机器人大脑, 其中一件事情就是强化学习。它几乎就像一个构建在Omniverse之上的训练模拟器,它可以自由地犯错。而且你几乎就像,就像你说的,我喜欢时钟时间和加速它的概念。你将所有这些学习和进化的时期压缩成一些可管理的东西。然后你把它放到一个现实世界的机器人中,它仍然有效。这是完全正确的。 模拟时间不受时钟时间的限制。如果我将计算量增加一倍,将计算机的大小增加一倍,那么我就可以进行两倍的模拟,也就是两倍的模拟小时数。因此,缩放定律在这里以一种深刻的方式适用。这真是神奇。 让我们谈谈物理AI的应用,它显然适用于许多不同的领域。我们谈到了自动驾驶汽车。有机器人辅助手术。你提到了自动化仓库。你能分享一些物理AI目前如何影响这些领域以及它为这些过去停滞不前的行业解锁了什么方面的例子吗?我认为它影响最大的第一个地方,第一个领域是自动驾驶汽车。 一旦我们发现了这种深度学习机器学习的东西,我们立即看到的第一批机器人 所有这些来自不同公司的努力,去建造自动驾驶汽车,无论是机器人出租车还是商用汽车内的辅助系统。它现在已经成为现实。就像,我不知道你是否去过旧金山或凤凰城或......我们在奥斯汀也有Waymo。是的,Waymo。我没想到他们也在奥斯汀。这太棒了。大约一个月前我在凤凰城机场,而且...... 我在等我的Uber,五辆Waymo接走了站在我旁边的人。这非常普通。只是又一天。只是又一天盯着他们的手机,就像什么也没发生一样上了车。这是十年前无法想象的。 现在它已经变得司空见惯了。所有这些都是由这些AI算法驱动的。现在,我不知道Waymo或任何其他公司的内部情况,但有一种趋势正在发生,我们正在从更具体的AI转向更通用的统一模型,这些模型建立在转换器架构之上,这与大型语言模型相同。我们开始看到这些机器人模型 更通用。这就是我们所说的物理AI以及下一波浪潮。本质上,拥有这些对我们周围物理世界有普遍理解的基础模型, 你用它作为基础,作为基础,然后根据你的特定目的进行微调。就像我们有LAMA和GPT和anthropic模型一样,然后从那里你对特定类型的任务进行微调。我们将开始看到许多新的物理AI模型,它们只是理解物理世界的普遍规律。然后我们将采用这些模型,并对其进行微调,使其专门用于不同类型的机器人任务。 因此,机器人测试就像你知道你家里的Roomba一样,当然还有仓库机器人,甚至还有自动驾驶汽车,没错,它们可以是仓库中的拾取和放置机器人,它们可以是AMR,它们基本上是小型驾驶平台,在这些仓库和工厂中穿梭,它们可以是在工厂内部、外部飞行的无人机,这就是我想要的,顺便说一句,我希望像我的阳台上一样,通过无人机送来一杯热拿铁,而不必在交通中穿梭。而且它是热的,而且会送到你那里。是的,我不确定我是否同意你这一点。我不知道我是否想让数千架无人机在我的社区周围飞来飞去,到处投放拿铁。这是我亲自在家手工制作的为数不多的几件事之一。是的。 你喜欢你的拿铁艺术吗?我每天早上为我的妻子做一杯。这几乎是我每天做的第一件事。它让我融入这个世界。所以我不需要无人机这样做。说得对。说得对。你如何看待我们目前在物理AI能力方面所处的位置?我不知道GPT-1234命名法是否是思考这个问题的正确方法。但我很好奇,当你考虑我们现在所处的位置以及我们要去的地方时,你对未来有什么看法? 在物理AI能力的成熟度方面,特别是这种对能够理解并能够在物理世界中采取行动的代理的更通用的方法,我们处于哪个阶段?我认为我们正处于起步阶段。我不知道如何将其与GPT-1234精确地联系起来。我不确定这是否有效,但我们正处于这一阶段的开始。 话虽如此,我们也在构建GPT-1234,以及大型语言模型本身。输入这些基于文本的或大型语言模型的数据实际上也与物理AI模型相关。在用于训练它们的文本描述中,包含了关于物理世界的的信息。我们谈论的是红色等事物,以及 将书放在书架上 以及物体下落,这些抽象的概念仍然是相关的。它只是不够充分。如果一个人从未见过这些东西,从未触摸或体验过它,只有描述红色的词语,他们就不会真正理解它。正如你之前所说,它没有扎根于物理世界。对。因此,他们将采用所有这些不同的信息模式并将它们融合在一起,以更全面地理解我们周围的物理世界。 一个很好的类比就像我们大脑的不同部分?就像这些大型语言模型非常擅长推理这种象征性的文本世界一样。关于视频模型能够走多远以及如何再现世界的物理规律,存在着各种争论。但听起来你只是创建了另一个与这些其他部分协同工作的基元,它实际上扎根于现实世界,并且已经看到了物理世界以及你所谈到的所有极端情况的例子。然后,作为一个整体的系统,它具有更强大的能力。 没错。我认为关于你能用这些视频模型走多远存在争议,因为有物理世界的存在。现在,即使是我们现有的更有限的视频模型,它们也不是只用视频进行训练的。它们是多模式的。来自非视频来源的信息很多。有文本和字幕以及其他包含在其中的内容。因此,如果我们可以 引入更多模式的信息,例如你在模拟器中拥有的世界状态。在模拟器中,我们知道3D空间中每个物体的位移。我们知道每个像素的距离。我们不仅看到世界上的事物,我们还可以触摸它,我们可以闻到它,我们可以尝到它。我们有多种感官体验融合在一起。 为了让我们更全面地了解我们周围的世界。就像现在,我坐在这个椅子上。我看不见我的头顶后面,但我敢肯定,如果我把我的手放在我身后这里,我将能够触摸到椅子的后面。这就是本体感受。我知道这一点,因为我对周围的世界有一个模型,因为我能够通过我所有的感官来综合它,并且那里有一些记忆。 我们基本上是在复制相同的过程,相同的基本思想,以及我们如何训练AI。首先,缺少的部分是这个转换器模型,这个想法是我们只是抛出各种非结构化数据,这个东西,它会找出,它会创建这个通用模型。 它可以通过理解复杂的模式来做各种不同的事情。所以我们有了它,我们需要所有正确的数据来输入它。因此,我们的信念是,很多,如果不是大多数的话,这些数据将来自模拟,而不是来自互联网上恰好存在的数据。所以你关于 是的,世界状态的观点很有趣。就像你拥有,用书呆子的话来说,3D场景图。正如你提到的,是的,就像各种物体的向量,所有这些你在视频游戏中认为理所当然的东西,然后可以与其他图像数据一起扔进转换器中,也许可以将其简化为看起来像一个真实的传感器。然后突然之间,你可以,就像,它会建立一种理解或建立一种,我听说它被描述为一种通用的函数逼近器,来找出如何,是的,恢复 模拟所有这些其他感觉,如本体感受以及所有这些其他东西。我认为大约有30或40种。我听到我们有这么多时有点惊讶。也许机器人可以,我的意思是,它们甚至不受艺术的限制。你之前提到了激光雷达和激光,对吧?或者红外线。因此,就像在某些时候,这些机器人将,回到我们谈话的开始,超人。是的。我的意思是,我们也有在某些方面是超人的动物,对吧?蝙蝠可以用声音来感知。是的。 是的,鹰拥有变焦视觉。它们可以放大。当然,为什么它们不会在感知世界和在世界中行动的某些维度上成为超人呢?当然,在许多方面它们已经是了。我们有图像分类器,它可以比任何人都更好地对动物、所有品种的狗和植物进行分类。千真万确。因此,我们当然会这样做,至少在某些维度上是这样。♪ 在与Rev结束谈话时,我想到了几件事。哦,我的上帝,NVIDIA一直在玩长期游戏。他们找到了合适的切入点,电脑游戏,来降低所有这些基础技术的风险,而这些技术现在已经完全转变了。 世界各地的公司甚至政府都在购买Nvidia GPU,以便他们可以训练自己的AI模型,创建越来越大的计算集群,有效地将CEO黄仁勋变成了一种造王者。但特别诗意的是,他们投资的所有技术都是他们将让机器人漫游世界的工具。 我们正在创建一个现实的数字孪生,一个镜像世界,如果你愿意的话。它远远超出了预测天气等现实方面。它实际上是关于创建一个现实的完全保真近似值,机器人可以在其中自由地犯错,并且可以摆脱时钟时间的束缚。我也非常兴奋,因为创建这种类型的合成训练数据对我们作为消费者有很多好处。 例如,在家里训练机器人。我们真的想在家里最私密的地方收集大量数据吗?合成数据提供了一条非常有趣的途径,可以以保护隐私的方式训练这些AI模型。当然,我仍然想知道模拟与现实之间的差距是否真的能够克服。但看起来,差距将不断缩小。 谁知道呢?当元宇宙第一次进入公众意识时,每个人都在对它嗤之以鼻。就像,谁真的想要这个互联网的3D继承者呢?现在我认为元宇宙的杀手级用例根本不是为人类服务的,而是为机器人服务的。

Deep Dive

Key Insights

Why are robots struggling to master physical intelligence compared to humans?

Robots lack the years of practice and learned experiences that humans have accumulated through a lifetime of physical interactions. While humans can instinctively calculate trajectories and movements, robots require extensive training in simulated environments to achieve similar capabilities.

How does NVIDIA's simulation technology help robots learn faster?

NVIDIA's simulated environments allow robots to practice and learn at a supercharged pace, compressing tens of millions of repetitions that would take humans years into minutes. This accelerates the development of physical intelligence, enabling robots to master new skills much more quickly.

What is the potential market size for physical AI applications?

The market for physical AI is estimated to be around $100 trillion, encompassing industries like transportation, manufacturing, and drug discovery. This is significantly larger than the $2-5 trillion IT industry, highlighting the vast potential for AI to transform physical world industries.

What is the role of simulation in training robots for the real world?

Simulation allows robots to gather the necessary data to learn the physics of the real world without the constraints of the physical environment. It enables robots to practice in virtual worlds where they can make mistakes and learn from them, compressing real-world time into simulated time.

How does reinforcement learning help robots develop physical intelligence?

Reinforcement learning mimics how humans and animals learn, allowing robots to experiment and learn from their mistakes in a virtual environment. This method is particularly effective for robots to develop an understanding of the physical world through trial and error, similar to how babies learn.

What are some current applications of physical AI in industries?

Physical AI is currently transforming industries like autonomous vehicles, robotic-assisted surgery, and automated warehousing. For example, autonomous vehicles like Waymo are already being used in cities, and robots are being deployed in factories and warehouses to address labor shortages.

Why are humanoid robots gaining attention for general-purpose tasks?

Humanoid robots are seen as the most natural form for general-purpose tasks because they can navigate and interact with environments designed for humans. Their human-like shape allows them to be deployed in various settings, from factories to homes, making them versatile for multiple applications.

What are the potential benefits of physical AI in everyday life?

Physical AI has the potential to increase productivity by automating tedious and dangerous tasks, freeing humans to focus on more fulfilling work. It could also lead to a world of radical abundance by addressing labor shortages and improving efficiency across industries like agriculture, manufacturing, and transportation.

What challenges remain in bridging the gap between simulation and reality for robots?

The main challenge is ensuring that robots trained in simulations can effectively transfer their skills to the real world. While simulation provides a controlled environment for learning, the real world is unpredictable, requiring continuous refinement and testing to close the gap between simulation and reality.

Shownotes Transcript

Computers have been outperforming humans for years on tasks like solving complex equations or analyzing data, but when it comes to the physical world, robots struggle to keep up. It can take years to train robots to function in the messy chaos of the “real world” — but thanks to some unlikely help from the film and video gaming industry, robots today are using AI to fast-track their learning and master new skills using simulated environments. Rev Lebaredian is the vice president of Omniverse and simulation technology at NVIDIA, a company known for its work on advancements in video game graphics cards. Rev and Bilawal discuss how simulated “mirror worlds” can help robots learn faster, the trillion dollar market for physical AI, and the future of AI robot assistance in our everyday lives. For transcripts for The TED AI Show, visit go.ted.com/TTAIS-transcripts)