Robots lack the years of practice and learned experiences that humans accumulate from childhood through trial and error in the physical world. While humans can instantly calculate trajectories and movements, robots require extensive training in simulated environments to achieve similar physical intuition.
NVIDIA's simulated environments allow robots to practice and learn at a supercharged pace, compressing tens of millions of repetitions that would take humans years into minutes. This accelerates the development of physical intelligence, enabling robots to master new skills much more quickly.
The market for physical AI, which includes industries like transportation, manufacturing, and drug discovery, is estimated to be around $100 trillion. This is significantly larger than the $2-5 trillion global IT industry, highlighting the vast potential for AI to transform physical-world industries.
Simulation allows robots to gather the necessary data to learn the physics of the real world without the constraints of the physical environment. It enables robots to practice in virtual worlds where they can experience millions of scenarios, including rare and dangerous ones, that would be impossible or unethical to replicate in the real world.
Reinforcement learning allows robots to learn through experimentation, similar to how humans learn. By placing robots in virtual environments and giving them goals, they can practice millions of iterations of tasks, such as standing up or grasping objects, until they develop a deep understanding of the physical world.
Physical AI is currently being applied in autonomous vehicles, robotic-assisted surgery, automated warehousing, and drones. These technologies are already transforming industries by addressing labor shortages and improving efficiency in tasks that are tedious or dangerous for humans.
Humanoid robots are becoming more relevant because they can operate in environments designed for humans, such as factories, hospitals, and homes. Their human-like shape allows them to navigate stairs, ramps, and shelves, making them versatile for a wide range of tasks in both industrial and personal spaces.
The primary risks include safety concerns and the need for human oversight. Ensuring that AI systems are safe and that humans can intervene if needed is crucial. This includes maintaining the ability to turn off or pause AI systems and ensuring that humans are part of the decision-making loop.
The positive outcomes include increased productivity, reduced labor shortages, and the ability to perform tasks that are too tedious or dangerous for humans. This could lead to a world of radical abundance, where humans can focus on fulfilling and enriching work while robots handle the mundane and repetitive tasks.
电脑在解决复杂的方程式或分析数据方面已经超越人类多年,但在物理世界中,机器人却难以跟上。训练机器人适应“现实世界”混乱无序的环境可能需要数年时间——但由于电影和视频游戏行业的意外帮助,如今的机器人正在利用人工智能来加快学习速度,并使用模拟环境掌握新技能。Rev Lebaredian是英伟达Omniverse和模拟技术的副总裁,英伟达是一家以其在人工智能、视频游戏显卡、加速计算和计算机图形学方面的进步而闻名的公司。Rev和Bilawal讨论了模拟的“镜像世界”如何帮助机器人更快地学习,价值万亿美元的物理人工智能市场,以及人工智能机器人辅助在日常生活中的未来。有关TED人工智能节目的文字记录,请访问go.ted.com/TTAIS-transcripts</context> <raw_text>0 嘿,我是Belaval。在我们开始节目之前,我想请你帮个小忙。如果你喜欢TED人工智能节目,请花一点时间在你的播客应用程序中评分并留下评论。你最喜欢哪些剧集?你想听到更多关于哪些主题的讨论?你的反馈帮助我们塑造节目,以满足你的好奇心,邀请优秀的嘉宾,并为你提供最佳体验。
人工智能世界正在以前所未有的速度发展。众所周知,在许多领域,计算机早已超越了人类。但有一个领域对机器人来说一直难以掌握。
物理智能。我们在本播客中讨论了很多关于文本和图像生成的内容,这些技术需要多年的研究、巨大的计算能力和庞大的数据集才能开发出来。但与绘制3D空间和预测现实世界混乱随机性相比,这些都只是小菜一碟。那么,至少目前为止,是什么让人类占据优势呢?
很简单,我们练习了很多。想象一下,你是一位在球场外野的职业棒球运动员,看着飞来的球。瞬间,你的大脑计算出球的速度、旋转和轨迹,以预测它将落在哪里。对你来说,这感觉是自动的。
但这却是多年练习和学习经验的结果,不仅仅来自棒球,还来自一生中的物理互动。从童年时代起,在物理世界中反复试验的时刻就训练了你的大脑去理解物体如何移动和反应。对人类来说,掌握这些技能需要时间,因为现实世界的练习无法加速。
但幸运的是,对于机器人来说,这可以加速。英伟达这家以显卡而闻名的AI巨头,开发了功能强大的模拟环境,机器人可以在其中以超快的速度练习和学习。数千万次的重复,对人类来说可能需要数年时间,却可以在几分钟内完成。我们已经在自动驾驶汽车中看到了这一点,但其潜力远不止于此。
通过构建理解物理世界的人工智能,英伟达正在为机器奠定基础,这些机器可以彻底改变各个行业,协助进行复杂的手术,甚至帮助处理家务。那么,机器人如何发展一种物理直觉呢?随着我们不断突破机器人技术的界限,未来会面临哪些挑战和机遇呢?
我是Bilal Velsadu,这是TED人工智能节目,我们将在这里弄清楚如何在人工智能改变一切的世界中生活和蓬勃发展。嗨,我是Bilal Velsadu,TED最新播客《TED人工智能节目》的主持人,我将与世界领先的专家、艺术家、记者交谈,帮助你在人工智能改变一切的世界中生活和蓬勃发展。我很高兴能与IBM合作,他们是本集的官方赞助商。
现在,从通用人工智能试点到现实世界部署的路径往往充满障碍,例如自由数据流的障碍。但如果我告诉你有一种方法可以在你的数据所在位置部署人工智能呢?使用Watson X,你可以在任何环境中部署AI模型,在云端帮助飞行员导航飞行,在多个云端帮助员工自动化任务,在本地部署,以便设计师可以访问专有数据,
以及在边缘部署,以便远程银行出纳员可以协助客户。Watson X帮助你在任何需要的地方部署人工智能,以便你可以将你的业务带到任何需要的地方。访问ibm.com/Watson X了解更多信息,并开始在你最需要的地方注入智能。
你的业务是现代化的,为什么你的运营不是呢?是时候进行运营干预了。PagerDuty Operations Cloud是自动化和加速公司关键工作的基本平台。通过自动化和人工智能,PagerDuty帮助你以更高的弹性、更高的安全性以及更多的节省来运营。你准备好改变你的运营了吗?访问PagerDuty.com开始吧。
在我们即将迎来《独立宣言》250周年之际,TED正在前往美国民主的诞生地费城,开展一项激动人心的新计划。在整个2024年,TED和费城旅游局将合作,在一系列三次炉边谈话中探讨民主思想,在我们努力实现更完美的联盟的过程中,塑造我们共同的未来。
我们2024年的第三次也是最后一次关于共同前进的活动于11月20日在历史悠久的阅读码头市场举行。由TED策展人惠特尼·彭宁顿·罗杰斯主持,我们邀请了世界冠军辩论家朱莉娅·达尔和伊姆斯研究所的好奇心负责人斯科特·希吉奥卡进行TED演讲和主题讨论。感谢费城旅游局和我们的支持合作伙伴美国银行、康卡斯特NBC环球和Highmark。
访问visitphilly.com/ted了解更多关于此活动的信息,并了解我们2025年即将推出的激动人心的内容。我们今天的嘉宾Rev Liberadian在好莱坞开始了他的职业生涯,在那里他为《人猿泰山》和《精灵鼠小弟》等电影制作视觉效果。他在创建详细的动态3D世界的经验为他今天的角色奠定了基础,即英伟达Omniverse和模拟技术的副总裁。
在那里,他正在利用这一专业知识,通过应用模拟技术来教授机器人物理智能,从而突破机器人技术的界限。换句话说,就是如何理解和与现实世界互动。在我们的谈话中,我们探讨了英伟达(以其在游戏技术中的作用而闻名)如何成为生成式人工智能发展的关键参与者。什么是机器人,以及Rev对机器人改善我们生活的未来的愿景。
所以,Rev,欢迎来到节目。谢谢你邀请我,Bilal。在你职业生涯的第一部分,你从事娱乐行业的工作,帮助观众沉浸在幻想世界中。现在你的工作是帮助机器人沉浸在现实世界的模拟中。你能向我们的听众解释你在英伟达的角色吗?
从技术上讲,我的职位是Omniverse和模拟技术的副总裁。这是一个奇怪的头衔。我认为没有多少其他人像这样。这很奇怪,因为这是一个相对较新的概念。正如你提到的,我是在娱乐业,媒体娱乐业开始我的职业生涯的,从事视觉效果和计算机图形学。23年前我加入英伟达,希望把我之前在电影中所做的工作,
创造这种高保真、高质量的幻想世界图像,并实时进行,使用我们的GPU来增强计算能力,以便线性电影体验可以变成交互式体验,例如在视频游戏中或在XR等沉浸式体验中。
不过,我们花了一段时间才做到这一点。说到这一点,这些年来你拥有一个非常独特的视角,见证了英伟达从一家游戏硬件公司发展成为人工智能和模拟领域的领导者。你能分享一下你在英伟达的经历以及英伟达的使命这些年来是如何转变的吗?
这是一个非常好的问题。我认为很多人并不真正理解英伟达,这家“游戏公司”或这家为游戏PC制造芯片的芯片公司,是如何成为世界上最有价值的公司,并成为所有这些人工智能领域的核心。但如果你回顾一下公司创建之初的想法,它实际上就说得通了。
公司的创始原则就是这样一个想法:通用计算机,那些围绕CPU构建的计算机,自20世纪60年代以来我们围绕其构建所有计算机的架构,从IBM System 360开始。它们非常好,但有些计算问题它们的速度不够快无法解决。
现在,当时我们有摩尔定律。它不像物理定律那样是定律。它更像是对半导体如何每年或两年为相同价格或相同功率提供两倍计算能力的观察。在摩尔定律的鼎盛时期,它使得我们能够在10年内以相同的价格或相同的功率获得100倍的速度提升。但我们研究了摩尔定律,并说,如果我们等待摩尔定律给我们足够的计算能力来做某些事情,例如为视频游戏的计算机图形渲染,我们将不得不等待几十年甚至几百年,直到计算机足够快才能做我们想做的一些事情。因此,英伟达开始创建这种新型计算,
它不能做所有事情,但它可以做许多事情,而这些事情在使用这种通用计算机的情况下是不可能的。我们称之为加速计算。我们发明了GPU的概念。我们选择解决的第一个问题是为视频游戏制作这些图像的3D渲染问题。
在1993年英伟达成立的时候,还没有这个市场。实际上根本没有3D视频游戏。它们才刚刚开始。有《毁灭战士》和《德军总部》,就像刚出现的第一批游戏一样。是的,那是稍后才出现的,我认为。不是93年,也许不是95年,我认为。
因此,我们设想,如果我们能够帮助解决这个问题,就会围绕它形成一个市场,然后我们就可以使用相同的加速计算架构扩展到其他市场。这基本上就是发生的事情。快进几年,在21世纪初,我们在我们的GPU中添加了一个关键特性。它被称为可编程着色。
它模拟光线如何在3D世界内部与材料相互作用。这就是使塑料看起来像塑料、铝看起来像铝、木材看起来像木材的原因。在那之前,我们可以使用的着色器类型、材料类型非常有限,它们使视频游戏看起来非常简单或卡通化,而不是非常逼真。
在电影世界中,我们不受时间限制以及渲染所需时间的限制。我们可以花数小时进行渲染。因此,电影中计算机生成的图像质量与你在视频游戏中看到的图像质量之间存在很大的差异。我们引入了可编程着色,并且使它可编程的特性使我们能够将相同的GPU用于计算机图形和渲染以外的其他用途。
很快,我们看到研究人员和其他从事计算机图形学以外工作的人利用了我们GPU中的所有计算能力。
通过处理他们的问题,其他类型的物理问题,例如分子动力学和流体动力学,他们会将这些问题表述成计算机图形问题。当我们意识到这一点时,人们愿意将自己扭曲成使用图形API来做其他事情。我们说,让我们为他们简化操作。
我们引入了CUDA,这是一种更自然的方式,可以在我们的GPU上编程非图形的通用事物。我们基本上等了六七年,看看杀手级应用是什么。我们想象某个开发者,可能是一个研究生,将会想出一些令人惊奇的事情来利用这种计算能力,这需要一段时间。我们在2006年引入了CUDA,
在2012年底,将近七年后,我们终于迎来了那一刻。发生的事情是多伦多大学的两名研究生和他们的教授Ilya Suskiver、Alex Krushevsky以及他们的教授Jeff Hinton(刚刚获得诺贝尔奖),
他们在2012年底发表论文时,使用名为AlexNet的深度学习神经网络击败了图像分类的所有基准测试。这基本上改变了一切。
- 这太疯狂了,因为在那之前,基本上所有其他针对ImageNet基准的方法都没有真正获胜,因为没有这种深度学习方法。这是深度学习第一次在计算机视觉领域让所有人为之震惊。想象一下,它最初是从可编程着色器开始的,试图让好莱坞的电影级视觉效果在你的电脑上实时运行,这真是太不可思议了。但正如你所说,当你简化开发人员的操作时,
解锁了计算机视觉的全新世界,当然也引起了全世界的关注,特别是你们,我假设比其他人更早。完全正确。这似乎与直觉相悖,这个用来创建图像的东西,不知何故,也是你构建智能所需要的东西。但实际上,这一切都归结于计算和
我们必须为计算机图形构建的计算形式,我们处理大量的像素、大量的三角形、大量的在场景中反弹的光线。这种计算形式与你需要进行的所有张量数学、所有矩阵数学相同。图像分类问题是一个长期存在的问题,我们都知道如果能够解决它会很棒。自20世纪50年代以来,人们一直在试图解决这个问题。
能够自动区分你提供给计算机的图像中的内容是一件非常非常有用的事情。在那之前,我们会找一个非常聪明的人,一位计算机科学家,这个人会想象出一个可以进行图像分类的算法,然后将他们大脑中的内容转换成计算机并生成一个程序。这里发生的变化是,第一次,
我们能够创建一个算法来解决任何人都无法想象的问题。我们解决问题的方法是使用一台大型计算机,实际上是一台超级计算机。我们向它提供了数百万个图像示例,并说,当你看到看起来像这样的图像时,那就是一只猫。当你看到看起来像这样的图像时,它是一只狗。当你看到这张图片时,它是一架飞机。我们做了足够多次,它就编写了软件,编写了算法,
可以进行图像分类。因此,它比任何人类能够想象的算法做得更好。- 这太疯狂了,对吧?你谈论的是人类编写软件的时代。现在软件正在编写软件。- 没错。有两个基本要素,一台超级计算机,大量的计算,
你给它大量的数据或你希望它执行的操作示例,它会根据你给它的示例为你找出算法。第一个,构建大型计算机,这是我们的强项,对吧?这就是英伟达擅长做的。我们喜欢构建强大的计算机并将其扩展。所以这就是我们在十多年前开始做的。英伟达最近的爆炸式增长本质上是……
因为我们在十多年前做出的赌注,即这些大型计算机将是有用的。这就是现在每个人都在争先恐后想要的东西。他们正在建立这些人工智能超级计算机。
是的,每个国家和公司都想要更多你们的GPU。当然,最近的需求主要由大型语言模型和扩散模型驱动,我们在播客中讨论了很多。但很有趣,就像ChatGPT一样酷,能够输入提示并获得图像也一样酷,但这些东西并不是圣杯。这些系统有其局限性,对吧?在我们
将这次谈话转向物理人工智能时,你能谈谈这一点吗?是的,完全正确。当我们意识到这种变化有多么深刻时,我们能够通过这种深度学习和人工智能的新技术来产生我们从未想过会在有生之年拥有的算法。我们问自己的下一个问题是,
既然我们有了创造这些惊人新事物的可能性,我们应该去创造哪些呢?哪些将是最有价值和影响力的事情?现在,如果你退一步想想计算产业、IT产业,它在全球每年大约在2万亿到5万亿美元之间,这是一个巨大的数字,对吧?这是一个非常大的产业。然而,所有其他行业,那些关于我们物理世界的行业,原子世界,那就是100万亿美元。这包括运输市场,运输人类,运输货物。它包括制造业,它将原子重新组装成产品。它包括药物发现和设计,将原子重新组装成药物,等等。就像所有这些关于我们物理世界的事情一样,
至少就人类通过市场对它们的价值而言,比信息要高得多。现在,信息是我们最容易数字化的事情。因此,我们使用这种新的机器学习、深度学习人工智能技术开发的第一个算法,它将使用我们 readily available 的所有数据,这基本上就是互联网上的内容,这是有道理的。但如果我们能够以某种方式利用这种新的超级能力,
并将其应用于原子领域,我们将解锁这个价值100万亿美元的市场。所有这些市场都以制造业为例。我们将IT和计算应用于制造业等市场。但如果你走进一家工厂,它与50年前的工厂并没有什么不同。它们在很大程度上没有受到计算的影响。
我们之所以无法做到这一点,是因为我们还没有真正建立起物理世界和计算世界之间的桥梁。连接比特和原子,宝贝。让我们开始吧。是的。如果你再考虑一下,桥梁本质上就是机器人技术。完全正确。因此,我们考虑了这一点,并说,这现在可能成为现实。机器人技术,长期以来一直是一个梦想。但我们一直缺少的是构建算法所需的基本算法
一个真正有用的机器人大脑,以便我们可以将计算应用于现实世界。那么什么是机器人呢?机器人本质上是在现实世界中的一个代理,它做三件事,并且循环地做这三件事。一个机器人
感知我们周围的世界,物理世界。它通过传感器输入世界。它们可以是摄像头、激光雷达和雷达,各种传感器,无论传感机制是什么。它对输入的内容进行一些理解。它理解输入的内容。本质上,第一个神经网络AlexNet就是这样做的。它从现实世界中获取一些信息,一张图像,
照片,并理解其中的内容。接下来它要做的事情是,物理世界中的机器人代理,它利用这些信息,即感知到的信息,并做出一些决定。决定它应该如何行动,它计划并决定它将如何影响世界。
第三件事是驱动。它实际上在世界上做一些事情。因此,一旦它做出决定,它就会做一些实际上移动或影响物理世界的事情。一旦发生这种情况,它就是一个循环。你感知你对世界的改变,
更新你的决定和计划,然后去驱动。根据这个定义,许多东西都是机器人,而不仅仅是我们通常认为的机器人,例如C3P或R2D2。自动驾驶汽车绝对是机器人。它必须感知周围的世界。其他汽车、停车标志、行人、骑自行车的人在哪里?它们的速度有多快?我周围的世界是什么样的?
围绕汽车,做出一些关于如何到达最终目的地的决定,并进行驱动,转向、制动或加速,而这个东西在一个循环中运行。如果你这样定义的话,很多东西都是机器人。我现在所在的建筑,也就是我们的Endeavor大楼,我们的总部,
每天当我进入它时,在接待区,我们有旋转门。那里有传感器。有一些摄像头。他们知道我什么时候走到旋转门前。它感觉到我走近了,然后根据图像分类算法决定我是谁,这与最初的AlexNet并没有什么不同。一旦它确定我是Rev,它就可以在我的数据库中查找我,如果我有权限,然后它就会在世界上驱动。它打开旋转门,让我通过,并在某个地方更新一些计数,现在我已经进入主要区域了。所以这座建筑本质上就是一个机器人。
因此,如果你这样考虑机器人,并将机器人系统视为计算与价值100万亿美元的处理物理世界的行业的桥梁,你就会开始兴奋起来。你会想,哇,我们现在有可能对许多其他行业产生重大影响。因此,关于这一点,我的意思是,这很有趣,对吧?你谈到工厂几十年来没有变化,你是对的。
企业资源计划软件用于跟踪物品的库存以及物品的移动方式。但是原子世界并没有像比特世界那样取得那么大的进步,以解锁物理世界中巨大的机会,即基于物理的行业。缺少的部分是什么?我们今天没有的是什么?你们正在构建什么来实现这一点?
是的。这就是模拟发挥作用的地方。如果我们回顾一下我们过去编写软件的方式和这种新型人工智能之间的关键区别,一个是超级计算,另一个是你需要那些数据或示例集来提供给它,以便我们可以编写函数。那么,我们从哪里获取这些数据呢?
来学习我们周围世界的物理规律。你如何收集这些数据?它并不存在于互联网上。我们在互联网上拥有的东西主要是那些易于数字化的东西,而不是物理世界中的东西。
因此,我们的论点是,我们获得所需所有数据的唯一方法是,本质上是将物理世界和所有物理世界的规律放入计算机中,创建一个物理世界的模拟。一旦你有了它,你就可以产生所需的所有数据,本质上是这些AI学习物理世界的训练场。你不再受到限制。
受到我们在现实世界中遇到的所有限制的约束。我们可以比现实世界的时间更快地进行训练。只需增加计算能力,你就可以获得每秒现实世界的时间。我们可以在模拟世界中进行数百万秒的训练。哇。从现实世界收集数据非常昂贵。让我们以一种机器人为例,自动驾驶汽车,自动驾驶车辆。
如果你想训练一个网络来感知一个孩子在任何条件下跑过马路,任何光照条件,任何城市。一年中的不同时间,因此天气不同。是的,不同的天气条件。你必须真正去现实世界,让一个孩子在你车飞驰而过时跑过马路,并捕捉到它。
我的意思是,首先,很明显,这样做是不道德的,我们不应该这样做。
但仅仅是它的繁琐性,在每种可能的长期尾部场景中捕捉它,这根本是不可行的。你做不到。这太昂贵了,而且根本不可能。你知道,有一些非常罕见的天气条件。你可能希望在火山灰落下时拥有相同的条件。这可能发生在夏威夷。你甚至如何构建这种场景,对吧?但在模拟中,我们可以创造这一切。
此外,当你从现实世界获取数据时,你只有所需数据的一半。我们还需要了解这些信息内部的内容以及非结构化信息。标签。标签,没错。对于AlexNet,当他们训练它时,他们不仅有图像,
而且他们还有标签,说明该图像是猫还是狗。当我们模拟世界时,我们可以完美且自动地生成标签。你几乎可以免费获得它。但是当你把它放在现实世界中时,你必须有一支人类军队或其他一些机制来添加标签,而且它们会不准确。在你将其部署到现实世界之前,你可能希望确保它能够工作。我们不想将机器人大脑放入自动驾驶汽车中,
只是希望当那个孩子跑过马路时它能工作。去测试它的最佳地点是在虚拟世界中,在模拟中。这是一个非常冗长的说法,这基本上就是我近年来一直在研究的内容。
在英伟达,我们多年前就看到了这种需求,因此我们开始构建我们所说的Omniverse。Omniverse是一个“操作系统”,我们将所有模拟和虚拟世界技术都收集到其中。Omniverse的目标是专门进行尽可能物理精确的模拟。
这是关键。它必须与现实世界相匹配,否则我们的机器人将学习来自错误的物理定律。这与我之前所做的工作截然不同。
以及我在电影中所做的工作,以及进行模拟以产生我们在视觉效果和CGI电影或视频游戏中看到的惊人图像,这都是关于创造看起来非常酷的图像,这些图像是有趣的幻想世界,虚假世界。
我们有很多作弊的地方。我们添加额外的灯光和化妆,并且为了使电影有趣、酷炫或令人兴奋,我们正在违反物理定律。但这其中确实有一些诗意。就像它一样,
它基本上可以追溯到你职业生涯的开始,就像所有这些东西,你们构建的所有这些能力来模拟物理定律,比如说光传输,并使材料特性正确。因此,反光、光泽、反射和折射看起来都非常好。这正是你所需要的。正如你所说,以物理精确的方式进行调整。因此,这些机器人拥有某种可信的数字孪生体或现实世界的副本,它们可以在其中自由地犯错,
但你也提到了时间膨胀方面,你可以扩展它,让这些模型在数字领域做一些事情,而这些事情在物理世界中需要永远才能完成。而且感觉这其中还有另一部分,那就是你创建了这些现实世界的数字副本,它变成了训练数据。因为正如你所说,你没有互联网可以从中提取所有这些文本或图像数据。
但是你让机器人尝试一些事情,并且存在这种模拟与现实世界之间需要跨越的领域差距。你们正在构建哪些其他能力来实现这一点?是的,我有点过于简化了我们如何构建这些AI,只是将数据输入机器人。
输入超级计算机,然后就会出现这个惊人的机器人大脑。这就是我们做的一些方法,但还有许多不同的学习形式。我认为你触及到的是所谓的强化学习。事实证明,这些机器人,学习的最佳方法之一就是人类和生物学习的方式。当婴儿出生时,人类婴儿出生在这个世界上,
计算机在解决复杂的方程式或分析数据方面已经超越人类多年,但在物理世界中,机器人的表现却难以匹敌。训练机器人适应“现实世界”混乱无序的环境可能需要数年时间——但由于电影和视频游戏行业的意外帮助,如今的机器人正在利用人工智能来加快学习速度,并使用模拟环境掌握新技能。Rev Lebaredian是英伟达Omniverse和模拟技术的副总裁,英伟达是一家以其在人工智能、视频游戏显卡、加速计算和计算机图形学方面的进步而闻名的公司。Rev和Bilawal讨论了模拟的“镜像世界”如何帮助机器人更快地学习,价值万亿美元的物理人工智能市场,以及人工智能机器人辅助在日常生活中的未来。</context> <raw_text>0 它仍然不理解周围世界的物理规律。婴儿看不见深度,也看不见颜色,他们必须学习如何感知颜色。随着时间的推移,几周后,他们开始学习这些东西。他们开始学习如何分类。他们将妈妈、爸爸、兄弟姐妹和苹果进行分类。苹果,所有周围的东西。他们只是通过经验学习。
他们还通过大量的实验来学习物理定律。所以,当你第一次开始给你的婴儿喂食,把食物放在他们面前时,他们做的第一件事就是把它掉下来或扔掉,打破东西,扔东西,弄得一团糟。这些基本上都是科学实验。他们都是小科学家,不断尝试直到学会为止。一旦他们理解了物理规律,他们就会继续前进。机器人也以同样的方式学习。
通过这种叫做强化学习的方法,我们将它们投入虚拟世界,或者实际上可以是现实世界,但在现实世界中这样做太慢了。通常,我们是在虚拟世界中进行的。我们赋予这个机器人感知和在那个世界中行动的能力。
但它实际上什么也不知道。但我们给它一个目标。我们会说,“站起来”。我们让他们尝试数百万次站起来的迭代。你刚才提到的Isaac Sim,这是我们构建在我们Omniverse平台之上的机器人模拟器,在这个“操作系统”上,你可以完成构建机器人大脑所需的大部分工作,
其中一项就是强化学习。它就像一个建立在Omniverse之上的训练模拟器,它可以自由地犯错。就像你说的那样,我喜欢“挂钟时间”的概念,以及加快速度。你将所有这些学习和进化的时期压缩成可控的东西。然后你把它放到一个真实的机器人身上,它仍然有效。完全正确。
模拟时间不受挂钟时间的限制。如果我把计算量增加一倍,把我的电脑大小增加一倍,那么我就能进行两倍的模拟。这是两倍的模拟时间。因此,缩放定律在这里以一种深刻的方式适用。这真是神奇。
让我们谈谈物理人工智能的应用,它显然适用于许多不同的领域。我们谈到了自动驾驶汽车。还有机器人辅助手术。你提到了自动化仓储。你能分享一些物理人工智能目前如何影响这些领域以及它为这些过去停滞不前的行业解锁了什么吗?我认为它首先影响最大的领域是自动驾驶汽车。
一旦我们发现了这种深度学习机器学习技术,第一个机器人就出现了,
所有这些公司都开始努力去建造自动驾驶汽车,无论是机器人出租车还是商用车内的辅助系统。它现在已经成为现实了。我不知道你是否去过旧金山或凤凰城或……我们在奥斯汀也有Waymo。是的,Waymo。我没想到他们也在奥斯汀。太棒了。大约一个月前我在凤凰城的机场,而且……
我正在等我的Uber,五辆Waymo接走了站在我旁边的人。这非常普通。只是又一天。只是又一天盯着他们的手机,然后像什么都没发生一样上了车。十年前,这是不可想象的。
现在它已经变得司空见惯了。所有这些都是由这些人工智能算法驱动的。现在,我不知道Waymo或任何其他公司内部究竟是什么,但有一种趋势正在发生,我们正在从更具体的早期人工智能转向,比如AlexNet,我们训练人们
这些模型使用非常具体的的数据集,然后我们将这些不同的模型串联起来形成一个完整的系统。就像你把特定任务的模型组合在一起一样。是的。你把它们组合成更通用的统一模型,这些模型建立在Transformer架构之上,这与大型语言模型相同的技术。我们开始看到这些机器人模型
更通用。这就是我们所说的物理人工智能是下一波浪潮。基本上拥有这些具有对我们周围物理世界普遍理解的的基础模型
作为基础,作为基础,然后根据你的特定目的进行微调。就像我们有LAMA、GPT和Anthropic模型一样,然后从中你可以对它们进行微调以适应特定类型的任务。我们将开始看到许多新的物理人工智能模型,它们只是理解一般的物理定律。然后我们将利用这些模型并对其进行微调,以专门用于不同类型的机器人任务。
所以有一些机器人测试,就像你知道你家里的Roomba一样,当然还有仓库机器人,甚至是自动驾驶汽车,没错,是的,它们可以是仓库中的取放机器人,可以是AMR,它们基本上是可以在这些仓库和工厂中四处移动的小型驾驶平台,它们可以是在工厂内部或外部飞行的无人机
在工厂内部,外部。顺便说一句,这就是我想要的,我希望像我的阳台上一样,通过无人机送来一杯热拿铁,而不必在交通中穿行。它就像真的热的,而且会送到你那里。是的,我不确定我是否同意你的观点。我不知道我是否想让数千架无人机在我的社区周围飞来飞去,到处投递拿铁。这是我为妻子亲手制作的为数不多的东西之一。是的。
你喜欢你的拿铁艺术吗?我每天早上为我的妻子做一杯。这是我每天做的第一件事。它让我融入这个世界。所以我不需要无人机来做这件事。说得对。说得对。你如何看待我们目前在物理人工智能能力方面所处的位置?我不知道GPT-1234的命名法是否是思考这个问题的正确方法。但我很好奇,当你考虑我们现在所处的位置以及我们未来的方向时,你对未来有什么看法?
就物理人工智能能力的成熟度而言,我们处于哪个阶段,特别是这种更通用的方法,即理解并能够在物理世界中采取行动的智能体?我认为我们正处于起步阶段。我不知道如何将其与GPT-1234精确地联系起来。我不确定这是否有效,但我们正处于这一阶段的开端。
话虽如此,我们也在构建GPT-1234,以及大型语言模型本身。输入这些基于文本或大型语言模型的数据信息实际上也与物理人工智能模型相关。在用于训练它们的文本描述中包含有关物理世界的的信息。我们谈论诸如红色之类的颜色和
把书放在书架上
以及物体下落,这些抽象的概念仍然是相关的。这只是不够的。如果一个人从未见过这些东西,从未触摸或体验过,只有描述红色的词语,他们就不会真正理解它。正如你之前所说,它没有扎根于物理世界。对。因此,他们将采用所有这些不同的信息模式并将它们融合在一起,以更全面地了解我们周围的物理世界。
这是一个很好的类比,就像我们大脑的不同部分一样。看起来这些大型语言模型非常擅长推理这种象征性的文本世界。关于视频模型能够走多远以及如何再现世界物理学的争论有很多。但听起来你只是创建了另一个与这些其他部分协同工作的基元,它实际上是基于现实世界的,并且已经看到了你所谈到的物理世界的例子和所有边缘情况。然后,作为一个整体的系统,它具有更强大的能力。
没错。我认为,关于这些视频模型能够走多远存在争议,因为这涉及到世界的物理学。现在,即使是我们拥有的当前更有限的视频模型,它们也不是仅用视频进行训练的。它们是多模式的。来自非视频来源的大量信息。有文本、字幕和其他内容。因此,如果我们可以引入
引入更多模式的信息,例如模拟器中拥有的世界状态。在模拟器中,我们知道3D空间中每个物体的位姿。我们知道每个像素的距离。我们不仅可以看到世界上的事物,我们还可以触摸它,我们可以闻到它,我们可以尝到它。我们有多种感官体验融合在一起。
使我们对周围的世界有更全面的了解。就像现在,我坐在这个椅子上。我看不见我的头部后面,但我敢肯定,如果我把我的手放在我的后面,我将能够触摸到椅子的后面。这就是本体感受。我知道这一点,因为我对周围的世界有一个模型,因为我能够通过我的所有感官来综合这些信息,并且那里有一些记忆。
我们基本上是在复制相同的过程,相同的基本思想,以及我们如何训练人工智能。首先,缺失的部分是这个Transformer模型,这个想法是我们可以将所有类型的非结构化数据,这个东西,它可以计算出来,它创造了一个通用的
函数,可以通过理解复杂的模式来完成各种不同的任务。我们有了这个,我们需要所有正确的数据来输入它。因此,我们的信念是,很多,如果不是大部分的话,这些数据将来自模拟,而不是互联网上碰巧存在的数据。所以你关于
是的,世界状态。就像你拥有,用书呆子的说法来说,3D场景图。正如你提到的那样,是的,就像各种物体的向量,所有这些你在视频游戏中认为理所当然的东西,然后可以与其他图像数据一起扔进Transformer中,也许会减少到看起来像一个真实的传感器。然后突然之间,你可以,就像,它将建立一种理解或建立一种,我听说过它被描述为一种通用的函数逼近器,以弄清楚如何,是的,反转
模拟所有这些其他感觉,如本体感受和其他所有东西。我认为大约有30或40种。听到我们有这么多让我有点惊讶,也许机器人可以,我的意思是,它们甚至不受艺术的限制。你之前提到了激光雷达和激光,对吧?或者红外线。因此,就像在某些时候,这些机器人将是,回到我们谈话的开始,超人的。是的。我的意思是,我们也有在某些方面是超人的动物,对吧?蝙蝠可以用声音来感知。是的。
是的,鹰拥有非常集中的视觉。它们可以放大。当然,为什么它们不会在感知世界和在世界中行动的某些维度上成为超人呢?当然,在许多方面它们已经是了。我们有图像分类器,可以比任何人类更好地对动物、每个品种的狗和植物进行分类。如此真实。所以我们当然会做到这一点,至少在某些维度上。♪
嗨,我是Bilal Velsadu,TED最新播客《TED人工智能秀》的主持人,我与世界领先的专家、艺术家、记者交谈,帮助你在人工智能改变一切的世界中生活和发展。我很高兴与IBM合作,他们是本集的官方赞助商。IBM商业价值研究所最近发布的一份报告显示,在接受调查的公司中,三分之一的公司在试点阶段后暂停了人工智能用例。
我们都经历过这种情况,对吧?你对人工智能的可能性感到兴奋,启动了一堆试点项目,然后就什么也没有了。这些试点项目被困在孤岛中,你的资源耗尽了,扩展起来也令人望而生畏。如果说不是数百个试点项目,而是一个能够扩展的整体战略呢?这就是IBM可以帮助你的地方。他们
他们拥有65000名拥有生成式人工智能专业知识的顾问,可以帮助你设计、集成和优化人工智能解决方案。访问ibm.com/consulting了解更多信息。因为使用人工智能很酷,但在你的整个业务中扩展人工智能,才是更高一个层次。
你的业务是现代化的,为什么你的运营不是呢?是时候进行运营干预了。PagerDuty Operations Cloud 是一个必不可少的平台,用于自动化和加速整个公司的关键工作。通过自动化和人工智能,PagerDuty 帮助你以更高的弹性、更高的安全性以及更多的节省来运营。你准备好改变你的运营了吗?访问PagerDuty.com 开始吧。
那么,让我们谈谈展望未来。你谈到物理人工智能正在改变工厂和仓库。你对它们在我们日常生活中的潜力有什么看法?例如,你如何看待这些技术的发展,将机器人带入我们的家庭或个人空间,以真正有意义的方式?它就像尽可能地亲密,对吧?它也不是一个受控的环境。如果你看过Jensen过去一年中的任何主题演讲,在过去的
10到12个月左右,有很多关于人形机器人的讨论。绝对的,是的。这是一种潮流。你到处都能看到它们。我想对许多人来说,当他们看到这个时,他们可能会翻白眼,哦,是的,是的,人形机器人。我们一直在谈论这些,为什么它必须看起来像一个人形?建造专门擅长特定任务的机器人不是更有意义吗?而且
长期以来,我们最先进的工厂里都有机器人,它们不是人形机器人,它们就像汽车工厂里那些大型机械臂。为什么我们要谈论人形机器人?现在出现这种情况的原因是,如果你退一步思考,如果你要建造一个能够做许多不同事情的通用机器人,那么今天最有用的是一个形状、行为和动作都像人类的机器人。因为我们建造了所有这些空间
为人类而建。为人类而建。所以我们建造了我们的工厂、仓库、医院、厨房和零售空间。有楼梯、坡道和货架。因此,如果我们可以构建一个通用的机器人大脑,那么构建最自然的物理机器人就是……
为了让它有用,应该是一个类似人类的东西,因为我们可以将这个机器人放到许多不同的环境中,在那里它可以发挥作用并做一些有益的事情。许多公司已经意识到这一点,并且他们正在全力以赴。我们对此持乐观态度。我认为即使在这个领域内,也存在专业化。并非每个类人机器人都会完美地完成人类可以完成的每一项任务。实际上,并非所有人类都擅长每一项任务。有些人更擅长打棒球,有些人更擅长切洋葱。宇航员有特定的标准,对吧?没错。所以我们将有许多公司制造更专业的类人机器人或不同类型的机器人。我们目前关注的是工业领域的机器人。
我们认为这是它们将被最迅速地采用,并将产生最大影响的地方。我们在全球各地看到的,包括在美国,工厂、仓库、运输和零售业都存在劳动力短缺。我们没有足够的人来补充货架。
人口统计数据表明,这种情况只会越来越糟。因此,对能够在这些领域工作的人形机器人的需求巨大。我认为就我们的个人空间而言,能够与人类在工厂或仓库中并肩工作的机器人也应该能够在你的厨房和家中工作。这些类人机器人被接受的速度将取决于我们谈论的是哪个国家,因为存在非常强的文化因素。将机器人带入你的家中,另一个实体,一些类似人类的东西带入你的家中,这是非常私人的。而且,上帝保佑它不会为你做拿铁。没错。我不想在我的厨房里这样做。我甚至不想让其他人早上在那里。但这里有文化因素。在美国和西方,我们可能对机器人更加谨慎或小心。在东方,尤其是在日本这样的国家。完全正确,这就是我的想法。他们喜欢它们,对吧?他们想要它。但世界各地的工业现在都需要它。对,是的。因此,对于工业应用来说,我认为从那里开始是有意义的,然后我们可以将这些技术带入消费领域,市场将探索它们最适合的地方
首先,但最终我们将到处都有它们。想到有多少技术的早期采用者,包括虚拟化身等等,这真是太迷人了。但是,将虚拟和物理连接起来,你们正在构建的技术并不仅限于机器人,对吧?随着这项技术提高空间理解能力,它们可以增强我们的个人设备,例如虚拟助手,
你认为我们距离那种现实生活中的贾维斯体验还有多远,一个虚拟助手可以无缝地理解和与我们的物理环境互动,即使它不是以机器人的形式存在的?所以这回到了我之前所说的关于机器人定义的问题。什么是机器人?完全正确。你刚才谈到的方式,对我来说,贾维斯实际上是一个机器人。它做了这三件事。它感知我们周围的世界。是的。
通过许多不同的传感器,它做出一些决定,它甚至可以对世界采取行动。就像复仇者联盟电影中的贾维斯一样。是的。它实际上可以启动钢铁侠套装。对,是的。并在那里做一些事情,对吧?例如,那么这与C-3PO有什么区别呢?完全正确。从根本上说。你有点像在机器人里面,就像你提到的英伟达大楼一样,是的。如果你考虑一下这些将我们沉浸在世界中的XR设备,它们是半个机器人。有感知……
部分。有传感器以及一些智能来进行感知,但随后它被输入到人脑中,然后人做出一些决定,然后它对世界采取行动。对。当我们对世界采取行动时,可能还有一些软件,甚至是一些人工智能在该世界的模拟或组合中做一些事情。所以这不是非黑即白的。什么是机器人,以及
什么是人类或人类智能,这些东西之间存在某种范围。我们可以用人工智能来增强人类。我们已经在这么做了。每次你使用手机来提问,你访问谷歌或Perplexity或其他什么东西时,你都在添加人工智能,你通过向ChatGPT提问来增强自己的人工智能。这是人工智能与贾维斯体验的融合,这种体验是沉浸式的XR,它只是使该循环更快,并进行增强。你完美地阐述了我的最后一个问题,那就是随着人工智能不仅融入数字世界,而且融入物理世界,我必须问你,什么地方可能出错,什么地方可能正确?
好吧,对于任何强大的技术来说,总会有出错的地方。这可能是我们见过的最强大的技术。因此,我认为我们必须非常谨慎和认真地部署这些技术,以确保它们是安全的。因此,在将人工智能部署到物理世界方面,
我认为我们必须做的最重要的事情之一是确保在整个过程中始终有人参与其中,我们有能力将其关闭,没有任何事情发生在我们明确知道它发生并且在我们允许的情况下发生。
我们这里有一个系统。我们在我们大楼周围安装了传感器。我们可以看到人们在哪里,他们最常通行哪些区域。晚上,我们有机器人清洁工。它们就像巨大的Roomba。
它们去清洁我们的地板。我们将它们引导到人们实际去过的地方,它们根本不去打扰那些没有被使用过的区域,以优化它们。我们将拥有许多这样的系统。这是一个机器人系统。这基本上是一个机器人控制其他机器人。但我们需要确保在该循环中某个地方有人类参与,部署它,观察它,并确保我们可以停止它,暂停它,并做任何必要的事情。
所以问题的另一部分是,从这件事中会产生哪些好的事情?我们已经触及到其中的一些事情,但最终,能够将所有这些计算技术和智能应用到我们周围的物理世界中,我甚至无法想象生产力提高的潜力。看看农业吧。如果你有实际上无限数量的工人,
他们可以做一些极其繁琐的事情,例如一次拔出一棵杂草,在数千英亩的田地里走来走去,只识别杂草或害虫在哪里,然后一个接一个地将它们拔掉。那么也许我们不需要用杀虫剂等所有这些会损害我们周围环境、损害人类的技术来覆盖这些区域。我们可以……
基本上,任何地方经济生产力的主要驱动力都是我们国家的人口数量。我的意思是,我们用GDP(国内生产总值)来衡量生产力,我们查看人均GDP。这是效率的衡量标准,对吧?但它总是与人口数量相关。人口较多的国家GDP也较高。当我们将物理人工智能应用到我们周围的物理世界时,这几乎就像我们在增加人口一样。
生产力增长可以提高。而且更是如此,因为我们可以让他们做的事情是人类无法做或不愿意做的事情。它们太繁琐、无聊和糟糕了。所以在制造业、仓库、农业和运输业中你可以找到很多这样的例子。看,我们一直在谈论运输现在是CG问题。卡车司机,我们没有足够的人。
这实际上是整个经济生产力的瓶颈。很快,我们将实际上拥有无限数量的工人来做这些事情。然后我们可以部署我们的人类去做所有让我们开心的事情,我们喜欢做的事情。我喜欢这个。就像我们终于将拥有足够通用的技术,我们可以重新构想所有这些行业,同时让人类去做那些丰富和充实的事情。
也许甚至会有一个极度丰富的世界。我知道这是一种流行的说法,但当你谈到这一点时,感觉就像一个极度丰富的世界。你这么认为吗?是的,我这么认为。我的意思是,如果你从第一性原理出发思考我所说的一切,为什么不会发生呢?如果我们可以制造智能,而这种智能可以在物理世界中驱动、体现并为我们做一些事情,
为什么我们不会拥有极度丰富的世界呢?我的意思是,基本上就是这样。我喜欢它。非常感谢你加入我们,Rev。感谢你邀请我。和你聊天总是很有趣。好的,当我结束与Rev的谈话时,我想到了几件事。哦,我的上帝,英伟达一直在玩长线游戏。他们找到了合适的切入点,电脑游戏,来降低这项基础技术的风险,而这项技术现在已经完全转变了。
世界各地的公司甚至政府都在购买英伟达GPU,以便他们可以训练自己的人工智能模型,创建越来越大的计算集群,有效地将首席执行官黄仁勋变成了一个“造王者”。但特别诗意的是,他们投资的所有技术都是他们让机器人漫游世界的工具。我们正在创建一个现实的数字孪生体,一个镜像世界,如果你愿意的话。
它远远超出了预测天气等现实方面。它实际上是关于创建一个现实的完全保真度近似值,在那里机器人可以自由地犯错,并且可以摆脱挂钟时间的束缚。我也对此感到非常兴奋,因为创建这种类型的合成训练数据对我们作为消费者有很多好处。
例如,在家里训练机器人。我们真的想收集大量数据在我们家中最私密的地方吗?合成数据提供了一条非常有趣的途径来以保护隐私的方式训练这些人工智能模型。当然,我仍然想知道模拟和现实之间的差距是否真的可以克服。但看起来这个差距将不断缩小。
谁知道呢?当元宇宙第一次进入公众意识时,每个人都在对其冷嘲热讽。例如,谁真的想要这个互联网的3D继承者呢?现在我认为元宇宙的杀手级用例根本不是为人类服务的,而是为机器人服务的。
《TED人工智能秀》是TED音频集的一部分,由TED与Cosmic Standard联合制作。我们的制作人是Dominic Girard和Alex Higgins。我们的编辑是Banban Cheng。我们的节目主持人是Ivana Tucker。我们的工程师是Asia Pilar Simpson。我们的研究员和事实核查员是Christian Aparta。我们的技术总监是Jacob Winnick。我们的执行制片人是Eliza Smith。
我是Bilal Velsadu。别忘了评分和评论,我们下期再见。