Robots lack the years of practice and learned experiences that humans have accumulated through a lifetime of physical interactions. While humans can instinctively calculate trajectories and movements, robots require extensive training in simulated environments to achieve similar capabilities.
NVIDIA's simulated environments allow robots to practice and learn at a supercharged pace, compressing tens of millions of repetitions that would take humans years into minutes. This accelerates the development of physical intelligence, enabling robots to master new skills much more quickly.
The market for physical AI is estimated to be around $100 trillion, encompassing industries like transportation, manufacturing, and drug discovery. This is significantly larger than the $2-5 trillion IT industry, highlighting the vast potential for AI to transform physical world industries.
Simulation allows robots to gather the necessary data to learn the physics of the real world without the constraints of the physical environment. It enables robots to practice in virtual worlds where they can make mistakes and learn from them, compressing real-world time into simulated time.
Reinforcement learning mimics how humans and animals learn, allowing robots to experiment and learn from their mistakes in a virtual environment. This method is particularly effective for robots to develop an understanding of the physical world through trial and error, similar to how babies learn.
Physical AI is currently transforming industries like autonomous vehicles, robotic-assisted surgery, and automated warehousing. For example, autonomous vehicles like Waymo are already being used in cities, and robots are being deployed in factories and warehouses to address labor shortages.
Humanoid robots are seen as the most natural form for general-purpose tasks because they can navigate and interact with environments designed for humans. Their human-like shape allows them to be deployed in various settings, from factories to homes, making them versatile for multiple applications.
Physical AI has the potential to increase productivity by automating tedious and dangerous tasks, freeing humans to focus on more fulfilling work. It could also lead to a world of radical abundance by addressing labor shortages and improving efficiency across industries like agriculture, manufacturing, and transportation.
The main challenge is ensuring that robots trained in simulations can effectively transfer their skills to the real world. While simulation provides a controlled environment for learning, the real world is unpredictable, requiring continuous refinement and testing to close the gap between simulation and reality.
电脑在解决复杂的方程式或分析数据方面已经超越人类多年,但在物理世界中,机器人却难以跟上。训练机器人适应“现实世界”混乱无序的环境可能需要数年时间——但由于电影和视频游戏行业的意外帮助,如今的机器人正在利用人工智能来加快学习速度,并使用模拟环境掌握新技能。Rev Lebaredian是英伟达Omniverse和模拟技术的副总裁,英伟达是一家以其在视频游戏显卡方面的进步而闻名的公司。Rev和Bilawal讨论了模拟的“镜像世界”如何帮助机器人更快地学习,价值万亿美元的物理人工智能市场,以及人工智能机器人辅助在日常生活中的未来。有关TED人工智能节目的文字记录,请访问go.ted.com/TTAIS-transcripts</context> <raw_text>0 嘿,我是Bilal。在我们开始节目之前,我想请你帮个小忙。如果你喜欢TED人工智能节目,请花一点时间在你的播客应用程序中评分并留下评论。你最喜欢哪些剧集?你想听到更多关于哪些主题的讨论?你的反馈帮助我们塑造节目,以满足你的好奇心,邀请优秀的嘉宾,并为你提供最佳体验。
人工智能世界正在以前所未有的速度发展。众所周知,在许多领域,计算机早已超越了人类。但有一个领域对机器人来说一直难以掌握。
物理智能。我们在本播客中讨论了很多关于文本和图像生成的内容,这些技术需要多年的研究、巨大的计算能力和庞大的数据集才能开发出来。但与绘制3D空间和预测现实世界混乱随机性相比,这些都只是小菜一碟。那么,至少目前为止,是什么让人类占据优势呢?
很简单,我们有很多练习。想象一下,你是一位在球场外野的职业棒球运动员,看着飞来的球。瞬间,你的大脑计算出球的速度、旋转和轨迹,以预测它将落在哪里。对你来说,这感觉是自动的。
但这却是多年练习和学习经验的结果,不仅仅来自棒球,还来自一生的物理互动。从童年时代起,在物理世界中反复试验的时刻就训练了你的大脑去理解物体如何移动和反应。对人类来说,掌握这些技能需要时间,因为现实世界的练习无法加速。
但幸运的是,对于机器人来说,这可以加速。英伟达这家以显卡而闻名的AI巨头,开发了功能强大的模拟环境,机器人可以在其中以超快的速度练习和学习。数千万次的重复,对人类来说可能需要数年时间,却可以在几分钟内完成。我们已经在自动驾驶汽车中看到了这一点,但其潜力远不止于此。
通过构建理解物理世界的AI,英伟达正在为机器奠定基础,这些机器可以彻底改变各个行业,协助进行复杂的手术,甚至帮助我们处理家务。那么,机器人如何发展一种物理直觉呢?随着我们不断突破机器人技术的界限,未来会面临哪些挑战和机遇?
我是Bilal Volsadu,这是TED人工智能节目,我们将在这里弄清楚如何在人工智能改变一切的世界中生活和蓬勃发展。
你的AI模型真的懂代码吗?它的特定语法、结构和逻辑?IBM的Granite代码模型懂。它们专为代码而设计,并接受过116种不同编程语言的训练,可以帮助你快速生成、翻译和解释代码。因为你的AI模型对代码了解得越多,它就能越有效地帮助你。现在就访问ibm.com/granite开始吧。IBM,让我们一起创造。
你的业务是现代化的,但你的运营为什么不是?是时候进行运营干预了。PagerDuty Operations Cloud是自动化和加速公司关键工作的基本平台。通过自动化和人工智能,PagerDuty帮助你以更高的弹性、更高的安全性以及更多的节省来运营。你准备好改变你的运营了吗?请访问PagerDuty.com开始吧。
在我们即将迎来《独立宣言》250周年之际,TED正在前往美国民主的诞生地费城,开展一项激动人心的新计划。在整个2024年,TED和费城旅游局将合作,在一系列三次炉边谈话中探讨民主思想,在我们努力实现更完美的联邦的过程中,塑造我们共同的未来。
我们2024年的第三次也是最后一次关于共同前进的活动于11月20日在历史悠久的阅览终端市场举行。由TED策展人惠特尼·彭宁顿-罗杰斯主持,我们邀请了世界冠军辩论家茱莉亚·达尔和伊姆斯研究所的好奇心负责人斯科特·希吉奥卡进行TED演讲和主持问答环节。感谢费城旅游局和我们的支持合作伙伴美国银行、康卡斯特NBC环球和Highmark。
访问visitphilly.com/TED,了解更多关于此活动的信息,并了解我们2025年即将推出的精彩活动。我们今天的嘉宾Rev Liberadian在好莱坞开始了他的职业生涯,在那里他为《金刚》和《精灵鼠小弟》等电影制作视觉特效。他在创建详细的动态3D世界的经验为他今天的角色奠定了基础,即英伟达Omniverse和模拟技术的副总裁。
在那里,他利用这一专业知识,通过应用模拟技术来教授机器人物理智能,从而突破机器人技术的界限。换句话说,就是如何理解和与现实世界互动。在我们的谈话中,我们探讨了英伟达(以其在游戏技术中的作用而闻名)如何成为生成式人工智能发展的关键参与者。什么是机器人,以及Rev对机器人改善我们生活的未来的愿景。
Rev,欢迎来到节目。谢谢你邀请我,Bilal。在你职业生涯的早期,你从事娱乐行业的工作,帮助观众沉浸在幻想世界中。现在,你的工作是帮助机器人沉浸在现实世界的模拟中。你能向我们的听众解释你在英伟达的角色吗?
从技术上讲,我的职位是Omniverse和模拟技术的副总裁。这是一个奇怪的头衔。我认为没有多少其他人拥有这样的头衔。这很奇怪,因为这是一个相对较新的概念。正如你提到的,我是在媒体娱乐行业开始我的职业生涯的,当时我为电影制作视觉特效和计算机图形。23年前,我加入英伟达,希望能够将我在电影中所做的事情
创造这种高保真、高质量的幻想世界图像,并实时地、快速地完成,利用我们的GPU来支持这种计算,以便它可以成为电影中的线性体验,可以成为像视频游戏中的交互式体验或像XR这样的沉浸式体验。
不过,我们花了一段时间才做到这一点。说到这一点,多年来你拥有一个非常独特的视角,见证了英伟达从一家游戏硬件公司发展成为AI和模拟领域的领导者。你能分享一下你在英伟达的经历以及英伟达的使命是如何随着时间的推移而转变的吗?
这是一个非常、非常好的问题。我认为很多人并不真正理解英伟达这家“游戏公司”或这家为游戏PC制造芯片的芯片公司,是如何成为世界上最有价值的公司,以及如何成为所有这些AI领域的核心。但如果你回顾一下公司创建之初的想法,它实际上就说得通了。
公司的创始原则就是这样一个理念:通用计算机,那些围绕CPU构建的计算机,自20世纪60年代以来我们围绕其构建所有计算机的架构,从IBM System 360开始。它们非常好,但有些计算问题它们的速度不够快,无法解决。
当时,我们有摩尔定律。它不像物理定律那样是定律。它更像是对半导体如何每年或每两年以相同的价格或相同的功率提供双倍计算能力的观察。在摩尔定律的鼎盛时期,它使得我们能够在10年内以相同的价格或相同的功率获得100倍的速度提升。但我们研究了摩尔定律,并说,如果我们等待摩尔定律给我们提供足够的计算能力来做某些事情,比如为视频游戏的计算机图形进行渲染,我们将不得不等待几十年甚至几百年,直到计算机足够快才能做我们想做的一些事情。因此,英伟达开始创造这种新的计算形式,
它不能做所有事情,但它可以做许多事情,而这些事情用这种通用的计算机是无法完成的。我们称之为加速计算。我们发明了GPU的概念。我们选择解决的第一个问题是为视频游戏中产生这些图像的3D渲染问题。
在1993年英伟达成立的时候,这个市场还不存在。实际上当时还没有3D视频游戏。它们才刚刚开始。有《毁灭战士》和《德军总部》,就像刚出现的第一批游戏一样。是的,那是稍后才出现的,我认为。不是93年,可能是95年,我认为。
所以我们设想,如果我们能够帮助解决这个问题,那么就会围绕这个问题形成一个市场,然后我们就可以利用相同的加速计算架构扩展到其他市场。这基本上就是发生的事情。快进几年,在21世纪初,我们在我们的GPU中添加了一个关键特性。它被称为可编程着色。
它模拟光线如何在3D世界内部与材料相互作用。这就是使塑料看起来像塑料、铝看起来像铝、木材看起来像木材的原因。在那之前,我们可以使用的着色器类型、材料类型非常有限,它们使视频游戏看起来非常简单或卡通化,而不是非常逼真。
在电影世界中,我们不受时间限制以及渲染所需时间的限制。我们可以花数小时进行渲染。因此,电影中计算机生成的图像质量与你在视频游戏中看到的图像质量之间存在很大的差异。我们引入了可编程着色,并且使它可编程的特性使我们能够将相同的GPU用于计算机图形和渲染以外的其他用途。
很快,我们就看到研究人员和其他从事计算机图形以外工作的人开始利用我们GPU中的所有计算能力。
他们会将他们的问题,例如分子动力学和流体动力学等其他类型的物理问题,将其表述成计算机图形问题。当我们意识到这一点时,人们愿意将自己扭曲成使用图形API来做其他事情。我们说,让我们为他们简化操作。
我们引入了CUDA,这是一种更自然的方式,可以在我们的GPU上编程非图形的通用事物。我们基本上等了六七年,看看杀手级应用是什么。我们想象某个开发者,可能是一个研究生,将会想出一些令人惊奇的事情来利用这种计算能力,这需要一段时间。我们在2006年引入了CUDA,
在2012年底,将近七年后,我们终于迎来了那一刻。发生的事情是多伦多大学的两名研究生和他们的教授Ilya Suskiver、Alex Grishovsky以及他们的教授Jeff Hinton(刚刚获得诺贝尔奖),
他们在2012年底发表论文时,使用名为AlexNet的深度学习神经网络击败了图像分类的所有基准测试。这基本上改变了一切。
这太疯狂了,因为在那之前,基本上所有其他针对ImageNet基准测试的方法都没有真正获胜,因为没有采用这种深度学习方法。这是深度学习第一次在计算机视觉领域让所有人为之震惊。想象一下,它最初是从可编程着色器开始的,试图让好莱坞的电影级视觉效果在你的电脑上实时运行,这真是太不可思议了。但正如你所说,同样的能力,你让开发者更容易
解锁了计算机视觉的全新世界,当然也引起了全世界的关注,特别是你们,可能比其他人更早,我猜。完全正确。这种为创建图像而构建的东西,竟然也是构建智能所需的东西,这似乎是违反直觉的。但实际上,这一切都归结于计算。
我们必须为计算机图形构建的计算形式,我们处理大量的像素、大量的三角形、大量的在场景中四处反弹的光线。同样的计算形式也是你进行所有张量数学、所有矩阵数学所需的东西。图像分类问题是一个长期存在的问题,我们都知道如果能够解决这个问题将是件好事。自20世纪50年代以来,人们一直在试图解决这个问题。
能够自动区分你提供给计算机的图像中的内容,这是一件非常、非常有用的事情。在那之前,我们会找一个非常聪明的人,一位计算机科学家,这个人会想象出一个能够进行图像分类的算法,然后将他们大脑中的内容转换成计算机并生成一个程序。这里发生的变化是,第一次,
我们能够创建一个算法来解决任何人都无法想象的问题。我们解决问题的方法是使用一台大型计算机,实际上是一台超级计算机。我们向它提供了数百万个图像示例,并说,当你看到看起来像这样的图像时,那就是一只猫。当你看到看起来像这样的图像时,那就是一条狗。当你看到这张图片时,那就是一架飞机。我们做了足够多次,它就编写了软件,编写了算法,
可以进行图像分类。因此,它做得比任何人类能够想象的算法都要好。——这太疯狂了,对吧?你谈论的是人类编写软件的时代。现在软件正在编写软件。——没错。有两个基本要素,一台超级计算机,大量的计算,
你给它大量的数据或你希望它执行操作的示例,它会根据你提供的示例为你找出算法。第一个,构建大型计算机,这是我们的强项,对吧?这是英伟达擅长的事情。我们喜欢构建强大的计算机并将其扩展。所以这就是我们在十多年前开始做的事情。英伟达最近的爆炸式增长本质上是......
因为我们十多年前做出的赌注,即这些大型计算机将是有用的。这就是现在每个人都在争先恐后想要的东西。他们正在建立这些AI超级计算机。
是的,每个国家和公司都想要更多你们的GPU。当然,最近的需求主要来自大型语言模型和扩散模型,我们在播客中讨论过很多次。但很有趣的是,ChatGPT再酷,能够输入提示并获得图像也再酷,这些东西都不是圣杯。这些系统有其局限性,对吧?在我们
将这次谈话转向物理AI时,你能谈谈这一点吗?是的,完全正确。当我们意识到这种变化有多么深刻时,我们能够通过这种深度学习和AI的新技术来产生我们从未想过会在有生之年拥有的算法。我们问自己的下一个问题是,
既然我们有了创造这些令人惊叹的新事物的可能性,我们应该去创造哪些呢?哪些将是最有价值和影响力的事情?现在,如果你退一步想想计算产业、IT产业,它在全球每年大约在2万亿到5万亿美元之间,这是一个巨大的数字,对吧?这是一个非常大的产业。然而,所有其他产业,那些与我们的物理世界相关的产业,原子世界,那就是100万亿美元。这包括运输市场,运输人类,运输货物。它包括制造业,它将原子重新组装成产品。它包括药物发现和设计,将原子重新组装成药物,等等。就像所有这些关于我们物理世界的事情一样,
至少就人类通过市场对它们的价值评估而言,其价值远大于信息。现在,信息是我们最容易数字化的事情。因此,我们使用这种新的机器学习、深度学习AI技术开发的第一个算法,它将使用我们 readily available 的所有数据,这基本上就是互联网上的内容,这是有道理的。但如果我们能够以某种方式利用这种新的超级能力,
并将其应用于原子领域,我们将解锁这个价值100万亿美元的市场。所有这些市场都以制造业为例。我们将IT和计算应用于制造业等市场。但如果你走进一家工厂,它与50年前的工厂并没有什么不同。它们在很大程度上没有受到计算的影响。
我们之所以无法做到这一点,是因为我们还没有真正建立起物理世界和计算世界之间的桥梁。连接比特和原子,宝贝。让我们开始吧。是的。如果你再考虑一下,桥梁本质上就是机器人。完全正确。所以我们考虑了这一点,并说,这现在可能成为现实。机器人技术一直是一个长期的梦想。但我们一直缺少的是构建机器人所需的根本算法
一个真正有用的机器人大脑,以便我们能够将计算应用于现实世界。那么什么是机器人呢?机器人本质上是在现实世界中的一个代理,它做三件事,并且循环地做这三件事。机器人是
感知我们周围的世界,物理世界。它通过传感器输入世界。它们可以是摄像头、激光雷达和雷达,各种传感器,无论传感机制是什么。它对输入的内容进行一些理解。它理解输入的内容。本质上,第一个神经网络AlexNet就是在做这件事。它从现实世界中获取一些信息,一张图像,
照片,并理解其中的内容。接下来它要做的事情是,物理世界中的机器人代理,它利用这些信息,即感知到的信息,并做出一些决定。决定它应该如何行动,它计划并决定它将如何影响世界。
第三件事是驱动。它实际上在世界上做一些事情。因此,一旦它做出决定,它就会做一些实际上移动或影响物理世界的事情。一旦发生这种情况,它就是一个循环。你感知你对世界的改变,
更新你的决定和计划,然后去驱动。根据这个定义,许多东西都是机器人,而不仅仅是我们通常认为的机器人,比如C3P或R2D2。自动驾驶汽车绝对是机器人。它必须感知周围的世界。其他车辆、停车标志、行人、骑自行车的人在哪里?它们的速度有多快?我周围的世界是什么样的?
围绕汽车,做出一些关于如何到达最终目的地的决定,并进行驱动,转向、制动或加速,而这个东西则在一个循环中运行。如果你这样定义的话,很多东西都是机器人。我现在所在的建筑,也就是我们的Endeavor大楼,我们的总部,
每天当我进入它时,在接待区,我们有旋转门。那里有传感器。有一些摄像头。他们知道我什么时候走到旋转门前。它感知到我走近了,然后根据图像分类算法决定我是谁,
与最初的AlexNet并没有什么不同。一旦它确定我是Rev,它就可以在我的数据库中查找我,我是否应该有访问权限,然后它就会在世界上进行驱动。它打开旋转门,让我通过,并在某个地方更新一些计数,现在我已经进入主要区域了。
所以这座建筑本质上就是一个机器人。所以,如果你这样考虑机器人,并将机器人系统视为计算与价值100万亿美元的与物理世界相关的产业之间的桥梁,你就会开始感到非常兴奋。你会想,哇,我们现在有可能对许多其他行业产生重大影响。
因此,关于这一点,我的意思是,这很有趣,对吧?你谈到工厂几十年来没有变化。你是对的。有一些企业资源规划软件来跟踪物品的库存以及物品是如何移动的。但是原子世界并没有像比特世界那样取得那么大的进步。为了释放这个巨大的,比如物理的,比如这些基于物理的产业中的巨大机遇,缺少的部分是什么?我们今天没有的是什么?你们正在构建什么来实现这一点?
是的。这就是模拟发挥作用的地方。如果我们回到我们过去如何编写软件以及这种新的AI形式的关键区别,一个是超级计算,另一个是你需要提供数据或示例集,以便我们可以编写函数。那么,我们从哪里获取这些数据呢?
来学习我们周围世界的物理规律。你如何收集这些数据?它并不存在于互联网上。我们在互联网上拥有的东西主要是那些易于数字化的东西,而不是物理世界中的东西。
因此,我们的论点是,我们获得所需所有数据的唯一方法是,本质上是将物理世界和所有物理世界的定律放入计算机中,创建一个物理世界的模拟。一旦你有了它,你就可以产生所有你需要的数据,本质上是这些AI学习物理世界的训练场。你不再受到限制。
受到我们在现实世界中遇到的所有限制的约束。我们可以比现实世界中的时间更快地进行训练。只需增加更多的计算能力,你就可以为每个现实世界的秒。我们可以在模拟世界中完成数百万秒的操作。哇。从现实世界收集数据非常昂贵。让我们以一种机器人为例,自动驾驶汽车,自动驾驶车辆。
如果你想训练一个网络来感知一个孩子在任何情况下、任何光照条件下、任何城市中穿过街道。一年中的不同时间,所以不同的天气。是的,不同的天气条件。你必须真正地去现实世界中,让一个孩子在你的汽车飞驰而过时穿过街道,并捕捉到这一幕。
我的意思是,首先,很明显,这样做是不道德的,我们不应该这样做。
但仅仅是这种乏味的工作,在每种可能的长期尾部场景中捕捉它,这根本是不可行的。你做不到。这太昂贵了,而且根本不可能。你知道,有一些非常罕见的天气条件。你可能希望在火山灰飘落的相同条件下,这可能发生在夏威夷。你甚至如何构建这种场景,对吧?但在模拟中,我们可以创造这一切。
此外,当你从现实世界获取数据时,你只有所需数据的一半。我们还需要了解这些信息和非结构化信息中的内容。标签。标签,没错。对于AlexNet,当他们训练它时,他们不仅有图像,
但他们也有标签,说明该图像是猫还是狗。当我们模拟一个世界时,我们可以完美地自动生成标签。你几乎可以免费获得它。但是当你把它放在现实世界中时,你必须有一支人类军队或其他一些机制来添加标签,而且它们会不准确。在你将其部署到现实世界之前,你可能希望确保它能够工作。我们不想将机器人大脑放入自动驾驶汽车中。
并只是希望当那个孩子穿过街道时它能够工作。去测试它的最佳场所是在虚拟世界中,在模拟中。这是一个非常冗长的方式来达到,这本质上就是我近年来一直在研究的内容。
在英伟达,我们多年前就看到了这种需求,所以我们开始构建我们所说的Omniverse。Omniverse是一个“操作系统”,我们将所有模拟和虚拟世界技术都收集到其中。Omniverse的目标是专门进行尽可能物理精确的模拟。
这是关键。它必须与现实世界相匹配,否则我们的机器人将学习来自错误的物理定律。这与我之前所做的工作截然不同。
我在电影中以及进行模拟以产生我们在视觉特效和CGI电影或视频游戏中看到的令人惊叹的图像的工作,这一切都是为了创造看起来非常酷的幻想世界图像,虚假世界。
我们有很多作弊的地方。我们添加额外的灯光和化妆,并且为了使电影有趣、酷炫或令人兴奋,我们正在违反物理定律。但这其中确实有一些诗意的东西。
它基本上可以追溯到你职业生涯的开始,就像所有这些东西,你们构建的所有这些能力来模拟物理定律,比如光传输,并使材料特性正确。因此,反光、光泽、反射和折射看起来都非常好。这正是你所需要的。正如你所说,以物理精确的方式进行调整。因此,这些机器人拥有某种可信的数字孪生体或现实世界的副本,它们可以在其中自由地犯错,并且
但你也提到了时间膨胀方面,你可以扩展并让这些模型在数字领域做一些事情,而这些事情在物理世界中需要永远才能完成。而且感觉这其中还有另一部分,那就是你创建了这些现实世界的数字副本,这些副本成为训练数据,因为正如你所说,你没有互联网可以从中提取所有这些文本或图像数据。
但是然后你让机器人尝试一些事情,并且存在这种模拟和现实世界之间需要跨越的领域差距,这种鸿沟。你们正在构建哪些其他能力来实现这一点?是的,我有点过于简化了我们如何构建这些AI,只是将数据输入机器人。
输入超级计算机,然后就会出现这个令人惊叹的机器人大脑。这就是我们做事情的方式之一,但还有许多不同的学习形式。我认为你触及到的一种被称为强化学习。事实证明,这些机器人,学习的最佳方式之一就是人类和生物学习的方式。当婴儿出生时,人类婴儿出生在这个世界上,
他们仍然不理解周围世界的物理规律。婴儿看不到深度,他们还不能真正看到颜色,他们必须学习如何看颜色。随着时间的推移,几周后,他们开始学习这些东西。他们开始学习如何分类。他们对妈妈、爸爸、兄弟姐妹和苹果、保罗进行分类。他们周围的所有东西。他们只是通过经验来学习。
他们还通过大量的实验来了解物理定律。所以,当你第一次给你的宝宝食物,把食物放在他们面前时,他们做的第一件事就是把它扔掉或扔掉,打破东西,扔东西,弄得一团糟。这些基本上都是科学实验。他们都是小科学家,一直在尝试各种东西,直到他们学会为止。一旦他们理解了物理学的原理,他们就会继续前进。机器人也是以同样的方式学习的。
通过这种叫做强化学习的方法,我们把它们扔进虚拟世界,或者实际上可以扔进现实世界,但在现实世界中这样做太慢了。通常,我们是在虚拟世界中进行的。我们赋予这个机器人感知和驱动虚拟世界内部的能力。
但它实际上什么也不知道。但我们给它一个目标。我们会说,“站起来。”我们让他们尝试数百万次站起来的迭代。你刚才提到的,这个Isaac Sim,是我们构建在我们Omniverse平台之上的机器人模拟器,在这个“操作系统”上,你可以完成构建机器人大脑所需的大部分工作,
其中一项就是强化学习。它就像一个建立在Omniverse之上的训练模拟器,它可以自由地犯错。就像你说的那样,我喜欢“挂钟时间”的概念,以及加快它的速度。你将所有这些学习和进化的时期压缩成可控的东西。然后你把它放到一个真实的机器人身上,它仍然有效。完全正确。
模拟时间不受挂钟时间的限制。如果我把计算量增加一倍,把我的电脑大小增加一倍,那么我就能进行两倍的模拟,也就是两倍的模拟时间。因此,缩放定律在这里以一种深刻的方式适用。这真是太神奇了。
让我们谈谈物理人工智能的应用,它显然适用于许多不同的领域。我们谈到了自动驾驶汽车。还有机器人辅助手术。你提到了自动化仓储。你能分享一些物理人工智能目前如何影响这些领域以及它为这些过去停滞不前的行业解锁了什么吗?我认为它首先影响最大的领域是自动驾驶汽车。
一旦我们发现了这个深度学习机器学习的东西,第一个机器人,你立刻就看到了
不同公司为建造自动驾驶汽车所做的所有努力,无论是机器人出租车还是商用车内的辅助系统。它现在已经成为现实了。我不知道你是否去过旧金山或凤凰城或......我们在奥斯汀也有Waymo。是的,Waymo。我没想到他们也在奥斯汀。太棒了。大约一个月前我在凤凰城的机场......
我在等我的Uber,五辆Waymo接走了站在我旁边的人。这非常普通。只是又一天。只是又一天盯着他们的手机,然后像什么都没发生一样上了车。十年前,这是不可想象的。
现在它已经变得司空见惯了。所有这些都是由这些人工智能算法驱动的。现在,我不知道Waymo或任何其他公司内部究竟是什么,但有一种趋势正在发生,我们正在从更具体的早期人工智能转向,比如AlexNet,我们训练人们
这些模型使用非常具体的的数据集,然后我们将这些不同的模型串联起来形成一个完整的系统。就像你组合在一起的任务特定模型。是的。你把这些组合成更通用的统一模型,这些模型建立在转换器架构之上,这与LLM相同的架构。我们开始看到这些机器人模型
更通用。这就是我们所说的物理人工智能,是下一波浪潮。从本质上讲,拥有这些具有对我们周围物理世界普遍理解的基础模型,
你用它作为基础,作为基础,然后根据你的特定目的进行微调。就像我们有LAMA、GPT和anthropic模型一样,然后从中你可以对它们进行微调以适应特定类型的任务。我们将开始看到许多新的物理人工智能模型,它们只是理解一般的物理定律。然后我们将利用这些模型并对其进行微调,以专门用于不同类型的机器人任务。
所以有一些机器人测试,就像你知道你家里的Roomba,又比如你知道的仓库机器人,甚至是自动驾驶汽车,没错,是的,它们可以是仓库中的拾取和放置机器人,它们可以是AMR,它们基本上是可以在这些仓库和工厂中四处移动的小型驾驶平台,它们可以是在工厂内部或外部飞行的无人机
在工厂内部,外部。顺便说一句,这就是我想要的,我希望无人机能把热拿铁送到我的阳台上,而不用在交通中穿行。而且它还是热的,而且能送到你手里。是的,我不确定我是否同意你的观点。我不知道我是否想让数千架无人机在我的社区周围飞来飞去,到处投递拿铁。这是我为数不多的几件自己动手在家制作的东西之一。是的。
你喜欢你的拿铁艺术吗?我每天早上为我的妻子做一杯。这是我每天做的第一件事。它让我融入这个世界。所以我不需要无人机来做这件事。说得对。说得对。你如何看待我们目前在物理人工智能能力方面所处的位置?我不知道GPT-1234的命名法是否是思考这个问题的正确方法。但我很好奇,当你考虑我们现在所处的位置以及我们前进的方向时,你对未来有什么看法?
就物理人工智能能力的成熟度而言,我们处于哪个阶段,特别是这种更通用的方法,即理解并能够在物理世界中采取行动的智能体?我认为我们正处于起步阶段。我不知道如何将其与GPT-1234精确地联系起来。我不确定这是否有效,但我们正处于这一阶段的开端。
话虽如此,我们也在构建GPT-1234,以及LLM本身。输入这些基于文本或LLM模型的信息和数据实际上也与物理人工智能模型相关。在用于训练它们的文本描述中,包含有关物理世界的信息。我们谈论诸如红色之类的颜色以及
把书放在书架上
以及物体下落,这些抽象的概念仍然是相关的。这只是不够的。如果一个人从未见过这些东西,从未触摸或体验过,只有描述红色的词语,他们就不会真正理解它。正如你之前所说,它没有扎根于物理世界。对。因此,他们将采用所有这些不同的信息模式并将它们融合在一起,以更全面地了解我们周围的物理世界。
一个很好的类比就像我们大脑的不同部分?看起来这些LLM非常擅长推理这种象征性的文本世界。关于视频模型能够走多远以及如何再现世界物理学的争论有很多。但听起来你只是创建了另一种与这些其他部分协同工作的基元,它实际上是基于现实世界的,并且已经看到了物理世界以及你所谈到的所有边缘情况的例子。然后,作为一个整体的系统,其能力要强大得多。
没错。我认为关于这些视频模型能够走多远存在争议,因为世界物理学的原因。现在,即使是我们拥有的当前更有限的视频模型,它们也不是仅用视频进行训练的。它们是多模式的。来自非视频来源的信息很多。其中有文本和字幕以及其他内容。因此,如果我们可以引入
引入更多模式的信息,例如模拟器中拥有的世界状态。在模拟器中,我们知道3D空间中每个物体的位移。我们知道每个像素的距离。我们不仅可以看到世界上的事物,我们还可以触摸它,我们可以闻到它,我们可以品尝它。我们有多种感官体验融合在一起。
让我们更全面地了解我们周围的世界。就像现在,我坐在这个椅子上。我看不到我的头部后面,但我敢肯定,如果我把我的手放在我的后面,我将能够触摸到椅子的后面。这就是本体感受。我知道这一点,因为我对周围的世界有一个模型,因为我能够通过我的所有感官来综合它,并且那里有一些记忆。
我们从本质上复制了相同的过程,相同的基本思想,以及我们如何训练人工智能。首先,缺失的部分是这个转换器模型,这个想法是我们只是抛出各种非结构化数据,这个东西,它会弄清楚,它会创建一个通用的模型。
可以通过理解复杂的模式来做各种不同的事情。所以我们有了这个,我们需要所有正确的数据来输入它。因此,我们的信念是,很多,如果不是大部分的话,这些数据将来自模拟,而不是来自互联网上碰巧存在的数据。所以你关于
是的,世界状态。就像你拥有,用书呆子的话来说,3D场景图。正如你提到的那样,是的,就像各种物体的向量,所有这些你在视频游戏中认为理所当然的东西,然后可以与其他图像数据一起扔进转换器中,也许可以将其简化以看起来像一个真实的传感器。然后突然之间,你可以,就像,它将建立一种理解或建立一种,我听说过它被描述为一种通用的函数逼近器,以弄清楚如何,是的,反转
模拟所有这些其他感觉,如本体感受以及所有其他东西。我认为大约有30或40种。听到我们有这么多,我有点惊讶。也许机器人甚至不受艺术的限制。你之前提到了激光雷达和激光,对吧?或者红外线。所以就像在某些时候,这些机器人将是,回到我们谈话的开始,超人的。是的。我的意思是,我们也有在某些方面是超人的动物,对吧?蝙蝠可以用声音来感知。是的。
是的,鹰拥有可变焦的视觉。它们可以放大。当然,为什么它们在感知世界和在世界中行动的某些维度上不会是超人的呢?当然,它们在许多方面已经是超人了。我们有图像分类器,可以比任何人类更好地对动物、每个品种的狗和植物进行分类。如此真实。所以我们当然会做到这一点,至少在某些维度上。♪
嗨,我是比拉尔·萨杜,TED最新播客《TED人工智能秀》的主持人,我与世界领先的专家、艺术家、记者交谈,帮助你在人工智能改变一切的世界中生活和茁壮成长。我很高兴能与IBM合作,他们是本集的官方赞助商。
现在,从通用人工智能试点到现实世界部署的路径通常充满了障碍,例如自由数据流的障碍。但如果我告诉你有一种方法可以在你的数据所在的位置部署人工智能呢?使用Watson X,你可以在任何环境中部署人工智能模型,在云端之上帮助飞行员导航飞行,在许多云端帮助员工自动化任务,在本地,以便设计师可以访问专有数据,
以及在边缘,以便远程银行出纳员可以协助客户。Watson X帮助你在任何需要的地方部署人工智能,这样你就可以将你的业务带到任何需要去的地方。访问ibm.com/Watson X了解更多信息,并开始在你最需要的地方注入智能。
你的业务是现代化的,那么为什么你的运营不是呢?是时候进行运营干预了。PagerDuty Operations Cloud 是一个必不可少的平台,用于自动化和加速整个公司的关键工作。通过自动化和人工智能,PagerDuty帮助你以更高的弹性、更高的安全性以及更多的节省来运营。你准备好改变你的运营了吗?访问PagerDuty.com开始吧。
那么,让我们谈谈展望未来。你谈到物理人工智能正在改变工厂和仓库。你对它们在我们日常生活中的潜力有什么看法?就像,你如何看待这些技术的发展,将机器人以真正有意义的方式带入我们的家庭或私人空间?就像尽可能地亲密一样,对吧?它也不是一个受控的环境。如果你看过Jensen过去一年中的任何主题演讲,在过去的
10到12个月左右,有很多关于人形机器人的讨论。绝对的,是的。这是一种潮流。你到处都能看到它们。我想对许多人来说,当他们看到这个时,他们可能会翻白眼,哦,是的,是的,人形机器人,我们一直在
谈论这些。为什么它必须看起来像一个人形?构建专门擅长特定任务的机器人不是更有意义吗?而且我们的最先进工厂中已经使用了很长时间的机器人,它们不是人形的。它们就像汽车工厂中的大型机械臂。为什么我们要谈论人形机器人?现在出现这个问题的原因是,如果你退一步思考,
如果你要构建一个能够做许多不同事情的通用机器人,那么今天最有用的是一个形状、行为和动作都大致像人的机器人,因为我们围绕着人类建造了所有这些空间。
所以我们建造了我们的工厂、仓库、医院、厨房、零售空间,有楼梯、坡道和货架。因此,如果我们可以构建一个通用的机器人大脑,那么最自然的物理机器人,将这个大脑放入其中以使其有用,将是类似人类的东西,因为我们可以将该机器人放入许多不同的环境中
在那里它可以发挥作用并做一些有成效的事情。因此,许多公司已经意识到了这一点,并且他们全力以赴。我们对此持乐观态度。我认为即使在这个领域内,也存在专业化。并非每个类人机器人都会完美地完成人类可以完成的每一项任务。实际上,并非所有人类都擅长每一项任务。有些人更擅长打棒球,有些人更擅长切洋葱。宇航员有特定的标准,对吧?没错。因此,我们将有许多公司制造更专业的类人机器人或不同类型的机器人。我们目前关注的是工业领域的机器人。
我们认为这是它们将被最快速地采用,并将产生最大影响的地方。我们放眼全球,包括美国,工厂、仓库、运输、零售业都存在劳动力短缺的问题。我们没有足够的人来补充货架。
人口统计数据表明,这种情况只会越来越糟。因此,对能够在这些空间中工作的类人机器人的需求巨大。我认为就我们的私人空间而言,能够与工厂或仓库中的人类并肩工作的机器人也应该能够在你的厨房和家中工作。这些类人机器人被接受的速度,将会有市场需求。
我认为这取决于我们谈论的是哪个国家,因为存在非常强的文化因素。将机器人带入你的家中,将其他类似人类的东西带入你的家中,这是非常私人的事情。上帝保佑它不会为你做拿铁。没错。我不想在我的厨房里这样做。我甚至不想让其他人早上在那里。但这里有文化因素。在美国和西方国家,我们可能有点
更谨慎或更小心地对待机器人。在东方,尤其是在日本等国家,他们喜欢机器人,对吧?他们想要它。但世界各地的工业现在都需要它。因此,对于工业应用来说,我认为从那里开始是有意义的,然后我们可以将这些技术带入消费领域,市场将探索它们最适合的地方
首先,但最终我们将到处都有它们。想到有多少技术的早期采用者,包括虚拟化身等,但将虚拟与物理连接起来,这真是太迷人了
你们正在构建的技术并不仅限于机器人,对吧?随着这项技术提高空间理解能力,它们可以增强我们的个人设备,例如虚拟助手。你认为我们离那种,你知道的,现实生活中的贾维斯体验有多近,一个虚拟助手可以无缝地理解和与我们的物理环境互动,即使它不是以机器人的形式存在的?
所以这回到了我之前所说的关于机器人定义的内容。什么是机器人?完全正确。你刚才谈到的那样,对我来说,贾维斯实际上是一个机器人。它做了这三件事。它感知我们周围的世界。是的。
通过许多不同的传感器。它做出一些决定,它甚至可以对世界采取行动。就像复仇者联盟电影中的贾维斯一样。是的。它实际上可以启动钢铁侠套装。对,是的。并在那里做一些事情,对吧?就像,那么这与C-3PO有什么区别呢?完全正确。从根本上说。你有点在机器人里面,就像你提到的英伟达大楼一样,是的。如果你考虑一下让我们沉浸在世界中的这些XR设备,它们是半个机器人。有感知......
部分。有传感器以及一些智能来进行感知,但随后它被输入到人脑中,然后人做出一些决定,然后它对世界采取行动。对。当我们对世界采取行动时,可能还有一些软件,甚至是一些人工智能在该世界的模拟或组合中做一些事情。所以它不是非黑即白的,什么是机器人以及
什么是人类或人类智能,在这些事物之间存在某种范围。我们可以用人工智能来增强人类。我们已经在做了。每次你使用手机来提问,你都会去谷歌或perplexity或其他什么地方。你正在用人工智能来增强自己,通过向Chat GPT提问。这就是......的融合。
人工智能与沉浸式XR的贾维斯体验,只是让循环更快地进行增强。你完美地阐述了我的最后一个问题,那就是随着人工智能不仅融入数字世界,而且融入物理世界,我必须问你,什么地方可能出错,什么地方可能正确?
好吧,对于任何强大的技术来说,总会有出错的方式。这可能是我们见过的最强大的技术。我认为,我们必须非常谨慎和认真地部署这些技术,以确保它们是安全的。在将人工智能部署到物理世界方面,
我认为我们必须做的最重要的事情之一是确保在整个过程中始终有人参与其中,我们有能力将其关闭,没有任何事情发生在我们明确知道它发生并且在我们允许的情况下发生。
我们这里有一个系统。我们在我们大楼周围安装了传感器。我们可以看到人们在哪里,他们最常通行哪些区域。晚上,我们有机器人清洁工。它们就像巨大的Roomba,用来清洁我们的地板。
我们引导它们前往人们实际去过的地方,它们不会打扰根本没有通行的地方,以优化它们。我们将拥有许多这样的系统。这是一个机器人系统。这本质上是一个机器人控制其他机器人。但我们需要确保在该循环中某处有人类参与,部署它,观察它,并确保我们可以停止它,暂停它,并做任何必要的事情。
所以问题的另一部分是,这项技术会带来哪些好处?我们已经触及到其中的一些内容,但最终,能够将所有这些计算技术和智能应用到我们周围的物理世界中,我甚至无法想象生产力提高的潜力。看看农业吧。如果你有实际上无限数量的工人,
他们可以做一些极其繁琐的事情,例如一次拔出一棵杂草,然后穿过数千英亩的田地,只识别杂草或害虫所在的位置,然后逐个将其清除。那么也许我们不需要用杀虫剂等所有这些会损害我们周围环境、损害人类的技术来覆盖这些区域。我们可以......
从本质上讲,任何地方经济生产力的主要驱动力都是我们国家的人口数量。我的意思是,我们用GDP(国内生产总值)来衡量生产力,我们关注人均GDP。这是效率的衡量标准,对吧?但它总是与人口数量相关。人口较多的国家GDP也较高。当我们将物理人工智能应用到我们周围的物理世界时,这几乎就像我们在增加人口一样。
生产力增长可以提高。而且更是如此,因为我们可以让他们做的事情是人类无法做或不愿意做的事情。它们太繁琐、无聊和糟糕了。所以在制造业、仓库、农业、运输业中,你可以找到很多这样的例子。看,我们一直在谈论运输现在是CG问题。卡车司机,我们没有足够的人。
这实际上是整个经济生产力的瓶颈。很快,我们将实际上拥有无限数量的工人来做这些事情。然后我们可以部署我们的人类去做所有让我们开心的事情,我们喜欢做的事情。我喜欢这个。就像我们终于有了足够通用和灵活的技术,我们可以重新构想所有这些行业,是的,让人类去做那些丰富和充实的事情,但是
也许甚至会有一个极度丰富的世界。我知道这是一种流行的说法,但当你谈到这一点时,感觉就像一个极度丰富的世界。你这么认为吗?是的,是的。我的意思是,如果你从第一性原理考虑我所说的一切,为什么不会发生呢?如果我们可以制造智能,而这种智能可以在物理世界中驱动、体现并为我们做一些事情,
为什么我们不会拥有极度丰富的世界呢?我的意思是,基本上就是这样。我喜欢它。非常感谢你加入我们,Rev。感谢你邀请我。和你聊天总是很有趣。好的,当我结束与Rev的谈话时,我想到了几件事。哦,我的上帝,英伟达一直在玩长线游戏。他们找到了合适的切入点,电脑游戏,来降低这项基础技术的风险,而这项技术现在已经完全成熟了。
世界各地的公司甚至政府都在购买英伟达GPU,以便他们可以训练自己的AI模型,创建越来越大的计算集群,有效地将CEO黄仁勋变成了一个“造王者”。但特别诗意的是,他们投资的所有技术都是他们让机器人漫游世界的工具。
我们正在创建一个现实的数字孪生体,一个镜像世界,如果你愿意的话。它远远超出了预测天气等现实方面。它实际上是关于创建一个现实的完全保真度近似值,在那里机器人可以自由地犯错,并且可以摆脱挂钟时间的束缚。我也对此感到非常兴奋,因为创建这种类型的合成训练数据对我们作为消费者有很多好处。
例如,在家里训练机器人。我们真的想在家里最私密的地方收集大量数据吗?合成数据提供了一条非常有趣的途径来以保护隐私的方式训练这些AI模型。当然,我仍然想知道模拟与现实之间的差距是否真的可以克服。但看起来这个差距将不断缩小。
谁知道呢?当元宇宙第一次进入公众意识时,每个人都在批评它。就像,谁真的想要这个互联网的3D继承者呢?现在我认为元宇宙的杀手级用例根本不是为人类服务的,而是为机器人服务的。
《TED人工智能秀》是TED音频集的一部分,由TED与Cosmic Standard联合制作。我们的制作人是多米尼克·吉拉德和亚历克斯·希金斯。我们的编辑是程班班。我们的节目主持人是伊万娜·塔克。我们的工程师是亚洲·皮拉尔·辛普森。我们的研究员和事实核查员是克里斯蒂安·阿帕塔。我们的技术总监是雅各布·温尼克。我们的执行制片人是伊丽莎·史密斯。
我是比拉尔·沃萨杜。别忘了评分和评论,我们下期再见。