We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The Robotics Revolution, with Physical Intelligence’s Cofounder Chelsea Finn

The Robotics Revolution, with Physical Intelligence’s Cofounder Chelsea Finn

2025/3/20
logo of podcast No Priors: Artificial Intelligence | Technology | Startups

No Priors: Artificial Intelligence | Technology | Startups

AI Deep Dive AI Chapters Transcript
People
C
Chelsea Finn
Topics
我被机器人技术对世界的潜在影响以及机器感知和智能发展问题所吸引,而机器人技术完美地融合了这两者。我在博士期间开始认真研究机器人技术,当时我们专注于神经网络控制,尝试训练神经网络将图像像素直接映射到机器人手臂的电机扭矩上。训练机器人执行特定任务相对容易,但让它在各种场景和物体中执行同一任务却极具挑战性。我一直致力于研究如何创建更广泛的数据集,利用这些数据集进行训练,并探索不同的学习方法,包括强化学习、视频预测和模仿学习。 Physical Intelligence 致力于构建一个大型神经网络模型,最终能够控制任何机器人,在任何场景中执行任何任务。与专注于单一应用的传统机器人技术不同,我们致力于解决更广泛的现实世界物理智能问题,关注泛化能力和通用型机器人。我们认为利用所有可能的数据至关重要,这不仅包括来自单个机器人的数据,还包括来自任何具有不同关节数或手臂数的机器人平台的数据,这有助于实现跨不同机器人平台的知识迁移。 与语言模型不同,我们缺乏机器人运动的“维基百科”或互联网,因此需要在现实世界中收集真实机器人数据来推动机器学习的进步。实现泛化能力的关键在于收集更多样化的机器人数据,这比仅仅增加数据量更重要。我们选择开源模型和软件包,因为我们认为该领域仍处于早期阶段,并且希望支持研究发展和社区建设,从而为未来更强大的通用模型做好准备。我更担心没有人能够解决机器人技术中的难题,而不是担心竞争对手。 我无法预测这些模型的首次应用领域,因为机器人技术的一个挑战在于,其输出结果通常由机器人自身自主完成,而非人类检查,这需要新的方法来容忍错误或实现人机协作。虽然人形机器人很酷,但我认为它们被高估了,因为我们目前的数据量有限,而优化数据收集效率比追求人形机器人更重要。人们低估了运动控制中的复杂性和智能性,即使是像吃麦片或倒水这样简单的动作也需要高度的复杂性和智能。 一些研究成果,例如SACAN、RT2和RTX,以及LOHA,证明了在机器人技术领域取得的重大进展,这些进展推动了该领域的快速发展和新公司的涌现。我们开发了一种分层交互式机器人系统,该系统结合了高层模型(用于规划任务步骤)和低层模型(用于执行电机控制),从而能够执行更长时序的任务并与人类进行交互。虽然视觉信息已经取得了很大的进展,但我希望未来能够在机器人中加入更先进的触觉传感器和其他传感器,以提高鲁棒性和功能。 与自动驾驶领域不同,机器人技术领域近期涌现了许多新的参与者,这表明该领域可能比自动驾驶领域更年轻,技术发展也更快。对于想要创办机器人公司的创业者,我的建议是快速学习,快速部署,快速迭代,并从实际经验中学习。虽然观察性数据(例如YouTube视频)对训练机器人模型很有价值,但机器人自身的身体经验对于学习至关重要,因此机器人自身的数据仍然是不可或缺的。我认为未来将会出现各种各样的机器人平台,就像厨房里有多种不同的电器一样,这将比单一类型的通用机器人更有效率。

Deep Dive

Chapters
Physical Intelligence is building a large neural network model to control any robot for any task in any scenario. Unlike other companies focusing on single applications, they aim for long-term generalizability across various robot platforms and data sources.
  • Physical Intelligence aims to build a general-purpose AI for robots
  • They focus on generalization and leverage data from various robot platforms
  • Their approach contrasts with traditional robotics focusing on single applications

Shownotes Transcript

嗨,各位听众。欢迎收听《No Priors》。本周,我们采访的是Chelsea Finn,她是Physical Intelligence的联合创始人,该公司致力于将通用人工智能应用于物理世界。

Chelsea与该领域的一批顶尖研究人员和专家一起共同创立了Physical Intelligence。她是斯坦福大学计算机科学与电子工程学副教授。在此之前,她在谷歌大脑工作,并在伯克利学习。Chelsea的研究重点是人工智能系统如何通过与世界的互动来获得通用技能。所以Chelsea,非常感谢你今天来到《No Priors》。是的,感谢你们的邀请。你做了一系列非常重要且具有里程碑意义的工作。

在谷歌、斯坦福等地从事机器人技术方面的工作。所以我很想直接听听你关于你在机器人世界中的职业道路的背景,是什么最初吸引你进入这个领域,以及你所做的一些工作。是的,这是一条漫长的道路。一开始,我对机器人技术可能对世界产生的影响感到非常兴奋。但与此同时,我对机器中感知和智能的发展问题也深感着迷,

而机器人则体现了所有这些。而且有时你还可以做一些很酷的数学运算,让你的大脑保持活跃,让你思考。

我认为所有这些都是从事该领域工作非常有趣的地方。十多年前,也就是我博士生涯开始的时候,我开始在伯克利更认真地从事机器人技术工作。当时我们正在研究神经网络控制,试图训练神经网络,让它直接从图像像素映射到机器人的扭矩。

在一个机械臂上。当时,这并不流行,而我们已经走了很长一段路,它在机器人技术中得到了更广泛的认可,而且通常也是许多人感到兴奋的事情。从那时起,我很清楚我们可以训练机器人做一些很酷的事情,但是让机器人

在许多场景中、使用许多物体来做这些事情是一项重大的挑战。所以十年前,我们正在训练机器人拧瓶盖、用铲子把物体抬到碗里,做一些精确的插入动作,或者把衣架挂到衣架架上。

所以,相当酷的事情。但实际上让机器人能够在许多环境中使用许多物体来完成这些任务,这就是很大一部分挑战所在。我一直都在思考如何制作更广泛的数据集,在这些更广泛的数据集上进行训练,以及不同的学习方法,无论是强化学习、视频预测、模仿学习,所有这些东西。

所以,是的,在我博士毕业和加入斯坦福大学之间,我在谷歌大脑工作了一年,成为斯坦福大学的教授,在那里建立了一个实验室,在这所有方面做了很多工作,然后大约一年前在这个时候成立了Physical Intelligence。为此,我从斯坦福大学休假了。能够

尝试执行我们共同拥有的愿景,并利用大量的资源等等,这真的令人兴奋。我还指导斯坦福大学的学生。这真的很酷。我想你与其他四位联合创始人以及一个令人印象深刻的团队一起创立了Physical Intelligence。你能否告诉我们更多关于Physical Intelligence正在从事的工作以及你们采用的方法的信息?因为我认为这是对整个领域和方法的一种相当独特的方式。是的。我们正在尝试构建……

一个大型的神经网络模型,最终可以控制任何机器人,在任何场景中做任何事情。我们愿景的一大重点是

过去,机器人技术一直专注于深入研究一个应用,并开发一个机器人来完成一件事情,最终陷入了这个应用中。解决一个问题然后试图摆脱它并拓宽范围真的很难。相反,我们真的致力于长期解决现实世界中物理智能的更广泛问题。我们正在思考很多关于泛化、通才和……

与其他机器人公司不同,我们认为……

能够利用所有可能的数据非常重要。这实际上不仅仅是利用来自一个机器人的数据,而是来自任何可能具有六个关节或七个关节或两个手臂或一个手臂的机器人平台。我们已经看到很多证据表明,你实际上可以跨这些不同的具体形式转移大量丰富的信,并允许你使用数据。而且,如果你迭代你的机器人平台,你不需要丢弃所有数据。我过去经历过很多痛苦,我们得到了一个新版本的机器人,然后你的策略就无效了。而且

试图回到你在前一个机器人迭代中的位置是一个非常痛苦的过程。所以,是的,试图构建通才机器人,并且基本上开发将为下一代现实世界机器人提供动力的基础模型。这真的很酷,因为,我的意思是,我认为这里有很多类似之处。

对于大型语言模型的世界,你知道,深度学习、转换器架构和规模的真正结合已经证明,你可以在不同形式的转移中获得真正的泛化能力,这些转移发生在不同的领域之间。你能否告诉我们更多关于你正在采用的架构或方法的信息,或者,你知道,你如何看待你正在开发的基础模型的基础?一开始,我们刚刚起步。我们试图扩大数据收集的规模。很大一部分原因是,

与语言不同,我们没有维基百科或机器人运动的互联网。我们对在真实的机器人和真实世界中扩展数据感到非常兴奋。这种真实数据是过去推动机器学习进步的动力。很大一部分原因是,我们实际上需要收集这些数据。这看起来像是在物理世界中遥控机器人。我们也在探索其他扩展数据的方法。但是,这种最基本的方法是扩展真实机器人数据。

我们在10月下旬发布了一些内容,展示了我们在扩展数据方面的一些初步努力,以及我们如何学习折叠衣服、清洁桌子、组装纸板箱等非常复杂的任务。现在,我们在旅程中的位置是真正思考很多关于语言交互和对不同环境的泛化的问题。所以

我们在10月份展示的是在一个环境中的机器人,它经过训练,在这个环境中拥有数据。我们确实能够看到一定程度的泛化。所以它能够折叠以前从未见过的衬衫,折叠以前从未见过的短裤,但是,嗯,

泛化程度非常有限,而且你无法以任何方式与它互动。除了它在训练数据中看到的相当基本的事情之外,你无法提示它并告诉它你想做什么。能够处理许多不同环境中的许多不同提示是目前的一个主要关注点。在架构方面,我们使用的是转换器,我们使用的是预训练模型,预训练的视觉语言模型,

这使你能够利用互联网中的所有丰富信息。几年前,我们有一个研究成果,我们证明,如果你利用视觉语言模型,那么你实际上可以让机器人完成需要在机器人训练数据中从未出现过但在互联网中出现过的概念的任务。一个著名的例子是,你可以把可口可乐罐递给泰勒·斯威夫特或泰勒·斯威夫特的图片,而机器人从未见过泰勒·斯威夫特本人,但互联网上有大量泰勒·斯威夫特的图片。你可以利用这些数据中的所有信息,然后利用预训练模型的权重

将这些信息转移到机器人身上。所以我们不是从零开始,这也有很大的帮助。所以这就是关于方法的一些信息,我很乐意更深入地探讨。这真是太棒了。那么,你认为真正实现泛化能力的主要基础是什么?是进一步扩展数据?是扩展计算能力?是两者的结合。是其他形式的后期训练或其他什么东西。就像,我只是很好奇,就像你思考人们现在关注的常见部分一样,

我很想知道你认为需要补充什么。显然,再次回到大型语言模型的世界,人们也在花很多时间研究推理模块和其他类似的东西。所以我很想知道,你认为目前缺少哪些组件?是的,我认为最重要的事情,这有点枯燥,那就是获得更多样化的机器人数据。对于我们在去年10月下旬发布的版本,我们在……

三个建筑物中收集数据,从技术上讲。例如,互联网以及为语言模型和视觉模型提供动力的所有内容都比这要多样化得多,因为互联网是由许多人拍摄的图片和许多不同的人撰写的文本。

因此,尝试在更多样化的地点以及使用更多物体、更多任务来收集数据非常重要。扩展数据的多样性,而不仅仅是数据的数量,非常重要。而这正是我们目前关注的一件大事,实际上是将我们的机器人带到许多不同的地方并在其中收集数据。作为这项工作的副产品,我们还了解了实际收集所需的内容

让你的机器人在许多不同的地方都能运行和工作。这是一个非常好的副产品,因为如果你真的想让机器人能够在现实世界中工作,你就需要能够做到这一点。所以这是最重要的事情。但是我们也在探索其他事情,利用人们的视频,再次利用网络上的数据,利用预训练模型,思考

推理,尽管是更基本的推理形式,例如,把脏衬衫放进衣篮。如果你能够识别衬衫和衣篮的位置,以及完成这项任务需要做什么,那就很有用了。或者如果你想做三明治,而用户心中有一个特定的要求,你应该通过这个要求进行推理。如果他们对泡菜过敏,你可能不应该在三明治上放泡菜。

诸如此类的事情。所以有一些基本的事情,尽管最重要的事情是更多样化的机器人数据。然后我认为你们迄今为止采取的大部分方法都非常重视发布机器人技术的开源模型和软件包。你认为这是长期的发展道路吗?你认为是开放核心吗?你认为最终会是专有模型吗?或者你如何看待这个问题以及

在行业背景下,因为现在感觉有几家不同的机器人公司,每家公司都在采用不同的方法,例如只关注硬件,我的意思是,对不起,硬件加软件,它们专注于特定的硬件架构。有,

软件以及那些闭源与开源,如果你只是做软件的话。所以我很想知道Physical Intelligence在这个范围内的位置。当然。事实上,我们一直非常开放。我们不仅开源了一些权重和发布细节以及技术论文,我们实际上也一直在与硬件公司合作,并向硬件公司提供机器人的设计。有些人实际上,当我告诉人们这一点时,有时他们真的会感到震惊,例如,“那知识产权怎么办?那,我不知道,保密性之类的事情怎么办?”我们

实际上对此做出了非常有意的选择。原因有几个。首先,我们认为这个领域才刚刚开始,这些模型将会变得更好,机器人也会在一年、三年内变得更好。我们希望支持研究的发展

我们希望支持社区,支持机器人,这样当我们有希望开发这些通才模型的技术时,世界将为此做好更多准备。我们将拥有更好、更强大的机器人,能够利用这些模型,那些拥有专业知识并了解使用这些模型所需的人。然后另一件事也是,我们拥有一支非常棒的研究人员和工程师团队,

非常非常棒的研究人员和工程师希望在开放的公司工作,尤其是研究人员,他们可以在他们的工作中获得认可,分享他们的想法,谈论他们的想法。我们认为,拥有最优秀的研究人员和工程师对于解决这个问题是必要的。我要提到的最后一件事是,我认为这种赌注最大的风险是它不会成功。我不太担心竞争对手。我更担心的是

没有人会解决这个问题。哦,很有趣。你为什么担心这个?我认为机器人技术非常困难。过去有很多失败的例子。与识别图像中的物体不同,对错误的容忍度非常低。你可能会错过抓取一个物体,或者像在物体上进行接触和不进行接触之间的区别,

非常小,它对机器人能否成功操纵物体的结果有巨大的影响。我的意思是,这只是一个例子。数据方面存在收集数据的挑战。好吧,任何涉及硬件的事情都很难。我想我们现在有很多在物理世界中使用机器人的例子

你知道,从喷气式飞机上的自动驾驶仪到一些形式的拣选和包装或其他类型的机器人以及配送中心。显然,还有与制造业相关的不同机器人,尤其是在汽车行业。对。在一些更受约束的环境中,

人们一直在以不同的方式使用它们。你认为这些模型的影响将在哪里首先显现出来?因为正如你所说,在某些情况下,你对错误的容忍度非常低。然后还有很多领域,实际上是可以的,或者你可以充分约束问题相对于模型的能力,这样它就能正常工作。你认为Physical Intelligence将在短期内产生影响,或者一般来说,机器人技术领域以及这些新方法将在哪里得到证实?

是的,作为一家公司,我们非常关注长期问题,而不是任何一个特定的应用,因为当你专注于一个应用时,可能会出现故障模式。我不知道第一个应用会在哪里。我认为实际上具有挑战性的一点是

通常在机器学习中,推荐系统、语言模型、图像检测等许多成功的应用,这些模型输出的消费者实际上是人类,他们实际上可以检查它。而人类擅长这件事。机器人的许多非常自然的应用实际上是机器人自己自主地做某事,而不是人类在使用它。

例如,命令机械臂的位置,然后检查它,然后验证它等等。所以我认为我们需要考虑新的方法来容忍错误或这种情况是可以的,或者人类和机器人可以一起工作的情况。我认为这是在尝试实际部署这些模型时将会出现的一个重大挑战。我们一直在做的一些语言交互工作实际上

是由这个挑战驱动的,我们认为人类能够提供关于他们希望机器人如何行为以及他们希望机器人做什么的输入,以及他们希望机器人如何在特定场景中提供帮助,这非常重要。这说得通。我想另一种泛化形式,至少在我们

当前的世界中,是人形,对吧?所以有些人特别关注人形机器人,比如特斯拉和其他公司,他们假设世界是为人类设计的,因此它是与人类共存的完美形态。然后其他人采取了非常不同的方法,例如说,好吧,我需要一些东西,它在某些方面更适合家庭,或者适合

工厂或制造业,或者其他你所说的任何东西,你对人形与非人形有什么看法?一方面,我认为人形机器人真的很酷,我的斯坦福实验室里就有一个。另一方面,我认为它们有点被高估了。一种实际的看待方式是,我认为我们目前普遍受到数据的限制。有些人认为,使用人形机器人,

你可能更容易收集数据,因为它与人类的形态因素相匹配。所以也许模仿人类更容易。我实际上听到有人提出这些论点,但是如果你曾经尝试过遥控人形机器人,你会发现它实际上比遥控静态机械臂或带有轮子的移动机械臂要难得多。我认为优化收集数据的能力非常重要,因为如果我们能够达到拥有

比我们想要的更多数据的地步,那么它就只剩下研究、计算和评估了。

所以我们正在优化,这是我们正在优化的目标之一。所以我们使用的是廉价的机器人。我们使用的是我们可以非常容易地为其开发遥控界面的机器人,你可以在其中非常快速地进行遥控操作并收集多样化的数据,收集大量数据。是的,这很有趣。有一个关于金·卡戴珊的病毒式假视频,她与一个机器人一起购物,机器人跟着她到处走,帮她提所有的购物袋。当我看到这个视频时,我真的很想要一个人形机器人跟着我到处走。

那样做会很有趣。所以我希望有一天我可以使用你们的软件让机器人跟着我到处做事情。令人兴奋的未来。你如何看待这些东西中具体模型的发展与否?就某些方面而言,我认为这是另一些人正在权衡或决定的事情?好吧,人工智能社区非常关注发展。

就像语言模型、视觉语言模型等等。而且围绕推理之类的事情有很多炒作。哦,让我们创造最聪明的东西。我觉得人们实际上低估了运动控制中包含多少智能。多年的进化才导致我们能够像现在这样使用我们的双手。而且许多动物都不能做到这一点,即使它们经历了这么多年,这么多年进化。所以我认为实际上有很多复杂性

复杂性和智能都体现在能够完成像做一碗麦片或倒一杯水这样基本的事情上。是的,所以在某些方面,我认为实际上像具体化智能或物理智能对于智能来说非常核心,并且可能与一些不太具体的模型相比被低估了。我过去几年非常喜欢的一篇关于机器人的论文是你们的Aloha论文。

我认为这是一个非常巧妙的方法。过去两三年中,你认为哪些研究真正导致了这种活动的激增?因为我觉得现在已经有很多人开始在这个领域创业了,因为很多人觉得现在是时候这么做了。

我有点好奇,你认为哪些研究是导致这种转变以及人们认为这是一个好工作场所的基础。至少对我们来说,有几件事我们觉得是转折点,感觉这个领域比以前发展得快得多。其中一个是……

SACAN的工作,我们发现你可以使用语言模型作为高级部分进行规划,然后将其与低级模型相结合,让模型完成长时序任务。一个是RT2的工作,它表明你可以完成我之前提到的泰勒·斯威夫特示例,并且能够插入大量网络数据,从而在机器人上获得更好的泛化能力。第三个是我们的RTX工作,其中……

我们实际上能够跨机器人具体形式训练模型,而且重要的是,我们基本上采用了不同研究实验室的所有机器人数据。将这些数据聚合到一个通用格式中并对其进行训练是一项巨大的努力。而且,当我们对其进行训练时,我们实际上发现我们可以获取一个检查点,将该模型检查点发送到全国另一家实验室,该实验室的研究生可以在机器人上运行该检查点,它实际上……

通常情况下,比他们在自己实验室中专门迭代的模型要好。这就像另一个重要的迹象,表明这些东西实际上开始发挥作用了,并且你可以通过在不同机器人之间汇集数据来获得好处。然后,就像你提到的那样,我认为LOHA的工作以及后来的移动LOHA的工作表明,你可以进行遥控操作并让模型训练相当复杂的灵巧操作任务。我们还发表了一篇关于系鞋带的后续论文,这是一个

一个有趣的项目,因为有人说如果他们看到机器人系鞋带,他们就会退休。所以他们退休了吗?嗯,他们没有退休。我们需要强迫他们退休。无论那个人是谁,我们都需要跟进。是的。所以这些只是一些例子。嗯,是的,我认为我们在该领域取得了巨大的进步。我还认为,在我们开始PI之后,这也向其他人发出了一种信号,如果专家们真的愿意押注于此,那么,嗯,

某些事情,也许某些事情会发生。你们今天从PI中提出的一件事是你们所谓的层次化交互式机器人或高机器人。你能否告诉我们更多关于这方面的信息?这是一个非常有趣的项目。我们在这里试图研究两件事。首先,如果你需要完成一个更长时序的任务,这意味着一个可能需要几分钟才能完成的任务,那么你

如果你只训练一个策略来根据图像输出动作,例如,如果你想做三明治,你训练一个策略,它只是

输出下一个电机命令,这可能不如实际思考完成该任务步骤的东西好。这是层次结构的第一个组成部分。这就是层次结构的来源。第二个组成部分是,很多时候,当我们训练机器人策略时,我们只是说,我们将获取我们的数据,对其进行注释,并说,这是拿起海绵。这是把碗放在垃圾桶里。这一部分是,我不知道,折叠衬衫。然后你得到一个策略,它可以像遵循折叠衬衫或……

拿起杯子之类的基本命令。但最终,我们不希望机器人仅仅能够做到这一点。我们希望它们能够与我们互动,我们可以说,“哦,我是素食主义者。你能为我做个三明治吗?哦,我还对泡菜过敏。所以也许不要放那些。”

也许还可以中途插话,说,“哦,先别放西红柿之类的。”实际上,能够仅仅遵循拿起杯子之类的指令的东西与能够处理这些类型的提示以及这些情境修正等等的东西之间存在很大的差距。因此,我们开发了一个系统,该系统基本上有一个模型,它接收并输出提示,并进行推理,能够输出下一步。

机器人应该遵循。这可能就是,这有点像,它会告诉它,那么下一步将是拿起西红柿,例如。然后是一个低级模型,它接收它的输入,拿起西红柿,并输出接下来大约半秒钟的电机命令序列。

这就是要点。这很有趣,因为我们实际上让机器人做了一个素食三明治或火腿奶酪三明治,或者其他什么。我们还做了一个购物和清洁桌子的例子。起初我很兴奋,因为看到机器人能够响应不同的问题并完成这些具有挑战性的任务真的很酷。其次,因为它实际上似乎是解决问题的正确方法。在技术能力方面,我很好奇的一件事是

如果我看看自动驾驶的世界,就会发现人们正在采取几种不同的方法。其中一种方法是更像Waymo中心的方法,它实际上结合了除视觉之外的各种其他类型的传感器。因此,你拥有激光雷达和其他一些东西,作为增强车辆自动驾驶能力的方法。你认为我们在机器人使用的传感器方面处于什么阶段?有什么缺失的吗?我们应该添加什么,还是有

我们需要整合但尚未整合的输入或反馈类型?所以我们仅仅使用视觉,甚至使用RGB图像就取得了很大的进展。我们通常会有一到多个外部所谓的基准摄像头来观察场景,以及安装在机器人每个手腕上的摄像头。我们可以通过这些获得非常非常大的进展。

如果我们能给我们的机器人皮肤,我会很高兴。不幸的是,许多现有的触觉传感器要么不如皮肤坚固,要么更贵,要么分辨率非常低。因此,硬件方面存在许多挑战。我们发现,实际上将RGB摄像头安装到手腕上

最终会非常非常有帮助,并且可能为你提供触觉传感器可以提供的许多相同信息。因为当我想到整合到人身上的传感器集合时,显然正如你所说,有触觉传感器,对吧?然后还有热传感器。实际上,人们通常不会过多考虑的各种东西都被整合进去了。绝对的。我只是很好奇,在机器人技术环境中,有多少实际上是必要的,而不是?我们应该考虑哪些事情?例如,如果我们从……

人类、动物或其他,你知道的。这是一个很好的问题。我的意思是,对于三明治制作来说,你可以争辩说你希望机器人能够品尝三明治以知道它是否好吃。或者至少闻闻它,你知道的。是的。我过去曾多次向谢尔盖提出过关于气味的论点,因为气味有很多好处,尽管你从未尝试过。是的。在某些方面,冗余是好的。呃,

我认为像音频一样,例如,一个人,如果你听到一些意想不到的声音,它实际上可以提醒你一些事情。在许多情况下,它实际上可能与你的其他传感器非常非常冗余,因为你可能能够看到某些东西掉落,例如。这种冗余可以带来鲁棒性。对我们来说,它并不冗余。

目前不优先考虑研究这些传感器,因为我们认为目前的瓶颈在于其他地方,在于数据方面,在于架构等等。我要提到的另一件事是,我们目前的策略实际上没有任何记忆。它们只查看当前的图像帧。它们甚至无法记住半秒钟之前的事情。所以我宁愿在添加其他传感器之前为我们的模型添加内存。我们可以拥有

许多应用的商业上可行的机器人,而无需其他传感器。你认为这个时间框架是什么?我不知道。是的。机器人技术中的一些部分比自动驾驶更容易,而另一些部分则更难。一方面,

它更难,因为你不仅仅是它只是一个更高维度的空间。即使是我们静态的机器人也有 14 个维度,每个手臂 7 个。在许多情况下,你需要比驾驶更精确。我们一开始也没有那么多数据。另一方面,对于驾驶来说,我觉得你需要解决复杂性

整个分布才能拥有任何可行的东西。你必须能够在一天中的任何时间或任何可能的行人场景或其他车辆等情况下处理交叉路口。而在机器人技术中,我认为有很多

商业用例不需要处理整个巨大的分布。而且你也没有那么大的安全风险。这让我感到乐观。而且我认为所有自动驾驶的结果都非常令人鼓舞,特别是像我在旧金山看到的那么多 Waymo 汽车一样。是的,看着它们扩大使用规模非常令人印象深刻。我发现自动驾驶领域引人注目的是

你知道,大约 10 到 15 年前,大约有 24 家初创公司开始从事自动驾驶。

而该行业在很大程度上已经整合,至少在美国是这样。显然,中国市场有点不同,但它已经整合到 Waymo 和特斯拉,它们实际上是两家现有公司,对吧?谷歌和特斯拉是一家汽车制造商。然后可能还有一两家初创公司,要么通过 SPAC 上市,要么仍在该领域工作。然后大部分都消失了,对吧?10、15 年前开始时存在的参与者群体与最终真正获胜的参与者群体大致相同,对吧?除了整合之外,该行业还没有出现很多活力。

除了整合之外。你认为主要的机器人参与者是今天存在的公司吗?你认为是否存在任何可能存在的既得利益偏差?一年前,这将完全不同。我认为我们最近涌现了许多新的参与者。我认为自动驾驶是这样的事实表明它可能有点太早了。

10 年前。我认为这可能是真的。我认为深度学习从那时起已经取得了长足的进步。所以我认为这也是其中一部分。我认为机器人技术也是如此。如果你在 10 年前甚至……

甚至五年前,老实说,我认为还为时过早。我认为这项技术还不存在。我们可能仍然为时过早,我们都知道。我的意思是,这是一个非常困难的问题。我认为自动驾驶的难度证明了在物理世界中构建智能的难度。就主要参与者而言,我非常喜欢初创公司环境中的许多事情,以及我在谷歌工作时很难做到的许多事情。谷歌在很多方面都是一个令人惊叹的地方。但举个例子,

将机器人带出校园几乎是不可能的,仅仅是因为代码安全的原因。如果你想收集多样化的数据,将机器人带出校园是有价值的。当你是一家规模较小的公司时,当你没有……

各种限制、繁文缛节等等,你可以更快地行动。大型公司拥有大量的资金,因此它们可以持续更长时间。但我也认为,他们的行动速度也会更慢。如果你要给那些今天考虑创办机器人公司的人一些建议,你会建议他们做什么,或者你会将他们引导到哪些方面去关注?我认为我会给想要创办公司的人的主要建议是……

尽可能快地学习尽可能多的知识。我认为实际上像快速部署和学习以及快速迭代一样,这可能是……

主要建议,并尝试,是的,将机器人实际部署出去,从中学习。我也不确定我是否是最适合提供创业建议的人,因为我自己创业才 11 个月。但是,是的,这可能是我会给出的建议。这很酷。我的意思是,你正在经营一家令人难以置信的令人兴奋的初创公司,所以。

我认为你完全有能力向该领域的人们提出建议。我听说许多不同的团队正在做的是真正使用人们的观察数据作为训练集的一部分。这可能是 YouTube 视频。这可能是他们专门为此目的而记录的内容。你如何在训练机器人模型的背景下考虑这个问题?我认为这些数据可能具有很大的价值,但我认为仅凭这些数据并不能让你走得很远。我认为实际上你可以做一些非常好的类比,你知道的,

例如,如果你观看奥运会游泳运动员游泳比赛,即使你拥有他们的力量,仅仅练习他们自己的肌肉运动来完成他们正在完成的事情对于能够做到这一点至关重要。或者如果你想学习如何很好地击打网球,你将无法通过观看职业选手来学习。

现在,这些例子可能看起来有点牵强附会,因为它们谈论的是专家。我之所以做这些类比,是因为我们人类已经擅长各种事情的运动控制,低级运动控制,而我们的机器人则不然。我认为机器人实际上需要来自他们自己身体的经验才能学习。所以我

我认为能够利用这种形式的数据非常有前景,特别是为了扩展机器人的自身经验。但我认为实际上也必须拥有来自机器人本身的数据。在某些情况下,这只是你在机器人周围生成的一般数据吗?或者你会让它模仿某些活动吗?或者你如何考虑数据生成?因为你提到了一点关于转移和泛化能力。询问什么是可泛化的,什么不是很有趣?哪些类型的数据是,哪些类型的数据不是,诸如此类的事情?

那。我的意思是,当我们收集数据时,它就像木偶戏一样,就像最初的 Aloha 工作一样。然后你可以记录实际的电机命令和传感器,例如摄像机图像。所以那是

机器人的经验。然后我认为自主经验将发挥巨大作用,就像我们在语言模型中看到的那样,在你获得初始语言模型之后。如果你可以使用强化学习让语言模型在其自身经验的基础上进行引导,那将非常有价值。是的,然后就什么是可泛化的,什么不是可泛化的而言,我认为这一切都取决于分布的广度。很难量化或衡量机器人的自身经验有多广泛。

而且无法对任务的广度进行分类,例如一项任务与另一项任务有何不同,一个厨房与另一个厨房有何不同,诸如此类的事情。但我们至少可以通过查看建筑物数量或场景数量等内容来大致了解这种广度。然后我想我们谈到了一些关于人形机器人和其他形式的东西。如果你提前考虑……

就这些机器人未来发挥作用时可能存在的形式因素而言?你认为存在一种单一的形式,还是有几种?它是一个丰富的生态系统,就像生物学一样?你如何看待所有这些将会产生什么?我不确切知道,但我认为我的赌注将是存在……

各种不同的机器人平台。我认为我的联合创始人谢尔盖喜欢称之为不同机器人硬件类型的寒武纪大爆发等等。一旦我们实际上可以拥有能够提供这种智能的技术,这种智能可以为所有这些不同的机器人提供动力。我认为这有点类似于……

例如,我们的厨房里有很多不同的设备可以为我们做很多不同的事情。而不是仅仅像一个设备为我们烹饪整顿饭一样。所以我认为我们可以想象一个世界,在这个世界里,有一种机器人手臂可以在厨房里做事情,它有一些为此优化的硬件。也许也为该特定用例的廉价性进行了优化。另一个……

为折叠衣服或类似的事情而设计的硬件,洗碗,诸如此类的事情。当然,这一切都是推测,但我认为这样的世界是……是的,它与许多人对机器人的看法不同。在《钻石时代》一书中,有一种观点认为物质管道进入家庭,你拥有这些可以为你制造一切的 3D 打印机。在一个例子中,你正在下载示意图,然后你 3D 打印该东西。

然后那些正在走私一些这些东西的人最终会采用几乎是基于进化的过程来构建硬件,然后根据某种机制来选择某些功能以优化事物。你认为这样的未来是否可能,或者你认为这更多的是,嘿,你让基础模型变得非常好,你有一些形式因素,你知道的,如果你在实际过程中有足够的泛化能力,你就不需要那么多专业化?

底层智能。我认为这样的世界是可能的。我认为如果你正在为特定用例优化,你可以制造更便宜的硬件,硬件,也许它也会更快等等。是的,显然很难预测。是的,很难预测,因为支持较少硬件平台的论点之一就是供应链,对吧?规模越大,成本就越低,对吧?

制造所有子组件,因此你将减少到更少的东西,因为除非存在巨大的成本优势,否则更少的东西将更容易

易于扩展、可复制、廉价制造等等,对吧?如果你查看一般的硬件方法。因此,这是一个关于这两个张力之间权衡的有趣问题。是的,尽管我们可能会有在供应链中的机器人可以制造你想要的任何可定制设备。机器人无处不在。所以这就是我们的未来。是的。好吧,非常感谢你今天加入我。这是一次非常有趣的谈话。我们涵盖了各种各样的内容。所以我非常感谢你的时间。是的,这很有趣。

在 Twitter 上关注我们 @NoPriorsPod。如果你想看到我们的脸,请订阅我们的 YouTube 频道。在 Apple Podcasts、Spotify 或你收听节目的任何地方关注该节目。这样你每周都会收到一集新剧集。并在 no-priors.com 上注册电子邮件或查找每集的文字记录。