We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Ep 56: Distinguished Engineer at Waymo Vincent Vanhoucke Unpacks the Breakthroughs and Bottlenecks of Self-Driving

Ep 56: Distinguished Engineer at Waymo Vincent Vanhoucke Unpacks the Breakthroughs and Bottlenecks of Self-Driving

2025/2/26
logo of podcast Unsupervised Learning

Unsupervised Learning

AI Deep Dive AI Chapters Transcript
People
J
Jacob Efron
V
Vincent Vanhoucke
Topics
Jacob Efron: 本期节目讨论了大型语言模型 (LLM) 如何改变自动驾驶和机器人技术,Waymo 如何看待其车辆传感器数量,以及未来几年将决定该领域发展轨迹的关键技术。 Vincent Vanhoucke: 大型语言模型的进步增强了 Waymo 的自动驾驶技术,但并非完全取代原有系统。LLM 主要用于构建“教师模型”,利用大量数据训练云端模型,再将数据提炼到车载模型中,提升系统性能。LLM 为自动驾驶系统带来了“世界知识”,例如识别不同地区的警车和紧急车辆,弥补数据收集的不足。然而,对于安全、法规等方面,需要明确的规则和验证机制,不能完全依赖 AI 模型。 我加入 Waymo 的原因是亲身体验了其自动驾驶服务的便捷性和易用性。自动驾驶和机器人技术的核心问题都是感知、规划和执行,但自动驾驶更关注规模化和商业化应用。自动驾驶领域的主要挑战在于规模化,需要解决在行驶数百万英里后出现的各种长尾问题。解决这些问题需要结合仿真和现实世界数据,并通过模拟各种极端情况来提升模型的鲁棒性。可靠的物理真实世界模型是自动驾驶技术未来可能取得突破的关键。Waymo 在自动驾驶世界模型研究方面,既关注外部研究成果,也进行内部研发,并通过发布开放数据集来引导研究方向。Waymo 的自动驾驶模型在不同城市具有良好的可移植性,但仍需针对不同城市进行评估和验证,以确保模型的鲁棒性。Waymo 使用多种传感器(摄像头、激光雷达和雷达)来实现自动驾驶,这些传感器相互补充,提高了系统的可靠性。未来几年,传感器技术和模型性能的提升将共同决定自动驾驶汽车所需的传感器数量。自动驾驶领域的下一个重要里程碑是实现大规模商业化应用,并证明其在不同地理位置的可靠性。 Jacob Efron: 大型语言模型的应用为机器人技术带来了惊喜,特别是将自然语言描述转化为机器人可执行的计划的能力。未来几年,机器人技术的发展方向可能是既有通用的机器人模型,也有针对特定任务优化的模型。在机器人技术中,模拟数据和真实世界数据的应用存在争议,模拟数据在运动和导航方面效果较好,但在操作方面效果较差。大规模数据采集是机器人学习的关键瓶颈,需要探索更高效的人机交互方式来加速数据采集过程。大型多模态模型能够将视觉信息传递给机器人,从而简化数据采集过程,但仍然需要解决运动数据采集的问题。未来几年,机器人技术领域的关键问题包括运动泛化能力、机器人与其他 AI 领域的差异以及是否存在适用于机器人技术的规模化定律。计算机视觉技术在开放环境中的性能仍然有待提高,其应用前景可能与机器人技术密切相关。大型语言模型的推理能力超出了预期,其易用性将对人们的生活和工作产生深远影响。大型语言模型的测试时计算能力非常强大,但其应用范围和对其他领域的影响还有待观察。大型语言模型在需要多步骤推理和信用归属的领域具有应用潜力,例如强化学习。未来一两年,大型语言模型和机器人技术领域的关键问题包括世界模型的构建、模型架构的改进以及规模化定律的探索。大型语言模型的进步将对教育领域产生深远影响,但目前人们对此的讨论还不够充分。AI 技术在非技术领域的应用也具有广阔前景,例如食品工业。

Deep Dive

Shownotes Transcript

- 温森特·瓦努克是Waymo的一位杰出工程师,在创立并领导谷歌的机器人团队后加入Waymo。我是雅各布·埃弗隆,今天在《无监督学习》节目中,我们听取了温森特对这两个领域的看法。他谈到了大型语言模型如何改变自动驾驶汽车和机器人技术。他谈到了Waymo如何考虑汽车上的传感器数量以及自动驾驶领域中剩余的关键里程碑。然后,我们还讨论了人工智能和机器人技术,今天这个领域的状态以及未来几年我们将了解哪些信息将决定未来的发展轨迹。

这些是我长期以来一直想在《无监督学习》节目中讨论的话题,我想不出比温森特更好的嘉宾来讨论这些话题了。我认为您会非常喜欢这次谈话。事不宜迟,让我们听听温森特的讲解。

非常感谢您来到播客节目。非常感谢您的邀请。我也期待这一刻很久了。我觉得我们今天会深入探讨很多不同的方面,但我认为我们会从您目前的雇主Waymo开始。Waymo在大型语言模型、扩散模型以及过去四五年发生的一切进步爆炸式出现之前很久就开始研究自动驾驶技术。我想知道这在多大程度上改变了Waymo技术的工作方式。有趣的是,在某种程度上,没有任何东西需要被抛弃。

这是锦上添花的东西。当前的这种基础模型革命是

是关于构建教师模型,例如可以在云端运行的非常大型的模型,这些模型基本上可以吸收我们拥有的所有可用数据以及互联网数据,以构建Waymo驾驶员、汽车行为和环境的非常大型的模型。

您可以使用该教师来训练并将数据提炼到汽车上搭载的板载模型中,而无需进行大量改造。作为起点,您可以不更改任何内容,只需使用不同的监督模式即可。

然后,您可以在此基础上进行改进,并尝试获得更大、更高容量、更高表达能力等的模型。但这只是锦上添花,对吧?因此,您不会丢弃任何东西。您只是为每个模型提供更好的教师和更多信息来进行工作,基本上就是这样。哇。

这实际上是如何实现的?您之前有这种做事方式,并且在您之前使用的一组模型中。大型语言模型和视觉大型语言模型是如何进入Waymo堆栈的?大型语言模型和视觉大型语言模型可以带来的最重要的一点是

首先是所谓的“世界知识”,本质上是对周围世界的语义理解。对您和我来说非常明显的事情,例如警车是什么样子,紧急车辆是什么样子。

我们从驾驶中收集的数据可能没有经历过,对吧?想象一下,我们进入一个新的城市,那里的警车看起来有点不同。在我们体验到这一点之前,我们不会拥有这些数据。这些模型知道一般的警车是什么样子,一般的紧急车辆是什么样子。因此,这种世界知识……

有很多世界知识的例子。我只是以车辆为例,但只是学习事故现场是什么样子,对吧?我们在数据中没有看到很多这样的情况,但是如果您询问Gemini或GPT这样的大型多模态模型,您知道,您向它们展示事故现场的图片,它们将能够识别出正在发生的事情以及那里的语义上下文。

这与之相关。因此,将所有这些知识从本质上讲从网络带入驾驶员,以使其能够获得更多能力,这基本上是我们从中寻求的东西,除了规模扩大之外。

因此,这些模型非常庞大。它们经过大量视觉数据的预训练。它们经过大量文本数据的预训练,这增强了它们的推理能力。您可以利用这种规模,您知道,更大总是更好,本质上是利用它作为工具来构建只是……

相反,对于自动驾驶的整体问题,哪些部分这些模型实际上并没有那么有帮助?您可以将驾驶问题的各个方面都提炼成一个机器学习模型。有些事情您也希望在AI模型之外构建在其之上。

通常,任何与安全方面的严格约定、监管限制等有关的事情,您都希望能够以非常明确的方式表达这些内容,而不是以间接的、隐含的方式表达,以便您可以确信一旦汽车行驶并且AI模型基本上提出了驾驶计划,您可以验证该计划是否有效。

满足您在安全、合规性和一般行为方面的要求。

从外部进行此操作可以为您提供一个非常强大的框架,以保证汽车始终以合理的方式运行,同时仍然使您可以利用人工智能的力量来制定计划,就最佳驾驶策略提出好主意。

是的,非常有趣。这有点像,是的,基本上是在推理模型的输出周围设置检查层面的防护栏。非常有道理。我想,您在谷歌的机器人领域取得了相当辉煌的成就,您知道,参与了很多该领域的开创性工作。然后,您知道,您决定转到Waymo。是什么促成了这种转变?而且,您知道,也许可以谈谈是什么让您如此兴奋。是的,这是……

这真的是偶然的,双关语的意思是,我去年发生了一起事故。没什么大不了的,但这让我休息了几个月。在那段时间里,我不得不停止工作,但我不得不去很多物理治疗预约。

由于我住在城市里,当时我无法开车,所以我基本上到处都乘坐Waymo。我发现这款产品非常棒。这是一种相当神奇的体验。是的,这完全是神奇的。这是我第一次与人工智能系统建立这种融洽的关系,我认为它触动了每个人。是的。

它如此易于使用,没有花哨的用户界面。它感觉像是真正适用于每个人的AI。这对我来说感觉非常令人兴奋和神奇。然后我……

几个月后我恢复了工作。我在DeepMind也有一个很棒的团队,他们在我不在的时候基本上接过了指挥权,并且做得很好。我抓住机会做一些不同的事情。

知道团队情况良好。我很想知道您能否谈谈您所从事机器人模型工作的异同。我的意思是,在最高层次上,感觉很多这些问题都是感知、规划和驱动。我确信在细节上,有很多事情是自动驾驶领域特有的,可能与您所做的某些机器人工作不同。是的,核心问题是相同的,因为自动驾驶汽车是一种机器人,对吧?它具有相同类型的输入和输出。你只是……

拥有传感器,摄像头作为输入,并且有驱动装置。因此,您知道,转动方向盘和踩油门踏板作为输出。这与需要从其摄像头传感器进行观察并用手臂、手和手指进行操作的机械臂机器人非常相似。什么真正……

最大的区别在于操作领域。在我从事机器人和人工智能工作期间,我更多地处于研究环境中,我们仍在追求本质上的标称行为。我们仍在追求……

我们如何让机器人做到我们想要它做的事情?例如拿起一个物体或系鞋带或去煮咖啡。总是去煮咖啡。我觉得每个人都喜欢这个演示,出于某种原因。煮咖啡很棒。太棒了。这确实很好地展示了能力可以达到什么程度,而现在还没有达到。

因此,追逐这一点确实是游戏的名称。在自动驾驶领域,我们知道如何驾驶。我们有一个运行得相当好的标称系统,其安全性和性能和质量水平已经使我们能够生产出商业产品。这里的所有挑战都是

是关于规模的。您如何对当今自动驾驶汽车的状态进行分类,例如,我们可以做什么,我们不能做什么,以及未来面临哪些挑战或仍然需要解决的问题?并没有那么多大的障碍,例如,我们现在不驾驶,我们现在不驾驶雪地,对吧?主要是因为

由于缺乏关注,到目前为止,这并不是我们在所在地区最紧迫的事情。但这需要更多地开发新的、更多功能。大多数这样的问题,例如雾或高速公路驾驶,我们开始在高速公路上驾驶和测试,随着时间的推移已经解决。

现在,最大的挑战实际上是关于规模的。所有与行驶数百万英里时发生的事情有关的问题。

您必须处理的规模较大的尾部问题主导了您必须解决的问题的等式,对吧?您可以想象,如果您作为一名驾驶员,您一生中可能只经历过一次,对吧?

我们每周甚至每月都会经历这件事。因此,所有异常、奇怪和困难的事情都成为我们的常见事件,并且正在对我们的规模产生压力。

因此,解决这个长尾问题是我们真正关注的,也是我们希望人工智能和大型模型能力能够帮助我们加速解决的问题。您是如何解决这个问题的?我的意思是,很明显,我认为困难的部分是没有大量数据可以获取。我假设当您在高速公路或雪地或雾中行驶时,您可以收集相当数量的数据。但是对于某些长尾问题,它主要是使用模拟吗?是的,我们做了很多模拟。

并合成许多与我们知道可能发生的问题相对应的场景,这些问题我们可能从未在世界上观察到过,但我们知道这是必然的。因此,我们合成了很多这样的场景,并根据这些场景验证我们的模型。然后,我们还尝试做很多观察,例如,

很多情况下,实际上并没有发生什么不好的事情,

但存在可能发生不同事情的风险,因此我们只是修改场景以使它们变得更糟。您可以想象在现实世界中体验过某件事,然后您拨动一个刻度盘,上面写着:“现在让所有驾驶员都成为酒后驾驶者。”或者让驾驶员积极地与您对抗。你如何让

让汽车变得更困难,以便您可以学习并更具反应性,并更好地理解最坏情况下可能发生的事情。您是否认为在自动驾驶方面仍然需要发生哪些研究或技术突破?或者您描述的大部分内容只是,您知道,会有大量边缘情况,而只是识别它们?有一个……

一项我认为可以再次彻底改变自动驾驶格局的技术进步。那就是拥有可靠的、物理上真实的物理模型。

为了能够像您和我一样真实地模拟现实世界,具有物理上的真实感,具有场景的非常精确的渲染,

为了实现这一点,我认为围绕物理模型的越来越多的工作确实可以解锁这一点。简单的物理模型是视频预测模型,对吧?像Sora或Veo这样的东西,在某种意义上可以说是原型物理模型。您可以拍摄场景或图像,然后推动

播放,您知道它以一种似乎与物理世界合理的方式展开到可能的未来,一旦您采用它并使其可控,使其在物理上逼真,同时又丰富且从视觉效果和场景中事物行为的方式来看都非常合理,并且

我认为拥有自动驾驶世界的这种数字孪生体确实可以改变游戏规则。问题是,研究方面正在朝着这个方向努力。我认为这有可能在今天对自动驾驶产生一定程度的用处。

但仍然存在差距,因为处理长尾问题最有用。这些模型现在对长尾问题不太擅长。您在物理模型构建方面看到了什么?人们如何构建物理模型?有趣的是,它到目前为止主要出现在视频环境中。它首先出现在视频环境中,因为您可以构建一个物理上不特别真实的物理模型。

但看起来仍然很棒。是的,风险要低得多。是的。视频世界中发生的事情,如果您的轨迹略微偏离,也没关系。这就是图像生成模型中发生的事情。首先,您最终尝试首先追求使事物看起来非常逼真,而又不试图使它们过于可控。

但是现在,由于越来越多的人试图开始将它们用于创作、创建内容,因此越来越多的趋势是试图使它们真正可控、有用并具有非常严格的控制。

您可以实际使用并调整逼真度、调整样式,还可以调整几何形状、内容等等。因此,很多工作都非常自然地朝着这个方向发展。首先出现令人惊叹的视频和神奇的创作是很自然的。现在,最大的挑战是将其变成一个可用的工具

您可以用于功能用途的可使用工具,而不仅仅是漂亮的图片。今天有什么限制因素?在这些物理模型的核心存在一个关于因果关系的深刻问题,对吧?现在,您可以通过仅学习数据之间的相关性来生成非常合理的视频,因为您

它们具有一种合理的序列结构。您知道,物体不会消失。它们不会出现。人们在街上行走。这似乎非常合理。一旦您想使事物可控,您就需要确保您的模型理解因果关系。是的。

而且,您知道,这个输出源于对输入的这种改变或这种反事实等等。这很难。这在机器学习中通常是我们在模型中注入因果关系时一直难以解决的问题。

现在,如果我们想要一个非常合理的物理模型,我们就必须真正解决这个问题。那么,Waymo的研究人员是如何考虑这个问题的呢?很明显,拥有更好的物理模型对于产品来说非常重要。世界各地也有很多人在研究这个问题。因此,我可以看到两种思路,一种是,嘿,有很多令人兴奋的有前景的研究方向。让我们关注这些方向。随着它们变得越来越好,我们可以将其放入产品中。另一种是,我们应该让自己的员工研究这个问题并推动发展前沿。这始终是在……

您知道,呃,和,

自己推动技术发展前沿,还是利用外部为许多任务或问题的许多方面所做的工作之间的权衡。我们很幸运,学术界和其他机构也对这个问题感兴趣。因此,您可以从与他们合作中获得很多好处。

自动驾驶问题有很多特殊的问题,呃,它,您知道,人们在学术界并不一定追求。因此,我们试图更多地引导那里的对话,呃,例如,

发布Waymo开放数据集,它现在是自动驾驶研究的标准。它的设计方式确实帮助我们引导了对话,并将研究重点放在我们认为相关的那些问题上。我们拥有相当大的研究工作,这实际上处于

现在自动驾驶技术的前沿。因此,我们今天更处于领先自动驾驶技术的位置,因此我们必须构建下一个东西。就像我们不能真正依赖社区的其他成员为我们构建它,然后我们继承它一样。我一直很好奇的一件事是,当你们进入一个新城市时需要什么。这些模型非常强大。

并且在不同城市之间非常便携。这里和那里总会出现一些事情,但总的来说,作为一个

总的来说,我们发现它们非常强大。城市与城市之间不同的一个例子是什么?好吧,正如我提到的,有时紧急车辆看起来不同。这并不是说我们不一定会,模型不会识别它们。更重要的是我们要确保。是的。

我们不会错过它们,对吧?这些差异被我们的模型很好地建模了。因此,很多时间都花在了评估上。它不一定是调整模型,训练它做某事。更多的是让我们自己相信,让监管机构相信,让社区相信我们已经完成了我们的家庭作业,并且我们确实验证了该模型在我们进入的社区中确实很强大。

进入一个新城市有很多后勤工作,对吧?例如建立仓库。这就是为什么我们例如与Uber建立了合作伙伴关系,以帮助扩大我们的运营规模并加快部署速度。但很多都是真的……

确保我们拥有当地社区的心,并且我们以一种受我们合作的社区尊重和支持的方式做事,因为最终这实际上是关于信任

在这种情况下,信任不仅仅是技术。关于Waymo今天使用的丰富的传感器套件以及随着模型改进这在多大程度上是必要的,有很多疑问。我很想知道您是如何考虑这个问题的。我们主要使用三种不同类型的传感器,对吧?摄像头、激光雷达和雷达。它们在

这是这种传感器套件的一个不错的功能。它们具有优势和劣势,

彼此非常互补,因为它们也彼此正交,我们可以使用这种多样性来检查摄像头看到的内容是否与激光雷达看到的内容相关,如果它们不一致,我们知道我们会更深入地研究这个问题,这是一个

对此一直存在两种不同的想法,对吧?许多自动驾驶公司或制造驾驶辅助系统的公司

已经从某种L2级别的驾驶开始,对吧?并且一直在努力提升到L4级别。L2驾驶的经济限制与L4驾驶非常不同,对吧?当您拥有一支车队……

这基本上每行驶一英里就能赚钱,与您拥有一辆个人拥有的汽车相比,您可以负担得起在汽车上安装更多传感器,在这种情况下,您必须真正降低价格。因此,由于这种不同的商业策略,

许多公司已经走上了从简单和廉价开始,然后尝试在系统复杂性方面提升自己的道路。Waymo在其历史上某个时刻决定,不,不,不,不。我们将采取相反的方式。我们将可能过度使用传感器,然后看看……

解决难题,对吧?通常有,您知道,有时解决10倍的问题比解决1倍的问题更容易,因为您是正确的北极星。所以先解决这个问题,然后看看哪个

您必须降低成本并简化的途径?但现在我们有数据了,对吧?我们有数据来告知这些类型的决策,因为我们已经解决了更难的问题,并且我们了解什么重要什么不重要。

因此,随着时间的推移,这些技术堆栈将如何发展将会很有趣。我认为我们有一个很好的方法,一个很好的轨迹,我们的下一代汽车可以使整个包装更便宜、更简单。

我们能走多远将很有趣。我们已经讨论了一些因素,物理模型有多好,其他事情。在未来几年我们将了解哪些其他研究领域或事情可能会决定四年后的最终问题,这些东西上必须安装多少传感器?传感器故事不仅仅是一个性能问题。它也是关于冗余的。

我认为冗余的需求在某些方面不会消失。而且目前还不清楚,传感器套件不会发展。但我认为这种具有非常不同的传感器(提供非常不同的信息并提供这种互补信号)的功能非常强大。这……

例如,围绕仅使用摄像头的许多论点一直是,您知道,我可以驾驶我的汽车。我有眼睛。我没有高级激光雷达,所以我可以,您知道,有实际的证据表明人们可以用他们的眼睛驾驶,您不需要任何其他东西。问题在于我……

越来越相信L4驾驶的门槛不是人类水平。它高于人类水平,对吧?其中有多少是,我们从我们的安全报告中看到,我们今天处于比普通人更安全的地方。

我们的碰撞次数更少,而且您知道,报告的受伤人数也少了很多,这基本上是驾驶员在某种程度上超人。我认为这实际上是成功驾驶的业务需求。所以我们实际上可以,您知道,所以……

这个门槛会改变吗?我认为不会。我认为我们将处于需要……因此,问题是,我们能否达到……

比人类驾驶更好的水平,使用更简单的传感器套件,这将是我们在未来几年将体验到的。是的,看到Waymo驾驶的一些超人表现令人难以置信。事实上,有一个关于有人在滑板车前摔倒在Waymo汽车前面的病毒式视频,你会说,如果那不是Waymo驾驶员,你知道,那将以非常糟糕的方式结束,并且……

但正如您所说,一旦您看到这一点,社会就很难说,好吧,我们实际上并不需要这个。就像,我们可以做到这一点,但我们并不一定需要这一点。我们采用人类水平。更容易根据数据进行这种对话,这就是我的意思,而不是根据期望进行诉讼。我认为我们现在有数据,我们将能够准确地找出性能与传感器能力之间的相关性。是什么,像……

从这里开始的重要里程碑,就像在自动驾驶领域一样?就像您,您认为下一个主要里程碑是什么?所以很有趣,我现在想到的里程碑是,

今年是第一次跨大陆自动驾驶的30周年纪念日。是的,当每个人都认为我们就在那里的时候。是的。因此,1995年是第一次横跨美国的自动驾驶。我认为他们的自主性超过99%。他们平均以超过每小时60英里的速度横跨美国。

因此,您可以想象,根据这些数据,人们会说,是的,我们完成了。这只是在它周围系上蝴蝶结的问题,我们将拥有自动驾驶。花了30年的时间才达到我们现在拥有商业部署的程度。因此,我认为从里程碑和时间表方面考虑,很难预测事情的进展。我们所在的地方

我们有技术验证。我们知道这些东西在凤凰城、旧金山运行良好。我们有用户验证。人们喜欢它。在我自己体验到这一点之前,这对我来说并不是理所当然的,这是一个人们实际上会喜欢并被吸引的产品,对吧?所以唯一阻碍……

没有什么真正阻碍它成为一个大产品。现在,真正的问题是规模。因此,我认为您将看到的下一个里程碑将全部与

是的。对。而且,呃,并且在各个地区证明,呃,我例如对我们开始的地方感到兴奋,呃,在东京驾驶,呃,

收集数据,对吧?这将是我们的第一次国际实验,也是我们第一次在道路左侧行驶。因此,看到这一点将是一个有趣的事情,一个有趣的部署。提到1995年,您知道,像,

横跨美国的驾驶,我认为实际上是一个非常有趣的视角,可以过渡到更广泛的机器人领域,您在谷歌和DeepMind度过了大部分职业生涯。您知道,我认为很多时候,当我与更广泛人工智能领域的人们谈论机器人技术时,存在两种相互竞争的力量,人们觉得我们正处于这些真正令人兴奋的突破的边缘,而且,您知道,在过去的三年或四年中,很多事情都发生了变化。

与此同时,每个人都喜欢举1995年驾驶的例子,并说,好吧,花了30年的时间才将这些东西变成人们可以使用和体验的产品。我想知道您是如何看待这两种相互竞争的力量的,以及您如何描述我们今天在这个领域所处的位置。是的,这是一个非常好的问题。正如我之前所说,在机器人领域,我们仍在追逐标称用例。我们仍在追逐……

我们如何让一个通用的机器人做任何我们想做的事情?这就是每个人都在追求的问题陈述。我们还没有1995年的乘车体验。我们有一些这样的例子,但我认为我们还没有一个令人信服的通用系统。

如果我们在未来几年获得有效的证明点,我不会感到惊讶。而且,嗯,

因为进展非常迅速。仍然有一些需要解答的基本技术问题。我们知道如何根据不同的视觉输入进行泛化。我们不太擅长泛化运动。就像你看到的许多机器人做事情的演示一样,它们只做一件事。它可能在……

你知道,不同颜色的咖啡杯上。如果你正在冲咖啡,它可能是用空间随机排列的物体,但没有任何真正从技能角度进行泛化的东西。它使机器人能够做非常不同的事情。

你可能不需要它就能获得商业成功。这完全公平。你可以拥有一个完全针对一个用例优化的机器人,并且只针对一个用例,但它做得很好,廉价且灵巧。这可能足以拥有一个基于它的业务。但是如果你……

想到能够为你冲咖啡、整理房间和拾起衣服的通用人工智能机器人,在我们到达那里之前,仍然需要一些突破。感觉上,将这些大型语言模型应用于机器人领域已经形成一股浪潮,无论是感知方面的视觉大型语言模型,还是规划方面的大型语言模型,甚至是驱动方面的代码大型语言模型。

我认为你最初说过,这些东西运作得如此之好让你感到惊讶。我很想解开这个谜团。你最初认为会发生什么,它又是如何让你感到惊讶的?对我来说,最大的惊喜是,我们可以如此迅速地从拥有一个聊天机器人

描述为你冲咖啡的意义开始,对吧?将其转化为你可以用于机器人的计划,对吧?所以在机器人环境中真正难以构建的是这种常识

你知道,冲咖啡的意义,这意味着,你知道,如果你有一个杯子,它放在桌子上,而不是放在地板上。如果你在寻找微波炉,它可能在厨房里,对吧?你和我所知道的事情,我们甚至都没有想过,它们是我们世界的一部分,它们是,你

这只是日常生活的基本知识。很长一段时间以来,我们在机器人技术或人工智能领域都没有获得这些知识。大型语言模型确实将这些知识整合在一起。事实上,我们可以利用

这种高级知识,并迅速将其转化为机器人可以操作的东西。即使语言模糊,语言并不精确,但它足够精确地描述我们可以构建语言条件策略的东西,这些策略实际上可以有效地完成工作,并且性能非常高。所以这是第一个“啊哈”时刻

哦,哇,实际上将语言作为机器人技术的支柱并不是完全疯狂的。然后它演变成,等等,机器人的动作只是一种不同的语言。它与……

英语或汉语并没有什么不同。这只是另一种语言,它不是用文字表达的,而是用身体动作表达的。如果你从这个角度看待机器人技术,你突然可以利用所有多模态的大型模型、多语言模型,并将机器人的动作视为在世界上表达自己的另一种方言。所有在那里的机制都能正常工作。

所以这是另一个“啊哈”时刻,突然间一切开始融合在一起。

你能谈谈关于这个问题吗,你知道,你谈到了我们可以拥有特定任务的模型,或者我们可以拥有一个可泛化的模型。显然,通过你与RTX和其他一些东西的工作,你已经从事了跨化身和这个通用机器人问题的工作。你认为我们是否会在未来三到四年转向通用机器人模型?或者感觉实际上,你知道,最直接的回应

价值将通过更多类似专门的、集中的模型来提供。我认为这两种情况都会发生,因为你知道,你需要一个通用的老师,对吧?你需要一个通用的骨干模型,它易于重新定位,对吧?

并且可以针对单个任务进行优化。这有点类似于大型语言模型中的范例,其中你有指令微调,使你能够开发与你最终可能想要使用你的大型语言模型的任务相关的非常通用的能力,但它们不一定是完全相同的任务。

但是拥有这个指令微调模型使你能够快速地将你的大型语言模型适应你想到的任何任务,无论是通过提示、微调还是不同的策略。所以我认为我们最终会在机器人领域处于同样的位置,你需要构建一个通用的机器人模型

然后拥有合适的工具来将其非常具体地定位到特定任务,甚至可能在运行时,对吧?如果你能够做到这一点,在测试时进行提示式操作,而不是在训练时进行,那么你基本上就解决了所有难题。

现在有很多不同的努力正在进行,人们试图构建这种强大的通用机器人模型。我很想知道你如何广泛地划分人们正在采取的不同方法,以及你对其中一些方法的相对有效性的任何想法。现在有很多推动。有两种方法。一种划分方法是,有些人已经开始采用非常以硬件为中心的方法。

我想建造世界上最好、最强大的类人机器人。然后,一旦我拥有这些自由度和这些能力,我就能完成我需要的所有任务。与那些首先从软件开始的人相比。让我们构建智能并……

相信一旦你拥有足够通用的智能模型,你就能相对容易地将其重新定位到新的平台。我们与RTX一起做的工作让我对这种先从软件开始的方法充满信心

并构建一个非常通用的机器人模型,可以很容易地重新定位,是一种快速取得进展的方法。因为机器人技术中的许多问题仍然与数据有关。它仍然是关于如何尽可能快地获取尽可能多的高质量数据。

如果你考虑一下,将一个非常昂贵且摇摆不定的机器人(很难操作)置于数据采集的关键路径上,这是一个非常艰巨的任务。如果你有很多钱可以投入到这个问题中,这可能是有意义的,但是

这种方法的可扩展性确实有限。所以,我认为,大多数情况下,我也这么说,因为我们还没有解决这个问题,对吧?这不是关于在一个我们已经解决的问题上攀登山峰,我们试图做得更好,对吧?

高自由度机器人操作的基本问题尚未解决。因此,优化数据收集和执行速度可能是目前最重要的事情。它似乎也存在关于纯粹使用或尽可能多地使用模拟与遥控数据的争论。显然,

如果你可以使用纯粹的模拟数据,那肯定会更容易。但我认为它在运动环境中运行得相当好,在操作环境中可能不太好。

是的,我们很长时间以来一直在努力解决这个问题。在运动环境和导航环境中,使用模拟非常棒。模拟差距不足以构成问题。在操作空间中,我们总是难以获得这种

模拟的经验多样性和接触质量以及性能。因为模拟是有成本的,对吧?它不一定是购买大量机器人和操作它们的货币成本。

它更多的是建立模拟环境的成本,使其多样化,使其具有代表性,调整物理特性以使其逼真。为了在操作环境中做到这一点,你必须做的工作量非常非常大。

因此,到目前为止,我的经验是,如果你能够扩大你的物理操作以在现实世界中收集大量数据,并且不必处理这种模拟与现实之间的差距,那么这将更容易或更快,而不是进行模拟。也就是说,我还想说,我们也采取了这条道路,因为我们可以。

而且,作为一个研究机构,你也要走一些不寻常的道路。许多其他研究实验室比我们更投入模拟,例如,对模拟工作的成功有既得利益。

对于学术界的人来说,在模拟中进行大量工作也更容易获得。因此,我们更多地探索了,是的,让我们扩展现实世界机器人技术,看看这部分空间能带来什么。但我仍然认为它实际上仍然是操作的更好途径。

迄今为止。在听你说话的过程中,很明显,某种获取数据并大规模获取数据的飞轮将至关重要,就像你现在在Waymo的经历一样,你拥有所有这些你在数百万英里的驾驶中遇到的极端情况。我知道你对人类最终如何与这些机器人接口进行交互思考了很多,尤其是在早期。

关于如何有效地做到这一点以及最终可能有效地推动机器人领域数据采集飞轮发展的早期想法是什么?是的,这是一个非常好的问题。我希望我们的人机交互领域的同事……

会花更多时间考虑这个问题。用于数据采集的人机交互,因为我认为这是一个非常丰富的领域,并且确实是当今许多机器人学习的巨大瓶颈。几个月前,我对人机交互会议提出了这个建议。我认为我们真的可以在那里进行非常有趣的研究。

现在人们正在使用不同的策略,其他一些运动学教学,一些木偶操作,戴着手套的遥控操作,或试图在模拟中合成行为。我认为,这真的是一个非常经验性问题,即如何最大限度地提高吞吐量

我最希望看到的是第三方模仿,能够通过观看人们做事视频来学习。但是现在,我认为没有人真正破解了这一点。

我认为这又回到了我们之前讨论的世界模型问题。这是关于推断因果关系以及如果我这样做,那么从观察中会发生什么,能够对它进行建模并将其转化为有用的学习信号,让机器人学习如何行为。所以……

在数据方面,一个很大的加速器是,我们现在有了大型多模态模型,并且将视觉信息从这些多模态模型转移到机器人实际上是有效的。我们举了一个例子,向一个正在将可口可乐罐移动到泰勒·斯威夫特照片的机器人展示

我们从未教过机器人泰勒·斯威夫特是谁,我们从未对泰勒·斯威夫特实体采取行动,也从未向机器人展示过关于泰勒·斯威夫特的任何数据。这些知识是大型多模态模型的一部分。所以这解决了数据采集的一个主要瓶颈。现在你真的必须考虑

你如何获取正确的运动数据?这是关于驱动和实际的物理技能。我认为关于如何做到这一点,陪审团仍在审议中。是的。我的意思是,你认为要将因果关系纳入这些模型,是否需要一种新的架构?或者像,你认为我们最终……我确定有很多研究路径正在尝试实现它。这是一个很好的问题。我认为这可能只是适当的数据工程。好的。

因为到目前为止,至少在语言模型领域,我们已经看到,你可以引发某种形式的因果推理、思维链等等,而无需将其设计到模型中。

但是拥有正确的数据非常重要,在某种程度上拥有正确的归纳偏差。因此,我们有可能在没有任何重大基础设施或理论变化的情况下实现这一点。

但是是的,我不知道。我希望这真的是规模和数据管理的问题。当你考虑现在机器人技术中这些未解之谜以及我们将在未来两三年内知道答案的问题时,你有什么感觉?我的意思是,听起来因果关系这个问题以及将其纳入模型无疑是其中之一。你认为在未来几年,哪些其他问题将成为该领域走向何方的关键决定因素?

我们能否概括运动?我们能否像在感知空间中泛化一样,在动作空间中泛化?我认为这是一个关键问题,我们不能不予以解答。我认为一个重要的问题将是差异是什么

如果机器人技术与所有其他人工智能领域之间存在差异。目前,机器人技术只是另一种方式,另一种人工智能语言的假设似乎成立。

它在什么级别会失效?我们必须说的一件事是什么,好吧,现在这非常不同,我们必须为此发明一些新技术。例如,我们认为我们需要发明运动生成的新技术,事实证明,扩散模型(与视频生成中使用的模型相同)非常适合此用例。并且现在是这种事情的最新技术。所以,

是另一个我们认为自己在某种意义上很特殊而实际上并非如此的领域。我想知道是否还有其他类似的领域需要这种专业化。而且我觉得,如果我们发现这些事情中的一些规模定律的早期迹象,那也会非常有趣。是的,回到

在Waymo,我们一直在研究大型模型行为和感知的规模定律。我们看到相同的定律在某种程度上适用,但常数不同,对吧?所以你不会……

自动驾驶模型的行为与大型语言模型在规模和所有方面并不相同,但你会看到在数据、大小和类似方面相同的线性或对数线性增长。到目前为止,所有迹象都表明

它很相似。从概念上讲,它是一样的。但我们将看看它是否达到了极限。在你进入机器人领域之前,你是在计算机视觉领域,对吧?我认为……

当然,像许多视觉大型语言模型一样,这些方面的进步显然正在推动许多很酷的产品,并且是机器人技术的重要组成部分。但总的来说,感觉上,所有这些经典的计算机视觉用例都来自过去。而且不像,感觉上,这些用例中的一些并没有出现任何疯狂的拐点。我们几乎没有在那个领域经历过类似ChatGPT的时刻。我想我很好奇,你知道,对此有什么感想?是的,这很有趣,对吧?……

计算机视觉在很大程度上是由问题或解决方案驱动的,而不是问题,对吧?从某种意义上说,计算机视觉的应用远没有达到对该技术的兴趣水平所保证的程度。

但我认为这实际上是因为视觉只有在你试图对世界采取行动时才有用。事实上,我们没有物理执行器意味着仅仅将视觉作为观察工具限制了应用范围。此外,该技术……

在封闭环境中运行得非常好。如果你试图在大规模开放环境中使用计算机视觉,你试图解析世界中的所有事物,

在学术基准测试中的性能良好。在现实世界中,它远没有那么好,对吧?所以对于开放式视觉问题,要么存在性能障碍。对于封闭式问题,这实际上是它的应用非常具体。

我认为这可以通过机器人技术来解锁。我认为这是最好的用例。你显然长期处于许多人工智能研究的前沿。我很想知道,在过去一年中,你改变了哪些想法?我的意思是,什么……

对我来说真正令人着迷的是观察推理能力以及它们如何发展,以及这种有趣的思维链思维是如何开始的,在某种程度上是一种有趣的认识,并且“哈哈,这种奇怪的提示做了一些事情,这难道不有趣吗?”

实际上改变了人们对推理以及获得某种推理性能的路径的思考方式。我给你举个例子。我喜欢写……

作为一种爱好,写一些小故事和小说。大约10年前,我有一个想法,一个科幻故事的主题和前提。好的。我把它搁置了10年,因为我无法弄清楚物理学是否有效。

我无法弄清楚这个想法背后的前提,它所依赖的物理学是否合理。我不知道该问谁。我不知道在哪里找到这个问题的答案。

几周前,我把这个问题放在Gemini中,只是简单地用Gemini深度研究来提问。它给了我一个三页的摘要,其中包含所有相关的方程式,而我的问题的全部答案都在五分钟内就出现了。

所以对我来说,这是一种情况,你突然可以访问最好的物理学知识或最好的法律知识,这种知识触手可及。我一直都在问自己,我现在应该问Gemini数百万个问题,而我甚至都没有想过应该问,因为我还没有这种思维模型,认为这是我可以访问的东西。是的。

我认为我完全低估了这种可访问性水平的力量及其对日常使用的意义。它不仅仅是技术。更多的是,我们甚至没有想过这些事情有多少用例?或者我们还没有内化,或者我们还没有养成习惯。研究是一个超级强大的产品。我想,你的故事中的物理学有效吗?

是的。所以我必须写它了。你会继续写下去吗?现在有超级有趣的写作辅助工具。这非常有趣。显然,我觉得这波测试时计算令人难以置信地有趣和强大。显然,我现在感觉在这个领域中最大的问题是,你知道,它显然在易于验证的领域运行得非常好。你知道,它在编码和数学方面将我们带到超越人类的性能的程度,而对其他事情没有任何影响,或者……

你现在是如何看待这个问题的?你知道,它广泛适用的程度?是的,这是一个很好的问题。我认为那些难以生成但易于验证的问题空间非常广泛,对吧?有很多

事情具有这种形状,即提出假设或提出合理的解决方案是困难的,但是一旦你有了这个解决方案,你就可以相对容易地验证它,或者你可以,你不必一定重新验证它,嗯,准确地说。你可以说服自己它是正确的,或者它接近正确。嗯,所以总的来说,我们已经看到,嗯,

生成式与判别式。在强化学习方面,你到处都会看到参与者与评论家模型,对吧?在很多地方。你将难题转化为

生成一个合理的答案转化为另一个难题,可能,验证该答案。但是处于验证答案的另一个世界要容易得多,因为你拥有所有成分。你不必想象它们。所以我认为……

它将以这样一种方式发展,它不仅仅是数学,它不仅仅是编码。在自动驾驶的情况下,你可以想象,我们可以比最初生成计划更容易地验证计划是否满足我们所有的要求。

因为我们有可以应用于问题的硬约束。所以我认为会有很多不同的应用程序能够利用这一点。你认为今天可能被低估的哪些其他领域这些模型实际上会非常有效?一般来说,推理方面?是的。

我认为任何需要本质上归因于信用的多步骤任务都岌岌可危。我认为,对我来说,这是正确的强化学习。我一直与强化学习有着爱恨交加的关系,从机器人技术的早期开始,许多人就认为强化学习是

最终解决一切问题的终极方案,主要是因为,你知道,AlphaGo的成功等等。我们花了数年时间只关注强化学习,而不是

因此没有取得太多进展,因为我们作为社区,我认为我们真的专注于尝试使用强化学习从头开始学习一切,而它,你知道,事后看来,你知道,有很多很好的方法可以使用监督学习来引导自己。也许你将强化学习作为一个小小的,你知道,顶部的微调。所以我认为,

这种范例将持续存在,从某种意义上说,就像用大型模型引导自己一样,进行大量的监督学习,然后使用强化学习使该模型在某些特定的推理方面成为更专业的专家,这将是,你知道,这具有持久力,感觉这是思考强化学习的正确方式,有点类似于我问你的关于机器人技术的问题,就像

在未来几年,我确信我们将翻阅很多卡片,了解更广泛的大型语言模型领域将如何发展。现在你最关注的两个或三个问题是什么,我们将在未来12到24个月内了解更多信息?我想看到这个世界模型的推动力,我认为很多人开始认真研究它最终会落在哪里。我认为这是拥有可控的

视频生成、可控世界生成,本质上是拥有纯粹的生成式视频游戏,例如,将教会我们很多关于我们能否让它发挥作用的信息。我认为当前的架构

我们拥有的大型多模态模型将继续存在。如果我们无法将这些模型转化为良好的世界模型,那么也许在架构和性能方面需要进行另一次飞跃。所以我对这个方向感到兴奋。我认为那里可以做很多重要的工作。一旦你拥有可以作为

任何东西的双胞胎的模型,你可以将每台计算机变成一个生成模型。因此,它可能在计算方面完全不切实际,并且需要大量的投资。我认为这就是为什么现在你看到很多人都在大力投资计算,因为很多人开始意识到

我们真正想要做的下一步将是计算需求的又一次提升。好吧,这是一次引人入胜的谈话。我们总是喜欢在我们的采访结束时进行快速问答环节,在那里我们可以了解你对一些标准问题的看法。所以也许首先,人工智能领域中今天有什么东西被过度炒作了,有什么东西被低估了?过度炒作。被低估。

我在这里很挣扎,因为我认为有很多肤浅的炒作掩盖了真正深刻的东西。所以,我想到的每一个潜在的炒作例子,比如类人机器人。很多人认为这……

被过度炒作了,因为有很多投资流向了这个方向,而这些投资并没有得到当前能力的证明。如果我们在未来几年成功地使类人机器人发挥作用,那么这项投资将完全合理。风险是

如果我们没有成功,人们失去了耐心,我们将面临类人机器人寒冬。我认为这将对所有机器人技术产生负面影响。所以基本上,它们都被过度炒作和低估了,因为如果你今天在从事机器人技术工作,我认为你也应该从事类人机器人技术工作,因为我们不能不让他们发挥作用。

所以存在一种,是的,这是一种张力。这完全取决于时间表,以及你认为技术发展与支出金额以及生态系统的关注焦点之间的时间表将如何一致。你认为大型语言模型的进展今年会比去年多、少还是一样?我认为会更多。机器人模型呢?

也会更多。下一组问题只是一组不公平的预测问题,可能过于精确。但是,你认为美国自动驾驶汽车的乘坐次数将在哪一年超过人类驾驶员?我希望当我成为一个年迈的爷爷时,能够和我的孙子孙女们谈谈,你知道,

你知道,在我那个时代,我们过去是用手驾驶汽车。你能相信吗?就像,这难道不疯狂吗?对吧?就像,我觉得未来有可能

回顾今天,想想,伙计,考虑到这会造成的事故水平和问题的复杂性,我们竟然疯狂地将汽车交给人类驾驶。所以,

那是我希望看到的未来。它是否会在我的有生之年发生,我不知道。我喜欢想象在未来,你必须去农村地区,然后也许在那里,当周围没有人时,他们会让你坐在汽车方向盘后面。是的,是的,是的。没有任何交通。当新的模型出现时,你尝试用它来实验的第一件事是什么?

当新的模型出现时,我不会过于密切地关注,因为总是有很多模型不断出现。

我经常,我的本能反应是去查看LMS排行榜,看看它的排名,然后说服自己是否有什么……所以你更关注数据,而不是感觉。我应该关注还是不关注?是的,我更关注数据。很容易欺骗自己去相信某些事情。我发现,你知道,

当你向一个模型提出一个假设性问题时,你会得到一个与你试图将模型用于实际应用时截然不同的答案。所以我尽量专注于,呃,这是否对我的生活有帮助?它是否对我的事业有帮助?这说得通。嗯,你认为大多数美国人会在哪一年家里有机器人?我们有机器人,对吧?我们有,呃,洗碗机,我们有,呃,洗衣机,呃,

它们看起来并不像机器人。非常公平。所以如果你想到,你知道,像罗西机器人……我想在我的房子里进行咖啡杯演示,你知道的,移动机械手。我认为这需要很长时间。原因是,任何东西在你的房子里都需要证明它的占地面积是合理的,对吧?它首先需要值得存在。而且……

如果今天一个机器人在我家弄坏了我的墙,

我非常肯定这个机器人会在半秒钟内被扔进垃圾桶,对吧?这种程度的……即使作为一个机器人爱好者,一个机器人也必须非常优秀和安全,我才能接受它在我的房子里。这就是为什么迄今为止只有Roomba这样的机器人真正成功地应用于家庭环境。因为它们只是,你知道,

撞到墙上可以撞到的部分。所以我认为,对于任何可以移动并可以操纵你的环境的东西来说,门槛都将非常高。对于一个固定的机器人来说,这可能更容易一些,它只是一个工作站,你只需要把它

它为你做一些事情,比如你把你的衣服或东西放进洗衣机之类的。但它的手臂不够长,不会弄坏墙。

是的。所以我认为这需要时间。我认为我们将在物流和工业领域看到更多应用。我喜欢靠近家庭的空间。我认为最后一公里配送等方面有很多潜在的应用,这些应用很快就能实现。办公室环境、医院环境,只要有……

有人,这很复杂,但有规模。然后有人负责在出现划痕时重新粉刷墙壁。这对于移动机器人来说更容易实现。你对所有这些人工智能进步对未来的影响有什么预测,你认为这些预测现在被低估了吗?比如它如何改变我们的世界或我们日常生活的方方面面?它将改变教育。我认为我们还没有……

理解它将如何改变教育。我认为围绕教育的许多说法是,哦,你可以使用ChatGPT作弊。所以,你知道,你将如何评估学生等等?这完全忽略了更大的问题,即我们如何,这是一个神奇的学习工具。它是交互式的。我,我,

前几天我把我的孩子放在一个对话面前,我不记得主题是什么了,但我们只是通过与代理进行实时对话来互动地学习了一个主题,它很有吸引力,很快,令人难忘,我们可以做很多事情,而且现在我觉得

我没有看到公众领域在讨论这个问题。是的。你在Udacity上有一个非常受欢迎的课程。你会用一些新的工具再次尝试吗?这是一个好问题。我的课程现在已经过时了。那是TensorFlow的早期。当时把它组合在一起非常有趣。是的。

你现在需要我吗?或者那些工具,我的意思是,那些工具比我更擅长解释事情。

以及形成正确的课程。我不知道。我鼓励我们的听众查看你的文章。你,你非常,呃,我觉得你是一个非常清晰的思考者,在很多事情上仍然比……比整个互联网的平均水平要好。我试图成为反低劣的。是的。嗯,我们还没有讨论过的任何人工智能初创公司或研究领域,你认为哪个特别令人兴奋或有趣?我对奶酪很兴奋。奶酪?呃,

我完全没有想到这一点,说实话。奶酪怎么样?我想这是一个非常法国式的回答。是的,是的。我最近一直在与一家初创公司交谈,该公司正在设计某种植物性奶酪产品。

而不是不使用任何牛奶,所以基本上是基于植物产品构建酪蛋白,以一种更便宜和可持续的方式。我认为能够使用人工智能技术来设计新产品

更像是那些可以对世界产生巨大影响的日常产品,这真的很酷。我喜欢这种……他们使用人工智能来探索非动物性奶酪的设计空间?是的,是的。我认为这正是那种有点出乎意料的事情,但仅仅基于动物养殖和牛奶生产的规模以及它如何……

整个世界。我想找到下一个,你知道,下一个平台

基于人工智能的奶酪初创公司。我认为这正是……他们已经做奶酪了吗?是的。好吃吗?他们有一种很棒的蓝纹奶酪,与牛奶制成的蓝纹奶酪无法区分。它在该市顶级餐厅供应。哇。说实话,这是最好的答案。通常我们会得到,哦,我喜欢困惑或我喜欢深入研究之类的东西。

人工智能奶酪肯定会为这个问题设定新的高标准。是的,我认为人工智能加上你在思考技术时不会想到的东西,这才是我认为许多令人兴奋的事情将发生的地方。

并且可能建立这些联系,并让那些不一定,你知道,在科技界的人能够使用这些工具,反之亦然,这真的,我不知道,很有趣。好吧,这是一个引人入胜的对话。我相信人们会想抓住各种线索。所以我希望把最后一句话留给你。人们可以在哪里了解更多关于你、关于Waymo的信息,任何你想指引人们去的地方?麦克风是你的了。我,

好吧,当我灵感来的时候,我会在Medium上发博文,我会发布一些关于机器学习的随机想法,那就是我的,那就是我和世界其他地方的小型水龙头。好吧,非常感谢,这是一个精彩的对话,谢谢

谢谢。

感谢收听,我们下期再见。