We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode FSD v12: Tesla's Autonomous Driving Game-Changer w/ James Douma

FSD v12: Tesla's Autonomous Driving Game-Changer w/ James Douma

2024/4/12
logo of podcast Dave Lee on Investing

Dave Lee on Investing

AI Deep Dive AI Chapters Transcript
People
J
James Douma
Topics
James Douma: 我对特斯拉FSD V12的发布感到非常惊喜,其性能远超预期。与之前的版本相比,V12采用了全新的端到端规划方法,彻底抛弃了原有的启发式规则。这种转变虽然大胆,但效果显著,V12在实际驾驶中表现出了更高的智能和更自然的驾驶风格。我原本预计V12会存在一些因取消启发式规则而导致的问题,但实际体验中,这些问题几乎不存在,这让我对特斯拉的研发能力深感佩服。 James Douma: 神经网络的训练方式与传统的启发式系统截然不同。启发式系统容易因逻辑错误而导致灾难性故障,而神经网络则更倾向于优雅地失败,即使出错,也往往只是给出稍微错误的答案。此外,V12通过模仿人类驾驶员的行为,学习了各种驾驶技巧和安全习惯。这种模仿不仅包括显而易见的驾驶操作,还包括许多人类驾驶员无意识的准备行为,例如在交通拥堵时稍微向左移动以观察前方路况。这些行为虽然看似微不足道,但却能显著提高驾驶的安全性。 James Douma: V12的模仿学习并非简单的复制,而是对人类驾驶行为的理解和泛化。系统能够根据不同的交通状况和环境因素,灵活地调整驾驶策略,例如在十字路口不堵塞交通、在高速公路上保持适当的车距等。这种智能化的驾驶行为,让我相信V12已经超越了单纯的模仿,具备了一定的理解和推理能力。当然,V12也并非完美无缺,例如它有时会模仿人类驾驶员在高速公路上跟车太近的行为,这让我不太喜欢。但我相信,随着特斯拉不断收集数据和改进算法,V12的性能将会越来越完善,最终实现完全自动驾驶。

Deep Dive

Shownotes Transcript

嘿,我是戴夫。欢迎来到今天。我和詹姆斯·达马一起,我们有很多事情要谈。我们有上个月刚刚发布的特斯拉FSD V12版本。我们还要谈谈擎天柱和

以及8月份发布的机器人出租车。总之,已经很久了。至少半年了。那是8月份还是什么的。是的。是的。我记得我们上次见面时,我们谈到了V12,因为他们做了一个演示,我们对它的潜力感到非常兴奋,但也对它

它将如何首次推出以及它的能力持谨慎态度。但我很好奇,你对犹他州的第一次体验和第一印象是什么?你开多久了?——我几周前才拿到它。我想我是在它真正运行良好的第一个周末拿到的。我想我已经开了三周或类似的时间了,可能是四周,大概三周吧。

当然,我开车从洛杉矶到这里,在洛杉矶开了不少。在来这里的路上,我妻子有这样一个爱好,就是参观我们从未去过的超级充电站。所以每一次跨国旅行都会比预期要长得多。但关于FSD试驾之旅的一件很酷的事情是,我们最终开车去了沿途的所有城市,你知道的,因为你开车去不同的充电站等等。

所以你有机会看看它在哪个城镇或哪个城镇是什么样的,你知道的,不同的高速公路是不同的。我们开车经过很多农村地区。所以我有很多农村地区。我们做了整个乡村之旅,从这里穿过德克萨斯州。所以我觉得这对于压缩大量FSD来说是一次很好的体验。是的。我不得不说,我真的很印象深刻。就像,我没有预料到它会这么好,因为它真的是……

这并不是对规划器的一个小改动。在V11中,我们已经达到了感知堆栈足够好的程度,以至于我们没有看到感知故障。但是人们,几乎所有人的抱怨都与规划有关,没有进入正确的车道,无法移动足够远,不知道什么时候轮到它,停在错误的地方,以错误的方式蠕动。这些都是规划要素。它们不是,你知道的,所以……

如果你要采用你已经研究了多年的规划堆栈,你已经投入了很多,而你实际上却把它扔掉了。他们根本没有保留任何东西。至少这是他们告诉我们的。他们删除了30万行代码。他们端到端地进行了处理。将启发式方法融入端到端更难,因此他们实际上删除了几乎所有内容是有道理的。他们现在拥有的任何启发式方法都将为端到端堆栈从头开始构建。然而,他们设法超越了……

在我看来,这似乎很短,因为他们不仅仅是在开发这个,他们还在开发开发的方法。你知道,他们必须弄清楚什么方法有效。他们必须做所有这些层次的事情。所以我的,你知道的,我的……

预期是,我们将看到的第一个版本将是相当的。它会有一些改进。它会有一些有意义的回归,而且他们将面临一些挑战,你知道的,弄清楚如何解决它,因为他们希望尽快发布它是有道理的。他们越快将其部署到车队中,学习速度就越快。嗯,

但这方面的完善程度超出了我的预期。就像,你知道的,布拉德福德顺便过来,我有机会在他经过时看到1221。我想我们只在一起大约40分钟。这就像是一件偶然的事情。然而,即使在,因为他很乐意带我去我知道的地方,我在11号线上开过很多次车。

我想我花了大约三个街区才意识到。45分钟后,我就知道这将完全不同。从拿到它之后我经历的一切。而且我……

你知道的,我有什么?我现在在座位上一定有50个小时了。几千英里,变化很大的东西。是的,非常稳定。是的,我认为,是的,我想深入探讨FSD-12的飞跃有多大,因为当我驾驶它时,我感到震惊,因为这不像是一个,

我认为V12有点用词不当,因为这是对他们整个规划架构方法的彻底改写,不同,不同,嗯,

我的意思是,在他们的感知方面,他们似乎可能保留了他们在感知堆栈方面添加的大量神经网络。但在他们的规划堆栈中,这似乎是他们从头开始的地方,我不会说完全从头开始,但他们正在移除所有护栏,所有启发式方法,并且正在使用……

端到端神经方法,它决定在哪里以及如何导航感知到的环境。但我本来以为,这也是我的预期,那就是在某些方面你会更好,它会更自然等等,但随后会有一些奇怪的错误或它根本无法理解的事情,因为所有的护栏都关闭了,启发式护栏。所以你就像,在某些其他方面它更危险,对吧?而且那

然而,特斯拉会等到V12更安全一些才会发布。但我们最终得到的是V12,它看起来非常完善。在V12中很难发现那些大的错误。我有点像,所有这些大错误都去哪儿了?至少这是我的预期。所以我想知道,

就像你的经验是什么?这是否让你措手不及?就像看到,你看到的错误数量很少,你知道的,或者看到V12的完善程度。然后我还想深入探讨一下,特斯拉是如何做到这一点的,因为一旦你取消了启发式方法和护栏,你真的必须,它,

我很想知道你对他们如何通过B12实现这种完善的看法。——好吧,首先,是的,它是,好吧,

开始体验有两个组成部分。一个是关于系统和我的理性预期。然后是,你知道的,我的直觉,因为我有,我已经在各种自动驾驶系统上行驶了20万英里,包括,你知道的,也许,我不知道,在FSD上行驶了5万英里。所以我有了这种肌肉记忆和这种,你知道的,对事物的感知,以及,

我预计这会有点错位。我的意思是,你知道的,从10到11,而且,我的意思是,他们添加了很多。这并不是他们第一次做出相当大的改变。这绝对是最大的变化,对吧?但我预计它会感觉有点奇怪和不舒服。是的。

但从智力上讲,我预计所有旧问题都会消失,而新问题会出现,因为这是一个不同的产品。因为感知非常完善,人们最了解的系统缺陷基本上都包含在这个启发式代码中。当然,我们去除了启发式代码。所有这些缺陷也消失了。但你会从新事物中得到什么,对吧?所以——

而且,你知道的,这种情况确实发生了。就像所有旧的缺陷都消失了,理性地说,对吧?但这在座位上感觉很奇怪。而且,你知道的,这条街你开过无数次了,它有一种典型的行为,也就是,你知道的,也许并不糟糕,但也许不太舒服,或者不如你想要的理想,或者更慢、更烦人,无论是什么问题。而这些都消失了。就像所有这些,不仅仅是一两个,它们都消失了,所有这些。所以那是……

这是一种如此大的脱节,以至于在最初的一两周里有点令人不安。我的意思是,令人高兴,但也令人不安,因为现在你就像身处未知领域。这里潜伏着什么恶魔是我没有准备好的?因为在你驾驶启发式系统之后,你对故障的特性有了一种感觉。我的意思是,即使你以前没有见过,你也知道哪种事情不会奏效。而现在——

但我并没有真正发现这些。就像我还没有真正发现,我还没有看到什么。我本来以为会看到一些令人担忧的事情,而且我不清楚他们将如何解决这些问题。而我,我真的没有。对。所以在这种意义上,我对它的乐观程度超出了我的预期。

他们是怎么做到的?是的。好的。让我更详细地解释一下这个问题,因为我知道它可能很开放式。所以我想象一下,如果你采用端到端的规划,那么驾驶风险就非常高。你犯了一个错误。假设你进入中心……

通道或有一堵混凝土墙或有一个路标你撞上了或一棵树或什么东西。这似乎是你只有一秒钟的错误,甚至是一瞬间,你的车就会发生灾难性的后果。它可能是。在V11之前,直到V11,你都有这些护栏,比如,“哦,待在车道里,这样做等等”。但是当这些护栏关闭时,你

就像V12一样,当它感到困惑时,可能会做出错误的举动,你知道的,可能会进入另一辆车、另一个车道、另一个物体或其他什么东西。但是什么阻止了它?

你知道的,没有护栏?仅仅是模仿人类的数据吗?还是在上面附加了其他东西,他们实际上正在进行一些模拟或其他东西,它显示了当你离开车道进入下一个车道时会发生什么,你知道的,进入迎面而来的交通或如果你做了类似的事情,它是否,

他们是否正在用大量不良事件的例子来填充神经网络,如果它不遵循特定的路径会发生什么?你对此有什么看法?——这个问题引发了一些想法。所以一个想法,

- 好的,首先,对所有内容进行前言。就像我不知道他们是如何调整系统的具体细节。他们告诉我们它是端到端的,对吧?所以这基本上限制了他们可以做的事情。

但是当你训练一个系统时,你不必端到端地训练它。我的意思是,一些训练将是端到端的,但你可以将其分解成块,并且可以以某种方式预训练块。我们知道他们可以使用模拟。我们知道他们可以整理数据集。那么,很难预测的混合物是什么?将会有许多难以从第一性原理外部预测的学习方法,这些方法效果很好。

整个领域都是非常经验性的。我们不断学习关于神经网络的事情,甚至像语言模型,如果你想的话,我们可以谈谈这些,因为这些也很令人兴奋,但它们不断让我们感到惊讶,对吧?所以你找一个非常了解这个领域的人,在某个时候,他们会对什么是最好的方法做出预测等等。除了某些非常基本的事情之外,我的意思是,有些事情是基本信息论所禁止的,对吧?

但是当你开始深入了解细微之处时,哦,这种调整系统的方法是否比那种方法更好?或者如果我缩放它,如果我让这部分更大,那部分更小,那会是成功还是失败?你知道的,有很多小的决定。训练也是如此。就像,你如何整理数据集?特别是哪些方面很重要?是什么让数据变得更好?这是一种令人惊讶的微妙的事情。我们知道好的数据,就像一些训练集一样,可以让你比其他训练集更快地获得好的结果。

我们对什么使一个好,什么使一个坏有一些理论。在某些类型的事情上,比如文本数据库,人们做了很多工作试图弄清楚这一点。我们有一些想法。但最终,这是非常经验性的,我们并没有真正掌握其背后的良好理论。所以让我坐在那里,没有看到他们在后台进行的操作并进行猜测,我只是在猜测。所以就像,坦率地说,就像我对他们可能正在做的事情有一些想法。

但是,你知道的,我希望他们有很多巧妙的事情是我从未想到过的,他们已经发现这些事情很重要,而且他们可能正在加倍努力。我们实际上不知道他们如何进行模仿的基本机制。就像什么程度的,你知道的,我们知道,你知道的,他们告诉我们,最终的东西是光子输入控制输出是端到端的,对吧?但是,

所以最终的架构,但就像你如何获得你想要的行为的结果一样,你会将系统分解。他们就像,我不知道。这就像有很多可信的选择,而且它们差异很大,选择一个将是最好的。就像坐在椅子上不知道很难做到这一点。他们做得非常清楚,而且他们正在让它发挥作用。就像我……

它让我着迷于什么样的……

可能发生的灾难性场景或危险的事情。它让我着迷的原因是,对于驾驶来说,驾驶智能的一部分是知道,如果你的车有一英尺进入这个车道,并且有迎面而来的交通,那么这真的很糟糕。这将是一场巨大的事故,而如果没有汽车或其他什么东西,那么就可以了。或者如果,

或者驾驶智能只需要意识到在不同情况下错误的严重程度。在某些情况下,它们真的很糟糕。在某些情况下,相同的驾驶动作并不那么危险。所以在我看来,必须有一些方法来训练它,对吧?教神经网络这一点。所以关于我们人类拥有的驾驶系统,有一件有趣的事情。

好的,首先,你描述的故障在启发式方法中更有可能发生。就像启发式方法一样,你构建了这个逻辑框架,一组规则,对吧?在那里,你知道的,当启发式框架崩溃时,它们会大规模崩溃。就像他们一样,因为你可以得到逻辑上的错误,并且存在这个巨大的漏洞,这个你没有想象到的场景,系统会做与你意图完全相反的事情,因为你的推理中存在一些逻辑缺陷,对吧?

所以,你知道的,导致计算机崩溃的错误。就像我们一样,你知道的,计算机通常不会优雅地失败,启发式计算机,对吧?神经网络确实倾向于优雅地失败。所以这是一件事,对吧?它们不太可能崩溃,而且更有可能给你一个稍微错误的答案,或者,你知道的,几乎所有事情都做对了,只有一件事有点错误。这是一种更典型的现象。所以神经网络失败了。

你知道的,它们失败的方式将与启发式代码略有不同。而且它们本质上不太容易出现这种类型的故障。这并不是说不可能,只是说这不会是默认的自动行为。你知道的,如果你在一段代码中弄错了if语句或其他什么东西,你知道的,灾难性故障是逻辑链中的常态。

然后还有另一件事,那就是我们拥有的系统是为……它是与驾驶员共同进化的。你知道的,你,你知道的,你,你学习,你发展反射,你阅读交通状况,你阅读环境。你知道的,当车道变窄时,人们会减速,人们会

有一套反射来适应环境,以试图最大限度地提高他们正在做的事情的安全裕度。当你沿着停放的汽车行驶时,如果你有空间,你会稍微移动一下,给自己多一点空间。你知道的,如果你正在接近一个交叉路口,而你无法看到前方的情况,你可能会减速,你可能会移动一下,给自己更多空间来查看,就像所有这些无意识的行为一样,对吧?而道路系统

经过多年的发展,以利用人们的长处并尽量减少人们的弱点,对吧?我的意思是,我们为道路提供的空间量以及我们塑造交叉路口、视线的方式,以及诸如此类的东西,我们交通控制方式的原理等等,是,

它已经进化到适应人类的优势和劣势,对吧?所以人类一直在试图在一定的范围内最大限度地提高他们的安全裕度,让自己,让自己更舒服地了解正在发生的事情,对吧?所以……

现在我们有一个模仿人类的系统,对吧?所以汽车会做一些有趣的事情,这真的强调了这一点。就像,你知道的,你在一排汽车中,他们突然减速,你前面有一辆卡车。所以最自然的事情之一是,如果人们看不到前方的情况,他们会稍微靠边一点,看看那里发生了什么,以帮助他们为可能发生的事情做好准备。你给他们提供了更多的态势感知能力。好吧,你会看到汽车这样做。

有时汽车的有趣之处在于汽车,汽车,就像它的摄像头在中心。所以稍微向左移动并不能让汽车看到它前面的汽车周围的情况。对。它仍然看不到,但它仍然模仿这种动作。同样,接近交叉路口时,减速,移动,你知道的,做好准备。所以,

所以本质上,你会从中得到一个有趣的特性,那就是规划系统将模仿裕度,你知道的,那些给你更多裕度、更多态势感知能力的小准备工作,帮助你做好准备,给你更多时间来应对可能发生的事情。它现在正在模仿所有这些事情。是的。

而不是启发式方法必须完美无缺,而是系统正在做的是学习模仿已经拥有所有这些反射和行为的驾驶员在一个非常复杂的上下文环境中。所以这不像,我们不是在谈论四五种行为。我们谈论的是四五千种行为,作为驾驶员的人们甚至没有意识到自己正在做的事情,而汽车正在模仿这些行为,对吧?而且,所以……

所以它们会更优雅地失败,而且它们模仿的驾驶员在需要谨慎的情况下会谨慎行事。而且他们,你知道的,他们一直在做小的调整以给自己更多裕度。我认为我们可能低估了经验丰富的驾驶员在很大程度上,你知道的,已经本能地,你知道的,发展了许多行为,因为我们在这里谈论的是优秀的驾驶员,对吧?嗯哼。

他们无意识地养成了许多习惯,这些习惯实际上对他们的安全有明显的影响。而系统现在可以免费获得这些,因为它正在模仿驾驶员,对吧?即使是所有那些不太有意义的细微之处。就像我说的那样,就像靠边一点看看你前面有什么一样。或者我们看到这种行为,这种非常有魅力的行为,其中

你知道的,它不会堵塞路口。你来到一个交叉路口,如果它不能清楚地穿过,它就会停下来。是的。对吧?就像没有人编写过这个程序一样。如果你看看交叉路口,什么时候这样做,什么时候不这样做,这有点微妙。是的。就像你前面的汽车在你穿过交叉路口之前是否会向前移动足够远,或者它不会吗?如果你看看交通流量,就像一个人一样,你就像……

胜算更大,当我穿过时会有空间,或者不,我绝对应该在这里停下来,因为我不想被困在交叉路口。汽车模仿所有这些。是的。即使在非常复杂的背景下。是的。我的意思是,我想说,我的意思是,模仿,它似乎有时甚至超越了模仿。我认为这是V12让我感到惊讶的未知领域,它有时会以某种程度的理解来模仿。就像为什么它,因为它,

例如,你不知道是否应该进入交叉路口,或者假设你正在左转,而行人在这里。每种情况都略有不同。

所以仅仅因为你的数据中有很多例子,这就像它可能不是完美的,就像你可能无法完美地模仿,因为它是一个新的情况。所以你必须在这个新情况下推断出我应该做什么?我认为这不仅仅是模仿。现在它可能只是模仿,但最大的,我想,能力上的飞跃有点像LLM。在某种程度上,它们可以理解你在新情况或新对话中所要求的内容等等。我认为你正在寻找的词是泛化。是的,是的。也许是泛化。利用数据提供的特定模仿情况并将其泛化。但是为了泛化,你需要一定程度的……

不仅仅是模仿,对吧?也许是某种程度的应用。模仿,我的意思是,我们谈论模仿。模仿是训练目标,对吧?在这种情况下做人类会做的事情。这就是为什么我们称之为模仿,对吧?但是模仿

系统,它没有能力记录每一个可能性,对吧?所以它经常会看到一种情况,这是一种它以前见过的几种情况的组合。它不是任何一种情况的重复。你必须弄清楚如何结合你在这些其他类似情况下所学到的东西,但想出一些不同的东西。然而,它以某种方式遵循相同的规则。所以你可以这样想

使用堵塞路口的东西,这取决于有多少车道,驾驶员有多激进,天气如何,交叉交通如何,以及所有这些变量,你作为一个人,你来到交叉路口,你必须决定你是否要穿过并可能被卡住,或者你是否要暂停并等待另一辆车移动

你知道的,我看到一个,我看到一个有堵塞路口的情况,你可以看到汽车队伍尽头的灯光,对吧?我就像,这是人类做的事情。当这盏灯变红时,你知道你有足够的时间穿过,因为它不会变绿,你不会被卡住。你会看到前面的灯变绿。好吧,即使你被困在路口,也没关系。我现在已经遇到过这种情况两次了。而汽车驶入了交叉路口,即使它会堵塞它,因为它确信汽车队伍……好吧,谁编写的代码?没有人编写过这个代码,对吧?有……

现在,作为一个普通人,我正在描述这件事。好吧,这是一个我刚刚编造的规则。如果这盏灯刚刚变红,你知道的,将不会有交叉交通,而前面的灯会变绿。好吧,前面的汽车,它们肯定几乎肯定会向前移动,对吧?除非有一辆车坏了或类似的情况。所以你会看到人类这样做。他们向前移动,因为他们知道他们能够做到,并且他们想要,他们想要为自己保留那辆车后面的空间,你知道的,为了获得穿越交叉路口的优先权。

所以他们向前移动。我看到汽车模仿这种行为,对吧?只有在真正合适的情况下。嗯哼。

所以在某种意义上,当我向你描述这一点时,我所做的是观察情况并弄清楚规则是什么。哦,这盏灯变了,那盏灯变了。现在我有时间了,对吧?是的。但是当我过去这样做的时候,我没有有意识地考虑这些规则。我没有核对这份清单。我看到在哪些情况下我可以安全地向前移动。我不太可能挡住任何人的路,我就这么做了,对吧?所以你可以这样认为系统正在做的事情是,我们正在训练它来模仿它,对吧?

但它必须以某种方式压缩它,才能将其保存到更通用的规则集中。所以你可以认为系统试图做的是试图弄清楚规则是什么。就像我看到这50个堵塞路口的情况一样。什么规则说明什么时候可以走,什么时候不可以走?所以如果它能够弄清楚这些规则是什么,就像如果它

它基本上是在获取,而“理解”是一个含义丰富的词。所以我不想用“理解”这个词,对吧?但它是在推导出规则集的表示,如果你愿意的话,人类遵守的规则集,当我们编写代码时,我们希望最小化规则,使代码保持简单,这样我们就不会出现奇怪的错误等等。但是神经网络,如果规则的简单版本是300条规则,

那很好。300条规则对它们来说不成问题。所以如果人类无意识地使用了300套规则来决定我们何时穿过马路,它能够弄清楚这些规则是什么,那么它就能进行泛化。它现在可以使用相同的原则。它是在无意识地提取原则,而不是理性地,只是像人们一样反射性地提取。它正在提取人类用来做出该决定的原则,对吧?

并且它将这些原则应用于它自己的行为。这就是你能够得到这个结果的地方。我们看到它在一些,你知道的,一些对汽车来说是不合理的可爱行为中表现出来,对吧?也许吧。但它也捕捉到了,我的意思是,正如Parim所说,你免费得到了避免水坑的功能,对吧?你免费得到了掉头功能。什么时候掉头是安全的?这很难写。你只是,免费得到了它,但你也得到了,

哦,这个人想左转进入停车场。所以我将在这里稍作停顿,让他过去。或者我后面有人想超车。我会往前移动几英尺,这样他们就能超车或并线。你可以看到汽车正在做所有这些事情。对吧?就像他们不是,你知道……

自动驾驶团队,他们并没有挑选他们想要的行为。至少在我看来,从这一点来看,很明显,他们正在掌握人们所做的所有行为的全部范围,包括礼貌的行为、不礼貌的行为以及人们不理性的地方。我的意思是,我做的一件事……

就像我之前喜欢的一件事一样,因为它确实模仿了我宁愿它不模仿的一些事情,但它们是极其人性化的行为。那就是当你走在高速公路上时,人类往往会在交通拥挤的情况下,在某些情况下过于紧密地跟随其他人类、其他车辆。我一直都在使用自动速度,让汽车自己选择间距等等。我注意到了。

你知道,以前有一个启发式方法,就是这么多车长,不能更少。而且,你知道,也许为了刹车等等,它可能会慢一些,但它在保持非常舒适的距离方面确实很好。而现在我注意到它有点像,它开车的风格更像人了。我有点喜欢它保持更多空间的时候。我喜欢这一点,汽车能够保持更多,拥有更大的,你知道,你不会从卡车上捡到石头等等。

但现在,我发现它正在模仿人类的跟随行为,我个人觉得这不太理想。但这是整体的一部分,就像,这绝对是一些如果你在挑选的话,你不会选择添加的东西,因为它不是一个优势。这是一种人类参与的不理性行为,会导致事故,降低你的安全裕度。但汽车也会模仿这种行为。对。

因为他们是在取其精华,去其糟粕,为了得到所有东西,包括他们不一定知道的东西。我建议我们遵循所有这些无意识的规则。对自动驾驶团队来说,这些规则也是无意识的。他们不知道要去寻找它。但最终的结果是,现实情况是他们得到了这个东西,它就在那里,而且运行得非常好。——是的,是的。我的意思是,这很有趣,我想,关于泛化的主题。所以,

我认为这可能是V12最,我认为,最有希望的方面之一,那就是它所捕捉到的行为,其中一些可能是出乎意料的,因为假设你在YouTube上有100个视频

关于在黄灯或绿灯下是否应该进出十字路口,即使它被堵住了。但是,神经网络正在分析和训练数据,例如通过数十亿个参数来分析这些视频,从中获取它所能获取的信息。我还想知道,我想这又回到了整个问题上,他们是否添加了更多类型的数据,例如,

他们是否在这些视频片段上添加内容,或者提供不同的内容,如果这辆车真的这样做,就会发生碰撞,或者这样做,就会发生碰撞。因为看起来,如果他们只提供一百个,比如说,它做得好的视频片段,那么对于危险情况的负面信号就不如直接提供给它那么高。——这在强化学习中很有用,因为有负面例子非常有用,因为你试图找出分数是多少,并且你有好有坏。

在模仿人类的情况下,对吧?分数只是你与人类行为有多接近,就像你评价神经网络在训练中表现如何的方法是,你向它展示一个它从未见过的片段,然后你问它,你在这里做什么?你只是根据它与人类行为的接近程度来评价它。因此,你使用系统未经训练且从未见过的、人类录制的示例。当我测试它以决定时,

这些其他片段是否有帮助?它们是否有害?我给它一个它从未见过的片段。好坏只是你与人类有多接近?它不是,你是否坠毁了?它不是,在强化学习中,你会这样做,或者对比学习。还有其他一些方法会这样做。但是简单的模仿,至少在机器人技术中所做的那样,压倒性地,对吧?就是我们只是,我们有一个来自目标的信号,我们希望你接近它。

你的分数只是你离它有多近。因此,它模仿从未见过的优秀驾驶员行为录像的程度,这就是它的分数。所以你不需要碰撞。——所以你认为他们只做那种模仿训练,还是他们,你不认为他们会添加不同类型的对比学习或强化学习等等吗?——长期的强化学习将非常有用。

我提到过,我可以从根本上对神经网络进行训练的方法是,你给它们一个例子,然后它们说出它们在这种情况下会怎么做。然后你给它们一个分数,根据分数,你调整所有权重,你一遍又一遍地这样做。最终,权重会变得非常擅长给出你想要的结果。好的,我该如何提出这个问题?

所以在强化学习中,你所做的,问题是你所做的,你玩所有这些步骤,然后你得到游戏的分数。这就是DeepMind在Atari游戏中所做的事情等等。你做了很多动作。强化学习的挑战在于很难知道哪个

你知道,如果你必须做一百件事才能得到一分,那么你怎么知道你做的这百件事中哪一件很重要,哪一件不重要呢?这就像一个很大的挑战。所以强化学习做了所有这些。但是由于这个挑战,强化学习往往非常样本低效,我们这么说。你需要玩很多很多很多的游戏才能学习一定数量的东西。

另一方面,如果你试图训练Atari,对吧?你的反馈信号是让球拍精确地到达专家人类的位置,对吧?那么这更有效率,学习速度更快。记住我们之前讨论过AlphaGo的例子,对吧?所以当他们第一次开始训练AlphaGo时,他们做的第一步是让它模仿人类。他们使用了60万场专家级的人类游戏,AlphaGo第一个版本的第一个训练阶段是,

他们只是通过人类模仿来训练它,做人类所做的事情。这让他们走了一段距离,对吧?这让他们达到了,因为他们有60万场游戏,这些游戏还不错,但是你知道,是相当不错的人类玩家,但他们就像业余爱好者或其他什么人。你如何达到下一个级别?好吧,对于像围棋或象棋之类的游戏,你可以做的一件事是开始进行强化学习。现在,在那种环境中进行强化学习,在象棋中,你有,你知道,

在任何给定点,你都有16、30、50个移动选择,也许只有10个是好的选择。所以你不会,你知道,可能性树不会那么快地扩展,对吧?所以,

所以基本上,你可以让试图学习13种可能性中的哪一种的神经网络收敛得比选择更大的情况快得多。在现实世界中,你知道,我们有这些连续的空间,比如你可以将方向盘转动45度、22度、13.457度。你知道,可能性空间非常大。所以因为这是强化学习的一个真正挑战。所以。

人们试图用游戏中的汽车进行强化学习,比如赛车视频游戏等等。我们知道它有效,但我们也知道它非常样本低效。好的,我现在看看特斯拉的情况——

我会猜想他们正在进行人类模仿,他们可能还在此基础上进行了一些强化学习训练。你知道,也许有一些你希望系统去做的事情,而它在模仿方面并没有完全做到,在停车标志处停车,你知道。所以你可以在此基础上叠加一些强化学习,只是为了调整系统的行为。顺便说一句,这就是

这就是ChatGPT最初所做的。记住,在ChatGPT中,有基本的训练。然后是指令训练,你告诉它,不要只是预测下一个标记,假装你正在进行对话,对吧?然后他们用ChatGPT做了更多的一步,那就是来自人类反馈的强化学习,对吧?

你会在达到这一点之后做的事情,现在你进行一些强化学习并训练它。不要只是假装你正在与我进行对话,而是你正在与我进行对话,并且你想取悦我。这些是人类更喜欢的答案。最后一个让它变得有礼貌,让你

一致性等等。现在,它只是整体训练中的一小部分。绝大部分训练是预训练。只是预测下一个标记。然后有一大块指令。好的,所以你可以对自动驾驶做类似的事情。我会认为这就是它的发展方式。感知网络的预训练非常多,这只是……

他们已经拥有所有这些标记数据,并且他们有一个自动标记器,因此他们可以获取这些记录,他们可以生成所有街道标志所在位置的地图,他们可以要求感知系统告诉他们标志在哪里等等。这在监督数据上进行了大量的训练,这非常样本高效。这是最样本高效的类型。然后他们转向可能更通用的东西,他们模仿人类。这也是监督的,但它是在更广泛的领域,但它仍然更样本高效,比强化学习高效得多。

然后在最后,你添加,这是一个分层蛋糕。你构建基础能力,然后进行一些改进并添加一些额外的能力,然后也许你可以在最后用另一种训练进行微调。所以如果他们现在正在使用强化学习,

由于样本效率问题。我希望它会成为那种锦上添花的事情,在最后一点,模仿没有给你带来一两件事,或者它模仿了你不想让它模仿的行为。现在你为它设计了一个新的游戏来玩

你有一个游戏,它必须获得分数,现在你要进行强化学习。你可以完全做到这一点。最终他们会这样做,因为如果你真的想获得超人的能力,这就是你做到这一点的方式。这就是我们学到的东西。围棋的一个例子是,当它与范辉(欧洲冠军)比赛时,它能够达到他的水平,也许再加上蒙特卡洛搜索,这基本上是——

不仅仅是做神经网络的第一件事,而是启发式地探索一些可能性,对吧?这让他们到达那里,他们可以找到方法。但他们不会以这种方式击败李世石。没有足够的游戏示例供它进行训练。它必须与自己一起使用这种强化学习进行游戏。然后天空才是极限。它可能有多好就变成了系统可能有多好的极限。然后它们可以真正变得超人。

所以最终我们会看到,你知道,自动驾驶系统,它们会,它们会做到这一点,你知道,随着我们获得更多计算机,

更多的计算能力,随着我们学习如何在该领域进行强化学习,它会做到这一点。所以,你知道,长期来看,我认为这是非常有可能的。有一些东西与强化学习做同样的事情。它们有点不同,但这些技术之一,所以它可以自我博弈,以便它可以学习比人类所能学习的更好,这将成为公式的一部分,但我们还没有达到那个阶段,对吧?我的意思是,仍然有成为像一个非常优秀的人类驾驶员一样好的低垂果实。是的。因为如果FSD是……

相当于一个非常优秀的人类驾驶员,但它永远不会感到疲倦。它永远不会分心。它可以同时看到各个方向。那是一个伟大的司机。就像那个超人——

本身。它的决策过程不一定非要超人,但它的感知能力和不知疲倦的能力的结合,对吧?不知疲倦,它永远不会疲倦。这些东西与优秀的人类决策能力相结合,就像我感觉作为短期目标,这是一个伟大的目标,这将给我们带来巨大的效用。你不需要超过人类模仿就能做到这一点。好的。关于人类模仿,所以

当特斯拉训练并向其神经网络提供所有这些,你知道,优秀驾驶员驾驶的视频时,训练是如何进行的?例如,你处于某种情况,这是一个,你知道,

它是否告诉神经网络预测人类接下来会做什么,然后显示人类接下来会做什么,并纠正其权重?是不是这样的?基本上是根据所有视频自动训练自己,对吧?是的。好的。就像,我会猜想他们可能……

所以你取人类驾驶,并将其分解成一些变量,对吧?比如定位、车道决策的时间等等,为……

你与人类行为有多接近创建一个评分系统?是,你知道,我们只是查看所有控件,然后我们取汽车与之相比的最小均方误差。你可以这样做。也许这效果很好。也许你退一步说,人类在交通中走的是哪条线?你知道,你在每一点上与那条线的距离是多少。也许这就是分数或速度。

评分系统可能还有其他元素,比如当灯光改变时、当行人移动时你反应的速度有多快?我的意思是,你可以在它上面叠加其他东西。你会从最简单的事情开始,这个均方误差,对吧?然后,如果那不起作用,或者如果你可以在它上面添加其他东西来使评分更好,因为拥有一个好的评分系统是一个重要的部分。这都归结于样本效率。

你知道,我的超级计算机运行一周才能得到一个好的结果吗?它运行一个月吗?它运行一年吗?这就是样本效率。就像我多快才能得到我想要的结果?系统本身会限制它能达到的程度,但一个好的评分系统可以让你更快地到达那里。这是经济学。所以他们肯定会,他们的评分函数中会有很多技巧。我们称之为损失函数。而且,呃,

所以这真的会像,作为一个从业者,我真的很想知道他们在做什么。但他们确实有一个。他们想出了一个评分系统。几乎可以肯定的是,他们基本上是在获取人类所做的事情。他们有这种理想点。他们有一个你可以获得的理想分数。系统的分数就像,你离……

在这种情况下,我们的专家人类做了什么有多近。是的。我的意思是,能够像那样进行训练令人兴奋的是,它让你想起了,你知道,ChatGPT的整个转换器模型。就像你可以给它这么多数据,它只是,你知道,获取所有这些数据,通过预测下一个标记,然后,

然后重新排列它自己的权重,它可以变得越来越好。它在某种意义上是如此可扩展。你只需要提供更多的数据

更多参数,它就会变得越来越好,因为训练只是如此高效地利用它。——这实际上是一个非常有趣的隐喻,如果文本模型正在学习预测下一个标记,对吧?——没错。——好的,这些标记都是人类写的,对吧?在有语言模型之前,所有这些东西,比如所有文本都是人类写的,对吧?我们没有自动系统生成任何有意义数量的内容。

所以在某种意义上,它只是在预测人类,下一个,人类接下来会放什么?这是一种人类模仿,对吧?但是当我们看到,如果你看看ChatGPT能做什么以及人类能做什么,那么有一些事情是它做不到而人类能做到的。仍然有一些推理形式等等,它仍然很差。

但有很多方面它不仅是超人的,比如它记住东西的能力就像,它远远超过人类。就像你可以用一百种不同的语言与它讨论任何一万个主题,你知道,它在某些方面已经非常超人了。所以你可以期待模仿也会有同样的结果。如果他们正在学习预测下一个方向盘的动作,预测下一个刹车踏板。在某种意义上,你会得到类似的东西。

它不一定要局限于人类所能做的事情,因为它的能力是不同的。它会以不同的方式学习。它不是人。关于人类的一件事是,我们有这些非常糟糕的工作记忆,对吧?这就是为什么我们的,为什么我们的思维过程被分解成这两个层次,这个无意识的东西和有意识的东西的原因之一。因为有意识地,我们一次只能跟踪几件事,对吧?

好吧,你知道,FSD没有这个问题。当一个人来到十字路口时,你面临的挑战之一是,你知道,有三个行人和两辆车正在穿过,你正在转动你的头去看他们。你正在关注几个。好吧,FSD同时在观察一百个行人、所有路标以及各个方向的所有车辆。它不像我们那样有注意力。所以,

所以即使是相同的理想集合,相同的目标,因为它以不同的方式到达那里,

它的许多行为都有很大的潜力成为超人的,即使只是在规划方面。你知道,我的意思是,人类最终不会成为限制,就像人类不会成为限制一样,就像ChatGPT一样,ChatGPT所能学习的语言数量的上限远高于人类能够流利掌握的语言数量的上限。对。同样地,你知道,比如你能告诉我关于温斯顿·丘吉尔的维基百科页面吗?有多少人会知道呢?对。维基百科会尝试。它可以告诉你。是的。

是的,这很有趣,因为,是的,它保留的能力,你知道,比如如此多的信息。例如,ChatGPT,如果你将它应用于通过训练的FSD,比如如果一个人要像LLM的转换器模型一样进行训练,你知道,我们不会保留太多,你知道吗?这就像,我的意思是,这就像,例如,数量

我们从,我想,你知道,只是看视频片段本身是有限的。我们只关注一个方面,也许是这个人是如何转弯的,以及关于环境的一些信息,但神经网络正在捕捉更多我们可能没有完全意识到或意识到的细微之处,并保留这些信息。所以,我的意思是,它,

我认为有两件事。一是它看起来如此可扩展。你只需要在各种场景中提供一千倍的数据,它就会变得更好。是的,这就是它的优势。它是如此,潜力是疯狂的,对吧?第二件事是,这种能力的交叉,它做的事情你可能没有想到,因为它

它正在从其他场景和其他情况下学习,并在新的场景中进行泛化,对吧?所以它有点像这些你没有计划或最初没有训练过的涌现行为或能力。我认为随着你提供越来越多的数据,对吧?

我们可能会看到越来越多的这种情况,人们会觉得它在某些方面是超人的。它比我更优秀的司机。随着数据的增加,这将越来越明显,对吧?——是的,我们会看到很多这样的情况。我的意思是,我已经有很多了,我的意思是,我只开过几辆,我的意思是,我有时在V11上得到这个,所以在V12上我得到了更多,

你来到一个十字路口,然后它得到一个行为。好吧,就像我前几天告诉别人的那样,在V11上,早期的V11肯定,如果我干预,

你知道,我想说大约80%的时间,干预是正确的做法,对吧?而且偶尔你会干预,然后你意识到汽车是对的。你知道,哦,不,我需要转弯而不是这个,或者我干预是因为我认为它在无目的地为停车标志减速,我没有看到行人,或者我没有看到减速带,你知道,或者不管是什么原因。

我不想说我在V12上,我越来越进入那种状态,就像80-20反过来了。你知道,大约80%的时间我干预,是我的错误。汽车看到了什么东西,它正在回应一些我应该看到的、理想情况下我应该回应的东西,但我没有,对吧?而且,你知道,所以它更多地暴露了我的失败。当我们意见相左时,它往往更多地暴露了我的失败,而不是系统的失败,你知道,随着这种情况的发生。我认为这是,你知道,我们,

在我们现在所走的轨迹上,我们很快就能进入一个世界,你知道,几率是,如果你,比如,你仍然应该干预,你知道,因为系统并不完美,但是……

但是,你知道,99%的时间你干预,汽车是对的,而你错了。而且,你知道,这就引出了一个问题,我们什么时候不让人类驾驶?对吧?因为,比如,是99还是99.9?汽车还需要多正确?当然,这将取决于错误的权重。你知道,如果99个是微不足道的,而一个是极端的,你知道,但我认为,你知道,

我认为以目前的进展速度,我们很有可能在今年达到这个目标。这将非常令人兴奋。我认为可能会欺骗人们的是,你认为V12是V11的下一个迭代,对吧?所以你从V11到V12,你会想,哦,巨大的飞跃,对吧?所以你会想,好吧,也许再过一年,我们会再有一个巨大的飞跃,V13或其他什么,再过一年。然后你预测它。但是

我认为棘手的是,V12很大程度上是在幕后完成的,你知道,这个秘密项目没有向公众发布,也没有真正展示过多少。它实际上可能已经存在了,你知道,大概是在2020年12月。它也建立在为其他项目构建的许多基础设施之上。所以很难进行比较,但说这是……

至少规划部分是白手起家,这并不公平。如果你看看规划改进的速度,比如说,

这可能,你或许可以用你输入的数据量来规划它,并规划出它的能力。特斯拉可能能够看到未来12个月的情况,包括他们有多少计算能力,可以输入多少数据,以及他们对它的能力有什么样的预期,你认为呢?我认为这会让很多人感到惊讶。太棒了。

我们不知道它有什么能力,有些事情很明显,比如停车场现在已经被排除在外了,对吧?实际上智能召唤,我们还在等待……为什么这些被搁置?是因为这部分工作做得很好,占了人们使用它的95%,所以我们要把它推出来吗?还是因为其中有一些棘手的问题,他们想把它做好?这是否意味着有一些挑战是我们不知道的,直到它发布?

停车场与在普通街道上驾驶真的不一样。因此,如果在停车场出现一些新奇的问题,而且发生率很高,这并不奇怪。我的意思是,停车场也有一些好处。你的车速很慢,停下来也没关系。你知道,这不像在普通街道上驾驶那样。

所以我相信,最终它们是可以解决的等等,但是你知道,我们不知道它是否是功能不完整,我会这么说。所以当它功能完整时,预测它的扩展性就更容易了,你听说过“痛苦的教训”这个说法吗?没有。好的。所以这是一篇由一位名叫理查德·萨顿的机器学习研究人员撰写的白皮书。在该领域内部,它相当有名,对吧?理查德·萨顿,他基本上写了这个东西。这是一个关于几十年来机器学习的观察,对吧?尤其是在最近。

它基本上说,该领域一次又一次地学到的东西是,做一些可以扩展的简单的事情,这些事情今天可能效果不佳,但如果你扩大规模,它们会变得更好,总是胜过做一些不能扩展的奇特的事情。作为一名研究人员,诱惑总是去做最好的研究,在你实验室或其他地方工作的任何规模上获得最佳性能,即使是一家小公司也是如此,对吧?

但萨顿基本上观察到,押注那些可以扩展的技术,比如它可能效果不佳,但随着规模的扩大,它会得到可预测的改进。它们总是赢。它们总是,总是,总是赢。而且,你知道,他称之为“痛苦的教训”,因为……

你知道,研究人员不断地学习,你构建了这个漂亮的东西,但因为它不能扩展,所以它就被搁置了。没有人使用它。而这个自1920年以来每个人都知道的简单的东西,它扩展得很好,人们只是不断地加倍努力。这就是模型今天教给我们的东西,对吧?而且,

这与FSD相关的方式是,启发式方法不可扩展。你需要人类来做。启发式方法越多,比如如果你有300,000行启发式方法,并且它们有一定数量的错误,当你达到600,000行时,你的错误数量不是两倍,而是四倍,因为交互变得更加复杂,对吧?所以扩展性很差。

启发式方法不能扩展,人们编写的启发式方法不能扩展。但是如果我只是采用相同的模型,并给它更多视频,它就会变得更好,现在它可以扩展了。我只需要更多视频,我需要更多计算时间,它就会变得更好。所以“痛苦的教训”会告诉我们,V12比V11及其启发式规划器是解决这个问题的更好的基本方法。我认为如果你追溯到很久以前,

安德烈·卡帕西在他最早的演讲中告诉我们,他预见了他所说的“软件2.0”,神经网络会逐渐接管。我认为这在很大程度上受到同样事情的启发。神经网络将会接管,因为随着规模的扩大,它们只会成为做任何事情的正确方法,对吧?最终,启发式方法将无处容身。——是的,我在想卡帕西的这句话,我认为,

至少对于规划堆栈来说,其目标是更渐进的,2.0会逐渐吞噬它。我认为V12,端到端的方法比我最初预期的要激进一些。

但这对我来说,绝对是有道理的。如果他们能让它工作,他们已经做到了,这显然,我认为,将是——好吧,还有另一种讲述这个故事的方法。人们已经问过我几次了,我认为思考这个问题的正确方法是,特斯拉并没有突然偶然发现端到端的想法。端到端是很明显的。对,当然。如果你能让端到端工作,问题是它在非常复杂的领域根本行不通——

或者说它根本无法工作。你必须达到一定的规模,它才能开始工作。对。所以我认为,更现实的看待特斯拉与端到端关系的方式是,他们一直在尝试。它不起作用。他们尝试。它不起作用。你知道,他们会,你知道,所以,

可能是V11达到300,000行的原因是,他们预计端到端会在一年或两年前开始工作。他们认为他们永远不会达到300,000行,但神经网络需要更长的时间来完成规划部分。是的。

所以从本质上讲,这就像大坝决堤,你知道,当他们最终找到可以扩展的技术时,他们就可以做到那种事情,大坝会迅速决堤,因为它会迅速压倒使用300,000行启发式方法来指导你的规划的缺点。是的。我的意思是,你看到阿肖克的那条推文了吗?关于结束的开始之类的东西?你认为它与FSD有关吗?

这完全是推测。我认为是。但是,是的,我的意思是,他评论了什么不是FSD?这很神秘。但是,你知道,在我看来,这是人们驾驶汽车的结束的开始。我有点想知道,内部指标和特斯拉内部跟踪V12的东西,你知道,

他们正在进行下一个版本V12.4或其他版本,他们只是看到改进,并且知道未来会有什么样的计算能力、数据等等。我认为他们现在一定非常兴奋,看到改进的程度,特别是最新的FSA 12.3,它仍然……

我的意思是,你可以从固件编号中看出,对吧?一般来说,我们通过V11看到的是,客户手中得到的东西已经有三个月、四个月、五个月,有时甚至六个月了,对吧?所以特斯拉已经在关注我们六个月后将要得到的东西了。所以,我的意思是,他们可能,

为什么需要六个月?好吧,他们会进行所有这些测试和验证,会有调整,会有所有这些推出浪潮,以确保超级安全等等。所以,从他们第一次……开始到最终发布之间,这个流程很长。但他们会在进行这些初始构建后的几周内就知道潜力。所以……

他们已经基本上知道我们六个月后会得到什么了。所以他们真的不需要猜测,对吧?我们只是,它需要六个月才能通过安全流程等等,然后到达我们手中。是的。所以——

对于V11,我记得一半是怀念,一半是不怀念。当你处于某个十字路口或其他地方时,你停下来或缓慢移动,你会得到这种抖动的方向盘。它向左转,直行,向左转,直行。当我想到这一点时,我想,我认为所有在V12测试版之前进行测试的人

都会有他们的共同体验。就像抖动的方向盘一样。——你见过V,所以V12有这么一个情况,偶尔你会停在十字路口,它就开始,你完全停住了。——是的。——不是缓慢移动。你停住了,你停在另一辆车后面或类似的地方。它就开始转弯了。——是的,它会那样。是的,我以为只有我这样。我想它确实会有一点。——不,我已经看到两三次了。我第一次看到它的时候,我想,

你在做什么?它只是慢慢地转动方向盘。我想,这很有趣。红绿灯变了,它就……它猛地转回直行,然后它就开走了。它就像无聊了,在玩方向盘一样。这很有趣。好的,所以从V11到V12,V11,它只是……

我把十字路口的转向盘问题解释为,它在两个选项之间犹豫,对吧?它就像,哦,60%朝这个方向,40%朝那个方向,但后来它变成了60%朝这个方向。然后,你知道,它来回切换。就像它改变应该做什么的百分比一样,它也在改变方向盘。但是为什么在V12中,我们没有看到这种行为呢?为什么它只是自信地朝一个方向前进,而没有那种人类……

好的,当你使用启发式方法时,你来到一个十字路口,你的选择是,你有一些选择。直行、右转、左转、右转、走、不走,它们是二元的。所以神经网络,神经网络的输出是,

你处于一个十字路口,你可以右转,你可以直行,或者你可以右转,对吧?没有45度的选项,对吧?好的,所以神经网络在这种情况下,它充当分类器。你选择这个或选择那个。

但是神经网络要工作,它们必须是连续的。所以系统中必须存在一个非常低概率的选项在这两者之间,对吧?这是,你知道,你有一个S型曲线,对吧?0和1的重要部分,但它必须是连续的,因为如果它不是连续的,你就不能,它不可微分,你不能反向传播。所以这是神经网络必须具备的一个基本的东西,必须是连续的。好的。

所以系统有一套标准,它将向前走,它有一套标准,它将向右走。你正在尝试,你知道,你最小化,你知道,这是一个,这里有一个特定的概率,这里有一个特定的概率,它们加起来几乎等于1,并且在两者之间的东西中还有一点点剩余的概率。它的目的是连接这两个状态,所以神经网络,所以它是可微分的,对吧?

好的,这实际上是你在有两个状态的系统中的一个弱点,对吧?因为想象一下,你会得到一组标准,你偶尔会遇到系统正好处于那个45点上的情况,对吧?随着阴影的变化和汽车的移动,上下文线索会稍微发生变化,

网络将会,因为这是一个选择,这是一个选择。在构建系统之前,所以方向盘,它反映了十字路口即将做出的选择,对吧?所以某些东西在来回闪烁。是的,正如你所说,

它在振荡,这是一个非常小的振荡,但你必须在右转和左转之间有巨大的差异,因为45度转弯永远不是一个选项。就像你必须把它做得超级,超级小。所以如果你正好处于边界上,它会在两个选项之间来回跳动,对人类来说,这两个选项似乎非常不同,对吧?问题是,如果你在模仿一个人,

你不再拥有,你知道,你的目标只是尽可能接近人类。你没有这种分类器的东西,你没有这些A/B选项。

所以系统不会最终处于它正在做出这样的状态,比如它有一个选项,比如一个人来到十字路口。如果他们直行,他们的方向盘可能在这里,可能在这里,可能在这里,对吧?一个,它可能在这里,可能在这里。它们相当广泛且连续。它不是完全笔直的,也不是这里有一个无人区。就像人类会来到十字路口。他们可以将方向盘转动45度,让它停在那里。然后当红绿灯改变时,把它转直然后继续前进。那不是……

那不是网络的失败。这是一个选项。所以它永远不会处于它在两个状态之间振荡的情况,为了安全起见,神经网络的设计必须使这两个状态高度离散,对吧?因为它只是在模仿一个人。我不知道我是否解释得很清楚。但它自然会从这样一个事实中产生,

他们有一个他们正在跟踪的目标。目标是接近。你不必完全正确。足够接近就可以了。你会这么说吗?因为,比如说,对于FSD和TEND,神经网络是,因为它们在模仿,它们只是有这么多的点要沿着路径模仿。这就像,而V11,它是……

在左转和右转之间决定,或者说直行和右转之间决定,它在振荡。这些是两个需要做出的重大决定。一旦你选择了它们,它就会走那条特定的路径。所以这是一个重大的决定,而——让我们这样说吧,对吧?好的,你正在写数字。有一个1,一个2,一个3。1和2之间没有任何部分。它应该是一个1或一个2。没有中间选项。没关系。

但作为一个人,你可以写一个潦草的1或2。我的意思是,如果你正在做的是模仿人类,目标,成功的目标是广泛的。它不是精确的1或精确的2,中间没有无人区。有很多不同的方法可以写一个1,有很多不同的方法可以写一个2。中间并没有真正的空间。但是

但是网络有余地来写略微不同的1,仍然是正确的。而,你知道,在分类器的方式中,你没有那个。你得到了这些,数量非常少,极其不同的决策点。所以如果你处于它们之间的边界上,你就会看到振荡。有趣。好的。所以,是的。

——展望Robotaxi,8月8日发布。你对特斯拉的期望是什么?比如,你认为他们为什么现在发布它?你知道,比如,任何想法或建议?——在路透社那篇文章之后,这似乎有点被迫。也许这是一个巧合。我不知道。

你知道,我看到了一些理论。我的猜测是,大约在8月份,那个大致的时间框架,对他们来说是一个介绍这种观点的好时机。所以有点,有软件角度的解释,也有硬件角度。比如,你知道,是时候让他们把硬件拿出来了。他们为什么需要把硬件拿出来?他们为什么不等待像Y型车或3型车那样发布,他们等待更长时间?

直到他们准备好开始接受,我的意思是,III型车很早,但对于Y型车,他们不想奥斯本和III型车,所以他们等待,他们把它淡化,直到他们到达那里。直到现在,似乎,你知道,对于他们一直在做的紧凑型汽车,他们也做了类似的事情。所以它不是奥斯本和III型车或Y型车,大概。

如果他们在8月份推出它,他们要么大大加快了时间表,要么他们在汽车实际发布之前很久就进行了介绍,这对于Robotaxi来说是有道理的,因为人们没有期待它。没有人不会因为等待Robotaxi而购买Model 3,对吧?我的意思是,至少这不太可能是一件事,而他们可能会等待购买Model 3。所以也许这个问题不那么严重

也许他们想让原型车上路开始测试和收集数据。就像我看到的那个理论一样。是的。似乎不错。所以这是一个。另一种可能性是

他们认为软件越来越接近了,他们想在一个平台上演示软件,开始为世界和监管机构做准备,让他们知道这是一件真实的事情。它真的会发生。这是我们的现状。我的意思是,这显然对公司有利,吸引了人们的注意,

它可能会让投资者更现实地看待它。它可能会让监管机构更现实地看待它。就像这不是空中楼阁,我们也不是在做梦。所以不要把我们放在你工作堆栈的底部。把它放在顶部,因为这是,我们真的需要开始处理这个问题,比如,

在你允许我们操作这些东西之前,你需要什么?所以这些都有道理。——是的,是的。我想知道robotaxi是否只是特斯拉拥有的,对吧?至少一开始是在某些城市环境中。我不明白为什么他们一开始会把它卖给人们,当他们有很多能力或需求来填补这种拼车服务的空白时?

人类拼车服务的实际成本与robotaxi的成本之间的差异是如此之大。特斯拉很容易使用,你知道,最初几年的产量。也许是300万辆汽车。这是一个非常好的问题。而且,你知道,这是,

这是一个长期以来一直在争论的问题。我和另一个家伙打了一个10年的赌,赌特斯拉在开始制造robotaxi时是否会停止向私人出售汽车。你知道,你可以看到它像,

我试着从几个方面来解决这个问题。我可以看到两种优势。我的意思是,robotaxi完全属于一个车队,它的优势是一个简单的模型,比如预测和理解它都相当直接,对吧?我不知道。比如我会争辩说,这并不是一个很好的长期规划模型。我也觉得,当我想到这件事的全部过程时,就像我之前说过的那样,

我觉得robotaxi将会经历一段时期,在这个时期,相对较少的robotaxi非常有利可图,但是随着车队的不断壮大,行驶里程的不断增加,它会变得商品化。现在,它变得商品化的程度,最终,它仍然是一项有利可图的业务。它是一项更大的业务,所以产生的总利润更大,但是随着车队的不断壮大,毛利率会低得多。

这可能是一个相对较短的时间,就像我看数字时,我可以看到这种转变,我可以看到它们非常有利可图,你知道,因为你只是在做拼车业务,而且需求量很大,你,就像你基本上无法制造足够的汽车来满足需求一样。这很容易持续几年。它会持续五年吗?也许吧,我不知道。这对我来说似乎太久了。而且它不会突然结束,你知道,它会逐渐过渡到一个长期的状态,就像我认为,

你知道,有,我的意思是,最终状态是什么样的?是20年还是50年?你知道,你会在不同的东西上看到不同的窗口,但是我喜欢的另一个点是它商品化的点,比如低垂的果实,你的车辆行驶里程,比如,你的robotaxi每英里花费40到50美分,它会在三分钟内出现,它非常方便,你可以租一辆双座、四座或面包车,而且

你知道,有很多选择,很多便利性,而且比拥有你自己的车辆更便宜。所有行驶里程中有一半已经转移到那里了。那么为什么我说一半而不是100%或其他数字呢?是的。

一个原因是人类的习惯变化缓慢,所以人们往往不会在……采用曲线的尾端立即转向新技术,并且robotaxi采用曲线的某些方面,比如从私人车辆转向robotaxi,我认为由于各种原因,这可能比说从加拉帕戈斯傻瓜手机转向手机或智能手机要慢得多。

即使这花了我们10年以上的时间才完成这种转变。但这是一个有趣的点,值得讨论,因为这是一个我们肯定会达到的点。我们肯定会得到,当我们在美国有2500万辆robotaxi时,它们将提供大约一半的车辆行驶里程。我喜欢这一点,因为它很难争辩说我们至少不会达到这一点。所以你可以谈论这个模型。你可以谈论当你有一百万、两百万、三百万辆robotaxi时的模型。

这给了你一个整体的范围,可以用来思考正在发生的事情。好的。在第二阶段,我认为这可能在第一阶段之后五年到来。

也许时间更长一些。也许是10年。我认为不是10年,但也许是。大部分汽车市场都是私人车辆。不是robotaxi,因为较少数量的车辆会更快地使robotaxi市场饱和。而且,你知道,如果你仍然有很多车辆行驶里程,我的意思是,因为robotaxi的行驶里程是私人车辆的五倍,比如说,五倍。

嗯,这意味着需要五倍于私人车辆才能满足相同数量的robotaxi可以满足的需求。所以你,所以你,在你摆脱这个有利可图的区域之后,你知道,你只有少量robotaxi,因为你受到生产限制、管辖权限制、法规限制,嗯,在你摆脱这个区域之后,嗯,

在我看来,特斯拉在一段时间内将对robotaxi有巨大的需求,而这将逐渐减少,他们在长期内的业务大部分将再次成为私人车辆。那么,作为一家公司,你如何管理呢?你不想在robotaxi赚很多钱并且你正在迅速扩大规模的淘金热期间留下任何东西。

但你也不想破坏你继续成为一家有生存能力的制造商的长期前景。你不能离开汽车行业五年,然后感觉你就能把它捡起来。你知道,你有一个超级充电网络需要继续运行。你必须让你的服务中心继续运行。你有销售人员。你拥有所有这些渠道,你的制造设计目标,所有这些东西。制造商之间的差异很大。

两者之间。我认为Robotaxi在一段时间内将非常有利可图。我认为它在长期内将相当有利可图且规模巨大,对吧?这就是我看到的这些事情的轨迹。但我对以下几点持怀疑态度,有些人认为robotaxi的经济效益如此之好,以至于他们预计私人所有制将被彻底放弃。

这可能吗?我认为有可能。我只是不喜欢,对我来说,这不是正在发生的事情的基本情况。我认为无论你使用什么策略,

特斯拉都必须为这两种可能性做好准备。保证你未来的灵活策略是在整个过渡过程中始终坚定地立足于零售领域。当然。关于我们何时可以获得无监督的FSD或robotaxi开始推出,我知道会有不同的市政当局,不同的城市。做

这将是一个分阶段的推出,你将从某些更许可的地方开始,它将是一个较小的车队来尝试,有点像Waymo在几个城市所做的那样。然后你逐渐将其推广到更远的地方。

我的意思是,我想象特斯拉的路线会快得多,因为我认为他们的改进速度将非常快,尤其是一旦他们达到那个点。但是你会说对预期的预期时间表……

你认为特斯拉什么时候会在街道上第一次测试无监督的robotaxi,有点像Waymo在一个城市里?你认为是2025年下半年吗?测试?比如如果他们……我认为他们……我会说超过50辆车在一个城市。今年?是的。

特斯拉员工坐在方向盘后面。我说的是车里没有人,并且载客。有点像Waymo那样,车里没有人。是的,那……

比如我不指望看到他们在今年这样做。这将,你知道,我们看到这种不连续的、不连续的改进速度。是的。而且,你知道,我们不知道未来六个月会发生什么。特斯拉比我们更了解情况。所以可以想象,他们对此充满信心,他们觉得他们可以在今年尝试这样做。这对我来说似乎非常激进。而且,你知道,他们会像,

Waymo、Uber那样。他们将经历一段漫长的时期,在这个时期,他们会有员工坐在车里,尽量避免触摸方向盘。他们正在积累里程,他们正在了解这东西运行得有多好。我认为这不会是10辆车。我认为这将是500辆车,各种地方,也许是不同的国家。这将是一种收集数据的方式,一种向AP团队提供反馈的方式,关于必须做的事情。

这将成为管理层制定战略或获取数据以帮助为其后续行动制定战略的一种方式。我预计这种情况会发生在今年。

现在,你知道,有多少驾驶将完全无需干预?是99%吗?是99.99%吗?我的意思是,我认为这是有待商榷的。这很大程度上取决于……我们还没有看到V12的改进速度。因此,很难有一个知情的……

那么你认为这些特斯拉员工,比如说,在这些机器人出租车里,他们会接送乘客并驾驶它们吗?Cruise和Waymo都做了一件事,他们多年来都有公司内部乘客,我认为。旧金山的Cruise公司内部人员大约有两年的时间。Waymo也做了相当长的一段时间。是的。

我认为Waymo现在在奥斯汀也这么做。这就像第一步是让自己的员工使用它。然后Waymo做了一件事,他们在亚利桑那州的钱德勒做了一件长期的事情,他们在保密协议下有客户。事实证明时间很长,因为显然他们的进展速度不如他们想要的那么快,比如完善所有事情,或者他们变得更加保守。好的。

他们在那个窗口待了很长时间。我不明白为什么这对特斯拉来说不是一个好主意,让内部人员参与,然后你像安全评分一样拥有外部人员。你有一群人

作为乘客乘坐,也许在保密协议下,也许不在保密协议下。而且,你知道,随着你的信心增强,你拥有越来越多的车辆上路等等,你逐渐开放,你知道,你让人们看到你在做什么,部分原因是你必须这样做,因为随着你的规模扩大,很难保密。

就像我,我预计他们会在今年开始这个过程,以及他们如何快速地完成扩大车辆规模的各个阶段,拥有越来越多的东西。这,你知道,这将取决于技术。我确实相信技术是根本性的东西。是的。我的意思是,这很有趣,因为我,

在海湾地区,然后像奥斯汀,他们可以推出,你知道,特斯拉或员工乘客,对吧?和员工司机。帕洛阿尔托第一。是的。是的。帕洛阿尔托、弗里蒙特、奥斯汀、工厂等等。那

那将是,我的意思是,他们有很多员工。是的,他们有很多员工可以做。我的意思是,他们有多少人每天通勤到他们的工厂?是的,没错。我的意思是,想象一下拥有一支车队,只是把你的流水线工人带进来,你知道吗?是的。所以你为流水线工人运营班车服务并使用机器人出租车。是的。我想知道8月8日的发布会是否会分享一些这些细节,你知道吗?比如,你怎么想?是的。

如果这样做了那就太好了。我一直,我的猜测是我们不会得到很多细节,因为他们没有。你知道,电池,偶尔我们会得到很多细节,对吧?我的意思是,人工智能日从未给我们提供过大量的细节和战略。电池日,它确实做到了。所以,也许能获得更多数据是有先例的。所以如果他们认为机器人出租车更像,但另一件事是

有一个变量是,拥有特斯拉的人在多大程度上可以参与特斯拉网络,对吧?

当埃隆首次宣布特斯拉网络将成为一件事情时,专用机器人出租车还很遥远。所以有很多激励措施。另一件事是,当他们最初这样做时,他们没有现在拥有的现金储备。基于自己的口袋或借钱来建造自己的车队,这在他们考虑这个问题的时候会让人感到非常害怕。现在他们可以扩大中等规模的车队了。

凭借他们现有的现金储备,这完全是有道理的。这可能是一件轻而易举的事情。所以我的猜测是,最佳策略可能已经发生了变化,但很多人期望能够参与其中,我们对此拭目以待。就像我没有回去阅读我们购买这些东西时的合同条款一样,但这在FSD早期销售时是承诺的一部分。

所以我仍然期望他们在某种程度上期望参与。现在,条款是什么?有多少人参与?你知道,这就像,我们不知道那是什么。这些是他们可以用来调整策略的旋钮。

我提到了这件事,就像,我觉得在维持你的零售业务的同时驾驭机器人出租车销售的繁荣将会充满挑战。这些是他们可以用来保持市场秩序的旋钮,而所有这些事情都在发生,你知道,你知道。

尽可能多地从消费者那里获益,尽可能多地为消费者提供利益,同时又不承担不必要的风险。-是的。关于机器人出租车有什么不同之处吗?比如你认为25000美元的汽车和机器人出租车之间最大的区别是什么?-我想说的是自动关闭的车门。-你认为这很重要吗?-当我想到,

当我发现他们正在做机器人出租车时,我做了一些白纸设计的事情,比如如果你是制造商,什么是一个好的机器人出租车。当我想到这些东西时,比如Model 3或Model Y缺少什么,而你想要在机器人出租车中使用什么?

我认为有很多不明显的事情与他们制造的舰队运营车辆有关,这些事情是有道理的。它们在机器人中完全具有成本效益,比如自动关闭的车门,我觉得在25000美元的机器人出租车中安装它是一种非常具有成本效益的事情,对吧?这样你的乘客就不会下车后留下车门打开,对吧?或者确保车门确实正确关闭,并能够正确关闭它。

嗯,但其他东西,比如,你知道,能够检查是否有人在车里留下包裹,让它易于清洁,这样,你知道,其中一件事情,出租车,最先磨损的东西是后座,你知道,因为人们进进出出。所以你想能够,你知道,轻松更换那种东西。嗯,是的。

我喜欢用Cybertruck风格,一种非常不寻常的外观,因为一方面,它是一个广告。哦,有一个。就像Cybertruck是一个广告一样,有一个特斯拉机器人,对吧?但同时,防凹陷,不需要太多的清洁或护理。

所以就是这样。显然还有传感器套件的东西,在传感器套件上投入更多资金,在计算机上投入更多资金,所有这些东西。

在全天候使用传感器和计算机的车辆中更合理。所以,当你在汽车上安装这些东西,而90%的人都没有使用它时,这种权衡就更难证明其合理性,而在机器人出租车中,你知道他们会使用它。-对。-当然。-它需要四扇门,四座吗?-这是一个非常有趣的问题。所以几年前当我查看这件事时,我反复思考过这个问题。我的,

所以双座车很有吸引力,双座车的基本经济性非常有吸引力,但你确实有这样一种情况,比如,大多数乘坐都是一到两个人。对。但大约10%的乘坐人数超过两人。所以当然,如果你有双座车,它们可以乘坐两辆车。但是,如果你有两个父母带着孩子旅行,他们会对两辆车的情况感到满意吗?我,呃,

而且很多人,如果你的驾驶时间超过很短,而且你与家人一起旅行,你希望一起旅行,这样你们就可以交谈。我的意思是,我觉得从运营灵活性的角度来看,如果你要制造一辆车,那么四座车是最有意义的,因为今天的开销,我们的街道配置方式是,

对。我的意思是,今天拥有非常小的车辆没有任何优势。无论如何你都会占用整个车道。你并没有减轻交通拥堵等等。你只是降低了车辆的成本。我觉得四门车,如果你只打算制造一辆车,而且你不会在两三年内再制造一辆,而这将是第一辆车,你将开始扩大你的机器人出租车规模,我觉得有很多……

可以为制造四座车提出论据,因为它可以覆盖大约99.9%的市场,而不是90%的市场。有趣。嗯,我一直在考虑这个问题,关于特斯拉成为一家人工智能公司而不是汽车制造商的整个想法。我一直在想,嗯,

纯粹的汽车制造商业务只是,我从未想过,它只是非常周期性的,利润率通常很低。这就像软件组件是引人入胜的部分,增加了额外的价值。我的意思是,作为投资者。是的,是的。或者,你知道,而不是人为方面

你知道,投入的时间、精力和关注驱动。你把它从……卸载到人工智能芯片上。这很有趣。这可以提高利润率等等。但似乎特斯拉从汽车制造商向人工智能公司的转变,随着时间的推移一直在发生。我认为特斯拉的重点和优先级最好的工程师都在这个,你知道,人工智能,你知道,

轨迹。但就像,例如,在ChatGPT之前,OpenAI当然是一家人工智能公司,但ChatGPT使他们

有点像真正的人工智能公司,像人们使用其产品的人工智能公司,你知道,像一家非常有用的公司,对吧?对于人们来说,作为一家AI公司,而不仅仅是一个研究实验室,对吧?在此之前,从某种意义上说。我认为在某些方面,当我驾驶V12时,我想,哦,感觉特斯拉越来越接近这个点,FSD将变得非常非常有用,对吧?这就像无人监督的FSD将

你知道,改变人们的驾驶交通体验。它将达到特斯拉的人工智能产品最终以非常有用的方式落入许多人手中的地步。对我来说,这标志着特斯拉历史上一个重大的转变。当我们回顾过去时,

20年后,我们会说,哦,那是所有事情都交叉的时刻。再次强调,这并不是说OpenAI不是一家AI公司。他们更像是一个研究实验室。但是当他们推出他们的产品时,它确实发生了转变。所以在某种意义上,我将到目前为止的特斯拉,特斯拉的人工智能部分,它仍然感觉更像,

到目前为止,你知道,真正的产品还没有问世,数百万人在使用它。所以感觉我们越来越接近特斯拉历史上这个关键时刻。-我想知道人们的印象是否会改变。就像我们不认为苹果是一家软件公司,尽管他们构建的软件和生态系统以及商店等等,可以说是,

比制造笔记本电脑、手机等更有价值,对吧?我的意思是,不仅仅是软件,还有软件支持的生态系统,你知道,云端的东西和运行在……上的软件。

但我们仍然认为苹果是一家手机公司,一家笔记本电脑公司等等。软件就像硬件中的成分,但硬件是你看到的东西。所以,你知道,我的意思是,可以说特斯拉已经,你知道,汽车的软件含量非常高,它具有所有这些网络功能等等。然而-

世界,甚至特斯拉的粉丝,他们并没有真正认为它们与其他汽车有质的区别。这是一种不同类型的汽车,我们仍然将其视为汽车。因此,即使公司的经济现实和运营现实可能从更多地关注汽车转向更多地关注生态系统和服务等等,我不知道,就像我想知道他们是否会改变。并且由此,投资者是否会改变

谁,你知道,他们大多是普通人。他们不是专家。是的。对。他们对公司的看法会改变吗?可能会。我认为很大一部分将取决于,

你知道,我们不认为亚马逊是一家杂货店。我们仍然认为它是一家互联网商店,对吧?因为我们经历了这件事,你知道,当互联网公司在20年代都起飞时,亚马逊就变成了互联网。而且,你知道,亚马逊现在的硬件可能比互联网多得多。我的意思是,如果你把AWS部分放在一边,这是非常重要的一部分,你知道,我的意思是,它是送货车和仓库,对吧?

以及大量的库存。还有另一个组成部分,但我们认为它是一家互联网公司。这是真的。所以看看会很有趣

如果以及是什么触发器。如果特斯拉最终摆脱了汽车制造商的身份。我不确定它是否会永远如此。-我的意思是,我认为苹果就像史蒂夫·乔布斯将苹果定义为更多的一家设备公司。这始终是他们的目标。特斯拉有可能遵循这种方式,他们是一家汽车公司,也是一家机器人公司,人形机器人公司。-是的,这将很有趣。-以及那些方式的那些类型的设备。

但是,关于Optimus,我想问你一下你对特斯拉目前状况的最新想法。你认为他们会在未来一年左右开始一些有限的生产运行吗?或者我们仍然比这更远一点?这是一个好问题。我的意思是……

-好的,我认为他们仍在改进软件。每个人仍在改进软件。问题是人形机器人软件堆栈正在发展。它就像LLM堆栈。它发展得非常快。我认为特斯拉应该制造人形机器人的原因是我认为软件正在发生。

现在,你可以让它更快地发生,但使软件能够做到这些的底层技术,它正在到来。我们可以加快一些速度,但它肯定会到来,对吧?我认为制造人形机器人能够大规模发生、很快发生所缺少的成分是,你希望能够大规模地制造它们,并且你希望能够廉价地制造它们。对。

你想要大规模制造的廉价好机器人。而且在我第一次谈论这个问题时,我没有看到世界上存在的工业基础设施,或者任何人正在准备建立那个基础设施。这是做这些事情的长期目标。软件将会发生。这有点像,我的意思是,现在有很多兴趣,我们会把它拉进来。它发生的时机将比以往任何时候都要早,但它一定会发生。这些技术将会被开发出来,对吧?而且

以及事实上,没有好的机器人将成为限制因素,导致它没有在2028年被采用,而不是2038年成为它流行的一年。所以,你知道,当我通过这个视角来看待它时,我的感觉是特斯拉中有一些人这样看待它,你知道,他们非常清楚地理解大规模工业化带来的挑战。

他们明白,为了让这个产品真正发挥其潜力,这个问题需要得到妥善解决,并且在率先实现这一点上存在巨大的首发优势。不仅仅是首发优势,而是可持续的优势,对吧?因为你首先到达那里,然后你不会停下来。你继续发展。你总是拥有最好的产品,对吧?所以你掌握了最好的利润率,你也有平台让你的软件人员能够更快地前进,对吧?

它让你达到规模并保持规模,因为大规模建设,很多大规模建设都是关于利用规模优势,而保持这种优势意味着你希望保持市场的主要份额,因为这让你拥有规模,让你利用

保持这个地位并保持与这个地位相关的利润率。所以当我看到这一点时,我想象,你知道,如果特斯拉也这样看待它,他们所说的许多事情都表明他们确实这样看待它,那么他们现在的重点是降低硬件成本,对吧?

建造东西并将其推向市场。如果它能帮助他们改进生产线,如果它能帮助他们更好地理解产品,以便他们能够制造更好的产品,以便他们能够制造出制造更好产品的产品。我想他们会这么做的。但这是一个好问题。我们只看到了Optimus在行动中的很少一部分。我们在其详细开发方面看到了很少的东西。

关于其构建方式的信息,了解他们在工业化过程中的位置是困难的。但我的感觉多年来一直是,并且仍然是,现有技术的根本改进有很多,你可以继续转动曲柄

而且,你知道,每年,你能够制造的产品都会好得多。所以在某种程度上,将制造规模的时机与软件真正有用的时机相结合,这对我来说是有意义的。因为如果你提前一年制造机器人,

你不会拥有像一年后那样好的机器人,对吧?你推迟规模化的越久,产品设计和相关的东西就越好,你就会知道的越多,核心技术就越好。特斯拉推出了,多年来,电机越来越好。有时你车上的电机会变得更好。他们会进行固件更新,因为他们发现了新的东西,或者他们可以改变利润率。早期的特斯拉,如果你有一辆早期的Model 3,电池容量会发生变化,因为他们会改变软件。是的。

但是有一些东西你不能改变,除非你实际上也更换了硬件,对吧?我们确实看到了今天汽车中使用的电机比两年前、五年前等等的电机好得多,因为他们仍在学习这种东西。

是的。是的。而我有点期望他们不会扩大规模,直到软件相当成熟,但我期望重点是扩大工业产能。我明白了。所以,我的意思是,埃隆经常说,一个产品需要三代才能真正变得优秀。哦,是的。

他们据说在第二代。所以可能还有一代。第一代是产品吗?我认为大黄蜂和泡泡种子并不是真正的产品。我认为第一个Optimus并不是真正的产品。我的意思是,他们将制造这些试验骡子,基本上,他们正在弄清楚事情。但我认为他们称之为第二代,对吧?是的,当然。但我认为第三代产品是第三代客户产品。我明白了。这是真的。那可能是。

我想知道内部的事情是否是在开发三个真正,你知道,原型,然后,你知道,在那之后开始你的第一个产品。所以我们可能会看到另一个第三代原型,然后我们开始看到某种类型的初始生产。一个好问题是何时……

你什么时候才能达到拥有更多机器人加速你的发展的程度?因为如果他们,我的意思是,这是FSD汽车车队的一件事,对吧?一旦他们达到拥有数据摄取引擎的程度,车队的数据是其改进速度的主要限制因素,拥有更大的车队是一个非常大的优势。我猜Optimus现在还没有达到这个程度。而且关于收集数据,有一件有趣的事情,比如,

你知道,让Optimus平台本身收集数据,只要你能有效地做到这一点,就非常有用。但是,让人类穿上,你知道,传感器之类的东西,四处走动并做一些事情,这实际上是一种并非不合理的方法。在某些方面,它比拥有……更好。

例如,如果你想进行人类模仿,那么你可以有两种方法。你让人类驾驶Optimus,对吧?或者你可以让人类模仿人类。两者都有不同的优缺点,但它们都是你想要做的事情。它们都涉及到人类参与,对吧?所以,你知道,如果你有50个操作员,那么拥有1000个Optimus是没有意义的,对吧?因为你一次只能使用50个。如果你达到软件可以开始自行做事情的程度,那么开始扩大规模是有意义的。我猜-你的意思是当软件自己做的时候。例如,你在其中工作,你有一些可以在工厂中完成的基本任务。是的。这,你知道,做起来是有经济意义的,或者你有空间去做,你可以把一些Optimus放在一边,以便,嗯,

为了处理这件事,那么他们可以通过重复地执行具有某些变化的任务来自主收集数据。我们看到其他机器人,比如谷歌有一个机器人实验室,有数百个机器人手臂,基本上只是反复重复地执行任务并改变它们以收集数据。你也可以做那种事情。我不知道它是否与他们现在在Optimus中尝试构建堆栈的方式兼容,但如果是这样,那么拥有1000个这样的机器人并为它们找到一些事情去做是有意义的。

但这是一个问题。就像,你知道,会有……我认为会有一个规模化的过程,他们会制造很多机器人,并在任何客户获得它们并将其用于外部之前在内部使用它们。所以这是一个有趣的问题,问他们什么时候这样做。他们什么时候这样做取决于他们正在采取的发展路径以及他们认为的战略路径。我仍然……

没有看到,就像我仍然认为FSD比Optimus更接近短期产品。那么特斯拉如何,比如说,扩展对人形机器人的模仿,比如Optimus?所以假设他们需要数据量和数据质量。所以你有,我的意思是,你在谈论人类可以控制机器人,但那样的话,仅仅

在关键部位安装一套衣服或一堆传感器,这样你就知道人类是如何操作的,会更好。当你拥有一个人类,我们已经看到我们知道特斯拉已经这样做了。他们已经证明,你知道,一个戴着VR装备的人,他使用一些手动控制来基本上控制。

“做上半身男人的事情,重新排列桌子上的东西。”我们看到了折叠衬衫的事情。这就是它的完成方式。事实上,折叠衬衫的视频可能是某人在数据采集过程中。我正在用Optimus折叠衬衫。所以就像你戴上你的VR装备,你直接控制Optimus的身体,然后你用它来折叠。这是一件已经完成的事情。这是已知的一种有效且相当样本效率高的数据收集方式。

-直接从人类身上测量,你也可以这样做,人们确实这样做。它有一些优势,因为人类的确切操作限制是不同的,你只有手部目标等等,你没有所有中间关节的位置等等。所以你得到的数据更少,但数据收集装备的成本要低得多。所以你可以把它交给很多人,他们可以把它带到现实世界中。他们可以下街捡垃圾。

他们可以在UPS商店折叠纸板箱,因为你可以把它带到某个地方。所以尝试直接使用Optimus的身体来做这件事有一些限制,但也有优势。两者之间的权衡是我提到的那些经验性的事情中的另一个。将有一些权衡。你做什么的正确组合是什么?然后是强化车道。我的意思是,强化车道,

机器人的模拟学习,这已知效果很好。事实上,使用强化学习来训练机器人模仿人类是做到这一点的主要模式之一。

机器人比汽车拥有更多的操作自由度。因此,机器人可以通过许多不同的方式模仿人类的动作,其中一些方式比其他方式更可取。就像如果目标只是让你的手穿过这个弧线来拿起这个东西,你知道,你的上半身在做什么?你的头在做什么?这些都是自由变量。

要以样本高效的方式训练机器人,你需要将所有这些约束到合理范围内。因此,让人类控制整个身体,这样你就可以收集所有,你知道的,人类对这些东西应该做什么的意见。他们也设定这些目标,即使它们对于,也许目标是把瓶子移到这里或倒一杯饮料之类的,对吧?所以,是的。

我认为,你知道,大多数情况下,现实情况是所有这些过程都以各种组合使用,因为它们都为局面带来了一些东西。而且,你知道,正如我们所讨论的,你有了,你知道,预训练、指令训练,然后在大型语言模型和其他现在用于训练大型语言模型的东西上进行强化学习,等等。就像我们没有提到许多其他阶段一样。

这不是哪个最好的问题?这就像你使用所有这些方法,以它们对快速可靠的解决方案的贡献程度来使用。-那么你认为,我的意思是,对于特斯拉来说,要将产品推向市场,他们需要扩大数据规模。

或者是什么,如果是模仿人类或其他什么,除非你正在做,我猜,一些专门的,你知道,你知道,工厂任务,但即使是这样,如果它是如此专业化,为什么你需要一个类人机器人必须在某种程度上,你知道,你知道,需要一个正确的。更普遍的。我的意思是,它,很多,你知道,现在在机器人技术方面取得了很大的进展,而不需要大量的机器人。呃,

有,你知道,我们之前谈到的规模,比如规模如果可以扩展的话就会获胜。但是,你知道,对于规模来说,要通过Optimus获胜,你必须拥有,你知道,各种各样的现实世界任务,你将Optimus部署到其中,它要么在没有超人类监督的情况下运行,要么人类正在监督它,而他们之前本来就在做这项任务。所以,是的。

因为支付一万人每天八小时站在那里操作Optimus的成本非常高昂,对吧?更重要的是,在现实世界中运行的优势之一是,你想利用世界的复杂性和熵。如果你有10000个Optimus,它们都站在基本上相同的白色隔间里,只是在移动相同的积木。

在现实世界中运行的部分好处在于上下文的冗长和属性。所以,如果你给一万人Optimus,并告诉他们,嘿,在你的农场上使用它,嘿,使用它——尝试把它用作木匠等等。你可以找到那些热衷于投入自己的时间去做这件事的人,也许会找到一些对它有用的事情。

现在你正在做的是,你正在利用所有这些不同的人思考这些东西以及所有不同的设置和环境所带来的多样性。这就是数据真正开始的地方。在工厂里有很多Optimus,它们都在大致相同的环境中,做着大致相同的事情,这远不如拥有许多不同的Optimus有价值,因为这就是汽车获得的东西。当然。

每辆车都在为不同的主人服务。它在不同时间、不同天气等情况下,在不同的道路上执行不同的任务。

因此,它收集的数据带来了所有这些多样性,而这种多样性对于训练这些东西非常有用。特斯拉,我的意思是,这让我想起了,特斯拉最近发布了一个招聘广告,招聘大约10名原型车司机。他们遍布美国各地不同的城市。你认为他们为什么需要这样做?我认为这是因为他们正在检查V12,并可能正在收集训练数据。这是,你知道,有一些……

我的意思是,你在澳大利亚阿德莱德有一名司机,你会得到两件事,对吧?其中一件是,你可以看到,阿德莱德,澳大利亚有什么奇怪的地方会破坏我们正在做的事情,我们应该注意吗?你可以从澳大利亚阿德莱德收集数据。就像我说的那样,多样性,对吧?不同的国家只是有不同的事情。以及不同的驾驶文化。我的意思是,当布拉德·弗格森去纽约时,他注意到,你知道,FSD开起来像个纽约人。

你知道,人类会根据环境改变他们的驾驶行为,对吧?其中一些是文化因素。

你在巴西开车,在意大利开车,然后你去英国或德国开车。驾驶文化真的,人们的行为方式是不同的,对吧?所以,就像身处这些环境中并在这些环境中收集驾驶文化的资料一样,这也很有用。我的意思是,为什么他们不能只使用他们在这些不同城市中自己的100分安全评分的司机呢?你认为他们为什么需要雇佣单独的司机?是的,我不会说他们一定……

假设你想运行一个你还不确信安全的堆栈,并且你想让它控制车辆。所以我说的第一件事是,阿德莱德有什么东西会破坏我们当前的堆栈吗?好吧,如果你想象你想去测试V12,但你距离推出还有四个月的时间,那么你可以去那里测试它,看看它是否存在任何大问题。

你知道,不用冒着把它交给零售客户的风险。而且,你知道,你可以把它放在一辆车上。如果你有一个你正在支付的专业司机,你可以在短时间内获得大量数据,并且你可以选择数据。你可以告诉他们,我们想要来自这种情况的数据,去那里做这件事。现在去另一个地方,你知道,就像司机在做Chuck的UPL一样。-当然,当然。是的,很有趣。

大型语言模型,所以你谈到了大型语言模型。那么,发生了什么?这一切将走向何方?所以在大型语言模型的更大图景中,我们有OpenAI,

他们刚刚发布了一个,我猜,GPT-4的更新。一个新的Turbo更新。我们将看看它的功能是什么。但是Claude Opus一直在摧毁GPT,至少在我个人使用中是这样。它在基准测试和许多人的个人体验中都胜过它。是的,是的。这可能是我们获得这个GPT-4 Turbo的原因。是的。

你知道,OpenAI引以为豪的一点是,你知道,他们很长时间以来一直很舒服地保持在排行榜的顶端,使用GPT-4。-是的,我的意思是,对于Anthropic来说,至少在这一点上能够挑战OpenAI,这是否改变了大型语言模型的游戏规则?-好吧,游戏。所以每个人都喜欢赛马,这就是为什么这些东西的赛马方面会被夸大。

所以是的,报纸记者想要报道的游戏,旁观者想要的游戏,当两匹马的鼻子靠得很近时,它会变得更令人兴奋。这是否以重要的方式改变了市场的长期动态?我认为从技术角度来看,它没有。我认为从监管角度和市场的认知来看,广泛的人群参与和参与的意愿

我认为它可能会,因为它会改变人们的看法,并且可能会对结果产生影响,因为它改变了人们的看法。我认为大部分都是,你知道,人们只是喜欢比赛。所以这就是其中的一部分。我,你知道,Mixtrel 8-22B出来了。如果你看到了这个,那是昨天的。我今晚要下载它。所以,

这可能是第一个GPT-4级的开源模型。是的。这将是令人兴奋的。是的,我怀疑它不是GPT-4,但是……我们将拭目以待。是的,我的意思是,GPT-4有很多种,因为目前的Turbo,从基准测试的角度来看,它很有趣……

就像基准测试的性能和人们体验的性能一样,随着时间的推移,它们已经有所不同,你知道的,随着时间的推移。Turbo,你知道,GPT-4的后期版本,它们在基准测试上的表现持续改进,对吧?但是有很多它的重度用户。他们的看法是,它在他们正在做的工作上的性能已经下降了。

这是一个非常有趣的,你知道,我认为人们对像我看到的东西如此热情的原因之一是,许多重度用户,那些围绕它构建应用程序的人,他们很高兴云,Opus没有遇到他们在使用GPT-4时遇到的问题,因为他们觉得它已经下降了。现在,你知道,很难知道。

有多少是轶事,有多少代表了所有使用这些工具的人的真实体验。当然,拥有竞争对手可以让你进行比较,所以你可以获得替代方案。就像拥有其他模型一样,这对该领域绝对有好处。

如果看看开源模型改进的速度,我们应该到达那里。Databricks发布了一个模型,它是一个,好吧,它是一个由16个专家组成的4个混合体,100……

600亿个参数,这是对的吗?那种规模,1500亿个参数。在工业低端表现非常出色。我们开始看到生态系统多样化。它有点像多样化,你会看到模型

那些构建它们的人专门针对某些类型的负载、某些类型的应用程序。因此,模型可以在不 necessarily出现在基准测试中的情况下变得擅长这些,你知道,所以那些在该领域工作的人,那一组应用程序,有一个,

Command R plus已经发布,这是一个大型开源模型。它是在过去几周发布的,它针对的是rag应用程序进行了优化,你知道,后台类型的工作,你以代理的方式使用它。你构建它,你围绕它构建一个代理包装器,并且它专门针对所有这些模式进行了训练。所以,像,

我们现在还不知道它有多好,因为它没有针对……的类型进行优化。就像,它在基准测试中的表现与其规模相当。是的。

但是,你知道,正如Andrew Wynn最近多次指出的那样,如果你将模型包装在一个代理中,你将在同一组任务上获得更高的性能。它的可靠性略低,但人们正在逐渐弄清楚如何做到这一点。因此,如果你围绕它包装一个好的代理,并将其定向到特定任务,你可以从70亿个参数的模型中获得GPT-4的性能。

所以,像,想到人们围绕它构建包装代理,你知道,1500亿个参数,也许不是完全的GBD4,但已经接近了,将会是什么,这真的很令人兴奋。这是一个开源模型。它正在分散权力结构,知识库,对吧?是的。我认为这实际上非常重要。是的。

来源达到GPT-4级别。我认为今年我们将达到这个水平。Mistral似乎可能会提供一些东西。他们一直令人印象深刻。是的,他们一直非常令人印象深刻。这似乎很重要,因为GPT-4级别是一种基准,大型语言模型开始对很多事情变得非常有用。一旦你可以开源它,你就可以……

访问这种智能的成本会大幅下降,因为你基本上可以下载它,在你的电脑上运行它,或者最终它会被缩小,以便能够在不同的设备或不同的东西上本地运行。访问该基础智能的成本基本上会下降到,你知道,

微不足道的成本,我对人们最近在iPhone上运行的演示印象深刻,你知道,苹果有一个内部研究人员小组,他们开发了一个名为mlx的平台,它基本上就像苹果硅的cuda,上面构建了一个火炬层,所以它基本上是……

新的Mixerol模型出来了。我的意思是,他们实际上刚刚发布了它,可以下载。大约三个小时后,人们已经在苹果硅下使用MLX对其进行了优化。它的设计是为了使模型易于使用和高性能。所以,你知道,在这个平台上构建的人,他们可以将其映射到iPhone和类似的东西。所以,有一个相当不错的,你知道,演示生态系统,人们在那里使用whisper,他们正在使用所有,你知道,各种其他模型,并演示你可以做什么。

通过量化它们,苹果自己去年发布了一篇论文,基本上是关于如何改变转换器的设计以便你可以从闪存中运行它。就像你甚至不必将其加载到DRAM中一样。你只需将权重保留在闪存中,它就可以以全速从CPU运行,而大部分权重都保留在闪存中。就像我们将在未来一两年内看到一样,

很多性能都将进入这些你可以随身携带的小型便携式设备。是的,绝对的。而且是时候了,因为Siri很糟糕。是的,我认为苹果最终将在今年的WWDC上宣布一些事情。令人失望的是,它花费了这么长时间。是的,他们会做一些事情。Sora,你对OpenAI的文本转视频引擎Sora有什么看法?它?我,你知道……

这是一个非常酷的演示。我认为这是我们一直在看到的趋势的直接推论,你知道,被带到了视频中,

这是一个很酷的工具。你知道,当更多人可以使用它时,它会很棒。我的意思是,它仍然,你知道,你不会只是将提示转储到SOAR中并获得一部电影。你知道,这是一个连续体中的一个点。这是一个不错的进步。但我认为这是你会通过投入大量,你知道,计算来解决问题的地方。所以像……

就像我高兴地看到所有这些事情中的一件事一样,就像你看到这个进步的弧线一样。对。你沿着进步的弧线所做的每一个点,就像其中一部分你一样,你知道,就在线上。这就是我们所期望的。但是总有这个我们还没有达到高原的阶段,你知道,你。

这就是我对Sora的感受,对吧?是的,这些方法,它们会继续扩展,并且会不断改进。能力本身与趋势相符。是的。对我来说,Sora非常令人印象深刻,但我只是认为运行它需要大量的计算,而且并不便宜。它就像一个证明,它展示了什么是可能的,人们将能够使用类似的东西,

不同的方法,随着时间的推移,它会便宜很多,并且能力会增强,但这需要一些时间,你知道,我的意思是,是的。我的意思是,在这些事情上,演示某事与使其经济实惠以获得客户之间的区别可能非常大。我认为OpenAI自己也说过,你知道,他们需要时间才能将其提升到可以以合理的价格提供的地步。是的。是的。我们在这里的两个小时快结束了。我们在奥斯汀。是的。

你的日食观测怎么样?你在哪里看到的?你住在奥斯汀吗?哦,太糟糕了。我太痛苦了。哦,不。我看到了2017年的日食,它令人难以置信。我对此非常兴奋。我们最终去了Kerrville,因为我提前查看了地图。我准备好了,如果必要的话,我会走很远的路去获得良好的观测条件,但最终它有点像抛硬币。我的意思是,你只是看到了这些云层,你是否会在全食期间幸运地位于两朵云之间?

所以我们在前一天选择了Kerrville,看起来它有最好的几率,但我们完全失败了。我的意思是,在它下面仍然很酷,看到天空变暗,听到动物们都在变化。你知道我的意思吗?这绝对很有趣。我不后悔去。我不觉得我们做出了任何错误的决定。回顾数据,这仍然是最好的选择。只是它失败了。就像我整天都无法自拔一样。我太沮丧了。所以云层覆盖了……

一直?不,我的意思是——我的意思是,在全食期间。不,我们经历了整个过程,你知道,你会在云层之间看到它,因为有别的东西或其他什么。是的,是的,是的。但是这些云层有几层不同的云层来回移动,它们之间有空隙,偶尔你会得到几秒钟或一分钟左右的好视野。好的,是的,是的。但在全食之前,这巨大的厚厚的云层就形成了。

哦,伙计。我们只是,我们什么也没得到。就像,我甚至不能看24小时的剪辑图片。我太沮丧了。这很有趣。太糟糕了。是的,太可惜了。好吧,我必须告诉人们,如果你从未见过,它绝对值得。它们是如此……

这只是一次非常不可思议的体验。在一个开阔的空间里,在蓝天下,看着月亮移动到太阳前面,它会改变你对世界的看法。-是的,绝对的。我的孩子们非常喜欢它。我让他们看了一些视频。我们买了一些关于日食的书。所以他们真的很喜欢它。他们只是如此兴奋。是的,很有趣。-是的,太糟糕了。所以现在,今天早上我就像,

下一个在哪里?澳大利亚在未来一年将获得很多。也许我们将要去澳大利亚。我真的很想再看一次。是的,是的。我真的很想。有趣。好吧,詹姆斯,感谢你的陪伴。是的,并且——这很有趣。是的,是的。我们希望很快再次交谈。好的。再见。