We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 96: 和楼天城聊 Robotaxi:学习人类优秀司机,让我绝望

96: 和楼天城聊 Robotaxi:学习人类优秀司机,让我绝望

2024/12/25
logo of podcast 晚点聊 LateTalk

晚点聊 LateTalk

AI Deep Dive AI Insights AI Chapters Transcript
People
楼天城
Topics
楼天城:小马智行过去五年的L4技术发展经历了从Learning by Watching到Learning by Practicing的转变。Learning by Watching是模仿学习,存在无法学习驾驶员意图、数据不足、双标等问题,最终无法达到L4级别。Learning by Practicing则是在虚拟环境(世界模型)中进行闭环强化学习,通过自我训练和进化来提升能力。世界模型并非单一模型,而是车端模型的工厂,其精度决定了车端模型的上限。过去五年,L4技术取得了显著进步,但由于缺乏规模化运营,进展难以被外界感知。今年Robotaxi市场回暖,主要是因为规模化无人运营的出现,使得公众能够直观地感受到技术进步。 从技术指标上看,无人驾驶车辆的接管里程(MPI)有了显著提升,但单纯的数字难以直观地反映技术进步。L2和L4的目标不同,L2注重便利性和成本,L4注重安全性。L2使用Learning by Watching没有问题,而L4必须使用Learning by Practicing。特斯拉的FSD虽然取得了进展,但其Learning by Watching路线无法保证Robotaxi的成功。 小马智行世界模型的构成包括数据生成器、驾驶评估体系、高真实性仿真和数据挖掘引擎。世界模型的细粒度指标是核心竞争力。世界模型的终极目标是车辆不再因自身错误发生事故。目前,小马智行已实现百台级别Robotaxi的规模化运营,并计划进一步扩大规模,降低成本。未来,远程遥控人员的比例可能降低到1比30。 创业过程中,坚持的关键不在于克服困难,而在于抵制诱惑。大模型技术虽然很吸引人,但最终也会面临自动驾驶行业曾面临的挑战。L2和L4并非相互替代的关系,两者可以并存,并满足不同市场需求。小马智行团队稳定,得益于团队成员间的长期信任和共同信念。 程曼祺:对小马智行过去五年技术发展历程、市场变化、技术路线选择、商业化策略等方面进行了提问和探讨,并对楼天城的观点进行总结和补充。

Deep Dive

Key Insights

为什么楼天城认为模仿学习(Learning by Watching)无法实现L4级别的自动驾驶?

模仿学习只能模仿人类驾驶行为,但无法理解驾驶员的决策过程。自动驾驶系统需要理解驾驶员的意图、决策和习惯,而模仿学习只能学到表面的行为,无法深入理解背后的逻辑。此外,模仿学习是开环训练,无法闭环反馈,导致系统无法自我优化。

楼天城提到的世界模型(World Model)是什么?

世界模型是一个虚拟环境,用于训练自动驾驶系统。它不是单一的模型,而是车端模型的“工厂”,负责生成和优化车端模型。世界模型的关键在于其精度,而不是车端模型本身的能力。通过世界模型,自动驾驶系统可以在虚拟环境中自我演进,模拟未来的驾驶场景,从而提升驾驶能力。

为什么楼天城认为MPI(接管里程)为1000公里的L2产品不存在?

MPI为1000公里的L2产品不符合人性。人类驾驶员在长时间不需要接管的情况下,会逐渐失去对车辆的注意力,导致在需要接管时无法及时反应。因此,L2产品的MPI很难达到1000公里,因为这种低频接管的需求与人类的驾驶习惯不符。

楼天城如何看待L2和L4自动驾驶的区别?

L2和L4的目标不同。L2的目标是为驾驶员提供便利和辅助,而L4的目标是取代人类驾驶员,减少人力投入。L2对成本和适用范围敏感,而L4对安全性要求极高,需要达到比人类驾驶员高十倍的安全标准。L2使用模仿学习(Learning by Watching)是可行的,但L4必须使用自我训练(Learning by Practicing)才能实现更高的安全性。

楼天城认为自动驾驶系统的未来终极状态是什么?

楼天城认为自动驾驶系统的终极状态是车辆不再因为自身的错误导致事故。虽然无法完全避免外部因素(如其他车辆的碰撞),但系统可以通过自我优化和闭环训练,减少因自身错误引发的事故。

楼天城如何看待特斯拉的自动驾驶路线?

楼天城认为特斯拉的模仿学习(Learning by Watching)路线无法实现L4级别的自动驾驶。即使特斯拉有更多的资源和决心,也需要转向自我训练(Learning by Practicing)的路线,才能实现更高的安全性和可靠性。

楼天城如何看待自动驾驶行业的未来竞争格局?

楼天城认为自动驾驶行业的竞争不仅仅是公司之间的竞争,更重要的是如何共同推动市场的发展。目前,自动驾驶在出行市场中的占比还非常小,未来的重点是扩大市场规模,而不是公司之间的竞争。

楼天城如何看待大模型(如ChatGPT)与自动驾驶的关系?

楼天城认为大模型在应用阶段会遇到与自动驾驶类似的问题,如通用性和安全性的挑战。虽然大模型在短期内有很大的影响力,但一旦进入应用阶段,它将面临与自动驾驶相同的复杂性和技术难题。

楼天城如何看待创业过程中的坚持与诱惑?

楼天城认为,大部分人不能坚持不是因为困难太大,而是因为受到了其他诱惑。在创业过程中,他从未遇到过能与自动驾驶相提并论的诱惑,即使是大模型也没有动摇他的决心。

楼天城如何看待自动驾驶系统的商业化节奏?

楼天城认为,过早追求商业化和追求最有价值的商业化都是极端的做法。自动驾驶系统的商业化需要在节奏和意义之间找到平衡,既不能过于急躁,也不能过于追求长远价值。

Chapters
2024年Robotaxi市场回暖,百度萝卜快跑、Waymo等公司取得显著进展,小马智行成功IPO,市场对Robotaxi的信心增强。文章分析了市场信心变化的原因,并指出大规模无人化运营是市场重新关注Robotaxi的关键。
  • 2024年Robotaxi市场回暖
  • 百度萝卜快跑、Waymo等公司取得显著进展
  • 小马智行成功IPO
  • 大规模无人化运营是市场重新关注Robotaxi的关键

Shownotes Transcript

大家好 欢迎收听本期的晚点聊今天的主播是曼琪本期节目我们访谈了小马智行的联合创始人兼 CTO 楼天成

2022 年年中我们在 RoboTaxi 也就是 L4 级别的无人出租车的市场低点报道过小马之行内事文章的标题是市场不相信自动驾驶了但他们还信转眼到今年整个 RoboTaxi 领域的市场水温明显回暖 4 月百度罗布快跑在武汉出圈而在大洋彼岸的旧金山到今年 8 月时微博无人车队的日均总单量也超过了当地的出租车当然这个还并没有算网约车的情况

请不吝点赞 订阅 转发 打赏支持明镜与点点栏目

甚至是在特斯拉和 vimo 长久的路线竞争中强弱对比也在发生微妙的变化一件有意思的事是今年 10 月马斯克开了 Robotexi 的发布会这之后 Uber 的股价大涨 10%而一个月后当市场传出 vimo 可能会进入迈阿密 Uber 的股价则跳水了 10%这个时刻我们再次访谈了刚刚完成 IPO 的楼天成他完整描述了小马过去 5 年的 L4 的技术变革

如果用一句话来总结,就是从 learning by watching 到 learning by practicing。围绕这个技术路线的转变,楼天成解释了很多他看起来和别人不一样的技术洞察,甚至是一些反直觉的判断。比如他提到,learning by watching 最多只能向人,但向人永远做不到 else,而且越是优秀的人类司机,自动驾驶系统学起来,越是一个反向优化,有可能越学越差。

从运营的角度他也提到 MPI 也就是接管里程为 1000 公里的 L2 产品其实不存在因为它反人性我们还聊到了在一个经历过高开低走又从低谷逐渐反弹的行业里创业 8 年是一种怎样的体验

其实这种过山车一样的走势是很多技术方向上不完全收敛就开始出现创业热潮的前沿科技领域的共性比如今天的大模型下面我们就正式进入本期节目吧

今天很高兴邀请小马智行的 CTO 娄天成来录制我们的播客首先先恭喜小马的 IPO 谢谢对然后从上市这个事情我觉得也可以看到其实整个 L4 级别的无人出租车的市场水温在变化因为你们这次 IPO 也是超募了你们融了比预计更多的钱其实市场是相对热情的

那上一次我们做比较长的采访是在 2022 年我觉得那个时候是市场信心在最低谷的一个状态所以那篇文章后来我们的标题是叫市场不相信自动驾驶了但他们还行对他们指的是你们所以你可以讲一下这个变化是怎么发生的吗从市场不信到现在好像大家又开始比较期待 RobotX 的一些变化

我觉得这其实也是我非常想分享的一件事我也仔细思考这件事情其实从 2020 年到 2023 年这四年时间 L4 领域其实我觉得遭遇的就是说市场不幸刚叫的其实也是遇冷的一种状态我一直在思考这最特性原因是什么

其实就是说从 2019 年时间点之后就是 L4 公司比如就是 Pony 我们最重要的技术进展没有办法被外界感知了什么意思呢我就先举个这点例子就是说像 Pony 有过一个我们车辆驾驶的一个宣传视频宣传我们车在各种场景开始其实那个视频就 19 年拍摄的

意思就是说从拍视频角度我 2020 年到 2023 年拍到 24 年这五年其实我拍不出一个比 19 年更好的视频因为确实没有了因为 19 年视频也挺好的然后其实还有外部感受就是就在今年上半年吧

就董车定有过一个北京晚高峰的一个 racing 大家的一个报告对吧那个报告说实在的其实就是说我们所有的不同的车辆在北京晚高峰自动驾驶一个小时但如果从这个角度出发其实我们 19 年的车一定的高的概率也能做到

其实 19 年时候我们基本可以做到一个当然没有这么做其实做一个无人化 Demo 的状态就从无人化 Demo 到一个无人化运营的状态这两个之间其实 L4 公司要走过五年的时间但这五年之间确实外界没办法真正感受到它的进展

所以当对一个行业对一个领域五年内发展出进展的时候它运动这是非常正常的这也可能也是行业的特点就它随着真正包括反正都包括我们包括 VIMO 在一定规模的无人车辆运营之后才能被重新感受到我觉得这个其实应该是它最根本的原因所以去年到今年又开始变热其实核心的关键就是有了一定规模的无人化的运营

对就大家终于走出了一个比无人化 demo 再上一个台阶的东西那就是应该说常态化的规模化的无人化运营它的表现形式就是说你到那个地方就能自己拿 app 打到车那么这是它最值得表现的形式那么这是一个和外界感知的东西所以又重新得到了关注其实今年 Robotexy 在中国六七月份的时候特别火也就是你刚刚说的这个事情在武汉被很多人看见了对对对对对是

那为什么从 demo 到运营就是你说其实可能在技术上它不能那么直观的被感受到变化但这事儿却要走五年了首先就是非常大的变化技术其实应该有至少千倍以上的一个指标提升一千倍是非常大的指标但千倍就至少百倍到千倍之间提升

技术这个非常大指标所以它是需要走五年时间百倍千倍我们指的什么意思呢指的是比如说我们车辆比如从几百公里可能就需要一次接管或者需要一次就是说可能危险性的接管到可能要到十万级别那么这个前辈但是几百其实这个数并不少就是一般我相信对仲战很关注的很有热情的人也不会说是坐几百公里的车对吧

所以其实这个也是 by nature 它外部就不容易感受出来我们拍个视频可能拍一个小时也就几十公里那么在几百面前和几百在几十万面前再拍一个几十公里的视频来说是没有本能区别的

因为我记得最早就 16 年 17 年 18 年的时候大家还会经常去看一看 DMV 的数据就是加州车辆管理局因为那个时候基本上所有的主流的公司都会在加州去测嘛它其实主要的一个指标就是你刚刚说的这个接管数据为什么后面这个接管数据它确实在变好但是好像市场也不买账了

因为一个指标是个冰冷冷的数字直接的直观的体验才有人的感受我觉得这个我非常理解应该是就说这种感性的认知我觉得才是给大家最强的感受而这种数字其实理性如果你关注我刚才说之前五年我每年的数字也在不断增长就比如说外部就在内部我都需要不断的就让公司意识到这个指标增长最终会展现它真正的意义而单纯一个冰冷冷的指标别说外部内部也不一定有很好的认识

所以最近发生的变化就是从一个冰冷的数字变成了感性的方式的一个感性的方式能打到一辆无人的车了这个感受其实它是一个产品了那我们就可以讲讲这五年这个变化都是怎么发生的一方面肯定是有你刚才说的技术上的百倍的进展然后另一方面就是在运营和商业化和规模化上肯定会有些变化对吧

这个话题非常大我可能要不我还主动说技术方面这可能是我更有可能能探讨更深的地方 OK 但首先我觉得就度过这五年其实是我觉得本身就是 L4 工最大的挑战这五年其实就是我觉得刚好跟我之前可能在一些分享中想说话题就是就世界模型的逻辑其实我们世界模型的之旅也从我以前开始的

那就差不多 19 年到 20 年开始对差不多也真的就开始了对我们之后可以展开因为我们上一次其实也有聊到过我觉得是世界模型的雏形就是 22 年的那次采访

对那时候其实应该说已经终于进入正轨的一个状态了但是现在应该说有信心通过它达到很高的状态但其实你刚刚说的这五年其实粉丝把握的技术最大其实应该说是重扣了整个技术的整个的做法然后使得突破了之前 19 年突破不了的一些门槛

达到了现在比如说能够做到顿魔化的无人化的运营的这样一个技术的能力我这里补充问一个因为你刚才说这个无人化的运营比如说 VIMO 包括你们自己包括百度的这个无人化的运营是关键那像特斯拉 FSD 在今年初的这个超预期的表现包括特斯拉自己也说要做ربotaxi 这个对市场水温的回升是有影响吗首先我觉得对这个市场的价值我觉得有更深的理解

因为其实就这个市场就是最终的我们也叫整个市场的一个淡其实大家是我相信是有很好的一个 justification 认知这点我觉得还是但是我觉得我们也期待他也能有更多的就非对外就感性感受到的一些东西但现在我觉得更多还是停留在可能我们对 Elon 个人的 ability 的一个认可

你说的这个感性的认知是指 Robotex 上特斯拉让外界什么时候我能做对什么时候能做一做对明白因为你说那个 L2 加的话就是辅助驾驶放在量产车上的其实很多人他是有很多感受的因为特斯拉的车主毕竟是非常多的这个就是我觉得在市场上有不同的认知我的认知我就就这么多年我们也做了各种东西

这些人之 L 还有 S 之间的这个关系我之前好像我记得在有些场我也表达过他们俩之间的关系这个如果其实我们也可以稍微探讨但我觉得至少在我这边可能并没有什么相关性就是我发现我们之前聊有一次的一点是其实你之前对这个无人化运营的判断就可能大概是百辆车这种级别吧你觉得这件事可能是在 2024 年发生但实际上它是更早发生的确实啊

它 23 年就发生了今年不是 24 年吗今年是 24 年但是去年不是已经开始就是有把这个安全员拿掉的这种测试了吗但没到百辆我觉得就是今年夏天百度它在武汉大概是 400 辆 Vivo 今天大概是 800 到 1000 辆

所以跟你之前的这个预测也挺符合的符合符合你现在方便透露一下小马现在是一个什么级别的就是完全没有安全源我们也是百级别但是当然我们有另外一些考虑其实我们会希望在成本上做得更好之后再进一步扩大但是百还是有的明白

明白就说你们现在可能限制你们这个规模扩大节奏和速度的一个原因是你要把车的成本做得更低对吧对这也是速度不同吧就是因为我们是数量公司嘛百度微墨相对其实得有更多的一个资本的支持这对我们来说我们可能希望当中一所说吧

把车上成本做起来把运营的收入做上去之后再扩大这个节奏上我觉得作为账公司会有略有不同但整个思路和技术的这种要求或者是这种大概的路线上我觉得其实是没有差异的我们接下来可以把这个时间向往回播就是说从这五年的开始开始讲也就是说你从完全重构这个技术的过程然后我听下来的话我觉得你们要讲的这个技术肯定也不是端到端或者跟它也不太一样对吧因为你学的 L4 和 L2 这是两个东西

你可以先讲讲就是 19 年到 20 年的时候当时是遇到了什么瓶颈或者说当时发生了什么要开始重构这个技术首先这个技术路线和 LL4 这是两个比较性的话题我们先说技术路线然后 LL4 分的有关系其实很接近但是没有不同我们先说技术路线其实那个叫做 Learning by Watching 和 Learning by Fragmenting 的差别

就是说一个是靠做我用一个词叫做模仿就一个靠收集数据来模仿一个是通过在一个虚拟环境我们过来就叫做世界模型了虚拟环境中进行自我训练自我演进这是两种不同的做法的思路你说那个 19 年 5 年前 10 年就是说我们开始在那个之前我们做的也是基于模仿的我当时意识到了就是说做模仿最终是做不到 L4 或者是有非常明确的问题的所以我们彻底换了方法就叫 Learning by Practicing

的方式来做这个就是说这是一个整个应该说技术的路径的一个切换其实就发生在那个时候所以 L2 是 learning by watching 就是通过看不完全是这个可能还要更复杂解释但是就先抛开 L2S 用什么的话这个路线本身是这样的

我觉得依模仿学习刚刚你提到端到端的思维就算做到端到端就是把所有传达器的输入可能会包括一些车辆动力学或者地图的信息作为输入输出就是那个车辆怎么开我们叫 trajectory

就是这个东西它有两个很严重的问题反正三个吧第一个其实是它没法学习驾驶是怎么想的它只知道驾驶是一个复杂的行为就不仅仅只有说是我车开的路径真正驾驶这个 task 它需要包括的是很多中间的结果比如说我驾驶的 intention 我的一些 decision 以及一些潜移默化的习惯 pattern

也就是说对同样的一个驾驶的行为它可能背后有成千上万的不同的一种可能性就是说如果单纯模仿是没法学到自动驾驶车辆它是怎么想的这件事情首先为什么学不到是因为模仿数据里根本就没有这个数据就是因为我从我收集的数据我只能知道怎么开的我不会有人告诉怎么想的就算我找标准员说实在的标准员他也不知道那人怎么想其实这是一个就是数据本身就不存在的然后

然后从学习角度说就从网络上这句话可能是真的做 learning 的人会理解什么意思就是说从过超高维度到一个低维度的学习的话很容易 likely 你只能学习表层的 feature 就是很容易你的网络结构就 overfit 到一些非常浅层的 feature 上所以其实这样的超高维度低维的东西你没法做到 rhythmic 和 deep understanding 而这个点就是说你可能会造成的情况就是你只有学过来之后可能对吧一万帧 9999 帧都是一样的但是有一帧是不一样的

但那一阵的失效就会导致非常严重的 diverge 会导致一些价值的问题所以这个就是说叫知其然不知之所以然就怎么想就是这个意思所以这个其实是模仿学习永远没法做到就是怎么想这件事情开始的时候我觉得不知道怎么想也行我们就这么做了但是就是你觉得虽然你意识到不行这个还是不能这么做的

你是在一个什么指标上卡住了吗当时其实就是这个 MPI 这说到 L2 的时候就世界上不存在一个 MPI 等于 1000 的 L2 产品这个其实也是上次我记得有制裁网中我说的很关键的一个 topic

其实就是 MPI 这个卡住是个极限的卡住这是一个整个思路理念的卡住到今天为止我们都没有通过的对可以和听友解释一下 MPI 可能有的人不知道什么意思对就是说平均的多少里程需要一次接管叫就是 Miles Per Intervention 就是在车辆还没有完全成熟的时候呢就是今天的很多 L2 产品对吧有些时候还需要人工思维的介入的所以这个时候呢我们把大概需要多少里程接管一次称为 Miles Per Intervention 表示它的一个安全性

刚才我为什么说不会到了 1000 我给的概念就是正常大家开车一天比如说开 30 公里的话 1000 大概就是一个月一次如果一个 L2 产品是一个月需要你接管一次的那么我反问就是你真的能接管得了吗就你开了 29 天你都觉得这开得挺好的第三天突然发生一件事情

就那个时候就是你真的确定驾驶员他的时候他能够真正的 attention 能在上面这个是做不到的就签是不能做不到所以就是在寓意方面可能很多这就是如果你 MPI 还没做到 1000 的时候你可能没有遇到这个问题还 OK 啊但你真接近签的时候你会发现 MPI 签是个不存在的东西它不是不可预约它可预约这么做 MPI 很容易出现在小于 100 的和大于 10 万的它很难在中间状态出现

因为在运营角度来说所有的运营人员比如说我们的车主是做不到这样一个 MPI 的这是符合人性就一个人如果他长期用动觉得不用接管一周都不用接管他肯定再也不会接管了因为他没办法达到一个 tension 就在这么低频的状态下能够控制车

OK 我多踏足迹就是说当时你运动能够让到瓶颈这个问得很好就是瓶颈然后刚才我说还有一个就是刚才说的模仿学习的一个限制现在回头看当时还有一个很重要的理由就是这个理由其实也很重要这也是后来理解就是说我用更通俗话来讲就是双标对人类驾驶员出事故

和 AI 驾驶员出事故是双标的人接受人是多样的但人不接受机器的多样我先拿确认 GP 举个例子就你知道确认 GP 其实做了很多数据标注

数据标注干什么用呢其实它表面上它是说在帮助模型学习理解一些符合人类期望的语言但其实它是为了消除很多偏见或者不正确说或者是一些就是人们认为作为 AI 的 chatbot 不应该出现的言辞就有些话 AIbot 就不能说了这个事情是比如说一些可能带有歧视或者严重的偏见这种语言其实我们都不接受

但是这些话在人类中是出现过的所以就是说人是接受人类是多样的但人不接受机器的多样那如果在驾驶行为上它是一个什么表现好 也就是说如果真有的人他当时驾驶过程中由于严重的身体异常严重的身体问题出现一个失去驾驶能力人会突然间发生一些事情人就失去驾驶能力这个时候车会发生一些不可理喻的事关注一些非常不安全的事情

但是这时候人接受如果人有于驾驶员身体异常但人不接受机器人会要求 AI 有一个冗余系统我们今天要提这个话题但其实人开车是没有冗余系统的对个人但大家是接受这件事情你该明白我明白还有一些比如说鬼探头的时候我们对于一些突然窜窜的物体或者对于一些别人闯红灯是一些无责的场景的时候

我们会接受人其实是按一个分布的方式反应来刹车人尽力了对吧有些时候实在就是别人闯过灯都过来了你可以说是你就是让速不让道人是大家接受这个行为的但大家对 AI 是有更高要求的就大家不接受 AI 这个行为所以我会说这个问题是这样的就是说 AI 被视为一个冰冷冷的机器的时候就是说如果他真的做到了真的他完美的模仿的人

他是不满足这个要求的而你觉得 learning by watching 就是他最多最多只能做到上人

它的极限就是做到像人而这个像人这件事情它的最大问题就是就算像人它是不满足人对 AI 的要求的不满足人对一个无人司机的要求对所以有时候我会在一个场合说比如说我们说安全 AI 是人的十倍但这只是一个量化因为十倍是个比较十是个不小的数字给人一种感觉但它的本质其实是因为人的根本要求是双标的它不接受机器的多样性

而不做多能性的时候刚好能达到十倍所以十倍不是一个说直接比如说从保险或者事务分析的指标而是从这个地方来的比如有人会说这是一个真正做过的人就是我发现这件事情之后我觉得彻底放弃一点就是有人会说我像优秀司机学是不是就可以了现在很多车企就是这么说的那我说他的问题是什么这个问题这么说可能他们还没有意识到吧意识到这五道特普有多绝望但是我先说我的绝望就是

你模仿学习不是一个闭环训练过程也就是说人类司机是通他们的眼睛耳朵对吧两官有老天八方来开车的他不是看传感器数据开车的这个到底意味着什么问题呢就是说如果他是看了传感器数据他可能不会这么开车他是依赖很多他的一些特有的经验一些超视距的信息一些传感器零下不得到的信息来做了很多

传染器的数据能力来做的判断

所以这个时候就你没把闭环住你会犯一些错误比如说你可能没有能力对横远做一些把握测量操作使得你学它你会非常差因为如果它太重了它也不会这么做所以就是因为你失去了闭环能力而闭环训练是可以的其实我正是因为这件事情我坚信就是说训练需要有闭环的训练能力所以才走到了世界模型

我借着这个学校的心路历程但其实本质是闭环这个东西是源于这一点的其实是我真正对于学优秀司机绝望之后才发现其实闭环才是出路对所以过程中间你们肯定是学了一段时间优秀司机但是你发现这个不 work 不能把这个 MPI 再往上提升的很多对吧

甚至是下降的因为他优秀所以他用了很多就是不敢跟他学所以是个反向优化是个反向的问题对这个其实最后一点刚刚本来想说两点我现在第三点其实就这个病患性人意义

但是 MPI 回到这个点就是说其实当时因为你问的是某指标上不去我觉得是 MPI 的上不去但实际上的话其实后来有了一个回到这个问题本身它其实是怎么想就知其所以点的根本就是本质是因为我没法知其所以点所以我的真正确定能力上不去但 MPI 最终会受运营的限制或者话这么说限制 MPI 上不去有两个原因技术和运营我解决了技术但没有解决运营所以今天还是上不去但技术问题就 OK

所以你也不同意马斯克说的有一句话对吧他经常用了一个说法就是说这个人就是靠看见就能开车但实际上人不是靠看见就能开车你觉得首先看见这个是个未定的概念其实他的说法有个未定如果他是狭义的说法我不同意但广义不一定就是人如果看着车上那些摄像头拍的视频看那人也不一定能开得好就是

就人看是靠眼睛看的是眼睛看人眼就摄像头不等于人眼对吧对也有一些就是你说的就是他开车的时候是结合经验甚至你说那种老司机可能你知道什么低落感或者直觉也行就他开的越多他这种能力越强对而且比如人的味觉器官在耳朵里那个味觉器官也在作用其实是很关键的 1920 年你们发现

你靠之前那种 learning by watching 你不能再继续往上了那你怎么找到这个新的路了你后面说的那个路线 learning by practice 这个是在 practicing 首先就是说故事从闭环说起嘛其实 practicing 闭环这两个是有直接的相关的嘛就是说我需要能够让他自己去学习自己做的好不好让他自己能够 practice 去

学游泳是很好的概念学游泳的时候你看多少遍游泳的视频都不用下水自己是吧是吧管用的当时也是从这个角度其实本质上也是从解决问题角度出发的就是说这些人们根本问题在哪然后刚刚说了三个问题就学不了不能知其所以然

你急的话没有闭怀你刚刚说的就是有一个能力就是说模仿人是不够的这些问题其实你从别的问题出发然后重新思考这个思路但本身就强化学习 Reverse the memory with human feedback 这个东西并不是个新的 concept 的

就是消化学也是一个很多年的东西我相信对方肯定也了解过一些消化学的概念那当时你们就找到这个第二个方法是你们自己想出来的还是比如说像 VIMO 这些行业里的一些其他公司也有类似的尝试从我的感受来说其实贺佳帕还刚好都在那个时候意识到这件事情其实就是说这个方向值得尝试是一个常念偏共识的东西但有没有决心真正开始尝试可能是真正的时间点这样的促进

就是因为我对这个方法绝望了所以那个方法尝试我就主要是不再尝试我必须走的路了我就去走但是这个想法就这是一个尝试的方向其实应该是很早的那点这里刚好我举一个例子这也是最近我在广东的例子其实这块双轮叶就不知道就是这就α0 的α0 地方做了什么这个不知道你了解吗

他应该是做了一个自博弈吧就是他 AlphaGo 以前学的是现成的棋谱人类有的棋谱 AlphaZero 是自己下棋就从零开始 Zero 就是指的 Zero Human Influence 吧其实 AlphaGo 也做了强化学习啊但是其实这是更可怕就是发现从人类棋谱学练之后再强化甚至不如从零开始强化好

因为我个人驾驭一期 AlphaZero 出现之后我小时候学的定式都被颠覆了比如最著名的三三定式是被颠覆了三三定式从来就不动了下了就我小时候学三三定式后来 AlphaZero 之后大家都不动了下了通过一个自强化来超越自己其实有些有例子的其实 AlphaZero 就是对所以那个想法可能在 2016 年 17 年的时候就有了对吧对但是呢就真正开始付诸实践开始大规模投入前面说的都是很理性的东西我说两句感谢的东西啊

就是说新开始这样一个新的方向它是从很低的起点开始的等于是我先做了三年 learning by watching 已经达到了一个水平虽然不是那么高但也还 OK 那么我 learning by practice 是从开始追上来这个追的过程是非常痛苦的其实我们追了接近两年时间这两年是没有任何进展的就这个别说对外我连对内都没有进展对吧实在的我们工作同事怎么跟他家人跟他亲友解释我都不会但是我就只能不断告诉他们说这是这些方向我应该这么做

那时候这两年承受的压力是巨大其实我觉得可能有些伙伴有些公司啊他们后来没有传上去可能是这两年都撑不住啊嗯他跟你比如说做互联网创业你做个 APP 你放出去就能看到增长曲线什么这个很不一样它是个很长周期反馈的东西对吧所以之间受的压力是非常大的嗯所以你自己在这两年用两年去做这个新的路线去赶上以前的这个水平这个过程中间你自己是没有犹豫过的没有摇摆过的你一直都相信这个就是正确的方向

这我一直相信当然我觉得有个运气但这个幸运说回来也不是一个好的故事是疫情的时候相对比较 slow 所以可能大家心态全对会晚一些你说的 slow 是指的就是那个时候因为反正也没有这么多 explosive 没有这么多对外的东西的时候希望大家心态相对平静一些是个不太恰当的比喻如果那时候我们登陆二级市场了可能我这么做压力会更大

那这么回头说的话因为 21 年其实你们有想过上市嘛就当时想 SPY 上市但那次是没有成功的就你回头看你觉得这反而是个更好的安排是吗

我就不说什么天意这样的话了我觉得对吧就是我有时候会说这个就在竞赛圈一个说法嘛当年的迷失可能是为了今天更好的相遇竞赛圈还有这么文艺的说法那回到就你这两年很痛苦的这个追的过程啊你们是中间做了哪些关键的决策包括是怎么最后做到一个还比较好的效果的我觉得东西很多但我竟然心里比较容易理解还来点啊

大家看这里说的进入线这还没有涉及 L2 L4 的问题首先第一其实是数据其实在那期间点 Pony 数据也不少了我们几百万公里数据其实也挺多的但是这个数据来源这件事情被彻底颠覆了就等于是我要首先放弃我所谓的数据有多样性因为如果回到 1819 年时候我经常会说中国的数据很多样性但是在那一时刻基本上我要放弃掉我之前说的那些优势

就是开始用这种生成人数据的逻辑但生成数据不表示说不使用真实数据啊但是生成能力本身就是关键了就数据量本身就没那么关键了就是坚持走生成是这个数据其实是很重要的一个生成数据本身就世界模型的任务之一啊我觉得今天在过程中他慢慢可能世界模型的东西基本都踏实到了就生成数据

就这个其实是很重要的而且生殖率会给人一个错觉你会觉得生殖率短那靠生成的比靠实际收集的会不会一些常规常见覆盖不了或者它 coverage 或者什么那一波其实不是这样的那都是没做好如果做得好的话它的覆盖率它的 consistency 是远超过实际度和感激数据的

但这个需要一个时间就是需要特地从数据的跟数据的关系上发生这个改变这做好没做好的差别在哪儿比如说真不真实吧比如说这个就 interaction 就是指路上的一些比如说交互就这个其实我觉得有些长久奇怪就是说就是自己车的开跟别人的行为是相关的就别人不是固定行为但

但这个交互要非常合理因为它要符合在真实路上的情况如果做得好的话你就会觉得在里面训练跟在实路上有一个感觉做得不好发现实际上别人跟交互是这个样子到真实路上不是这个样子然后就各种发生交互的问题

那你们是靠什么方法把这个生成的数据做得正式做得好了我们专门训练了这个本身生成也是非常复杂的 network 是一个 new network 这也是一个模型我们专门训练了一个还真的挺大的一个模型虽然不是今天大远文那个 size 还真的挺大的一个模型专门做这种交互然后生成中还有那个覆盖长尾长颈就是说你不能生成的也太难就是这么不容易

这些事情是有可能发生的事情但你要呢深层一些它还是有可能这些事发生的这个人的度的把握其实是一个整体发生事情的概率分布以及我们刚提到那个比如人不是双标吗就对于人对 AI 究竟接受什么样的场景

这些的理解就是类似可能这样的工作所以它这个里面还是要带一些你们对这个东西的主观的判断的对吧对其实不是对车怎么开的判断是对世界什么样的判断嗯就是它的重要性不是说车怎么开车怎么开是 AI 自己的事但是我要告诉它世界是什么样子这个判断还是在的就是还有一个 metrics 就是什么叫开得好这个也是就当年购电世界模型另一个很多的 V2 刚才说了一个还有一个就是什么

什么要开得好这个东西也是需要很多主观判断需要很多标注来学习需要主观判断其实是这样一过程那你最开始怎么去搭建这个认知了就比如说你现在突然说让人去抽象一个世界的判断好像挺难的就完全没有头绪啊

这段我们是从发电做起的这是很早年的技术就是通过一个收集的实际场景把它扩展成各种做一些改变变成一些跟它很类似但又不同且很合理的场景然后就会遇到比如说当发电之后其他物体跟我们在车间的行为之间的互动然后就开始靠整个去互动其实也从这一步步做起来的如果回到我们 20 年讲的为什么能够再讲发电讲互动那个其实就是 generative data 的起源的两个东西

嗯他今天肯定做了更复杂的东西啊但那时候其实起源这个其实相对好理解因为这可能就从如果现在我们说要做这个肯定这两个是最初的挑战嗯

因为我们上次聊的时候其实你说过就是 2020 年开始做这个东西你当时不是把它叫世界模型你是叫一个尺子就大概它能去评估你这个车的开的道理好不好那我接着就把世界模型最后一个说完就是说那时候确实不叫原因是它首先啊世界模型这个词是因为我故意跟 vivo 不想撞一个词而换的词但本质它这个词非常容易误解甚至我觉得可能已经被误解了 vivo 那个叫世界模型本是

Foundation ModelVMW 叫 Foundation Model 对对对然后世界模型本身它是车载模型的训练环境它是个环境就它不是一个模型也不是训练这个环境它是整个训练环境叫世界模型就是之前刚刚说就是当年说那个尺子就是那个 Matrix 是它的一个刚刚说什么叫好

生成部分是之前说的发电但是还多了一点就是后来你就是有它自我演进的这个引擎是后来补充掉试验方式的关键这个东西其实不是第一天做好的第一天的时候其实有很多人为的东西

后来他慢慢做到自动化然后变成他们的自己这已经就是说能让一个 AI 司机嘛在里面能够自我演进自我学习这件事情在一个非常少的人类监督或者最好的人类可以不监督情况下来做这件事情是当时 20 年没有的东西 20 年也没有是吗对 20 年严格地讲那时候需要很多人为介入

但这个事我稍微说的不用那么悬化其实让自己变强或者说对啊这个话最早我说的概念在公司内很多人不认可后来我说的就是说很多人其实一生也很少经历强化学习就是我一生教育可能前几年都在做模仿学习只有在某一个特定时候才意识到原来人可以通过强化学习提升自己你自己什么时候意识到的高二高三嘛那个时候就是人可以通过强化来让自己变强不是通过模仿这个想法

并不常见但是本质上一个车如何学习其实不用那么复杂向未来自己学习就可以就如果你能追上未来的自己其实就会变得非常强就是说我通过一个虚拟环境去模拟我会通过未来就可以反来判断我当下决定对不对是有一个好的 sense 然后让我当下的决定尽可能被未来自己认可就是他的学习方式就叫向未来自己学习其实就是这个意思在这个车的驾驶任务里面这个未来只是指未来几秒的意思不需要一个很长的未来

对就是我今天这个决策在这个未来可能五到十秒就可以知道我的决策对不对但是我在做这个决策我不知道啊但是其实我在这个环境世界模型中我是可以知道因为我可以模拟五到十秒我就知道对不对所以要做的事其实就是让未来自己五到十秒后的你能够认可五到十秒之前你的决策它这个训练环境它这个抽单模型的 factory 抽单模型的工厂对吧

对工厂那这五年的话其实对你们来说你们的主要的这个技术上的进化是在这个 factory 的部分而不是在 product 的部分吗对没错这是为什么就是为什么大家有人会说你是用断道端的或者这样的问题然后呢他会给大家用错觉好像各家公司都差不多对吧他都用断道端了其实就真正的驾驶技术差别在于这个 factory 的精度而不在于车载模型的能力或者这么理解就是这个 factory 本身决定了车载模型的上限

就是从生产角度一个模具的精度是它生产这零件的上限对吧所以其实 Factory 的能力其实上限而今天的学习能力其实还可以所以基本上是能够经过一定学习能够接近 Factory 的那个上限而 Factory 本身能力才是关键那当你们这个生产工厂的精度提高了它的能力变强了你们车段模型的实际上的变化是什么样这五年

那时间变化首先最直接的我们事故率的降低非常明显啊今天已经刚说了十倍人类刺激这个也做到了十倍只是一个好表达因为我不想踏出那个双标的话题太多其实是解决那个双标的问题啊

首先这是最直白的表示然后他对于什么叫开得好应该有更好的理解了这是从结果上那他实际上比如他在架构上他是需要有一些大的重构和变化还是其实不需要我指车端的这个呢也是不断学习的不断演进的这个是有的但这个我只随少提也就是各家之间差别并不明显各家之间你指的是 Robotexy 的各家公司还是把 Robotexy

OK 就算 Robotessi 之间各家公司不明显是吗不明显因为这个结构相对也不是秘密大家可以学习而且考的东西也可以凡事可以分享在这方面然后且今天的算力就是说因为用世界模型训练其实不需要特别多算力其实算力也不是平静所以其实这方面登上是很快的

所以你们的这个 Robotaxi 公司之间有共识的这个方向并不是 L2 加的这个端到端的这个方向是吗比如说特斯拉就会说端到端这个范式其实是需要很多算力和云服务的对 是的就是说 learning by watching 数据量和算力是关键 learning by practicing 我觉得是那个 factory 的精度是关键就世界模型精度是关键这也是为什么 Robotaxi 公司很少说自己数据多就是我已经很多年没有对外说过我们数据多多少百多也不能说了

就是因为可能潜移魔法中技术的关键不在这儿所以我们就很少说起了那回到我刚才那个问题就是说其实 L4 的和 L2 加的是不一样的对吧这就到了你说的那个可能更复杂的问题了这是技术路线的区别对和 L224 的区别

那在之前我首先声明就是并没有谁做了错误的决定因为目标不一样目标不一样的事不一定要放在一起但我先解释目标就是 L2 来说它的价值本身是为了使用者提供便利提供帮助来产生价值 L4 其实说更简单是减少现役人力投入产生价值是取代产生价值所以它们价值本身的 justification 都不一样

但是说目标的不同对吧就是 L2 对于成本和应用范围是很敏感的要扩很多城市它的成本其实 L4 对于成本和应用范围是有 flexible 的如果能做成它的 margin 空间是很大的且它不需要特别大的范围其实这方面不是它的优化目标

而反方向安全性就是就像你刚刚说的不做到 10 倍我可能连牌照都没有但是 L2 其实我觉得做到一个就我今天了解大概大部分车的 L2 公司就是 MPCI 如果不接管可能发生很危险的情况大概是 50 到 300 左右大概这样的范围而说的 L4 公司大概是千倍就是几十万至少十万级别以上

所以其实成本是一头真正安全指标是另一头这两个的目标差别是非常非常大所以才导致了一些不同的判断但这里很关键的就是为什么我书面本 Learning Washington 拿出来是因为其实 L2 公司使用 Learning Washington 是没有问题的

就是说如果我做我也会这么做为什么说呢它见效快而且它说的这个见效快不一定是实际快而是说就是没有特别大的变数我这把该做的事做了就能达到一个 OK 的状态这个我觉得如果能是能这样做成我觉得完全可以这么做就是它的性能就像刚刚说的比如 300 之类的这 300 公里今晚一次的车没问题啊说实在真的对吧就是你一周今晚一次嘛没什么问题啊就这车挺好用的

还有一点就是因为它数据上是关键所以它也符合 L2 公司它在核心竞争力就是我也希望的苏星是真正能发挥我特长的路线对吧

就是它有规模的效应我卖的车越多或者我服务的车越多我的数据越多我表现越好对这样也可以利用我的优势所以 L2 使用 Learning by Watching 是没有任何问题的没有任何错误甚至如果我做我也会这么做我就是这么做的其实然后 Learning by Practicing 路线为什么 L4 选的是因为 Learning by Watching 它不 work 它别无选择

我只能有这条这里就是说当然了因为他要投入很多因件你也有当然提到吧就很多比如跟着理解很多实现要很长时间的积累这些东西其实也算符合 AI 公司的核心竞争力吧也是就是说不同公司 strength 不同做法不同的事情不同目标其实整个是一个非常 consistent 的一点以上都是我觉得非常和谐和而会的部分我记得我说过一句话当然前面被 Hedberg 放到标题啊 LR 做的越好距离 L4 越远对吧当年瓦特坑我现在可能得开始真正的

真正前面的事情还记得他们那个点就是一个符合人类驾驶的行为最终会成为 L4 的障碍就那个双标就算我完美模仿了人类优秀人的驾驶行为也具体 L4 有很大的概括因为双标因为那个信息非力环就因为这件事情所以为什么 L2 做得越好具体 L4 也是这个原因而且这个是上限的区别啊

这不是距离就是我做的越好我的上限距离要是越远就这个是没办法跳跃的就不是说我距离越远距离越远可以通过不断的改进但是我越好我的上限距离越远那就是永远越不过去卡了这是一个还有一个点就是为什么要做越好距离越远所以还有一个能运营的那个问题就是我不能依靠车主实现一个 MPCL 等于 1000 的产品

那我就没法从 100 跳到 1 万因为中间隔了 1000 因为 MPI 的 1000 的产品就是个反人性的产品对吧你认为它是个反人性的产品对反人性一个月接完一次的东西哇

你找车主做这个事估计我都不肯做这个车主说实在的我都是车主我得反问你要给我多少钱我来给你做这个车主都不是我给你钱剩下给我很多钱了他才做就是在你这个逻辑里面 L2 和 L4 的目标是不一样的其实我们严格去看这个定义它是不一样的我觉得这个很好理解

但为什么后面市场里我觉得对两个东西有很多的比较确实是因为有一些不管说是投资人还是什么人他会期待说我 L2 再往下发展我是不是反而是我这肯定不能点名但我举个例子长跑和短跑对于普罗大众来说通过强身健体可以同时提高短跑长跑的水平对吧

是吧一定程度对吧我身体好电子多然后整个质量很 fit 对吧我其实长毛长都可以但如果你想成为专业运动员的话这两个东西可不能随便同时选对一个可能是要爆发力一个是要耐力之类的对啊摩尔特是很难拿长毛冠军的就这个玩耳炮或者说旧成本的短毛发不太厉害了它是绝对顶尖的长毛所以它长毛反而就不可能拿了

但是这不可能就是有没有越过这个真正到专业运动员的这个坎的问题就像一个 Y 字形基础是分叉的就是真正过了那个点的人会真正理解到这两个有这么大的差别但在过点之前的时候我会觉得好像对吧提升强身健体就能够超过那都可以提升对吧

前期的时候这两个事情托尼刚好也是一个就是如果这两个同时做如果都要一起做的话对吧首先是这样的就是说前期的时候一些基础架构一些基本的一些机器的 setup 一些训练环境这些东西其实是共享的这个

这种是的但到后面你会发现比如说人类司机驾驶数据这是没法共享的然后呢还有一个很关键的点这里其实是没有走过的分界点的一个关键点就是说 L2 和 L4 关注优化的场景是完全不同的

就是 L2 有很多时候他会主动提醒接管对吧我相信肯定有几个用过 L2 系统他有些时候会提示请接管我也经常发现这种情况这刚好就是边界就是提醒可接管这些事情就要实了 L2 说我不喊斗我让人来接管而这些场景如何处理是 L4 的主要任务所以就是他们两个的主要任务刚好是没有我来了的

你自己开的这个 L2 功能的车是什么车特萨吗还是什么特萨国内不能开我在美国开你在美国开所以 SSD 的最新版本但特萨头铁它不接管更多是我在国内的时候有些国内的吧比如说这个新能源车厂他们的车同时带我经常坐一坐包括我们其实有这样的 effort 你也知道的其实刚刚我太选择了这两个之间就是说可能没必要放在一起或者是发展到后期我觉得可能更多大家会意识到这一点

发展的应用程度就会意识到这两个东西其实是分道扬镳的但是我刚才解释了就是哪怕中局状态这两个之间差距非常明显当然有个更蠢的说法就是说我如果做一把两个都做到我一个极低成本做到 L4 那当然可以玩这是对的但是这个投入实在的世界上没有人同时打过长保短保时间冠军打这个之前没有被验证过而且我如果做到这个我觉得我更有资源去养两支团队

你们现在还是 L2 和 L4 都在做吗应该说包括这次 IPO 更多其实是 L4 但是本质这些代份我们都在进行其实我刚说的情况也是我做了之后的一个理解

你觉得做 L2 这件事情除了帮你们有更多的技术理解之外还是说它更多是来自于一个你要商业化的压力了首先本质它也是一个跟对社会产生价值的产品这没有问题啊只是说单做 L2 本身也不表示有问题当然可能它的价值的产生的方式不太相同可能会使得发展阶段和工作发展都仅不同这可能是不同但本质做这个也不是一个有问题的决定啊

但是我会觉得就是说因为你在创业的过程中间请你资源还是比较有限的嘛你刚才也说和威某和百度比你们是一个创业公司那这种情况下为什么要两个都做了可能就是有两个都做了我可能还能很好地回答你那些问题因为两个都做了所以你对两个编东西的这个上限包括它的技术你会有一个更深刻的认知对吧你有一个对比的视角或者说也许我自诩一下说我们至少都通过了那个分界点所以我知道了这个情况啊

那你刚才说你专门用了世界模型这个词你是想绕开 vimu 的一个容易产生误解的 foundation model 的这个词因为 foundation model 大家会说大圆模型的 foundation model 所以这个词我不想叫 foundation model 我不想叫基础模型但世界模型这个词其实也挺容易产生混淆的比如说这个乐坤他也经常讲什么他要搞世界模型对吧然后包括李飞飞他今年创业之后他的目标也是说要实现大世界模型

就是这些世界模型和你们的这个世界模型它不是同样的概念是吗里面有个生成式的技术是相通的它用来做的事是完全不同的就是它是个训练环境这件事情叫模型就非常容易混淆然后有点奇异对吧因为它本质是个训练环境但是我也肯定没找到另外一个好的方式来描述这点东西了但其实训练环境最重要的真的是世界模型部分就从技术上这个表述其实不一定有错但是确实很容易让人误解

它现在其实是一组模型是吗包括一组模型加上一些别的东西它是环境它是四类东西数据生成器生成场景生成传感器数据然后刚才说的 Metrix 评价就是价值行为的评估体系然后高真实性的仿真四就是一些比如说场景在线或者数据挖掘的工具我觉得它包括四类四个东西生成 评价 仿真和挖掘对吧 数据挖掘挖掘和引擎反正就是帮助训练一些东西的

最后应该叫隐形可能也比较好的反正它是四类东西这四类东西中可能只有那个深圳一定是个模型其他严格讲都不完全一定是模型的

因为你说 vimo 有个可能类似的东西吧就这个在行业里是属于挺多人都在做的还是它也是一个比较独特的做法我没办法了解到就是说我可能只能公开信息啊 vimo 肯定 vimo 在那做而且拿着很多年你们自己这个东西比较成熟是到什么状态啊我觉得 22 年我们聊的时候可能聊的更多的是你刚说这四个东西里的评价的那一部分当时只缺最后那个引擎了但是那个引擎呢我们通过一些人为的方式吧就比较手动的方式做很多这样的事情嗯

我觉得也不一定算就没有因为你的人质操作也不一定算不算一斤所以那时候严格讲该有的应该有了但是就是说让它自动化或者更高效更高的精度也是其实人家这两年做的很多的事情

在这个世界模型里面比如说你们考虑到世界的维度和考虑到这个车开的好不好维度都是些什么样那这俩都挺重要的那先说那个开好爆维度就是之前说的安全舒适和效率是舒适和效率其实相对比较好评价安全的很有意思点就是安全安全感这样的差别这个我说可能难明白但真做起来非常难就是有时候不安全的感和不安全是两码事其实就是对于一个安全感的一个很好的模拟其实是一个非常难的事情

这是一个维度还有一个其实是就是当初指标我觉得上次阿尔你应该提及吧就是 per scenario 和 per context 的指标就指标做的很高的精度要特别细否则你会被很多测试中的噪声所淹没指标体系的精度一定程度世界文学精度很大由它决定这个指标体系做细它前期可能有很多人工的部分后来它是越来越自动化是吗大致发生这样的过程但目标是为了很细密度的指导一些真正模型训练的过程

其实这个指标是公司核心竞争力核心竞争力所以是不能讲得太细是吗我就不说具体怎么做但这其实是核心竞争力但是我觉得其实你整个思路还是分享的比较完整的你是觉得就是说现在我们去公开对外讲这种东西也不太要紧是吗其实对手可能也不会说听见你讲了然后他就怎么做或者说他马上就能学会 Definitely details 我觉得而且还有两年的问题我

魔鬼在细节以及要时间对而且两年是就是说你可能很多事情坚持了一年半解决没有任何结果但可能只要再坚持半年就可以但是可能就在黎明前的黑暗那一时刻就放弃了这个它既跟你的技术判断和你的对这个事的技术上有多相信有关另外我觉得它也是一个考验心力的东西理性和感性交叉的这个部分啊

是然后刚刚你只说了那个 metrics 在做什么然后那个生成相关的其实就是刚刚说的那个交互行为模拟我觉得是最关键的因为静态动力相对今天我觉得大部分生成工具我觉得因为真正的工具不只有我们家做做一些静态的东西应该很多家都做到了而且效果确实还可以但是交互的模拟其实挺难的就是用智能的方式模拟其他交通参与者然后让智能体跟我们自己车进行互动但

但关键是它要真实做好才能变得真实变得复杂或者这么说车辆高峰期的表现其实跟它直接相关如果有的家车高峰期的表现不好那一定是这个没做好就交通高峰期对吧就车上的各种什么人啊什么自行车最复杂最多的这种交错对在你们的这个世界模型的这个里面用的比较多的一些技术它比如说可能像大圆模型它是一个 transformer 的架构对吧那像你们这个其实是用一些比如说更之前的不需要参数那么大的神经网络也可以是吗

首先 transformer 跟仿佛大小不一定有直接联系就是架构也在不断升级就那个 alpha zero 嘛就是围棋的那个胜负只要选择规则就完全是显好来就是 perfect 嗯就是一个东西很复杂但描述它好坏不一定很复杂我其实想问的是说你们比如说你们需要什么背景的人吧就是他会什么技能他可能能帮你们做好这个东西啊

In general 就是非常全面 Engineering 吧这可能之前好像我踏出了一嘴就是说 Engineering 本身的这个关键可能也符合 AI 跟思想核心竞争力吧就是 AI 这东西也在不断地发生变化各种新的架构新的做法新的训练甚至包括一些新的这种完全不同的理念都在经常发生所以整体我仍然觉得 Engineering 是这个关键

engineering 它指的是编程的能力还是算法的能力还是什么这几个不一定有这么大的区别大概就是你说这些但是就真正 engineering 其实大家往往看来是以某些方面但刚刚你说的那些点基本上如果好的话都会挺好

我之前就是跟自动驾驶行业的人聊就有一个从业者我觉得他有个观点我可以讲一讲你可以听一听就是他认为小马最开始是汇聚了一批非常顶尖的 top coder 然后他觉得端到端这个范式来了之后当然你们可能也不是这个范式总之他觉得就是这个新的技术变化之后他觉得 top coder 没有那么重要了重要的可能是数学好的或者他对这个架构更敏感的有整体观念的人你怎么看这种想法

这偏 learning by watching 的概念思路吧如果我做 learning by watching 我可能也会这么想我觉得 learning by practicing 可能还是不是这样子的这个难点是在于很多具体的问题需要真正去分析怎么做去想怎么做去尝试实践就是他也没有标准答案嘛本质说是那些人可能自己也在自己给自己做个强化学习的啊

其实需要一些很多这样的工作所以我觉得人还是很相关的在这里面 Tabco 的这个词首先谢谢他对早年的认可但我觉得可能就是真正优秀的 engineer 吧但后来我觉得我们也 diversify 就各种其实全面的 engineer 你们实际上投入了多少人和资源来做成这个事情做到一个或者说到现在这个状态吧我指世界模型啊你们有计算过吗所有啊或者说所有软件的人都可以这么叫做世界模型啊

那你们车端的人不是也是软件的人吗不是说有些人他就只做车端他两边都做或者说他可能需要自己真正把世界模型可能提升精度然后再训练之后考快之后然后再反馈解释也没哪里不对其实并没有直接分就是不这么分工比如小马从不会分什么叫但回到比如说富量公司也说分为做算法做英文吧就这么说吧

对做模型的做算法的我从不这么分规控的问题感知问题这个还是有的但是绝不会说做训练的和做架构的我从不这么分就应该都会你觉得你们现在这个世界模型或者说你们投入了最重点的精力去做的这个 factory 工厂的部分它还有什么不完善的要提升的地方那还是挺多的我想哪些是

方便分享的对啊其实就是对传感器应该说更便宜的传感器它会带来一些甚至信号质量的下降像你应该知道我们最新一代的车用的是那个用的是 ETR8 是用的是半固态不是用的不是机械合赛的直接接我对合赛的对就是它的那个这也被合格广告了就是它在比如说雨天它的质量可能跟之前的机械的是有很大的差距的

所以这里其实真正做法是要通过这个比如说我们对这个传感器我们需要能够生成这样的这个什么问题但这方面把握其实并不是很这个我觉得应该说需要进一步把握好之后才能进一步用更更好用这些低成本的传感器

应该是用的更好一些就是我们做了很多我们知道做的那个时间把它 compensate 回来但是我觉得还需要我们往前走还有当然本身各种精度了比如刚刚说的 MeshCore 提升精度各种交付精度我刚刚说几个是从 0 到 1 的一个是更好的模拟这些在极端天气下这些传染器的状态这种生成其实是一个那个点

还有一个我觉得其实也有一个我认为它就是蒸馏就这个蒸馏此蒸馏可能非这个大家说大饼模型那个这样的蒸馏啊就这个跟那个 L2L4 不是 L2 中的那个蒸馏就是说首先我的 L2L4 我觉得就是就算没有蒸馏它也没法预约这个看这个蒸馏其实就是向更大算力的自己学习嘛就现在在本身我觉得某种场合说接下来接着很多人我是控制成本啊

当初的传感器是一个方面还有就是算力方面这个也是我们现在实验目前在是这个引擎在做一件事就是把那个超大算力就是让它能够能够做针流这件事情就是本质向更大算力自己学习是这个逻辑

像更大算你自己学习是什么意思刚才不是说有过像未来自己学习吗像更大算就是比如说对吧我当年做题的时候可能我做了三天做成这个样子我努力让自己三个小时就能做到三天做的事通过这种不断的比如说你可以认为是推演或者是仿真能够知道自己如何针流是正确的方向你

你指的是说在一个使用算力相对小的情况下它去做到在算力相对大的情况下的那个类似的状态吗是这个意思吗对而且它能够闭环制造效果它不是只是说那些模型效果它能够闭环制造对啊我究竟差多少你反复说的这个闭环你说的这个闭环是什么意思呀你会怎么描述就 practicing

就是我能够在里面真正开着开到那个状态就是我知道了我做了这个变化之后对我的 consequence 究竟是什么而不只是对我的决策是什么开款的意思基本就指的是说我能够比如说我做了一个改变我知道我每一步的决策的变化是什么但是我并不知道我这些决策变化之后对我大家的实际影响是什么比如说会开的多了些事过会开的更猛一些这种实际的结果其实从我闭款达到了我这一阵的输出会影响下一个阵的输出接下来这个世界模型它再往下发展会

比如说你设想中它比较终极的状态它会是什么样的它能达到什么作用能实现什么我想过这个问题我觉得 ultimatelyzero effort 的问题就是车不再发现有错误产生问题至少不会遇到自己发生错误产生的一些 incident 这样的问题但是它也没有完全解决到 incident 对吧就还是可能会有是没办法的别人撞你是躲不开的

有些时候除非路上都是这种车这是很专门的状态我其实已经不一定容易所想但是这个很专嘛这个可能都不是短时间的未来的那你刚才说的那个就是它未来会不再因为错误产生事故这个事你觉得是多久以后的未来了这个未来我觉得也得十年级了

10 年级今天让我觉得达到一个能用比较大幅一定规模运营这个我前面提到了我觉得 OK 这个有点属于探索 AI driver 的极限来考虑了我觉得需要一些时间

那我们在接下来两三年会看到的是什么比如说你们之前其实预测过说你们觉得 26 年左右是 RobotX 可能要开始比较大规模商业化运营的状态这可能是个业务了这可能不是完全的那个技术当然前面可能提到一个我们跟百度微墨的一个策略上不同的我们需要一个成本结构会更合理更优的状态下再开始扩大数量但这个两年肯定要做到我觉得甚至一年多也要做到一个更优的成本结构下的规模化运营

有更优的成本之后你们规模会到多少我觉得先到千然后下一步的话应该再会涉及应该说新一代的硬件车的平台然后到万到几万后面那个万到几万我觉得还要再花两三年就这一代也是在基于现有的车只是把成本结构做好这个我觉得是一到两年的事情你觉得到什么数量其实 Robotessi 的公司才会到一个盈利线就最少你得是一个什么规模的车队算毛利还算劲敏

都可以算啊可以先算毛利再算净利啊毛利我觉得千就可以净利我觉得要到五万千我觉得就是我说的一两年的就是其实一两年的那个我说成本结构某种程度另一种表很好的也就是毛利吧或者说如果毛利挣我真的就没有道理不再加规模了对吧然后真正到净利的话我觉得需要这个应该是五万的基点

净利到毛利中间的数量差别表达是因为你们研发投入这些而且要持续投入而且说实在其实毛利转正之后净利转正的时间点和整个发展速度之间是个平衡因为你可以选择铺更多规模不要那么快的去追求这个净利对吧就看你的策略对这是一个策略

其实我觉得就是整个 L4 行业有一个转折点是在什么时候了就是 21 年特斯拉开始卖的特别好的那个时候包括那一年他们自己也开了 AI Day 然后他去讲他纯视觉感知上的一些东西在那之前我觉得大家是不怎么去比较就是特斯拉这个路线和 VIMO 路线的

但是后面这件事情就基本上成为了行业的一个就天天讲月月讲然后一个非常老生常谈的话题它最后其实还是一个商业化的问题吧就大家觉得你这事 RobotX 到底最后能不能赚钱会不会反而是像特斯拉这种做 L2 家的我反而最后我把这个生意给挣到了我觉得不出二选一吧这两个都可以做得很好那你觉得特斯拉要来做 RobotX 它会怎么做了它的做法和 Vimu 和你们会有什么本质的不同吗

那我觉得肯定不会因为他是 Tesla 他 learning by watching the work 我觉得他如果继续坚持 learning by watching 他将来有一天总会一直到 work 的但也许今天已经也许今天已经意识到了因为我听到某些论细的地方的 talk 好像已经甚至已经意识到了但 learning by practicing 这条路线走我们都走了五年八年他可能虽然有更多资源也许有更大的决心如果有的话那他也要走我觉得也得走一段时间吧

我觉得就先从比如他有 DMV license 说起呗对他开这个发布会的时候确实他什么监管的事运营的事他基本都没讲但他展示了 20 辆车但我觉得 Fluidman 从 positive side 可能他已经意识到了你从他什么一些戏的 talk 上你感觉到他有意识到 learning by watching 的局限因为比如说 XAI 做的很多的一些理念其实就有这方面的理念他不是用来做重驾驶啊

他说的加以略加以略的逻辑嘛对吧其实就有一些就有一些要跳出人类模仿的这个逻辑说不定他能意识到这一点你刚才说这个 Rubotessi 和这个 LL 加的不是一个二选一可能不是一个替代的关系

但如果说未来就是这种无人出租车非常普及的话它对私家车这个生意会有冲击吗这是用户角度我刚刚只是说技术线角度不会就是我前面说了很多为什么一个 L2 的系统做不到 L4 那反过来 L4 系统那很简单它的成本性价比很低

就这件事情它都不能取代 L2 系统所以返乡也不能取代这是个产品形态问题如果你一个产品没取代世界上有很多可以被取代的产品这个真不只是这两个情况这个其实就从价值角度其实更多还是就将来驾驶和 driving sharing 之间的平衡我觉得更可能是这种长期的状态但 L2 基于私家车如果私家车因此受损的话那 L2 会适合你讲没错

但 L4 一样嘛因为共享出行受损失 L4 一定有受损这两个其实是平等的当然你说 L4 有天坐到私家车那是另外一个 topicL4 坐到私家车对那可能就是你说的你这个要看未来的成本吧我觉得可能对成本起来你真的愿意接受吗比如说你有私家车有 L4 的功能但可能要你付个 6 万 8 万

你不知道愿不愿意付这个钱就这其实也是一个就它带来的价值是真正是不是用户所接受的一个问题当然如果以前真降到两三万可能有人接受特斯拉现在就是六万其实

一万美元吗六七万吧差不多如果换成人民币不那是 Tesla 你就说这个可能就没有那么普及我做就做我们做就做不到的我最近和那个滴滴自动驾驶之前的 CMO 孟醒聊他有一个挺有意思的观点然后他自己也说这是暴论他就说如果有人能把 L5 做出来

也就是真正的完全的不受任何环境限定的无人驾驶他觉得应该是做 L2 的公司而不是做 L4 的公司然后他大概的逻辑是说因为 L2 是一种体验性的产品就类似于卖给消费者的智能手机然后它是要靠一代比一代强去往上卷的不断卷这个体验的上限但是 L4 面向的这个出租车市场它是一个效率性的产品过了安全效率的红线之后核心使命就是扩规模和降成本

所以他不会去无限的卷这个体验的上限你怎么看这个想法首先我觉得这事本身都不一定存在最终不会 converge 我觉得因为他们会有分别性价比好的方式存在

你的 point 就是说大家并不共享 L5 这个目标是吗 L5 可能会是一个另一方式存在吧这个话题可能稍微远了一下但我先正面回答这个点就是说就是技术发展作为一个新的技术来说他应该先考虑的其实是如何真正 take 已有技术的真正的优越性然后再考虑是通用性这一点

因为以我的越野性其实更难的而这件事情上来说我觉得对啊就是也许我觉得是做 L29 或者他们没有意识到比如做到 L4 需要经历什么样的路需要重新起炉灶需要做什么而 L5 我的研磨人其实需要有 L4 的能力或者是 AI 驾驶员的

就这个难度可能被低估这可能也是一个这样的因素就是说你可能我低估了就更大范围扩展的这个困难度但是我觉得就是 Transformer 架构断到断之后这方面其实的 cost 在逐步的下降所以这个其实反而是最新技术中给这个 Robotass 将来发展大家的便利就是通用性其实通用性其实随着机构发展其实这个的进步远比这个很多自驾车它的自动驾驶安全性进步要大得多

就是你觉得从 L4 到 L5 它是一个主要要解决的是通用性泛化的问题对这个其实这几年的进步是很明显的但是你说从 L2 到 L4 在这个安全的指标进步先不说别的它那个 1000 怎么越过还不知道而且还有就是它需要摒弃 learning by watching 这个可不是个小的 effort 而且可能你公司越大越做这种决策会更难就像比如创业公司对这个一定程度需要要放弃自己所谓之前 show off 的擅长东西这个

这个其实是一个很大的条件或者我说可能因为吧就是我做 L4 时间久了之后我可能对 L4 的安全的 qualification 条件有更多的认知但这也是我觉得对吧就做的不是很深的人可能这方面有一些误解就是觉得安全指标这样做的但是其实差得非常远其实梦醒这个逻辑它并不是从技术上来的它还是从一个竞争那可以的

对它是从一个竞争进化的那个角度明白那另一位就像现在是从我从更改进的方式来说对吧我们看很多 L2 系统觉得是就是说它有些场景 work 一次哇比如说遇到一个什么我之前说的五宝不左转对吧之前说的一些什么 ramp 或者之前说的一些城市内的一些夹塞的一些处理对吧一些装大 bott 大家都是觉得哇能做一次好厉害啊

但是我总觉得 L4 就是说有一次做不到大家都会喷它这个理念差距也太大了而且我觉得你作为一个 L4 公司的 CTO 如果你对比其他的做 L2 家的这种车企或者 CEO 我觉得车家家的叙述会不一样比如他们有时候会去跟你描述一些他遇到的空人 case 然后这个车处理的很好的案例

但其实你很早就说过你说你觉得就是靠你自己去坐车你已经感受不到什么这个话怎么上次因为还不一定到我还没说出这个话就是要正视能力的正视人类能力的不足就是我看阿发购下棋我看不懂我会不会觉得说是因为他下错了一样今天我看我的车我以为不理解我不理解 AIC 行为有时候我不敢清楚他说错了可能是因为他更高还有更高的智慧他想到一些我没想到的东西

就是跟阿发寇下棋那个其实应该很好的例子对吧看阿发寇下棋我可不敢轻易说他下错了虽然我经常看嗯

就是你们在这个扩大运营范围这件事上你们遇到了什么一些技术的或者工程的问题吗包括你们是怎么解决的这是过去式的那首先今天的运营范围其实主要限制是车数就是说因为我不可能把比如百辆车放到全北京的早就找不着了对啊因为我要保证在一个区域内大家打车能够一定时间的打到车所以其实车队规模其实是真正运营范围的关键嗯

我先解释这个问题但是说扩大风格这个事情可能要 Faq 这可能是 L2 L4 另一个误区但是这个做过才知道这倒不是什么判断错误就是 L4 的挑战其实是极端场景不是公共场景就是一些普遍的驾驶习惯不同其实对他来说不算什么事

但他关注的其实是极端场景的 pattern 相不相同极端场景中比如说我们说的那些就不是非常理性的一些价值行为有些一些就是一些疯狂的行为其实 Criticist 就 Around the World 的 Share the Same Pattern 就连中美都是一样两个区域大家平时至长价值行为可以很不同但是发起风来是一样的发起风的这个解决

因为你车上没有人嘛所以就包括你的怎么把车拖走啊这种很多细节末节的这种运营上的事这这个确实有些运营上的那个不同的东西运营可能需要根据不同地有些不同的那个点啊特别是需要做很多人类司机的当就人类司机其实做了很多关于车的事情这些事情其实都需要另做对这可能也是它的不同

就人类司机关于车做的各种事就除了开车以外的各种事你们现在是就百分之多少能靠机器靠系统自动化的去做我觉得就比较那个什么比较 heavy 的就这也有人车比的概念但是现在你挺接着非常低的比例了就是自动充电就这样的东西就插电枪有时候需要人确认一下然后一些车道自检需要确认一下但除此之外应该都还好

这个也花了一些时间但这个呢我没这么担忧是因为这个其实有一些你有的经验啊其实很多出租公司他们做中国他们天生就是车辆保有就是他们的主要的核心的这个竞争力其实跟他们其实我们更多是通过合作来做的很多事情

你们通过合作的话出车公司的这个车辆保有那他怎么做就是他自己的事了对吧他有可能是派人去做或者他怎么去做都可能他做我们的车跟做其他车只要是一样的对他来说也是一个一样的生意就是不要因为自动驾驶的套件给他造成另外的负担其他就是一样的你觉得未来到什么时候是就远程是不少人控制远程本来就不控制啊远程只是给些建议因为做一比三十你就他什么时候要你或者是你在这说他

不烦你没事你就休息就行大概 1 比 30 我觉得是一个非常可能就这个其实不太 worry1 比 30 我觉得是应该说正常的该做就能做到然后 1 比 30 再往上涨我觉得从 marginal cost 上优化意义也有限了从 1 比就你们现在 1 比 101 比 12 到 1 比 30 你觉得这个东西中间没啥障碍对吧我觉得没有就很多东西的这个依赖性或自动化这个做好其实差不多了

那就是反过来就又是反直觉的刚好因为当初 L 说九轴 L4 反正就是说那过多比如说过多的人盯着这件事情是降低安全性的因为盯着他会误操他会误操作因为就是盯着的这个人他的驾驶能力是不如那个 AI driver 的他盯可能会帮到吗就是说他这时候真要强势去控制他一定不如 likely 不如那个车做得好所以他会增加安全增加危险性你们今年切入高德之后你觉得

看到什么业务上的变化吗这是那个另一个合作方面刚开始刚说的一些比如车辆运营上的这个是货客方面这个其实我们也是对吧做数量公司也是结合各家的那个真正做的好的地方高德的一个好处其实就是说就是他解决那个车数跟区域的一个问题就是说我可以在一个很大的区域也有很少的车因为他不是每次都一定要拍我的车

因为现在这个 L4 的 Robot S3 市场变得更暖之后其实我们也看到一些变化比如说有一个人事变动就之前本来担任滴滴集团 CTO 同时是自动驾驶公司 CEO 的张博他就不再担任集团 CTO 了

他是要全部的经理去做自动驾驶然后我也看到他和滴滴自动驾驶团队的人说说他和陈薇也反复讨论了很久他觉得现在是一个非常好的 timing 去 all in 这件事情我也知道中国其他的大科技公司里也有在筹划要做 Rubotessi 的就不是百度这些已经做了比较久的就能感觉到这个市场有更多有资源好像也挺有决心的人在加入你觉得这个会对你们接下来有什么影响包括对行业有什么影响

我觉得首先这么说吧行业我觉得这些玩家竞争还是小事吧我觉得更多的还是先把市场做起来就大家我们加起来能有 1%已经很不错了是不是在的那你就说在出行市场里有 1%是吧对啊对啊是吧我还没管将来跟私家车的竞争呢像滴滴这种它本来就有一个运力网络它来做ربotaxi

和小马这样他其实你们最开始是不掌握这个运营网络的对吧你们是从小范围的车队开始做你觉得未来这两类公司会怎么相遇啊是什么关系这个方面进这方面要不我就不多过多 comment 了最后就是想聊些那个你个人的一些情况还有就是创业的一些情况

其实小马从最开始成立 2016 年底到现在也是有八年的时间了跟抗战的时间差不多当然你们现在应该还不算最终的胜利然后你之前其实也短暂的创业过是加入类似了知乎的一个美国的问答平台叫 Coral 然后就看起来和自动驾驶是很不同的方向就是你觉得从什么时候开始你是把自动驾驶作为自己非常长期的一个使命希望一直做下去吗

这例子记得挺好的首先抗战 13 年不是 8 年教科书已经改了我记得我在抗战之前也在微博工作所以我在之前也在做宗家事

所以其实应该说也做了挺多年了从个人来说那个什么其实是一种信念就是 AI 超越人的这个信念那时候其实还没有 AlphaGo 的时代但我觉得 AI 最终很多时候能够做到比人好就是这个理念其实是换到今天车上来过其实理念是说我们经常会说成本低或者将来成本结构这些东西我其实说的也挺多的但本质上但另一个维度我并不接受 AI 的这个整个做的 AI 世界的出行体验比人差

我并不接受这一点我觉得就是一个人做他能提供更好的体验哪怕一个 fair 的价格就这个我是我不觉得就是将来如果他自己是靠低价打市场的这个并不是我觉得他能够在体验上做得比人好就更 concession 的整个驾驶行为很好更安全这些都应该他就是比人做得好的那速度上也能更快是吗今天董事会那个上面我们是我们比人司机还快嗯

对就各种效率的安全的舒适的平衡对啊就整个整个战争啊包括 consistence 就是说我们就是你会面对一个非常 consistence 的体验啊我们上一次采访 2022 年的时候我有问过说你心中自动驾驶的最大价值是什么如果今天再问一次这个问题你会怎么回答

还是那个吧真正颠覆就是 revolutionary transformation 真正改变出行改变人和路之间的关系这八年里你自己觉得最怀疑最犹豫的阶段或者时刻是什么因为前面踏水世界无形这个事那个时候确实是很艰难的一段时候但你真说怀疑也不算吧

所以有艰难的时候没有怀疑的时候首先不断克服困难很正常所以也倒不是算不到为一些困难所怀疑如果有一天我真怀疑或者真不是怀疑就是有些犹豫或者迟疑的话我觉得往往不是因为遇到了很多困难的事情而是因为有一些奇怪的诱惑有一些奇怪的诱惑对这个观点我一这样说就是人不能坚持

大部分人不能坚持不是因为太艰苦了撑不住了而是因为受到了其他诱惑所以你过去半年里没有其他的诱惑没有诱惑足够大没有诱惑能够跟这个事情相提并论你觉得大模型这种东西算诱惑吗嗯

首先就大圆模型真正的基础模型这些东西首先应该是叫大圆模型基础模型然后大圆模型基础模型我觉得它很 fancy 然后并且可能在算力或者上面它可能就短期影响力确实有它的影响但是它将来一旦走到应用的时候它会经历所有增加式经历的事情就是我做公司做 L4 到今天所有事将来都会遇到啊

现在看起来有这个苗头甚至你不觉得 L4 也已经遇到了吗我觉得 minimax 其实我觉得这边是不错的一点但不是说专门讲什么它做的是 L4 应用它做的是 L4 的好处怎么理解你说 minimax 做的是 L4 的应用这个怎么理解在 L4 本质就是你尝试做一个取代人的应用就大家愿意产生上一个价值的本质是你取代了他的一些资源这样你的价值就是取代这个人的价值

而如果你做的是一个辅助工具帮你做的更好甚至包括我很喜欢的 copilot 本身就是一个辅助工具这辅助工具值多少钱这个是一个很大的快损办法将来

那你觉得 ChatGPT 这种 Chatbot 就是面向提升你的效率或者帮你检索解答一些问题或者生成我觉得这个将来会遇到非常严重的因为它门槛会降退低然后它同度化竞争且它的价值不好 Generify 所以它会遇到今天 L2 遇到的所有问题你这个分类倒挺有意思你从 L2 和 L4 的角度你去分类这个大圆模型对应的一些应用我观察到一个现象就是

因为整个自动驾驶行业包括小马这个公司其实是经历了很多起起伏伏的就在这种经历过从高光到被质疑的科技公司里面其实核心人员流失是很常见的嘛然后你们的高管团队还是挺稳定的像这个王军浩张琳对吧莫路易赫欣李红宇这些人也都还一直在公司这个是怎么做到的包括你也说中间其实有几年的时间你可能看不到特别明显的进展甚至内部都看不到很明显的进展嗯

简单说这也是公司大家一起长期努力的结果啊这就是大家共同相信一件事情吧就这不是说就这个不是有什么 Cedric Bullitt 做了之后就可以做到的这倒不是其实是长期努力的这个积累当然了包括我们这些人就是在工作中吧包括工作前其实有些信任也是在其他事情中积累的就是信任这事情也是个积累或者对一件事情的信念也是个积累过程它不是瞬间产生的

所以就说简单说就是持续在工作过程中就是共同建立这种互相这种信任然后对一些事情的共同的认可我觉得这是关键包括刚刚说几位有些也是在我之前精彩生涯中认识的精彩生涯中本身也是个积累过程我也不是预免做到我们也是实际上在实际上的时间见识了一些人就相当于你们在开始创业一起做这件事情之前你们本来就有一些信任然后同时在一起做这个事过程中也是对

这是个积累过程我不确定丢失是不是可以是不是可以一瞬间发生但积累肯定是要是不断地做才对我也想听你就是讲一讲就是这种经历过高光低谷崇拜怀疑都经历过的情况下你对这些可能面临要下神坛的创业者或者公司你有什么想说的吗首先我不敢以这种方式来说我只是说首先对内很重要

就是说哪怕因为外部的看法因为这么说外部很可能会发生一些认知或者一些背景背景不同要说那五年之间外界看不到 L4 进展我刚才说了这个话题但内部我觉得这事情还是不能这么发生的我觉得对我来说不算是经验我做这件事情还是很关注内部就哪怕外部人都觉得看不到进展都会对纵架是对 L4 觉得不相信之类的但我觉得在内部还是要全力去让大家真正明白这件事情

所以我觉得做的很重要一点就是我们内部是也设了很多重要的里程碑 Milesong 让同学更加了解其实我们在 moving 在 moving forward

嗯那

那它这个其实还是挺考验你的一个技术判断力就是你大概得知道这个路在哪方向在哪对吧包括你往这个方向做你大概这个阶段能取得一个什么结果而且最好这个目标一旦到了年尾级别就要一个大家可感知的目标就是至少就是说不能完全是理性得有一定的感情的感受

就哪怕这个感受可能不一定能跟真正技术变化有直接的变化但是直接对应比如说我们专门做过有一个中间我们有一个阶段不知道你还印象在副驾坐司机就安全员到了副驾

有这么一个阶段当然说实在的开玩笑我们在深圳开始以为是香港来的套牌车但这个时候在的严格的讲放在副驾他能干些事但是本质他的可感知性是很重要的就是说本质首先成本没降低还是一个人没降低你说司机手段偶尔能扒下方向盘的是真的但是说实在的他能坐在后面你把后面装上刹车也真没啥本质区别

所以其实它的实际的技术的就从商业化上是没有任何的实际意义的但它可感知就是我们会用这样的方式设计让大家觉得至少让大家觉得是可感知我们确实没听到他的白色这个过程中间其实你要协调很多东西对吧你说的这个动作其实它也要和政府部门和监管部门要去沟通

我从主价到副价再到后排然后最后完全拿掉这可能是后来者的一个也许是劣势因为当下很多政策已经不但支持这些了就一步到位了因为有人一步到位过但可能会让后来者会迷茫

因为他这步跨太大了他觉得挂不过去了就是一步跨太大不一定有好处就是中间这个 Milesong 一旦变成不再是 Milesong 的时候就会很艰难啊因为他没法得到合适的味儿了不过实际上现在这个市场当然我觉得接下来会有变化啊但实际上现在的玩家的数量已经是挺少的了比较有限啊是但我原来觉得原因是原因就是变少的原因不是因为坚持不住是因为大家受到了诱惑我

我们还想问一下关于世界的一些想法这个我们之前有讨论过就你之前说过一个很有意思的关键就是你怀疑这个世界是模拟的我不怀疑我坚信是这样的你坚信这个世界是模拟的

OK 因为你上次说的是说你觉得假使有一个上帝或者造物主或者你就是那个造物主你就会这么来编程和渲染对我花了很多时间来真正想就是来证伪他因为我不想接受这件事情但后来我找了半天发现他真的是真的你从什么时候开始有这个想法了

大概本科本科所以你高中就领悟了强化学习是吧然后本科对对对强化学习对我觉得就根本上很多比如说从混沌理论实在量子混沌纠缠这些东西实在是很难不用模拟方法解释当然还有光速有限这是一个非常明显的东西那你觉得这个想法对你自己做很多人生的选择包括你做就是创业去理解这个自动价值技术你觉得会有什么影响吗

倒没这么大但是踏出一个稍微稍微这个比较 native 的一个 point 就究竟这些什么事是有价值的那当然有些财务上的回报当然是有价值的但是从科学发展上问我们为什么会 value 一些事情是因为预测这个词我意识到了其实能够预测后面发生的事预测未来的东西人类是有价值这可能是 buy 人的 nature 这是人的求存的本质

所以其实一个有价值的东西往往他能够做的很明显的东西才能对未来做出预测所以后来慢慢进入很多当时还是传统的经济学习其实跟这个甚至有关系

那其实在这个动力之下你的目标可能有很多不同的可能性对比如说像马斯克的一些想法他非常具象比如说他要去火星或者说我要变成我希望人类变成一个星球文明这是个很具体的事你说的这个东西要更它是一个更就是抽象出发然后它其实可以指向很多可能性对但我确实有一点不同我可能也没有机会吧我可能也个人也没法做点事也没有机会对外表达这样的东西所以我可能也不会具象

但我觉得具象对对外的接受会好很多这个我认为你觉得你是一个追求结果的人还是更享受中间这个过程这个问题很好其实我是追求结果中非常甚至有点偏执的一个追求结果的人但是是这样的就是说不能老去想结果还是要关注过程因为结果你都不能控制通过过程才能做好这都是对的但是最终评论下好坏的其实是结果

其实在这里我觉得更多人其实也是这样大家不愿意承认而已或者很多表面上注重过程的人其实他们也是知道结果他们只是不愿意承认所以我对结果是非常极致的或者有点偏执可能会认为我

你觉得这个极致和偏致表现在什么地方甚至我会倾向倾向用结果的好方来评价过程的好方就是这个西班牙的传统足球对吧在 2010 年的时候大家说是战术里面就是当年是 2010 年前后他拿了三个国际大赛的冠军这个足球的话还有个人玩这个球比对大家都说是因为西班牙掌握了传统足球所以才拿到世界冠军他说传统足球是最好的战术其实根本就不是这样子的

所以说不是说因为西班牙掌握了最好的战术所以他拿了冠军是因为他拿了冠军所以他的战术为大家认为是最好的战术学生时代的我也这么认为就是不是说某个学生某个班里有很好的学生他的学习方法是最好的所以他拿了班里的第一是因为他拿了第一所以大家把他的方法认为是最好的方法而仅此而已就他有一天不是第一的方法就不是最好的方法了包括刚才说的世界末期那个东西

不一定是因为我们掌握了世界模型这个最好的方法所以做到了 L4 而是因为做到了 L4 所以我们的方法被大家认为是正确的方法你觉得你特别清楚地认识到这个东西对你做很多事情包括做决策会有什么影响要关注过程但不要去过度纠结于去 replicate 的某些过程因为它过程的好坏其实是由它结果而定的那个前段时间我们也和 James 就是彭君小马的 CEO 有聊他说你们整个就是

就是小马创业的这个过程像是有一群人在爬一座山脉然后山脉是意味着你能看到这个最高峰但是你达到最高峰的旅程它不是一路向上的是上上下下然后可能再上的一群人就是意味着不是说你自己有目标有信念就可以而是这个核心团队是要有共识的如果是你的话你会去怎么形容这八年的这个过程这个描述从进展上描述很像

那如果从另一个角度了你想到的是什么角度我觉得稍微说的微对一点吧其实可能是一个对 L4 认知和如何做之间的一个 spiral 的过程就是说刚才我随随说的一些比如说认知不足其实我觉得我并没有任何觉得不这么想的人他是有什么想错了或者什么东西只是因为他可能没走到那个地方他不需要这个认知

然后有着认知之后实现其实这是一个对做一个事情的认知和实现它的一个不断的 spiral 的过程我会这么看这个点嗯

就是随着我的发展到一个阶段我发现原来原来是这个样子的任何世界都在是这个样子然后我做到我在重新思考如何做到这个东西这是一个五周年上升的你觉得最近的一个比较大的螺旋上升是什么时候发生了什么事就是超越人类司机老司机就那种开得好

这个东西没有这个认知开始的时候因为我也没有比老师开的好但后来做到的发现其实是那个就是帮助其他成长降低失果降低减少错误是关键的

这个认知可能也没到那个份上这个可能是估计也就 vimo 会偶尔说出这个话就是我们提升安全性的关键是帮助其他车辆减少失误你们是做世界模型到什么程度你们有看到这个东西就表现真的跟很多就从统计上的人差不多的时候我们发现了很多我们里面发现的就是事故是由于别人错误导致的时候

然后我们会开始会有个茫然觉得这好像就不能再提升了他发现不是的就是你的行为可以帮别人减少失负就是说及时打灯就是一个然后行为做的相对有些提前的预兆然后做一些 decessive 的行为这些都是就是你可以通过你家里帮别人减少错误虽然这个错误将来都是别人的错误但是你的做法是不一样的

在你刚才说的这个螺旋上升里面就如果不说自动驾驶的技术本身你最近对就是创业这个事情或者说去实现一个很前沿的商业化落地这件事情你最近有了一个新的这个认知的螺旋上升是什么时候什么事我想应该其实是商业化节奏和商业化意义的一个平衡就是说有两个极端都不好一个是过早的就是第一时间一定要商业化

才一个是一定要做一个最有价值的商业化这两个其实都是特别极端这两个平衡可能才是一个健康发展的状态就是又要寻求一个合适的商业化但商业化又要有足够的意义

就不能走这两个极端可能是我或者说在我创业前我肯定没这么想而在中间我肯定偏执过很容易逼边但后来我觉得再往前走因为现在增价是也在衰化了我觉得包括之后我们刚才评价大模型的衰化也是这个点因为这两个之间的平衡其实就是快和大之间的平衡对吧节奏上可能有的时候会偏向特别快对不能非常极端的走一个这两个都很重要嗯

这个大不一定这个大指的是有长远意义倒不一定是那个 number wise 大但是它需要有一个真正的长远意义也支撑以及你要走的不能过得太久这两个东西需要的我感觉我听下来是你对这个技术的方向什么这些都是很有信心的基本上你觉得找到了一个

你觉得可以一直往前延伸一段时间的路径对吧我就是技术上首先谢谢这么说我觉得是但是像健保庄的话回来一点其实不是这个顺序逻辑是反过来了只是因为做到这样我才觉得这是一个技术和研究的附近就从结构的角度你能看到下一个瓶颈可能会在哪里

现在会有苗头吗 likely 是一个新的我不能预知的我觉得现在可能降低成本本身我觉得是很重要的优先级所以这方面我觉得还好所以有可能有个不可预知的东西

所以你觉得接下来小马还有可能会导致他失败的因素和原因吗这个我觉得想犯错误还是可以很多错误可以犯的但本周就是这个 scaling 吧就是上量这个过程能不能干得我们的预期能够稳步地把数量增长去可能是关键如果这个做得不好我觉得对整个公司发展都是受限的当然不是说就失败吧但至少是不满意因为接下来其实会有

包括你们包括一些其他的这个 Rotacic 的公司上市如果是从投资人或者说从这个外在的这种角度来看的话你觉得这一类公司核心要看它的什么什么竞争力或者说什么指标是能去反映大家的进度我觉得就是其实微博实际上是一件证明的实际上微博它没有上市但微博的融资额是一个非常夸张的数字我相信这个概念第一眼看我是以为以为自己多看了一个例对啊

然后这个它其实本质也是规模化但这个规模化是有前提就是说一个纯物人一个就是成本结构合理的一个规模化它的规模的上升这个我觉得就是当下当下我觉得是行业的共识这应该是最重要的质量所以基本上我可以说就是看这个车队的数量运营范围这个最直接最直观了对但根本成本结构是个合理成本结构

我们要求高一些百度要求低一些这都可以但是我只是说都合理但只是方高低可能是公司不同的属性的不同但是我觉得弗里生的结果下运营的规模这可能就是他的最关键的地方

你接下来一段时间你自己的核心目标会是什么首先这个 skillingskilling 本身也是一个那个从生产方式到管理方式不同那包括运营吧那其实就是 skillingskilling 包括比如运营方面包括成本控制也包括比如说这个你看也包括一些牌照这些东西但整个目标都是与 skilling 的主要的目标

OK 今天非常感谢做客我们的节目我也很期待之后在国内在北京上海这些各大城市里面会出现越来越多的这种无人的出租车我们到时候可以看这个东西会怎么去改变交通嗯

好的谢谢再见