模仿学习只能模仿人类驾驶行为,但无法理解驾驶员的决策过程。自动驾驶系统需要理解驾驶员的意图、决策和习惯,而模仿学习只能学到表面的行为,无法深入理解背后的逻辑。此外,模仿学习是开环训练,无法闭环反馈,导致系统无法自我优化。
世界模型是一个虚拟环境,用于训练自动驾驶系统。它不是单一的模型,而是车端模型的“工厂”,负责生成和优化车端模型。世界模型的关键在于其精度,而不是车端模型本身的能力。通过世界模型,自动驾驶系统可以在虚拟环境中自我演进,模拟未来的驾驶场景,从而提升驾驶能力。
MPI为1000公里的L2产品不符合人性。人类驾驶员在长时间不需要接管的情况下,会逐渐失去对车辆的注意力,导致在需要接管时无法及时反应。因此,L2产品的MPI很难达到1000公里,因为这种低频接管的需求与人类的驾驶习惯不符。
L2和L4的目标不同。L2的目标是为驾驶员提供便利和辅助,而L4的目标是取代人类驾驶员,减少人力投入。L2对成本和适用范围敏感,而L4对安全性要求极高,需要达到比人类驾驶员高十倍的安全标准。L2使用模仿学习(Learning by Watching)是可行的,但L4必须使用自我训练(Learning by Practicing)才能实现更高的安全性。
楼天城认为自动驾驶系统的终极状态是车辆不再因为自身的错误导致事故。虽然无法完全避免外部因素(如其他车辆的碰撞),但系统可以通过自我优化和闭环训练,减少因自身错误引发的事故。
楼天城认为特斯拉的模仿学习(Learning by Watching)路线无法实现L4级别的自动驾驶。即使特斯拉有更多的资源和决心,也需要转向自我训练(Learning by Practicing)的路线,才能实现更高的安全性和可靠性。
楼天城认为自动驾驶行业的竞争不仅仅是公司之间的竞争,更重要的是如何共同推动市场的发展。目前,自动驾驶在出行市场中的占比还非常小,未来的重点是扩大市场规模,而不是公司之间的竞争。
楼天城认为大模型在应用阶段会遇到与自动驾驶类似的问题,如通用性和安全性的挑战。虽然大模型在短期内有很大的影响力,但一旦进入应用阶段,它将面临与自动驾驶相同的复杂性和技术难题。
楼天城认为,大部分人不能坚持不是因为困难太大,而是因为受到了其他诱惑。在创业过程中,他从未遇到过能与自动驾驶相提并论的诱惑,即使是大模型也没有动摇他的决心。
楼天城认为,过早追求商业化和追求最有价值的商业化都是极端的做法。自动驾驶系统的商业化需要在节奏和意义之间找到平衡,既不能过于急躁,也不能过于追求长远价值。
「没进展的 5 年,也是内部技术变革的 5 年。」
两年多前,我们在 Robotaxi(无人出租车)的信心冰点报道过小马智行。那时的标题是:“市场不相信自动驾驶了,但他们还信”。
转眼到 2024 年:百度萝卜快跑 4 月在武汉引起热潮,Waymo 无人车队 8 月在旧金山的日均总单量超过了当地出租车(未计算网约车);年底,又有文远知行、小马智行两家中国头部 Robotaxi 公司先后登录美股。
在特斯拉和 Waymo 的路线对比中,强弱之势也正微妙变化。10 月,马斯克的 Robotaxi 发布会后,Uber 股价大涨 10%;而 1 个月后,当 Waymo 传出进入迈阿密,Uber 股价则跳水 10%。
谁更有希望代表 L4 真的改变人类司机出行网络?华尔街在用钱表态。
这个时刻,我们再次访谈了刚刚完成 IPO 的小马智行 CTO 楼天城。
他完整描述了小马过去 5 年 L4 技术变革:从 Learning by Watching 到 Learning by Practicing。
前者是学习人类驾驶行为的模仿学习,是如今 L2+ 普遍选择的路;后者的关键则是构造一个训练车端模型的虚拟环境,让系统可以自己进化,楼天城称之为“世界模型”。
楼天城分享了与之相关的多个技术洞察: ·世界模型本质不是一个模型,世界模型是车端模型的 factory(工厂),自动驾驶技术的真正差别在于 factory 的精度,而非车载模型的能力。 ·Learning by Watching 最多是像人,但像人永远无法做到 L4。 ·越是优秀的人类司机,学起来越是反向优化。 ·MPI 为 1000 公里的产品不存在,因为它反人性。
过去 5 年,外界看不到 L4 公司的明显进展:MPCI(接管里程)仍在提升,但只要无人化车辆没有大量上路,人们就没有直观感受,技术指标只是冰冷的数字。
但在楼天城的叙述里,外界见不到进展的 5 年,也正是关术变革发生的关键时期。
这些变化,使 Robotaxi 今年得以启动百台至千台级别的规模化运营,也给行业带来了高开低走,又逐渐反弹的波折命运。这不仅考验从业者的理性技术判断,更考验感性的决心,和说服团队一起相信的能力。
“我一直说,大部分人不能坚持不是因为太苦,而是因为受到了诱惑。”楼天城说,过去 8 年,他没有遇到过能和自动驾驶相提并论的诱惑,大模型也不算。
时间线跳转: ·5 年前:瓶颈 →绝望→寻找新路 02:53 2019 年后,L4 的进展难再被感知,规模化无人运营带来了市场水温变化。 11:13 这 5 年:从 Learning by Watching 到 Learning by Practicing 12:30 前者是模仿学习,没法学习驾驶员怎么想 14:27 世界上不存在一个 MPI 为 1000 公里的 L2 产品,因为反人性 16:13 模仿学习的另一个问题是人的双标,AI 司机所以像人依然不满足需求。 19:07 学习优秀司机也不行,甚至是反优化 19:45 这本质是因为模仿学习是开环训练,“我绝望了,才发现闭环是出路”
·搭建“世界模型” 22:03 Learning by Practicing 的闭环训练,是强化学习思路 23:46 学了棋谱再强化(AlphaGo),甚至不如直接从 0 开始强化(AlphaZero) 24:28 感性上的挑战:之前的路线做了 3 年还不错,换路线后前两年追得痛苦 26:19 5 年前开始转向以生成数据为重,这也是世界模型的任务之一 30:36 在虚拟环境里学习,本质是“向未来的自己学习” 32:21 世界模型是车端模型的工厂,自动驾驶进化的关键是工厂的精度,而不是车端模型本身 34:43 Learning by Watching,数据和算力是关键;Learning by Practicing,世界模型的精度是关键
·认为 L2 会覆盖 L4,是还没有越过分界点 35:03 没有谁做了错误选择,L2+和 L4的优化方向不同 36:18 L2 使用 Learning by Watching 没问题,也符合 L2+的规模效应特性 38:51 L2 不能覆盖 L4,L4 也不能取代 L2,真正越过分界点后会发现这是两件事 42:20 小马世界模型的构成:1.数据生成器 2.驾驶评估体系 3.高真实性的仿真 4.数据挖掘引擎 45:39 魔鬼在细节,世界模型的细粒度指标是核心竞争力 53:04 世界模型的终极状态:车不再因错误发生事故 54:48 千台 Robotaxi 开始有毛利,净利和扩张则是策略上的 trade off 56:15 不会因为它是特斯拉,Learning by Watching 就能 work 01:03:11 车辆运营维护与合作伙伴一起做;远程遥控人员的比例未来可到 1 比 30
·大部分是因为结果的正确,倒推方法的正确 01:10:20 大部分人不能坚持,不是因为苦,而是因为受到了其它诱惑 01:11:08 大模型现在很 fancy,一旦走到应用阶段,会经历自动驾驶经历的所有事 01:11:35 MiniMax 的产品是 L4,CoPilot 是 L2 01:14:09 度过行业起伏:外界看不到进展时,内部也要有合理且可感的里程碑 01:17:30 越来越相信,世界是模拟的 01:19:40 大部分人是因为结果正确,倒推成功者方法正确,但正因如此,不该盲目套用别人的方法 01:24:00 过早追求商业化,和一定要追求最有价值的商业化,都是极端。“创业前我没想过二者的平衡,创业中我肯定偏执过。” 01:25:57 下一步的关键是合理成本下,扩大车队规模
相关链接: 《市场不相信自动驾驶了,但他们还信》)
剪辑:甜食
登场人物: 楼天城,小马智行联合创始人兼 CTO。 程曼祺,《晚点 LatePost》科技报道负责人。