他就觉得你那时候一定要跪下来求他大年初一突然李相光打电话我想我还没给想个半年都想个半年了我特别喜欢李相光一点老子就算死也要站着死我是不可能跪下来求饶的端端端做得好的现在是哪些公司呢所有的 L4 的科技公司谁做端端端的
哈喽大家好 欢迎收听张小军商业访谈录 我是小俊这是一档提供一手高密度信息的商业访谈节目今天发布的是和理想汽车自动驾驶研发副总裁郎先鹏的聊天本次访谈发生在 24 年的 12 月和我们之前发布的对理想的三小时访谈在同一时期进行
朗贤鹏 13 年到 18 年在百度做自动驾驶,18 年后加入理想,过去 10 年都在中国的自动驾驶领域。他以亲历者的视角聊了自动驾驶的 10 年演进史,详解了其中的关键节点和技术细节。本次谈话更像是对自动驾驶的一次技术科普,我觉得我们聊的还不错,所以决定分享给大家。
因为这次访谈发生在去年所以如果大家听到今年其实指的是 24 年如果听到去年其实指的是 23 年那么之前在 10 年前我们前两天正好在内部我们聊起来也说到过 10 年前的时候 2014 年 15 年那时候是百度的 ADU 百度的自动驾驶团队刚刚成立就是那个部门刚刚成立的时候我们用的还是
一打就激光力达高清地图然后纯规则的一些算法去做的自动驾驶这样一个功能当时校城嘛就在乌镇的那个年会上 2015 年百度在乌镇还演示自动驾驶当时说这个这个这个工程师是上半行 if else 这个
规则写出来的这样一个自动驾驶的程序那么到现在其实已经完全不一样了就是因为在当时看我就是用这个重的这种激光雷达的传感器配合上高粘地图这是我们当时脑海里边浮现出来的怎么去实现自动驾驶的最优的技术路径也就是说在当时
所有的做自动驾驶的人的眼睛里边和脑子里边想到的是如果这个世界是一个
就是自动驾驶它把它当成一个游轨电车来研发的我给所有的地面上铺上虚拟的这种轨道如果我能铺得非常好而且这轨道的更新更新得也非常快的话那我是可以在这上面实现所谓的自动驾驶的因为这个它在轨道上跑我就可以了嘛
然后我用非常多的激光雷达是吧把这个全身我全部满激光雷达是吧 360 度无死角的我去探测周围的动态的人和车再加上刚才那个轨道我应该就跟现在咱们跑高铁一样跑这个铁路一样它是能实现一个非常好的自动驾驶的地铁是吧类似的它其实都是自动驾驶了这是当时的想法
但是你现在看起来当然很可笑但是在当时看起来就是自动驾驶就这么实现就是非常完美的了那么再往后走发现可能不行第一你的轨道你铺不了那么多是吧中国 960 万平方公里如果说中国的整个的道路来说的话高速公路为什么可以用高自然地图因为高速公路只有 30 多万公里
还有 970 万公里是普通道路你不可能说把所有的道路都做成高龄地图好就算你都做上高龄地图了但是那个道路它修修改改是吧这个天天补补的它有很多的这种更新你不可能每天都更新一遍这个所有的高龄地图吧高速公路可能它有个好处是它不会天天修高速对吧但是那个普通道路它今天是吧这个挖个坑明天改个道路还是非常非常非常多的
所以说就是高能地图这条路貌似就走不通了所以但是现在十年前走了多久就是 BV transformer 出现也就是 20 其实是 2018 年左右嗯差不多吧嗯啊
2018 年左右就 Tesla 其实我们业界标杆还是 Tesla 我觉得 Tesla 率先说我们不用高原地图我们不用激光力达我们要用纯视觉其实那个时候他已经表达的很清楚了第一看得非常对第二看得非常的准非常的早只不过当时业界很多人要么就是确实不理解他在说什么要么就是有些人已经理解了但是
用于或者基于我之前我做了很多高能地图的事了做了很多重 LiDAR 的这个事情了我没办法转这个身了已经是吧投了那么多钱去做了那么这大家就可能还有其他的人是故意为了这么做而做的就是另外一回事嗯啊所以说就是其实我觉得这条路大家探索了很久吗从 2014 年 15 年可能往后做了三年之后大概就是其实 Tesla 什么
对于他做这种纯视觉方案我觉得大家慢慢就理解到了其实用这种方式是不可行的所以说呢那么大家转向了探索更加实时的这种感知决策和规划方面的这些事情倒不是说第一次他就看到这个就是现在才开始做的事情而是在高清地图那个方案出现之前如果你在往前走
业界对自动驾驶的探索其实在二三十年前就已经有了因为有汽车的时候其实就有人在畅想如果这个汽车能自己开能自动驾驶的开多好所以最早最早大家还是寄希望于说有没有一种方式能让车自己能识别眼前的物体自己能做自己的判断规划决策这是伴随着前一次的人工智能浪潮开始的
对吧但是其实你现在翻翻出来论文特别是我们很多院士老一代做人工智能的八九十年代做人工智能的那拨人他们那时候也做了很多的自动驾驶方面的探索只不过那时候用的穿上气可能也不行是吧他们用个小的 camera 就是像现在在动不动几百万像素是吧他们可能
几万像像素可能都是这样一个级别的可能 600x800 可能差不多就这样了但是咱们现在都是比他大一两个摄像摄像机的而且当时可能还没给我摄像头因为摄像头对于他们来说当时做图像处理都是非常奢侈的
因为没有那么好的计算机像我的老师原来是在中文院沈阳中文化所他们是最早是做计算机视觉的他们才为人而且现在天上天公什么嫦娥其实他们都有参与的但是他们在那个时候八九十年代做计算机视觉
都是非常简单的这个点阵的相机而且因为受制于这个机选机处理性能所以他们没办法能做高分辨率实时的这种处理所以在当时来说就是看起来我用这种呃
去做实时的这种车上的感知是非常的困难的所以那个时候大家更多用的是类似于航母波雷达这样的一些设备这个设备它是一维的这样型号图像是二维的对吧它的形象很大那么像这个雷达这样的型号它这个一维型号处理起来和相对的数量没那么多也好一点所以说你可以理解当时做了很多实验就像是人蒙着眼睛
是吧用声波的方式什么就是蝙蝠啊跟海豚这样的方式在路上开啊
如果说路上车辆多可能就肯定不行但是他们想探索的是怎么能通过传感器加控制单元把车能自动化的在路上开起来这是八九十年代时候的事但车有点远今天就是比较开放活儿拉倒了但是一直他们就想做点事情那么直到后边好的芯片出现好的大栓子芯片出现好的图像处理算法出现
那么一直到了其实伴随着这一次的人工智能的兴起那么其实是在 2013 年左右是吧 Internet 也好还是卷积神经网络也好等等出现了之后大家又重新的一个是技术方面确实有一些新的探索了那么大家也把这些东西重新拿回到
自动驾驶上去审视那么这些这么好的图像感知处理的方法能不能也用于自动驾驶呢虽然说那个时候可能大家更多的还是看激光雷达呀高原地图啊这些东西其实说白了这些东西也不是突然有天冒水了是吧就美国的大跑挑战赛当时是不是得第一名的那个人用了激光雷达是吧所以大家就开始啊做自动驾驶可能需要用激光雷达需要用高原地图啊
那么来的但是在与此同时其实有一拨人说我们能不能用更好的方法
图像视觉感知的算法这些事情来做这个更好的自动驾驶经过一段时间探索伴随着车载的传感器处理器的这种发展 Tesla 也是算法不行我自己做算法它首先先于业界推出了 BEVHydroNet 这些技术如果你芯片不行是吧当时它用的英伟达的芯片是 Xivier 那代的芯片也就是 30Tops 的算力 30Tops 但咱现在动辄就是
大几百 TOP4 对吧当时最好的只有 30TOP4 他说不行这玩意处理不了我的这个 BEV 的这个设计网络所以我自己造芯片 Tesla 在 2016 年他就开始开始准备造芯片的事这张故事 2019 年是吧伴随着他的新的这种 72TOP4 乘以 20144TOP4 是吧当然在当时看来已经是最先进的了现在你看起来觉得 144TOP4 平平无奇啊
但是在当时来说大家都是只能用 30T 的前提下它有个 144T 的酸力可以用已经非常厉害了 BEV 加 TransformerBEV 怎么理解 BEV 就是 Bird Eye View 鸟看图它也是一个视觉的
对对就是相当于是视觉加 transform 对实际上是这样就是这个理念并不是非常高大上其实很简单嘛就是我们之前自动驾驶或辅助驾驶我都是用前视的那一个摄像头只看前方这可能 120 度左右的这样一个一个时长角嗯
但是这里边有个问题如果说我侧面来车或后方来车的话其实它是没有能力去 cover 这些内容的那么之前其实我怎么判断侧方后方的这些东西我用的是航空波雷达就我刚才说的航空波雷达
它自己像博士呀 County 这样的 TL1 它在雷达里面它有小的芯片它可以帮你直接输出在你侧面的这些它雷达覆盖区域内的一些物体的速度和位置但是呢它只是一个信号而已它尼克利就是一个在二维平面中的一个点
但是这种点呢你说对于我做自动驾驶有没有用呢可能也多少有点用比方说做个预警像咱们的后车经常有个灯亮起来忙去检测就后边有个车过来了他帮你提个醒说后边有个车来了但是如果说你想做自动驾驶来说的话
你不能说后边有个车就行你还得告诉我这个车准确的防卫速度这样的一些信息才可以但是他给不出来在雷达里边他只能给出一个大致的后边有个车来了后边有个东西来了所以说
如果你想做这件事的话你必须得用更好的传感器比如说激光雷达比如说摄像头如果说你用激光雷达的话像 Tesla 这样量产车我们不可能一圈装很贵的激光雷达的当时一个 Velodor64 线激光雷达是人民币得卖到五六十万一台
那个时候很贵对像早期百度或者克鲁斯等等那一辆车里面七八个极光灵打那个传感器的成本远高于这辆车整个车是非常贵如果说没想错的话当时我们在百度的话一辆车 500 万人民币传感器
全加起来就是说激光雷达加上那个机器本身但机器还好吧主要是传感器柜嗯你看我们不但有大的雷达还有些小的补光的雷达当时最早期百度还有专门有有一个小的 16 线雷达是专门是横着放咱们不是头上是这么这么这么拽吗原来对吧百度还有个这么拽的雷达他要干嘛呢他看天上有没有交通信号灯的那个杆那时候就没办量产嗯
那肯定没办法他那时候有多少台车?一辆摄影师,百度不会太多好再说回来就说到 Tesla 的 BV 嘛那么他当时就是说特斯拉他就想我一定要用视觉解决这些问题因为视觉给我的信息是最充分的但是雷达后来降价了他为什么不说我继续走雷达这条路线因为像罗天成他就一直很坚持的说雷达是对的先把 Tesla 讲完好
特斯拉他说的第一性原理我觉得是说给老百姓听的因为你这样你比较能好理解他不说那些技术上的字眼是吧他就说人就长两个眼睛人用视觉就能开车所以我一定要教会这个车用视觉去开车为了老百姓可能能听懂但对于我们来说的话就是图像里边包含的信息是最丰富的它不但有什么颜色什么物体的这种内容其实它里边还可以通过针尖或者说各个相机之间的这种位置的
这种视差可以推其实是它隐藏了物体在三维世界里边的这种空间信息的所以说就是你可以知道不但知道它是什么你还知道它在哪是吧它在哪那么进而推出了它的运动速度它的这种趋势其实你是都是能从这个视频或者图像上去推算出来的
再说回来所以说 Tesla 它想解决这个问题它要用纯视觉方式来解决这个问题不能只用前面这一个相机了我侧面也要放一些相机这样的话我周围 360 度 Bird Eye View 就是我一个鸟汉图下来其实我用这些相机可以生成一个如果说我的上帝视角的话我能看到我车身所有的信息
用这些相机拼减的话我是可以看到我周围所有的内容的那么他说的 B1V 算法其实它的来源是这样但这里面有个问题就是我原来的芯片和处理能力我处理一个前视一个相机才够用
我想处理这么多相机像 Tesla 的 1234567 个相机这 67 个相机就如果说你多处理的话就相当于说我要原来六七倍的计算的能力我原来一个什么 Mobileye 肯定是不够的一个 Xevia 肯定是不够的所以我要自己造一个芯片来做这件事情我觉得这是一切的最本质的一些东西它这个成本多少
这么多的相机和芯片非常便宜就是我现在跟你说特斯拉目前全算上就是传感器加芯片一千美金一台车一千美金也就是说六七千人民币你想咱现在呢
一个二人芯片就不值更没有啥激光雷达了你激光雷达你再想想他为什么自己造芯片会这么便宜我们现在用的像英伟达这样的一些芯片它还是通用的处理器芯片 TESA 造它是我是 ASIC 我是专用芯片
专业芯片就是我自己算法是我自己写的所以我自己的芯片配合我自己的算法去使用去设计就好了但是如果说另外一个算法放在这儿是不能用的但因为拿着它的芯片你可以列成是我这是一个非常基础的东西在这儿你理想的算法放在这儿也能用小朋友的算法在这儿也能用但是我是一个通用的优化和处理的方式并不是说我是为小朋友量身定做的为理想量身定做的
就跟现在的衣服一样嘛我做的大一点体型瘦一点人穿也行体型胖一点人穿也行但穿上去不好看嘛但是我这件衣服是我自己定制的我穿着特别合适特别好看价格也便宜就这意思对因为我知道我的料子也可以省一点嘛对我不用那么肥肥大大的去多花很多的这种成本你让车要放几个芯片我们现在是两个 Oren X 对但是是因为算力的原因啊
就是我们系统一跑在一个上系统二跑在一个上特斯拉有几个呢
特斯拉现在 FID 它是两个芯片两个 72 就是两个加起来 140T 但是它现在 144T 表现出的性能我觉得是大于等于至少是我们现在都两个 RX 是 500 多 T 的这样一个能力这个其实也是你不能光看这个算力的数值还得看它到最后它有效的算力它是多少所以说有个有效算力和等效算力的这样一个概念
Tesla 来说的话它这个 B1B 算法其实它还有一个非常优秀的一点整体来看这个算法怎么理解呢就是刚刚我提到了就是说它要把这一圈摄像头的信息都用在它的算法上对吧那么其实一个很朴素的想法就是我每个图像我都去算一遍然后把每个图像上我看到的内容再拼合在一起共同形成一个对周围世界的理解
这是一种最简单的做法但是这不是比一位算法这也可以称之为一种比一位算法它是后处理的算法就是说我每张图像上
我自己看我自己的人车这些或者说车道线这样一些东西那么这样看完之后你这个视角这个视角还有后边冲后的这些 camera 每一个都看到自己的一些内容但每一个跟每一个之间又有一定的重叠我要把它拼合到一起那么你势必要做图像与图像之间的
这种物体的融合这一步但这一步的话可能会出很多的问题这一步会出很多问题就 Tesla BEV 算法它最大的好处是我不是后处理的我说从一开始就提取了图像上的所有的特征然后我通过所有图像上的信息我统一做一次计算把所有东西全都识别出来
不像我们之前那种朴素的想法是我每一个项目都做一点是吧我其实说白了我还都是用的刚才前向 120 度这个相机的算法我只会把它应用到侧边应用到了后面应用到了旁边然后提取出所有东西来之后我再统一给它做一个融合这个叫后融合后融合意思就是说我先把图像上的东西都处理好
然后再把我得到的结果融合到一起这叫后融合但后融合的问题在于说首先你每一帧提取出来的东西你能保证全都对吗这有个人你没识别出来但这边你又识别出来了那到底信这个相机的还信这个相机的
不知道不知道对不对或者说这两个哪怕你都提取出来了是吧这个车你可能提取出来了一半这个车可能提取出来另一半那你该怎么容这个车到底是一米五的车还是两米的车还是三米的车其实你是不知道的嗯
但是特斯拉这个 BEV 算好出来之前我们会看到业界大量的人是吧大量的工作都在想办法怎么去消除这个后融合的一些误差呀错误呀什么误解呀漏解这样的一些工作是不是今天一点点消除幻觉一样对对类似的
但是 Tesla 它的做法就是换一种方法解决对我觉得在特斯拉身上我们学到最好的一点就是特斯拉一直在用生为的方法来解决问题如果是抽取本质的话那说明今天不应该一点点填补去消除幻觉还是应该生为这个是别的话题插开了继续说对
对所以说就是特差你看就是如果说高能地图和机中电脑有问题我就用更本质的纯视觉方法去做是吧那么用视觉方法是原来那种就是后处理拼凑的这种方法有问题那我就用一个在每张图像上都提取一定特征然后统一来一次性的出所有的这种叫什么就是物体空间的这样位置这样信息的这种方式这个准确率为什么会提高呢你看它最本质的是
他没有事先提特征提东西我先拼一张全景图可以吧我先把所有图拼在一起
然后在拼好的这张图上我再去提东西这样的话其实现在是我在同一张图上去提的东西提完了之后我再把它反投回某一张图上去已经知道这有一个车了但是我得到这个车并不是说我从每一张图上得到它的一个部分或一个部件我拼出来这张车而是我先把原来整个图上信息都拿到一起狭隘的理解成我先把所有的图拼成一张大图可以吧
平成上大图我在大图上把该有的车该有的人都提取出来提完了之后呢反投到我的每一个图上再去做下一步的动作这样的话它的好处就是我反投过去之后虽然说我可能本来那个图上每一个都拼了一部分什么的对吧但是我从这里边融合后提取的一个完整的物体然后我再去投到那里边去的时候它的一致性会特别好嗯
因为都是从同一个来源去投射的东西原来的做法是我从不同来源收上来我去合成一个东西那合成的话可能会有很大的问题现在我是先使用所有的信息去恢复出了我真实世界里边所有的物体那这物体在反投到每张图上去的时候它的一致性是有保证的嗯
好这个就是他的 BEV 算法但是他里边一些算子什么 transformer 算子什么那是网络结构的事但这个我觉得这还好但是最主要是他这个思想他前面那个思想是最关键的就比如说我们造元旦代是吧是义德 MC 方这智能方程就是我是使用巨变还是使用裂变我觉得这是后来的东西了所以本质思想是说
物质和能量它今天可以转换这个东西是先发明是先想到的它得先想到这个东西然后我再去解决物质和能量怎么去转换的问题我知道裂变还是聚变还是有二三五还是二三八那我觉得都是后边的事了但是最早有这个思想的人是最厉害的刚才我也说我们之前都是用那些别的
别的方法去做增加时但 Tesla 它用纯视觉而且还给出了一个纯视觉的本质的思考就是说我一定要所谓的潜融合也好或者所谓的是我要一次性的把所有的行李全用到这种思路我觉得这是它开创的这个时候 Transformer 是一个通用架构吗就是是一个共识性的架构吗当时是它的一个体制还是 Google 提的然后它用到了增加时 Google 提的 Google 提的它用到增加时对对用到增加时而已
就跟我刚才说其实谁发明的微积分并不重要重要的是我把它用到在什么所以他一直在 follow AI 的进展然后把它用到自动驾驶对可以这么说为什么别人没有用 Transformer 别人没有想到 BEV 这些架构我觉得最本质的还是 BEV 我觉得是这样他看到了当时自动驾驶行业的一些本质的问题然后他用了升级的方式来解决这个问题那么再往后就是
其实用 BV 的话它也还是在原来那个套路里面就是 BV 它只是解决了感知的这些问题那么感知出来的东西它要构成驾驶决策要形成行车的这种轨迹的规划的路线让车沿着这个路线去开它其实本身还是用了这种模块化或者分段式的结构
感知出来的内容我把它再去做决策规划然后再生成行车的路线大概是这样一个思路但他现在后来觉得这也有问题上下游之间可能有清晰的传递的问题最主要是我得到这些感知结果现在是用 BEV 方式是非常好的了但是这些感知结果我怎么把它变成最后的驾驶决策这一步
实际上是有工程师的这个规则和程序就是他的一些脑子里边算法在这儿的
那么但是呢用这种工程师的算法去设计出来的车它开起来就会有很多的问题这就是我说的第二个阶段就大家已经认识到了我用原来的这种这么重激光雷达量传不了先不说它有特别的我在题外话吧就激光雷达这件事它为什么跟 camera 还是有很大的差别我先不说楼教主他怎么说单从这个分辨率和他能提供的信息量上来看的话
激光雷达是远低于 camera 的因为你看咱们现在随随便便的一个 camera 过来它的图像大概是 800 万像素也就是说它是 4K 乘 2K 差不多这样一个分辨率 4096 乘 248 什么之类的那么它一乘起来是 800 万的这样一个规模
一个激光内达现在你听到过的最多线数的是多少线呢多少线什么意思呢就有多少个激光去扫描不管它是怎么做到的另外一个话题一般来说现在我们车上用的是 AT128 和塞 128 就是 128 线也就是说它有你可以列成有 128 个扫描的单元这样扫过去一下子就是 128 行嗯
刚才咱们说到了图像是 2000 多行的像素它这是 128 行的像素也就是说它的分辨率是我的 1/10 至少是差一个摄像机至少只要差一个摄像机可能还有原来我们是未来当 64 线其实连 100 都不到
而且扫描这个时间其实它是它有一定的这种延迟的图像是一下子就全都曝光完成了对吧那么这还是横向的纵向的就差异就更大了你要是看这个激光雷达的图像的话
远一点就真的就点就非常少了比方一个正常 1 米 8 个子的人是吧你站在就是 150 米处可能打不到几个点身上都如果再穿个黑色的反射率比较低的衣服的话可能就是激光雷达效果就更差了激光雷达它有一个好处它比图像这个好处就是说我只要有点的地方我一定会告诉你它跟我之间的距离
但是我们用图像上也可以算出来它是隐含的你准就准着 128 个点 128 行上的点但是我一个大千世界我一个图像是用 800 万像素就是上百万上千万的点来描述了我整个的世界你只用了 100 多行的一个点来去描述它
这个行星量是远远不够的而且还有一点就是我能看到的这个世界是由色彩组成的你刚刚说的那些空间位置呀它的距离呀它的什么其实我们有视觉上有很多的方式它也可以获取也可以得到辅导现在我们的车怎么开啊只不过是就是吉隆安利达它是在那个点上它可以瞬间得到而已对吧但它也有一些其他的问题但是先不是它的问题
只是说同样一个场景同样一个世界我们只是得到了它的 128 行的一些点而且有的地方有覆盖有的地方没有覆盖你可以看就是有些黑色的地方是它点没有扫描到的地方对吧所以你看整个的世界来说它有的地方是有空洞的是吧有的地方是没有激光雷达扫描到的地方但是图像不一样图像是
是吧我没有私交是吧只要这张图满满当当的全都是像素全都是颜色全都是色彩我能理解视觉比激光雷达的信息量肯定是大的而且它是多维度的信息但为什么那么多人还是坚持用激光雷达并且觉得激光雷达好而且他们觉得去掉激光雷达用纯视觉是不可思议的呢那我的问题就是说端端端做得好的现在是哪些公司呢所有的 L4 的科技公司谁做端端端的
你要看本质最本质的就是我们现在那么我再继续说一点可能马上就要到本质了到了 Tesla 有 BEV 之后他发现还是模块化了这几点感知决策规划什么控制等等对吧他里面做出了很多东西还是大量要依靠工程师个人的经验个人的能力去写下算法但即便是这样的话他写出来的算法也达不到跟人类开车一样的这种
我理解他是重新思考了一下这个问题为什么原因就是说我以前我们都做宗教史还是做错了把宗教史作为一个功能来研发响哥应该也给你提到功能和能力这些事我就从宗教史细节再跟你说一下
其实我们以前开发也有功能有几种模式什么瀑布式开发有什么敏捷式开发无所谓外面不离其宗我有个什么产品的输入这输入是我这个产品比方说我要做一个 pad 这个 pad 上必须第一它是有它是多大的是吧它的显示速度是多少
它有几个按钮按钮每点哪个按钮它出什么东西比如我唯点这个按钮它开始回忆一点按钮开始投屏那么它显示亮度可调它的声音可控你看刚才我说的这些东西完全都是一个非常明确的一个定义包括自动驾驶
他们也希望这么来定义我的重架室应该在哪些哪些场景下怎么怎么怎么开所以说就有了欧美汽车工学会等等就是 SE 也好还是什么美国是公众交通关系局也好
就定义了咱们 L1 到 L2 到 L3S L5 的这些东西这完全是从刚才我说那套规则上来的就是说我一定要定义一个叫自动驾驶的 ODD 是吧 Opposite to 什么定义域反正就是那个对其实它的翻译过来就是我的产品设计或者说我的 MRD 和 PRD 就是咱们说的就是产品需求 definition 定义嗯
但是问题来了他们发现在自动驾驶里面不好使了因为自动驾驶的因素太多了同样一条道路同样一个时间哪怕是但是我旁边车不同人不同甚至下个雪刮个风下个雨路面的条件不同的话我开车开出来的
可能就不一样的是吧如果正常情况下我开车我可以 80 公里就开我开到限速是没有问题的但是路面湿滑的时候你让我开 80 我都不开 80 是吧我要开个 50 开个 40 前面有辆车挡着我的时候
我是往左边车朝还是往右边朝我得看看这旁边的线是虚线还是实线好就算都是虚线这边有个自行车这边有个行人我是超过去跟着自行车还是过来压这个行人我肯定不能压这个行人哪怕我慢点我就超那边有这么一个阶段我当时是很多创业公司他们对外标榜的是我们用了一套严格的手段
去定义了所有的场景他们定义的非常复杂什么意思呢就是首先第一个叫天气因素分了好多种
就晴天雨天雨天还分大雨中雨小雨我当时想你这个小雨和中雨怎么分是看你一分钟掉几个雨点吗就不可能嘛还有就是说车流量是什么拥堵啊密集什么的是什么什么反正是好多个变量然后就这个我就完全是工程师的思维所以我觉得为什么工程师思维是这样的
对有逻辑他就希望所有事都能非常好的完美的逻辑去定义这个事情天气怎么样车流怎么样这个什么光照怎么样这个夜晚呀还是阴天还是雨天什么的这是环境因素还有自车的因素我的速度大还是小对方是什么样的就他定义了好多东西然后他以为每个都是一个变量
不管变量多少我都能清晰定义出每个变量的它的离散化程度然后每个乘起来乘完之后上千万种组合他说 Lamborg 没关系我们把每种组合我都用规则给你好好写一遍我这个字幕就解决了我说你写吧你这样你算过吗你写一个规则需要多少张代码需要多少张代码写一个规则我觉得有的多有的少
这还不算最那个的因为你每一个规则或每个场景和每个场景之间它不是完全正交就不是完全独立的那有可能你改了这个动了这个场景下的某个什么场景你把它弄好了
可能在你会影响到另外一个地方的一个场景比方说都是右转是吧你可能写了一个什么晴天路况下的右转但是你可能忽略了其实比方说这个什么车辆量大的时候的一个下雨天的右转可能又不又不太一样了但你觉得这能定义出来吗就跟我们现在为什么做一体化断断了断就不分高速和城市断了断啊你你说有的城市的快速路像
北京的四环五环甚至不用说环路吧就一些比较好的一些路况比较好的前提下
他们开的也挺快的你说他们这难道不跟高速不一样吗对吧就是这种开车的感觉是吧那么在高速上你遇到施工堵车那种很归宿的情况下这不又跟城市的早暖高峰也差不多吗你说其实这个就你严格用高速路和城市路去定义你的自动驾驶场景这貌似也其实我举个例子也不太合理
所以其实如果用场景我的意思是说用场景划分的方式去做自动驾驶这是我们遇到第二个问题的
第一场景太多了,穷举不过来第二的话就是你改了一个场景东西可能会影响另外一个场景的东西这个东西可能功能量非常大还有一个问题是还有常委郎特要的问题就是有可能你再怎么想再怎么定义你也想不到半路会穿出一个马来你把马撞飞了这个定义你怎么定义呢
或者说就是可能还有其他一些就是咱前一阵子上半年路上突然有个大坑塌陷了是吧有车可能你也不认识的话就直接朝坑里去开了对不对这些东西你没法定义肯定有突发情况如果说我们做一个辅助驾驶或者自动驾驶功能它只能在我定义过的地方去开的话那就不到自动驾驶我觉得
对吧自动驾驶人其实他遇到这种情况他可以处理的哪怕我这种东西不认识我就停下来好不好对吧或者我就绕绕开它是吧虽然马路上有摊黑污垢的东西我不知道它是塑料袋还是什么石油还是一些粘液还是一个什么黑毛全在那我不知道但是我知道的是我不能压它
对吧我就让过他就好了这是我们想的怎么能那么大家所以说就有了第三层次的思考就是我通过原来的这种分场景或分功能的去做软件产品的思路软件 1.0 怎么去用这种思路做软件思路转换成我让自动驾驶系统有自我迭代或自我推断的这种解决问题的能力软件 2.0 不再是人去一行行的编码了
不再是人去教这个机器怎么做的而是我们希望这个系统也好或者这个综合功能综合为力其实一样的软件二连思路你要看安卓卡卡你再回去看我给你剪完之后你再回去看你就会明白很多他的想法是说我再也不用人去教他教也教不好
我能不能让这个系统或让这个软件本身它拥有自我迭代和学习的能力这是本质思考我觉得能量和质量要发生一个转换但怎么转换呢
爱因斯坦突然有个异等 MEC 制度方程或者还有人发明了怎么拿中子去冲击原子核发生裂变还有人说拿小的原子弹去引冒大的原子核聚变好有这种方法了那么我们现在从哪找方法呢
怎么去找到一个说能让软件自己教自己迭代自己去变好的这样一个方法呢或者说这个强化学习不无所谓的反正就是学习这套东西我找到了就是用模型是吧我们现在在做软件不是做软件了我们是做模型了所以说就是我们现在转换思路了那么这个东西就完全颠覆了原来做软件的这个思路
那么我们其实今年端端端其实也是一样在端端端之前你可以列成端端端之前不管什么有图啊无图啊清图啊还是怎么怎么样说了各种各样形式的东西我认为都是软件业的东西或者都是上一个时代按照功能去做自动驾驶的时代那么到了端端端开始虽然说它明了端端端也好什么也好大家也不
不明就里但在我看来它是一个非常大的突破和飞跃是它用软件 2.0 或者用做能力的方法去做自动驾驶了我们原来做的是说一行一行的写代码一个一个场景去设计让辅助驾驶或者自动驾驶能在不同的场景下去执行一些命令或者做出一些咱们设计好的一些动作
但是到了端到端之后我们教会这个系统是让你他自我去根据一些他的我们输入他的一些人类价值的数据让他去学会人类价值的能力至于学生什么样其实我们是不知道的所以我们现在都是一个
旁观者可以说我说我刚才来晚上我去试试我们昨天晚上的模型怎么样我们只能说看看他学的好不好就跟孩子一样我不能替我孩子学对不对但是我可以给他很多的好的教师的资源上好的学校这个我可以办到的
但是他学成什么样的我不能替他我也不知道他是怎么学的但他学完了结果我是可以评价的对吧我可以看一看他开的怎么样了这原来开的不好做的不好的题是不是现在可以做对了做的更加好一点但是我能明白我们艰辛一点是就是这个软件或者这个我们用模型的方式或数据驱动其实模型和数据驱动是一个硬币的两面因为你用模型的所以你必须数据驱动
如果你先用数据去弄必须用模型用模型的方式去做了这样一个能力的系统那么我们这个能力的系统的输入就是优质的驾驶的数据但最核心的是我们现在用做能力的方法去做自动驾驶那么能力这个事它更多的是要求的是你的企业或你的这个
你自己说的反正有没有这个优质的高质量数据我觉得想到昨天肯定也跟你聊了他为什么会说将来在人工智能领域获胜的公司或者能活下来留得下来的公司是拥有高质量锤利数据的公司他一定会说过这句话嗯
其实这话也是我想说就是将来去模型啊什么就这个这个参数啊讲的其实都差不太多就跟人一样吧你的智商比我高你 140 我 100 我 120 但是决定咱俩未来能不能成功
并不是说你的智商高就一定会成功而是看我们从小到大成长这段路上你遇到的老师同学你受到的教育你输入这些数据才可以理解成是吧跟我的质量相差多大人跟人之间差距没有那么大在智商这个物理层面但是后天的这个输入对他到最后的成功或者到最后的成长这个影响是巨大的
哪怕一个天才你把他关在小黑屋里 20 年再拿出来他一样跟白痴一样但是就是一个很普通的人是吧从小也是接受很好的也输入和教育他自己再加上他自己也愿意努力的话
将来一样是一个非常有成就的人是吧但数据背后还有一个要拼的东西就是算力你那么大数据哪怕你有一亿二亿的数据但是你没有相应的训练的这种算力去训练它是吧那也不行训练的算力和数据是决定将来自动驾驶的
铁环版你在百度是哪几年就百度是在之前在 2013 年到 2018 年就是来之前都在百度嘛那你完全经历了百度就是那一段自动驾驶对对对完全经历了就我们跟李凯和谁我们都是最早去跟宝马去做自动驾驶陶杰什么的
如果等会有时间我可以聊聊那段事我们从 2018 年来就是跟理想聊的最核心的一个点就是面试的时候我跟他聊嘛就想问我一个问题狼伯你觉得将来咱们做自动驾驶最重要的是什么
我们就说就是数据但不是说现在我们才就是为了说而说真的当时就是这么说的就想说为什么你觉得是数据我说可能人咱们可以挖是吧可以再可以聊算力其实也很重要我们只要企业做得好还是有钱买得到的
但是数据这个事是你挖也挖不来买也买不到的就是咱自己的东西所以我们从第一天开始就要去做数据这个事但你们不会透露用户数据吧对吧 肯定不会其实用户一次是舱内数据比方他自己的个人的人脸生物的这种声音这些我们不收集这些我们收集的是车外的那些东西车外比如说我站在车外你也能拍到我呀所以说我们在回传的时候把人脸和车牌都是处理过的哦
当时得益于我在百度做街景的一些经历你打开百度街景其实人脸和车牌都是模糊掉的无所谓的我想跟你说的是我们在这方面还是非常专业的就是去处理这些事情刚才说的自动驾驶的发展过程大概就是三个节点第二个节点是 EV 加 Transformer 第三个就是断道断了对吧其实最关键的就这几个其他都可以不用在意其他的我觉得都是小事
对就包括青图乌图什么其实都是小事我觉得像比如说这三个阶段一个是大量鬼子的阶段一个是 BEV 加 Transformer 再到端到端它们分别的团队大概是一个多大的规模啊
它是不断地缩小的一个过程吗不是是先扩大再缩小的过程之前呢就是如果重激光雷达重高靓地图的话那其实高靓地图团队规模还挺大的如果说你自己做高靓地图的话对吧如果说你不做高靓地图我记得当时李东敏在百度做高靓地图不是他做地图还有一个人在做高靓地图而且他们是两个团队而且这个地图能力是不能复刻在高靓地图上的啊
那就要说到我在百度的经历了其实我在百度是坐高人地图的好的像这样大家很多人都是看到后来 ADU 产生之后的一些百度自动驾驶的一些动作但是最早期我是 2013 年加入百度的我们是为什么进百度当时百度有一个
非常重要的项目是百度街景当时是腾讯街景已经上线了 Google 在这边已经做了好几年了那么百度想我百度地图不能里边没有街景所以说当时我们的竞争对手是腾讯腾讯第一上线比我们早第二反覆盖什么都挺好的所以街景做的高精地图
有了见证之后然后我们再往后走就是到了 2013 年的下半年了对吧我 4 月份 8 月份然后到下半年下半年呢首先是宝马来找我们中国宝马宝马中国的预言团队他们的 RD 团队找到我们说我们宝马现在中国测试自动驾驶我们希望有人给我们提供高清地图他们评论一下中国 TOP 的这个百度高德和思维在三家
他们觉得四维可能做那个基础地图做的还可以但是高低地图这块没有基础能力高德和百度两家选了百度因为他们觉得百度的这个技术能力还是非常优秀的因为高低地图都没做过他们就算是教一个他也希望教的学生是好一点的学生所以当时就是说我们其实都没做过高低地图也没做过总教室那时候 2013 年那个时候我们就说行那就
谁来对接就是李彦宏这边可能是说行可以就交给于凯刚去那时候对刚去于凯你们来弄一下然后于凯说地图的时候要不还是找地图团队了就找到我们这边因为我们接近是在地图团队然后到地图团队那时候是顾为浩管地图就是现在豪默的 CEO 我们非常熟悉顾为浩下来就看谁来接这个活
那时候都不带我来我觉得挺好的你看既有新的技术的探索又有自动驾驶接近里边玩的那些算法什么都是有用的题外话有这个事之后于凯这边他就是出了两个人一个是尼凯
一个是陶吉我们这边出了两个人一个是我还有一个是燕阳就是另外一个我这边一个人我们四个人然后组成这么一个小组去服务算是一边是服务宝马一边是学习宝马这么一个过程所以他们心理学院研究院的人是对接着他们的自动驾驶的相关的人宝马
还为他要了两辆车就是之后你们看到的在 2015 年上了北京五环尼凯开的那辆车是宝马给的
我们就是对接高能地图的一些相关事情就让宝马和增电是这么做起来的最早其实高能地图是在我这边做然后我们用了 2014 年整个的时间就把整个北京的高能地图基本上全都做完了因为百度是有测绘资质的我们就拿了自己的地图的采集车采集车其实它也不便宜那采集车上也有激光雷达也有各种东西
我们就按照宝马的一些要求再加上我们一些理解去把高人地图慢慢开始做那是 2014 年把整个高人地图的技术研究七七八八了当然那边也是在做自动驾驶的技术我们是有深度的合作的本来这么烦劲其实都想做自动驾驶但是圣诺学院研究院那边 RDL 那边已经就是说自己要做自动驾驶了那我们这儿
那就推而求其次也好那边是做偏 L4 偏预言偏那个微墨那套东西那我们这做的是偏量产偏那个特斯拉这套东西所以你们没有 L2 的自动驾驶对吧只有 L3 和 L4 这么叫但实际上就你可以理解成是辅助驾驶或者就是偏量产偏对接车厂这样一个工作当时跟宝马学的宝马他来我们这测试也是测试了 L3 自动驾驶 L2 和 L3 的本质区别是啥
如果是按照当时的定义来说的话 L3 是
有系统责任的成分了就是在某些情况下系统担责但是如果说系统需要人接管的时候是需要提前的发出信号或发出提示你人要接管你要人不接管那么这个系统还有责任靠边停车呀或者开到一个比较安全的地方呀就这样一套东西所以到 L3 平台就有责任了 F3 平台有责任它是权责吗
部分责任因为他会告诉用户哪些地方我是
有责的哪个地方我是无责的 L4 叫有限场景自动驾驶我先确认一个区域这区里边一定就是你人就不用管 L5 叫自动驾驶或者叫无人驾驶所以你们今天追求的也是 L4 有限场景的自动驾驶并不是说 L5 全自动驾驶因为拨到 L5 同一个整个社会的环境机库车是有关那就说明就是说那你哪都能开就跟人完全一样了那可能不现实的所以你们追求的是 L4
大多数公司说的也都是大老四你看我现在还是你问我我把我古早的记忆拿出来跟你说了其实现在大家都不这么说了已经不这么说了其实我觉得现在的专家都是看体验了对
对吧就按照体验来你是像 Tesla 是吧有监督的自动驾驶是吧有监督自动驾驶然后它对应的其实是无监督的自动驾驶什么叫无监督就是你人不用管了就是无监督那人不用管了那就是 L4 是吧或 L5 如果按照我刚才定义的话
你 L4 的话是你如果说还划定一个范围其实 Tesla 在 2025 年他不是说要推出 CyberCab 吗他就要对吧但他是在一个有限的城市里面他说他现在奥斯丁还在哪是不是先开始对吧其实在我们看来就跟 Vimo 跟 Cruise 跟罗伯就咱们百度就是做的都是一样的先划定一个城市划上区域之后在里边可以随便开
其实如果按照我刚才那个定义的话都叫 L4 叫有限场景的自动驾驶什么时候它可以做到真的无所谓你哪都能去哪都能开那就是 L5 就是完全的无人驾驶但是我觉得那个可能还是比较远一点所以说我们现在很多人都在做了 L4 的自动驾驶但这有个前提体验够不够好
其实你坐过罗伯的车吗坐过的 Cruise 和 Vivor 车我坐过 Pony 给 AIPony 小马对我也去过 Pony 它自己已经设定好了一个区域里面去开我觉得是没有太大问题的因为这个地方不论是高能力图的更新也能更新的过来
很多的这种场景 case 可能也都分析的相对上非常完善了所以说你用上一代的那个技术去做这个事是没有任何问题的就是因为看体验的话其实对于用户你是端端端做的还是用重高音力图做的其实无所谓啊只要让我做的好开的好就行嘛
那对于我们量产车来说的话肯定是说我们一个功能需要大家全国都能开是吧全国都好用这种感觉所以说我觉得这是我们的思路如果你们达到 L4 的话是怎么有限场景呢这是谈到我们下一步未来的计划了吗未来计划是这样的就是首先我们认为 L34 级别的自动驾驶和之前做 L2 辅助驾驶嗯
就完全不一样这不一样刚才从技术角度我给你分析了是吧一个是用 AI 的方式来教这个车怎么去开了一个还是做功能的方式去做那么这天真车从研发的理念和本质上就是不同的这里边就有两个区别 L3 中间这个状态我们现在叫有监督自动驾驶它这个是从之前的那个命名转换成了一个体验室命名
我个人觉得不是之前的秘密我觉得跟现在咱们有间的物件都没关系就是比较古早的一个就是工程师的一个定义骑士工学会定义那个就把它放在那做个参考就好我觉得这里边本质反映出一个理念是我们的 L3 和 L4 其实都是一体的去做自动驾驶的研发再换句话说我们的 L3 或我们嘴里边这个 L3 它并不是 L2 的延长而是 L4 的先导
不知道你能不能理解这个概念就是他不是说我做 L2 加加加加有一天我就 L3 了对就是这体现既体现了本质上一些改变又体现了一些我们对这事的一些思考比方说我们现在做 L2 很多人都认为 L2 只是在场景的一些丰富度上解决 corner case 解决越来越多越来越好就 L2 加加加了像你说或者说就是他会不断地逼近于 L3 了
有很多人会这么想但是我刚才提到过 L2 的场景是设计不完的 L2 的场景也是解决不完的而且你可能解决这个场景会影响其他的场景的
所以说就是 L3 不是 L2 的一个延长这个延长既有场景什么延长又有做法的延长 L2 你现在可以说我用重图的方法也可以做用轻图的方法也可以做用什么无图的方法也可以做各种各样的做法但是我们理解是你用那些方式是做不了自动驾驶的
就你用现在所谓的一些什么规则式也好或分段式也好等等这种方式是做不了自动驾驶的那我们先要想清楚怎么去做自动驾驶那么做自动驾驶我刚刚说得很清楚要让这个系统有能力自我去迭代自我去提升开了越来越像人力驾驶这种方式去做自动驾驶所以说本质上用这种方式我们认为才会做到自动驾驶
所以说你现在 L2 的这些延长是做不了自动驾驶的不论从场景上还是从技术上还是从本质上去做所以说我们现在这个 L3 是什么意思呢是 L4 虽然很好很性感非常完美但是你不可能一步到位的说我巴有一天告诉大家全国都能 L4 了我觉得也不现实对吧
那么我会慢慢的去做 L4 好那么做 L4 我们有这么几个步骤第一个步骤是我们一定要把全场景的能力都走通嗯
什么叫全场景呢简单说就是车位到车位虽然说你听起来很简单但从车位到车位在这里边涵盖什么事呢首先你园区内的道路是可以覆盖到的对吧封闭道路覆盖道路园区道路然后城市道路肯定要走的吧高速肯定要走的吧高速上的扎集啊什么这些 ETC 啊什么肯定要过的吧再下高速这些扎道口啊什么这些东西肯定要做的然后到城市城市里面的一些
奇奇怪怪的一些东西像这种什么潮汽车道红绿灯千奇百怪的一些东西它是要会处理的我只是说它会处理它不是说它见过它没见过它也能处理我个人也是这样的对吧那么又回到另外一个车位泊车 AVP 这套东西所以说它首先它要有全场景的都能开的能力
但在这个过程当中当他能力性能还没达到一定的水平之前我们是需要人来监督他的这个监督的意思就是我在这儿我先看着点他或者说我就作为一个驾校的教练一样是吧这个车自己新手司机在开的时候我旁边看看如果他需要我帮助我去帮助他一下不需要帮助他开的挺好的继续开
对吧然后在过程当中我们还给他很多的输入威胁数据让他持续迭代他的能力越来越好等到有一天
他的能力全是迭代到还可以的状态下那么在某些路段我这个驾校司机是不是可以不管他了我知道他在这大直路上肯定会开得很好的对吧他在一些车流不太多的时候他一定会会自己会处理好这事我们就相信他没有问题的你去学车也是这种感觉对吧但有些复杂情况下甚至有的时候如果说很复杂我可以叫一下我教练教练你帮我看看这个路我该怎么开
这个时候是不是就叫放在我们的车上的功能来说那么这个时候我们可能就提醒着我们的教练就提醒车主你需要监督一下这个车了那么接下来我们的产品形态可能会是这样的
现在你可以列成我们是一个完全的有监督的状态但是车位到车位的全场景我们是完全打通的状态现在我们已经都交付了对吧当性能不断提升你这无监督的段可以越来越大是吧连个越来越大那么到最后我 A 点到 B 点车位到车位全都是无监督的了
那就是 L4 了你们在 L2 和 L3 和 L4 我理解是一起的因为 L3 是 L4 的前导那这是两个体系做的事情吗辅助驾驶和 L3 和 L4 它要两个团队做吗不用它的技术和那个叫什么产品是关联的非常关联度非常大的
辅助驾驶反而跟他们没有太大关联辅助驾驶和 L3 和 L4 他们是两个团队吗这个是 L3 和 L4 我们将来就没有辅助驾驶了对 直接就都到 L3 了过去的 RX 什么都能升级到 L3 相当于上升了一个维度对 是因为我们今年这些端端端也好今年端端都是在辅助驾驶上用都是升维的技术降维打击你可以理解成
其实单单技术是描绘自动驾驶去做的如果说想做辅助驾驶的话或者辅助驾驶阶段的东西的话我用高能力图有图无图轻图我都能做对吧所以说我说但是这样做法的话我们也拼不过华为什么几千人也拼不过人家楼天成或者楼教主等等的一些天才少年什么之类的但是我们的优势是什么
我们优势是有足够多的数据和算力对吧那我们就要发挥而且我们也看到了再往后走这个技术的本质如果说你把自动驾驶当成一个人工智能来看的话那就是要用这个做能力的方式是吧而不是做功能方式或者软件 2.0 的方式去做这个东西那么我们既然看准了就赶紧去做就好了
这一年下来我们从其实从去年开始预言到今年做到这儿把单单单交付了整个的过程其实就是遵循了这样一个本质的原理是吧就是我们用数据驱动的方式去做这个自动驾驶的能力这个能力说白了我向下降为你可以理解成是个什么辅助驾驶但是我们叫有监督的驾驶嘛
对吧有些人只不过我所有的路段全都是监督路段你看列车就跟你导播行一出来发现那么全都是红的从加了这个车位堵到那个车位是吧你都要自己开而已就要监督他开而已那么接下来我们要做的事情就是把这个红色的路段是吧里边可能加一些绿的加了一些绿的绿的比例会有多大
我们一定是肯定是要加到一定比例之后才能开放如果说那么都是一点点的断断续续的我觉得也没什么意思所以说这里边就会看出来一个非常关键指标叫 MPI 对接管率接管率的话接管率那么我们经过测算就 200 公里接管一次的时候就可以推出我们的 L3 的有监督自动驾驶功能了 200 公里接管一次大概能够等于多少小时接管一次
这个可能没法看就是因为你速度不一样但是我可以告诉你一个比例就相当于高速 350 公里接管一次
基本上你不太有监管了如果你开一个什么北京到北戴河的什么高速也就 300 公里对吧因为是高速要到 300 城市要到 50 这是我们测算过的高速到 350 以上城市到 50 以上综合起来就是 200 公里监管一次因为根据我们过往的高速和城市的比例
那么 200 公里接管一次是什么意思呢就是你每天也就开个四五十公里那 200 公里接管一次也就是说一周差不多接管一次了而且这次接管还不见得是安全性的接管是吧只不过是你觉得可能开的不舒服什么的接管那么对安全性来说的话我们要求更高是十倍于人类驾驶的安全如果你用我的 L3 自动驾驶的话
我觉得这个很有意思因为刚才我们一开始就聊了一个增加史的发展史它的三个关键点其他的那些小事都不用提就看这三个你会发现后面两个都是特斯拉用了人工智能的某种架构嗯
一个是 Transformer 一个是他把大模型用进了自动驾驶做了端到端所以为什么特斯拉有这种意识其他公司为什么没有这个意识你问得特别好特斯拉我觉得他对技术的潜能把握都是非常好的第二个他对产品的本质的思考也是特别好的就像我刚才说的一样首先我来知道
能量和质量我来想办法转换是吧他如果说你不用这个智能转换的话那你可能你获取不到更大的能量的这样一个获取但是另外他马上他因为他对技术的前沿他掌握的很好他知道有就 S 他那有智能转转换方程是吧他知道有 235238 可以去做和裂变是吧他要知道这些东西才还能实现我相信有很多人
如果空想的话早就想到了说我这个智能驾驶得跟人一样得跟人一样有思考能力我以前遇到过的情况能很好的去开遇到我没见过情况我应该用叫什么人类思考的方式去推理去判断这东西怎么去避障
他想得很好但他自己做不了因为他不知道有系统一系统二他不知道思想快业脉这本书是吧他不知道有这么多团队已经在研究这方面的技术了那么对于我们来说的话从去年下面开始其实小哥说的还是比较保守的在自动建设团队其实我们的很多的这种员工他们自己对这个技术是非常的热爱的就算你不让他去
做这些事情他自己也会去跟进这些技术的前沿跟进这些这种最新的这些工作所以说我们去年下半年跟响哥也聊嘛就是去年下半年因为有这个人工智能的一个研讨会我们每周都会开一会对响哥去主持的嘛然后在上面我们就第一次跟响哥介绍了这个
系统一系统二的理念什么的其实从去年下面的开始我们就用特斯拉方式来做这种驾驶了我说方式不是说那种技术上方式而是它的思考方式
第一我需要理解自动驾驶或者我的产品现在它的问题在哪它问题本质是什么然后我的机会点是什么其实我们以前分析方式都是这样的那么现在自动驾驶的本质是开的不好开的不像人对吧那它的本质是什么本质是我们拿功能去设计去研发这种方式本身就是很大的问题场景也分不过来是解决也解决不好还需要大量人工就算大量人工上来之后也不是那么回事那么
那么机会点就是我们现在有人工智能一些技术的迭代那么我们是不是可以用更像人的方式去解决这些问题是吧人类智能方式解决问题那么这里面还有一些就是可行的方式就是我们系统一和系统二相互配合
可能是一个很好解决方案系统一行为智能是吧能做出快速的决策那么通过我们之前的一些 case 一些场景的学习能得到很快速的这种接近于人类行为的这种驾驶的体验那么第二个就是说当我们遇到没见过的场景或需要
思考的场景我们有系统二将一个 VRM 的模型去帮我处理这些场景然后再回到系统一配合系统一一起做出一个更好的这种行为的这种决策和规划这是我们其实就是很朴素的一些思路我觉得大家都能想得到只不过就是
有人可能想到了前半部分有人想到了看到了后半部分的一些技术但是没有人把它真正连到一起去做这事而且就算有人想到了能把它连在一起做这事恰好这天时地利人和就是想和说的在我们这都具备所以我们今年能做多少段这些事情并不是狼伯这些人或者我们的人多聪明多优秀多努力
你没有资源再努力也没用不经过前面的这些就是痛苦其实我们一直很痛苦一直被说是差的对人就是体验体验大家对我们诟病很多人人的话我们也没有别人多然后我们还要怎么赢不可能坐以待毙那么我们就是其实我们一直在学习 TES
一个方面大家认为我们学习特斯拉的技术这些做法其实我们更多的是也是想额就是辉格他们我觉得他们做战略的这种能力是越来越强了我们也带的越来越强是吧我们最终要获胜以终为实去考虑这个问题本质什么问题在哪本质是什么机会点是
那么现在可能还有一套更好的方法来辩辩比较复杂的就不说了但是大致也是这个意思就是我们一定要看问题看本质你要在同一个维度上跟别人竞争那可能你没什么优势或者说你可能打不过别人你想后来者去打败别人一定要从一种生美的方式
来降一大也行或者升一大也行都行反正你就要自己先升位那么有技术升位有这个认知率升位所以你们从什么时候开始研究断道端的因为前年 22 年底是大圆模型大圆模型对于断道端是有推进作用的吗你们又是在什么情况下开始重度的研究断道端的不是一个唯独的事我觉得断道端更像我刚才说的本质的思考的理念的问题而大模型更相当于是它一个落地的基础方案的问题嗯
这个就是刚才我说的智能转换和智能方程的这种理念端到端的思路我刚才说的就是原来分模块化的是不是感知做感知的决策做决策的规划在做规划的这么三个频道一起做成一个总建设方案现在统一一个 model 对 统一一个 model 的原因就是说我希望因为中间这些规则决策其实人去设计是不穷尽的势力不完也设计不好
那么我的端到端的意思就是说我能不能这边进的就是我的原始的一些传科期的信息我直接输出最终的决策和规划所有的思考计算过程都让中间一个环节来解决对
但是现在这个你想的很好他的意思什么就是你看你感知先做了一部分工作之后呢你剩下来的就是你感知的结果有可能对有可能错有可能里边还有一些信息的丢失有可能还掺杂了一些错误的感知的结果都有可能吧好你带着这样一个可能有瑕疵的东西你到了下游下游是你的
决策和规划这个模块那么决策和规划模块你收到信息已经不是一手信息了对吧你收到是一个带有瑕疵可能错误的信息你用这种方式再去做一个行为或者说路线的规划那你可能规划出的东西也可能
又有些问题本身你规划可能就是有瑕疵的对吧这个错误可能会叠加那么带着这个有二次瑕疵的这个规划的结果你再去生成一些行驶的路线可能又有误差了咱不说错误就说误差他也可能这个偏 5 厘米这个偏 5 厘米可能最后叠加出来你偏 15 厘米 15 厘米什么意思我们路上画了一个白线就是 15 厘米你可能就是原来应该在车在车道这边行驶
你看诺曼之后到车辆那边去一会压了压了线去开这车了就是举个例子但不是这么简单的一些 case 那么那有没有办法说直接能让我所有的模块都能无损的使用到一手信息去做出最后的这个驾驶的这个路线和决策呢端到端其实就是这样一个思路端到端的思路就是说我能不能让输入和输出之间尽量的减少过程
我的所有的模块都用一手的信息去生成最后的驾驶的路线和行为
这是一个理念的事它不是一个技术的实现方案的事我觉得这样但是这个方案恰好用大模型可以实现它最大的好处解释一下就是它的能力非常强它可以像之前说的为什么我们用 Transformer 因为 Transformer 它是可以把很多东西向量化编码的以前我们能理解的就是图像的信息可以编码
但是实际上除了图像信息之外我们其他东西都可以编码我导航信息能不能编码其他的一些输入就是能不能编码都能用 tokenizer 就是这种限量化的编码之后都可以进到模型里边去进行学习了其实如果我们最早看伊利亚最早最早的关于 tokenizer 的这样一个叫什么 embedding 的论文其实它就解决了一个问题就是万事万物皆可
编码我们之前就是做生物学习也好做什么也好都觉得图像呀语言呀文字呀这些东西
都很难被学习的一个原因是我没法把它表达成一个便于学习训练的一个方式你可以这么说但是用他那种方式之后有一些不相干或者我们认为不太可能用数学或用计算机语言描述的东西现在可以很好的描述了一个东西只要它能被描述了那么它可能就能被学习了是吧比方说我现在描述一下我们怎么用计算机去分析一个人的性格呢
这玩意就没办法分析所以就出了很多的算命师傅宅星大师其实我觉得他们是用自己内在的一套训练机制收集了大量的星座命理的数据之后有这么一套逻辑去做只不过这东西可能只可一回不可言传但是
但是伊利亚他们还是自己的一个模型或者怎么的对吧或者他们自己在内阵上有一套自己的逻辑但是这个可能没办法大众所接触但是对于伊利亚他们来说的话就是用了这样一套编码的机制能够让所有的知识都能够现代化或者编码化然后只要你能编出这个码来编成 token 然后就可以用训练方式去学习了反正我简单说是这样因为这个知识也比较深我觉得可能
甲鹏他们技术学可能说的更加的好好一点但是我可能说的反正简单一点那么他们有时候方式之后那么大模型出现是吧之前我们为什么要分
这个感知分决策规划什么就是路线生成图像上的东西和 LiDAR 上的东西是吧和很多东西给它完全不一样的东西是吧我必须要后处理啊是吧比方说为什么说有前融和后融和之分后融和刚才我们说了那图像还是能拼接的对吧那图像跟激光雷达怎么拼接完全不一样的一些东西对吧就一个是激光点云一个是
RGB 的像素是吧那我用但是我用这种这种这种这种编码的方式我可以把它们都编成现场空间中的一些特征特征和特征是可以对齐的
但是你说一个激光点云和一个 RGB 我觉得这玩意很难弄很难弄好用了大模型的这种方式它可以让所有的知识都可以在这进行训练了包括后来生成路线也都是可以在这里面进行输入输出的这种训练了简而言之就是之前大家有断了断了思路但不知道该怎么执行
大模型出来之后大家知道原来就可以做了就因为我们可能有人想到物质和能量之间是不是可以转换但是没找到方法 A3 出来原来智能方程可以转换了这玩意
这种感觉然后找到这个方式之后呢既然 E 的 MC 方这个事是 B 研究院是可以成立的了那我们就可以找更多的方式去怎么把物质转化成能量那我用裂变的方式还是用聚变的方式
用 U235 还是 U238 还是什么用布还是用什么反正我就可以去做各种各样尝试了那么这边也是的我模型的参数是可以调我模型用 7B 的还是用 70B 的是吧我可以实验实验那我的数据量是怎么给它是我先用一个预训链是吧然后再来一个 RHLF 还是说上来我就给它一个很好的这些都是技术层面事了
谁先想到了那个是把所有知识都可以对齐出来然后用模型去训练我觉得伊利亚在这里边它是最本质的一个贡献它贡献完了之后剩下在它贡献上的一些迭代了当然可能有些迭代伊利亚本身可能也不知道这般人可以这么用就跟爱因斯坦他把公式推导出来之后也不知道原来有这么多方式开做核弹所有做核弹的人都是来自于他的思想但是这思想并不是说
他能把所有的东西都考虑的特别细节所以很多人都是在他的教堂上去强量的那扯远了就是刚才你说断断断和大模型之间断断断是一个我觉得是一个很好的思路它是一个核心的本质的理念至于用这种方式我信息可以无损传输也好我学习的更像人也好反正这是一些理念因为中间少了很多的人为的步骤是吧这个我人工的去设计一些
算法呀什么的这里边我能不能通过最原始的人类比方刹车油门的信号吗还有对吧刚刚不是川口信号还有些其他的驾驶的信号都一起进来去学习学习出来一个
我将来看到这样一个图片我应该怎么刹车有没有去开是吧可能我说的比较极致一点但可能还是一些路线路线规划的一些信息就是我看到一张图直接生成了这样一个规划而不是说我原来看那张图我要把图先翻一下
翻译成图上有这有人这有车这有路道路边界这有什么然后跟着这个东西再翻译成我这个决策是要超车要跟随要变道还是要什么然后再根据这个的行为再下一步说我如果变道的话我变道应该从这儿来如果我跟随的话我应该跟着往上走
他现在不这么做了我看到这张图我过了这个模型之后直接给你说我要这么开端到端就直接从这个传感器端直接到输入我就这么开哎
你为什么要这么开之前可能还好解释因为我看到这个人在这所以我的规划是要超过他我要超过他所以我要到这但现在其实我们真不知道模型他怎么想的了就跟人一样我们人开车的时候你不会说如果旁边有个人问你你为什么要这么开
我就想这么开来不及说你就别我就直接开过去了这其实就是我们天然反应但是你说比方说前面有个车跟着我有个车在我前面我到时候往这儿超还是往这儿超你觉得其实如果说两边都没有车的话其实往哪边走都可以
你也不用说非要让我解释的特别清楚我往这车是因为我两公里之外还有什么事我觉得人没想那么多的对吧那我觉得模型也是一样的你人都没想到为什么还要让他去解释那么清楚但是他有一点就是他一定是就模型一定是学到了什么但是我们不知道他学到了什么
那你们怎么把那个架构这么拼起来呢端到端 VLM 和世界模型为什么要做了一个拼接端到端肯定是我们解决问题的一个方式 VLM 就是说当他遇到他没见过场景的时候怎么办因为刚才那些还是端到端他的一个问题就是说他能很好的在已知的数据集上去开好这个车嘛
他也有一定的发话能力是肯定的但是还是有一些他没见过的场景啊比如说一些可变车道需要推理是吧我看到或者路边有个牌子他牌子上写的我 9 点到什么 17 点啊
这个公车车道可以用不可以用什么的就这些东西它是无法通过端端端去做出来的我们需要一个外挂一个相当于是 V2M 这样一个模仿人类大脑的这样一个东西去识别理解了场景里边的一些跟开车相关联的一些元素理解完之后把这个理解了之后的
给它断断的输入给它断断的输出然后给它联合成为一个最终的决策这是我们现在的做法世界模型是什么意思呢世界模型是用于检测这套系统的我看你刚刚那个图它在云端这两个都是在车上对吧对对对世界模型是我们因为现在就世界模型有个问题是刚才那个虽然非常好但是我怎么去测试这套系统
我这个系统已经迭代到能力的判断了对吧我现在是能力的提升能力的迭代了那我们也随之应该需要有能评价能力的东西对吧但之前的测试方式都是衡量功能的好坏衡量功能是否达到设计标准的方式嗯
之前很多测试都是这样的我有个产品定义定义里边告诉我是吧这个车什么开到 120 公里之后它怎么回事我们的测试可能会有这样一些东西它完全按照这个产品设计来但现在我告诉你没有产品设计了或者产品设计跟原来不是一回事的那么你的评测还是拿过去的方式去评的话你评不出这个能力来的拿轻超的剑斩明超的官嘛斩不动的这东西
好所以说我们需要有一套能力机制我们是参考这个能力机制我觉得没有任何参考就是这全是我们自己想出来的当然也参考了一下特斯拉的一些做法首先呢我们会想人是怎么考察能力的我们
原来对考试对考试我们也不是说把所有的客户题到最后让你全背一遍是吧把课程全都背一遍评价你能力高低背不过来学那么多东西我们只能通过一种考试的方式来评估你大概达到什么样的水平但是考试它试卷的制作是有技巧的有简单题是吧有中等题有八高题
然后覆盖范围什么你要考数学的话有几何题有代数题有什么题反正各个覆盖面也挺大的每个考点也都给你考一遍那么所以说我们有参考了这种人类能力测试的方式来评价我们的考试系统是吧也有我们家校考试一样的有文化科考试有什么教规的考试是吧还有试车的什么一些
考试等等等等那我们现在考试这个试卷它是来自于很多个方面我们大概归了几个类安全类是吧就是合规嘛一定要符合交通规则第二话是你的这个舒适还有这个导航
就是你导航是我们开车一个非常重要的这样一个方式安全舒适导航合规等等反正有用有五个五个维度就跟咱考试大纲一样什么代数集合什么什么什么什么数论什么之类的有很多维度那么每个维度里边我们都有基础题有这个这个难题等等的所以说我们把整个题目出来之后每一个版本的模型也好或功能也好出来了
我们就过一遍我们的考试题考试题我们会有个得分比方这次考了个 80 分你哪一题错了我会告诉你然后下一次再考
你可能得 85 分但是我们每个题都有一些最低的标准值比方说安全那个分你必须全都拿了才可以但是呢有些什么舒适啊有些什么效率等等的你可以稍微的反正是扣两分扣两分吧这个无所谓就是不会影响但是我们需要你每一次考试能看到你的成长你也就是说这个版本的得分不能比上个版本低啊
比上半本第一可能这半本发不了所以我们用这种方式去考试但考试有个问题考试试卷你的理念有了试卷怎么生成试卷其实就是一个个的场景但这个场景我们不可能永远考它同一套题这套题万一它都被答案都背过了所以说我们每次有些基础题或有些真题但也有模拟题或有生成的一些题目
所以说我们刚才说了我们有重建和生成这两个技术重建我们用的是那个
三级 GS 就是三级 GS 高速重建技术然后我们生成的话是 transform diffuser 技术可以翻译成 solar 使命生成那样的东西但只不过我们生成的可能是更加的真实符合我们的要求一点这样的话既有真体重建出来我们通过真实的场景重建出来的一些题目又有模拟题模拟题是说根据以前那些题目
比方一个右转一个车辆比较大的场景我们也稍微的生成一下看起来跟原来是不太一样但是考试的内容是一样的所以这样共同生成一些题目来考每一次的试所以这个试验模型我可以理解为一个实时生成试卷考题的教校
对它是生成考题用的这个实验模型所以就是昨天李翔说以后都是 AI 去考驾校了人都不用去考驾校了是这个意思是吧大概他说的应该是这个意思比如他说端到端自动价值是最典型的强化学习端到端加 VLM 加实验模型是完整的 RL 架构这是什么意思强化学习强化学是闭化
就是你看就刚才我车不在这吗这世界模型对吧世界模型的话就是我车要进入整个世界之前我需要先到我的这来考试吧考试通过不通过他可能是有考题限制嘛考分过了他才能出去
出去之后呢他在真实世界里边去运行的时候也会遇到一些问题对吧这些问题会到我这里边来嘛首先他自己会遇到一些问题我们会知道他哪个地方做得不好真实世界里边遇到了问题拿到我们的世界模型里边来作为我们以后的测试和评价的一些方式这样的话就是强化学意思就是说我遇到
问题的时候我会得到惩罚但是我考得好的时候会得到奖励这样一个强化的学习强化学习最主要是 reward 模型的设计它在这个里面一旦它真实以外有问题那么它在我们这个模型里面也会有相应的惩罚的措施在增加时领域相对来说它的 reward 的机制跟好设计我觉得
我觉得设计上的几个维度一个是安全如果你撞了肯定是不安全一个是舒适如果用户觉得需要接管什么的但是这里边需要有些分析用户这次接管到底是因为舒适的问题还是因为安全性不足的问题这个是需要我们有一些判断的方式的你说好设计也好设计设计出来了对吧但是怎么判断这个还是挺有难度的我们所以设计了一套专门的模型去判断的
他昨天说第一次看到端道端模型跑通的时候是在过去一年对于人工智能的一个啊哈 moment 你们是什么时候跑通的第一版试车的时候是今年 6 月份他之前是没有预期的是吧对于端道端能跑通
对大家普通他有意义但他当时预期不会那么快他觉得你们对吧才开始做了这才多长时间呀他 Tesla 也做了挺长时间嘛嗯别人可能也在研究但是他就觉得你们可能还需要花一点时间吧我还是那句话不是我们这些人就比别人聪明啊什么比别人笨什么的就是因为我们现在用了正确的方式去做这个事嗯
别人没有现在可能也有跟进但在当时确实没有第二就是说我们拥有的资源确实比别人好我们资源不是人但是人也挺好的但是人的数量我觉得可能没有别人好但是人的质量还可以我说就是我们拥有的在人工智能里边的优质资源比别人多一个是数据一个是算力我们都比别人多很多六
6 月 8 号去的重庆嘛对吧那就是我想的是 5 月底 5 月 2 多号反正就给他第一次去上车这样那天呢我就想个还是我也不知道为什么他带了一个人上了车他他有以前说过吗他第一次试端端端的时候他第一次试端端的时候第一次他自己开的这个车啊因为想过试车都是他他自己开第二呢他那天带了经纬的那个张颖哦
做副驾然后他没事没事一起来开就在咱们这个楼的 A 区的那个门口嘛然后我们大概开了一个多小时可能终于就接管了一次还是两次有一次还是想个就是不小心他就碰到接管了另外一次就是一个非常难的钉子路口我其实我当时觉得想不接管其实也行但他还是比较害怕保守但除此之外他
当时可能觉得还正常吧但是越开我觉得他越兴奋因为想到兴奋的一个点我能理解他是讲话比较多的就开始讲了讲啥呀就开始哎呀这个好啊跟我们也说跟张莹也在那说
这人工智能什么这个端来端来这个数据就开始你也理解这是比较兴奋的状态了就越开越兴奋这一圈下来我就想到心里边就像你说的
我完全就是接受和认可他说的是实话他肯定是原来也觉得人工智能或者 AI 或者大模型的方向是没有任何问题的但是我觉得他跟所有人一样就是也不知道这个东西到底是个什么效果也不知道到底他的成长速度呀或者他的能力到底是什么样但是你看我们那个版本
当时给他的是不到 100 万 KPS 模型现在我们都合理百万了当时我想那版是 60 万还是 80 万我想不太清楚因为第一版模型第一版模型迅出来之后
他上去他的感受就是已经超过了现在我们以往所有的模型的效果了就是所有的那种非这种单单单模型化的效果了当时你看我们用多少人人的这种是成这样的团队规模刚开始是比较小就可以因为有很多然后我们又增长到去年年底乌图和青图的方案我们是 1000 人了那时候
对其实那时候想了过也算是下了个死命令吧就朗普罗特咱们今年必须得扭转这个局面是吧什么时候下的去年底不是今年初今年年初那个战争会上吧三月份怎么被骂了我想今天三月份是谁骂了我们
就是想个吧就是那意思就是 9 月份之前就必须要搞定就是这些事情那我当时给他想过的说法就是说我们一定要就是用这个模型就是大就是端端端或者大模型的思路去做这个事情不能
这是我看到的唯一的解决方案所以当时三月份完事之后我们就是原来是 RD 预言的一些工作对吧那赶紧摆到交付的这个层面上来去做了事情我们从四月份我想得很清楚四月十五号在中安村进行的封闭
就是蜂蜜开发一百八个人全放到中央村去七月份回来的吧但是想个事的时候那是多少时间才一个多月就想到就是谁都觉得不可能包括我自己也觉得不大可能吧但是我的那个想法的那个那个时刻是什么哪一天呢是大概就是五一期间嗯才半个多月嗯
但你说前期的预言可能还是有的但是我就说咱正式的搬到中央村开始 4 月 15 号开始
到我觉得这事有戏是半个多月时间然后我当时开了一条路很简单就是从中关村你可以理解成中关村地铁站附近我们那个大厦是电子大厦就是在汽车机架那个楼就是在那个位置开到北京交通大学反正我们就是随便在附近定了一个点也不知道为什么是北京交通大学然后开到那去竟然能开起来
才一个月时间我能完全确定这里边没有用一行规则就是训练什么就什么样我再简单的给你形象解释一下我们之前无图版本和轻图版本的代码行数是 200 万行代码现在只剩下不到 20 万行
我们缩减了 90%的代码好这是一个形象的比喻就是这点数据而数据量其实也还好吧就是像你说几十万 clips 的数据续完之后竟然能开过去而且它有一个地方让我觉得非常的惊讶
我们在有图和无图版本上怎么调也调的就不是那么完美的纵向的加减速因为乘下速你别觉得前面有个车我就跟他停停下就完事了但停这一下你要是刹得狠了用户觉得不舒服你要刹得慢了万一在撞上再可能怎么就还有风险
反正怎么都调不到跟人一样就是如果你们开车你们也知道我们人是缓缓的刹停的那种感觉甚至有的时候是前快后慢那种感觉是后边还得再稍微抬一下还是那种就是这种东西可能可能行动不太好但是呢我会发现他竟然就第一次上车他纵向控制的比我之前开过的所有的自动驾驶车包括精品的包括我们的都好
我就当时就问旁边夏老师就是贾老师他们我说你们是不是用规则或者怎么调呢他说老婆我们真没调就是学出来的
那时候我就觉得这下也远超我预期了这才多长时间半个月然后就能把之前所有人类的规则全打败了那我非常有信心后边还有那么长时间呢 3 月份它是发了一个很大的火吗对你们战略会最大的问题就是觉得自动驾驶的表现还是不如业界这个头部的水平嘛
这样的话可能第一可能也会拖累我们自己的一些形象呀这个销量呀什么的然后想个反正是当时呢自动驾驶团队当然不是我啊就有有的同学可能还不太服气嘛就说一看指标上来看的话我们跟华为呀跟小鹏也非常接近嘛其实我觉得他说的是事实
但是作为后来追赶的企业和我们追赶者的这种形象来说的话你跟别人做的差不多你是追不上的对吧你必须比别人好很多才有可能能扭转这个局面但第二点就是也有一些历史原因因为我们当时还在追赶别人的青图无图的一些方案还在你补的课还是要补的
但是无论如何就是不管是真实的水平也好还是舆论的感觉也好确实我们当时是不如别人的响歌的说法就是现在这个版本我们还是很差的当时是我们的无图的一个还有图的无图吧无图一个版本就是说他的意思就是说这个没法跟别人去竞争的一个版本拍桌子还是暴躁还是怎么着都有
所以说当时我倒想的不是说怎么去争辩因为我非常理解响哥他的意思还是他想要什么我是能理解的但是去年下半年的时候我觉得团队里面是有两种不同的声音的但是那时候我觉得去年下半年大家还是没达成一致但今天上半年我觉得反而好对吧到了这样一个
雪崖边上你怎么办如果还用原来方式你可能打不过人家你必须要升位去做所以当时我就回来之后就跟你想过说我要成立一个专项的小组去做段落地和升级那个时候我们也成立了这样一个小组也得到了赞美会想过等人的支持反正老板你们大家去做就好了我们也全力支持给我感觉就有点像
2021 年我们做卫城那个项目一样也是一个着急上线的事也不是就是也是比较危险的时候 2021 年那时候我们希望在年终的时候推出理想万的升级升级那辆车但那辆车其实车嘛你不可能几个月你把外形全都换一遍都不可能的所以那时候只能说在智能方面有很大的突破和升级
然后那时候还有更难受的事就是我们之前的那个供应商 Adans 的供应商知道我们要做这个升级嘛用他的话就是不但要给他付昂贵的开发费用我们的供应商是不白盒交付就当时我们要求我们供应商白盒交付就代码什么都交付给我们我们以后好修改嘛供应商也不白盒交付甚至供应商当时还有一个附加条件
就是理想你们要把之后的自动驾驶的研发都交给我们做并且解散你们的总监团队哇塞这么强势他就觉得你那时候一定要跪下来求他因为没有时间了我特别喜欢的显而一点就是
老子就算死也要站着死我是不可能跪下来跟求饶的所以说那时候我觉得挺好的我觉得很多时候这些矛盾冲突我觉得反而是好事然后呢你想到时这个局面已经非常那个了当时其实公司里边在这之前还是有很多的声音的哎呦
哎呦我还是顾玉商保守一点稳妥一点去做但是现在就是想要说了不平等条约嘛扫全儒嘛这都在这是不是我怎么可能能这么去做呢所以说反而帮我们去排除了很多声音啊就是那种不知识声音一月底
那时候我们就认真讨论这件事情咱要不就不用工具商做了是吧咱们自己做但是也再三跟我确认响哥现在也找我我也找响哥其实那时候我是主动找了响哥我说响哥咱不能这么对吧被别人就是牵着鼻子走我觉得咱还是得你要相信我们的话我们就自己来做这个事大年初一突然李相国打电话
我想我还没给想哥拜年想哥就第一块说老伯你这事你有决心没有我说我这来三年就等这个时候了对吧就等这一刻是吧但是想哥你放心如果真做不出来我就引咎辞职我肯定好好做肯定要做成这件事情所以想说只要你有信心我就支持你然后放下电话马上拉了一个微信群所有合伙人都在想
想过的时候我就宣布一个决定我们就自研了那意思就是资本驾驶这次一定要自研狼伯你负责然后有什么需要支援的我们都支持你你就放心大胆地干就行了反正就好好弄过完年回来我们初期跟想过他们说了一下我们计划方案什么的然后好就开始全公司找资源我们招是来是来不太急的对吧也招嘛但是全公司看有没有人帮忙协作协作
反正是七八八凑了这么一百多个人我们在 2 月 26 号开了一个实施大会实施大会的录像有机会可以给你看一下还是非常的感人的我问一个问题你 18 年来到 21 年这三年为什么不好好干自动建设为什么一定要登到被公寓上逼得不行了才开始决定自研这三年在干嘛呢小鹏他们进展也都很快我 2018 年就是这么跟贤哥说的贤哥跟我说郎伯
我们现在最主要的任务是把车交了没有那么多钱我们的钱必须花在最重要的地方但是就是自动驾驶这个事想到从第一天包括我们面试也好包括我们中途就到现在想到的就是一直都是说自动驾驶就是最重要的在这个智能电动车上
但是说狼伯我们战略是有节奏的是我们的打法是有自己的打法的他的人最好一点是他不会说安慰你什么就是跟你讲那些东西他可以讲的永远就是说他的思考他的想法他的方法论他的战略的设计他的节奏是什么样那么他就认为说如果说狼伯你是一个有这样一些理解能力的人你应该知道我在讲什么
而不是说我来去用一些地位的层次来安抚你什么的但是我是 2019 年左右大概 2019 年上半年我是慢慢地理解了就是怎么去做一个公司或者说想了他是怎么来做这个公司的他的战略思考和系统方法是什么样子的了解这个之后你慢慢就能知道是吧像你说的你有想过职业设压在这吗哈哈
当时肯定有过这样的念头 怎么弄但是他其实想的很好听从头到尾他都跟你讲他的思考的过程逻辑什么他想什么他就告诉你什么当时跟我说 郎伯你看我们一共就这么多钱
你要做哪些东西我们肯定是需要做的但是我现在车造不出来什么都空谈是吧我要造车要铺销售网络要有门店要生产制造这些费用所以一年可能给宗家使的就这些我们需要把用有限的钱我们上来
给到用户这辆车自动驾驶是其中一个部分嘛负载量是一个部分只要给大家超过现在市面水平的在这个量级的车上是吧跟 BBE 相比是吧我们肯定比他们好很多了已经都先做到这些这个交付好了之后再去有更多的钱去投到自动驾驶身上那么你今天看是实现了这一年其实几十个亿的投自动驾驶啊
到我们一点点执行出来之后那么今年可能有很大的扭转很多人也不理解怎么突然就行了呢那是我们过去这几年积累到现在听起来端到端是个神药是个灵丹妙药那为什么一定要等到今年三月份才开始用这个妙药呢你去年在干嘛是吧特斯拉去年就上了有的时候我们虽然是认知在这但是我们也选择去去
该补的课是要补的我们虽然知道微积分高等数学好但是我们现在可能只会加点乘除
我们上来就去做微积分可能这里边的坑什么我们其实不知道的我们可能先从私则运算升级到一些说法我们就是用过去一年的时间去做了有图是吧青图无图这三代我们都做完之后我们才知道原来为什么这些里边就都有哪些问题哪些坑其实很多时候大家都觉得是不是我应该上来就做微积分
最佳的解决方案我觉得反而是最笨的方法就是你貌似笨的方法其实它是最捷径的方式因为你必须要把前面吃的苦或经历的东西你要经历一遍你才知道它是为什么一天到现在的所以我现在跟你去聊我们理解特斯拉的本质理解他这些东西并不是我第一天就是讲的这么好的
我们是一点点的就是把特斯拉 BV 做了把他的这个无图青图做其实特斯拉他也做青图他只不过不这么说而已因为他在百度这边要的那些 LD 地图就是说白了就是问百度要了很多的青图的信息我们也是知道的但是为什么要这些信息我们是不知道的我们只能看着结果但是我们不知道它本身的原因和本质是什么那我们必须要做一遍做到其实有的时候做的过程
一个是我们自己团队理解的过程是我们整个公司理解的过程理想做法就是说哪怕大家都在骂我这个青途不好是不是天津两条路我们先把它做完对吧做完交了交了之后然后咱再去做无土
无图做的过程当中是吧想个马上那样了对吧我们无图啊怎么你办不好什么的是我是有个团队在做段到段但是我们的交互团队依然在 7 月份吧把这个无图的这个权量给交了用户实在用到这个东西但是他用无图一定比我上上代的青图要好他用青图一定比我上代的
这种土要好这种土是没有城市嘛对吧城市里边没有港南地图所以说就是我们还是一步步踏实去做哪怕顶着骂哪怕顶着大家这个质疑我们知道自己一步步的去做这个事情为什么一定要交付啊
不交付你怎么知道你的问题而且交付一定是对用户产生价值就像我说的轻图的版本一定比重图版本要好无图版本一定比轻图的版本要好我说是产品力要好对吧
给用户实在在的让他们能用到我们的产品能提升我们的竞争力是我知道可能还有很多问题但是至少我这代产品下去之后比我上代要好提升整个自动驾驶产品力让我们的销售和交付肯定会得到一定的提升这是第一点第二点是我只有做了这些事情我才知道特萨当时为什么那么想我会更好了解这些技术的发展
那么第三也让大家就我说大家就是大家是吧也能理解这个事它确实是怎么样的你别光嘴上说因为很多人都是跟风然后现在端端端端端端特别好我问你你没用过端端端的产品吗你先不说的时候知不知道端端端的技术是吧其实真正的端端端的产品现在世界上就两家一个是特斯拉一个是理想
智能驾驶的那个拐点是什么时候来的就是智能驾驶对于卖车这件事情是有影响的这一世哪一年以前大家觉得智能驾驶这个功能可能排第八第九对吧对于卖车的我觉得就是今年就是今年然后你们今年就交劲了你们今年就做出来了天时地利人和也是幸运也是巧合吧因为你看去年我们也自动驾驶也不是特别好对吧但是我们车卖的还是很好
对吧但今年其实我觉得就是很多人都是在比较一个很重要的比较点是比较自动驾驶我们销售丢单丢了很多今年上半年 3 月份左右其实为什么当时理想也诟病我们还有一个原因就是我们销售丢单很大的程度是因为推门进了对面的问件对对去看人家的车去了说人家自动驾驶比我们开的好嗯
去年其实我觉得自动驾驶这块也投了一些资但是是针对我们之前的一些补充我觉得是但是今年我觉得是大手笔投入了挺多特别是在训练的资源投了非常多大家看到的是我们人员优化什么其实那些成本可以忽略不计的投入的训练卡资源真是涨了成倍的涨今年自动驾驶现在有多少团队人的话我们现在是 800 多人
800 多人特斯拉有多少人特斯拉 200 多 300 吧从你的视角看他什么时候在内部会上第一次提说他要做一个人工智能企业你觉得突兀吗惊讶吗我是一点不惊讶的我觉得可能有些人因为你看你们这家都是投入最慢的对吧最慢怎么理解
你想 18 年到 21 年一直都没什么投入还在用供应商然后小鹏当时已经开始在做了就是进版的明白明白我个人是没有什么惊讶但是我觉得可能团队的同学或谁可能会惊讶
我觉得还有很多人会不相信比方说外边的人看你说你是一种智能企业你自动驾驶也做得也不好你 AI 方面的投入也比较少但是我觉得响歌他做法他做事的思路他有自己的逻辑和自己的这种节奏我觉得他会按照他的节奏来而不会被外界去带动和干扰这是我比较欣赏他的一点
然后就是我一点不稀奇说想个能觉得他说我们是做一个人工智能企业反而觉得我觉得如果他只是说我们一直在做车我反而觉得这个公司可能前景不是那么好了再说就是人工但是人工智能我觉得是要分节奏来的他需要把车上智能先做好但我觉得现在的自动驾驶和理想同学可能已经摸到一个
在接下来几年我们是很有可能在车上的智能率先做成就是业内最佳实践的然后在这个基础上我们会把智能再去做得好一点刚开始的时候你问我那个机座模型的问题对这个其实也是我们最近一段时间跟理想聊了非常多的比方说从去年吧
我们就一直在跟理想说我们可能是需要做自己的机座大模型的多么的大模型现在看起来我觉得习以为常了就跟当年质疑我们为什么做增加是一样已经有 GPT 已经有千安问和新一年等等就有这么多大模型可以让你用为什么理想你还要自己做自己的机座模型是不是很多人都觉得我不要做机座模型机座模型既费力又费钱
投入还很巨大而且现在还有很多人在做了已经大公司在做了你也做不过他现在看起来像是这样的为什么你要做这个事情我觉得显哥他是有这么几点我不知道他说了什么但是我也没跟他对过我觉得我们优势是这样第一是必要性第二可行性首先必要性来讲的话我觉得我们如果以后想在人工智能领域得到非常长久的发展的话
基座模型是必须的就相当于说你要做一个建筑商你自己没有建筑工人那肯定不行你光外包哪天工人不给你干了你里边什么都没有了那么我们基座模型就如同是与你的地基和基石一样如果你没有它的话上面盖的多好看房都是空中楼阁当有一天你的基座模型不给你用了这是公有风险第二如果说通用基座模型的话
它有可能跟你的要求不一致那个时候它不太会按照你的要求它上有很多的客户它会适应于所有人去优化它的基础模型而不是针对你自己一个人如果是这样的话你不会在人物智能的领域上获得头部的位置的第三我觉得现在你别看它说的好我基础模型服务你们所有人
等哪天他真做好的话他就是那个头部企业了咱们这些人可能都给他打工了我是这么判断的他垄断了就可以我觉得人工智能的企业没有那种百花齐放我觉得还是我比较相信就是会收到为数不多的几个真正有技术大模型能力的企业手里面开始的那个问题呢这两个怎么合并在一起智能价值和力量同学这两件事嗯
我觉得理想同学和自动驾驶甚至后面的智能工业反正是理想相关的所有的智能的东西它都是在机座模型上的一个应用的体现我有一个机座的模型这个模型它有了理解世界能力有了非常多的这种
知识的基础之后在它的基础上我去做智能驾驶做理想同学做智能工业都是可以的就举自动驾驶例来讲我们将来做 VLA 这个将来是多将来
就是现在就已经开始在做预言了一到三年之内大家会看到但是 VLA 就是终局嘛我不知道一切都是需要有一个机座模型为基础的就它代表了你这个企业的就是你的核心能力就你对这个世界的理解和对这个知识的掌握程度然后在这基础上你再去学怎么开车怎么做对话怎么做机器人怎么去做我觉得是这个能力嗯
对我不知道说的给大家清楚没有就是
我需要这样一个机座模型然后协助我去做自动驾驶协助我去做理想同学而不是说理想同学我这训一个这么为理想同学的模型对对对自动驾驶训一个自动驾驶模型这个是不可能而且呢将来的人物智能现在智能我觉得还是太初级了就是我这边比方我训一个 VRM 它只是自动驾驶的 VRM 它换个场景就不行了嗯
将来的智能一定是出类旁通的它是一个非常全面的智能比如说我想训自动驾驶自动驾驶我前面有个井盖井盖掀起来了漏了窟窿就这么一个场景如果
如果说我现在用自动驾驶的这个方式去训练的话我要收集很多的井盖这种一些训练但是如果说我有一个机座模型的话它对整个物理世界它有基本的理解的它是你刚才画那张图的世界模型那个地方吗不是它是一个完整的一个大的模型就是我上面说的 VLA 就是端端端加 VLM 合在一起的那个模型
实践模型都是都是他的一部分他给他们提供那个知识在哪你跟我画一下在基座最底下这是那个我们的 MandenGPT 这是我们大模型在上面长出来很多的东西嗯
对其中有一个叫自动驾驶我的自动驾驶里边有我可以是一个 VLA 对吧加一个世界模型我的 model 什么东西或者里边再有什么再有什么再有什么但是这些都是用他的能力去做的比方说这是理想同学这是什么这是什么这是什么现在我们是没有这个东西的就每个人都在训自己的东西这样的话你这个领域的知识他是不知道的这个
这个就是每一个领域之间知识是没有互通的我们希望是有一个统一的基础的大模型他什么都知道比方说那些井盖什么东西的我就不用说交给他这是井盖了在这里边他知道这是个井盖这是个窟窿这是个危险的区域我用他的能力之后我再去做自动驾驶公司所有的知识我这边的数据
和架舱的数据和工厂的数据和什么数据或者说现在互联网的数据我们统一的都放在这 MangPT 的一个超大的模型里边他就把它训练好训练成一个有综合知识这样一个理解能力的模型有没有数据对这里是自动驾驶这里是力量同学后面还有一个智能商业和智能工业对吧对我们所有智能的东西都可以在上面长出来现在 MangPT 是说它现在还不够 ready 是吧
现在非常早期它强大到什么程度上它才能成为这个所有的机构它首先要把所有数据都进来把多模态实际上它是多模态的它既有视频又有声音又有文字又有图像等等反正就是它多模态的这样一个数据都能进来然后其次是它要涵盖所有的领域自动驾驶领域就是过去十年有特别多的纷争你觉得为什么
特别是百度系出来的人各种官司创业公司里面闹矛盾其实我觉得其他的也有 OpenAI 也走了不少吧像是说 AI 领域吧我觉得所有技术领域都是这样的为什么呀
因为技术当它没有得到验证之前大家可能就是有很多的分歧对其实你现在能记住的是莱特兄弟研发了飞机对吧但是你知道在与此同时还有一个做飞机实验的人你知道是谁吗
你就不知道了对吧你只知道第一不知道第二其实那第二当时他们得到了资助好像还是洛克菲德学的还更大呢对吧其实无所谓的就是到最后留下的技术就这样那么交流电和直流电分成也很厉害吧特斯拉跟爱迪生是吧两个人可能爱迪生还用了些卑鄙的手段对吧我就非要
推进用电信电信用什么用交流点是吧我就直播而且还或者就是找很多记者来看你看交流点你把人电死所以说直流点最安全
就这些技术分担其实不是说现在自动驾驶什么 AI 它才有从古至今都是这样的只不过就是那么到最后一定是这种竞争我觉得我们不能只对它负面看我们看它正面正面就是督促大家是吧更快地迭代和提升自己的能力而且呢能
真正的改变人们的生活的一些体验那么到最后谁改变的最好这个技术可能占上风我觉得你的职业生涯很有意思你前面在百度后面在理想你为什么当时会到理想你会觉得百度代表的那种就想做 L4 平台的公司他们能 work 吗我觉得这个可能不是跟公司有关系跟我个人有很大的关系
你说就是我在百度待了 2013 年 4 月份去的嘛可能五年时间差不多快五年时间这五年时间你问我说老板你做了那么多事情你觉得最兴奋和最有意思的是哪一件事我觉得还是我刚去做街景的时候虽然很累但是我做完街景之后呢
我能感觉到的是这是个产品我做完之后我当时很兴奋的就是给我的同学朋友家人就会说你赶紧打开百度地图是吧你能不能拿个界面点开这是我的工作现在我还是很自豪的说百度地图打开街景你看到了所有的图片都是用我当年写的代码处理的我觉得这是我最兴奋的就是给我给了我多少钱什么就值位没关系但是
我们成立了 L3 事业部之后我们定位一个点是服务于车厂什么跟车厂联合去做 L3 的一些研发当时我从百度出来原因是因为我还是希望自己的技术能作为一个产品落地能为千家万户所使用我当时在百度看这些车厂肯定不行但如果其实当时有一个点我觉得是可以如果百度自己造车的话我觉得可能还是行的但是时隔多年百度才造车的那时候他也没造
那我就出来看车厂我现在我觉得某种意义上讲我来理想的这个目的还是达到了的现在起码市面上有一百万辆车是我这个团队做的作用驾驶吧所以说当时我从德州走的时候只找车厂国外车厂我觉得还是不想去就是要去国外它核心情况在国外国内车厂又就是传统车业又不行其实最终你只能是新实力在新实力里边
只有三家其实当时我好选也不好选也好选所以就跟理想聊了一次就行了所以说那现在我觉得还是可以的至少是积的格的但是前后边能不能做成优秀良好那就看 L3 L4 做的怎么样而且我想问你的是你为什么能在这待这么久别的公司基本上都换过两三茬了对啊而且你们一直像是一个落后生然后你又待了很久嗯
我觉得就是还得看你相不相信这公司的战略和眼光吗我跟响哥其实聊的最多的就是先定好了自动驾驶的思路和战略我们不是说一上来就怎么样而是我觉得有节奏有打法的这是第一个我觉得我在这还有很多事要做还没做完
那么第二我觉得对于我个人成长上这公司对我也非常有帮助来理想之前我觉得我自己就是一个可能看起来还不错的一个研发人员或者是一个技术的工作者虽然说我在百度的时候那个 title 也是什么总监或者技术总监什么经理之类的但是我觉得其实那时候还不懂
管理我觉得不懂管理的意思不是说我不懂技术什么而是说你不懂作为一个很好的管理者首先你要学会定战略战略完了之后才是你的业务的打法有了业务打法之后你才会怎么去构建你的组织去完成这个这个战术的执行这是一整套的一个管理的思路和理念的的学习和
迭代是在理想完成的而且我觉得现在跟着理想再往后走的话这个还得持续不断的我个人的成长和进步还在这所以说我觉得我去别的地方没有这样的机会再去做成长而且我觉得想到最好的一点是
真的这个我觉得你跟他接触久了虽然说可能有的时候脾气也不太好但是我觉得我脾气也不太好这个不是最重要的马斯克脾气也不好乔布斯也脾气不好这不是最重要最重要是说他这个人真的是他能把他的思路和想法以及战略和战术的一些知识能毫无保留地跟你去交流
而且如果说你这边你给他反馈给他建议他也愿意很愿意去倾听和理解的我觉得这个是我觉得非常好的一点但是肯定还是从他那输输了比较比较多所以说是我自己个人的思路和成长有了很大的提升我觉得我刚来的时候肯定是
还是能力非常低的现在我也不敢说自己能力高只是我相对自己来说能力是成长了非常多的特别是在管理的这个思路上他今年为什么开始这么认真地学 AI 是今年开始的吗应该是今年
今年我觉得有两个契机吧第一个就是我觉得我们在端到端上的这些突破和成功使得他更重视人工智能他虽然他原来也觉得人工智能非常重要但他看到人工智能这些成果是吧一个方面是 openAI 那边的一些高高猛猛进的拆 GPT 那些东西那个可能还离得自己比较远他身边有一个端到端加并的东西是吧
我觉得他那天施压完之后也是很震惊的那么另外一个就是我们也觉得就是人工智能时代整个行业是吧也都起来了我觉得他也是这两个方面促进他一个身边的成长一个是整个行业的成长军人智能什么这些东西确实是都发展得非常快这颗银子的恩典叫我
我会尝试
好了这期节目就是这样如果你喜欢我的节目欢迎前往小宇宙苹果 podcast 腾讯新闻喜马拉雅 QQ 音乐订阅张小俊商业访谈录如果你有其他想邀请的嘉宾想听的内容或者你有任何想探讨的话题都欢迎各位听众朋友们在评论区里留言那我们下集再见拜拜
i can take my love