自动驾驶的技术变化是非常快的但是座舱好像好几年没有大创新了技术卡在哪呢最核心是能力没有大的变化下那其实座舱做的就是关于一些体验上的小修小补大模型最热那一波的时候可能看到说 AI 绘图上车包括什么换壁纸这些功能上车但实际上只是谈话一天就过去了用户呢其实是又懒又聪明的
他会下意识去选他最低成本最高效最好用的方式到 25 年我们一年要发 100 个版本什么概念我们一周就要发两个版本如果平台还不做抱歉我们去年就已经死了绝对领先的技术架构能够对应绝对领先的产品体验吗是的做仓的话我是相信最近一年时间里面能显性地感觉到什么是真正的智能汽车大家好欢迎收听云剑 talk 我是王海路
上周小鹏发布了三颗图灵芯片的技术架构其中两颗芯片给了智能驾驶还有一颗给了智能座舱我们今天要聊的就是座舱里的这颗大算力芯片我邀请了小鹏副总裁互联网中心的负责人魏斌聊他的尊定状在智能座舱里堆 700TOPS 算力之后如何把产品体验做到断层领先欢迎收听
魏总先跟大家打个招呼吧大家好我是小鹏汽车智能座舱的魏斌这几年是一直在负责整个智能座舱的技术体验还有创新工作前几天小鹏发布了三颗图灵芯片的技术方案然后两颗是给自动驾驶
还有一个是给座舱除了你们目前还没有一架车企把 CNN 芯片用在座舱里所以小鹏是怎么考虑的然后这颗芯片是干嘛用的其实在发布那天也讲到了关于 VLA 加 VLM 的整个的大的架构其实大家可以理解为就是整个的三颗 XP5 芯片的核心服务于自驾和座舱两个部分自驾因为对于算力有更高的要求它可能会占用一到两颗的 XP5 然后另外一颗独立 XP5 是完全服务于座舱的
我们内部里面也管它叫做座舱大佬或座舱助手相关的应用座舱除了图灵芯片还有一颗高通的 8295 这两个芯片它们各自负责什么其实我们是这么考虑的座舱仍然保留了高通的 8295 芯片核心在于整个 8295 芯片里面对应上等的
软件的安卓体系里面它整体的软件生态都相对比较成熟比如有大量的这种生态应用什么的这个都不是不需要独立开发的所以它仍然靠高通的 8295 承载了座舱大部分的基础应用比如这里面看到关于座舱大屏的基础的交互
生态的应用包括对应一些基础的语音交互的一些能力另外的话图灵芯片其实做成大脑的一个芯片核心是服务于说对应 AI 或大模型这种关于密集计算类的这种业务和应用的那如果直接用高通的芯片它不能做你们想做的这些大模型的算力补购还是什么对 核心其实是关于算力上的一些要求我们现在能看到行业内里面大概有
基于高通 8295 双 NPU 的情况下有大概基于 1B 到 3B 左右这种参数量模型的一些应用但是这个对应的整个模型的大小其实是不及我们的预期的
所以这也是最早跟小鹏讨论说需要有一颗独立的 XQ 芯片来服务于座舱大脑一个根本原因座舱大脑预计需要多少算力我们现在预期的话是希望说座舱大脑本身能去承载百亿参数的这种大模型这比现在市面上现在现行的可能规模要大几倍百亿参数量它对应的算力是多少
这种算力这里面其实看到底怎么用其实这里面我觉得关于算力因为支持量就是按照等效算力里面整个单克 XV 大概是在 700G 左右其实这里面我们现在看到说关于做仓应用层面里面我们基本上能帮这算力基本能用满
那这个芯片在开发的时候它是针对置架还是置仓的还是说它就是能够通用的能够通用的最早的时候其实在芯片的架构之初的时候其实也有考虑关于大模型应用所以这里面其实对于自驾和座舱而言其实是通用的
但是其实就是支架和支舱的需求是不太一样的吧增加是对于稳定性主要性这些要求更高座舱应该是不需要在这方面的能力很强对对所以呢就是在 Trapi 的架构上其实自驾呢有关于安全性层面它有关于算力容易的部分但是对于座舱而言的话其实这块现在看必要性没有那么强
那你们用自己的芯片未来有机会把高通这个拿掉吗不会我们可能会长期考虑在会保留现有座舱域的这个芯片刚才讲到关于它的整个软硬件机器的结合以及对应丰富生态其实我们认为在这个阶段也没有必要说因为根据自研的芯片我们再独立去做一套因为这里面会有巨大的投入其实
整个的 ROI 会比较低且未来我们也不认为这个层面在于现有座舱这种基础体验上我们能形成巨大的差距所以现在来看的话没有必要会长期保留高通人间生态能展开讲讲吗这个人间生态比如这样因为我们看其实你做了一块芯片它只是硬件它并不是说提供算力就能服务于上层的软件
那需要使说真正的软硬结构是要从最底层的这种驱动对啊包括整个的这种所谓的比如说安卓系统还要做一些适配包括对应上面整个工具链包括所有的调试工具以及说稳定性安全性方方面都需要考虑那其实现在来看刚才说我们整个我们并不认为在传统做仓的基础线层面
我们能跟这种竞争对手能形成明显的差异所以我们并不认为在这个领域里面我们花大力气去投入这是有独特的价值的比如说就是 QQ 音乐我自己想把这个用小鹏自己的图灵芯片上做一个 QQ 音乐的 APP 这中间需要
哪些步骤对那比如这么讲其实现在我们看到说 Q 音乐它只是一个应用对吧但比如说现在基于说图灵芯片我们基础的操作系统是 Linux 那在这个上面要去构建说要去找 Q 音乐去合作说能否提供基于 Linux 版本的这种 Q 音乐
那也得看对应整个生态厂商愿不愿意配合去做这件事情他们自己是基于安卓的是吧对现在我们看到车载领域里大部分应用都是基于安卓体系的因为有之前对应手机体系里面比较好的一个基础那整个迁移过来相对来说成本会低得多
所以就问题就在于说 QQ 不愿意为这么几辆车去开发一个 Linux 基础上的 QQ 音乐因为这里面其实除了生态软件自身适配以外小鹏本身也要提供基础操作系统在上面去构建比如说为了 Linux 我们要给软件厂商要提供对应的 SDK
要给他 API 的手册对吧他才能现有的 SD card 去开发自己的应用然后这里面其实现有的厂商里面大家大量成熟的可能也就是基于 Windows PC 的基于 Mac 或者是基于说安卓手机这种应用开发另外一篇应用它可能就意味着大量的投入但是对应的整个收益可能又没有那么明显
所以从生态层面这只是一个核心的考虑另外就刚才讲的就是小鹏自身如果说基于自研芯片要去把整个机器打通对应的整个软件的投入也是非常高的但是我们并不认为说在这个层面的投入能形成足够的这种差异化或领先优势所以我们并不认为这个方向是需要去走的
所以高通在座舱领域还是非常有统治力的对我们也看到说整个做高通的整个的业务方向里面其实在传统的手机基带这些方向之外的话其实这些年的话在重点在车的方向里面有大力的投入
至少中長期裡面座艙的基礎應用這個體系還是存在的
且这个体系里面我们其实跟行业内跟经营队可能很难形成显性差异的话我们没有必要在这个地方去重投入维持现有体系做好的体验就可以了而我们重点是在于说围绕说自驾围绕中端大脑里面去做关于说围绕 AI 大模型的这种体验创新我们这个认为才是将来重点的方向
小鹏在发布会上提到在车上跑 VLA 和 VLM 模型 VLA 是支架的模型 VLM 我理解它主要服务于座舱可以这么理解那就是介绍一下你们的 VLA 模型它的技术原理和模型的参数
VLA 这块我觉得可能这个问题回头你还是跟李云那边去聊吧因为 VLA 那边我了解的相对比 VLM 对 VLM 那边 VLM 那边其实先讲一讲业务的一些预期和判断然后再讲一下技术层面其实刚才讲到说 VLM 其实我们预期是希望说将来小红汽车真正会具有自己的座舱大脑
它真正的去能去说深度的理解用户的这种需求以及说甚至说在基于中他感知的体系下它能对于用户这种潜在的需求
能进行更主动的一些服务这是大的一个业务逻辑我们希望说有一间副驾上做的让用户感觉到副驾上做了一个真正的一个助理能帮用户来去处理说用车行车过程中相关的一系列的一些需求这是我们的一个业务预期然后从技术层面实现的话其实核心就是我们刚才讲到我们最根本预期是希望在车端去跑这种百亿规模参数这种大模型嗯
这是我们对核心的目标然后当前来看的话基于这个参数量的话也是现在当前行业内第一的而且是通过小鹏那边四线芯片来去达到的所以这个我们会认为就是相比刚才谈到的行业内当前 1B 到 3B 的这么一种参数量的这种模型应用我们会有显性的领先且基于说对于 Scanning Law 的一些基本法则的理解其实参数量越大
对应了算力和数据越大的情况下那模型能力越来越强那对于整个用户端需求的理解以及对应了整个体验就会比以往会更好或者我举一个很奇感例子我们现在对应的车辆其实都有空调的都有自动挡也就是 auto 那一挡但实际上到今天呢没有任何一个客户或用户对于车内的这种自动空调是非常满意的
对吧那其实对于将来多能大脑真正上车以后我们核心目标是什么是真正能不能解放用户让它真正变成这种所谓真正的这种智能智能空调我举个例子比如说现在就像今天北京现在外面在下雨对吧那有可能因为说车内车外温度的差异什么的有可能会造成说潜座上会有雾这种情况对吧以及说外部温度的降低那车内对应空调温度其实应该时时降低或甚至是关闭空调
那现在的话有了座舱大模型以及对应了整个动物在感知体系以后我们能拿到外界的这种温度的变化车身的一些实时的空调参数这些变化以及舱内啊
啊舱内的其实待会可能会聊聊 OMS 啊可能会看到说车内对应乘客他的衣着的这种饱厚对吧他穿了多少衣服他的衣服的轻薄程度来去综合决定到这时候空调我应该是自动为你调整还是这时候不做任何动作且呢因为端侧大模型的上车我们能将这种频率能可能能甚至提到秒级每一秒来去做整个周边环境的分析来去给用户判断我要不要去调整你的空调的温度啊
这是一个比较具象的 case 我们希望有一天的话用户在用小黄汽车的时候其实不用太关注空调的存在才能在不同的环境下比如说冬天或夏天能给你自动提供适时的温度
今天的系统为什么没有做到这一点今天呢其实有几个方面第一呢是说关于现在整个它是没有综合这种感知能力的第一它没有那么想感知比如说现在虽然有车外的一些温度参数但只是说只是拿到一些温度数据本身呢其实这些参数本身也在车内没有经过这种复杂的计算来去根据用户需求来去得出一个最终结果所以现在第一是感知能力不强第二是现在的计算能力不够强嗯
所以到今天我们基本的这种所谓的空调逻辑还都是相对比较简单的一些基于规则或一些简单算法来实现的但是并不能真正达到用户的预期比如说尤其像北方在这种秋冬或春秋季这种国际的时代经常会发现用户去手动切换空调比如我对典型操作是说一般到了
到了大概五六月份我会手动去打开车里的这种空调功能但一般的话可能是不开空调的只用通风的功能就可以了
OMS 在这个产品双性里面起到的作用是什么?OMS 其实你可以理解为它是一个摄像头但是我们可以抽象的意味它就是车内的眼睛车身本身具备了车内的眼睛能力来去观察车内的一系列的变化比如说后排是不是有人睡觉了如果睡觉的话那是不是说我能自动将后排整个或者整个车音量相对降低
对吧以及后排发现有人睡觉的时候呢就是这种情况下我去说是不是要适当去调整一些空调的温度对吧这是一个摄像头去观察后排的情况对我们其实对于综合大脑思考就希望是说呢其实综合大脑它像一个人一样它既有很强这种逻辑思维啊这种决策判断能力以及呢它要有很强的感知能力因为跟人的整个的这种决策逻辑是一样的我通过的五官对吧这种感知能力我知道外界变化是什么依靠大脑的
这种比较高的这种预算能力来决策我此时此处我要做什么其实整体逻辑跟人是没有什么本质区别的你是怎么解决隐私的问题其实这是我们在去上端测芯片的时候一个核心考虑就像刚才讲的 OMS 层面里面因为它能洞察到车内一些变化
而用户对于隐私又是高度在意的但其实如果说没有端测芯片可能往往就需要把这些数据要上传到云但一旦上云用户对于隐私的担忧包括它的合规性都会有巨大挑战所以这也是我们上端测芯片的一大考虑就是所有 OMS 相关的视频应用都是在端测在车内完全就解决掉了这个数据你们也没有是吗对我们也不需要我们只是在车内处理好就可以了
我记得我之前采访过一个 AI 能力很强的做枪的公司他说这些你能做枪赚不到钱唯一能赚到钱的就是卖 DMS 和 YMS 为什么会这样
其实是这样因为不管是 DMSOMS 其实在车里面都是比较强的感知能力因为感知的能力的增强哪怕后端运算能力不够强的时候我用一些低段的算力我也能基于这些图像输入我能做一些符合用户需求的一些功能这是以前的一个模型因为其实说白了光有算力不解决任何不解决全部问题
我们需要感知到整个我们会抽象的意义为是关于车外车身和车内三个维度这三个维度里面所有感知信息的变化才有可能做出下一步不同的决策来真正帮用户解决问题这是它的基本逻辑所以像为什么说 DMS 或 OMS 更重要因为它有很强的感知能力它可能知道车内此时此刻发生什么以及帮主动用户去做一些单点的或者一些场景化的一些功能
我补充一下 DMS 就是驾驶员的疲劳检测系统它实际上是给自动驾驶用的但实际上它装在了座舱里面座舱里面其实在人家层面里面也是能用到一些的比如说关于说基于 DMS 能不能适当去调整一些用户比如说车内有一些 HUD 对应的设备的时候能不能实时帮用户自动去调整一些设备的一些投影高度什么的其实都可以服务的
所以这个是你们部门互联网中心需要去开发的一个产品功能 DMS 是 OMS 现在是互联网中心是正做当地门主要来去开发的然后呢 DMS 现在前阶阶段里面主要服务于自驾还是自驾的那种自然业务中心的负责
这种是不是可以比较成熟的直接从公司上采购成本更低呢其实用传统的这种 CV 小模型对应了其实只能做一些基础的一些标准动作检测但是未来的话我们希望说 OS 转变为车内真正的用户的眼睛
那这个时候呢其实对于整个泛化场景的需求要求会高得多所以只靠传统工程商能力是不可以的所以我们整个模型里面在做仓域里面其实应该是可以这么讲应该是 OMS 加 VLM 这一个强强组合来去真正体验它的一个更大价值一个是眼睛一个是大脑对嗯
当然了眼睛只是感知能力之一其实像车身所有的传闻器的数据包括我们会跟自驾共建关于车外的这种图像感知其实都是在去增强它的核心的感知能力
车外的图像感知是用来干嘛的呢比如说车外其实举些简单 case 里面就是外界是不是有什么在对应的天气的变化比如说突然有这种所谓的就是下雨什么的其实在这种情况下你是能帮用户来去主动做一些提前主动服务的在这种层面里面不管是车外还是车内其实最很有感知能力像车外比如举个例子比如说用户在路边停车这个时候比如车外周边有积水
那这时候在用户有开车意图的时候我们其实可以主动提醒用户车外有水你需要稍微小心一些其实都依赖于很强的感知能力
我又想到了一个就是识别前方这个车是什么车这个其实小峰在去年里面就已经做过一些应用了但是其实说白了这个东西它有它的价值但是它的价值本身有没有这么大我们更希望说聚焦于真正大脑和比较强的感知能力上说有真正能帮用户解决更多的问题以及让他的用车会变得越来越舒适这是我们的核心目标
但是现在的技术现在所有产品我觉得都没做好你觉得为什么呀那这里面核心的是关于说对应的整个的数据的输入环节以及说给的大模型的数据是不是足够充分还是不是说真正的因为决定大模型能不能认出这样出来核心是在于数据整个数据加训练这个环节那这个层面里面其实有没有足够东西来真正帮用户来帮大模型来去做出决策好
马路上跑着什么车这个数据从哪来呢这个数据里面其实从一些公共数据里面甚至说可能从一些所谓这种所谓像类似于汽车之家的这种数据他们其实就可以了其实可以用的对那应该大家已经把体验做得很好才对了为什么现在觉得它是不是也不准这里面其实核心问题就是关于这个场景它价值的大小哦
前面的车呢其实实在有价值但我们放到它是一个娱乐的价值对放到整个的用车生命周期里面发现它的单点价值其实并没有那么大这个就像可能像去年大模型最热那波的时候可能看到说关于什么 AI 绘图上车
包括什么换壁纸这些功能上车对吧其实都可以看到说昙花一现上车以后以后大家其实说吧觉得他可能看到对于行业对于用户来讲看到是一个关于单无形应用但实际上只是昙花一现就过去了这核心问题在于就是对于他
长期价值的判断以及跟用车场景的这种价值的结合到底够不够大你说在车上可以绘画吗可以但问题是说可能我们有多少的机会或多高的频率在车里面去做这个东西那比如说我在家里面我用派对我用手机做一些事情其实不是感觉会更好所以你能判断座舱里面排名前五的高品刚需是什么
投屏当区其实在座舱里面其实最典型的就是除了行车案件外最合理的就是导航音乐这是关于用车场景的最合理的所以未来的话回想说整个更智能的导航整个智能的音乐或者说这种媒体内部的消费这个层面里其实也是重要的一个发力的方向
更智能的导航怎么做呢现在的导航其实核心都是依赖于地图厂商的一些 SDK 它提供了标准的能力比如说选择 POI 的终点然后规划导航这么一个传统路径但是除了标准的 SDK 的能力之外的话其实你很难从地图上获取更多的信息那么其实下一阶段就属于需要跟厂商
汽车厂商需要跟地图厂商有更深度的获得,具体大型行业层面的理解甚至说基于 NCAP 或 ATV 这方式能去获得更多信息有举个例子比如说通勤场地我大概情况下我是不需要你的导航引导的我可能更关心的是它的路况
我到底走哪条路线它的拥堵情况如何那未来结合大模型用户的话能不能给出用户在通行前能给到用户说 OK 你可能常规走道路大概是这么两三条对吧他当前拥堵情况是哪个走哪条路会更好
我可能直接帮你选的那条路其实对于我来讲它需要不是导航它需要是整个通勤线路这些盖栏的信息以及说对于这些信息的分析结论是什么这个才是可以来里面真正从出行层面里面结合大模型结合地图厂商里面汽车厂商需要去探索的
他们需要提供给你们的是什么这里面其实我觉得可能也涉及到未来汽车厂商跟地图厂商之间到底协作模式以往是通过 SDK API 的方式来去调用功能那未来的话可能我们可以预期说过程中通过 MCP 以及最终应该是通过 A2A 的方式来真正的说完整整对接你比如说关于通信路线路况如何我可能画了三条路线我可能会告诉对方的 agent 的
然后这三条路线现在整体的通行成本怎么样的你帮我给的返回我这些内容然后我们来处理以后来告诉用户你走那条路更合适甚至他可以直接告诉我将来走那条路更合适他的通行成本和代价是什么样子 A2A 你们这边的 A 就是你们的 VLM 模型可以这么抽象一些他那边有个 agent 吗
对将来其实我认为是说跟三方应用之间应该都是 agent to agent 的方式 A to A 的方式来去协作将来是什么时候这个时间其实并没有一个准确的预判因为现在业内我们看到更多的生态应用都已经向 MCP 通过这种协议封装的方式再去做了但是真正往 A to A 的方式里面需要说各个三方厂商里面对应整个大模型能力的建设需要跟业主做这种高度匹配这个可能需要时间但时间上可能现在还给不出一些
准确预办因为对于每个厂商而言它的整个对于大模型的这种匹配它的能力的提供需要的根据业务复杂度它的周期是不一样的三年以内我们能看到的更好的导航的体验是什么以及对应的合作模式
回到导航本身其实现在我们看到都是基于标准 SDK 对吧那其实说从出行导航层面里面我们分了所谓的也就是说巡航或者是导航那个模式因为巡航通常是去的是关于比较熟悉的地方
导航去比较陌生的地方现在都是基于标准的 API 来去完成的我觉得未来的话其实借助整车交互体系的变化以及借助有 ARH 的这种更新的这种设备上车的话其实当前对应更核心的设备更关键的信息其实通过 ARH 这种设备更简洁地投出给用户在我看来可能将来对于导航语音播报的需求也许会有一些显性的降低因为我们有更直观的这种交互设备
导航员语音确实挺烦的很干扰听语对我们能看到大部分老司机在慢慢降低对语音播报的这种需求甚至有用户极端一些就把导航的播报给关掉了对吧这是以前的这种模式但是未来比如车端里面关于 HUD 关于 AR HUD 设备上车以后我们能把导航场景下用户跟关键信息直接投入在他眼前在解决安静的前提的时候他可能就不需要
那么多的语音播报来告诉用户怎么去走了因为语音播报也只是说导航信息传递的一种方式我们现在有了可能会有了更好的方式那这种交互体验交互模式甚至会发生比较大的变化你们的 AirHot 是跟华为合作是这款车还是后面产品可能都会这样这个后面的话会有陆续有车都会跟华为联合合作为什么和华为合作
我们跟华为合作其实很简单的逻辑是什么就希望强强联合因为华为在整个光基的硬件层面它有更强的这种技术积累的支持而小鹏在于说对于做商的体验在于导航在于软件层面有更深的这种积累我们希望强强结合能做出不一样的东西这也是在华为前年跟华为定点之初的时候我们双方就达成了一致
那也能看到说这一代 AR 导航出来以后显性能和做的是比市面上常规的产品都要更好啊我希望有时间的时候你也可以去嗯我们新的机器上去体验一下从 M9 上体验过是比较不错的嗯
你们应该是同一个产品对吧不是同一个产品虽然都是基于大概其实从光基硬件来讲其实我们也是基于最新的产品硬件上会有一些领先以及软件上其实我们对于 AR 理解这么讲吧其实本身做仓这个团队里面前身其实有部分成员是做导航的他对于整个的导航
就人开车的一个场景里面对于地图导航其实有更深的理解所以在这个基础上我们对于整个基于 AR 情况下这种导航我们也做了大量这种摸索和创新工作最终形成现在这种随机于这种 AR 车道级的这种导航产品其实我们认为这应该是从人开车从导人的场景下一个比较中局的产品形态行业有第二家供应商能做这个事情吗
其实这里面对于华为更多是偏于硬件一部分引擎能力的这种依赖更多这里面其实是小鹏自身关于软件上的创新这个也依赖于自驾比较强这种车身的这种以及关于外观是外来世界的这种感知能力的结合所以我认为其实在现有体系下能做到跟小鹏一样类似效果的可能也就是比如说像
像华为像李江和小宏这么精精的机架您说硬件上指的是什么硬件是指的是光基 HUD 这个设备它的光基硬件这个设备行业里没有第二家能做吗可以做有 AR 的硬件但是在这种相同硬件之下能做好更好体验的其实我认为在行业里面可能是屈指可数的机架
包括其实你体验过 M9 的时候你也会发现回头你再去体验 G7 的时候你会发现其实在于 AR 上在这个场景上给用户这种传递信息的方式和价值你会发现它完全不是一个产品
就是就华为这个供应商本身跟它同类型能做硬件支持的光机这个设备的供应商相比差多少呢光机硬件厂商其实现在的话市面上已经出现一些接近于华为设备这样的供应商也不是像有一些小公司在做对包括说其实因为华为用的是 Lcos 这样的硬件厂其实现在有包括一些写投影一些厂我们也看到一些新产品其实对于小萌来讲我们核心强于软件那么
我们希望说能跟一年结果未来也不排除跟华为之外的一些厂商合作它成本差多少因为我一直听说华为的东西贵贵很多那为什么你们不跟另一家合作呢这里面其实在那个阶段刚才讲到说我们希望强强联手那个阶段里面我们在于想要在 AR 哈达追求效果当时其实只有华为是能配合我们做到的
我发现有一个投入效应就是你跟华为合作一个什么东西最后你做好了大家会觉得是华为做的好嗯那没有关系没有关系这个层面我们并非因为不管是华为做的好又不好真正小黄的车你只有上了小黄车才能得到一些独特体验大家可以自己去体会因为其实从发布会当天发布以后我们就能看到行业内不管是行业的这些同学还是说从用户层面大家能看到不一样的东西啊
是真正小鹏在去秉持创新去做不一样的东西我觉得这个大家是能感受到包括其实超过会现场超过会结束以后其实能看到跟我们合作的华为同事也非常高兴因为他们也一直认为说跟小鹏合作是能做出不一样的东西的小鹏的 VLA 模型是在云端训练之后征流然后部署到车端的那这个 VLM 模型是怎么训练的其实类似的大致类似的逻辑
它对应的整个不管是基于 VLA 或基于 VRM 对应的音法层面里面包括它整个的体系其实没有太本质的差异那它比如说它的训练数据训练的方式有什么不同呢
训练数据肯定是不一样因为面向的场景完全不同一个是面与自驾看到更多是关于外部道路外部一些感知数据而对于整个座舱而言的话我们的外部视觉其实依赖更多是自驾的 VLA 的能力座舱室内部的其实也会看到所有的这种数据资料什么的包括用户用车的这种使用习惯的数据这种训练数据都是完全不一样的
你可以以为本质上它是两个业务所以它对应整个的数据局新年数据的其实是完全不同的那它的模型的参数量呢
你指的是云端还是端侧的对 就是小鹏说用在云端随伴的一个 721 参数量的机座模型就是机座模型是指的也是针对机动驾驶的是吗不是 这里面是 VLM 里面用的也是 72 比的模型自驾模型从我云端征流到它的端上它会更小因为这里面可能引出一个概念其实我会类比为 VLA 和 VLM 一个是类似于快思考一个类似于慢思考
从自驾层面里面更类似于快思考的模式因为它对于外界情况的变化需要做出实时的响应它需要更高效更快捷基本都是毫秒级的来去完成这些任务但是对于座舱而言用户的需求其实更在于它的
需求本质的洞察逻辑的合理性以及是否真的达到用户的预期这个层面其实它相对的思考周期会长我们会更类似于慢思考的逻辑所以这里面比如说做商就像刚才举例的关于空调的这种例子里面你比如说一秒能帮用户去
轮旋一次去做一次整个情况这种梳理我们认为时间都是 OK 的但是对于自家而言它的效率会要求会更高得多所以从整个云端模型整个下来以后其实放到端上的关于 VLA 跟 RM 它的模型应该是完全不同的刘博士在 CVPR 说的是小鹏在 LM 模型的基础之上自研的机座模型所以是在这个机座模型的基础之上长出了一个 VLM 一个 VLA 模型对
可以这么理解本质上其实都是一个基座只不过根据业务的不同它会有给大家讲数据的不同整个训练方法不同最终导致包括说蒸馏方法这一系列不同以后你拿了两个不同的东西但本质上从基座能力上讲出来我一向用过 VLM 模型但是是用在自动驾驶上和他们的多要端模型一起他管多要端叫快系统管 VLM 叫慢系统
但是它的下一代技术就是用 VLA 取代了这两个系统不是特别一样我们为什么用了 VLA 和 VLM 这么一组合其实这里面就关于说关于场景核心场景的本质不同就刚才讲自驾其实需要对外界实施这种变化要做出及时高效的一种响应的而对于整个舱内里面用户需求这个场景里面对于用户场景其实它不需要那么高的实现但是它对于整个的这种场景的复杂度
这种情况的这种什么要求会更高所以这里面我们现在现实上认为这两块叶纹其实是应该是属于一个长期并行的状态
所以我们用了 VLA 加 VLM 一个组合的模式本身就刚才说的关于一部分业务核心是关于快思考模式另外一部分业务是关于慢思考模式的一个考虑其实我们认为基于大模型在车的应用不管是自驾还是座舱应用现在都是一个起步的初期
这个时候其实更讲的是说关于快速摸索和快速实践在现阶段里面是否合成一个其实我们并不认为是短期是一个更影响方案但如果长期我们认为可能是一个方向所以短期的话我们仍然会用 VA 加 VLM 这种组合的方式各自有个人快速向前去运营什么快速迭代快速实验
VRM 模型预计什么时候能上车呢预计模型今年的话 Q3 左右你会看到能搭配新车就会有上车的版本了 G7 的图灵版会同时上 VRM 对 G7 包括后面后续要发的一些新的车其实都是新产品都会带图灵系列的 VRM 组合
但是可能不同业务上车的节奏会有一些区别以及后面其实因为本质上小鹏也是家互联网造车商所以对于后面整个 OTA 会快速迭代其实我们一定要比较详细的计划只有图灵版本能做到对吧对 是的英伟达版本也是做不到的对 因为图灵因为英伟达本身讲的原有车型的英伟达芯片其实核心只是服务于自驾且自驾算力都相当紧张
所以并没有多余的算力能去服务于左向那边 VM 模型上车之前你们的你好小 P 就是用规则去写的算法其实是这么理解就是从去年开始的话整个的传统语音交互里面语音端的关于 NRU NRP 的部分都已经其实是完成了大模型的一些期缓
所以这里面已经能完成一些用户复杂的一些指令一些理解但是因为它强依赖于云端模型端模型里面其实更多的还是能做一些基本语义的一些理解
偏向于规则和算法这些东西等于现在车上跑的也是模型但是是云端的是的布联网呢其实只能完成基础车控不依赖于布联网请求服务这种的其实在于车端是可以完成的比如说车身控制的一些技能指令这个在车端无网的情况下都是没问题的
那以后的就是在车上不联网能够完成所有的完整的功能可以完成大部分功能但比如说我要请求说云服务去帮我播一个歌什么的这个肯定还是需要但是大部分的本地的需求不予待于云端服务的其实靠端测大木星都是能在车上解决的比如说基本的这种用户的聊天啊这些内容其实都是没问题的他到本地之后他的体验就是用户能感知到的部分就一定会比之前好吗
其实我们会相信因为从整个的大温上车以后它整体带来的这种智能化体验相比以往会有显性的提高这是我们一个比较明确的预期因为以往其实很多你可以理解为现有的这种车端体验更偏于被动式就是你发出一个请求你为一个 query 然后车端理解你的需求做出响应这么一个简单的模式
但是未来端侧大模型整个的 VRM 上车以后它能根据不同的场景把你相关需求做这种主动分析来做一些主动呈现
比如说上车迎宾环节里面其实上车一课里面比如说像你的座椅空调这些问题都其实能帮你去做自动调整甚至说你的上次在继续听什么的歌对吧以及说对于说今天头条新闻让你不想预期理解的整个的这种比如说关于迎宾的场景里面大牧行可以帮你一系列的去处理而不需要你一条快日一个行就一个行就这么去
其实语音的话就是说白了就是对应大模型上车以后那它对应了整个的这种所谓的这种情感化 逆人化包括说未来的这种多语言多语音 多口音这种问题其实显现的会比现有现阶段的这种传统模型多出效果会好得多
然后呢包括对整个自由对话的能力因为随着大风行车以后对于用户的语言语意的理解会有显性的提高那这个层面里面其实像以往模式因为依赖云端的时候可能也跟云端链路它想时间呀什么的其实无关系对吧那现在靠端层模型以及 OMS 这些多模交互手段接触的话整个语音交互体验相比以往是有显性提高的嗯
那可不可以说就是联网的时候大家的体验可能差不多但是断网的时候你们就是断层第一
因为你们在车端把算力推满如果说仅是从语音交互这维度里面我觉得可以这么去理解但其实整个 VRM 上车以后它提供的能力增强不仅是靠语音因为到今天其实我们可以认为不管是做成大屏还是靠语音它其实为什么叫整合了 OMS 以后它其实只能是讲它是交互手段它是交互介质但本身交互本身不产生独立的价值
这要看说依赖于交互机制上面跑的业务是不是给用户带来了这种价值的提升我举个例子比如说像导航以往的导航的话其实是用手机导航现在切到大屏上其实它并没有本质的区别
直播承载的这种媒体这种介质变了它仍然是说 OK 按照传统模式说 OK 找 POI 找终点然后发起规划选一条路然后去导航因为没有大屏的车就迈不动了这是另外一个问题这是因为交互体系的升级带来体验的升级但是说交互本身如果说抛开了地图这些业务场景外交互本身其实是没有价值反而是这个观点但其实反过来讲就是因为现在整个车机交互体系硬件的变化
这种带来以后其实我们能发现很多显性的体验相比以往是有明显的比如说其实在真正开电车之前因为我是做手机导航的之前在做手机导航我也在考虑说 OK 我们都会认为说车机导航是将来的方向但是我们也会担心说从手机的导航迁移到车机导航里面
会不会有概括会不会有困难以及说用户有没有足够的动力去迁移但实际上说发现整体交互体系升级以后用户从手机迁移到车手发现
反而成本会更低体验会更好你比如讲我会以前在手机上去导航的时候可能跟车上最密切互动出来可能就是类似于说安卓 Auto 或者 CarPlay 这样我用一个投屏对吧不管是用有线投屏或者无线投屏但这个层面里面你可能仍然无法解决关于终点输入搜索规划的一系列这种问题但这种场景你可能更多是在手机上完成然后只是最终把导航那个屏幕投到车机上这么一种体验
对吧当时如果说不去开新能源的车不去用整个新的交互体系你可能发现也不是什么问题但是等上了新能源的车你会发现这个体系迁移其实成本并没有想的那么高反而更快最核心的比如说关于导航的终点我不用再去手输入地址了我直接用语音发出一个命令直接就导航去了
对吧最后发现这是整个交互体系升级后会发现整个原油体验会有这种巨大的升级反而没有那么高的这种前期成本所以导航和语音还是最近我感觉十年来吧座舱最大的创新对 是的或者历史上吧之前的车也没有什么座舱对 是的我们可以看到说最近几年里面最显性的关于交互体系座舱层面的升级其实就是关于语音跟业务的结合
有一些车企他们投入了很多精力去把车上的语音做好然后他把它变成了一个手架图那其实 DeepSeek 也在做一样的事那如果他把它做好之后拿到车外它有别的价值吗价值肯定是有的因为语音就像今天的话其实比如用户关于大模型使用比如像豆包其实对吧这些大模型的应用其实我用的也很频繁它果然肯定会有它的价值但是我们要思考的是我们本质上是一家汽车厂商
汽车厂商在这里面的话涉及到说确实场景上涉及到车跟手机的联动那这种联动场地下我们怎么能把它的核心价值和体验做好这是我们要思考的但是我们并不意味着说要做一个传统的这种机器大模型这种的不管它的一个语音助手或者说引擎什么这种这个其实并不是小黄那边明确的方向
你们的这个座舱大算力加 BY 模型上车之后你觉得从技术架构上看是行业里绝对领先的水平吗一定是的一定是这个我很自信到目前里面因为我们之前新变的上车在现阶段在车端能部署这么大端凑模型的
那就是绝对领先的技术架构能够对应绝对领先的产品体验吗是的这个是直接可以划等号所以我们预期是希望说到今年下半年吧这时候大家拿到的小风 760 看到它整个做工体验会跟线路车性能待机差嗯
这个感觉是很容易划等号但其实现在自动驾驶力不是的因为我们看比如华为这一代自动驾驶的技术架构它其实还是规则的但是它的体验可以走到头部的第一梯队你们肯定觉得会是一个落后的技术但是它的体验能够领先
这个要看是说是短期目标还是长期目标长期来看我觉得其实大家都是认识所谓的断断钝或 VLA 这个技术方向的其实认为在更远长期方向上它是能形成足够深的这种技术壁垒和积电的所以我觉得方向是方向上的判断短期的话比如就像说线接的语音体验光靠规则也简单小模型也能做到一个还不错的体验但问题是它的天花板是有限的
未来你要想过更要发展可能那就必须要去切换整个技术展技术体系了所以我们更认同的是长远的技术方向是什么差距会在什么时候拉开呢关于自驾体验拉开这个可能我没法做仓的话我是相信最近一年时间里面能显性的感觉到什么是真正的智能汽车
一年就能看到断层领先的体验一年我相信这个时间周期一年而且这个方向呢将来其实就像就像 20 年小方去提出全场领制成语音一样我相信一年之后的话应该是大部分厂商都会去追寻这个方向
他们应该追不了因为他们没有在车上堆那么多酸碟这个是因为涉及到车是一个更长周期的硬件产品那可能时间会更晚一些对但是我们也能看到行业内里面经济上上上其实有一些类似思考上上他们会追得会更快一些小鹏应该最开始这个技术架构也没有想过说我要三个图形里面还有一个给做操了
所以改起来还是挺快的吧对 其实呢因为这个我们分我们分业务逻辑和硬件两个要围住去讲吧其实几年前的时候就有关于做藏大脑的一些思考那时候就跟小朋友有过一些持续讨论但是因为当时对应的不管是硬件还是软件确实跟我们预期差异过大它其实当时是落不了地的
然后硬件层面里面其实在整个业内大家更多聚焦的都是说怎么服务好自驾对吧但其实我们在同步思考的时候发现就是因为大模型因为像类似 X5 这样的图灵这样的芯片出现它可能它可以更好地满足桌舱所以我们也在快速往那方向去做一些转变我们也相信行业内我们是最快的
因为自动驾驶的技术变化是非常快的也变化非常大但是座舱好像好几年没有大创新了技术卡在哪了明白其实座舱对应的不管是硬件还是算力这些年其实没有显性的增加它跟类似于说传统手机这种对应了整个的硬件性的一个迭代一个趋势和节奏在这种情况下其实能力最核心是能力没有大的变化下
那其实在整个业内我们看到座舱做的就是关于一些体验上的小修小补一些精雕细琢对 觉得这产品做完了对 因为在能力有基础变化之前的时候其实所有座舱体验里面都是偏这种便利式的
像这种泛画式的就是我们想到一个场景我们加一个场景因为自身讲整个业务模式和底层能力就是这样的你必须明确告诉它场景是什么编辑条件是什么你的衣服是什么你的 else 是什么它当然是有实际输出这就是以前的整个业务模式所以在这种场景下其实很难能看到座舱它的体验有这种颠覆式这种变化
但现在其实为什么讲基于 VLM 里面会有大的创新代表变化是因为它底层能力变化导致整个业务模式的变化我们不再需要说考虑这种便利式泛化式的方式来去提升用户体验
是在大模型航空出世之后有这些新的思考的是的你们对于这个新的座舱技术的研发是从什么时候开始的这个其实大概在一两年以前那时候其实就慢慢开始实践了但是因为车刚才也讲了它是一个长周期的一个硬件产品甚至它整个的从最终的思考有一些出入的一种雏形到最终落地其实需要一个很长的周期你们不能直接把 Deep Seek 接入到车上吗
GIF-6 其实它的整个森入塑料这个逻辑里面其实它跟用车的场景还是有很大区别的
因为车里面比如说还涉及到更多的比如说我要对车有深度理解我要知道说至少要告诉大模型这个车要怎么用它的很多参数过来什么意思怎么理解对吧应该怎么正确去调整它这个都是说不能直接拿出来一个开源的一个公共模型放到车里面直接去用的一个核心原因所以这个直接拿 DeepSeq 用或者直接拿其他一些开源模型用其实它只能是因为它是更纯粹的文文模型所以还是因为它不好用
我以为是因为它有成本并不是成本的问题这里面核心是说跟业务的匹配度因为现在车身里面大部分这种跨域节奏可能你可以理解为可能就像这些所谓车上的地图或导航音乐这种它给你都是一些 SDAPI 一样你只能去直接去靠这些 API 以前是靠代码靠硬逻辑来去写这些东西但现在直接来一个大模型它仍然对这些东西它无法理解
那这里面就需要说在一些机动模型上我们要去针对用车的场景以及车的本质性特质要去做这种独特训练和加强才有可能让他知道车的整个体系和逻辑是什么对吧比如举个例子比如说关于车比如说怎么加玻璃水
对吧他可能说从机动模型来说有些基本的一些信息但是小鹏这辆车比如说 G7 是什么样的他这有什么样的一些特殊要求他应该怎么用这个都需要说针对车型来做一些独特的一些训练和处理所以大模型厂商在车上是收不到钱的因为现在的话整个的基于开源的模式里面其实靠模型本身其实是很难挣得到钱的为什么特斯拉一直不注重他的座舱体验呢
这个问题其实在于就是说可能不同公司里面对于义务方向对于用户体验的重视度有多高啊我理解呢可能说的有点武断了其实海外厂商里面对于整个尤其像美国的厂商对于整个座舱包括他的车的内外式很多方面其实他对于体验的细节他没有那么在意啊可能跟文化什么的一些是有些是有些关系比如说到今天特斯拉整个语音交互都非常都非常拉胯啊
但是跟国内比它的整个预金其实根本不在一个维度上对而我们呢其实依靠自身这种比较怎么讲我们对于体验的自身的重视度我们对于整个体验的投入以及国内厂商卷的程度都不得不逼把你逼到这个份上因为再看来其实特斯拉核心目标并不是为了造一辆车
造车只是他的过程手段来造车是为了支撑他更远大的包括机器人什么的所以对他来讲造车可能只是一个过程
想到之前有一个经典案例就是一个推销员去一个都不穿鞋的岛上去卖鞋结论是打开了市场那对于中国的这些电动车厂商而言那是不是在海外能够把这个需求打开呢你们觉得我相信是的因为我们前一段时间在欧洲的调研可以看到就是其实我们对于座舱的一些体验对于座舱智能化的一些理解海外的客户是买单的
直播因为一些原因现在整个海外产品的座舱的自动化体验可能跟国内还有一些差距比如说基于语种和语言方面一些原因但是随着整个座舱大模型里边关于 VRM 关于 XV5 硬件的上车其实我们相信大概一年以后海外整个小红汽车的整个座舱体验也会有显性的变化海外的座舱做到和国内这个标准是不是比自动驾驶要容易很多
维度不一样但确实讲呢比如我们现在看到关于语言的这个巨大的差异其实也导致了说整个做汤的体验会有很大的变化因为可以看到国内的语音语言你有现成的训练数据吗语音对不只是训练的语言因为其实像国内的语音体验做到今天不管是新之列还是多少今年其实是有将近大概大几年将近十年的这种即时积累嗯
所以带了精神但是海外的话因为语言巨大的差异所以这方面的话整个的这种
这种整个语音的体验差异就会差很多我们海外的同事海外的客户也会问我为什么在拿 YouTube 上一些视频来告诉我为什么国内的车可以做成这样但海外的车不可以这就是最核心最底层的一件事因为语言上有一些差异尤其是语音交互体验上就是系统听得懂中文听不懂英文是吗对因为按照传统的业务架构里面这里面你可以认为每一个语种每一个语言都是需要单独去处理的
但是上了关于新的硬件和大模型以后我们希望未来说将多元合一的方向来去统一处理但基于传统的 AISR 和 NRU 模式下其实大家整个体系都是一样的其实未来比拼的是关于多模型大模型上车之后大家整个的语音体验会不会有这种颠覆式的提升和变化
为什么 AI 已经可以直接把人说的话去翻译了但是这个产品体验做不到呢它只是做到基本的语言的翻译但就像刚才讲你整个从用户的这种语言的识别翻译以后到整个对于车的理解怎么去用最终给用户一个什么样的一个结果或回馈包括这里面整个练习的这种实质性其实是很重要的
其实在整个车落地的时候它会遇到很多不一样的问题我们现在看到的这种互联网上这种语音端到端的其实它只是纯粹的聊天但是涉及到车你要让大模型去懂车以及用户需求到底是一个纯粹聊天的需求还是说跟车控相关到跟车怎么去结合到怎么能快速响应以及给用户一些回馈这整个链路里面会与传统这种语音的对话聊天会复杂得多
所以在本地在车上堆租多多算力它也是全球化战略的一个最重要的一环是不是是的而且这里面也有另外一个判断就是海外的整个的网络基建会比国内会差得多我们也要适应大部分网络不好和无网的情况下能让用户得到一个进步完整的一个多档体验行业公认的下一代租倉应该长什么样子有几个大趋势
其实我觉得看来是说是从产品层面的这种产品层面产品层面其实我觉得就是因为刚才讲嘛就是现阶段里面座舱里面其实都属于被动交互的其实我觉得最显现变化是什么将来这个座舱里面其实应该是被动交互加主动交互这是整个智能座舱下一阶段的一个显现的变化不只是说
当一个开车或者坐车的用户提出需求的时候能得到满足那对于这种用车环境下潜意识这种相关的需求潜在需求那其实都是可以更主动满足用户我觉得这是一个未来一个显性的差异那你们把你们心目中的下一代座舱的想象实现出来现在都需要解决哪些问题在这里面其实挑战很多嗯
其实关于比如说第一是关于硬件的算力是不是能打足够高因为这个方面在打模型应用其实大家都预期算力是越高越好没有时间第二是关于模型对应能力的匹配其实现在的话就是真正从模型里面拿到一个适合车端驱动模型的这个过程里面其实还要做大量的工作
不管是它的数据在积累啊,训练啊或者有正有到指望的车端这边需要做大量的这种积累和工程的工作
再一个就是刚才讲到说关于整个用车体验层面里面关于可能刚才没有展开比如说关于用车层面的一些主动服务这些服务其实以往都是一些零碎的场景和数据这些数据里面能不能结合大模型能不能整合好能不能包装出给用户真正觉得智能的体验这里面其实跟现有的体验模式
不太一样或者甚至说是完全不一样那这个层面里面我们也在考虑说怎么能给用户传入因为以往其实你是让他说什么让他干什么但现在其实用户通过服务员的这种请求什么用户只想要的是一个结果过程中可能省略了大量这种过程对吧你比如说空气就还是拿空调距离以前用户是直接调 24 度到 26 度那现在的目标是我调到一个你喜欢适合你的个性化的温度
比如咱们俩两个人在车里坐着你可能跟平安宇合适体温可能是 26 度我可能行行 24 度对吧在这个层面里面怎么能把这些用户的个性化偏好这些数据里面结合能用好给用户觉得是一个真正好的实证化体验这是比较难的地方也比如说
你上车每天把你的温度给你设定到 24 度或 22 度你醒来觉得这个并不好对吧实际上他帮你做了很多但是你并不觉得他个性化真正懂你所以这个层面里面其实整个智能化这种体验包装到最终落地其实里面还有很多工作要去真正去实践去落地的再一个就像刚才说的生态层面我们确实有很多
很多对应的业务需要三方的一些联动对吧那么那现在关于整个业务间的联动到底说什么时间能得到 A2A 的方式对吧过程中或者说通过 MCP 或这种协议来去对接这个过程里面其实都是一些显现的困难要慢慢去克服的以及呢刚才我们其实中间几次聊到关于说用户的这种数据隐私啊这些安全的一些保护都会让这几个问题其实刚才谈到这几个方面都是未来里面需要去大力克服的
问题还很多分享一下之前的经历高德在高德干了确实很长的时间然后可以抽象理解为高德业务其实我们那时候大概定义为前中后三层后其实很好理解就是地图数据终端是关于引擎
上前也就是关于整个用户产品我们看到的手机 APP 或者是车端的这些 SDK 什么的关于前重的模式然后是整个三个模式里面其实三个模块里面我这边都有参与然后最近离开高德的最近三年里面其实一直在参与的是用户产品也就是高德地图 APP 的一些相关的手机 APP 对手机 APP 然后我当时负责的是出行业务也就是大家最熟知的是关于导航
高德大好这块因为高德一直以来历史的根本其实就是大好以至于说
在大街上去问大家的时候大家可能脱口而出的不是高德地图是高德导航就是这个原因再往前在阿里收购高德之前的时候它更像一个传统图商它更进入于说地图数据关于数据资质地图数据的采集偏后端的模式后面的话跟阿里整合以后慢慢是像一个互联网厂商真正做一个地图服务的方式来去面向大家所以看到我们今天仍然是说国内应该是排行第一的然后大量用户去使用那个高德地图 AVV 大家可能看不到
中端引擎和后端数据大量的工作看到就是一个 APP 在上面可以去选择地点可以搜索可以去打车可以做一些周边信息一些相关的一些服务所以图上未来汽车业务会增长还是会变小呢我认为未来应该是会一个增长的趋势因为未来的话行车的话其实对于车对于地图数据需求应该会更多样化
包括说其实我们一直在去努力在 SR 里面去构建一个虚拟世界因为其实现在说白了 AR 里面更多是跟现实世界的贴合 SR 里面更多是跟虚拟世界里面来去做这种表达和结合这里面其实我会认为将来其实对于地图厂商而言应该是数据需求应该是会更广泛且对于数据的这种精度和细节要求应该会更丰富这个方向去走的
他们现在在做这些吗因为他们上一波想做清地图高级地图不用了清地图也不用了这两场仗都已经输了是这样的就是关于之前说的做清楚什么其实是核心是关于自驾与地图能力的结偶对是比较强烈但其实我觉得从未来场景来看的话那比如你们讲就是像人导航就需要地图数据一样的那比如说后来又做了车道级导航是一样的其实人对于现实世界这种精英化数据其实是有需求的
那只不过就是跟车身的这种感知能力相结合他们之间未来是一种什么关系我觉得这个可以再去讨论但是我觉得地图数据你比如像感知数据你都是只能做进场的感知对吧那比如说我要找一个附近的几个麦当劳
对吧那这个东西肯定还是要地图数据来去协助我来去完成这些需求所以我认为将来的用户这种端空需求里我会觉得地图数据的这种需求反而是说会更广泛且数据的丰富度应该是越广越好因为我们高度的希望车未来能去自动化的去干一些事情那这个其实核心都有对于数据上的一些依赖为什么 22 年的时候加入小鹏这里面其实有关于
导航这个场景有一些长期判断因为在地图行业里面已经干了七八年了然后呢因为上一个周期里面手机硬件更快的迭代更新所以大家看到比较奇怪现象是车上都放了一个手机手机里面再装了搞得地图是这么一个情况那是因为上一个周期里面对应
汽车的硬件没有跟上所以大家反而去用手机来去解决车上本应该解决的东西然后呢我们会比较坚定地认为将来地图导航尤其是人开车导人这个层面里面它的终于一定是回到车上所以当时在 21 年左右是 20 年的时候就有这个想法后面的话大概是 21 年底的时候居然讲和然后加入了小鹏我们也一直希望是说在
车端在用车的场景里面能将导航做得更加极致所以这可能也因为是这个很基础的想法才有了前一段时间面试的一些 ARH 的一些车道级的导航
我们对于整个导航对于人去开车人去驾车的一个场景里面有一些更深的理解结合现今的这种 AR 哈的这种设备硬件以及结合一些地图厂商的一些基础能力我们也推出了新的这种 AR 车机导航我会认为这是可能是更终局的就是导人就是人开车的这种操作方式你刚来小鹏的时候当时是什么感觉
刚才小鹏那阶段里面因为二十年的时候其实是小鹏汽车最困难的一个阶段然后当时整个做汤的情况其实也会有一些他自己的一些历史原因当时其实整个的历史的这种积累包括平台化一些工作做得不太好
所以那里面你看的是说历史包括会多一些大量的问题需要去解决包括我们现在今天我们看到小风汽车有很多的这种车各种款式的比较多但是当时的时候因为小风汽车只有那么一两款两三款车但即便这种情况下整个团队因为对应整个业务基础打得不够牢靠所以整个的这种
新车的这种适配啊包括老车的体验解决都非常头疼所以你们人员规模这几年有一些变化因为随着现在车型的并行交互的压力现在并行的车型你也知道小鹏现在车比以前多了很多包括到今年未来明年他还有很多新车要去发布所以我们整个人数会随着这种车辆并行的节奏会往前低等以及说其实未来关于创新上的这种加大投入
对大模型的人应该都是要新招的嗯对是的然后大模型是 C 的团队还是刘博士那个团队一块做了那两边都是那样因为面向不同的业务啊这里面会涉及到有有这个 AI 委员会我们会有些底层基础上的框架上音发上的一些拉通嗯啊
但业务层面是各个团队在那边自己在做人好招吗并不好招整个行业竞争太激烈了尤其像北京什么这些人才招聘机确实很困难你们是要从高校找还是去别的企业找一些有经验的都会有社招跟校招的方式都会有因为现在确实讲尤其是大部份相关的校招其实同学也会有自身的优势所以校招跟社招现在是并居
你去做导航地图的背景这个事情在负责一整个互联网中心的租仓业务的时候会给你有什么不一样的思考方式吗以前的话只是单一的应用只是单一的场景但是座舱的话其实说白了是应该它是一个更完整的一个用户场景在这里面其实整个用户用车开车里面它对于整个的这种场景变化其实跟你当导航是完全不一样的所以对于
对于产品来讲对于产品人员同学来讲其实核心的就是关于场景以及用户需求的他们之间的交集他们对应的想法这是最核心的因为说吧外面不离其宗对吧用户呢不同的场景下比如说原来说的以前是做导航那现在非导航派车里面关于人价关于车关于自驾在这种场景下不同的需求你核心是对于用户场景的动产第二就是用户场景下它本质的需求是什么是
这是最关键的这两个东西能判断清楚其实至于上层用什么样的产品去支撑或服务反而其实后面都是手段您在小鹏这三年回顾一下你们都做了哪些事情回顾一下这三年多确实比较辛苦这里面几件大的事情第一是关于平台化
这也是刚才讲为什么历史包裹比较重小峰当年其实尤其是在制作商委就平台化做的并不好平台化做的并不好就是带来问题就是很多东西都是定制化和客制化的东西再去像其他车型再去做适配或移植的时候难度会非常大
这个其实核心是说要基于不同车型的差异化需求去做一个通用平台化的一个系统和产品这是它核心逻辑但是以前通用性做的并不好很多东西都是专门锚定具体车型来去做的小木汽车有一阶段是最复杂的大家可以看到路面上有不同小动车跑的分别是它的 OS1.0 OS2.0 OS3.0 和 OS4.0
然后这些车因为它平台做得不好面对它去做升级的时候你要针对不同的版本要去做不同的升级这里面就会带来巨大这种工作量的投入和浪费我知道机动驾驶用过很多新品还有工业上的方案有一段时间是非常乱的
其实倒是用哪家倒不是最合适的关键是说基于你是否是基于说这种平台化的架构去做统一设计比如说关于说像不同的这种 CPU 厂商不管是高通的还是说基于这种 MTK 的你是不是在你的框架层面能去兼容而不是说完全差异化的做两套东西以前面临的就是因为车型差异化我们做了不同的三四套的
然后维护起来都异常的痛苦所以这里面最重要的是关于在去年 4 月份推出整个基于福瑶车型的平台化这是最重要的
之前是做互联网的人对平台化没什么概念不是其实反而说其实以往做互联网厂商软件的反而对于平台化有更深的理解因为你其实很难看到说比如说我们举例说高端技术 APP for 每一个手机型号我做了一款 APP 它一定是做了就一个我兼容基本上可以说我兼容所有的手机这是真正平台化的思路
但是小鹏其实之前至少互联网座舱那边积累并不好所以我认为这是当时一个历史暴风也确实花了不少时间所以你们解决第一个问题就是座舱平台化对然后的话比如说在关于 XOS 5.0 也就是去年发的一个真正的一个大的版本这是整个是说从
从做仓从以前解决基础问题解决包袱才开始想变成一样创新的第一步这里面基于说所谓一战是 SR 全顶有这种 SR 包括说分屏做任务这是在那个层面里面我们在业内里面首先提出的可以到今天我们也比较欣慰看到有些厂商在去模仿那些客户小房的一些对应做仓的商家一些图任务的一些整体设计然后其他的比如说还有关于
雷尔哈的其实也做了有将近一年半两年的时间时间也比较长然后其他的还有关于
智能语音的整个的比如说像小屁家一切我们在业内也首个推出了免换性方式不是一般意义的免换性是说在整个做汤里面你加上小屁的前坠或后坠你就不用再去做换性了你可以让他去做任意的操作他都能理解这我们也是在业内去首推的到今天也是业内里面唯一一家这么去做的
因为传统的这种唤醒方式在我们看来都是对于人机交互上极为不友好的一面到今天我也不认为在多场里面喊你好叉叉叉唤醒语音助手这是一个很人情化的一些场景所以我们用的是小批的闲赘再加后面用户的这种他的需求直接通过更人情化的方式来表达你也可以理解为就是即便是在车里面我想让我的我的
我的孩子或者妻子帮我做些什么事情我也会一般冲她名称在家后面类似一种更引人的方式来完成这种语音交互
我感觉做仓做的花哨很容易但是做的剪接很难是您的思考过程是什么呢就是如果我做剪法但是又符合用户的需求其实这里面底层逻辑最核心的就是比如像 AI 绘图什么你可以认为它是个能力或者是手段或工具对吧但里面核心问题是它跟做仓业或场景的结合以后它是不是真的有显性的价值或具体的价值
这是最底层的逻辑判断就像刚才说的刚刚 AI 绘画在车里面你说它有人用吗一定会有人用只要这个功能做了一定会有人去点用一次两次吧对但是用一次两次后就扔在一边了其实对于整个的软件的这种迭代创新而言像这种功能其实就没有太大价值对于整个性来讲上了这种功能越多你的包袱就越多
对吧那其实这里面我们还是说到底说能不能找到真正用户有价值的地方那就要去深耕如果没有价值那这里面核心就是关于判断和取舍了所以当时我们关于什么 AI 绘图关于什么换壁纸一系列当时我们偏向于认为是偏噱头一些功能我们都是要克制这个是一开始没做的有哪些是你们之前做了后来砍了的功能吗
做了又看了都能这些年不多之前好像有一个就是在车外有一个喇叭可以跟他说话干嘛那个现在还在吗是这样的就是以前做那个机器呢当时是一些历史原因有些可能我具体用我不太清楚但是那产品后续就断了因为它是有车外发声的能力它是并没有车外交互的能力嗯
它只是用了 ABAS 的音箱对外可以发声来去播放一些比如说行车过路或者住车的情况下一些音效这个是座舱的对吧这是当时座舱应该是一些点装创新去做的然后后面我们新车里面还会把整个语音交互体系真正我认为是说在车外跟车是有交互的需求的而在车外的话你无非是说通过语音这种交互介质或者是说通过手机 EP 来去完成跟车的这些交互但是我们认为这个场景是有价值的
所以后面的车型稍后的发布的车型你就会看到关于整个车外语音交互上的一些甚至在车外可以跟小区去聊天在
在车外跟车说什么其实说白了比如说点一个将来最典型场景什么的有的车位比较窄我自己去开会儿我那个时候小丽把车开出来她自己就把车开出来主要是拨车可以这是一个场景理解其实我们认为在车里面其实车外的时候其实我们的很多需求现在就像刚才讲的就是我对车的一些需求我要不然就上车去操作它
要不然就是通过手机 AVB 去操作但其实你离车近的情况下你完全可以通过语音的方式来交互这只是一个交互方式的一个变化但本质上用户的需求其实是没有变化甚至说应该他的需求会完成的更好就像刚才举例的小车你把车开出来对吧但现在的方式呢就像这种国车我是要来打开手机 AVB 要找这手机控车来去让这个车挪出来因为尤其像机械车位我们经常遇到车位非常窄对吧
我根本就进不去那这种情况下通过手机但是如果说有了更好的用交互方式那我连手机手机屁都没有我离近了以后其实车已经自动识别出跟车握手自动识别出我了那我无非是说通过语音方式让车开出来就可以了我们认为这种场景这种需求其实是存在的
一些车企他们尝试吧比如说手势操控类似那些包括绘图的不太好的功能它没有带来足够好的体验您觉得是主要是因为什么原因这本质上是对于说这个手段或这个能力跟车的场景结合以后它会不会放大这个价值那有没有可能是它没做好了其实嗯
我觉得有这种可能性但本身来讲我们跳出来看就像刚才说 AI 会图的东西我们到底认为它在车上是不是会产生巨大价值那手势操控呢手势操控其实在我看来一样就是到今天我举个例子比如说车里面在高度的所谓的这种大屏化软件化的时候到今天我们仍然保留了那些车窗那些物理按键为什么其实说白了对人来讲不管是用物理按键用大屏都没关系包括用语音它只是一个交互手段用户呢其实是
又懒又聪明的他会下意识去选他最低成本最高效最好用的方式对吧所以我觉得手势是一种方式但是我们看到现阶段里面行业里面做这些手势应用我只能讲就是技术层面可行但实际上使用价值没有那么大
因为确实不好用核心就在这儿并不是说他不能做而在于说他是不是说有找到用户认为更好用的方式来解决
我们看到说手势的一些操纵屏幕的包括说什么结合语言说把这个关上打开能做吗能做没有什么太高的技术门槛问题是有多大的价值以及说有多少用户会这么去用这是我们思考一些底层逻辑所以有的为什么没有做没有跟你觉得哪些是用户的非刚需哪些是可能是有需求的但是今天的技术和产品没做好
它有的时候是变化比如说我们看小的机器人前些年大家觉得没什么用但是有一些厂商它把它做好之后你就发现它的市场打开了就是没有需求和产品没做好它有的时候是转换的对 其实它中间是需要那什么不单是辩证去看的我觉得就像首饰我们一定不能说它一定没用但是到现在我们没有找到一种更合理的方式打开它什么场景要用它更好的解决这些问题我觉得这是我们需要去探索的
这个并不是我们上来就否定说手势交互这一定是没有用的对吧就像今天就刚才说的大量的这种软件化大屏化我们仍然保留了很重要一些物理开关物理硬件对吧就是因为包括说我可能还会个人层面还会认为将来可能会有一定的这种物理软件会有这种趋势都会认为什么因为对优步来讲它只是要找到一种最适合它的
最高效最好用的一种交互方式而已但至于是哪种其实他没有这么在意他不会因为说这个车窗因为不能用语音关我就觉得你这车不好用对吧因为他下意识在去找最合适的手段到今天我也相信车上你说语音能开关吗能只极个别情况下比如说手不太方便去挪的时候甚至是比如说比如说你同时帮我把四个车窗都关上这时候可能会用语音
对吧但大部分情况下单转手的我可能还会用直接物理按键这其实只是它的一个交互方式而已你们的智能座舱里边最得意的一个产品功能产品体验是什么最得意啊
其实我们我会认为呢最得意的永远都在路上对这其实怎么讲就是因为我们对于体验的追求是不断的往前去的我觉得如果说非要说现今的比较得意需求我还是建议去开一开 GC 看一看我们新的这种说基于我们对于地图对于人价理解的不一样的这个
他的一个 AR 哈的一个体验也有什么可以去可能现阶段非要说找一个相对满意的我觉得这个应该阶段性还算满意但是就像现在上流版产品我们发布会上也讲后面我们还会持续接待我们对于它的场景里面还有更多的思考但是无非是说可能需要时间需要后面慢慢 OTA 去更新但是我会相信这个团队在于做商层面在体验层面里面他是有更深的理解和有更高的追求的在巧鹏这三年最大的挑战是什么
解决历史包袱加上创新并行的一些巨大压力因为对于我来讲尤其是属于价值观层面的问题在我看来有些历史包袱是必须要解的历史包袱是组织调整吗不是不只是组织包括我刚才讲的平台化一系列业务的问题包括有些历史的业务逻辑做的并不好对吧你可能都要花大量时间去完成重构
对吧但这里面呢其实说白了你的资源肯定是永远有限的那这个层面里面如何去平衡关于历史包袱以及创新上的投入确实讲这些年却会非常的难但是从从我的理念来讲的话我是认为如果低级打不好那将来构建在上面所有的业务其实都是都是会比较虚无的所以呢我会认为
有些历史问题有些报告问题是必须要解好所以为什么在 23 年 24 年尤其 24 年我们投了大量的精力去做好平台化我会认为将来平台化做好我们将来才有可能活得更远那时候我也跟小鹏聊天要举个例子如果说 24 年平台化没有做好到现在我们已经挂了因为现在小鹏及时款车而我们 22 年 21 年的时候我们甚至一年
只做了一款车的对应的软件然后我们今年到 25 年我们同年制作规划的时候我们一年要发 100 个版本什么概念就是 50 几周我们一周就要发两个版本这就是今天命令的情况如果平台还不做抱歉我们去年就已经死了
所以在我看来有些工具是必须要做的这是价值观本身来决定的我是认为只有基础打好了我们未来才有可能跑得更快跑得更远所以必须要做所以那个阶段里面说难可能就是难的那个地方一方面里面有历史包袱的压力在另一方面也要有创新对吧它得需要方向
需要这种成果需要立正碑所以这个结论确实很难尤其是我们在决定做平衡化之前把上一个版本整体的软件架构都推翻了这里面其实面临巨大的这种声音和阻力但还好我们坚持过来你是直接跟小鹏汇报了吗是你觉得他跟前几年有什么不一样吗其实我觉得从底层逻辑来看我觉得小鹏做事的方式一直是没有什么变化的
直播这几年里面计算性其实面临的问题不一样小鹏在这过程里面其实面临巨大的压力包括整个大的组织调整包括整个战略规划上面一些核心的调整我们才有了今天包括
到大家看到大麦的 Mona 可能在二三年其实内部也是面临各种各样的生意但是大家也是挺不懂的为什么小鹏还需要一辆 15 万的车其实从最终的这种车型型谱对吧从整个的不同的价位的这种车型定位来看的话我们那时候真的需要这么一款车但是小鹏也说过自己造我们需要更长的周期我们可能就错过那个时间窗口了
但是我们为什么跟滴滴合作就是要靠金钱花时间才去抢这个时间帐篷从结果上来看的话这也是最近的一年里面小鹏从其他销量能看到一些显性的变化包括这个过程我们看到小鹏其实原有的车型都在发生一些巨大的变化都是核心其实是小鹏在后面去推动做仓序要考虑成本吗
当然需要考虑成本是你们互联网公司不止是自己研发成本包括对应多仓的整个的软件成本可能都是需要考虑的在车的汽车行业里面远比互联网对于成本要敏感的多这也是两个行业里面其实很显性的差别之一做互联网软件基本上
不考虑什么第一没有什么只有研发费用对第二就是研发费用因为它随着它的海量用户规模基本上摊销到每个人头上基本上可以约等于没有对吧你比如高级图一两亿的日活我整个投入摊销下去就非常低但是车不一样
每辆车里面上了不同的硬件不同的软件它都有帮忙是随着这辆车没卖这辆车得要付钱的所以对于整个成本的这种重视度会跟互联网会有显性的区别你们是怎么控制成本的这里面其实说嘛我觉得就是软硬件层面尤其是关于硬件真正说能不能带来预期的这种效果在于不同的硬件规格上这里面都有应该讲内部有无数的这种
这种讨论和争论对比如说一个图灵加一个高通 895 是非常高的成本但是我们会认为是说就是所有的成本其实是服于业务目标的
我们需要考虑说整个是 Trapio 上车以后它整个的预控带来的整体成本上升且对应这个成本我们对应推出的座舱的这种软件服务它能不能值回票价这种需要考虑就像说当初上 AR 的时候上 AR 上华为的一家也会面临着成本上的巨大挑战也有不少同事问为什么不能选择其他厂商那种便宜的产品
对吧那最终其实我要用结果说话用最终的体验是不是能真正做出差异化做出领先来去回答这个问题节目到这就结束了大家有什么想对我们说的可以在评论区留言下期节目见