We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 17. DeepSeek引爆AI应用,全民智驾和机器人时代到来比想象更快|类星频道X冯炉丹

17. DeepSeek引爆AI应用,全民智驾和机器人时代到来比想象更快|类星频道X冯炉丹

2025/2/20
logo of podcast 中欧基金

中欧基金

AI Deep Dive Transcript
People
冯炉丹
郑晓康
Topics
冯炉丹:我认为AI的春天已经到来,中国在AI技术浪潮中正从追随者转变为引领者。智能驾驶和人形机器人是AI应用最先渗透并改变我们生活方式的领域。 我认为高阶智能驾驶(城区可行驶)在未来一到两年内有望实现快速渗透,这类似于几年前电动汽车的快速发展。 2024年RoboTaxi成为兵家必争之地,原因在于其颠覆性的商业模式、高频使用场景和巨大的市场规模。RoboTaxi的落地取决于技术成熟度、法规完善程度、公众接受度以及对既有利益格局的冲击。 AI产业估值需要平衡想象力和实干,避免过度透支未来行情。AI投资可分为四个阶段:基础设施、硬件、应用和普及化,目前处于基础设施阶段的早期。未来AI领域,国产AI、AI新硬件和AI应用等环节将具有更多机会。今年AI领域关键词:智能驾驶扬帆起航,人形机器人从0到1。 我认为智能驾驶无需达到L4级别才具有价值,L2/L2++级别的辅助驾驶也能提升用户体验,具有商业价值。 中国企业在人形机器人产业链中具有优势,主要体现在供应链、硬件制造和研发工程师方面。人形机器人目前主要应用于B端,未来可能先在工业场景和高危场景落地,最后才是家庭场景。 郑晓康:我认为智能汽车和机器人的创新正在转移到中国,中国品牌更敢于冒风险将创新技术量产。 智能驾驶和机器人即将进入更多人的工作和生活,对科技爱好者来说,这是一个充满热情的前夜。 中国和美国的驾驶习惯、交通规则和交通环境差异巨大,这使得两地智能驾驶系统的对比变得困难。智能驾驶的开发路径主要分为两派:渐进派(从L2逐步升级到L4)和一步到位派(直接研发L4)。 激光雷达的作用越来越像安全带,其重要性在未来可能下降,但传感器方案的选择并非核心分歧。智能驾驶技术演进路径:从模块化结构到端到端结构,再到基于世界模型或视觉语言模型的算法。端到端结构的智能驾驶系统相比模块化结构,信息损失更少,性能上限更高。 世界模型在自动驾驶中的应用:一是用于仿真,不断生成下一帧图像进行预测;二是用于在车载设备上部署小参数模型。视觉语言动作模型(VLA)能够提升自动驾驶系统的泛化能力,更好地处理长尾场景。 无人驾驶要实现大规模推广,需要达到比人类司机高十倍甚至百倍的安全水平。L4级别的自动驾驶在未来2-3年内有望取得显著进步,但实现完全无人驾驶(L5)还需要更长时间。 智能驾驶是一个复杂的系统工程,需要关注产品、用户体验等多个方面,没有绝对的关键因素。 特斯拉在机器人领域选择自主研发所有环节,这与其他公司有所不同,其策略是长期主义,不关注短期营销。智能驾驶可以看作是智能机器人一个子集,人形机器人是AI与物理世界结合的终极梦想,可能也是人类的最后一个发明。 人形机器人的技术路径主要包括大脑(智能)和控制(小脑)两方面,目前两方面都还有很大的发展空间。今年对AI领域的期待:自动驾驶实现无监督驾驶,人形机器人出现端到端的通用大模型。

Deep Dive

Shownotes Transcript

大家好 欢迎来到中欧基金播客在这里你关注的好奇的困惑的投资理财问题就是我们想聊的话题

这几年我的一个切身感受就是,AI 的春天真的来了,几乎每年初我们都会被技术的新突破霸屏,从前年的 ChargeBT 到今年国人自己的 DeepSeek 震撼世界,一个很明显的变化是,中国也开始逐渐从追随者成为这场技术浪潮的引领者。从应用端来看,最先渗透并改变我们生活方式的一块应用可能就是智能驾驶了。

最近比亚迪也是宣布了将它的这个高阶制价系统搭载在全息车型包括 10 万元以下的车型我们或许距离全民制价的时代又更近了一步那另一个让科技圈非常振奋的应用就是人型机器人它不仅是今年春晚最亮的仔也是未来最具想象力空间的一块应用那本期播客我们就邀请到了相关领域的两位嘉宾分别是类星频道的主理人郑小康和中国基金的基金经理文物丹

我们想用这一期帮大家聊明白智能驾驶和人心机器人技术应用走过哪些路又进展到了哪一步未来会为我们带来哪些投资机会和生活上的改变希望大家收听愉快大家好 欢迎来到中欧基金播客我是主持人佳杰那今天我们是邀请到了智能驾驶和人工智能领域两位非常专业的嘉宾请两位先和听众朋友打个招呼

大家好我是类型频道的创始人郑小康类型频道是一家专注在心理研究和智能化的汽车媒体我个人也倾注了很多的精力在机器人和 AI 这个领域大家可以叫我小康

大家好,我是中欧基金数字经济的经营经理冯璐丹我这边主要聚焦的就是人工智能方面的投资我们在过去也调研访谈了很多人工智能上下游产业链的公司也让我们对这块产业的发展有了一个更深刻的认识今天也很高兴有机会在这里和大家一起来分享讨论大家可以叫我灯灯

小康,我知道你最近是刚从美国回来,体验了一圈海外智能驾驶最先进的技术,你能先给我们讲讲你身处全球最前沿的科技圈里感受是什么样的吗?

我参加 CES 其实时间带的不长比如说一个上海车站或者什么之类的你可能真正的把它逛透了可能要两天但是 CES 我待了差不多半天的时间所以不是一个非常具象化的但是还是有一个明显的感觉是我自己觉得智能化的这种智能汽车也好或者是机器人也好创新正在转移到中国

这种感觉因为我看了深刻的几个展台比较一个是极客极客带去了他们的三台车它是一个量产车我不是去上面秀一个概念不是这个意思我三台全部都是量产车

然后第二个是语速语速我去到那边的时候就是前差不多一个月内吧语速发了一个轮足机器人就是它那个 BRW 那台机器人它是语速最高性能的一台机器人就是你在那画面里面感觉非常运行非常炫就到处跑到处跳

对到处跑到处跳可以从房顶上直接跳下来但是他也不会摔跤或者什么之类他会非常快的稳定自己的让我想说的是在 ces 上他那只大狗就全程趴着没有动他出来秀的是一个小狗是那个我们大家都能买得到的其实他是已经开售了面向 c 都开售了一万块钱左右的那个小狗对就那么一个小狗他出来简单的爬一爬楼梯啊秀一下

哇里三层外三层围了非常多的老外包括极客展台所以这是我前面那个结论就是感觉智能化的机器人的智能汽车的创新在转移到中国当然有一些外国公司这些品牌大家展示这些东西你回顾一下跟 20 年好像区别没那么大展出来的东西但是中国品牌一个是我自己觉得更敢于冒风险他会把这些东西量产

因为量产和概念是完全不同的范畴你要准备供应链你要准备产线你要承受这个概念的产品量产化以后假设就是这是一种可能性就是没有收到 C 端的用户很强烈反馈的这个风险今天的中国的品牌会走在更前面那机器人的话我觉得是的就是波士顿动力当然也做得很好但是

语速我认为在几块做到第一个是低成本我认为这里边有中国的供应链的赋能吧算是然后第二个是语速对整个软件环境它做得非常非常友好也就是说全球任意的高效率

他们买回去以后你可以随意的去把语速内置的软件或者操作系统全部都删掉然后植入你自己的算法所以它是一个面向开源非常友好的这么一家公司然后它的四足机器人的出货量应该是 2024 年是百分之六七十差不多这个水平

所以就是前面那个观点就是说包括我自己除了 CES 以外我在美国也试了三天的 FSD V13 就是特斯拉最新一个版本的智能驾驶所以我觉得今天是一个前夜就是智能驾驶或者是自动驾驶和机器人即将进入更多人工作和生活的前夜如果是一些会比较关心和喜欢科技的人的话大家会对这个事情更有热情

我知道你这边也跟进了很多国内的这种最前沿的科技包括经常会出去调研给你可能最近一段时间你关注比较多的技术或者是给你带来觉得生活上工作上比较大的 AI 应用也好指甲的应用也好创新的东西是什么

就我觉得这几年确实是科技领域有很多新的发展就像 CES 展可能五年前大家去 CES 展逛下来就没有什么新的东西前几年可能围绕着科技一说就感觉好像手机屏幕大一点镜头多一点大家就觉得很无聊

这两三年的话我觉得各块像机器人啊智能驾驶啊还有包括生存式 AI 都有很多新的东西确实也让我们都比较兴奋就如果从最近调研去现场嘛可以分享我觉得两三个比较有意思的场景和东西吧就是正好上一周也去调研了一个人形机器人的公司

就是已经能够看到就是机器人在一个你工作的环境中就是搬箱子搬运这其实是很多工厂线比较通用的一个场景它其实就能够把箱子从 A 点搬到 B 点在指定时间上搬过去并且它的对齐各方面都很好

所以我想到可能一年前吧一年前去另外一个同业的机器人公司调研的时候他的机器人就更多还像一个 demo 和大玩具他行动能力啊包括智能化能力啊其实都还是非常非常基础的

对这一点是印象比较深刻的还有一点就确实是智能驾驶智能驾驶因为我们平时就是也会去试驾非常多的车智能驾驶我觉得这两年大家也能感受到的一个变化是你现在去走入一个

汽车的销售门店它的支架你可能在城市就可以开始试用了可能一两年前它的支架的功能都还是你要去开到高速场景啊或者更简单的场景才能用我印象比较深刻就是可能在两三年前吧因为很多智能驾驶它还是围绕着高精度地图的就是在陆家嘴这边我们试驾因为普通

大道是一条比较大比较宽的路它可能在普通大道左拐以后它自家系统就自动退出了因为它高级度地图可能当时就只做了普通大道到现在真正可能很多领先的企业都慢慢就全国都能开我觉得这个也是感触比较直接比较深刻的吧

对我觉得这里边其实有巨大信息差的就他刚刚讲的这些东西对于这个圈子里面的人来说是能深切地感受到日新月异的变化但是绝大多数的普通的老百姓其实又完全不知道嗯

这里边有一个信息差就比如说我们从制驾的供给段就这些车企上的意愿可能前几年还只能看见比如海外领先的企业在讲智能驾驶后面可能看到国内很多新势力开始讲自己的智能驾驶

包括有的开始标配可能今年我觉得就慢慢就能看到像大厂他们真正就又会把城区能开的智能驾驶就是整个搭配率又会上一个台阶那这是从供给端从需求端确实也像就小康刚才说的我们也很期待就是最后消费者对这个东西他们会是怎样的认知他们

我们认识完之后的反馈是怎么样如果供需能够有一个比较好的交接点的话能够共振的话我觉得就很有可能像前几年的电动车就电动化率它其实在卖过 10%的那个节点的时候它的整个电动化率其实就快速上升了那如果一切顺利的话可能就像高阶智能驾驶就我们说清楚一点其实城区就能开的智能驾驶可能在近明两连也能卖过这个节点

就能够快速的一个进行渗透率的提升我觉得这个确实也是很值得期待的我可能从小白用户的角度提一个问题就像我们刚刚聊的这个智能驾驶您指的是我们平时日常生活中我们开这些新势力的车会用到那些辅助驾驶功能吗

就是一个概念是一个概念我稍微拆分一下就是我们一个普通人上下班你会经历的场景就是从开发的角度至少是这么划分的就是大家都会从停车场的家里地库或者是地面都无所谓就是停车场的车位上启动

首先开出小区然后再进入公共道路进入公共道路在大的城市可能会上一下高架然后再下高架到了公司的地下停车场停到车尾上结束这是一个完整的行程你下班是反过来但是场景是类同的

那今天好的智能驾驶它可以把你这整个完整的场景全部都 cover 掉但是你全程都是一个辅助的角色这是 OK 的但是在 2024 年之前这都是不 OK 的比如说它中间会断点我们可能把停车场已经做得很好了但是从停车场到公开道路需要系统退出或者是人需要接管一下什么之类的

但是我们在 2024 年做的一个功能其实我觉得还比较字面意义吧就是车位到车位其实说白了就是从家的车位启动到公司的停车场的车位退出这是将整个系统在你的驾驶行程中再还的状态就是它启动的状态

我相信其实大部分的人甚至没有体验过智能驾驶更别说是已经完整覆盖的贯穿从家到公司这个形态的智能驾驶所以智能驾驶我认为迭代是很快的但是又不为大多数人所知的

就是我先可以做一个科普的概念就从技术和人参与的场景大家会把它分成 L1 到 L5 就比如大家现在可能也会看到一些宣传报的什么 L2L4 到底是什么智能驾驶这里可以科普一下就 L1 到 L5 是怎样的一个东西呢 L0 呢就其实是讲的就是人完全直接开这个就跟智能驾驶没有关系那 L1 呢其实就是指的

辅助驾驶就是驾驶员还是要主要精力都在开这辆车的操控但可能这个车在前进或者停或者左右方面的他可能有提供一点点的控制就比如说车的一些 ABS 防爆死系统其实这就是 L1 的功能到 L2 呢大家一般会叫他说这个是部分的辅助驾驶

它就能执行一些部分的任务就比如说它能同时完成车前进或者左右方面的一些操作就比如说像车道居中保持还有像 ACC 自适应巡航其实都可以算这个 L2 的功能然后到了 L3 的功能的话它其实叫的是有条件的自动驾驶它其实就是在特定的场景中自动驾驶这个系统它已经能够完全接管驾驶任务

但它还是需要人类的驾驶员作为一个后备这里 L3 其实就是一个比较重要的划分因为到了 L3 这个时候就会存在一个责权的问题你这个东西如果出了事故到底是驾驶员负责还是车企负责还是就提供技术厂商负责

所以我们可以看现在我们能接触到的很多的智能驾驶其实它都是集中在 L2 到 L3 之间的因为现在很少有车说出问题了因为这个也需要法规还有各方面的完善啊所以说大部分我们都会说 L2 或者类 L3 可能在某些场景已经到了 L3 但其实权责划分呢其实你还是会属于人类司机自己包括 L2++类 L3 其实都是属于这一块的

智能驾驶大家现在就说的比较多然后到 L4 级别的智能驾驶呢它就是真的可以车机在很多特定的场景就能完全进行智能驾驶了真正到 L5 就是全场景它就能完全进行智能驾驶了所以就是有这样一个概念呢然后再说回到一个技术路线的选择所以 FSD V13 就属于是 L5 的级别没有没有 FSD V13 还是在类 L3 级别哦

这是对于普通用户来说有一个简单的判断标准就是 L4 就意味着这个车上可以有方向盘但也可以没有因为你全程都没有驾驶员切入它这是 L4 那 L5 的话就是意味着比如说你把它丢到沙滩上或者是草原上

他都能定位同时他也能开出来他不需要完全需要路那我们现在应该还没有到达我们没有量产的 L5 的车我们 L4 的车其实也本质并不完全有就是 L4 的车也就是

一些 Robotexy 的车我相信大部分老百姓其实没有体验过的但是在大量的省会城市再加上北京上海这样的城市它都有高新区在上海的话有些小范围的小范围的限定的像武汉前段时间小红书上比较火的罗布快跑国外的话有 VIMO

对从定义上来说是 L4 的车嗯因为他们在主驾上有驾驶员的时候也只是一个安全车驶员的角色但是很多时候他们也没有驾驶员了对就逻辑上到 L4 的车就是第一排其实是可以不用坐人的就是这个车自己在跑嗯

那现在我们国内的这种最先进的智能驾驶大家都很想知道的一个话题就是和海外这种最顶尖的相比的话大概分别是在一个什么水平还是旗鼓相当还是怎么样我来说吧因为我刚试完了 FSD

显得比较有发言权有底气一些或者说我回来以后跟我走之前的心态发生了一些变化跟预期的还是有很大不同因为我走之前也是抱着一较高下的究竟哪个系统更强的思路去的但是去了美国你发现这很难对比本质来讲是因为美国本身是地广人稀这听起来有点像中国的一个子集就是

我在第八集而你在第一集你要打怪打到第八集你才能遇到中国因为中国的话我相信如果大家在收听的人你是在武汉广州你在成都包括在上海包括深圳的华强北这些地方生活工作的人都知道在这些城市里面开车有多难开大部分时候大家是一定程度上其实是忽略教规的是完全靠这个

理解然后去预测在我车辆周边的其他车的驾驶员的驾驶意图完全通过这种博弈来完成驾驶行程的但是美国是反过来美国虽然地广人稀这一点是比中国弱的就是它少了非常多的博弈场景它也没有那么多为了赶时间多送一单快递或者外卖乱穿的

外卖车然后也没有三轮车也没有老年代步车这个东西呢在上海其实稍微少一些但是在北京或者是山东那边就非常非常多

但是它只要在马路上出现就是一个你需要去注意的一个东西但是在美国这样东西非常少但是美国做自动驾驶难点在哪呢就是非常强调路权比如说美国有 stop sign 就是停车标志中国也有停车标志但是我们的停车标志相对较少我们大多数的路口都是用红绿灯去界定的

美国用大量的停车标志然后每一台后到达停车标志的车要让行先到达停车标志的车先到达停车标志的车它会先启动

这样就极大程度的避免了博弈但是又意味着需要模型去理解这里边非常多的隐含的驾驶关系比如说当我是后到达的那就意味着我一定要先让他如果我是先到达的他必须得让我类似这样的非常多而且模型在美国开车一套自动驾驶系统在美国开车他不能犹豫

一旦犹豫是会被视为就是没有真正的融入交通然后就很容易被驾驶员去接管所以这里边有很多相对复杂的问题但总而言之简单概括就是美国和中国的驾驶习惯交规还有交通环境都不太一样所以我认为 FSD 呢它是一个在美国跑得非常好的系统我们在

美国三天的时间开了几百公里然后接管了一次就是其他时候都是你已经到达目的地然后他自己靠边住车退出而不存在说你开到某个地方让你引起了你强烈的不适那我有一个疑问就是像中国和美国国情包括道路情况这么不同的情况下我们两地生长出来的这个系统它在技术路径的选择或者开发的思路上是不是会完全不一样其实主要就有两派

一派呢就是从 L2 慢慢做上去想通往 L4 的路径就主要就是这个叫可以说渐进派吧就以特斯拉为代表的这种另外一派就其实就是想直接就做到 L4 其实是会存在这两种技术路线的一个差别我觉得他们

里面更核心的就是可能往 L2 慢慢做上去的很多参与者他们的最核心的目标还是想造一辆好车卖一辆好车然后 L4 的很多参与者的话他可能是想真正改变你的出行方式就他们的出发点商业模式还有对应的技术路径的选择其实都会有一点差异嗯

但这是很多年前就是这么发展起来的可能十几年到现在我觉得可能慢慢走到了一个交叉点嗯就是前面想那些乘用车比如像特斯拉他们也会想要去做 robert taxi 他觉得他路线慢慢到 l4 了然后也有很多做 l4 的车呢因为他也想更好的收集数据他们也会下层一些技术去做 l2 去做量产去收集数据就现在差不多是这样一个状况嗯

那他们比如说在技术上面因为我看到很多有的是那种像特斯拉就是视觉识别型的对也有那种靠激光雷达的这个大概分哪些不同的类型两位呢你大概科普一下吗我觉得从传感器路线上来说是这样就是

我觉得这个故事非常有趣就是我举一个关键代表人物我觉得这个其实也可以拿出来讲就是吴星宙在 2019 年加入小鹏的时候他非常坚定的推动了激光雷达的量产上车而且小鹏 P5 是全球第一个把激光雷达量产装上车的产品

然后之后是小鹏居酒本质来讲就是当时的无星宙时期他走在了把激光雷达量产装车的前沿但是等到无星宙 2023 年从小鹏离开加入英伟达的时候他定义的路线叫纯视觉端到端路线

这个并不是说无心咒本人在技术路径的选择上背后其实是深度学习或者是机器学习 AI 的发展然后深度神经网络的发展快速的迭代然后使得我们今天能够越来越多的从

摄像头里面拿到越来越多的信息这个是本质坦率来讲是这样就是说当年如果我要让一台车在公开道路上能够跑起来我其实别无选择因为当时的 AI 的能力非常有限我们对视觉的理解非常有限我们所做的算法不足以支撑它能安全到足够的让汽车跑起来那你别无选择除了用 LiDAR 除了用激光雷达

但是这个世界发生了很大很大的变化我认为回到 2010 年也是一样的结论每一个人都知道 OK 机关联大没有提供额外的信息

没有提供超过摄像头所能提供的信息摄像头是信息密度最大的信息带宽最大的一个传感器我们车上的传感器有很多有摄像头激光雷达毫米波雷达超声波探头所有这些传感器里面摄像头是最丰富的它含的信息最丰富的但是你越往前推 2010 年那个阶段没有人能够真正的把这些信息从摄像头当中提取出来然后用于指导汽车驾驶

这是本质我们眼睛看向一处然后你的眼睛你的大脑会马上推理出来哪个地方能开哪个地方不能开要绕过但是当时摄像头能拍下来算法不足以支持这样的推理能力所以激光零大是一个非常必然的东西在那个阶段所以我前面这一番其实是从第一性原理的角度从物理的角度

激光雷达是不是必须的从物理的角度激光雷达也许不是必须的但是大家要结合现实的环境如果你要考虑量产你要装车你要交付给每一个用户就是说每一家公司都致力于尽可能地挖掘出来摄像头当中蕴含的信息量因为它本身的是信息量最大的一个传感器但是这个艺人没有办法跟特斯拉和小鹏相比是因为他们没有退路

我没有激光雷达作为我的退路会逼着工程团队尽可能的去压榨摄像头当中的信息量所以到今天为止会有一些分化比如说相对高端的产品会有激光雷达然后 20 万以内的更低阶的更加成本优先的就没有激光雷达当然有一些公司是例外但是本质来讲我会觉得关于传感器阵营的分化路线分歧今天不是最核心的

分歧真正的分歧我认为有的公司他在推世界模型有的公司在推 VLA 就是 Vision Language ModelVision Language Action 就是视觉语言行为模型或者是动作模型对我觉得这里边是有一些分歧但是传感器本身已经不是那么必要有激光雷达激光雷达今年越来越多的扮演一个类似安全带的价值但是相对中局的

结局里面你会发现很难区分带激光雷达的车和不带激光雷达的车在同一个场景下的表现很难这里我可以补充一下就是现实的情况现实的情况就是看每个车起出发点不一样比如说就像 L4 真正做 Robert Hexley 的其实现在基本上都还全部要用激光雷达

目前没有一家说要把激光雷达拿掉就是小康刚才说的就是它是个安全纪念冗余券因为你 L4 你是真正没有人的也没有驾驶员的就目前他们都还是用激光雷达的然后像乘用车这部分的话就是有的视觉做的比较领先的或者更在意成本的它会去做纯视觉的方案

像有的高端的它其实也还是会用激光雷达但激光雷达其实未来到底要不要完全去掉我觉得可能现在还并不是一个完全有共识的一个答案吧就有的车企可能它也还是想要用出于各种各样的一个原因

更期待的我觉得就是未来你这个上限到底提到哪去并不是说有传感器决定的而是你有你的底层的那个算法你到底会走到哪去这里也可以稍微回顾一下就是让大家对这个东西有一个更全面的理解就是我们过去的智能驾驶或者说自动驾驶就其实是两组一个我们可以看结构就是它首先用了什么结构加什么算法

其实前几年大家讲的更多的还是分模块的结构就可以简单理解我们就把一个任务就拆分你就先感知感知完了然后你就决策你要怎么做再下发指令再控制就是它是一个分模块的这样的一个结构然后再加上 raw base 就你给它写规则就比如说我遇见红灯我应该停

遇见行人我也应该停就一个个的给他写规则打补丁这是可能三五年前很多车厂都是这么做这个可能就让智能驾驶它的场景就可以开起来甚至慢慢可以开到高速能开然后你的 road base 写的特别多写的特别复杂的时候它可能到了城区能开

接下来又有一个改变就是从结构上它就把它变成端到端的了就以前刚才不是说是分模块吗端到端的就是我输入一个信息它就输出了一个决策就比如我看到红灯我就自己知道题内而不是一个个的去写规则然后背后对应的

算法呢大家会在原来的这种 Role Base 的算法现在会变成深度学习他为什么能做到这个能力呢就是他学了很多的视频他进行了深度学习和深度挖掘这一点就让智能驾驶他到城区真正变得好用了就他可能更理人化更丝滑到下一个阶段就是结构上就还是端到端就你

给他看一个东西他就能输出一个决定但这里面的算法就是会发生一个变化就刚才说的就有的可能在用世界模型有的就在用 VLA 这种模型他到底这个天花板能够突破到多高他是不是真的就能把

一些其实现在智能驾驶很难突破的就是有很多长位场景你就算训练了很多你可能他就遇见一些你没有遇见过的长位场景就我就比较期待就是可能未来就是在这一块你通过这种技术上的变化是不是真的能突破长位场景真正能走到全场景的

智能驾驶我觉得这个是非常值得期待的一点刚刚小康和登登都有提到他底层算法的模型一个世界模型和 VRA 模型能再具体讲一下吗他们俩的区别我来说我前面也顺着说一下就是说大家如果身在职场你应该都很有感触模块化非常像一个大公司里面有 N 个部门有研发部门生产部门销售部门

然后在这样的公司里面老板每隔两个月会开一次全员会为什么要开全员会是为了拉起大家的认知对其认知其实对于一个系统也是一样如果说是模块化的话它所蕴含的信息量最上游端头就是感知我们通常来讲会分成感知决策和控制然后感知就是说看到了什么东西系统看到了什么东西

决策就是说把感知看到的东西输入给决策然后决策来去辨别然后给一个指令指令给到控制控制手机的工作就是我收到了控制的指令然后我交方向盘打多少度然后油门踩多少刹车踩多少这就是控制这三个那么这样层层传递的过程中一定会有信息的损失

因为这中间的接口是人为定义的比如说定义摄像头看到了什么它很大程度上取决于你的算法的局限性如果你的算法性能较差它看到的东西就有限所以它是一层一层过滤的而端到端这个新的东西它就是取消了模块设计人类在解决大型复杂系统的时候不仅是自动驾驶行业在任何行业都是这样人类解决大型复杂系统的时候当你束手无策的时候第一反应就是分模块

把一个大问题拆成 N 个小问题但是这个是会有瓶颈的他一定会遇到问题就是陷入了局部最优越什么意思呢比如说你努力的优化感知就是优化看的能力优化优化优化优化但是最终结果上不明显因为问题不出在感知但问题也不一定出在决策出在你们两个部门之间沟通的过程中信息丢失掉了

所以最终你会寻求端到端你会寻求等等说的你看到了什么中间发生了什么你并不知道因为中间是一个巨大的模型这个模型它只负责怎么学人开车他看到了大量的视频片段以后这一次他再看到了红灯变绿了他马上输出一个指令让车走这中间的过程里面他没有感知决策控制他没有分析的模块了但是他做出了对的选择

然后去迅速的发现端到端它的性能上限好像要明显更高是因为它在链路传递的过程中没有信息损失掉

没有人为把它分成不同的部门是整个公司都是一盘棋在作战所以这是一个区别然后简单谈一谈前面说的那个 VLA 和世界模型世界模型这个东西其实也不是新概念世界模型有两个用法第一个用法就是有点像生成是 AI 有点像今天的大语言模型你去提问它的答案实际上是不断生成的是模型生成的东西

那么世界模型用于仿真的话它不断的生成下一帧的视频图像下一帧再下一帧或者是接下来 5 秒或者 10 秒这样的话用于仿真其实就是能够不断的去复现或者它本质上也是预测它每生成下一帧都是它基于已有信息比如说他已经看了 5 分钟的图像

5 分钟的驾驶这条路况的图像然后接下来疫苗会发生什么这个是他生成的是他脑海里想象的其实这个行为如果大家愿意暂停一下想象一下其实你自己开车或者你自己走路的时候也在不断发生不断重复

你的大脑永远在不断的想象接下来的路是什么样然后去跟它对齐如果跟现实环境里面是比较一致的其实有时候你就能把车开得更好如果说出现了突发的东西就是出现了你预测以外的比如说突然有一个车击杀或者是从中间穿出来了

这就是预期以外的,然后就有可能有一些意外或者是事故之类的,但本质上人的大脑就是一个机制,就是他不断在预测接下来会发生什么,这个就是世界模型用于仿真,就用于自动驾驶系统的仿真,就是我是一个自动驾驶系统跑在一个仿真的环境里面,不是跑在现实世界里面,但这个仿真的环境是由世界模型不断生成的,不断不断生成的。

可以简单补充一下就简单归纳一些世界模型可以现在大家对生成式 AI 可能比较熟悉了就是它其实是你对话它不断地生成下一个词就其实世界模型跟生成式 AI 其实做一个那个很好比较就生成式 AI 它最核心的那个点其实就是文字就是下一个词

就世界模型最核心的其实就是像素它生成的就是下一个像素组成的画面其实它就是基于人工智能对现实世界的一个模拟和表达然后方式是一样的所以就差不多是这个样子我就可能能够更好的理解这个就是它第二个用法就是帧流就是这个帧流它有点像云端因为没有车上的算力的限制它是可以训练一个非常大的参数量的一个模型

然后这个模型为老师在训练一个小参数量的模型针留给他然后意思是说做一个模型参数规模足够小到能够部署到车上的模型这个过程就是世界模型第二用法这个模组相当于把世界模型上车了

他在车上它的作用也是不断的去生成下一帧然后去跟现实世界去做比对然后他也输出控制指令这就是世界某些的第二用法然后 VLA 的前世是 VLMVLM 是 Vision Language Model

其实 VLA 的全称应该叫 VLA 就是 Vision Language Action Model 它的本质是说我们首先是端到端就是这个世界先从 rule based 转向了端到端就是分模块转向了端到端

转向端到端以后第一阶段一定是模仿学习模仿学习就是有一样学样就是给他看大量的人怎么开车系统就会学会怎么开车而且收益其实很明显的就是说纵向加减速这个事儿有时候人踩刹车然后减速的动作行为其实是很微妙的你要恰好是一个舒服的区间其实他并不是说匀速的减速就是最好的减速而是

先快后慢也许然后一点一点溜到路口溜到红灯的路口

这个是最符合人类体感的最老司机的一个方式但这个如果你用规则去编程当然你可以编得出来但是你没法穷尽因为现实世界里面案例太多了但如果你用端端端你只需要学你只需要不断地看不断地看然后它就可以浮现出来跟老司机一模一样的纵向控制这就是我们想要的但是你再往下一阶段你马上就发现问题了就是比如说上海有一些地方的公交车道是现行

这个线形是按时间线形的比如说上午 9 点到下午 5 点除此之外的其他任何车辆都可以随意通行但是上午 9 点到下午 5 点它是一个公交车专属的一条车道这个时候如果你为大量的数据给到模型模型依然学不到模型的反应是为什么有的人类到这的时候就会直接开过去但有的时候到这就会变道然后换一条道开过去

核心是他没有理解到这里会有一个路牌告诉你上午 9 点到下午 5 点这个现行的规则你纯靠看他没有办法抽象到影视的驾驶逻辑它是藏在表面驾驶背后的一个生成逻辑这个时候你就需要

早期的时候是 VLM 现在是 VLA 但是 anyway 就是中间的这个 L 就是 languagelanguage model 就是语言模型也就是说你需要在这个驾驶的系统里面驾驶的模型里面内置一个能够理解自然语言的模型我刚刚举的只是一个场景就比如说什么时候现行但是除此之外还有很多比如说你在地库里面说哪哪有堵了然后你要绕开它是用文字写的

或者是施工绕行它很多表述都是文字但对于人来说其实很轻松可以把它看懂然后绕开它如果是端到端的然后是纯模仿学习就有一定的困难有一定压力但是加入 language 以后加入语言模型以后它会让整个系统的泛化能力更强会更加的适用于这个世界

但是你会去想无论是我刚刚说到的公交车道线型还是施工绕行还是各种各样的场景它都属于偏长尾了它已经偏逐渐逐渐偏罕见了其实说白了就是我们的技术一代一代往前迭代你都是从普世的大量的场景然后逐渐逐渐的往边缘的长尾的场景因为我们每一个企业的最终目标是拿掉方向盘

你要拿掉方向盘就意味着这个系统它能适应任何环境这个现实里面的任何场景它都可以 cover 而不去区分哪个场景非常常见非常高频而是另一个场景非常低频我不去解决它不存在这样所以下一个阶段所有的人都会逐渐的转向 VLA 或者世界模型那

BLA 之所以会被认为是下一个重点还有一个因素是跟顺利是强相关的因为大家可能知道 2025 年中国品牌车企自研的芯片还是英伟达的下一代的 share 平台

都会上车那这些新的平台上车因为我们前面说了 L 是语言模型语言模型的上车本身会让自动驾驶模型的这个参数量变大它变成一个更大的系统那以现有的算力平台其实是部署起来是很吃力的是很有难度的但是如果是下一代平台会更加游刃有余所以这是技术发展的一个趋势对是不是

是不是越聊越深的我们可以聊点商业化场景的是的 是的接下来你就发现好像 2024 年的时候大家都在押注 RoboTaxi 就是无人驾驶自动这一块的这个商业化应用为什么这个会在 2024 年成为各家的兵家必争之地呢等等如果大家

感受到 2024 年开始的话我觉得可能是因为技术慢慢成熟但为什么这块市场其实一直都很受关注就像前面也说到了谷歌 vimo 他就是做 L4 做 Robert Haxley 他其实市值我记得一级市场给他估值给的最高的时候是在 1819 年的时候

所以这个事情其实是已经非常长一个时间那为什么大家这么关注 Robert Hickson 呢我觉得可能跟乘用车不一样的是乘用车大家想的是怎么去争夺现有的这个出行这块蛋糕嗯

然后 Robert Taxi 很多企业他们想要做的就是重新来定义出行这块蛋糕的形状我觉得最核心的吸引力就是就如果 Robert Taxi 这个技术它真正能成熟的话它会有很多颠覆性的商业模式就比如说我们可以想象一下如果所有的车它就自己能开的话那到底未来还需要四家车吗那可能是不是 70%的车都是 Robert Taxi 当然这是一个大家可以思考和争议的点所以我觉得 Robert

Robertax 这么吸引人的话其实主要有几点吧想了一下其实可以总结成第一就是它的商业模式就足够有颠覆性就可能不是传统的这种卖车的这种模式第二呢就是 Robertax 它其实更高频你想象一下之前我记得有个数说可能私家车平均每天的使用率按时间来算可能只有 5%

那可能出租车其实它的运营时间每天其实可以达到就有的是两班倒其实私家车它可以达到 20 个小时每一天那其实这种高频的场景它其实是你使用的更多你就更好摊你的成本吧这种高频的场景它也更好的能够摊低一个支架的成本这是第二点它是一个高频的场景第三点比较重要的是它确实有很高的一个商业价值嗯

就也有统计数据说就可能全球就出租车出行市场就是 2000 亿美元的市场如果再算上网约车那其实规模更是翻倍的就这个市场规模也特别的大我觉得就是从这三点来说吧这块市场目前确实是非常有吸引力的

然后从落地来说的话就刚才也讲到了就技术上慢慢达到这样一个可行性就在于其实 Robert Taxi 这个市场它是就几个大城市就之前我也有跟一些就做 Robert Taxi 的公司聊他们其实就觉得他 Robert Taxi 他把北上深做了可能就能涵盖中国整个出行市场的七八十的份额了

它在落地来说的话它其实并不是像比如说我们造乘用车你要面对所有的 C 端你必须要上很大的量可以在北上升甚至是更细分的比如我们现在就能看到比如说它在某个小的区域就比如我们可以看到什么武汉啊上海啊北京啊它都很多市番的小区域它可以先行先试先把这个商业模式看能不能跑通能够跑起来

我觉得现在可能在技术上还有包括法规上最开始是必须要有一个驾驶员在车上在那个主驾上到现在你可以只用一个安全员在副驾上在下一步其实车上已经可以不用放人了我觉得法规也有很多的促进所以到了这个节点大家再重新来重视和关注 Robert Taggess 这个事情

其实刚刚听灯灯讲听下来就是 Robotaxi 这个场景能否落地应用它其实取决于几方面的元素包括你的技术是不是能够达到这个水平包括你的法律法规是否已经足够的完善包括大众的社会的一些接受度以及它可能会打破一些现有的利益格局和一些模式你们觉得在这个落地的过程中可能哪个因素现在是我们最着急先要去迈过的或者是最大的一个挑战

我觉得还是技术对我也觉得是技术因为我觉得这是一个新兴的市场新兴的市场某种程度上它其实就是供给创造需求的当你技术足够好的话我觉得就法规现在也已经开始慢慢配套和完善了我认为在鼓励新兴产业技术发展这一块中国监管做得非常非常好非常友好非常鼓励但是核心还是不完全是中国企业的问题就是过去的 Robotex 这个阵营其实大家没有做得太好

大家也还是在逐渐进步但是整个进步的协率很差很不及预期大家所有人追求的都是一个非常 general 的非常能够覆盖全国甚至覆盖全球的 robotaxi 路径不一样像剑境派阵营像 Tesla 这种阵营它是我每交付一个功能我哪怕交付一个车道保持从第一天起就要全国普世甚至是全球普世

像 Tesla 的车子他自己当年还没有进去的南非如果有人平行进口过去他同样可以启用那个功能是不需要去做专门的适配的他要考虑系统的泛化能力然后他一步一步不断的添加各种功能上去一步一步的现在可能到了类 L3 的阶段最终他们的野心至少是希望今年在美国开始逐步的开展 Robotax 的试运营

而 vimo 这一边以 vimo 为代表当然还有很多的公司大家是一步到位从第一天起他只要上路他就不一定完全需要租家做人他就是一个 L4 的公司他的难题在于我究竟怎样从旧金山这一个城市或者是凤凰城这一个城市逐渐的扩展到整个德州或者是整个加州然后再把它覆盖全美

如果是这个维度的话大家是在不同的维度去加速然后最终的目标是覆盖全国完全无人这八个字这个维度来去看的话我们看得到的是就是渐进派这一边在过去两年里面取得的改进非常快取得了非常明显的进步而一步到位阵营就是 vimo 阵营

也在取得一些进步但是很慢没有取得大家预期的进入到那么多的城市或者是那么多的州我觉得这里边技术上还是有一些 gap 我觉得从技术上或者从另外一个视角上看就是它技术上必须要把它做到足够足够的安全它不能只跟人类的安全是

一样的他可能甚至要做到比人类高十倍高百倍的安全才能真正的落地就我们可以这样来想这个事情记得之前有个统计的数据就是人类司机是可能差不多开一亿公里会出现重大的事故就如果我们假设这个系统跟人类司机出现重大的事故的概率是一样但因为他不止一辆车在跑就一千辆车在跑如果按这个来说他一年就会出现一次重大的事故

你这个对于一个商业公司来说肯定是致命的因为你平均每年都会出现一个重大的事故而且你未来你可能还不止一千辆车我之前也有跟一些企业聊他们就是希望一年发生一次重大的事故的概率肯定要低于 10%那这样你十年出现一次你本来有技术的迭代还有十年出现一次的这个概率可能也

更能被接受一点所以如果这个逻辑上来说的话就是技术就是你要做到首先你全场景能开好开并且你安全心上可能还必须得比人类高个一个量级甚至两个量级我觉得可能才能到真正能大规模的推广和大家认可的这个点那我们现在大概进展到哪一个阶段了

现在就是有的企业也会说他把 AEOS 会分 1000 个场景试试更多的场景他去跟人类做对比在有的场景中他可能已经跟人类差不多了但在有的场景中其实还是需要再去做一些优化的但整体来说就进展的很快就每年可能都有几倍甚至十倍以上的这个进展进展的非常快就也有比较多的技术乐观派可能觉得三年嗯

就能解决就是无人驾驶的这个问题这是市场上比较乐观的一派吧嗯对我觉得可以期待一下对但是好像现实看到的情况就是包括之前萝卜快跑上线以后大家就发现那车停在路中间哈哈

然后就动不了了然后我们其实国内包括北上广深很多地方都已经有一些片区在实行这种无人驾驶但是它可能开的巨满我看过大家的一些无人公交可能就是二三十马三四十马的速度非常慢对大家感觉还是觉得可能肉眼可见的未来还是无法想象它会那么快的落地我觉得落地就在于现在就像我们刚才讨论的现在最核心解决的还不是商业化落地的问题还是技术的问题

当技术真正能够做到更好它整个商业是能跑通的话它其实真正在后面落地我觉得相对就大家就能看到比较清晰比较快了现在有非常多的这些新势力的车然后就是整个制驾的这个竞争也是非常的激烈市场那对于这些新势力公司来说要如何从这个市场中突围的话你觉得对他们来说最关键的点是什么

我觉得最关键的点其实就可以跟小康总刚才说的中国这些质架的车和 FSD 的一个对比来说我觉得最关键的点你就真正融合场景能够把体验做得最好比如说我觉得这个技术可能最核心的东西就是你真正要能满足用户的需求让用户觉得它是好用愿意用愿意为这个东西买单

然后它在商业上就能产生一个更完整的闭环就这边你愿意为自驾系统付费愿意买你这个车你相对应的搭载自驾系统的车能够卖得更好那这些厂商又会反过来去推动这些厂商自驾能力的发展所以我觉得现在最核心的就是确实是要结合国内的场景让它真正做到好用我觉得可能是大家都要去突破的一个点

小光你这边怎么看我觉得这里边没有魔法嗯就他全是脏活苦活累活赤架是一个很难很难的事情然后这里边的关键确实就是我们努力了可能有 10 年或者 15 年了如果最早一批做资亚的人算起

核心是大家确实没有把公开道路的接管率把它做下去这是一个金指标你真正的能把接管率做下去就意味着你在运营上是更轻量化的你最终运营 Robotex 也是更轻量化的但我们现在看到了一些转机至少目前我们今天没有哪家公司包括特斯拉在内没有哪家公司说我已经看到了端到端非常明显的局限性或者是天花板我们必须要换路线没有

所有人都还在把端到端这个范式去挖得更彻底去打开更高的想象力还在这一条路径上所以我觉得有很多事情可以做然后没有绝对的关键因为它是一个系统工程你要关注产品用户体验所有这些东西都要关注然后要平衡好每一家公司都没有无限子弹

就是你也不能把资金也好或者人才也好视为一个绝对的能够压到别人的变量这个也不存在它是一个非常非常难的复杂系统的竞争那比如说我们大概预计什么时候会达到我们前面说的像 L5 这种支架级别我觉得 L4 就可以了当然 L5 是一个非常终极的非常理想的但是绝大部分人也不会真的把车带到沙滩或者是草原或者是说是全天候全场景的

我举一个例子其实 vimo 在 LA 他已经跑得非常好这样一个自驾的公司他其实不进任何的停车场的 vimo 他只在公开道路上就能把所有的订单全部都做掉

这样一个公司它实际上提供的是一个比较标准的 L4 的能力而且它的系统其实是在很多场景下如果你真正让它深入停车场是有比较明显的局限性的但是不妨碍它已经能够开门接客然后接活有很好的商业化和订单如果从 L4 的角度去衡量我相信在未来 2~3 年内会有非常明显的进步

跟我们过去五年看到的就是有 robot taxi 但是整个运营上迟迟没有突破就是你刚刚的那个案例就是无论哪个城市你会发现 robot taxi 它只跑 20 到 30 公里每小时这就是我前面说的一个很典型的衡量标准它没有真正的融入交通

他在交通环境里面是一个拖后腿的角色他没有真正的融入交通这是有很严重的问题但这里边本质上是技术问题其实说白了如果你开得更快整个系统延迟必须要降到非常低它的决策速度要极其快否则就是事故有很多的事故其实是系统延迟没降下来他已经看到了但他要输出指令的时候已经撞上去了是这样的问题 OK 但是本质来讲我觉得两到三年内应该会有比较好的突破

我这边补充一下就是我觉得就智能驾驶并不是说他要做到 L4 才有价值就像我觉得你做到 L2L2++就你做到这个水平如果你能够帮助用户改善用户体验降低一些驾驶的疲劳或者让用户开车能够开得更安全用户愿意买单我觉得做到这个级别它其实也是有价值的能够帮助

乘用车企能够更好的把车卖出去我觉得它也是有价值的并不是说一定要突破 L4 的那个圣杯它才是有价值的当然做到 L4 之后它可能会有各种商业模式的变化会有新的市场我觉得那又是另外一块的价值所以我觉得除了技术上的真正完全突破无人驾驶就是你渐进式的你做到每一步你能达到每一步的目标那我觉得它其实也是有价值的

因为我听下来好像是之前那个特斯拉渐进式的那个模式它这种技术叠代的会更快一些我们刚刚其实开头的时候也还聊到像那个特斯拉的 FSD 可能在美国的道路上面它开的是比较顺的如果把这个大模型扔到国内就是让它去自学习国内的道路它能很快的就是适应吗

我觉得还是需要一定时间的但它肯定不是完全从头开始但我觉得整个适应和本地化也还是需要一定时间的它不需要从头开始它哪怕有很多东西其实没有见过在美国没有见过但它依然不需要从头开始这个案例你可以有一个简单的比方它有点像一个老外你可以让一个美国人来中国学开车

他来中国学开车你显然需要学习中国的教规以及你需要在上路试错不断的试错当中逐渐学到他们原来可以在这加三因为美国加三是比较少的

大部分时候你是那个加刹的角色你加进去后车会直接减速让你让你进来而不是说他也顶上来跟我们中国一样有很多这种针锋相对的情况出现不会这样 OK 那如果你是一个美国人来到中国是怎么样学的你真正学到的是哪些驾驶知识来融入中国的交通那一个 FSD 进入中国要学的就是那些东西而不应该是好我知识全部清零了

你要从零岁开始重新培养他到他 18 岁然后他建立了一个完全基于中国的理解世界环境的模型然后你再去学教规不需要这样基本上是这样或者你从大模型就研发的角度就是预训练跟微调预训练就是大量的无监督的数据

交给他交给他以后他理解这个世界哪些是障碍物哪些不能撞然后整个世界的环境的理解的能力所有这些东西路沿侧道线动态的静态的所有这些东西告诉他最基础的防撞的规则然后微调就是基于不同市场比如说你是一个美国公司你要基于美国的市场中国公司就要基于中国的

FSD 进入中国也同样是这一套但是是一些很小的数据集基于中国的驾驶习惯然后交规然后当地的路况交给 FSD 你进入中国以后应该怎样表现而不应该像美国那样表现

就需要微调这个环节如果我们去看特斯拉已经在中国投放的自驾系统无论是泊车还是高速的 NOA 还是车道保持这些系统它是全球都是这一套系统它只会做基本的交规的适配但它从来不会说融入交通这个做法你在高速上

你在简单的车道保持这些场景里面是 OK 的但是你要融入城市是万万不 OK 的你必须要大量的去做本土化对

我觉得可以这么说就是比如说最后一个模型成立它其实就是算力算法数据嘛算力其实都是同质的然后算法呢它那边算法的架构结构其实也比较行但唯一就是数据可能那边你采集一些美国开车还有习惯的数据因为它现在训练模型你都是给它伟大量数据嘛

在这边可能针对比如中国开设他会去找一些数据的截片找一些数据的 clips 他不是现在大家都会说自己有训练多少 clips 其实就是找一些数据的片段然后再给他进行学习就可以肯定不是推到从来的也有一个具体的例子就前阵子调研也在跟一个就是质架的算法提供厂商聊

他就说他们其实就把中国的这一套智能驾驶搬去日本因为日本还离左多右多还跟中国是相反的嘛搬去日本他们其实本地化做了一到两个月在日本基本上就能开起来还开的还可以我觉得这个其实也可以参考一下是给他位入当地的一些驾驶的数据然后和规则

可能差不多支架这一块咱们就聊的差不多了下面进入人型机器人这一派其实机器人这块的话我们就发现支架咱们聊的是特斯拉机器人咱们可能还得从特斯拉聊起在美国应该说是特斯拉和那个刚才提到的波士顿动力这两家是在机器人这块

我觉得可以聊到这个有一个有趣的一幕就是伊维达的黄人星已经连续第二次在这个 CES 期间他也开了一次会但是这是他第二次带着所有的就是整个 Avidia 生态里面的机器人出场人形机器人出场他在中间他是唯一的探机探机生物剩下的全部都是龟鸡对但这里边他两次出场没有一次会带特斯拉

是因为剩下的公司或多或少它都是英伟达生态圈层中的而且我想说其实在机器人这个领域英伟达的生态能力要比在自驾圈子里面更强它几乎垄断了全世界大量的机器人公司它都是基于英伟达生态去开发的它有工具链有芯片有各种支持软件环境的支持然后它现在也非常努力的去希望把这个去拉动起来就是黄仁勋

但是为什么没有特斯拉因为特斯拉是端到端的从软件到硬件所有的环节全部都是自主研发你没有一个由头去把 Optimus 去拿到黄仁勋的舞台上是这样的

所以它还是有一些小的区别这是第一第二的就是无论是 FSD 还是 Optimus 我们能看到比较明显的就是特斯拉这家公司它比较厉害的一点是它很多时候不是那么在意舆论就是它并不 care 短期内它在营销上或者是机器人的进展上落后于别的公司它希望做的是选择技术路线是一个比较长期的最终追上来

比如说最简单的就是纯视觉我认为转向纯视觉以后前 5 年里面特斯拉都是持续的完全被动的局面无论是在中国还是美国但是最终当整个天平在往这边倒的时候你会逐渐的受益于早期的选择

那机器人领域差不多也是这样就是如果你去找更高性能的人型机器人的话中国一定有比特斯拉的机器人跑得更强的这个机器人公司但是今天我们大量的机器人公司做的其实是运动控制以人类来比的话有一点像人类的大脑和小脑的区别

但是特斯拉是在非常努力在发展大脑的功能就是不是小脑不只是运动控制希望他可以自主地感知决策和规划有点像一个自动驾驶机器人变成人的版本他希望做这样的事情这个也决定了大家的难度就完全不同了

我自己是觉得其实机器人这个话题可能比智能驾驶会更让人兴奋一点就我觉得某种程度上来说智能驾驶可能是智能机器人的一个子机就是汽车就是在特定场景下移动的其实一个机器人对所以智能机器人这个东西比较让人兴奋的我觉得也有人说可能智能机器人可能是人类的最后一个发明嗯

它可能就是人类的终极梦想因为我觉得智能机器人这个东西让人兴奋就在于它真正把现在大家说的宏博发展的这种 AI 能力和现实的物理世界能够结合起来它真正能够用这些 AI 的能力

人性机器人的数量会和人类一样多

我们要把视角稍微宏大一点跳出来去看其实洗衣机也是机器人洗衣机就是洗衣机器人扫地机器人也是机器人我们其实身边早就有机器人了但是人形机器人是非常终极的人形机器人有可能会是人类历史上最后一个发明的工具当你把人形机器人发明出来以后他有了自主的感知觉测控制能力以后人类可能不需要再下一个大型工具了因为后面的工具的发明很有可能可以通过

人性机器人自己去发明自人类诞生以来最后一个工具你上升到这个地步人性机器人是非常重大的一个东西但我们可能现在看到的很多机器人的形态还是在一个特定场景下的包括刚刚说到的汽车也好或者是在工厂里面的一些机械臂这些也好就还没有说能够到一个它能够完全融入到咱们物理生活物理世界的一个地步

我觉得这是因为自动驾驶汽车的延伸就是机器人就是人心机器人但是人心机器人基本上要比自动驾驶汽车难两个数量级而自动驾驶汽车我们今天没有真正的解决

这就是前一周吧地平线的智能价值产品线的总裁肃清出来讲说如果我们没有解决自动价值我们有什么资格去做机器这是他这个言论的逻辑点这也是为什么很多做自驾的人已经转向去做机器了因为他整个路径是同一个方向你可以理解为这是一个方向上的东西只不过人性机器人要比自动价值汽车难一百倍它更广更深更有想象力是

是因为我们看特斯拉它其实就是这样 FSD 就是人形它在质架这边研发完了就是它人形的基础基础对对对那个安德里克帕斯在一次播客里面讲到过这个事情就是在最早期的时候它的那个 Optimus 机器人

他其实不知道自己是个机器人他以为自己是台车因为所有的传感器计算平台全部都是一样的神经网络运行的软件全部都是一样的他以为自己在开但他其实在办公室里面走像我们国内的一些就是可能是做纯人性机器人的或者他们没有这样的一个技术积累那他们要怎么在技术路径上做起来呢

我觉得他就说的这个积累是技术路径上的积累并不是说你造机器人之前一定要去造一个车你只要技术的底层其实从那个方向出发就其实差不多就如果抽象能力的话我觉得就两块大家现在会简化成这样来分一块其实就是大脑的智能的能力

就你真正你的智能化你能不能适应环境的这个能力第二块其实就是小脑的控制能力就是你首先你是一个实体你能不能站能不能站稳走能不能走起来跑能不能跑起来我觉得这两块就从机器人本体来说一块做好也都非常的好

然后另外一块我觉得还有很大的一块其实是中国企业机会的其实就是你做供应链做硬件的能力因为机器人除了这些你最后它是个硬件载体你要做各种的传感器执行器电机拎巧手这些我觉得在这一块中国企业来说是非常有优势的因为一方面就是制造能力非常领先你的成本能做的比较低

另外一块中国的研发的工程师也是非常的努力和优秀在前期就包括配合这些企业的迭代啊迭代效率啊研发效率啊这方面其实都是做得非常优秀的我觉得在这一块未来也一定是能够参与全球化分工的能不能给我们大致介绍一下现在整个人行机器人的产业链格局大概是怎么样一个情况

我觉得在这个时候还没有到谈格局的时候我觉得到这个时候就还是一个非常非常非常初期的阶段就现在还在零到一的时候因为大家一般说承认行业它可能零到一一到十十再到一百嘛你一你得先把那个产品真正成熏落地做起来嗯

我觉得目前这个阶段大家都想努力地先把那个产品做起来所以现在还在零到一的阶段看谁能真正地把那个人形机器人的产品有模有样地做起来国内有很多创业公司包括一些大公司都想在这方面想要做出来一些自己相关的突破嗯

那比如说其实像在美国的话一个是前面提到那个波士顿动力它好像是做军事运用场景之前也不是电力它之前的系统就不太一样它是用液压的但它最近也转向电力对最近有看到这个对对对

其实波士顿动力很像就是自动驾驶领域的 vimovimo 早期的自动驾驶系统就是通过机器人系统就是 RTOS 转过来的这个是因为当时我们没有自动驾驶系统这个东西

然后你参考了很多机器人领域的一些经验和 OS 的做法这其实既是你能很快的把这个东西 run 起来的前提同时也是最终很多年以后你的包袱那他当时选液压是因为在那个节点上整个电机的功率密度或者这样讲就是说它的大小规格如果跟人的手臂差不多大小的话就功率密度不够就是举握物体都举不了太重的

就功率密度本身有问题如果是液压的话它有点像一个杠杆效应它可以扛起来非常重的东西它也可以跑跳什么之类的

但是液压有一个非常麻烦的问题维修很复杂然后也比较容易坏最终你会发现电机是一个更好的选择但前提是电机的性能需要大幅度的改进然后这些年其实电机就是大幅度的改进然后最终它转向了电驱动就是这是波士顿动力而且波士顿动力我觉得不管是安防也好或者是就是救灾啊或者是军事啊

这种其实它本质的前提是包括国内的语速或者是其他的一些机器人公司也是一样是有一些类似这样的应用场景但是所有的公司都不会说自己有军事应用所有的商业公司起码都不会但是安防这些他们是很乐意去宣传的这个本质是坦率来讲其实就是因为今天没有太大的智能做不了太多的事情你只能在一些垂直的场景里面我举个例子比如说地震了

如果你让一个机器狗进去万一发生余震那就把它砸坏但如果是一个人进去可能就有非常大的危险不确定性所以他最先取代的一定是高风险的还有就是枯燥的然后就是高强度劳动的比如说还有一个案例是电力巡检

就下了大雪然后电力非常长的线路巡检如果机器狗去巡检极大的解放人而且本身也比较枯燥这个事情就是类似这样的一些应用场景先跑起来其实这个事情本质是因为今天的机器人也好机器狗也好大家还不是一个非常智能的东西所以未来是不是会呈现一种可能各个细分领域的赛道它都有不同的公司去涌现因为不同的公司去专注于不同的场景来开发他们自己的人形机器人

我觉得前些年大家是想这么做现在大家想突破的是不是会真正有一个通用能力的机器人的底座然后在围绕着这个底座它可能再会针对各个行业去做一些专业化的适配但未来大家想争夺的那个圣杯是一个通用机器人的底座它具备通用的一个能力

但现在真是可以看到场景落地的是它可能先在比如工业场景就是又枯燥然后又高风险然后又比较重复性的这些它可能会在这些领域甚至会切得更小就比如我前面提到的可能就搬运就马舵就某一个场景中它先去做先行的一些落地这方面的东西但长期的目标大家是想做一个通用的可以泛滑的一个机器人

因为你刚刚也提到可以把机器人它就是简单的能力划分为大脑和小脑嘛那大脑就是可能更和算力还有大模型学习相关然后小脑这块就是咱们去搬运一些东西就是比较像人类的肌肉那这两块的进展大概现在各自是到了一个什么样的阶段和水平

大脑在拖累小脑对我觉得现在绝大多数公司做的都是运动控制所谓强化学习做运动控制其实就是说有点像 AlphaGo 后面出了一个 AlphaZero 我不知道大家有印象吗就是他不再学起谱了他不断地跟自己对弈然后不断地就是从下错的这个步骤中学到不应该这么下然后

你只要不断下不断下不断下然后你就会变得非常高明但是他没有真正的规则去教他强化学习也是一样的就是用强化学习去做运动控制如果我们去看做的比较好的语速的话他学会了教机器人去做那种托马斯全旋或者是后空翻

类似这样的东西其实它都不是说我在研发阶段这个狗要摔来摔去它是有一个非常好的仿真环境在云端用强化学习把它的本体它如果后空翻一下它落地的这个都模拟出来所以所有的东西都是在仿真环境里面然后把它的这个可靠性做到足够高以后把这个算法移植到

实际的机器人本体上你发现它可以非常好的做后空翻是通过这样的算法去实现的而人类是这样的就是说尽管你知道它是基于强化学习实现但是你看到一个人造出来的东西可以后空翻你会觉得非常 amazing 这是这样的你实际调研一下你会知道这是一些运动控制的小技巧它还不涉及到人的大脑大脑是一个要难得多的东西

这一块实际的进展的话就是说我们就拿语速来说吧语速的 CEO 王欣欣他的期望是到 2025 年年底就是无论是业界就是公司层面也好或者是高校也好或者是像 OpenAI 或者是那种 Google DeepMind 这样的研究机构也好

至少有一个真正可用的端到端的大模型出来就是 for robot 但现在的话就没有现在甚至没有这样的东西你当然可以编程做出来一些很引人的但是它的泛化性肯定是非常差的非常糟糕的就是相比自动驾驶它显然是处在比自动驾驶更早期的一个阶段

就现在的话我觉得就是大脑能力和小脑能力都还说不上谁拖累谁就是需要更强的一个发展就是这种控制行走的能力现在我们至少能看见他们能运动能跑能跳但是速度啊包括稳定性方面其实也还是需要进步的像大脑能力的话感觉现在可能在一些

小场景中你针对一些特别的数据是能够去做一些优化的但是它真正放话的能力也是比较差的业界还比较期待的一个公司就是李飞飞就是之前也是可以算 AI 教母他也是出来从创立了一个公司他就想从 AI 和 3D 结合起来想从世界模型的方式看能不能解决这个大脑的问题

我觉得他们公司和这条路径也是非常值得期待的国内这块有什么做的比较亮点或者是在发展上的优势的地方吗我觉得亮点就确实是在控制能力上这块非常好我觉得我们硬件工程是全球独步的

我觉得既有中国的产业链就是成本控制然后还有工程师红利我记得 Elon Musk 也说过这个事情就中国的顶尖工程师可能是美国的四倍美国现在越来越明显的产生一种好像你要去找顶尖的就是能够做硬件产品的企业好像就是 Elon Musk 的公司其他的都会弱一些尤其在跟中国企业 PK 这一个方面

前面我记得有个报道就是 Figure 的一个创始人来国内表演来到中国大受震撼对大受震撼看了一圈这些公司和他们的研发的进度和节奏觉得卷不过根本卷不过所以我们在 B 端的应用是会更快的看到哪些比较成熟的商业的模式和场景落地

我觉得未来可能在 B 端的运用还是会先在工厂里面有一些细分的场景一个是工厂里面一些细分的场景还有就是像一些高危的场景就比如说像电力巡检这种就不是普遍上的人型机器人电力巡检其实就那种巡检机器人无人机或者狗的形式其实已经慢慢在用了如果人型的话我可能觉得还是工厂因为工厂它是一个封闭式的

然后相对简单的而且它很多特别像汽车工厂这种它也已经比较流畅化比较健全的是天然来说应该是一个比较好一点的场景那进入家庭场景家庭我觉得是最后最后面的一个场景嗯

首先我觉得到工厂它真正能够成为一些效率提升的工具然后第二步可能到一些里对人力缺口比较大的一些场景比如说像养老啊我们前面跟那个朋友聊就是他们的机器人其实主要就想做养老领域对对对照顾比如说你在养老院帮忙

推轮椅扶老人起来我觉得在这种人力比较缺乏的一些养老和医疗的场景会是第二步但这个场景对于机器人的安全性的要求是更高更高我觉得到家庭环境其实是会更复杂的因为家庭环境你每个人家里都不一样而且家里有老人有小孩就会更复杂我反而觉得到家庭可能是会最后走入的

但听起来应该还是挺遥远的对但如果只是买一个玩具的话就比如像语速现在的机器狗一万块钱就像他们也会去跟大疆的无人机对比嘛大疆无人机顶配的其实也是一万块钱你如果从玩具的角度你要把它带入家庭其实有相对比较快只要你成本降的足够低对对对但对这一块如果它没有太多实际的功能就市场空间未必会有那么大

人性机器人的厉害在于它的通用性你买一台人性机器人甚至不需要买扫地机它可以帮你扫地你甚至不需要买洗衣机替代了家里的很多它可以做所有的事情我觉得进入家庭确实是会最晚的因为这个对它的通用能力和智能化能力要求是最高的所以就是会最后进入到家庭很想拥有一个人

现在可能回到我们那个二级市场的投资这一块因为其实从去年到现在 AI 一直都是一个非常火热的话题包括 AI 的相关的一些科技板块啊一些产业链可能应用还没落的一些概念出来大家都已经长起来了

您是怎么看待就是现在整个 AI 产业的一个估值的等等这边谈整个产业的估值这个问题就我想可能从这个角度来聊更好一点就其实是聊成长股投资成长股投资我觉得里面很核心的一个东西其实我们就确实是要去把握想象和实干中的一个平衡吧

就是如果我们只盯着眼前现在拥有了什么去看的话其实可能会错过很多的机会因为很多可能优秀的企业和商业模式它其实是在不断成长的空间而出现的

那如果我们只去想象而不注重落地的话可能会掉入各种各样的泡沫之中所以我觉得成长股投资确实是比较难包括我们常思考的一块就确实是要去找这个实干和想象中的一个平衡

因为去年 AI 这块板块也涨了很多嘛大家可能觉得是不是会提前透支未来的行情我是这么看这个问题的如果真的就谈回到人工智能投资的话我自己其实是把人工智能投资会划分为四个阶段就第一个阶段其实就是 AI 的基础设施就是大家会去训练这些模型用到的比如说像 GPU 芯片啊其实去年轰轰烈烈的行情主要其实都是围绕着这几块的

那我觉得当 AI 它真正变得成熟之后它会真正从实验室去走向商业化的场景当它的成本足够低它的性能又足够成熟的话那我觉得就会到第二阶段和第三阶段就是会有很多的 AI 硬件加 AI 应用 AI 硬件就比如说像机器人啊支架呀包括很多端测的 AI 其实都是属于这一块然后在里面会有很多的 AI 应用比如说就像各种

智能客服这些都算 AI 应用有很多的 AI 硬件和 AI 应用起来真正到了这个阶段其实还有很多的投资机会可以寻找但真正比如说觉得人工智能是不是真正结束了我觉得真正要到第四个阶段就是 AI 完全的普及化了就像现在我们没有一家公司会说我们公司用了互联网我们公司

用了水和电来宣传我们公司我觉得到那个阶段就是 AI 完全普及化可能才算 AI 这个行情真正结束吧如果用这个更长的一个视角来看的话我觉得就是 AI 基础设施这一块

比较新人的行情可能才是整个 AI 投资这个阶段的开始这当然是一个大的维度但确实是落地到现实就是大家的预期波动会比基本面的变化更快就基本面我觉得是它往东

北方向走是很确定的就人工智能但是它的预期可能是有一个更大的波动幅度那可能我们能做的就是在判断对的大方向的时候在大家情绪特别乐观的时候可能就往一些预期或者反应更低的板块切换一下

但大家又特别悲观的时候我觉得大家可以坚定的相信相信科技创新的力量相信产业的发展就又会在这边多一些关注多一些配置在投资上可能会去做这样的一个变化

就比如说像前面提到的在 AI 的硬件端的一个其实也还是有挺多机会的因为我们可能现在无法预见到人形机器人产生但是可能一些 AI 的比如说眼镜啊或者一些可穿戴的设备就这一块看到觉得比较多机会的是可以大概讲一下

这一块我觉得可以整个放在端测 AI 吧就我们刚才不是说到你的 AI 真正从实验室你要走向商业可用吗其实就是要从那个集中中心的训练走向一个个的端测嘛那我觉得这里又可以细分两条路径一条路径呢其实就是比较好理解就是我们现有设备的 AI 化就比如我们现在用的手机啊用的电脑啊它都会加一些 AI 的功能

都是端车对对对还有一块其实就是新设备就是一些 AI 的新硬件我现在能够看到的就包括一些智能穿戴设备那我觉得今天可能还能期待的一些 AI 玩具它 C 端娱乐的一些属性就智能眼镜 AI 玩具智能耳机就是我觉得会有很多小的一些创新点现在

可能能明确看到的我觉得智能眼镜和 AI 玩具这两块其实还挺值得关注的像智能眼镜的话很多大厂就是在今明两年吧也会陆陆续续发布相关的一些产品

觉得它现在的这个技术是已经可以就是真的成为一个我们平时能够戴的因为可能它的在重量上呀各方面还是没有太适配到现在的长期佩戴的一个这么的一个水平我觉得智能眼镜正是因为 AI 这个技术让智能眼镜更快地走入我们的生活因为你想想如果没有 AI 技术前几年大家讨论比较多的你要么 VR 要么 AR 嘛

VR 就是封闭式的头显那个就更大你可能在家玩玩打打游戏还行 AR 技术的话因为它光学显示就是目前还不成熟就一方面是很贵另外一方面它也重然后还有它可能在一些亮光的环境中显示也未必有那么的清晰所以有了 AI 这个东西它变化的一个不一样是它可能能

轻显示重 AI 因为它有了 AI 里的交互方式通过语音还有一些简单的摄像头你的交互方式其实是能够更轻便化而且因为这种你也不用那么大一个光学显示的模组其实在重量上现在有些眼睛已经做到跟我们日常佩戴眼镜差不多吧或者就略重一点的这个级别我觉得就是

它确实能慢慢进入到我们生活的场景渗透率能够慢慢提高了从技术上来看我目前是这么觉得的

预计在今年会有一个比较大的其实已经在发生对已经在发生就是你看 Meta 和雷鹏的这个眼镜其实已经是百万级别吧其实就是通过一定的 AI 然后打破了头显或者是这种类型的智能眼镜过去十年里面一直屡战屡败屡败屡战的局面它进入一个比较正向

有量有规模的这个电带而且它的市场规模是更大的相比于之前的头显这些但是这是我们总结因为在当年他们做头显的时候他们的预期是要比 iPhone 更大或者是取代 iPhone 取代手机结果发现完全很难光学技术上会走得慢一点但智能化技术这一块就快一点

就像你刚刚提到的可能现在还在基建投资的第一阶段所以大家可能买芯片会多一些买芯片买算力这些那比如说在这个产业上拉长的话你觉得接下来一个阶段比较有机会的一些环节是什么

就像我刚才说的就是当你 AI 真正成熟可用了之后我觉得会出来很多 AI 新硬件 AI 应用其实都是比较值得关注的还有一点我觉得其实很值得关注的就是国产 AI 我觉得确实是在这种从历史维度来看吧这个可以扯远一点就是扯到国产 AI 我觉得从历史维度来看我们可以看到

每次技术革命背后它其实都会有权力的变迁就比如说像第一次工业革命其实是蒸汽机我们可以看到英国成了就日博罗帝国第二次工业革命其实是电力和内燃机的一个崛起我们可以看到美国和德国就成了工业化的一个强国那第三次其实是信息技术革命我们可以看到美国在这一次其实是奠定了它一个全球霸主的一个地位所以每次技术革命背后的这种

权力变迁呢其实是非常值得关注的那我们现在其实才处于整个 AI 革命的刚开始所以我觉得中国还有包括中国的企业一定要寻求机会在这方面做更多的一个布局那第二个很关键的点就在于

每次这种技术竞争它可能都会有一些生态上的分裂就比如说像当年冷战时期的时候你其实可以看到美国和苏联之间的一个很多的技术禁运现在其实我们也能看到美国对于

中国等地区的一些芯片的经营现在其实我们也能看到一些法案相关的东西那我觉得这些东西综合来说对于中国的企业来说它确实会是挑战因为确实我们现在可能在某些方面还比不上最先进的一些产品但我觉得更大的角度它确实也是机遇就是这么大的市场还有我们又有比较好的一个基础所以从这个历史的维度上来看我觉得国产 AI 的链条

就包括一些卡脖子的技术还有包括就是 C 段能不能真正在哪些方面突破我觉得都是非常值得关注的我想起 1920 几年的时候

福特汽车要进入英国的时候也遭遇了英国的贸易保护主义就是你需要留下买路财你才能真正的在英国畅通我其实想说的是贸易战争这个事情其实在历史上过去一百年里面发生过 N 多次可能它并不完全是发生在中国然后在中国以外的地区我们关注的没那么多然后我觉得这里边有一个比较有意思的是这种已经

就是做成的这种大国像今天的大国是美国然后新兴国家是中国在这个大国去阻止新兴国家变得更强的这个过程中所动用的贸易手段也好包括先进技术的净零也好至少在历史上从来没有成功过其实你是完全没有办法真正的阻止新兴国家来变得更强的就是我觉得我们也可以有信心一些它只是你从历史上看到的东西一下子把我们这个哈哈哈哈

播客的格局给在最后升华了一下最后可能两位嘉宾做一个总结然后用一句话总结一下觉得你对今年 AI 领域这块人行机器人也好支架也好最大的一个期待是什么或者你觉得关键词会是什么

关键词我觉得就扬帆起航吧制驾它是更成熟的技术我觉得能看见它渗透率的提升今年年底我觉得大家就能从数据上我觉得就能看见渗透率的提升所以就是肯定是进入一个扬帆起航的状态了那机器人的话我觉得它是 0 到 1 的这个过程它有趣在我们可能能看见它的技术的成熟的这个速度

它的迭代速度很快我觉得能给我们对未来的想象能带来越来越多的期待对我觉得这是确实比较重要的两个方面对我说一些具体的就是我觉得自动驾驶的话现在 FSD V13 它依然是一个 supervised 就是受监督的就是说驾驶员要坐在主驾上无论你有多低概率的接管你都需要监督

他的下一个发展的产品阶段叫 unsupervised 就是不受减度其实说白了就是你可以办公睡觉或者 whatever 什么事情如果他能在 2025 年 12 月 31 号实现我依然觉得这是一个非常大的 mail stone 对于自动驾驶行业上来说

然后机器人的话我觉得跟王兮兮是一样的就是说我们只要能在 2025 年年内见到一个端到端的模型这个模型它不是过去那种他只会搬箱子或者是他只会把电池一个一个插到那个电池厂里面他学会了举一反三或者他可以学更多的任务但是他也没有过泥河也没有出现其他的一些模型爆炸之类的问题他可以有了一定的泛滑能力我觉得就是开了一个好头

今天非常感谢两位嘉宾的一个输出和分享我们聊了制价这块的一个整个的一个发展历程和一些技术路线不同的流派以及面临的一些技术难题也聊到了现在大家最期待的这个人性机器人整个产业链的一个变革的过程包括未来我们可以期待落地的一些不同的一些投资阶段然后再次感谢两位嘉宾谢谢大家好 谢谢谢谢

基金有风险投资需谨慎以上内容仅供参考不预示未来表现也不作为任何投资建议