过去 8 年你们做的最正确的一件事情我们对大模型的布局我觉得这是非常正确的我以为是买了 5 万块 GPU 让你最遗憾的错失的最大的一个机会是什么大模型时代到来的时候没有把 C 端的应用给做起来聊天机器人这件事已经结束了
OpenAI 做出来的什么我们会有 100 个公司去做同样的东西但是说别人没做出来的时候的话大家都是尽量避免这种不确定性同志化的竞争非常多到时候的话它跑不出商业模式去大家好欢迎收听云剑 Talk 我是主持人王海璐
这是一档汽车和科技行业的访谈节目关注商业大变机背后的产品 技术 人物故事这期节目我邀请了商汤学院 CEO 王小刚聊大模型上车王小刚是麻省理工大学人工智能实验室的博士同时也是商汤科技创始人汤小欧的学生和家人
今天車企都在喊大模型上車但上了車的產品其實都不太好用用人工智能創造出顛覆性的座艙體驗是一個不可錯失的大機會但今天又面臨著技術難題與商業困局王老師先跟大家打個招呼大家好我是山東捷運的 CEO 王小剛
分享一下你们从前的经历以及为什么会加入他的创业公司我是 2001 年从中国科技大学毕业以后到香港中文大学唐老师是我的
那时候呢其实我们就是国内做人工智能方面的研究还是非常落后的像我们顶级的这些一些会议 CVPR SCCV 其实我们都都不知道都没有听说过当时呢国内的话
每年可能也只有微软的亚洲研究院能够发两三篇这样的文章但那时候汤老师实际上是给我们打开了一扇门做计算机视觉人工智能方面的研究而且那时候他当时树立的目标就是希望我们在这些顶级的会议上
能够去发很多的高水平的论文成为世界上比较顶级的人工智能的实验室但当时我们觉得这个就很不可思议
不可思议的一件事那其实最后就做到了所以我们这个不知道这些顶级的会议到那时候我到我这三年硕士毕业的时候就发了五篇这样的文章到后面我们那个我们的实验室也是
为了这个当时英伟达评选了全球十大人工智能先锋实验室我们是其中的其中之一
也是在中国区的唯一的这样一个实验室后来就到了美国在麻省理工人工智能实验室也就是从事机段机视觉人工智能方面的研究 2009 年的时候就毕业就回到中文大学但其实在我们 2001 年当时刚跟唐老师的时候唐老师就想其实当时就成立了一个公司
想能够做这个把一些研究的成果做产业化的落地他说像贝尔实验室像微软的亚洲研究院他看到很多非常好的 AI 方面的研究成果说这么好的这些研究成果的话希望能够有一天能够转化成为产品能够作为产业化所以就从 2001 年到 2014 年
十几年的这个时间里面的话做了很多很多这方面的这些努力啊但那时候的技术还就达不到工业运营的红线所谓工业运营的红线就是人工智能的要超越肉眼的这个人的这个识别的水平可能是是可用的那这件事呢就在啊
2014 年我们在人脸识别人脸识别我们都有 30 年的研究的历史在那个时间点的话终于实现了这个突破人类历史上第一次在这样一个任务上一个非常重要而且是传统的任务上能够超过肉眼识别
而且当时的这个工作也很不容易,因为我们做这个工作的时候的话,其实大家实际上像在黑暗中摸索一样,而且当时呢,跟我们同时竞争的还是有 Facebook,他也做人脸识别,他是希望能够作为他的一个大的这样的一个发布,最后是我们最先做到了这一点。
当时还是有比较大的影响的因为人脸识别它实际上是有很多工业应用的可能所以 2014 年就诞生了上汤
前面两年我还是在实验室里面在学校其实也是做这些方面的研究当时还有一个比较重要的方向我们就是做这些通用的物体的识别和检测我们当时有一个比赛叫 ImageNet
有一百万张这个图片就是全世界的顶尖的这些视觉相关的团队参加这方面的这个研究和竞争吧当时我们也拿到了一米之内的这个比较
比赛的冠军,当时是 PK 的也是和谷歌和微软高通,就这些全世界顶级的这些团队。所以当时的话,我们业内的一个知名的学者,美国的学者 Rama Chalapa,他很资深的,他就写了一段话,他就发邮件给我们,对我们的这个组的这个工作做了一个评价,他当然,但是我印象也非常深刻。
就是把我们比作圣经里面的一个故事里面有 David 和格利亚格利亚是一个巨人 David 是一个很小个子 会扔石头
但是最後 David 把巨人給打敗了,因為當時說你們這麼小的一個團隊,跟 Google 跟 Facebook 這樣的巨頭,無論是計算資源還有數據都是超出我們幾個數量級的,而你能夠去打敗他們,而且能夠去實現這些產業化的落地,從那時候開始的話,
其实就开始了商汤它一系列产业化落地的过程到 2016 年的时候我就到了商汤负责这些研究
开始的时候只是负责研发,后来有一些产业落地的时候,有一些方向它对技术有一个强需求,像比如说手机,还有自动驾驶,所以说它的技术属性非常强,也是让我来去带这些方向。所以说在这里面,
我觉得成立商汤也是大家很不可想象的,就是当时说把人工智能能够实现产业化这个落地,实现跨越工业红线,我觉得这时候唐老师他也是在这个方面的话给了我们很强的信心,有一个非常明确的目标,一直到 2021 年商汤在
港交所的最后一个交易日成功的上市那时候的话当时我们做了一个统计到那个时间点那么商汤商业化的模型有超过两万个另外的话我们培养了超过三千名实习生因为 2014 年我们开始做成立商汤的时候这个行业里就很少有做深度学习人工智能这些方面的这些人才这都是我们从
本科生里面大二大三找的实习生带他们那几年下来的话像上汤是一个规模和体量不大的这样一个创业公司培养了三千多个这样的人才你们很像一个学校但是学校是收学费的而你们是要付给这些工程师钱的我觉得这里面的话就是大家可能也有一个通常的一个误解他觉得上汤是
这些教授他们从大学里面出来的所以在这里面的话这个不接地气啊这个落地方面会差一些其实是相反一些这种大厂他也会召见这个后来也建了人工智能实验室他也从大学里引荐他
引入这些团队啊还有知名的学者那这些人呢他基本上是做了一个锦上添花他已经是大厂已经是有了一个很扎实的这样的一个业务那就看人工智能怎么去给他赋能给他但商场诞生的第一天起啊他其实他就他要生存下来他就必须得去做这个产业落地
我举一些例子 2017 年的时候苹果他们发布了第一个用 3D 的摄像头做人脸解锁这些中国的厂商要去跟进要有一个极致的性价比还是用 2D 的摄像头
别人是用 3D 除了准确率以外的话你还要不能够被攻破的你拿一个照片或者是一个什么面具你就能够视频你就把你的手机打开了当时我们是在这个行业里面是第一个去做到第一个就实现人脸解锁的功能而且是用更低的这些成本去做到这一点现在的话基本上是中国的
市场的这些手机里面就是 90%以上它的人脸解锁的功能都是上它来提供的
这里面我们每年是挤一台手机还有大家比较熟悉的你说今天我们做娱乐互联网抖音上各种的这种特效一些人脸的技术最开始都是我们来提供的后面抖音它有资源都发展起来开始这些零到一的突破这些都是我们来完成的
另外那个时候 1617 年向本田到中国来找他在自动驾驶领域的合作的伙伴选了一圈的话当时我们还不是一个自动驾驶的公司也是一个 AI 的公司最后签订了跟我们的一个长期的合作五年的合作一亿美金给我们提出的要求也是只用摄像头没有高精度地图激光雷达 贯导这些都不用
能够去在这些比较任意的道路上能够去有自动驾驶的功能所以跟今天端到端自动驾驶的要求是非常类似的他们后来拿这个技术量产了吗这还没有因为整体上来说的话美国和中国的量产方面会走得会更快一些
但是我们在 2022 年的时候在行业里面我们第一个就提出来这个端到端自动驾驶的这个解决方案其实起点就是几年前五年前上市已经开始这方面的这些研究了
你人类识别这个技术开始的然后这项技术先用在智慧城市这样的领域然后用在手机上然后用在汽车上对对就是说我们其实这个应用的非常多我是想说我们做了很多这个事情
都是这个世界上是从零到一原来没有人做过的事包括我们说通过刷脸在大城市做地铁师傅几百万人口的你要从几百万人里面找出一个人还要把他识别正确然后用
通过刷脸的方式还能够把它给完成这个支付就这件事情上到现在的话也只有商汤能把它做得很好我们是第一个完成这件事情的现在的地铁的包括这个数字支付的系统这些所有的人脸识别应用场景里面你们大概市场份额占多少
我们一直都是在视觉领域的话就是市场份额都是第一的觉影是 21 年成立的这之间的中间的几年是在做什么中间这个时间点我们当时从整个行业来看
自动驾驶的商业模式和技术路线其实它也是一个不确定某种程度上还走了弯路比如说 robot taxi 这些方式的话它其实是它看到它的商业模式其实不是非常成立的
另外从技术的角度来说大量的去依赖高精度地图非常昂贵的传感器那么 L4 的这些车只能是在特定的区域内进行运行所以在这个时间点我们并没有大规模的去投入资源在这些方向上
但是到了从 21 年开始我们可以看到乘用车这些主机厂高级辅助驾驶的量产的机会出现了之前这些基本都是这个市场是被 Mobile 所垄断的
到了那个时间点以后的话其实是有了这样的一个机会那么我们才加大在这方面的这个投入后面陆续的在我们说在广汽仪器空气还有这个合重实现了我们自动驾驶的这个量产这是驾驶这一方面另外一个就是我们在智能座舱智能座舱里面视觉相关的
DMS OMS 通过视觉的摄像头去分析驾驶员的状态还有乘客的各种状态包括人际交互的这些应用开始在车里面开始兴起那么这个里面其实本天然的就跟商汤的这些
它的技术战和这个产品是非常匹配的因为商汤的这样的一个特点就是它有比较多的这个方向和行业线创新比较多所以说你大量在手机啊互联网啊这些所原生的诞生的这些技术和产品它就能够比较好的去移植到车舱里面
在做仓领域你们是把刚才这些产品打包在一起卖的吗还是客户想买什么他们可以单独买可以单独买这是一个货架而且这个货架还是在不断地是更新的货架上卖的最好的那个产品是什么
其实最强的是 DMS 就是看驾驶员的状态还有乘客的状态因为这里面它是未来将来有一些法律法规的要求这是相当于一些刚需因为到了 26 年的时候
欧盟他会出法律法规会强制要求所有的车厂都会装这个 DMS 它是用来检测驾驶员的疲劳是不是专注在开车上对 疲劳分心比如打电话有一些比较危险的一些驾驶的这个行为而且这个呢将来随着这个驾驶自动驾驶的这个普及就 L2++它实际上是一个人车共驾嘛
所以在这个时候的话他要能够看到这个驾驶员当时的这个状态你现在是和 30 多个国内外的车企合作超过 90 款车型交付了 195 万辆车他们主要是用你们的什么产品对就刚才说的这个 DMS OMS 车舱的是比较多 OMS 是什么 OMS 就是看那个乘客嗯
其他的这些乘客的这些状态因为很多的时候我们座舱里面它这些功能也是这些打包输出的有了大模型以外的话来了以后我们基于我们的大模型还会有一系列的新的产品
比如典型的像我们的这个语言的这个大模型杜曼泰大模型在小米苏 7 上它的这个最新的发布因为小爱同学里面背后用的这个大模型就用到我们的大模型小爱同学不是有自己的模型吗
那大模型它是有多个但是一度我们是占它比较 60%的流量吧它自言的是它的语音我们说的是大模型更智能和复杂的对话你以前的这些只能完成一些比较简单的指令你要跟它问更复杂的东西多轮对话它要理解这些的话
它就靠原来的模型就不行了就让我们给它提供大模型后面还有像吉利的 LEVC 它这个高高豪华的品牌品牌里面用了我们全套的大模型还有包括像智己智己里面的我们这些纹身图的这些模型接下来我们还也在图为我们这些多模态的
流逝动物态的大模型也有这个这个标杆的头部的企业量产和推进的过程当中现在也有一些车企在把大模型放到他的座舱里面去效果并没有表现的那么的惊艳这个问题现在卡在哪难点是什么几个点吧一个就是现有的大家对这个大模型的使用这个工具商啊
基本上还是把一些通用的这个大模型直接放到那个车上所以说他没有针对车里面的这些产品还有它的场景做一些深度的优化和这个设计因为这些模型可能之前在手机上是用的是比较多的
另外还有一些像这个车里面它有一些自己独特的优势比如说这种所谓多模态你在手机上你看的时候的话基本上还是通过文字进行交互语音都用的比较少更不要说你用打开摄像头去上传图片或者视频这在手机上你让用户做这种事情的话都是比较难的
但是在车里面就不一样它这个摄像头是常开的另外的话这个语音也一直都在所以它很容易就形成了那种多模态的一个运用场景所谓多模态是就一个模型同时输入这个声音啊视频啊 3D 啊还有各种车里面各种信号
然后跟你进行这个交互以前就是我的这个语音是分开的视觉是分开的然后上层通过一些规则把它们再去组合一下这个体验效果就比较差所以
但这个里面就需要根据车的场景里面去做深度优化你比如说我们现在推出来的一些镀膜态的一些场景是你开车的时候的话你沿途有这种风光有一些景点或者这些建筑物你可以说这是什么这时候他就能够去识别准确的去识别出来而且给你做出推荐能够给你导航到这个地方去
另外的话前面我们开车的时候可能前面那辆车它的车型车型是什么样的你对它感兴趣的时候这个车它也能够去识别它包括一些我们
像有炒汽车道啊公交车道啊有这个交通这种施工路段啊你怎么走啊那么他给你提供这些这些建议和这个解释那现在这些多模态模型他就有能力去做做这一点但这些呢他是要根据汽车的场景做出深度的优化那另外还有一个点就是
今天我们的这些大模型很多是它都跑在云端的它反应的时间比较长你问它一件事情的话大概三秒钟以上它才能够回答你那这个地方我说旁边那个建筑物是什么
我过了三秒他才回答我我早已经过去了那现在今天我们看到的就是从今年到明年陆陆续续还都会有一些这个车端的那个支持大模型的芯片就是你大模型不需要跑到云端了你就可以一直跑在这个车端
需要多少算力能实现您说的多母胎的大模型根据不同的算力其实我们也有不同模型的这种设计像英伟达的 SOR 它有 1000T 的算力
那么这里面可能是有大概五六百 T 给到自动驾驶,还有四百 T 给到做仓。那么这里面的话,我们这种百亿几十亿参数的这种就可以跑在里面。但也有的会更少,但是我整个算力大概就是一百 T 这个样子,但是我也可以把我的模型变得更小一些。您认为未来做仓和支架他们是跑在一块芯片上?
两个模型对现在已经是有这个趋势了就是像英伟达他们会出现就是所有大模型都放在一颗镜片上而且它这些数据也都是可以公用的现在的驾驶的数据跟坐舱的数据两边也是分开的所以他特意他就把它叫做 AI 域
另外它可能还有一个小一点的芯片去处理那些正常的那些座舱里面其他的一些功能跟大模型不相关的现在有车企在做基于英里达斯的芯片的仓价一体的方案吗其实是有的但是现在的话他们都是要到明年因为明年是量产首发还在一些这个
研发的这个阶段我们也在参与的过程当中因为我知道我认识的几个车企都在等着这个芯片他们都想首发量产但是他们都是拿索尔去做支架的这个芯片它是比较昂贵的算力也很大所以说它需要有足够多的场景甚至一些仓价融合的场景去支撑它的运营
它是灵活配置的你比如说你到底是 700T 的算力还是 1000T 的算力甚至是 2000T 的算力它都这样是你可以去选择它不同的配置如果要做高端的高阶支架功能它应该是选择什么样的配置是最合理的你觉得
目前来说的话像如果他只做自动驾驶的话大概几百 T 的算力就是可以的但是现在还有更多的算力他就希望能够把一些仓价融合还有做仓的一些内容放在里面在一块芯片上他是有他自己的优势因为这样的话他就可以实现一些数据的附用数据的这些零拷贝
所以它的体验会更好一些,放在两颗芯片上的话,那么这些数据的传输会更复杂一些。比如说你看上去是一些做仓的功能,但是它也会用到一些车外的事情。
刚才我说的一个动模态,你开到各个地方的时候,你要了解你的环境,你去识别周围的车场景和建筑物的时候的话,用到的都是车外的摄像头,那么这些车外摄像头呢,更多的是只是用在这个驾驶上。这个 1000T 的算力真的够用吗?因为自动驾驶的算力是一直在膨胀的,坐舱如果你上一个大模型,
就是你拿一个拆 GBT 放上来肯定是不够用的我觉得这个里面就主要取决于你的场景芯片厂商他肯定希望你这个算力被用的越多也是越好的但是这个成本也会增加所以这里面它关键的一个点就是你有没有一些新的场景去支撑你的这个运营
那么我们如果是还是这些自动驾驶的这些功能那么从这个用户的体验上来说它的能没有一个比较显示的一个感知度所以今天我们很多时候这个在跟主机厂跟芯片厂商我们在三方在进行一起讨论的时候的话
更多的就是在讨论这个事情就是你怎么能够把这个场景挖掘出来那么基于你说的这个场景他接下来他就会问支持这个场景的这个模型到底是有多大需要给他的这个算力
这是多少另外的话我们这些所说的这些技术它还是在不断地演进的从我们以前看到技术发展的经历上来看所以一开始的时候它会需要比较大的算力
但是你随着这些技术更加成熟数据质量会更高它这个模型也可以你会发现我小一些也能够达到同样的这种效果有可能还会把一些这个算力再释放出来主机场问你们的问题你们的答案是什么取决于刚才我们说的这些应用当时我们有一些这种仓价融合的这个 3D 的
3D 显示包括这种多模态交互的这些模型加在一起的话我们是能够把这个 1000T 的这个算力给它用满的
比如说我们这次我们觉影日我们会发布的新的座舱产品,我们叫做 A New Member For You,就把人机交互的体验又推向新的一个层面。我们说这个大模型在人机交互里面它像是可以分几个层次,第一个层次就是我就把它当成一个特定的工具,它有特定的完成的这些任务,
车书不然当成说明书一样我想知道我这个车有什么样的这些功能或者我有一些健康的一些咨询第二个呢就是我把它当成我的一个助手有的时候你想订个票啊安排个行程啊做一个会议啊你可以问他任何的问题
他就响应你的这个要求给你解决你的问题就好了但是他不会去主动的去来去关心你或者是跟你去去支撑你的这个有更多的这种情感上的这个交流 New Member 呢我们就把他就是他就变成一个家人一样
他时刻在察言观色他会看到你听的你说的话而且他一直跑在这里这就要求你有大算力的支撑了你在过去每时每刻发生的事情过去的一天一个星期一个月他就有记忆他知道你的喜好偏好你经历了一些什么
他会主动的去发起对你的问候和关心他跟你就有非常强的一个依赖性但是问题是现在车上的这些模型感觉他连工具属性都没有完成好比如说车输锐点他其实不能解答大家全部的问题现在这些大模型的团队
他并不是能够去 dedicate 到汽车这个方向就像你今天说好多大模型的这个创业公司也有好多这个像大厂也在做大模型他基本上他会这些呢他不是专注在这个汽车这个领域去解决他的问题的
汽车这个方向它确实是你是 2B2C 的最终的话要有它一个非常专注的极致的这样的一个产品的体验像我们的团队是要跟车厂一直迭代就专门的团队迭代几个月甚至说我们比如说刚才我说的我们说的那些功能专门有团队要跟接下来的一年的时间做
都跟我们的 Alpha 客户一直是在迭代我们的产品当然我们说的那些各种各样的这些功能它就会去逐步的去释放开始的时候我们把我们多模态大模型一上去的话只有 30%的识别率
经过几个月的迭代我们到 70%但目标接下来我们要到 90%那就到一个非常好的一个体验所以说今天你说 30 到 90 这个巨大的这个变化它就是需要有专属的团队去做这个事那么觉影我们就是
我们有大模型的能力同时我们是专注在汽车这个方向上的当然商汤它就是给我们提供通用的模型比如说你在基础的模型训练的时候商汤他要训练一个基础模型的时候我会告诉他
这个里面跟车相关的这些数据需求都是什么他在他训练一个模型大概需要三个月几千块 GPU 在开始的时候我就把我所有的这些需求都是已经买在里面了那么他训出来基础的模型对车就是非常的友好的其他人做出来的基础模型
它对车是不友好的那你后面再怎么去微调它那个模型它的效果都是比较差的如果拆 GBT 他们在车上开一个端口能把模型做得很好用吗因为现在的这个拆的 GBT 呢它今天发展到一个也遇到它自己的瓶颈就是因为互联网上这些数据的这些高质量数据的价值它已经被榨取的是差不太多了
那么接下来它如果要是再往上提升的话它是需要行业里面的数据那么行业里面的数据那你需要就需要深耕到这个行业里面去那 OpenAI 它不可能说它不会有一个团队去做自动驾驶
也不会去做只能做仓所以说它就不会积累出来这样的数据所以这接下来所以这块就是我们的一些机会点还有像在金融领域对吧有很多金融的这些相关的数据像健康医药这些都是一些新的机会点你在做仓里面的模型你不太能够
你就是大家的对他的这个期待跟在手机里面的那个模型肯定不是不一样的你不能够拿说我的流量是多少我的 token 是多少来去衡量因为在手机里面的话我一下子我就可以跟
跟他聊几个小时就文字的聊你做仓你不可能做仓的话你更多的就是他我们说你要做一句点一万句他说的话不一定很多但是他应该是在一些比较关键的这些点上能够起到作用所以这块就需要比较好的一些这个
这些产品的设计这里面你的产品的设计跟你的技术本身你也需要了解这些技术知道技术的边界在哪里他需要哪些技术的支撑从去年开始大家觉得大模型一下子就可以给我解决我很多的所有的这些问题但其实不是这样的他有他的自己
一些局限性和这个不足那么这个很多呢它是要通过一些工程化很有产品的手段去弥补你把拆的 GBT4 接到座舱里面它也不好用就是它不能够解决你就是刚才你说的比如说举例子你说车书你问一堆关于这个理想和未来某个车的里面它很细节的这些问题那个拆的 GBT4 它也回答不好
在 23 年的时候从座舱转型到自动驾驶为什么做这个转型当时其实我们从 21 年开始就已经是加大了在我们这些量产方面这些投入因为当时是已经是有了一些这个量产的项目嘛主要的原因是 21 年那时候我们就已经看到市场上刚才说到了
我们说乘用车高级服务驾驶里面这些量产的机会这个才是一个实实在在比较成而且比较成立的这些商业模式
那么这时候加大投入跟车厂一起我们要经历这个量产的过程因为原来你可能是一个 AI 的公司对吧你经过这样的一个过程以后你才从各种工程化的落地质量各个方面的话你才能够满足这个车企的这些要求嘛
那我觉得那是当时是从 23 年到现在那我觉得又是下一个阶段那么在这个阶段里面我们就会看到这些这种高性价比的中低算力的平台城市我以为在它会有一个快速的一个增长我们就把它
根据以往量产的经验我们设计出来高性价比的平台化的产品进行推广另外的话就是端到端城区的自动驾驶开始大家在这方面被大家所接受所以我们就要找到我们重要的车厂合作伙伴一起打磨这样的量产的产品他们愿意为支价付钱他们对做仓库需求比较弱是吗
座舱跟支架两个是不太一样的,支架的话它的应用的需求还是非常明确的,价值,而且技术战相对来说也还比较深。那么座舱它的功能点它更多的是一种创新性的,
功能点相对来说分散一些但是未来的发展随着大模型的发展我觉得找到更好的座舱里面的这些应用的这些场景它的客单价也还会也能够看到一个提升的这样的一个趋势坦白讲就很多就刚才你说的这些体验不好的那些直接把模型接上来它其实没有什么商业模式所以这种它的价格可能会更低
原因是因为做的这方面的人太多中国经历了一个百模大战 100 个模型在那里就是说无论是你的大模型的技术是很好的或者是怎么样
但是这个里面的话这个同质化的竞争非常多的时候的话它跑不出商业模式出来所以说今天我们要做的一定是在产品上是有创新的是要在这个技术本身我们要能够
针对汽车做出一个深度的这种优化的就刚才我们说你拿多摩泰大模型开始一往上一放是 30%的实践率我要把它放到做到 90%如果其他家把各家的多摩泰大模型通用的多摩泰大模型放上来以后都是 30%但我是 90%那我就有一家的空间所以说这里面就要摆脱这种同质化的竞争
是谁在压价是大厂吗我觉得这不是说有谁在压价就是里面的这个行业里面它竞争的时候的话如果是这种同时化竞争的一个态势它就自然会形成这样的一个局面所以说我们的思路就是要你把这个真的好用的东西但好用本身一个是你设计到模型本身的能力要强另外一个就是你的产品的设计对吧
因为之前我觉得在大模型里面它本身的商业模式也有一个很大的问题按 token 计费我们一个模型训练下来的话我的花费都是几个亿对吧你按着这个 token 来计费那你一台车我一天跟这个车说几句话呢我也不可能一直在跟他说话所以说这个
出卖模型本身这就不是一个成立的商业模式你应该一定是要把它做成一个完整的一个产品的闭环我卖的是产品不是模型你们跟高通和英伟达聊过他们在仓价一体方面的布局吗我觉得就是两个不同的方向从英伟达上来说的话它是大酸地
所以是高端的因为英伟达比较强的是在自动驾驶的芯片上所以说它的设计出来的就是千 T 左右的大算力所以它更多的是要看仓价融合的一个体验那么高通它实际上是另外一个思路它就是要把两个域合成一个域两颗芯片合成一个芯片
这样的话它主要主打的是性价比但如果车上只有一块芯片的话用谁呢这就是你看是什么样的车是吧性价比的车那么我就可能会采用的是高通的这样的话它少了一颗硬件嘛
那如果要是比较高端的这些车的话你想如果用到像 SOL 这样的大算力的芯片的成本本身也就是比较高的
因为像座舱里面它的各种的不同的功能非常多方方面面而且有很多这种跟多媒体这些相关的这些 IP 这些里面是这是高通的一个优势因为高通它
它有手机这些方面的天然的优势手机的芯片很多都是它来提供的就是在这一块高通和 MTK 都是有它的比较天然的这些英伟达在大算力上是有优势的而且它的英伟达的库达的生态我们在云上训练的模型往英伟达的端上进行部署的时候的话
这个他就是比较顺利了因为他整个的迅退的体系是一样的这个新加比和更高级的体验冲突吗因为特斯拉你去看他是从十几万的车一直做到几十万的车他用的是一套系统所以说就是特斯拉就是另外一回事了他自己的从芯片到训练的系统到我们说的这个
这些全都是他自己拥有的那么其他的生态他就不具备有的人做车有做芯片有的做软件的方案所以这个里面就差别很大就跟苹果和安卓的生态一样其实特斯拉的车仓是很简单的
它的这个里面你看它那个车厂里面其实都没有什么太多的应用对它主要的还是在自动驾驶上面商汤有多少算力给觉应我觉得这块的话商汤整个是五万四千块这个 GPU 那么在这里面的话它可以因为这些都是一个弹性的弹性调度的
比如说我在这个短时间里面我如果我需要有更多的这个算力调用的话,这些都是能够保障的。所以他这不是说我们今天的对算力的这个使用,他并不是说把一个固定的这些卡,
给到给到觉应而是说在这里面的话我可以能够去其实这几万块我都可以用对吧但是我平时用不了这么多我去用其中的一部分也都是可以的因为大家都是在一个算力一个大的一个算力池子里面去根据需要去融合调度的
我问一个比较外行的问题就是你们买的五万多块 GPU 现在商汤没有用这么多绝用也没有用这么多这些 GPU 是卖云服务是吧对你们的客户属下是互联网还是车企还是什么样的人跟你们买云现在的话比较多的像一些大模型的公司这些也是比较多的他们为什么不跟大厂买
呃有的时候也会也会有大厂在这个我们我们本身我们自己也也也也有一定的这个先发优势另外的话我们自己本身我们还提供我们的这些训练的软件呃给他有一些这种平台化的这些这些支撑就云这个生意他就是客户买谁不买谁是取决于什么呢我觉得这个呃
里面的当然有价格的因素包括你的这些提供的一些服务的稳定性还有这些效率你要把这些 1000 块卡
能够同时调动起来去训练一个模型这里面本身对效率要求比较高所以在最开始的时候你想把几千块卡用训练一个模型开始是我们每 20 分钟我们就会出一次事故后面的话我们整个会把它变得比较稳定一个月它能够持续稳定的去训练一个月
如果有问题的话我们能够迅速定位问题然后能够去比较快的去解决它 GPU 有一个拯救时间吗有是多久看不同的大家的统计计算的方法通常大概五年左右财务上有的算三年有的算五年
但有的是可能是 7 年这都是可以的我们早期我们 18 19 年那时候就开始有积累吧那当时积累了相当数量的这个 A100 为什么不把这些卡留起来给我自己未来的模型用而是把它去卖云因为用完了我就没得买了这种云服务呢它有规模效应
它的核心里面就是你要对它的使用率因为我的这些任务不是一直都有的有的时候它会空闲出来那么最经济的就是说我自己也有自用的那么同时也给我们客户用这样的话我整体的
利用率就会比较高这也是为什么有的时候你说为什么不是每个客户都建自己的一个集群的原因因为最终的话你想它的效益它的毛利率利润率它其实是很大程度上去受限于它的使用率的
如果是用 A100 H100 跟英伟达现在在中国卖的这种阉割版的卡它的计算效率差多少会肯定是有差异的而且这里面的话它也不光是算力的这个差异它里面的包括那个显存数据的传输它是一个比较综合性的东西
你怎么看特斯拉 FSD 来中国对中国自动驾驶行业会带来什么影响我觉得还是一个比较积极的事情吧它能够给行业梳理一个标杆而且有价格的一个锚点因为我们现在的话大家都对自动驾驶其实用户并不买单不付费如果特斯拉进来的话我觉得对于这个行业它本身的话
能够它的价值大家对这个价值的认知是有益处的当然另外的话我觉得也能够去引领我们这个行业里面技术的这些进步怎么看就是 AI 从可能 2012 年到 15 16 年你们创业的时候都比较火的阶段中间沉寂了很多年我觉得这个呢每个技术的发展行业发展它都有它的周期
从 14 年开始到 15 年的 AlphaGo,那时候的话,我们迎来了 AI 发展的一个热潮,其实在很多领域里面都是应用。过了一段时间,AI 1.0 时代,它就遇到了一个瓶颈,一个天花板,它就到了一个比较稳定的状态。
到了 2022 年,我们说这是大模型时代原来小模型也好,你叫它弱人工智能也好它就针对专属的任务现在是大模型对于通用的任务这时候通用人工智能带来了一波在背后的发展的推动力就是 skilling law,尺度定律不断地我们去增加模型的规模
其实就最近这一两年这个时间嘛也有比较快的发展但是我们很快看到它的发展也会有它的瓶颈包括这些大模型的这些应用大家跟自己开始的这些一些想象的觉得还是有差距觉得原来觉得这个模型可以解决我所有的这些问题
现在我们又回到现实当中,是吧?但是这时候又让大家想我是不是还有其他的这些思路来去解决这个问题,对吧?所以今天我们看到的话,所有这个行业里面技术的发展,它都是有这个规律在的。其实并不是说拆的机壁出现以后一码平川,
你觉得中国和美国现在 AI 的技术上差多远因为我们在 14 年的那个时候的话你可以看到当时我们还是
其实过去那几年我们当时在创新 AI 我们还是有些在某些方面还是领先的当时说我们还是可以跟那些巨头在有一些方面进行 PK 在一些特定的这些音乐的场景里面的话我们是先做出来的像人脸识别我们是世界上第一个做到超越肉眼识别率的
在一些视觉领域里面的话我们一直也是跟这些大厂比的话我们也是领先的我们拿了当时是那几年有拿了 70 多个世界冠军今天你可以看到大模型时代不是也有很多排行榜以前的话我们也有各种比赛拿了 70 多个冠军
但今天的话它更多的这些 AI 的发展依赖于
这种基础的设施对基础设施的要求更高芯片的更高芯片的要求更高而且 AI 的发展它逐渐变成了它不是一个单纯是个人公司之间的竞争另外的话我们你像在美国的话它非常强调的是原创我做一个某一个方向的时候我总在像 OpenAI 它自己也有
好多不同的团队有的做 chatgpt 有的做 sora 对吧有还有做 o1 那么这些不同的里面的话它能够有这种创新点出来但是我们的在原创精神这个方面还是有差距的我们的特点是说 open-i 做出来什么我们会有 100 个公司去做同样的东西
但是说别人没做出来的时候的话大家都是尽量避免这种不确定性不想去尝试这个新的东西包括我们这些资源的投入投资也不会去投那些不确定的东西都想投但是一旦有个东西看上去确定了就一窝蜂的去投但这里面的带来的问题就是同质化的竞争所以你看我们做的好多这些事情包括今天的你的这个新能源汽车也是一样
我们的产能都是过剩的每年的话就是个管的起步然后快速的都进来然后开始打价格战对对对就比较悲惨的就是美国的 AI 投资投出了 OpenAI 这样的公司中国的 AI 投资也烧了很多钱但是一地鸡毛你觉得核心的原因是什么就是这个其实我们就是同质化的竞争
就是你看你所说的一地鸡毛就当你有一百个公司这样的同样的这个公司的话那最后的话这个它的最后带来的问题就是这个商业模式就没有了你再好的技术你有一百个一百个供应商那大家的话这个不是说谁刻意压低这个价格
而且它就面临的就是本质上就面临的这个价格战商汤做人类识别的应用有做过智慧城市做过安防做过手机上的然后现在做车如果只选一到两个业务方向你觉得应该从一开始就做什么你这个里面所以说这个问题呢它
我怎么跟你讲这个事了就是因为这个它的发展 AI 行业的发展它是有先后顺序的每个行业里面就是在那个时间点比如说最早的像这个最早的应用那就是在手机上的应用互联网上的这个应用就是在那个时间点里面这个应用会先出来
但是呢他这些应用呢他本身的这个体量技术的复杂度他是有限的啊很多很快他在这个行业他就会到一个一个比较饱和的这个状态那我就得去找下一个呃更大的能够去驱动 AI 发展的这样的一个这样一个行业那可能就今天就是汽车对吧你到了这个明天那可能就是巨神智能还有机器人
所以说它不是一个选择题而是说它的发展的话它是有一个先后次序的就像你不能问我你选择是 AI 1.0 还是 AI 2.0 你没有 AI 1.0 的时候你就不会出现后面的 AI 2.0 它所用的这些技术它也是用的是 Transformer 也是用的神经网络啊
那么当时大家验证这个神经首先得验证神经网络是不是 work 对吧那么我们在 1.0 时代我们验证了这个是 work 能够超越人类那只不过它在这个基础上继续往下走它这个里面这个发展的本质的规律没有变它的规律就是网络不断变大数据不断变大但只不过这个量级是在
又增加了一个量级两个量级产生了一些质变但是这个趋势一直都我们一直都知道要把网络变大但是当时的时候我们 2012 年的时候当时我们就认为深度学习是未来是要做的但是 2012 年的那个时候我们没有 GPU
没有 GPU 那怎么办呢我们就在深圳租了几百台 CPU 去训练人体人体识别一训练也是要训练几个月最后就看出来
超越了肉眼的识别率而且我知道我继续训练下去它的性能还在涨只不过到那个时间点大家要投论文了要投会议论文了要把这个结果拿出来但是拿出来还在往上涨你说这个就跟今天 OpenAI 做的事实际上是非常像的
对吧我还是不断地我在扩大它的规模加数据我一直能够看到我的这个红利一直在往前走它现在的问题是 GBT-5 6 没有快速地出来而它只能交付波欧和欧万这样的东西就是因为它的里面它也遇到了它的这个瓶颈这里面可能不是说
不是说任何一个咱们说这个事情不是说单纯的说你网络变大它就一定能变好那背后网络变大的背后一定是伴随着什么就是数据的支撑你有足够量相对应的这个数据来支撑它那今天的问题就是它没有对应的足够多的这些数据或者是足够复杂的这些任务能够去支撑它那这些东西在哪呢它可能就在各个行业里面了
所以我们有价值所以我觉得你说的问题可能也是我们今天的机会你说在智能座舱也好还有自动驾驶也好有什么大模型还不是很 work 做工作都不是很好就是因为在这个领域里面我们并没有把这个领域里面它的数据的这些价值可以挖掘出来
就现在如果穿越回 2016 年你刚加入上昌的时候你们会做什么不做什么
就让你如果把这几年重新走一遍我觉得要做的是什么呢不是说你做什么行业不做什么行业而是在这里面我对这个一些资源的这些投入你比如说在当时我们对我们有自动驾驶这个方向但是我们对自动驾驶它是一个有限的一个投入但是当你到了某一个阶段的时候你会要我们做出的什么判断呢就是其实说你要放弃一些东西
你要放弃比如说有一些传统的方向它已经到了它的天花板它没有在进一步有潜力的时候你要放弃掉它但有一些新的方向你比如说自动驾驶我看到它要
它要起事了未来的这个里面要有一个大的发展的时候我们要果断的去加大在这方面的这个投入所以说我觉得这是里面要做出的这个选择
AI 它本身不是一个行业它是若干个行业不断地去依次去推动它往前走的这么一个事情你觉得过去八年你们做的最正确的一件事情和错失的最大的一个机会是什么从这个执行层面上来说的话我们对大模型的这个布局我觉得这是非常正确的我以为是买了五万块 GPU 那是它是其中的一部分
因为我们从 2018 年那时候开始我们就开始做大模型因为有做大模型的需求我们在临港建了 AIDC 的数据中心当然市面上就没有这样的设施
我们去找这个大厂的这些云服务他说我没有这个东西我们累计在大模型上的投入就超过 100 个亿在那个 AI 的那个领导的那个中心那个中心光建那个中心是当时是超过 50 个亿也就相当于那一轮融资就是干这个事了对吧对所以我们就是在这方面的这些投入和布局这些我觉得
它还是有足够的前瞻性你看弹幕型的爆发是在 2022 年底我们从 2018 年开始有这些预判我们跟这些投资人也会讲我们的一直发展的这些理念包括 2021 年的时候我们上市的时候如果你去看我们的招股书上
那一轮我们当时就非常明确说这个我们要做大模型的研发但后面这个它爆发出来了有可能是那肯定是超出我们的当时的想象的但是在整体的这个我觉得这个方向和这个路线上这些是没有问题就是让你最遗憾的错失的最大的一个机会是什么
如果是非常 personal 的我自己非常个人的观点说我觉得在大模型时代到来的时候我们就是没有把这个 C 端的这个应用给做起来这个是一个比较遗憾的但是这个时间窗口和时间点也非常短非常 critical 的这个时间点这个机会应该仍然在吧现在 C 端的应用都没有爆发
你看你怎么说衡量这个说这个爆发了如果我们如果把这个 chat gpt 当成是因为他是一个聊天聊天机器人吧如果这个方向来来说的话这个这这件事已经结束了对吧嗯那可能是下一轮那下一轮的话他就得需要有一些新的来去触发他