Hello 大家好欢迎大家来到中金研究院的播客节目我是主持人徐雯多大家好我是左徐雯 24 年中国台湾 ComputerX 大会在 6 月初的中国台湾召开了作为全球科技硬件领域的重要盛会每年都会吸引着来自世界各地的顶尖科技公司和行业专家中金研究部的科技硬件团队也是在活动后就发布了三篇对本次大会的深度洞察
在今天的节目中我们也非常有幸邀请到了报告作者之一中间研究部科技应接行业研究员陈乔生从 ComputeX 大会的视角出发帮助我们一起了解 AI 芯片技术的最新技术进步以及这些技术进步如何加速 AI 应用的落地和普及那我们欢迎陈乔生老师
大家好,我是中心研究部科技硬件行业的分析师陈娇生今天很高兴能借这个机会跟大家分享一下我们对于整个 AI 相关的这些硬件在最近的一些更新以及我们对整个行业未来发展的一些观点和看法那我们就进入第一趴我们想先聊一下这个行业的概览和技术进步首先我们想问一下为什么发展这个 AI 需要专门的 AI 芯片而不是用通用芯片呢
是这样我觉得这个问题其实作为开场的一个问题也是非常重要的希望能帮大家理解一下为什么现在有 AI 芯片这个概念以及这个产品我觉得核心来看 AI 芯片它的出现的原因以及为什么通用芯片不能被用作 AI 加速其实核心的原因还是由于任务类型的不同我们看到现在做 AI 任务来看其实你主要的任务类型是要去加速神经网络的计算跟通用计算其实是有些差别的
之前我们看到比如说你在这个电脑上运行一个这个 APP 或运行各类的这种应用程序其实你需要支撑的这个应用程序是很多的而且每一个应用程序里面它其实更多的不一定是以这个计算作为这个密集型的这样的一个说的这个任务的场景啊
或者怎么样实际上其实很多时候你可能也需要进行很多的复杂逻辑的控制所以说这样的一个实际的应用场景是非常适合以前我们讲的通用计算芯片或者说以 CPU 为主导去承担的这样的一个任务类型但现在来看我们做 AI 实际上其实你要做的事情就是要加速神经网络的计算我就想要把这种所谓的人工智能算法比如说卷积计算这个
矩阵的这种乘法张亮矩阵乘法等等的这些相对比较有特点的专一的一类的应用我需要去加速它这样来看其实我们也自然能理解就是原来可能类似 CPU 这种通用类的计算芯片其实它并不一定适合我们说现在的这种 AI 的这种加速类型的应用其实我们反而去需要一种专门可以加速神经网络计算这样的一个芯片能达到了一个更高效以及更低成本的最后的一个效果
这个是我们觉得为什么发展 AI 需要专门的 AI 芯片而不是用原来通用芯片其实它也可以去做但是最终因为任务类型的单一化导致了你的成本和最后的效率可能不能达到一个最优的结果
刚才你也提到了其实就是针对不同的 APP 和不同的需求它是有不同种类的 AI 芯片的有几类 AI 芯片可以给我们介绍一下吗好的 没问题如果从 AI 芯片的分类来看我们先按部署的位置来分其实主要还是两大块一块是云测一块是端测云测很明显也比较好理解那就是部署在数据中心里面的 AI 芯片当然数据中心你也可以分为比较大的互联网数据中心但也有一些小的
可能边缘的区域的数据中心只不过可能它的任务的场景可能有大有小不过它整体应该说是一大类属于这个云测的这个 AI 芯片那还有一类呢我们就说就是端测的端测的话呢其实也比较好理解就是我们比如说电脑里面个人 PC 然后手机里面
然后包括还有像汽车包括 AILT 设备这种物联网设备比如你家里的音箱里面你要去让音箱比如能跟你去进行智能对话里面也有一些 AI 芯片它要去对你这些 AI 的算法去做加速做支持所以我觉得如果整体来分应该说分为云测和端测两大部署场景当然就是说如果我们在云测里面再做细分包括端测里面
其实我们按任务类型来分不是按着这个部署位置来分还有这个训练和推理两种一种芯片叫训练芯片训练是干嘛的呢就是说你现在我需要一个人工智能行业的这种语言模型或者说多模态模型但现在这个模型它还是一个偏野生的一个状态我现在无法就让它马上的投入工作它很多的东西比如说参数还没有设定好
在这时候我需要在做模型的调整的时候我要去训练它把它最后中去变成一个可以很精确的得到一个我们想要的一个输入输出对应关系的这样的一个算法的模型这样的话我们需要去做训练对于训练芯片来讲我可能
可能对于整个的计算的吞吐量的要求相对来说会比较高但是我对时效性的要求可能不高就是说我不会在乎我可能一定要把模型比如说在一两天之内就弄出来当然就是说你的模型的快速交付能力可能也是衡量你在大模型或者咱们说之前的小模型赛道上
你能做到领先与落后的一个衡量标准但是实际上这个东西可能短期内来看对实验的要求不是那么高端侧来看刚才我们讲说包括云侧还有一类芯片主要就是推理推理其实说白了实际任务部署任务上线的时候我整个模型都已经做好了我拿来就是用我就是为了去做山与落地的我云侧其实可以部署推理芯片端侧同样可以
只不过可能云测的芯片从性能上价值量上要高一些处理一些比较复杂的任务端测可能我就处理一些相对更加简单的一个任务但这些芯片相对来说我刚才讲到可能跟云测的训练芯片不太一样实际上
我更多的就是说会在乎食盐包括低成本这些其实跟商业落地和真正的我们说最后做人机交互相关的核心的这些指标所以说再总结一下刚才徐老师问的这个问题一方面是说我们按部署的位置来看可以分为云测和端测的 AI 芯片如果按应用的场景来分我可以分为用训练的还有推理的这两类大概是这样的一个情况
那您刚才其实已经提到了就是在云测这一块如何去衡量这个 AI 芯片的技术发展那在观测这边是不是也有这样的衡量指标呢其实类似的我只是刚才讲到就是说对于云测来说可能大家对于算力的要求包括其他的我们就说如果你从这个指标上来看可能还有比如我们现在讲的这个存储存储的容量和带宽包括芯片间的互联能力等等的一些说白了可以加速你训练的
一个过程的这些核心指标相关的客户在评估产品的时候都是比较看重的端色来看我觉得第一刚才讲到其实我可能对于算力的要求没有那么高因为我实际上模型我不需要经历那么大数据量的一个计算把我这些参数都调整好其实我已经是拿到了一个成品我的计算量是要明显变少的
但是我更多的我可能是会衡量我的芯片的一个所谓的刚才讲了对于食盐的敏感性这块可能我是比如说对于这些存储的容量包括带宽这些东西可能有一些需求对于多芯片间的互联能力可能在端侧我要求也不高更多的我可能希望的是我的成本可能会
会更低一些我并不一定追求那么极致性能但是最终我落到这个端侧以后我能让商业模式的闭环我能赚钱我这东西不能很贵那贵的话我最后其实做商业落地的话我实际上客户也最后是不会买单的那消费者也不会买单所以说其实整体来看我觉得端侧的这个芯片可能更多的如果从技术指标来衡量可能对于存储的容量包括这个存储代款可能是有一定的这个需求的
可能尤其是容量这容量这块是涉及到你到底能不能把模型放的下然后另外的话呢就是说所谓的成本那衡量成本来说呢其实说白了就是到底你这个同样的这个功耗下啊你能输出多大的计算能力其实它并不是一个就是算力的绝对值并不要大但是效率你一定要高等等的吧所以我觉得可能跟云测的这个需求来看还是呈现了一定的这个差异啊
明白了那我们想问一下就是目前的这些芯片厂商在这个开发上的着力点是在哪些方面呢是针对这个 AI 芯片明白这块来说呢其实之前我刚才也讲到了最早吧我们说就是去年来看当 ChatGPT 刚火那一块其实大家还是对性能上
就是一些核心的性能指标是有极致的追求的比如说刚才讲的对于算力对吧这个算力越做越大存储呢也是一个大的存储的容量以及大的存储带宽甚至还有这个刚才讲到的一些运力我追求这个互联比如说因为
我现在不是一个 AI 芯片的工作我是多个芯片工作我的协同能力我必须要特别的好就相当于你一个人做事和 100 个人做事 100 个人做事的效率肯定不等于一个人乘 100 这些其实我刚刚讲了都是一些性能指标上其实大家最早在整个声称是 AI 的对算力需求爆发的初期大家都在硬件上投入的这样的一个状态之下其实大家追求的是极致的性能
但现在我们觉得来看其实大家会从追求极致性能变化为追求降本趋势因为确实你做任何一个行业的发展来说前期应该说是有不断的投入但如果这种不断的资金的投入最终不会带来实际的商业落地不会让你的商业模式形成一个闭环的话那这种投入可能是不持续的所以我们现在看起来可能大家对于算力硬件的性能不是说没有需求了
不是说性能升级不追求因为我们看到现在比如以大模型来看确实大家从大模型的参数量数据量这些东西其实都在往上增长落地以后你对于算力的需求由于用户数接入用户数变多以后也在向前增长所以算力的需求是不缺的但是关键大家现在非常在乎成本就是如果你的成本降不下来
实际商业模式你没法像一个滚雪球一样不停的滚大你可能投入到一定时间点上大家觉得投不动了没有资金实际再去往里投入了可能行业的发展就会进入一个停滞期所以我们觉得现在大家开发的着力点就不仅是对性能的极致追求更多的我觉得是在硬件和软件上想怎么去做优化包括系统上做工程优化导致的
到最后整个的硬件的单位算力成本是下降的我觉得这个是现在大家核心所关注的一个问题好的那讲到这次这个 ComputeX 大会上作为 AI 算力的头部的两家厂商 AMD 和英伟达在这个大会上有没有发布什么让您觉得比较眼前一新的产品呢肯定的这次我们看到这个大会上的变化还是比较多的这些
刚才您提到这些头部厂商应该说都做了一些组织演讲首先我们看英伟达的一个情况这次大会上我们觉得英伟达是在算力网络软件应用层面四个层面其实都展示了他们家最新的一个战略展望第一是算力方面英伟达其实不仅是展示了之前已经公布的量产版的 Blackwell 芯片而且也讲到了 2025 年会推出 Blackwell Ultra AI 芯片
2026 年又会推出下一代的 AI 计算平台 Rubin 然后 2027 年又是 Rubin Ultra 所以说整个的更新节奏也是提升到了一年一次根据英伟达来讲之前从 2016 年的 Pascal 架构到 2024 年的 Blackwell 它自己芯片的计算能力浮点运算以及人工智能的浮点运算能力其实提升是超过了 1000 倍的超越了摩尔定律用于训练 GPT-4 的模型
模型能耗也节省了 350 倍这个算力的上升发展性能提高是非常快速的而且迭代节奏来说也比原来变快第二点上来说不仅是算力层面在迭代网络层面就刚才讲到了因为你现在涉及到整个的 AI 芯片不是一个单卡的布局的这种状态了其实你是一个多卡协同的所以我们也看到在网络层面上其实因为大家对于
以太网的生态展望也是比较积极的这一次其实也公布了一些新的产品的路线图我们看到其实 2024 到 26 年因为大家也是计划发布了一系列的产品包括不同速率的以太网的交换机以及网卡等等一些产品实现以以太网的技术的这种标准实现了一个从万卡十万卡
甚至未来到百万卡集群的连接这块来看我们觉得同样是也会跟计算能力一样按照每年为一个维度往全区迭代我觉得这个也是我们看到的一个变化当然软件方面这边也做了很多的一些更新这边就不做赘述了
相同的就是 AMD 这边其实也跟英伟达在往前以同样的节奏进行迭代自己的产品这一次的 ComputeX 大会上公司也是展示了新的一个云端加速卡的路线图我们看到 AMD 这边也是会在今年推出 325X 的加速卡
2025 年是 3502026 年产这个 MI400 那根据这个最新推出的 MI325X 来看呢 AMD 的这一颗新的芯片其实有望采用这个 HBM3E 的内存那内存带宽也有所提升那相比较英伟达的这个 H200 的这个上一代芯片而言 AMD 的这个 MI325X 在 FP8 以及 FP16 的这个算力精度下其实是有望提升这个 1.3 倍的这个计算性能的啊
芯片公司也公告是在 CQ24 会开始出货后面的话再下一代产品到 MI350AMD 也会引入更低一些的数据精度格式比如说像 FP4 FP6 以推动更快的推移能力落地所以整个来看我觉得总结一下其实两家大的这种头部的云端算力芯片厂商其实都加速的迭代了他们自己的云端算力芯片产品包括英伟达
它不仅是在算力形变上去做迭代相关的网络通信配套上也去做迭代也看出了大家对于整个算力需求往后两到三年的一个发展的一个乐观的展望以及公司的算力降本的一个信心吧
那我还有一个问题啊,就是人工智能我们说的有三要素嘛,算力、算法和数据,那之前大家一直都在讨论这个算力是不是会对 AI 发展的一个很大的制约,那听您讲下来感觉还是 AMD 包括英伟达在这方面有非常大的一个突破和进展,那您觉得就是对于 AI 就是需求的响应是不是有可能会给我们一个更大的一个想象的空间在未来?
是的没错就是您讲的我非常同意其实现在来看就是大家算力的这个配套我觉得第一是性能上的配套现在是已经达到了这个客户的需求或者说不作为算法迭代的一个掣肘嘛
然后另外一部分从成本上大家也积极在推动降本刚才说降本可能有多少种方式一种是硬件迭代本身性能上通过比如制程的升级封装升级存储升级等等这些都可以把算力的成本做下来然后另外一方面可能我在软件优化上也会做一些相关的一些
迭代啊那使这个算力的成本不断的往下降低廉的一个算力成本自然会释放进一步释放这个算力的需求也会对未来这个应用落地会有更大的这个想象空间当然把应用的这个想象空间推出来以后应用的这个用户数的一个放量对我们说也会反过来反补继续去推动算力硬件的这个需求啊
以一个这种类似飞轮效应的这样的一个模式去积极的往前的去迭代所以我觉得这样的一个正向商业模式一个正反馈的这样的一个循环慢慢就会随着整个的这个硬件的进步以及这个应用的落地慢慢就会跑起来那正如您所说的这个供给和需求它其实是相互创造的相互影响的现在 AI 的这个需求包括对 AI 芯片的一个核心的需求主要是在哪些行业上会比较多呢
现在来看我觉得云端的需求我们看到其实应该说是最强烈的或者说从应用场景上来看现在大家对于大模型的这种我们所谓的参数量的增多然后数据量的增多其实大家还是在这种或者说至少投不起还是在 scanning loss 或者说我们讲到现在这种大模型的这种规模定律上去不断的探索所以我们也看到在这块的一个需求其实在未来一到两年
还是能看到比较清晰的一个客户的一个下单或者说我们至少看到这个持续性是足够的然后另外一方面呢是对于端测的端测来看我们觉得今年今年最主要的还是会以这个 AI PC 和 AI 手机做这个落地的这个场景因为我们也看到苹果也是在 24 年的开发者大会上公布了自己在 AI 领域的一些布局和更新那也讲到了可能下一代的这个硬件新一款的这个苹果手机或者说上一款的这个部分的这个
才能对 AIA 的相关的模型在端侧落地做支持然后刚才讲到包括 AIPC 这边今年可能出货量也会有一个一定幅度可观出货量的一个增长所以我们觉得在端侧来看其实主要可能还是会在传统的一些终端上像手机和 PC 先行落地后面的话我们觉得可以更加期待
可能未来三到五年的维度比如说会延伸到比如说像自动驾驶啊包括还有 AR VR 啊等等这些可能更有想象力的一些场景还有一个问题啊就是除了 AMD 和英伟大之外其他的一些海外的厂商他们不是也有一些突破吗他们的这些突破会不会对现在的这个市场格局会产生一些影响呢嗯
这个确实也能看得到,实际上除了英伟达和 AMD 以外,所有的我们可以看到老牌的半导体芯片公司其实都在 AI 芯片上做了一些努力在这一次 Computex 大会上我们也看到,其实英特尔也是更新了下一代的,它自己内部代号叫 Lunar Lake 的一个处理机架构的最新细节
那整个的这个处理器架构其实会提供一个超 80%增长的一个游戏性能然后 5 倍的这个 AI 性能然后呢同时也是加速这个 AI 计算的同时保持了一个这个低功耗的一个水平啊
公司也提到在 3Q24 或者 2024 年下半年来看应该会有超 80 款的 PC 机型会搭载它下一代的 Lunar Lake 的处理器也是对 AIPC 做一个全面的支持
那另外我们也看到还有这个高通啊那高通其实在之前公司也是发布了这个骁龙的这个 X Elite 系列的这个处理器啊那高通这边的新的产品呢 NPU 啊就它的这个 AI 核的这个能效啊其实是竞品 M3 芯片的这个将近三倍了 AI 算力呢也达到了这个 45Tops 啊也是很高的一个端测的水平啊
我们也看到其实所有的我们说上述讲到过还包括我们刚才也讨论过的这些大厂的产品案例其实都在往 AI 在端侧落地的这种知识上去做努力我们也看到大家无论是在性能功耗上其实都会不断的去迭代自己的产品给 AI PC 去赋能我觉得
我觉得这个应该是所有的科技巨头我们看到都在追求的一个战略的一个方向吧那包括我们看到像 OpenAI 它现在也在自己下场做这个芯片您怎么看就是这些就不仅仅是大厂就是包括这些相当于算法这种工他们自己也在做芯片这个趋势您怎么看呢
是这样我觉得所谓的大模型厂商或者说这种云厂商自己下车上做芯片这也是一个非常逻辑上应该说是非常直观的一个事情因为说实话做 AI 刚才我讲的它其实是一种可能更偏专用的一种应用或者说我的硬件和软件其实说白了就是我的硬件结构和我的算法其实是一个
其实绑定的应该说是比较深的或者说对我的算法的现有的这种结构以及未来的演进方向知道的越清楚的厂商应该说更明白这个硬件往哪去定义其实过去英伟达一直也在做这样的一个我们说做这样的一个事情为什么它能在整个 AI 芯片领域一直处于一个行业的垄断地位其实核心的一点也是在于
它其实是绑定了大家的需求它非常知道这个算法未来的迭代方向是什么那对于大厂来讲它如果在算法上有自己的一个发展方向的判断以及它想去找一个更低成本与自己的软件更偶合的这样的一个方向去做落地的话我觉得实际上我们也可以理解到就是他们自己做芯片的一个动机但这个东西就是说跟所谓的三方供应商是不是冲突的
我觉得其实也并不一定就是大厂做芯片这个事其实也不是这两年才开始的我们看到像谷歌亚马逊微软等等这些厂商其实他们做芯片已经都是很多年的一个努力了对吧现在也有多代的芯片已经实际投入使用但是我们也没有发现他们真的对英伟达的商业机会有多大的我们说侵蚀
我觉得这个东西可能更多的还是在不同的业务场景上有些业务场景可能确实定制化需求比较高大厂或者算法的自己开发商他有一个需要一个软硬件紧我合的这样的一个更低成本的方案所以他会去选择做这么一个芯片但是并不代表所有的场景就是说他都不需要三方芯片供应商的一个支持了
目前来看这两个方式并不是一个零和的结果其实大家还是会有各自不同的一个痛点在那在本次大会上是不是还有提到其他与科技硬件相关的这些发展动态呢好的这次的大会上我们觉得其实除了刚才讲到的一些云测端测的芯片的变化以外硬件变化以外其实整个的系统散热这块也是非常值得关注的一个主题
我们看到随着服务器的功率提升其实服务器中包括像 CPU GPU 以及相关的存储设备电源以及网络设备及冷却系统其实自身产生的热量都在往上走那么我们认为其实更加高效的一个散热方式其实也是保证数据中心正常工作的一个必须
其实整个的散热的方式也会有一个升级以前我们看到基本上是以风冷就是风扇散热的方式去做服气的散热现在我们看到在风扇散热的整个的效率不够了以后其实我们看到还有夜冷相关的就是说液体相关的散热方式慢慢走入我们的眼帘当中了
那我们也看到现在随着这个整个算力要求的提升以后啊服务器的功率是越来越大现在英伟达的一个机柜的功率其实都在 100 千瓦以上可能这么大的功率呢我们觉得一定对这个散热技术啊也有着这个升级的要求前面提到了可能这个夜冷啊
也是作为散热效率更高的方式凭借着提升算力部署的密度以及降低系统功耗的优势有望逐步的对传统的这种风冷型的散热其实是出现一个替代的关系未来我们觉得随着整个 AI 算力的规模的增长相关的夜冷的散热技术市场的增速应该也是一个偏正向的展望
那程老师我们看这个应该如何去评估就是因为此轮生成式 AI 的浪潮带来的硬件市场机会呢好的那这个事我们觉得还是从两个维度来说第一还是从全球的这个大周期的维度可能整个的这个市场机会还是由这个一个大的一个逻辑主线吧由云测到端测由训练到推理以这个逻辑主线去进行演进的那
首先我们还是看到训练上机会其实已经持续了一年多的时间但是我们还是觉得训练端的硬件的采购暂时也没有见到停止或者说短期内有调整的这样的一个状态大家还是在这些大模型的头部厂商对我们说规模效应以及大模型的
前沿技术探索的这样的一个趋势之下对于整个训练芯片包括训练的算力硬件的采购应该说还是非常积极的也就是带来了云端的 AI 的加速芯片服务器包括交换机交换芯片光模块等等跟互联相关的这些硬件我们觉得整个的机会还是都在的而且以后就算在模型的迭代上我们觉得
可能未来比如说如果有一天会相对走向放缓但是从整个的模型往后来看即便是模型的规模的参数数据量如果说出现一定的放缓的迭代的趋势以后我们也看到对于整个模型的精调或者说蒸馏的这些需求其实我们觉得也都会持续在有所以说训练这个事情应该说一直都不会停止
即便这种算力的需求或者硬件的需求是从训练开始但是它也会持续贯穿到整个的 AI 浪潮的始终这是第一点第二点上来说当模型训练到一定程度具备商业落地能力了以后我们会把整个的关注度一向推一段因为整个英伟达也在它的公开议计会上指出了目前它可能整个的 AI 芯片的出户有 40%
可能都是来自于推理测了已经这样的一个变化其实我们也看到整个的市场的增长的动能逐渐从训练再往推理去转移当然英伟达讲的可能更多的是云测的推理我们也看到现在大家在 AI 芯片上其实更多的是去做成本的优化做算力的降本其实更多的也是要去配合当下在云端推理上
客户需求开始放量的这样的一个时间点啊其实也是对这种需求做的一个配套啊所以很明显我们觉得这一到两年或者说从这个 24 年今年开始啊到 25 年去展望那推理市场对于硬件的这个需求的拉动应该说是不亚于训练的是这样的一个情况那云端推理之后呢更多我们觉得慢慢随着模型能力的进一步增强啊包括我们刚才也讲到了呃
整个现在我们看到一些智能手机厂商包括苹果其实也在端侧开始推 AI 的一些应用实际落地了这一块的一个变化就是说在云端的推力起量的同时端侧的我们讲到
AI 手机包括 AIPC 甚至到未来的车还有 AR VR 眼镜等等端测的起量应该也是一个同步的或者说随着云测推理的放量循序渐进的端测的机会也会慢慢的到来而且端测得益于整个的设备数的一个基数的一个
这个庞大吧那所带来的这个 AI 硬件的这个市场空间我们认为其实也不会低那所以说整个的一个逻辑线是说先从这个训练开始那训练可能也会这个贯穿在整个 AI 浪潮发展的始终去驱动这个硬件市场的增长那慢慢训练到了一个模型达到一个商业化落地的一个能力之后我们看到先出来的是云端推理慢慢的从云端推理再转向端侧推理转向二者的结合
会推动整个 AI 相关的硬件市场达到一个相对比较新的一个高度我们对整个的 AI 浪潮带来的硬件市场机会应该说还是一直维持比较积极的一个看法的好的
那非常感谢陈教授老师这次做客我们中进研究院的播客节目如果大家对本次播客节目的内容感兴趣的话呢也欢迎大家可以关注我们中进研究院的微信公众号和中进点金的微信公众号那希望大家可以跟我们多多互动那非常感谢大家的收听那本期我们到自己身上了