欢迎收听晚点聊我是曼琪 AI 算力现在是中美都最关注的 AI 底层竞争力约一个月前华为推出了由 384 块升腾 910 互联而成的超节点 AI 集群 Cloud Matrix 384
华为超节点发布后不久我邀请有 20 多年芯片从业经验的徐灵杰来一起聊聊这项算力底层的新变化自 2000 年代中期徐灵杰先后在英伟达 AMD 和三星参与设计 GPU 架构后来他加入阿里云领导了 GPU 云计算基础设施的搭建 2019 年他与张文等人联合创立国产 GPU 公司必任科技
2024 年他开始新创业成立模型智能专注算力集群产品设计和优化超节点本身就是一种从拼单芯片性能到优化整个节点和机架的算力思路变化徐灵杰的从业经验正好匹配了这一趋势
本期节目的第一部分我们聊了华为 Cloud Matrix 384 是什么它和英伟达 2024 年重磅推出的集群方案 NVL72 的一统不止英伟达华为把节点做得越来越大从集群芯片数量要性能以网络能力来弥补计算和存储的瓶颈已经成为算力市场的一个共识性趋势在第二部分我们主要讨论了超节点的趋势对英伟达对华为之外的其他国产芯片厂商对整个 AI 算力市场的可能影响
和一个经典的问题下一个改变算力格局的变量可能是什么节目录制后不久华为超级电开始出货据金融时报报道一套完整的 Cloud Matrix 384 的售价约为 800 万美元是售价约 300 万美元的 NVL72 的两倍多但要注意这并不是华为的官方价格信息
5 月 7 日华为盘古大模型团队又在硬本平台 Arxiv 上发表了一篇论文称在 6000 多块升腾芯片组成的超大集群上实现了 7181 参数的 MOE 模型的长期稳定训练这篇论文的地址我贴到了 show notes 的相关链接部分节目中涉及的一些术语在 show notes 附录部分有介绍下面我们就正式进入本期节目吧
4 月 10 日华为云发布了一项重要的 AI 算力新成果就是 Cloud Matrix 384 超节点技术简单说它是可以让 384 张生腾 AI 处理器互联形成一个大的基架的方案今天晚点聊很高兴地邀请到了资深芯片行业和计算机行业的从业者徐灵杰来与我们一起聊聊这项对 AI 发展至关重要的底座性的技术徐老师您可以和我们的听友先打个招呼简单自我介绍一下
好的 曼琪 各位晚点的听众大家好 我是徐令杰 大家可以叫我林杰那我是一名芯片和银计算的一个老兵了之前在北美的英伟达 AMD 三星都做过 GPU 的芯片架构的设计那之后的话呢 在阿里云的 GPU 的起步的时候负责过阿里云的 AI 的云基础设施 19 年底 20 年初 我联合创办了一家 AI 芯片公司必然科技
那到去年 2024 年我新创立了一家新的公司叫模型智能 Magic Compute 专注于服务器集群和算力优化方面的工作
好因为您有 20 多年的从业经验所以这次我们也是会从华为的新进展聊起那后面我们可能会延展到一些整个 AI 计算的发展还有优化的趋势我们可以先从 Cloudmetrics 384 开始就是徐老师你可以和我们的听友解释一下 Cloudmetrics 384 超节点它大概是一个什么东西我觉得
我觉得可能不是所有人都注意到了这个发布但实际上它对行业是非常重要的好的 没问题那华为的 Cloud Matrix 384 我认为可以叫是高密度的横向扩展的一个算力机群那算力方面的话其实有 12 个机柜组成每个机柜有 4 台发卡的服务器那 8 乘以 4 再乘以 12
那就是我们所说的 384 颗 AI 芯片这个机柜分成左边跟右边两个部分各有 6 个机柜那中间的话呢有网络交换机以及 6912 个 400G 的光模块顶部我们看到标识的话呢有 3168 根光纤把整个系统进行了互联
从定位上来讲 384 集群和现在全世界最强的最主流的英伟达的 M1-72 进行了对标那节点的总算力的话呢它整体的达到了 300 个 P 的这么一个算力比 NVIDIA 的 M1-72 整体还提升了 67%那在网络互联和内存总带宽方面的话呢对比 M1-72 也实现了翻番
那我们刚刚讲到这个集群啊从芯片方面来讲的话呢如果说我们从集群我们拿到的这个数据进行倒推的来讲的话呢那基本上我们可以得到单颗芯片的 16 位的浮点算力也就是说是我们叫 FP16 或者说叫 BF16 来看的话呢大约是在 780 个 T 的这个 flops 左右的样子
那 HBM 的容量的话应该是在 128 个 GB 单颗分装的芯片的话应该会有 8 个 400G 小币的互联的一个出口从静态的指标来看的话基本上达到了 NVIDIA 上一代旗舰芯片 H200 芯片的这么一个八成左右的
这么一个性能曼琪用了一个很有意思也是最近比较火比较出圈的一个名词叫超节点那我想 384 集群呢这么一个出现的话呢是继 MVL72 之后进一步点燃了我们业内包括这个媒体圈啊对于超节点这个概念的讨论那确实呢
华为在重重的困难之下在芯片上能够持续突破在机型上呢用数量换了这个算力的总量在新的这个产业和国际形势当中给中国蹚出了一条新的路非常值得点赞
但在这里我也想小小抛一个暴论华为的制造系统或许还不能够称之为是真正意义上的一个超级点我们如果说把超级点分为所谓的叫横向扩展或者叫纵向扩展 Scale-out 和 Scale-up 来讲的话华为的更像是一个横向扩展的机群 M1272 的话更多的是一个 Scale-up 的一个纵向扩展的机群
这个可以给大家解释一下就是横向扩展纵向扩展是什么以及我觉得也可以把 NVL72 也稍微介绍一下因为这个其实是 2024 年在 GDC 上黄仁勋作为一个非常重磅的事情推出来的但因为他也比较底层嘛所以我觉得可能也不是所有人都非常了解
好的那我首先介绍一下这个 SkillUp 跟 SkillOut 的这么一个区别那 SkillUp 从字面上来讲的话呢就是叫纵向的一个扩展从定义上来讲的话呢它是通过增强单个服务器单个硬件的这个能力来提升整体的机群的能力那 SkillOut 的话呢是通过增加机群中的这个服务器的数量让更多的这个机器能够来共同分担任务
也就是说类似于让更多的机器一起来干活如果说我们举个例子来讲的话就好比大家喜欢喝饮料今天如果说有个咖啡店也好奶茶店也好我们今天有一个小功率的搅拌机客人多了之后的话如果发现机器不够用我今天把小功率的搅拌机变成了一个功率更大的搅拌机马力更大容量更大一下子能够处理更多杯的这么一个饮料来讲的话这个就类似于像 SkillUp 也就是说我单个机器的能力增强了
Skill Out 来讲的话我可能就是任务多了之后我再多买了几台同样的交换机这个饮料机这样的话也能够满足客户的需求我想这是两种不一样的一个扩展从去年 GTC 的时候其实 NVIDIA 重磅发布了 NVIDIA ML72NVIDIA ML72 从字面上来讲的话其实就是 72 颗芯片在一个数据中心的服务器的柜子里面实现了完全的全互联
这个其实也是业界非常重要的里程碑式的一个方向也就是说这个计算的范式从原来的一颗芯片到了一台服务器那又到了一整个机柜的这么一个扩展那刚刚其实也讲到了华为的机器的话呢更多的是 scale out 那我们看到一边有六个机柜总共有 12 个机柜那 NVIDIA 的 NVIDIA M1272 的话呢一个柜子是把所有的这个 72 个芯片全部囊扣在了一起而且实现了点对点的一个全互联
所以简单来说的话就是 SkillUp 它就是单个服务器里的这些卡是全部相互互联的然后华为说的超节点对华为这个超节点就不是我说的就是它发布的时候它自己就是这么说的就他们这个超节点还是分了 12 个不同的机柜 12 个柜子对它一个柜子里面我看到图片上来讲的话是有 4 台服务器一个柜子里面有 4 台服务器当然 NVIDIA 的这个 M1-72 也是类似的在一个柜子里面有 18 台服务器
然后也是通过交挂网络能够形成高速的 72 卡之间的全互联对我觉得这里也可以讲讲更全的 AI 算力的结构因为刚才我们其实讲到了很多概念或者说一些术语就包括服务器机柜单颗的芯片等等就实际上在整个 AI 算力的物理结构上它从底层大概是怎么构成的因为大家听的最多的就是 GPU 但整个系统肯定它不光是 GPU 这一个核心模块构成的
您刚才也提到包括中间可能有什么互联的光纤然后中间还有交换机等等可以把这个大的途径讲一讲 GPU 或者说 AI 芯片确实是系统中最重要的也是最贵的这么一个组成部分如果说我们今天要把一个 AI 的算力基础层要能够搭建好甚至说用好来讲的话其实还是要关注更多的其他元素
特别是说今天我们要解决的问题变得更大的情况下的话已经不是一个 GPU 或者说一台服务器的问题了我们讲所谓的叫 Data Center as a Computer 或者说 Data Center as a GPU 的这种方式来思考问题来解决问题随着系统的变大来讲的话这里面无论是曼琪刚刚讲到的交换
互联甚至于说未来来讲的话冷却 散热这里面都会是非常重要的问题从应接系统来讲我举个例子互联就会变得越来越重要如果是说我们看系统来讲的话把 72 个芯片做一个简单的堆叠也就是说普通的服务器用通过网卡去连比起 72 个芯片全部连在一起的话这个效果其实是差的蛮多的
随着 NVIDIA 的 GPU 一起演进的话更重要的是它的 NVLink 还有 NVSwitch 的这么一个互联和交换能力我想这个其实也是一个综合能力的体现也是一个长期主义的结果 NVIDIA 其实是我记得没错的话应该是在 2019 年 2020 年的时候收购了麦洛斯也把互联和交换的能力收入囊中这也是 NVIDIA 正式从一个 GPU 的公司变成一个数据中心的公司的一个起点
这是我们今天看到的就是一个综合能力的体现
但您当时在英伟大工作的时候当时有做这方面的储备吗那是哪几年我在 NVIDIA 的时候是非常久远了在金融危机之前 2008 年的时候我就在 NVIDIA 了那时候 NVIDIA 整体的业务来讲的话主要还是在 PC 层面在显卡层面我们那时候作为架构设计的团队的话也会涉及到这个叫高性能计算以及 Huda 相关的一些业务但那个时候来讲的话 NVIDIA 还是这个行业里面的 Nobody 跟今天的这个情况是完全不能相比的
对它股价包括它整个业绩的起飞可能是在 2014 15 年之后会比较明显因为在 2008 年其实连深度学习都还没有这么新奇那确实还是很早的一个时候是的所以它的这个 NV-Link NV-Switch 这些技术就是它后面慢慢积累的但是它可能也比行业里其他人会积累的早一些就是它是用这些东西把芯片给连起来对吧
是的 如果我记得没错的话应该是在 2017 年的 V100 的那一代 NVIDIA 就有了 NVLink 那时候的 NVLink 还是会比较简单的也没有实现全互联在往后来讲的话通过把麦洛斯就是 Milanox 给收购了之后的话 NVIDIA 极大增强了它的通信和交互能力包括在通信的能力之上的话 NVSwitch 里面也结合了叫在线计算也就是说在一边传输的时候一边能够计算的这么一个能力
那大大提升了它的一个集群化的通信效率以及这个计算效率嗯因为你也提到之前是用网卡来连的嘛就是它这个连的方式它从网卡就是要像 NVLinkVSwitch 这种技术转变这是为了满足上层的什么对计算的需求啊
从 NVIDIA 的架构改变来讲的话我们认为最主要的这么一个驱动就是模型的大小模型变得越来越大模型变得越来越大之后其实第一个效果来看的话也就是我们需要更多的线存来存这些参数比如说我们讲的最近最火的 DeepSeekDeepSeek 要 671 个币 671 币 671 币
按照 Huawei 来算的话就是 671G 的显存再加上它的 KBcache 也好加上它的其他的基本的一些运算必要的占用的显存
往往要达到 1000 个 G 大币的显存占用我们看到单台服务器或者单个芯片来讲就不够了比如说以主流的 H100 来讲的话它单个芯片是 80G 的这么一个显存一台服务器我们看到今天标准的服务器来讲往往是 8 卡服务器 8 乘 80 来讲的话也就是 640G 也就是说 DeepSeek 最简单的要把这个参数能够存起来的话那就需要至少两台服务器
那要再把它更高效的能够去跑起来来讲的话呢那往往就需要这个更多的服务器把它连在一起那看到了这个模型变大的趋势看到了这个上下红变大的趋势包括这个 KVCash 也占有很大空间的这么一个情况下的那我想 Amedia 作为全球主流的一个芯片公司来讲往更大的这么一个集群化的方向发展的话呢是一个非常自然的一件事情哦
对我顺便提一下就是我们之前的有期节目里是讲过注意力机制线性注意力和非线性注意力那里面也都讲到了 KV 缓存就是随着上下文变大它变得越来越大的这个需求当时我们是和做算法的人聊的也提到说未来如果这个模型变得上下文越来越长的话那可能最终按照现在 Transformer 这个结构 KV 缓存还是会爆掉这个大家也可以去听听那一期我觉得有一个互问然后
然后再说回来就说到这个芯片的价格因为刚刚说的是 GPU 和 GPU 之间的互联嘛然后现在我觉得行业里也经常提到一个词就是总线比如说华为这一次去发这个 Cloudmetrics 384 它的官方描述里就是说
这些卡是通过新型高速互联总线连接的就是可以讲讲总线是什么吗比如说总线和 NV-Link 和 NV-Switch 就这些被视为是英伟达生态优势之一的技术它是什么关系
其实我觉得我们可以不拘泥于这个名词比如说我们讲 AI 芯片讲 GPU 讲 GPGPU 或者讲 MPU 今天我们所有的这些名词指向的都是同一个市场解决的是同一类问题无论是它叫总线也好还是叫一个高速互联协议也好其实就是要解决芯片之间互相之间通信能够协同工作的一些问题
我们以 NVIDIA 的 NVLink 为例来讲的话其实更重要的是它的伙伴叫 NVSwitch 也就是说 NVSwitch 的话是把 NVLink 连在一起
它是一个点对点的高速互联的一个协议 MVLink 采用类似于网状的一个结构把多个设备连在一起提升传输效率以及扩展性通过支持多个 MVLink 的这么一个连接以及包括结合大规模交换的 MVSwitch 的技术的话可以构建多颗甚至于说上百颗我们看到最近的 GTC 的话也发布了这个路标未来的话至少会有 144 颗 GPU 能够互联起来
而且是全互联在一起那这样更快的这个通行速度的话呢能够让 GPU 在并行计算的同时能够更快的做同步包括做更快的这个数据共享以及这个交换提升整体的计算的一个性能那我想就是无论叫什么名字目标的话呢我们先把它搞清楚
像总线和高速互联协议这个是不是已经涉及到算力层的软件的东西了它不完全是一个硬件对吧因为 GPU 它肯定是一个硬件的东西我们讲计算和互联它其实两者在现在这个环境里面是越来越分不开了也就是说我们的计算是需要和其他的芯片能够形成非常好的一个通信计算和网络之间的话我想一个是速度的问题另外一个就是一个协议的问题
刚刚其实也讲到了包括像 Media 包括我认为在华为的这套系统里面未来也会有也就是说很多计算不会是光在 GPU 本身可能也会是在交换芯片上什么意思呢也就是说我很多的计算结果会分布在不同的 GPU 芯片或者叫 AI 芯片之上
那要把这些结果给聚合来讲的话呢如果说是简单的做聚合那还要到某个芯片或者某一些芯片里面去做计算那层层的做一些累加那这样的效率就会比较低那如果说我们能够在一个中心节点也就是说这个交换芯片上能够做在线计算所谓的英文叫 online computing 的这么一个情况来讲的话呢那能够把我们的整个计算给简化从这个维度来讲计算和互联在这一块来讲其实是一个非常有效的连接
这种交换芯片它是一个新的类型的芯片吗如果说我们要把它做一个类比来讲的话它类似于像网络交换机的这么一个芯片我们知道在数据中心里面有服务器服务器通过网卡再通过交换机进行交换在数据中心里面的话往往我们看到的是以太网为主的在 NVSwitch 这个芯片里面的话往往是一个内存语义的这么一个交换它的方式可能会不太一样但芯片更多的是像是一个交换芯片
我有一个挺好奇的问题就是您当年做 B 任的时候其实那一波还有很多新的芯片公司就有一些它是做 CPU 的也是说要用在 AI 数据中心里的 CPU 还有一类是 DPU 就 DPU 有一段时间也特别火我印象中 DPU 就是为了去取代之前的传统的网卡然后提供一种就是更高的这种互联的功能就这些东西它现在在目前的结构里实际上它是用到了吗
曼基林问了非常有意思的一个问题关于这个 DPU 我之前的一份工作其实跟他还是蛮有渊源的在 2020 年年底的时候 Media 完成了对麦洛斯 Metalox 的收购之后其实我也积极的在布局要去把这个计算和这个通信要能够连在一起那个时候在 2021 年的年初
在第一轮投资了一家做 DPU 的公司叫云脉星联这家公司今天应该也是有了我们叫 RDMA 网卡的产品现在在市场上销售我想今天其实我们看到互联的需求会变得越来越高这一类公司从 DPU 转型到叫 RDMA 网卡的过程当中的话我想也是有非常大的一个机会的
你是个人投资的是吗第一轮不是我个人投资是公司投资的是不是当时 B 人投资的我想起来了吗对对对是我推动 B 人投资的这个投资本来是一个战略投资后面可能变成财务投资也是在公司历史上蛮成功的一个退出后面还赚了钱 OKOK 就 B 人作为一个初创公司他已经投资赚钱了那你们这个眼光可能比很多投资机构都好
我们说回来就是算力的这个结构因为刚才说的可能是一些偏硬件的东西然后我知道就现在模型智能其实你们做的是在硬件更上一层的一个优化就是可以把软件的就更广义的包括芯片包括 infra 的这些算力的结构可以再延展讲一讲
今天其实我们在市场上看到有蛮多公司在做 AI 的 infra 所谓的叫 AI 的基础设施我们可以把 AI 的 infra 这个工作把它分成狭义上的 AI infra 或者广义上的 AI infra 狭义上来讲往往是指在软件层面对模型进行优化把它进行调优跑得更快成本能够打得更低但我们认为广义上的 AI infra 其实是更值得去重视的从范围来讲
可能是说从芯片之上到整个的应用之下所有的中间环节能够把应用在最原始的芯片上要能够把它跑好的话我想这里面都是 Infer 的环节从服务器到机柜再到多个机柜组成的这么一个超节点其实我们今天讲的这个话题我认为就是属于 AI Infer 里面偏硬件的这么一个环节而这些领域往往还存在着大量的技术空白比如说 NVIDIA 的 MVL72
去年推出到今天落地来讲的话其实都不是很顺利因为这里面无论是互联散热冷却都有巨大的工程的要求也有巨大的工程的空间我想各位听众介绍一下模型智能在做什么刚刚一开始介绍的时候我也讲到模型智能是专注于服务器集群和算力优化的工作我们真的是有服务器集群硬件方面的工作在开展也会有产品对客户去做销售
那我想作为这个模型智能这家初创公司来讲的话呢我们的定位是一家软硬件相结合的一个 AI 的接触设施公司也就是说我们既会有自己的高密度的超节点的产品和设计能力同时又有我们的软硬件相结合的系统的优化能力这和我们团队的两位主要创始人的背景有关系那我自己更多的是芯片和服务器相关的背景我的另外一位创业合作伙伴金称的话呢更多是软件和系统算法的这么一个背景
那我们团队对于这两方面有很多之前有深入研究和实操经验的同事今天也在我们团队里面一起在共同成就这么一个事业像这一部分就是和硬件结合的 AI Infra 的部分为什么芯片原厂他自己不做其实他们自己也都在做那这个领域他对第三方的创业公司来说他的机会是什么这个芯片原厂我们其实要把它严格来定义一下那往往做 GPU 的公司
可能不太理解做互联的做互联的公司往往又不太懂这个计算芯片怎么去做那我们今天看到这个 NVIDIA 可能是世界上为数不多的既懂这个计算芯片又懂互联芯片的这么一个公司那今天他在做 NVIDIA 72 落地来讲的话呢也碰到了很大的困难这个也是和我们这个时代的要求相关的那我们就举几个简单的例子 NVIDIA 的这个芯片来讲的话呢从过去的一台服务器 10 千瓦
到一个柜子 NBL72 达到了 120 千瓦以上然后在明年可能会推出 300 千瓦的柜子再到后面会推出 800 千瓦甚至上兆的一个柜子这么一个集成度包括它的冷却散热互联提出的要求是一个量变到质变我想这里面有很多的这些技术能力技术工作是这个初创公司能够在里面去掌握这么一个先机和芯片原厂并不是一个竞争关系而是一个互补的关系
因为你也提到像英伟达这种公司它其实是少有的计算互联软件它都做得比较好的这样的公司那我觉得国内华为看起来也是在往这个方向发展
所以比如说像你们这样的第三方的来做 AI infra 片硬件的系统优化的公司你们主要的客户是其他的 AI 芯片公司吗比如说韩武器包括必认摩尔现成是这些吗我们当然可以和芯片人长进行合作与此同时基于芯片来讲的话我想我们能够做一些非公版的设计当然我们现在公司还是在比较早期的阶段对于我们的商业模式的话后面我们等到有产品之后的话我们到时候可以再交流
那是不是可以透露一下就是说其实你们要自己设计芯片吗我们现在自己不做芯片我们在海外跟国内都有业务首先我们也是会借于国外的芯片做一些比较
比较不一样的一些设计然后把更多的芯片能够结成在一起那未来的话呢我们也希望能够跟这个国产芯片一起去合作去做这个大规模的集结比如说用国外的芯片我觉得主流可能是英伟达的芯片其实你们是觉得你们可以做一些设计它在某些场景上可能比英伟达提供的那些标准化的方案是更有优势公版设计要好是
OK 那我们来回到就是这个超节点就是我们来看一个超节点或者说一个计算集群它到底好不好的时候你觉得哪些指标是比较重要的呀因为刚才其实最开始你介绍华为的这个 384 超节点的时候就说了很多指标包括它的总算力容量还有互联的情况等等就如果拆解一下的话是看哪些指标比较重要
首先来讲就是从硬的指标那么会有比如说显存的带宽然后我们数据支持的格式精度然后从显存的这个容量包括我们今天的芯片的制程从它的功耗从它的发热从它的这个散热系统里面那我想这些都是客户可以考虑的一些问题啊
那我们最终要来判断这个产品到底是不是好或者说适不适合这个客户那我想适合客户的需求会有非常密切的关系就以我们每个人每天都会看到的这个车子为例那不同的车其实是满足不同的需求的那有些人可能喜欢跑车对吧他要最快的速度最炫的外形实用性可能不是最主要的那最快的能够达到这个终点速度对他来讲很重要
对于另外一类客户来讲的话比如说他注重的是性价比空间性能是不是有这个彩电是不是有这个冰箱我们今天来看不同的场景如果说先把它分成训练跟推理来讲的话其实它是不同阶段的不同的需求对于训练系群来讲我认为客户最主要的话是希望能够在有稳定的这么一个预期之下能够达到他的训练的结果也就是说追求的是稳定性算力规模
然后呢对于功耗和成本可能相对没有那么敏感我们都知道去年啊这个喇嘛三在 dbc 当然出来之后的话是 dbc 最火了去年可能还是喇嘛三比较火的时候啊
我们其实都看到这篇论文这个 Facebook 有大的机群万卡机群如果没记错的话可能是大概 15000 张卡以上的这么一个 H100 机群然后在他训练的过程当中大概两个月左右的时间出现了几百次的意外也就是说每两三个小时都会有一次故障对于这个故障来讲的话就要恢复要重新到 checkpoint 重新去 reload 对于这个机群来讲的话越大的机群其实稳定性要求就变得越高对于超级电来讲同样是这样的对于超级电来讲
对于推理机器人来讲的话我想用户可能会更看重推理的服务的这么一个收益
也就是说它的 TCOTotal Cost of Ownership 总体的用户成本是不是更好因为训练对我们来讲往往是一个 CAPEX 也就是说是一个资本性的投入推理来讲的话往往是经营性的一个支出 OPEX 我们看单位 Token 的这么一个成本是不是能够达到最低这个可能是客户比较关心的一个点当然我们知道这里面有机器的本身的这么一个成本也有电力的成本也有用户的成本综合考虑了下来我想就能够得出一个答案说到这个推理成本就是因为前段时间 DeepSeek
它不是搞了一个开源中开源了 infra 的一些框架工具然后最后它有一个总结就是它自己总结自己推理优化的情况然后有一个 545%的成本利润率我不知道你们有没有去试 DeepSeek V3 和 R1 就是在你们的优化下它能跑到什么程度然后对比 DeepSeek 自己对这个事情的优化它是一个什么情况这个 DeepSeek 的话呢确实有非常强的这么一个优化能力啊
你刚刚有问到一个非常有意思的问题就是我们到底现在能优化多少和 DeepSeq 不一样的是我们今天是在 H20 的机器上进行优化而不是 H800H20 有着不一样的算力和通信比因此需要不一样的优化策略今天的话我们已经能够在 H20 的机器上针对 DeepSeq 满血版达到了一个非常不错的效果实现了 API 业务的这么一个盈利未来我们也希望能够有更多的合作伙伴
能够跟我们一起来合作一起能够在这么一个新城大海上一起能够赚到钱那怎么样能够实现盈利呢 DeepSeek 用那么大的一个集群我们看到今天它其实用一个大规模分布式的所谓的叫专家并行的大规模专家并行的这道系统用几百张卡来去跑 deckho 的部分
让它能够达到最好的效率这个确实我们今天看到的非常明确的一个产业趋势无论是最近发布的 Lama 还是说今天我们在录节目的当天早上发布的千问其实都在往这方向在发展也就是说是一个大型的模型然后有很多小的众多的专家
同时在专家激活来讲的话又不是一次性都激活每次都只激活一小部分如果说你只是僵僵的把它跑起来集群的利用率就会比较低你把它的专家给打散每张卡上只放若干的专家再通过非常高的并发的方式能够把整个集群的利用率能够打上去我想这是 DeepSeek 能够达到非常好的利用率也能够达到非常好的利润率的一个源泉他们也是在今年 2 月份的时候
也把他们的 secret sauce 一些秘密也公之于众我想今天很多的创业团队包括互联网大厂都是在模仿 DeepSeek 希望能够用他们的经验在这个系统上能够达到更好的效果我可以透露的是我们今天也是在几十台的数百张的 H20 上面在调试这么一个结果这个结果每天都有进步
我想问一个技术上的问题就是模型它在推理也就是在使用的时候对你们这种第三方的公司来说比如说做一些推理优化的工作因为其实每个模型的尺寸不一样以昆三和 DeepSeek 为例比如说昆三目前开源的旗舰版本它是 235B 然后激活参数是 22B
然后像 DeepSeq 的话它的总参数是 671 币它的激活参数是 37 币就是它这些参数的不同会导致我每次去适配不同的模型的时候我想让这个效率如果非常极致的话我的推理其实是要改的吗还是说其实一个比较标准的方案就可以去把不同模型的推理优化都做得比较好
其实在我看来的话方法论是非常类似的我们刚刚讲从模型的结构来讲的话是有众多的专家然后每次都是稀疏化的制作结果那方向上来讲就是把专家的话能够打散每张卡上只放若干个专家然后通过非常高的并发能够让每张卡都能够达到比较好的利用率那在这个方向上来讲的话算子可能会不一样包括他的专家的比例以及专家的大小以及其他的一些参数
可能会不太一样但方法论来讲是类似的一般从这样一个设计来讲我们都会有理论上的一些推导通过理论上的推导能够得到相对比较好的配置的一个起点
通过一些实验包括比较好的一些经验值来讲的话我想都是有机会能够在不同的模型但是是同一个方向的这么一个模型上能够快速地调出一些比较好的结果对 然后您刚才在说我们怎么看一个超级点或者计算集群的好坏标准的时候您是分训练和推理就分开来说的然后我觉得现在行业里又有一个趋势至少英伟达在推动这个趋势就是他希望训练和推理是统一到相同的芯片和硬件上比如说 B200
黄仁勋就会说这是一个训推一体的芯片那我想知道就是这个实际上对需要用 AI 算力的企业或者开发者来说这个使用吗因为有可能你买一个 NVL72 就非常贵对吧你就得花好像是 300 万美元吧我记得就实际上现在大家在用的过程中间推理和训练是会用一样的卡吗我觉得也可以顺便讲一讲就大家目前实操里面
训练推理都主流的一些 GPU 都是些什么实操来讲的话如果是说有英伟达的比如说合规的 H800 来讲的话其实大家还是可能会比较愿意去用英伟达的芯片来做推理训练来讲的话因为我们刚刚讲到有可靠性确定性和稳定性的包括口碑和生态的一些问题大家好不犹豫的主流的选择的话会是英伟达我想对于推理来讲
第一选择应该也会是英伟达但今天它是一个供给的问题不是一个需求的问题我想如果说在未来一段时间里面无论是其他品牌的芯片国外的芯片也好国产芯片也好在一类模型上能够达到比较好的效果的话通过性价比的方式的话我也想也是有机会能够去做到一定的 NVIDIA 的替代的
所以现在实操比较主流就是训练会用 H800 推理可能是用 H20 是吗推理来讲的话事实上我们经过测算可能还是 H800 的性价比相对比 H20 会更好因为这些专家都打散了之后其实它的问题是
从本来是一个容量限制的问题也就是说 capacity limited 的一个问题变成了算力邦德的一个问题也就是算力限制的一个问题这个在这个大规模分布式来讲的话因为 H800 的算力比这个 H20 的算力还是要考个五倍到六倍左右的一个区间那从价格来讲的话可能也就是两三倍的这么一个空间那在这么一个情况下来讲
每个算力的成本还是 H800 会比较好今天我们国家的芯片来讲其实从算力本身我觉得这款还是有很大的一个空间需要去追赶上的明白明白所以实际上大家用的时候确实如英伟达黄仁勋他所说的就是训练和推理你就用一个芯片它性价比是最高的他不是说 NVL72 你买的越贵买的越多你越便宜吗对他就说你实际上最后用的时候越便宜
大致的方向是这样的往往对于云上的大规模的这么一个训练和推理来讲我觉得您说的是没错的那如果是说对于线下来讲优先机会不一样它的并发没有那么高但是对于这个预算来讲可能只有 200 万 300 万这么一个预算只能够买一两台服务器那这个优先机会不太一样对云上来讲您刚刚讲的这个方式应该是成立的
我们可以延展聊聊就是这个超节点趋势是哪些变化导致的其实刚才已经说了一个就是在说为什么互联技术变得越来越重要这个和模型变得越来越大是有关系的那就具体到超节点到现在这个规模它还有什么趋势带来的吗
有什么行业的趋势导致大家都在追求这个因为确实除了英伟达然后华为之外像谷歌他们其实也在做类似的方案曼琪点了一个非常好的名字谷歌其实最早做这个超节点我们看到 POD 形式的这个机器来讲的话确实是谷歌我也是在 2016 年谷歌发布了它第一代 GPU 的时候激励着我要从原来的星培原厂进到云公司看到了更大的机会可以讲讲这个过程吗所以你当时应该是从三星去了阿里云那个节点对
对 2016 年谷歌在五六月份发布的 TPU 这个第一代时候其实对我的充其力还是蛮大的那个时间点其实我们在硅谷湾区的话其实很多人都接触过 AI 其实都是把 AI 当做是一个玩具那谷歌真正的在芯片上去投入去做 TPU 之后让我们意识到了 AI 是要登堂入室了是真正的能够产生生产力的
那第二个来讲的话呢这个计算范式可能也会发生变化从原先的 PC 到手机再到设计中心那这么一个转变在硅谷那时候大家可能也都是会比较敏锐的想要抓住这么一个机会对我来讲也是在那个时间点有机会从原来芯片这么一个设计的公司到了阿里能够从事云计算基础设施相关的一些工作那可以继续讲就谷歌当时是怎么开启这个超节点的这种实践呢
对谷歌那时候的芯片我觉得也是开创了一个时代到 TPU 这个 VR 的时候我们就看到它其实是一个 Pod 的形式来展现了不再是服务器的一个形式记得没错的话谷歌的 TPU VR 就是 256 卡
到后面每一代都有了蛮大的一个跃升 V3 的时候是 1024 卡 V4 的时候应该就是 4000 卡了与此同时在 V4 V5 的时候也是把网络用到了机制用了所谓的叫 OCSOptical Circuit Switch 能够动态的去配置网络的谷歌在这方面是走得比较前面谷歌走到前面之后
其实 NVIDIA 那时候作为两巨头之一谷歌和 NVIDIA 那 NVIDIA 也是推出了它的 NVIDIA 的 SuperPOD 那真正让大家在这一波的深圳市 AI 的这个浪潮当中关注到了我们严格意义上的这个 SkillUp 的这么一个机缺
其实就是我们去年看到这个 MVR 骑山在 GT7 上面的一个发布那从模型的发展趋势来讲再总结一下其实综合来讲的话就是更大的问题需要用更大的系统来解决那模型的参数变大它的上下门变得更长无论是原来的上下门就变得更长还是说通过这个深度思考
对于上下班的要求变得更高那都形成了对于这个显存的压力那显存的话呢我们也看到从 A100 第一个版本的 40G 到后面的 80G 到现在 H200 的 144G 到未来系统的 192 到 288G 那今天的这个芯片的成本结构也在发生了一个非常深刻的变化那原来我们觉得计算是一个主角那今天真正意义上我们看到芯片的成本
已经从一个芯片为主导的晶圆为主导的这么一个成本结构到了一个显存为主导的成本结构在上一代 H100 的架构里面显存的成本大概是在 40%到 50%到新一代的 B200 的这么一个架构里面我们看到显存的容量因为变得越来越大而且价格也是居高不下的情况下占到了五成到六成显存要把它非常高效的利用起来就需要有更多的集群能够通过高速的网络把它连起来
那再结合我们刚刚看到的 DeepSeq 的这个要求众多的 MOE 需要能够吸收的渠道激活通过这个大规模集群才能够达到推理的最好效果来讲的话那我们真正的能够看到超级点无论是训练还是推理能够带来非常好的一个性价比的提升像显存它的全球主要供应商是谁包括这里面有中国公司吗
我们今天看到主要的 HBM 的供应商在韩国有三星 有海地市之前是三星会比较领先这两单的话海地市领先的会比较多同时还有美国的 Micro 美光从内存其他的芯片从 LPDDR 来讲的话我们国内的好几家公司今天也能够基本上做到了替代这也是一块能够解决卡伯作问题急需赶上的一个领域因为 HBM 今天事实上也是对中国实施了禁运了华为自己做不了 HBM 对吧
这个我不能评价对对对说不定人家在研究还有一个我想问的问题就是华为它这个 384 节点你刚才最开始也说到了它是以更多的数量换来了总算力的这样一个提升就是它选这个方案是因为中国本土的一些制造技术的限制导致它单颗芯片的性能就是没有办法变得更高所以它找到了一个绕过去的方案还是说我相比于优化单颗性能其实我把更多芯片连起来它也许就是一个更好的方式
我们先从数据上来看的话华为的 Cloud Matrix 384 能够在整个集群上提供 300P 的这么一个算力几乎是 NVIDIA 的 NVL72 理论上的这么一个两倍它的内存容量的话大概是三倍以上内存带宽的话是两倍以上事实上能够从集群上的能力已经跟 NVIDIA 已经是平起平坐甚至比 NVIDIA 更高了
那我们看到的话呢它付出的代价是说它的功耗潜在的这功耗基于这个外媒的这个推测可能是在这个四倍左右的样子也就是说它的功耗要高了这个四倍那我想华为这套方案来讲的话呢其实也是给这个中国的厂商无论是中国的这个呃
AI 的应用厂商还是说做基础设施的厂商也是指了一条路也就是说我们可以通过搭积木累这个部件然后虽然每个部件每个芯片没有那么强但是通过更强的集群的能力系统的能力能够把我们整体的效果能够给搭建出来
那在整体的这个成本啊我们刚刚讲的这个成本有分这个 CAPEX 跟 OPEX 来讲的话呢 OPEX 来讲的话在中国啊以 NVIDIA GPU 来算的话它的 OPEX 里面的电力成本的话在每一年里面的话呢年化来讲的话大概就是十个年左右的样子甚至在有些西部城市
可能会更低因为中国要解决的这个实际问题和国外要解决的问题的话呢会不太一样啊中国来讲的话呢电力今天不是一个特别大的一个问题那在海外的数据中心来讲啊电力是一个比较大的问题而且电价会比较贵所以说两者的这个成本结构会不太一样那我想啊这是一个啊基本的一个事实
基于这个事实来讲的话华为今天做了这套系统虽然它的交换能力没有像 MLC 上那么强集成度也没那么高也没有像我之前讲的暴露一样没有放在一个柜子里面但从实际效果来讲的话我觉得这是一条路
这是一条美国厂商没有去走的但是中国厂商可以通过系统能力去构建自己核心竞争力的一个非常重要的一条路也就是说华为有了这么一个能力之后的话对于其他的国产芯片厂商如果说未来你没有超节电的能力你没有几百张卡连在一起去共同协作产生更好性价比的这么一个结果的能力来讲的话那就落后了
这个 Media 可能并不可怕华为更可怕了我以为你是要说如果他们没有这个能力他们可以来找你们对对对后面就是广告嘛刚才有一个总结特别好就是华为的这个公号看起来也许会更高的方案其实它也算是在中国这个环境里因地制宜的一个路线就像你刚才说的其实中国的电费会相对要便宜很多
对我觉得这是成本结构的考量那我们刚刚讲这个怎么评价一个系统好嘛那无论怎么样这个系统要不能够跑得快这是大家基本上都会公认的一个目标那能够要把它跑快来讲的话呢根据这个今天的模型特性那必须要能够在这个几百张卡上能够做这个高度的这个并行化的一个处理那在跑快的这个前提下其实华为的这个劣势其实并没有这个外媒分析的那么大也就是说通过这个成本结构来讲的话呢其实能够掩盖相当一部分它的这么一个
在设计上或者说在芯片制程上的一些辨识就是因为你刚才也讲到其实不是所有的 GPU 或者 AI 芯片的厂商设计厂商他都能做到说把这么多颗芯片互联起来那这个里面实际上他需要的技术是什么包括华为为什么能做到这一点就是这个和华为以前在哪些部分的技术积累是有关系的
那我想其实如果说让其他的这个芯片厂商能够像华为这样通过网卡和交换机的这么一个系统去搭建一个 384 这样的能力来讲的话其实很多公司其实是有这样的能力的那我们其实主要就是看它的芯片上有多大的一个交换口
是不是有合作伙伴能够帮他们去搭建这个机群如果说要进一步能够做到真正的 scale up 的机群像 NVIDIA 的 NVIDIA 72 一样的话其实就需要更强的能力了就回到我们一开始讲到的 NVSwitch 的能力 NVSwitch 来讲的话今天我们看到其实在国内的厂商当中的话其实大家基本上都还没有布局可能是说在未来的两三年里面的话都不太会有
这个 NV Switch 类似的这么一个产品出来那没有这个 NV Switch 的产品的话那我们就往往需要能够通过这个网卡加上交换机去做一个扩展那网卡和交换机是一种互联方式但是因为也受限于它的交换能力交换速率 网络的速度包括它的整体的互联的一个 TOP 来讲的话并不会是一个全互联的那从效果上来讲可能会对某些应用会打些折扣
那我想就是总结来讲的话呢做基本的这个类似于像华为 384 这样的机群来讲很多厂商其实有这个能力的而且我认识的好几家这个国产芯片厂商都在做这个类似的 352 或者 384 的机群也在这个大机群上在做性能的调优就是刚才也讲到就是华为目前这个方案里还是用了交换机嘛它这个交换机和华为当年做电信的通信这种交换机它是一个东西吗还是它其实不是一个东西
和电信的交换机从大方向上来讲应该不是一个东西就像我们大学里面的话电信那一块可能更像是麦克斯维和相容定律这个方向从计算来讲的话更多是冯诺伊曼的架构在大学里面往往也是不同的这么一个教授来教授这样的课程
那我想华为之前其实在这个 NPU 这个 NPU 不是我们今天讲的这个神经的神经网络处理晶片是指这个 Network Processing Unit 上其实在过去这个十几二十年有非常多的一些积累那有这样一个基础那通过这些 NPU 的一些积累里面无论是它的一些原来的技术积累还是说人才积累来讲的话都是有非常大的一个帮助的可以这么讲就是说华为在成为一个 NVIDIA 之前它其实已经是一个麦洛斯了
也就是说我们刚刚讲 NVIDIA 是收购了 Metanox 从一个 GPU 芯片收购了一个网卡芯片交换机芯片的这么一个公司成为数据中心的一个硬件公司华为在这之前的话可能自己已经是一个 Metanox 有网络和交换能力后面又发展出了计算能力这样的一个结合来讲的话其实是综合能力在国内来讲甚至到全世界来讲的话应该都是比较强的
明白就说它跟这件事情比较相关的鸡肋是在于华为之前做的跟网络相关的一些业务我认为是的就可能不是那个大家一想到华为想到最多最开始它的主业就是那个通信那块的业务那 NV Switch 的难点是什么你刚才提到就是说国内可能最近这几年都没有看到有厂商来布局就为什么英伟达能做这个其他人不做因为看起来它好像对英伟达的生态是很有好处的
好像是应该大家去做的一个手上是从这个 MVLink MVSwitch 来讲的话我认为它其实是属于这个酷大之外的第二大的这个重要的生态能够把它的这个系统能够非常高效的能够连接在一起而且更大的系统其实能够卖出更大的价钱
这里面的核心能力来讲的话其实是高速的 Series 也就是高速的接口芯片接口 IP 高速的接口 IP 的话往往又是和先进的制程节点能够连接在一起的所以说这一块其实是我们国内要做生产制造方面的一个软肋了与此同时的话这里面除了生产力有这层关系之外的话还有生产关系我们看到的话其实今天 NVIDIA 的自己的芯片是和自己的网络芯片能够形成互联的
如果是说对于绝大部分的中国公司来讲没有华为这样的网络也强然后计算也强的能力来讲的话要自己再去做一个计算芯片再加上一个网络芯片来讲交换芯片来讲这个其实也是有一定难度的要把这两者结合在一起既需要有非常强的设计能力同时的话也是需要有先进的制程才能达到这个结果
那所以华为理论上他也还是可以做这个理论上绝对是可以做的是的
或许已经在做了对像这个高速接口 IP 这种东西这是英伟达自己设计的还是这个其实是可以在市场上买到一些公版然后再来开发因为我知道像比如说新思包括 ARM 其实他们也有一些接口类的 IP 但是我不知道它是不是这种接口类的 IP 有的包括这个 Google 在做的 TPU 芯片的话其实也是利用了 Broadcom
它的这个非常高速的博通这样的芯片因为博通的话其实也是给这个 Google 做代工的就是说其实如果有厂商想去发展它也有一些合作伙伴可以去找到然后来一起做这个能力但是可能还是对类似于英伟达和华为这种它既掌握网络的技术又掌握计算的技术的公司来说做这件事是最有优势的
是的对于中国公司来讲的话这些高速接口来讲未来可能也会受到限制因为这次 H20 在最近这两个礼拜也受到了限制的话主要的原因的话就是带宽太高了无论是它的 HBM 的带宽还是说它的互联带宽都是过了美国的线这也是它被禁的原因之一了
那接下来一部分我们就是想从华为这个超节点延展聊一下大家都比较关注的问题就是整个 AI 算力基础市场的一些变化包括不同厂商的进展带来的竞争格局的变化我觉得大家比较关注的一个直接问题因为可能有很多投资人就是华为它发 Cloud Matrix 384 这种东西它对英伟达会有什么冲击吗
我个人认为的话在短期之内跟 NVIDIA 来讲的话其实没有特别大的影响基本上是你打你的我打我的短期内的话 NVIDIA 不是一个需求的问题而是一个供应的问题是产品进不来所以说短期来讲对 NVIDIA 的影响不大但是对其他的国产芯片的冲击我觉得是蛮大的因为一旦你在这个心智上能够对这个客户产生冲击之后的话那我想后面客户的话可能就会认定这个超节点才是好东西
那从这个 DeepSeek 在今年年初的这个示范效果来讲我们其实已经看到了这个示范效应的一个威力今天你能够在很多地方能够免费的去尝试到 671 币的这个满血的 DeepSeek 的模型那今天如果说再让你去尝试一些更小的模型来讲那很多客户可能是不愿意的那同样的就是说华为有了这个 384 的这个机群能够达到比较好的性价比
然后比起小规模的集群或者说单台服务器来讲性价比有好几倍甚至于说一个数量级的优势的情况下的话如果说一家芯片公司没有超节点的技术储备或者说架构不太适合做扩展来讲的话那就容易被淘汰
刚刚讲的是这个短期那从长期来讲的话我认为对于中国的这个市场来讲意义是比较深远的我们刚刚讲的一个名词是说用数量来换这个算力的总量也就是说在芯片制程还不太行的时候或者说在好的这个芯片制程的这个产能还不太够的时候通过这个系统扩展的方式
那当然是结合了很强的这个系统系统能力以及这个优化方式来提升这个整体算力那可能是在现阶段中国算力产业在保持一定的竞争力不掉队方面来讲的一个比较重要的一个实现路径那
那如果说这件事情短期可能对英伟达没有什么影响的话有一件刚才我们也提到的事情就是关于 H20 它是否要被禁这个现在还不是很确定但它有可能会被禁然后因为 H20 本来最开始就是英伟达为了绕开之前的禁令
给中国市场做的特供版那它之前也下了一些订单如果说美国政府重新划线把 H20 也禁运的话这个会短期对英伟达有一些业绩上的影响吗因为它可能之前的一些订单或者库存就在别的市场比如说美国或者东南亚或者欧洲也许没有人用因为你在那些市场其实你可以用它性能更高的 GPU 嘛
看起来的话这个已经对 NVIDIA 造成了实质的影响股价在那天的话其实也是已经反映出来了 NVIDIA 是记提了 55 亿美金具体说芯片来讲我们说老黄的刀法它其实跟 H100 H800 包括 H200 来讲的话总体来讲是同一个芯片在同一个芯片上做不同的切割来讲的话能够形成不同的这么一个配置
具体这些芯片是不是能够从既提的这些 write-off 当中能够重新变费为宝变成其他的产品来讲我想 NVIDIA 可能会有其他的一些方式这里的话我想 H20 其实之前的话还是主要是针对中国市场同样在海外能够买到 H200 的情况下我想大部分的客户应该还是会选择满选的产品你说变费为宝是说 H20 可以通过什么方式难道又变成 H200 吗
其实 H20 和这个 H200 我们看到比起来来讲的话它的算力大概是 H200 的六分之一左右的样子也就是说在这上面的话屏蔽了很多的计算单元不排除它能够继续打开一部分的计算单元这些是刻意屏蔽的因为要划到 2400 个 BitOps 的
这么一个美国的出口管制的限制下也就是说在 8 位的算力的话达到 300 个 T 以下如果说有一些算力单元是刻意被关掉的其实是有机会把它重新再恢复出来恢复出来的话或许在一个合适的性价比当中的话能够卖给海外的客户当然这个就是跟中国客户是没有特别大的关系了
它这个屏蔽和恢复是硬件手段来屏蔽恢复就是说它生产的时候可能就需要重新生产或者重新怎么改造一下还是靠软件的手段就可以做到
既是硬件又是软件那往往会是在这个板子上去做一些设置然后通过一些这个板子上的一些不可更改的设置把今天的这个配置给烧录进去那如果说这个 Fuse 我们说这个保险丝还没有烧过的情况下那其实是可以配置成其他不同的这个产品的
那如果我是一个中国的客户我买一堆 H20 回来我能自己给它怎么魔改一下提升性能吗这个可能有点超纲了但 H20 应该是不太可能去把它给恢复出来也不一定说是要恢复成比如说满血 H200 什么的我是说就我魔改一下提升性能这有可能做到吗这个就涉及到要把很多的这个加密的部分要能够去破解掉了这个就难度比较高了对于我们今天来讲就绝对是超纲了好
明白明白就说其实你改这件事情本身就是个技术门槛很高的事情就很难的事技术门槛非常高相当于说你要把很多的这个它板子上应该还有是 risk5 的一些这个盒然后用来做这个加解密的等于说你要把这加解密的这些单元的话都要能够破解反向的去把它的这套东西能够恢复出来同时的话呢要寄希望于这个 fuse 的话能够这个 reverse
这个其实难度还是很高的对那刚才讲的就是芯片层的这些公司的一些情况然后如果纵向来看就是超阶点这种技术它对整个产业链的影响就对上面的模型的影响这个接下来可能会对中国的这些模型公司有什么好的影响吗比如说今天也是正好阿里刚发了通议签问昆三然后其实几个小时之后华为就说他们是支持了昆三
然后可以实现开箱即用零带适配我想知道就是华为这种公司它很快能适配一个新的模型是怎么做到的因为他们好像并没有提前沟通过它很快就适配了对 其实现在这个阶段来讲对于绝大部分的 AI 芯片公司能够快速的去适配一个模型来讲也就是说把它跑起来应该不是一个特别难的事情我想后面一个难题来讲的话也就是说把这一类模型无论是千问的新的发布还是说是 DeepSeek 的新的发布
如果说还是同一个方向同一个类型但是它的参数会有些不一样的情况下能够把它的模型能够非常好的非常快速的非常高性价比的能够跑起来我觉得这个是后面的一个竞争点也就是说把它简单的把它给车子能够发动起来这个不难但是要能够在车道上能够非常好的去加速起来这个是后面的一个竞争点
也就是说我们看到后面的话是在保证一定的 token 每个用户的每秒 token 数的前提之下能够达到多少并发我们这样算出来在稳定的服务的情况下整体的系统的吞吐是多少这个是未来大家会去比较的一个核心点因为在模型都是类似的情况下的话其实后面大家对推理来讲其实就是拼个性价比了
当然对于模型的质量我这边想要提一句的话其实还是有一些差别因为我们刚刚讲到在芯片层面的话其实还有一个比较重要的参数的话也就是它的精度今天其实比如说 DeepSeq 来讲它是以 FP8 来做训练的就 Floating Point8 位的这么一个浮点去做运算然后去做一个推理这是它的满血版的官方发布版
那国产芯片的话呢其实有蛮多的这个芯片啊今天其实并不能够啊原生的去支持这个 AP8 啊要么呢你能够去啊恢复到这个 AP16 或者 BF16 那这样的话呢其实就占用更大的这么一个带宽和存储容量那就不划算那有的话呢就是把这个 AP8 重新去量化一下啊做成这个硬的吧啊整形的这个把位那这里的话呢可能会有些精度的损失啊那我想啊总是会有各种各样的软件的方式啊能够来降低这样的影响
但有时候我们会看到虽然都是这个 deep seek 但是可能回答出来的这个质量在某些环境里面的话可能会不太一样
就是你刚刚说的精度什么 FP8 INT8 这些就简单来说它是 GPU 处理数据的格式可以这么说吗是 GPU 计算和处理数据的一个格式包括它存储的一个格式也就是说我们今天看到多是 8 位的情况下因为它是浮点它浮点的话它动态精度会更大定点的话它的动态精度没有那么大
有时候我们需要动态精度比较大有时候的话不需要那么大有些时候 int8 或许是 OK 的有些时候的话我们就需要更大的精度范围能够比如说像 AP8 这样的话来处理我们看到其实往后面去走的话这可能也不是个大问题因为 NVIDIA 在往后的话也是会引领 AP6 AP4 更低精度的格式的话用到实际的应用场景里面因为今天我们看到绝大部分的模型其实都是一个概率统计统计意义上的
这么一个结果也就是说我做 next token prediction 下一个 token 的预测来讲本来就是一个概率问题我在计算的时候的话到底是 70.1 还是 69.8 如果说差一点点的情况下可能对最后的结果没有特别大影响的情况下哪种精度如果说它稍微低一点的话或许都是 OK 的
就是一个 GPU 它支持多少种格式这是一个选择的问题还是说这也有技术难点因为确实可能因为它的芯片它支持的格式会表权因为就有很多种不同的进步有什么 32 的 16 的然后 8 的又分了很多种对
对这是一个设计上的一个选择以及对于这个未来趋势的一个预判那今天来讲的话呢其实跟着这个 NVIDIA 去走这是一个比较安全的选择但往往来讲的话呢可能对于这个还不是能够确定能够引领业界主流的这些公司来讲不太愿意去投入做一些新的格式那等到 NVIDIA 确定了之后的话呢再去跟上那可能会稍微慢个半排到一排
而且可能你要确定一个格式我觉得也需要你上面的开发者和用户来跟你配合吧比如说我觉得 FP8 这个格式最近比较火也是跟 DeepSeek 比较火有关因为它用 H800 然后 H800 是原生支持 FP8 的嘛它这是一个生态的关系我觉得
是一个相辅相成的一个生态关系也就是说今天只有像 NVIDIA 这样的这个全球范围的大家都在使用变成一个工业基础的一个公司它引领的一些 format 更容易被大家接受那或许接下来这个因为美国的禁令的话呢中国会出现另外一种生态那或许会有一些这个新的机会在国产行业当中也会产生出来那讲到这个话题的话就是有一个我觉得大家也比较津津乐道想去讨论的问题就是因为大家看起来它的
优势它的壁垒是非常强的而且它很多地方的优势是它有这种正循环就你感觉它是一个随着它生态的变化它越来越强然后又相互反馈那除了刚才说到的就是中美贸易的这种非市场和技术的因素之外如果只看市场和技术的因素英伟达有什么可能会被动摇的地方吗它的强势地位有可能会被削弱的原因或者说驱动力会是什么
今天看起来的话 NVIDIA 的地位在全球范围内要被削弱的可能性相对来说在未来两三年里面可能会比较低一个是从它的芯片的未来的发展包括它的路线图我们就可以看到竞争力非常强另外一方面的话是它的生态
那刚刚生态的话呢我们讲到两个一个是它的这个 CUDA 的生态另外一个的话呢是它的这个整个互联系统自己闭环的这么一个生态也就是说不仅是 GPU 也包括它的网卡包括它的互联包括它的 MV switch 那
那从这个技术层面来讲的话呢其实 NVIDIA 有个非常大的一个优势是有最好的这个全球供应链围绕它的周围那从芯片来讲的话呢台积电我们就不用去讲了从这个 HBM 来讲我们刚才讲到了这个海力士啊三星啊在最新的这个 HBM 上就能够给到 NVIDIA 支持甚至说就是为了 NVIDIA 的这个特别的一些需求进行了一些这个特殊的一些设计
它总是能够比其他的厂商更快的更早的更好的能够拿到最新的技术其实对整个产品的竞争力还是有蛮大的影响就比如说我们从 HBM2E 到 HBM3 来讲的话其实带宽的提升和容量的提升都是非常大的对于产品的竞争力来讲能够及时的能够换到最新的这么一个科技来讲其实是蛮大的一个优势另外来讲的话还有就是从系统层面
我们刚刚讲到是从芯片层面的科技还有从系统层面的科技其实它有美超微 Supermicro 有 FoxconnFushconn 这样的代工厂能够跟它去合作基本上把他们的先进的制造能力也都能够包圆了
以至于让全球第二名的 GPU 公司 AMD 在去年 8 月份的时候不得不花 49 亿美金去收购一家能够配合它去做超节点整机柜方案的一家公司它去年花了 49 亿美金去收了一家公司叫 CT System 我想整个的综合能力来讲我们用一句话其实也是在 NVIDIA 的它的最新的发布会里面其实有提到的它叫是 Technology Limit
它是贴着技术的这么一个极限在做整体的产品的设计当然它的极限来讲的话是一个全球范围内的科技极限我想回到我们国内来讲有不一样的一些限制其实我们看到其实在国内的芯片厂商来讲其实也有蛮多的愿意去尝试愿意去往前去走一步的公司来讲也是愿意和国内最新的这些制程这些节点这些技术
能够相结合那我想这个也是我们未来看到的这个希望所在所以总结一下它短期的优势还是非常明显的或者说未来两三年吧就是往上游的话它有整个全球技术供应链围绕它来供给最新的技术然后往下游的话它通过软件包括 CUDA 包括它的 NV 互联的这些技术再到开发者所以它上下游都是一个很紧密的能帮它持续领先的这样一个生态
是的 是的它其实最大的威胁就是来自于它的这个客户比较集中在于海外来讲的话呢我们看到有这个 Amazon 也好 Google 也好这个 Microsoft 都有自己的这个定制开发芯片 Google 有 TPUAmazon 的话呢有这个 Trainium
然后他们也会寻求像 BorderCom 这样的公司来帮助他们去设计 BorderCom 也有非常强的本来就设计交换机的有非常强的 Service 的这么一个互联的能力我想今天这些客户比较集中来讲对于 Amedia 来讲是一个比较大的威胁所以说中国市场占它那么高的比例如果说未来要去失去来讲的话这是我觉得短期来讲一个比较不确定的因素也就是说政策性的因素而不是一个科技性的因素
嗯不过你刚讲到他客户集中这个倒是一个科技或者说产业性的因素因为他的客户都是美国的大科技公司其实他们也是有人才有资源去自己做 AI 芯片的比如说你刚才提到谷歌的 TPU 还有 Amazon 也在做自己的芯片嗯
其实你也说到就当时从三星来云计算公司就去来阿里云也是因为 TPU 让你觉得是应该就是跳出之前那个体系但另一方面就是好像对很多人来说 TPU 并没有怎么撼动英伟达的地位其实我 21 年 22 年的时候和英伟达北美的人聊他们说公司内部其实黄仁勋
自己他是比较在意 TPU 的就是他可能认为 TPU 是对英伟达一个比较主要的竞争对手吧但看起来好像为什么他们做了也挺长时间了但好像除了自己用之外并没有很
汉动英伟达的地位甚至他们也不能完全解决自己的需求他们还是要买很多英伟达的芯片以及你也提到就是博通其实现在在和这种大的公司合作做这种定制的 AI 芯片这个趋势可能在什么时候它会显现出来就是让英伟达的这种 AI 芯片的大客户对它的需求变少我们看到无论是北美的互联网大厂还是说之前在没有禁令之前
中国互联网的大成其实是 NVIDIA 最大的采购方可能占了它的六成以上的这么一个采购量对于这些客户来讲的话自己自研芯片一方面是成本的考量因为 NVIDIA 的毛利率实在太高了它的数据中心的毛利率的话往往达到了 70%甚至 80%以上自己去自研芯片其实养一个团队今天我们以互联网厂商他们的采购量来讲的话总经济上是一个划算的账
那另外一个来讲的话呢又会是一个从供应链上会比较安全的一个解决方案那我们知道 NVIDIA 的这个芯片啊在这个生成室 AI 刚出来的时候 ChaiGPD 刚出来的时候是炙手可热啊这货期非常非常久那你自己有这个供应链来讲的话呢就会比较游刃有余那 Google 的 TPU 的话呢在那个时间点啊占了很大的一个优势
那第三个来讲的话呢是和 NVIDIA 的一个溢价空间啊那无论是从这个国务的 TPU 还是说后面这个 Amazon 自己去做芯片到这个 Microsoft 自己做那个 Maya 芯片来讲的话呢我觉得都是一个非常好的一个溢价空间那我想这个其实公司和公司之间的话呢
既有合作也有竞争的关系他们这些芯片可能从一开始的定位来讲就不是对外去卖的对外去卖来讲的话其实要付出很多的努力包括整个的组织结构包括你的团队的组成来讲的话都会不一样没有一开始就想做好成为一个独立的芯片公司我想一开始没有做好这样一个准备来讲的话后面的话也很难去做一个改变我想这里是一个初始的定位
那他们完全解决了自己用的需求吗好像也没有解决他们其实里面分几部分就比如说 Google 的 TPU 的话最早的时候其实是要跟 TensorFlow 相结合的后面当然也能够跟其他的框架能够相配合内部去用确实解决了很大的一部分的供应问题和成本问题他们其实同时的话也是云厂商
那也是云厂商那在他们是一个云厂商的前提下他们要考虑到不仅是自己内部的一个需求还有他们在云上的客户的需求那所以说大量的去采购这些 MD 的芯片就是 customer first 对比如说 OpenAI 它想用的就是 MD 的芯片 MD 芯片最好用那就要微软去买这个 MD 的芯片好
那其实我们也看到其实 NVIDIA 其实在去年还是前年已经偷偷的就成立了一个叫半定制部门叫 Semi Custom Design 的一个部门也就是说它接下来也会去把自己的一些 IP 也好包括一些设计能力也好像博通一样对这些互联网大厂经营兜售那今天来讲的话呢
可能还没有看到一些成功的案例那或许的话呢这也是他能够去破局啊既能够啊做进啊继续做这些这个 hyperscaler 啊大型互联网公司的生意同时的话呢又能够啊和这些公司进一步啊能够打开他们的心扉用 Amedia 的这个模组啊 Amedia 的一些 IP 啊能够去解决他们的一部分的啊这个问题
他自己搞一个半定制部门就不会左右互搏吗他本来他卖他的标准的芯片毛利就那么高包括内部的人为什么会有动力去搞这个半定制部门我觉得半定制部门的话主要就是解决互联网大厂的一些问题就是为了让他们不去自演
跟他们去谈生意其实半定制部门来讲的话对于芯片公司并不是一个不常见的选项其实 AMD 的话做半定制的话其实做的时间最久我们所熟知的 XboxPlayStation 其实里面的芯片都是 AMD 通过它自己的现有的一些 IP 无论是 GPU CPU 还是其他的一些控制系的一些 IP 的话和微软和索尼去定制出来的所以这样的生意模式是有的
只是针对一定的大体量的客户然后做定向的一些销售然后通过一些特定的 IP 或许还能够绑定这些公司的一些生态比如说 NVIDIA 的酷大生态包括它的 NVSwitch NVLink 的一些生态当然这个只是我的一部分的猜想今天其实还没有看到事实上的一些结果出来
那他确实想得挺全的就是这算什么一种怀柔政策是吗可能他不一定想得那么全可能是我们帮他脑补的比较全你当时为什么从英伟达去 AMD 这是好久远的事情了从 AMD 去 AMD 的主要的原因的话是能够有机会在 AMD 跟着他的首席架构师也是他的 Cinefile Corporate Cinefile Mike Mentor 跟着他去做新一代的 AMD 的 CUComputer Unit 的架构
也是跟着他做了大概一年半到两年左右的时间也是跟了一个大牛有机会跟着大牛直接去学习那是哪一年就是你从英伟达去 AMD 是哪一年 2010 年底 2010 年底那个时候英伟达和 AMD 他们在 GPU 市场的份额悬殊吗
差不多是 64 开或者甚至是 55 开在那个时代来讲的话 AMD 在芯片的设计包括它的能耗节能以及面积的优势来讲的话还是比较明显的对于 NVIDIA 因为 NVIDIA 那个时代来讲其实也作废过几个芯片包括那时候我们在的时候 Fermia 其实不算是一个比较成功的产品
其实那个时间点我觉得 NVIDIA 在逐渐建立自己的一个优势也就是说从这个 CUDA 在寻找方向从芯片层面来讲的话也在逐渐想要确立自己在某些领域里面的一些优势但那时候优势不明显就我不知道有没有人和你讨论过这种问题就比如说如果一直留在英伟达的话那岂不是收益很多岂不是股票的收益都会很多
对我现在这个朋友圈里面还有好几个跟我当年差不多时间点加入 AVDR 现在生活过得很滋润的当然从这个经济上来讲我觉得是会有蛮大的一个回报那另外来讲的话呢我觉得从这个产业机会的发展无论是我们从这个芯片到数据中心到这个云计算再到今天我们看到的超级点来讲的话呢
今天我其实一直用一个 lifestyle 来讲的话就是一直在创业或者说寻找新项目的过程当中中国的芯片的话其实在这几年的无论是从禁令包括产业格局的一些变化来讲已经从一个偏市场化的竞争到了一个资源性的竞争或者说一个偏政府导向的竞争机会的话可能会在于芯片上下游的其他产业
这也是我们为什么要去做模型智能这么一个公司我们会围绕芯片但是做芯片上下流其他的一些工作就是你觉得在 2010 年底的时候其实也不是特别能明显的看出来英伟达会变成像这样的公司对吧那个时间点来讲的话其实从黄瑞勋自己的决策来讲从他的决策结果来讲他自己也没有预料到如果说我们看 2013 年
那个时候应该是 AlexNet 刚刚发布的时候如果说我们去翻 Amedia 当年的财报 13 14 年的财报我们应该可以看到黄仁勋那时候把公司 5%还是多少的一个股份做了一个可转债的抵押给到了高盛和威尔斯法购富国银行行权价格的话我记得没错的话大概是在 20 块出头左右的样子这是还是在 Amedia 没有分股之前的 20 块相当于现在的几块钱吧
也就是今天的这个 1%在那个节点的话呢其实这个高盛和这个富国银行的话应该都是行使了这么一个权利啊因为那时候也赶上了一波这个矿机的热潮 MBA 的股票在往上在涨其实从这个真正的决策来讲我也不认为黄仁勋在 2012 年 13 年 14 年他看到了这些机会那啊
我觉得这个人生没有确定性啊这也是这个人生本来比较精彩的地方那在当中的话呢能够找到自己的一个着力点那今天的老黄跟这个十年前的老黄也不是同一个老黄了你还记得他 2011 年之前在公司里会说些什么吗比如他怎么描述公司今年的目标啊或者说我们长期要怎么样啊什么的
我在阿里的时候其实有跟黄润勋有比较多的进去的一些接触我觉得从整体来讲是一个气场非常强而且非常有坚定眼光的人从公司的发展来讲他是愿意长期主义的长期去投一些他看好的东西
比如说在 2004 年 05 年的时候的话就投入做了 Tegra 做我们叫 Mobile 的移动的 SoC 想进入到手机领域我们在网上今天还能看到他之前给小米给 LG 站台的那一段过去的往事其实他其实有很多东西看好由于当时的环境问题由于自己的实力问题由于 timing 的问题的话可能并没有成功但是他是一个长期主义者
也就是说他对他看好的东西非常有信心非常有这个 return 也特别能够鼓励大家能够坚定一下包括在这个做 formy 产品的时候芯片留了两次片都不成功第三次留片终于成功的时候的话其实大家还是有一堆人愿意跟着他去走
包括在 2008 年金融危机的时候整个公司第二次裁员我进公司之后大概三个礼拜就碰上了金融危机然后 NVIDIA 历史上第二次裁员裁了 5%的人然后全公司降薪 10%黄仁勋自己只拿 1 块钱我其实对他的 leadership 对他的领导力以及能够煽动性的言论当时还是留下他比较深刻的印象的
就是他在危机之中反正就是对内部发表了一些让大家更凝聚或者说能有士气的一些话对吧
不仅是发表这些话而且是能够带领大家在危机当中能够走得出去我觉得这是确实是一个企业家非常重要的一个素质对对对他自己只拿一块钱我觉得这是一个行动上的表达对其实英伟达的手机 GPU 确实做得不成功我们前几天几个同事还在讨论这个事情来着然后因为有同事玩游戏说现在好像只有人天堂的 Switch 在用英伟达的移动端的这种 GPU 然后大家还在吐槽 Switch 的性能非常差那只是特定的一个版本
那随着就是后面的这个发展芯片算力层的这些变化就是它带来了哪些上层的一些变化然后导致比如说你在 2023 年底到 2024 年看到有一个创业的机会因为其实之前在毕任已经是一次创业然后你 23 年底又看到这个新的机会它是有哪些条件成熟了
对我们刚刚有谈到其实在二三年底二四年初的时候的话中国整个的芯片竞争格局其实有发生了一定的变化包括从更偏市场化的一个格局到更偏资源性的一个竞争格局我那时候看到的点的话是在于芯片的上下游或者周边的产业是能够所谓差异化而且是一个长波后雪的一个赛道
那在就像您讲的在去年的这个三月份 NVIDIA 发布了这个 NVL72 其实对我们来讲是一个比较大的一个鼓舞也就是说希望是能够在这个围绕芯片的周边的这个集群也好优化也好 AI infra 也好这么一个大的赛道做出成绩那 NVL72 来讲的话呢给我们点亮了一束光那在这个去年差不多这个时间一点啊
4 月底 5 月初的时候 DeepSeek VR 出来了我们其实也是属于当时比较紧密关注 DeepSeek 的一拨人 DeepSeek VR 其实跟 V3 来讲的话其实有蛮大的延续性但是在当年那个时间点可能大家从技术流上没有特别多的去做一些关注我们其实有跟 DeepSeek 里面包括换方的之前认识的小伙伴做过一些交流从那个时间点无论是 ML72 还是 DeepSeek
第二的这么一个版本出来之后的话呢那我们比较认定的话是说更大的这个模型更大的这个问题的话呢需要用更大的系统来解决所以说我们开始做运行机开始在这方面投进去做这个集群方面的一些优化找到了一个切入点然后开始就开始做了是找到了这么一个计划
那另一方面就是你觉得你刚刚说的这个趋势越大的问题需要越大的集群需要越大的系统它有可能会让哪些以前本来有的产业链里的细分机会消失啊因为有的变化来了之后可能有些事就被大公司自己做了
呃我想呃在这里面的话其实有蛮大的一个格局上的改变呃那比如是说这个我们刚刚讲到 skill up 的机群 skill up 的话呢是指在一个机柜里面的话我们能够尽量多的啊把这个芯片能够互联在一起一起去用那如果说大量的这些问题的话都能够在一个柜子里面能够解决的话那可能我就不需要那么多的一些这个光模块啊来去做这个啊跟其他的柜子去做这个交互那对光模块的这个消货来消耗来讲可能就会变少啊
那我们今天看到这个华为的话呢因为他今天还没有类似于一个像 MVSwitch 这样的一个芯片还是通过这个光模块加上光纤来做一个这个交互和这个互联那如果说是未来能够达到用这个 MVSwitch 这种 style 的这个方式去做 scale up 来讲那我想可能未来对于光纤对于这个光模块的这个需求来讲在推理里面
可能会降低可能会变小那这个也是我一个不成熟的一个猜测在往后来讲的话我想其实对于无论是散热冷却还有互联来讲其实都是有蛮大的一个机会在整个产业链里面
什么公司是做光模块的中继续创这种公司是做光模块的吗我没有任何没有任何这个对我只问一下有蛮多的之前有一些就是传播的时候会这么说吧反正大概就是说英伟达卡我们的脖子然后中继续创卡英伟达的脖子我不知道有这么夸张
有这个说法这个点可以记一下看看之后是怎么变化的包括其实这个领域也有一些初创公司也有一些上市公司当然我觉得大家的业务也可以根据这个系统的变化有一些调整对然后另外一个机会点我看到的话呢是因为这个互联的能力要加强那我们今天已经看到 NVIDIA 在今年的 2025 年的这个 GTC 里面的话已经发布了这个基于 CPU 的就是 Core Package Optics
也就是说是光和电的共封装的这么一个产品用在它的互联的产品里面未来的一个大的趋势来讲如果说我们对于互联的要求变得更高然后在一个柜子里面更多的芯片要聚合在一起的话 CPU 的可能性我觉得也是一定要去考虑的通过光和电一起来做集成的话能够把更多的芯片更有效的去连接在一起
你怎么看最近英伟达收购了 Lapton.ai 就它这个可能是反映了系统层的什么样的集成的一种趋势比如这个对英伟达的价值是什么
杨青也是非常好的朋友我们之前很早就认识后来在阿里的话也是同事对因为可能今天杨青还是在一个静默期不太能够评论我大大的猜测的话可能会是和 Media 今年 CDC 发布的 Dynamo 的系统也是有一定关系的 Dynamo 的话是一个它一个开源的一个模块化的框架用于优化分布式多 GPU 环境中的大规模的 AI 推理的任务
那它的关键的一个特性的话就是能够做分解式的服务架构包括 PD 分离能够将 P 的话就是预填充的阶段 D 的话就是解码阶段能够分开能够实现独立的分离的集群的最优解它能够在 TensorT 在推理框架之上又产生了一个新的框架叫 Dynamo 去做
我想对于 NVIDIA 来讲未来去做这个 AI 的 serving 这块能力包括给客户提供这个增值的价值来讲就会变得越来越重要杨青我不知道他今天具体什么任务但可能会参与到这样的一些项目里面去因为他提这些东西跟他在做云业务有关吗因为他其实应该是两年前还是三年前两年前吧他也就是启动了自己的云计算的业务
对 Media 一直是基于云计算的这么一个业务因为云计算是一个主要的客户的入口
那我想谁能够跟用户离得更近的话谁就更有联系当然今天 NVIDIA 是整个计算行业说一不二的或者说基本上占垄断地位的一个标杆性的企业它今天事实上就是工业基础如果说未来它要能够去风险要降低包括 Google 包括 Facebook 包括它的这些比较集中式的互联网厂商 Hyperscaler 对它的影响来讲的话呢
往上去走或许是他的一个未来的一个防守型的一个策略甚至是一个进攻性的一个抓手能够抓到更多的一些高质量的一些营收但是他的云计算业务是不是实际上做的也不怎么样就是从他启动以来
它今天其实并没有大规模的云计算它之前做的云计算是和游戏有关包括它的 GeForce GeForce Now 是在云上做云游戏它所谓的 DGS Cloud 来讲的话其实更多的是一个 2B2B 的话在跟云计算厂商是有一定的补充比如说 Oracle 买了一批 NVIDIA 的 GPU 然后又把它反租给 NVIDIA 机
反注给 NVIDIA 等于说把低毛利的跟机器运维的一些事情的话交给了 Oracle 去干然后 NVIDIA 在基于这套集群能够再给客户提供更高价值的一些服务我想这是之前的一些尝试但大公司来讲的话一般来讲都是会在多点去布局的去布局并不表示它完全会走出来因为跟客户来讲是一个亦敌亦友的关系因为这些 Hyperscaler 自己也做芯片同时又是它的客户
那怎么样保持一定的分寸也有一定的警觉性也有一定的进攻性这是一个非常有意思的平衡最后一个问题是想问一个更远期的问题就是说按照现在眼镜来看的话发展到什么时候或者说出现什么信号的时候可能是会出现下一代主流的计算芯片结构的时候就比如说我们现在英伟达的这种方案非常主流的情况它可能会持续到一个什么阶段会有一个大的改变
因为其实芯片领域也有一些很新的东西嘛包括其实已经说了好几年的什么存算一体之类的然后还有一些人在现在在做就是更加像人脑的这种神经网络的硬件去模拟人的神经网络的这种硬件的结构就这些东西能看到一些迹象吗
这是非常有意思的话题因为经常会有投资人来找我来交流关于承转议题我小朋友其实也是对生物也是比较感兴趣也是想要在人脑在认知科学方面有所了解回到这个问题来讲的话 NVIDIA 其实今天最大的一个软肋我认为就是人类的可持续发展
也就是说今天我们看到数据中心占了整个电力的可能 2% 3%根据未来的趋势无论是每个行业都需要 AI 的这么一个大的产业趋势还是说根据集群的趋势来讲的话它的占的比重会越来越高通过超节点这个方式我们其实有点是反共识的大家可能认为超节点是费了很多电但事实上来讲的话从单位的 token
单位的这个拖出来的这个字我们来看的话呢其实它的这个单位成本其实是下降的但无论怎么样它的这个总的这个耗电其实非常高
即使我们看到电力在总的成本里面占比并不高的这个情况下它对人类整个社会来讲一个可持续发展来讲的话我觉得是一个比较大的一个问题我们要能够去供得上这一点要能够稳定的去支持这个集群然后要把这些热能够散的出去我觉得这些一方面是对于数据中心运营来讲是一个必须的一个点同时的话也有很多社会责任在这里面
回到我们今天谈话的主题超节点未来我们要大规模去应用 AI 需要更高的性能和更低的单位成本超节点就是我们在机柜和数据中心层面继续去延续摩尔定律的唯一的可能性了我们可以用各种方式来降低对于未来能源的依赖提升运营效率我举两个例子比如说能够采用高压的直流供电
800V 也好 1600V 也好直流供电的话可以减少 AC 到 DC 的转换环节显著降低能量的损耗提升整体的运营效率电压更高的话电流就会变得更小减少线路的损耗适合长距离的传输这样的设计的话会更符合我们对于 GPU AI 算力设备这样高密集中化的
那再比如的话呢未来一定会成为主流的夜冷的冷却如果说我们可以通过相变式的冷媒的夜冷来集中去形成废热的回收这样的话呢能够做到数据中心的更绿色当然这一切的一切都需要服务器集群超节点他们的设计都做出相应的端到端的调整
我觉得其实在整个的这个集训里面的话我们有一部分的这个计算是不是能够 offload 在一些更高效的一些这个算力里面包括我们今天看到这个人脑或者叫内脑的这个计算其实也是写进了我们国家 145 的规划当中那内脑的话呢其实它是用不同的一套方式
通过这个我们叫脉冲神经网络来进行这么一个计算虽然在范式上来讲跟今天的这个 Transformer 这个类型还有比较大的一个差别那我想基于这个可持续发展来讲的话这都是值得去投入而且是值得去研究的方向这个人类如果说没有电的话没有这个
都被能源所控制来讲的话那后面这个可持续发展的话就是一个比较大的一个问题对其实我们录节目的这个时候有一个事就是欧洲在大规模的停电葡萄牙和西班牙还有法国意大利的少部分地区对这个问题对我们国家来讲因为有比较好的这个基础设施问题没有
但是对于国外来讲确实是很大的一个问题对因为你刚才说这个脉冲神经网络的这种硬件今年的 GDC 大会上英伟达的 CTO 还有那个乐坤他们也是有一个对话聊到了这个事情然后里面有一个细节挺好玩的就是乐坤说他 80 年代的时候在贝尔实验室那会儿那个里面就有一个 team 的人在做这种神经网络的模拟硬件
就他是不太看好这个方向因为他觉得这个方向已经研究了特别久然后之前看起来也不是特别 work 对我觉得就是技术领域发展那些事情还是挺有意思的就他这个脉络有些其实可能几十年前就出现的东西然后又过了很久你会发现他又获得了新的生机或者发挥了新的作用比如说强化学习其实也出现很久了
对吧包括神经网络本身就是一个出现了特别久的东西然后中间冷了好几次对这个历史会不断的重复只是会以这个不同的方式来呈现那我想不要低估任何一种这个技术的可能性有时候是这个量变到质变有时候是一个突变包括我们今天看到的这个 DeepSeq 可能之前我们寻到这个蛛丝马迹来讲的话其实它是有迹可循的
好
那今天非常感谢徐灵杰做客晚点聊分享了对华为 Cloud Matrix 384 超节点的解读当然华为自己把这个叫超节点然后徐老师也是一开头就说了其实可能严格意义上来说它还不是一个超节点我们也从这个新的超节点延展聊到了 AI 算力基础层是怎么构成的以及这个领域可能会有哪些新的趋势和变化像英伟达作为这个领域最强势的一个玩家
它接下来短期长期可能会面临什么样的情形那今天的节目就到这里感谢各位的收听大家再见拜拜晚点的听众们再见
吸收注意力和线性注意力的探索都是在解决 GPU 的这些硬件瓶颈长期看随上下文继续变长显存可能是比计算更大的问题一个数字是从 2021 年英伟达发布的 A100 到 2025 年发布的 B200
GPU 算力增长了 64 倍而显存的大小只增长了 1.2 倍这期节目中也聊到 GPU 的成本结构也在以用于计算的晶圆为主变为以显存为主超节点某种程度就有利于弥补显存的问题
比如通过 NV-Link 连接的 GPU 可以合并显存 103 期节目中关于注意力发展的讨论也很好反映了徐林杰在这期中总结的 AI 算力演变的主线就是更大的问题需要更大的模型来解决而更大的模型需要更大的算力系统来支撑二是对于一些想补充芯片基础信息的朋友推荐晚点聊的两期老节目一个是 32 期我们与 B 站芯片科技 up 主
谈三圈聊了他了解的芯片行业他曾在德国的一家汽车芯片厂商工作那一期我们以汽车芯片为例讲了芯片产业的分工芯片制造环节另一个是 49 期嘉宾是芯片监视的作者汪波老师我们从一些对芯片行业的常见误读开始聊介绍了摩尔定律串起的芯片进化史 CPU GPU 等主流计算芯片的崛起和沉浮以及美日等芯片大国的历史发展经验感兴趣的朋友可以找来听一听
下期再见