We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 115: 华为发布超节点,如何搅动AI算力市场?与魔形智能徐凌杰聊芯片层新变化

115: 华为发布超节点,如何搅动AI算力市场?与魔形智能徐凌杰聊芯片层新变化

2025/5/11
logo of podcast 晚点聊 LateTalk

晚点聊 LateTalk

AI Deep Dive Transcript
People
徐凌杰
曼琪
Topics
曼琪:华为发布Cloud Matrix 384超节点,标志着AI算力底层竞争力的新进展。本期节目邀请徐凌杰讨论华为超节点带来的算力底层新变化,以及对AI算力市场的影响。徐凌杰的从业经验与超节点从拼单芯片到优化整个节点的算力思路变化相匹配。本期节目将讨论华为Cloud Matrix 384、英伟达NVL72的异同,以及超节点趋势对市场的影响。华为Cloud Matrix 384售价约为800万美元,是NVL72的两倍多,但非官方价格。华为在6000多块昇腾芯片上实现了718B参数MoE模型的长期稳定训练。 徐凌杰:华为的Cloud Matrix 384是高密度的横向扩展算力集群,由12个机柜组成,每个机柜有4台服务器,共384颗AI芯片。该集群由光模块和光纤互联,机柜分为左右两部分,中间有网络交换机。华为的384集群对标英伟达的NVL72,总算力达到300P,网络互联和内存总带宽也实现了翻番。华为单颗芯片的FP16算力约为780个TFlops。华为单颗芯片的HBM容量应为128GB,互联出口为8个400G小币,性能达到英伟达H200芯片的八成左右。华为384集群的出现进一步点燃了业界对超节点概念的讨论。华为在芯片上持续突破,用数量换算力总量,为中国在新的产业和国际形势中蹚出了一条新路。华为的制造系统更像横向扩展的集群,而英伟达的NVL72更像纵向扩展的集群。

Deep Dive

Shownotes Transcript

「从拼单颗芯片的性能,到优化多芯片互联的系统。」

AI 算力,现在是中美都最关注的 AI 底层竞争力。约 1 个月前,华为推出由 384 块昇腾 910 互联而成的/超节点 AI 集群,CloudMatrix 384。

图注:这是超节点发布会上展示的 CloudMatrix 服务器机柜组,如播客中介绍的,一共是 12 台机柜(每台机柜里又有 4 个服务器),中间有光纤、交换机等部件连接。

华为超节点发布后不久,我邀请有 20 多年芯片从业经验的徐凌杰来一起聊一聊这项算力底层的新变化。

自 2000 年代中期,徐凌杰先后在英伟达、AMD 和三星,参与设计 GPU 架构。后来加入阿里云,领导GPU 云计算基础设施的搭建;2019 年与张文等人联合创立国产 GPU 公司壁仞科技;2024 年开始新创业,成立魔形智能,专注 AI 算力集群产品设计和优化。

超节点本身就是一种从拼单芯片性能,到优化整个节点和机架的算力思路变化,徐凌杰的从业经验正好匹配了这一趋势。

本期节目的第一部分,我们聊了华为 CloudMatrix 384 是什么,它和英伟达 2024 年开始重磅推出的集群方案 NVL72 的异同。不止英伟达、华为,把节点做得越来越大,从集群芯片数量要性能,以网络能力弥补计算和存储的瓶颈,已成为算力市场的共识性趋势。

在第二部分,我们则主要讨论了超节点趋势,对英伟达、对其它国产芯片,对整个 AI 算力市场的可能影响,和一个“经典问题”:下一个改变算力格局的变量可能是什么?

节目录制后不久,华为超节点开始出货。据《金融时报》报道,一套完整的 CloudMatrix 384 售价约 800 万美元,是售价约 300 万美元的 NVL72 的 2 倍多。但要注意,这并不是华为的官方价格信息。

5 月 7 日,华为盘古大模型团队又在预印本平台 Arxiv 发表了一篇论文,称在 6000 多块昇腾芯片组成的超大集群上,实现了 7180 亿(718B)参数 MoE 模型的长期稳定训练。

本期嘉宾: 徐凌杰,魔形智能CEO,邮箱:[email protected])

时间线跳转: - 华为 Cloud 384 集群 & 把节点做大的趋势 03:15 CloudMatrix 384 是什么?Scale up vs Scale out 08:33 算力底层构成,不止 GPU,还有互联、网络、冷却等综合系统 11:09 NVLink、NVSwitch 是英伟达的另一重壁垒,69 亿美元收购 Mellanox 前后开始布局 18:22 广义与狭义的 AI Infra 20:38 第三方系统优化公司的机会?——同时掌握计算、网络能力的芯片原厂是少数 22:51 “超节点”好坏,看什么指标? 29:08 黄仁勋想推“训推一体”,实际上业界在怎么用 GPU? 33:17 模型越大,显存压力越大——显存正成为芯片主要成本 36:02 华为超节点功耗高,但中国电费成本相对小,以总量换性能 38:11 华为的多卡互联来自什么积累 ——华为在成为 Nvidia 之前已是一个 Mellanox 42:57 NV Switch 为何难?去年 AMD 49 亿美元收购 ZT 补能力

- 超节点趋势,对英伟达和 AI 算力市场的影响 45:43 华为超节点,短期不冲击英伟达,压力给到其它 AI 国产芯片商 47:51 英伟达 H20 已计提 55 亿美元损失,但可能通过技术手段提升部分性能 51:19 华为在阿里 Qwen3 发布当天宣布支持 55:12 英伟达上游有全球供应链支持,下游有客户生态,危险之一是客户集中 01:00:44 为什么 Google TPU 没有动摇英伟达的地位? 01:04:23 可能是 Nvidia 的“防守措施”:已成立“半定制”部门 01:06:17 为什么离开英伟达,十年前的老黄是什么样? 01:12:01 2024 年选择创业:看到芯片周边集群优化能做出差异化,也是长坡厚雪 01:18:44 新硬件架构的苗头?——存算一体、类脑计算(脉冲神经网络)

相关链接 Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs(盘古超级混合专家模型:如何在昇腾 NPU 上训练超大规模混合模型)

晚点聊 103:用 Attention 串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进)

晚点聊 49:3nm 是谎言?光刻工厂真能造芯片?与汪波聊芯片行业那些流传的误解)

晚点聊 32:最怕客户来参观的行业:和谈三圈仔细谈谈芯片)

附录: **GPU、GPGPU、ASIC、NPU:**都是可以做 AI 模型训练和推理的 AI 芯片。GPU 是图形处理器,GPGPU 是针对通用计算(而非图形任务)优化的 GPU,AISC 是专用集成电路,它的性价比理论上比GPU 更好,但不如 GPU 通用;NPU(Neural Processing Unit)也是一种 ASIC。 DPU(Data Processing Unit)::数据处理单元,用于优化网络通信、安全和存储操作,减轻 CPU和 GPU 的负担,提升AI 算力中心整体性能。 **GPU 的精度:**如节目中提到的 FP8((8位浮点数)、INT8((8位浮点数) 都是 GPU 精度的一种,是不同的数据格式标准。DeepSeek-V3 和 R1 就是在预训练阶段使用了以 FP8 为主的混合低精度训练方法。 **总线(Bus):**计算机内部用于传输数据、地址和控制信号的通信系统,连接 CPU、内存和外设等组件,确保信息在各部分之间高效传递。 **高速互联协议:**用于在计算系统内部或系统之间实现高速、低延迟的数据通信的协议,如英伟达的NVLink、InfiniBand(由 IBTA 协会开发)和 PCIe (由 Intel、Dell、HP、IBM 等公司成立的联盟 PCI-SIG 开发),支持大规模并行计算和数据中心的高效运行。 **Mellanox:**一家提供高性能互联解决方案的以色列公司,英伟达在 2019 年以 69 亿美元收购了 Mellanox。 ZT Systems:2024 年,AMD 则以 49 亿美元收购了 ZT Systems,为云计算厂商设计、制造和部署复杂的计算、存储和加速器解决方案。 **NVSwitch:**英伟达推出的高带宽交换芯片,支持多 GPU 间的全互联通信,可提升系统整体性能和可扩展性。 **NVLink:**英伟达开发的高速互联技术,提供高带宽、低延迟的 GPU 与 GPU、GPU 与 CPU 之间的通信,支持大规模并行计算和深度学习任务。 **Dynamo:**英伟达推出的开源推理软件平台,支持多种 AI 框架和硬件架构。在谈到英伟达收购 Lepton.ai 的背景时提及。 英伟达的费米(Fermi)架构:英伟达 2010 前后开发、推出的 GPU 架构,开发过程很不顺利,经历两次流片失败。 **神经脉冲(Neuromorphic Computing):**模拟人脑神经网络结构和功能的计算方法,用脉冲神经网络处理信息,特点是高效能、低功耗。(人脑的功耗就比较低,只有 20 W 左右) **存算一体(Compute-in-Memory):**将计算功能集成到存储器中的计算架构,减少数据在存储器和处理器之间的传输,提高计算效率和能效,适用于大规模数据处理和人工智能应用。

剪辑制作:甜食、Nick

**本期主播:**小红书 @曼祺_火柴Q),即刻 @曼祺_火柴Q)

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: