We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 2773.英伟达CUDA的优势及挑战

2773.英伟达CUDA的优势及挑战

2025/2/11
logo of podcast 雪球·财经有深度

雪球·财经有深度

AI Chapters Transcript
Chapters
本段落讲述了英伟达CUDA的起源、功能以及它对人工智能和科学计算领域的影响。CUDA作为算力调度者,优化算法效率,降低了AI开发门槛,并为未来的量子计算布局。
  • CUDA起源于2006年,赋予显卡更广泛的应用能力
  • CUDA的核心功能是算力调度,优化算法效率
  • CUDA降低了AI开发门槛,促进了生态发展
  • 英伟达在CUDA的基础上布局量子计算

Shownotes Transcript

欢迎收听雪球出品的《财经有深度》雪球国内领先的集投资交流交易一体的综合财富管理平台聪明的投资者都在这里今天分享的内容叫英伟达 Q 的优势及挑战来自 WengdishDS 对英伟达的挑战

并不是简单的算法平权还有开源对闭源的挑战如果只是了解 AH100 或者 GB200 这种东西意义不大英伟达的护城河主要是 Q 的 Q 的故事起步于 2006 年 11 月份发布的 GeForce 8800 GTX19 年前了那是一个起点 2007 年 6 月份发布了英伟达的通用图形处理器 Q 的出世

这个跳跃是让显卡不仅能用在图像绘制了也能用在其他方面 AI 的本质其实和 BTC 的哈希算法类似都是大量的数学计算这也可以解释为啥近十年金融越来越数学化包括做对冲的换方能弄出 DS 也是因为它是最具金融数学化底蕴的对冲思目主要就是 Transformer 那套也就是比如从一维的向量到二维的矩阵

然后再到三位或高位的张亮核心不在于算的多难而在于算的体量很大 GPU 更像一个事业部经理而 CPU 类似于一个 CEOIT 世界一开始 CEO 比较重要因为机会多多需要面面俱到就像 80 到 90 年代做生意压对方向很重要但随着时间发展需要不断细分而深化

尤其是显卡计算部分这部分其实初期是游戏推进的但后期科学计算的需求上来了把控机会需要更好的项目经理 GPU 内部有很多逻辑计算单位每个单元基本上只做简单的加减乘除靠着分工协同完成庞大的计算任务 QDA 就是 GPU 这个项目部经理手下的调度总管

比如计算张量这个活就具体分派谁谁来做也就是 Q 的作用其实就是算力调度者他优化算法效率这个作用类似于思龙对通用汽车的管理

也就是在具体的算力事业部内 Q 的这个算力调度者甚至有比肩整个事业部经理的实力因为所谓的算力 AMD 也有也就是经理不稀罕调度总管那套管理方法却是稀缺的算力管理的优化也是 DS 之所以引人瞩目的地方

因为人们认为算力调度工作应该在 Q 的逻辑下优化但没想到 DS 用了一些方法似乎实现了更大的优化人们好奇的就是它是如何实现的以及优化算力之后对于未来算力需求是不是降低以及这对于算力优化世界意味着什么

Q 的好处是如果研究者只会 AI 模型的训练及推理方法而不会任务分类的话也没事英伟达有自动分配的程序库这样玩 AI 的只需要专注于训练或推论就行了

这降低了项目开发的门槛等于是一个特殊的懒人包所以开发人员都喜欢用然后 20 年过去了用的人越来越多产生生态影响力和开发依赖度未来英伟达还要推行量子计算

比如 2023 年就推出了 Tudor Quantum 平台这部分也是为未来布局其实逻辑核心依然是并行计算也就是用多个处理单元同时推进计算量越大越快就越容易大力超快出奇迹从一定程度上可以理解 Tudor 在 GPU 领域是类似于 X86 在 CPU 领域的那种专利优势 Tudor 未来就没有挑战吗

当然有的大概四个维度一硬件挑战首先基本上每个做 CPU 的其实都看着别人火而眼馋 AMD 的 Mai300X 直接对标英伟大的 H100 价格基本是其三分之一然后 AMD 还通过 Rocom 平台通过兼容 Q 的代码吸引开发者弱化 Q 的生态

英特尔虽然遇到困境但由美国政府撑腰也没闲着其 GPU 加速器结合了 XE 架构和开放标准 Cycle

通过 OneAPI 实现跨硬件统一编程降低对 Q 的依赖然后就是科技巨头的自研芯片比如谷歌 TPU 通过专用张量核心和软件站在 AI 训练中实现更高能效比亚马逊云科技的自研芯片直接与 Q 的生态脱钩挑战英伟达的云市场份额以及中国势力的挑战主要就是华为升腾韩武技等国产芯片在政策驱动下抢占本土市场

通过兼容 PyTorch 等框架绕过 Q 的绑定二、软件挑战英伟达的币源数据让其必然引来开源的挑战 DS 事件其实就是代表之一首先就是开源编译器的性能逼近比如 OpenAI Triton 支持 Python 编写 GPU 内核在英文的 GPU 上性能接近 Q 的同时兼容 AMD 和英特尔硬件成为 Q 的平体然后就是 AI 框架的硬件抽象化

比如 PyTorch 2.0 与 Torch Dynamo PyTorch 通过编译器技术自动优化计算图无需手动编写 Q 的内核即可实现高性能降低开发者对 Q 的依赖最后是跨平台标准比如 Foken Compute 和 Syco 等开放标准支持多厂商硬件未来可能挤压 Q 的生存空间三 Q 的本身存在的技术瓶颈内存墙与通信瓶颈

GPU 显存容量和带宽增长放缓而大模型训练需要 TBG 内存迫使开发者转向分布式计算或多芯片方案 Q 的的善卡优化优势被稀释其次是 NVLink 和 InfiniBand 的私有协议面临通用心理互联等开放标准的竞争可能削弱英伟达全站技术的协同效应能效比挑战

随着摩尔定律放缓单纯依靠制程升级提升算力的模式不可持续 Q-TES 在稀疏计算混合精度等算法层创新

但竞争对手通过架构革新实现更高能效量子计算与神经形态计算的长期威胁量子计算在特定领域的突破可能分流 HPC 需求神经形态芯片更适合脉冲神经网络这些新型计算范式与 TUDOR 的 SIM 模型不兼容四 市场级政策挑战地缘政治与供应链风险

美国对华高端 GPU 出口限制迫使中国厂商加速取客的话华为升腾和百度的正在逐渐强化替代性生态未来美国对从香港和新加坡渠道都会加强管理对安设华 AI 芯片营收占到英伟达总量的 20%到 25%

这部分如果管制加强,英伟达业绩会受到影响。云厂商的去英伟达化策略,亚马逊、微软等云服务商通过自研芯片和多元化硬件方案降低对英伟达 GPU 的采购比例,Q 的在云端的统治力可能被削弱。开发者社区的迁移成本降低,工具链可将 Q 的代码自动转换为 PBMDL 或 SQL Intel。

迁移成本从月级降至天级 Q 的生态锁定效应减弱英伟达也不傻早就看到了这些威胁因此也在 Q 的护城河上做出应对大概做了四点应对一强化权占优势首先是软硬件协同设计通过 Grace Harper 超级芯片实现 CPU GPU 内存一致性提升 Q 的在移购计算中的竞争力

然后是 QDX 生态扩展集成更多加速库覆盖量子计算和科学计算等新领域二拥抱开放标准有限支持开源编译器同时推动英伟达贡献标准组织避免被边缘化三抢占新兴场景首先是重视边缘计算

通过 Jackson 平台和 QDAN ARM 支持边缘 AI 应对 ROSE2 等机器人框架的移购计算需求然后是打造数字孪生与元宇宙 Omnibus 平台依赖 QDAN 实现实时物理仿真构建新的技术护城河 4.商业模式创新打造 QDAN as a service 通过 NGC 提供预训练模型和优化容器增加用户粘性

整体来看由于 20 年技术积累开发者的生态粘性以及巨大的迁移成本导致 Q 的护城河当下还比较强大目前追得最快的就是 AMD 但至少三年内应伟大 Q 的还是优势明显但从 Seeking Delphi 等文章反馈来看如果 Q 的被超越或者被追上大概有二个临界预警值一技术临界点

当竞争对手的硬件性能超越英伟达且软件生态成熟度达到 80%以上二经济临界点云厂商自研芯片成本低于采购英伟达 GPU 的 30%所以要想投资互联网或者芯片产业需要对于技术趋势有深度了解阅读大量的资料和文献对于强科技成长的估值尤其难

这也是巴菲特基本不碰强成长科技股的原因买苹果适当消费股买的美股这么贵我旁观先积累一些知识和资料等回调时候方便下手