We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI Semiconductor Landscape feat. Dylan Patel | BG2 w/ Bill Gurley & Brad Gerstner

AI Semiconductor Landscape feat. Dylan Patel | BG2 w/ Bill Gurley & Brad Gerstner

2024/12/23
logo of podcast BG2Pod with Brad Gerstner and Bill Gurley

BG2Pod with Brad Gerstner and Bill Gurley

AI Deep Dive AI Insights AI Chapters Transcript
People
B
Brad Gerstner
D
Dylan Patel
Topics
Bill Gurley: 探讨了AI浪潮对半导体产业的影响,并引入了Dylan Patel作为AI芯片领域的专家。 Brad Gerstner: 与Dylan Patel共同分析了AI芯片领域的现状、挑战和未来发展趋势,特别关注了英伟达的市场地位及其竞争优势。 Dylan Patel: 详细阐述了英伟达在AI芯片领域的市场主导地位,分析了其在软件、硬件和网络方面的综合优势,并探讨了其潜在的竞争风险。他认为英伟达的成功与其对供应链的深度整合和快速的技术迭代密不可分。他还分析了预训练规模化定律的有效性,以及通过合成数据生成和推理计算等方法来提升模型性能的可能性。此外,他还对谷歌TPU、亚马逊Tranium等竞争对手的芯片进行了分析,并对未来AI芯片市场的发展趋势进行了预测。 Bill Gurley: 提出了关于AI芯片市场规模和数据中心更新换代的问题,并与Dylan Patel讨论了相关数据和预测。 Brad Gerstner: 与Dylan Patel讨论了预训练规模化定律的有效性,以及大型科技公司持续建设更大规模集群的原因。 Dylan Patel: 深入分析了预训练规模化定律的局限性,并指出通过合成数据生成和推理时间计算等方法可以继续提升模型性能。他认为,虽然预训练的边际效益递减,但建设更大规模集群仍然具有经济效益,因为这可以解锁新的模型改进途径。他还分析了大型科技公司数据中心资本支出的持续增长,以及其对AI芯片市场的影响。 Bill Gurley: 与Dylan Patel讨论了英伟达与思科在2000年互联网泡沫破裂时期的相似性,以及英伟达未来可能面临的风险。 Brad Gerstner: 与Dylan Patel讨论了推理时间推理的计算密集度,以及其对内存市场的影响。 Dylan Patel: 详细解释了推理时间推理的计算密集度,并指出其成本远高于预训练。他认为,推理时间推理需要大量的向前传递计算,且上下文长度的增长会导致内存需求呈二次方增长。他还分析了内存市场的发展趋势,以及不同厂商在高带宽内存(HBM)领域的竞争格局。

Deep Dive

Key Insights

Why are hyperscalers like Google, Amazon, and Microsoft building massive data centers despite claims that pre-training is becoming less effective?

Hyperscalers are building massive data centers because they believe in winning on scale. They are connecting data centers with high-bandwidth fiber to act as one unit for AI workloads, ensuring they remain competitive in the AI race.

What percentage of global AI workloads are currently running on NVIDIA chips?

If Google is excluded, over 98% of global AI workloads run on NVIDIA chips. Including Google, the percentage drops to around 70%, as Google runs most of its production AI workloads on its proprietary chips.

Why is NVIDIA so dominant in the AI chip market?

NVIDIA's dominance stems from three key areas: superior software (CUDA), better hardware performance, and advanced networking capabilities (via Mellanox acquisition). No other semiconductor company excels in all three areas like NVIDIA.

What are the potential vulnerabilities for NVIDIA in the AI chip market?

NVIDIA's vulnerability lies in its inference software, which is less of a moat compared to its training software. If competitors can optimize inference on other hardware, NVIDIA's dominance in inference could be challenged, though its hardware remains superior.

What challenges are faced in scaling AI pre-training workloads?

Scaling pre-training is challenging due to diminishing returns as models grow larger and data becomes scarcer. However, synthetic data generation and inference-time compute offer new avenues to improve models without relying solely on pre-training.

Why are hyperscalers continuing to build larger clusters if pre-training is becoming less effective?

Hyperscalers are building larger clusters because they still see value in scaling models, even if pre-training gains are logarithmic rather than linear. Synthetic data generation and inference-time compute require significant compute power, driving the need for larger clusters.

What is inference-time reasoning, and why is it more compute-intensive than pre-training?

Inference-time reasoning involves models generating multiple possibilities and refining their outputs during inference, which requires more compute than traditional inference. This process can increase token generation by 10x, making it significantly more compute-intensive.

How does NVIDIA's investment in incremental differentiation give it a competitive edge?

NVIDIA focuses on supply chain optimization, driving new technologies to market faster than competitors. This includes advancements in networking, cooling, and power delivery, ensuring they remain ahead in performance and cost efficiency.

What role does memory technology play in the future of AI chips?

Memory technology, particularly HBM (High Bandwidth Memory), is critical for AI chips as reasoning models require vast amounts of memory to handle large context lengths. NVIDIA's cost of goods sold for HBM is growing faster than its silicon costs, highlighting its importance.

How does AMD compare to NVIDIA in the AI chip market?

AMD excels in silicon engineering but lacks in software and system-level design. While AMD's GPUs offer more memory and memory bandwidth, they fall short in networking and software capabilities compared to NVIDIA, limiting their overall competitiveness in AI workloads.

Why hasn't Google's TPU been more commercially successful outside of Google?

Google's TPU has limited commercial success due to internal software restrictions, pricing that doesn't compete well with market alternatives, and Google's preference to use most of its TPU capacity internally for its own workloads.

What are the key factors driving Broadcom's growth in the AI chip market?

Broadcom's growth is driven by its custom ASIC wins with companies like Google and Meta, as well as its leadership in networking technology. Broadcom is also well-positioned to compete with NVIDIA's NVSwitch in the networking space, which is a key advantage for NVIDIA.

What are the risks for NVIDIA and the broader AI chip market in 2026?

The risks in 2026 include whether models continue to improve at a rapid pace and if hyperscalers can sustain their spending levels. If models stop improving significantly, there could be a reckoning where hyperscalers cut back on spending, impacting the entire ecosystem.

Shownotes Transcript

如果规模化已经走到尽头,那么马克·扎克伯格为什么还要在路易斯安那州建造一个2吉瓦的数据中心?亚马逊为什么还要建造这些多吉瓦的数据中心?谷歌、微软为什么还要建造多个吉瓦的数据中心,还要斥资数十亿美元购买光纤来连接它们?因为他们认为,嘿,我需要在规模上取胜,所以让我用超高带宽将所有数据中心连接起来,这样我就可以让它们对一项工作表现得像一个数据中心。所以,整个……

当你看到那些最了解情况的人在花钱做什么时,这种规模化叙事就站不住脚了。很高兴来到这里。很高兴你们两位今天都在这里。迪伦,这是我们今年一直在讨论的事情之一,那就是计算的世界正在发生根本性的变化。比尔,你为什么不……你为什么不告诉大家迪伦是谁,然后我们开始吧。是的,我们很高兴能邀请到来自SemiAnalysis的迪伦·帕特尔。迪伦……

迅速建立了,我认为,全球半导体行业最受尊敬的研究团队。所以我们今天想做的是深入探讨一下,我认为,迪伦从技术角度对现有架构的了解,对……

规模化,对全球市场主要参与者、供应链的了解,以及我们认识的最优秀和最聪明的人都在倾听和阅读迪伦的作品。然后将其与我们观众关心的某些业务问题联系起来,看看结果如何。我希望能够对与这场大型人工智能浪潮相关的半导体活动做一个时间快照,并尝试将其放在合适的视角中。

迪伦,你是怎么进入这个行业的?当我8岁的时候,我的Xbox坏了,我的父母是移民。我在佐治亚州农村长大,除了做书呆子之外,我没有什么事可做。我不能告诉他们我的Xbox坏了。我必须打开它,短路温度传感器并修复它。这就是修复它的方法。当时我不知道自己在做什么,但后来我留在了那些论坛上。然后我成为了一名论坛战士,对吧?你知道,你会看到那些在评论区总是冲你大喊大叫的人,布拉德。你知道,这就像……

那就是我小时候的样子,对吧?你小时候不知道,但是,你知道。太棒了。这就像,你知道,小时候在网上和人争论,然后充满热情。当我开始赚钱后,我开始阅读半导体公司的收益报告,并用我的实习工资投资它们,你知道的,当然也阅读技术资料,然后做一些工作。然后,是的。

告诉我们,快速介绍一下今天的SemiAnalysis。这家公司是做什么的?是的,今天我们是一家半导体研究公司,人工智能研究公司。我们为公司提供服务。我们最大的客户都是超级计算公司、最大的半导体公司、私募股权公司以及对冲基金。我们销售有关世界各地每个数据中心在哪里、每个季度的电力是多少、建设情况如何等方面的数据。

我们销售有关晶圆厂的数据。我们追踪全球所有1500家晶圆厂。就你们而言,只有50家对你们很重要,但我们追踪全球所有1500家晶圆厂。无论是电缆、服务器、电路板还是变压器变电站设备,供应链也是如此。我们试图在非常注重数字的基础上跟踪所有这些数据,以及……

预测。然后我们围绕这些领域进行咨询。是的。所以,我的意思是,比尔,你和我刚刚谈到了这个。我的意思是,对于Altimeter来说,我们的团队一直与迪伦和迪伦的团队进行交流。我认为你是对的。他只是通过努力工作、辛勤工作、做那些重要的琐碎的事情而迅速崛起。我认为,作为……的一个基准,正在发生的事情在半导体行业,我们正处于……,我建议我们已经经历了两年,也许……,你知道,这次建设。

而且它一直非常活跃。比尔和我正在讨论的一件事是,我们进入2024年底,深吸一口气,思考25、26年及以后的情况,因为很多事情都在发生变化,而且有很多争论。

这将对数万亿美元的公共市场和私人市场的价值产生影响,超级计算公司如何投资以及我们未来的发展方向。比尔,你为什么不带我们了解一下问题的开始?

好吧,我认为,如果你要谈论人工智能和半导体,只有一个地方可以开始,那就是广泛地谈论英伟达。迪伦,你认为目前有多少比例的全球人工智能工作负载是在英伟达的芯片上运行的?我认为,如果你忽略谷歌,那将超过98%。

但是,当你把谷歌考虑进去后,实际上更像是70%,因为谷歌确实是人工智能工作负载中如此之大的一部分,尤其是生产工作负载。生产是指谷歌内部的工作负载吗?生产是指赚钱的事情。赚钱的事情,可能甚至不到70%,对吧?因为你想想谷歌搜索和谷歌广告是世界上最大的两家公司……

人工智能驱动的企业,对吧?你知道,唯一可以与之相比的是TikTok和Meta,对吧?而这些谷歌的工作负载,我认为重要的是要对这一点进行框架。这些工作负载运行在谷歌的专有芯片上。它们是非LLM工作负载,对吗?所以谷歌的非LLM和LLM生产工作负载……

运行在他们内部的硅片上。我认为其中一件有趣的事情是,是的,你知道,每个人都会说谷歌在transformer和LLM上掉链子了,对吧?OpenAI是如何做到GPT的,对吧?而不是谷歌。但谷歌甚至在2018年、2019年就在他们的搜索工作负载中运行transformer。BERT的出现,

这是在GPT热潮之前最著名、最流行的transformer之一,多年来一直存在于他们的生产搜索工作负载中。因此,他们也在自己的搜索和广告业务中使用transformer。

回到这个数字,你会使用98%。如果你只关注人们购买来自己工作的工作负载。所以你把俘虏排除在外。是98%,对吧?这是目前的一个压倒性优势。再回到谷歌。他们也是英伟达的主要客户之一。

是的。

然后租给客户。对。因为他们虽然确实有一些外部客户使用他们的内部硅片,例如苹果,但他们绝大多数面向人工智能的外部租赁业务,就云业务而言,仍然是GPU。而且是英伟达的GPU。正确,英伟达的GPU。为什么它们如此占主导地位?为什么英伟达如此占主导地位?我喜欢把它想象成一条三头龙,对吧?我会说……

世界上每家半导体公司都讨厌软件,除了英伟达。所以有软件。当然还有硬件。人们没有意识到英伟达在硬件方面实际上比大多数人要好得多。他们能够最先、最快地获得最新技术,因为他们疯狂地努力实现某些生产目标。他们比其他人更快地推出芯片,从构思……

设计到部署。然后是网络方面的事情,对吧?他们收购了Mellanox,并且在网络方面非常努力。所以这三件事结合起来就形成了一个三头龙,没有其他半导体公司能够独自做到这一点。是的,我想指出你做的一篇文章,迪伦,你在文章中帮助每个人形象地展现了其中一个现代尖端英伟达部署的复杂性,其中包括机架。

内存、网络、规模,整个事情的规模。这非常有帮助。我的意思是,经常会将真正独立的芯片公司进行比较。它们不是系统公司。它们不是基础设施公司。

和英伟达。但我认为,人们严重低估的一点是英伟达拥有的竞争优势水平。软件正成为从这些基础设施中挤出效率和运营总成本越来越重要的组成部分。

所以,跟我们谈谈那个模式,比尔提到的那个。就像有很多不同层次的系统架构,以及它与定制ASIC或AMD的不同之处。

当你广泛地看待GPU时,没有人购买一个芯片来运行人工智能工作负载。模型已经远远超过了这一点。看看今天的领先模型,比如GPT-4的参数超过万亿。万亿参数超过1TB的内存。你无法获得具有这种容量的芯片。即使芯片有足够的内存容量,它也没有足够的性能来服务该模型。

因此,你必须将许多芯片连接在一起。有趣的是,英伟达已经看到了这一点,并构建了一个架构,该架构将许多芯片很好地连接在一起,称为NVLink。但有趣的是,许多人忽略的一点是,谷歌实际上与博通一起做了这件事,你知道的,他们在英伟达之前就做了这件事,对吧?你知道,今天每个人都对英伟达的Blackwell系统感到兴奋,或者说不是兴奋,而是……

GPU机架,这是购买的单元,对吧?它不是一台服务器,也不是一个芯片,而是一个机架。这个机架重达三吨,有成千上万根电缆以及所有这些东西,詹森可能会告诉你,对吧?极其复杂。有趣的是,谷歌在2018年也做了类似的事情,对吧,使用TPU。但他们无法独自做到这一点,对吧?他们了解软件。

他们知道计算单元需要是什么,但他们什么都不知道。他们无法完成许多其他困难的事情,例如封装设计、网络。因此,他们不得不与博通等其他供应商合作来完成这项工作。因为谷歌对人工智能模型的发展方向有着如此统一的愿景,他们实际上能够构建这个系统,这个针对人工智能优化的系统架构。而当时,英伟达则认为,好吧,我们要做多大?

我相信他们本可以尝试扩大规模,但他们认为主要工作负载不需要达到那种程度的规模,对吧?现在每个人都看到了这一点,并且都在朝着这个方向努力,但英伟达现在有了Blackwell。像AMD和其他公司这样的竞争对手最近不得不进行收购,以帮助他们进入系统设计领域,对吧?因为制造芯片……

是一回事,但制造许多连接在一起的芯片、适当地冷却它们、将它们连接到网络、确保它们在该规模下可靠,这是一系列半导体公司没有工程师来解决的问题。你会说英伟达在增量差异化方面投入最多的是什么?

我会说,为了实现差异化,英伟达主要关注供应链方面的事情,这听起来可能像是,哦,好吧,他们只是在订购东西。不,不,不,不。你必须与供应链深入合作,才能构建下一代技术,以便你能够比其他人更快地将其推向市场,对吧?因为如果英伟达停滞不前,

他们将被吞噬,对吧?他们有点像安迪·格鲁夫,只有偏执狂才能生存。詹森可能是世界上最偏执的人了,对吧?多年来,在他对LLM热潮感兴趣之前,他所有最大的客户都在制造人工智能芯片,对吧?在LLM热潮之前,他的主要竞争对手就像,哦,我们应该制造GPU。

然而,他仍然保持领先地位,因为他正在批量生产其他任何人都无法生产的技术,对吧?因此,无论是网络、光学、水冷,对吧?无论是……你知道的,各种其他电力输送,所有这些他都推出了……

其他人没有的技术。他必须与供应链合作,并指导这些供应链公司。他们显然也在帮助他们拥有自己的能力来制造今天不存在的东西。英伟达现在正试图以每年的速度做到这一点。这太不可思议了。Blackwell、Blackwell Ultra、Rubin、Rubin Ultra。他们发展得如此之快。他们每年都在推动如此多的变化。当然,人们会说,哦,不,他们……你知道的,Blackwell有一些延迟。是的,当然,你正在推动,看看你对供应链的推动有多么努力。那是部分原因吗?像竞争优势有多大一部分是……

他们现在处于这种每年的节奏,对吧?因为看起来,通过这样做,几乎可以阻止他们的竞争对手赶上,因为即使你滑到Blackwell所在的位置,对吧,你也在12个月内就进入下一代了。他已经在规划两到三代产品了,因为它只有两到三年时间。

好吧,有趣的是,很多英伟达的人会说詹森不会规划超过一年或一年半的时间,因为他们会改变事情,并且会如此快速地部署它们。对。不,我的意思是,其他每家半导体公司都需要数年时间才能部署,你知道的,进行架构更改。但你说如果他们停滞不前,他们就会面临竞争。像什么?

会成为他们的弱点,或者市场上必须发生什么才能让其他替代方案占据更多工作负载份额?

是的,所以英伟达的主要问题是,嘿,这个工作负载这么大,对吧?它超过1000亿美元的支出。对于最大的客户来说,他们有多个客户正在花费数十亿美元。我可以雇佣足够的工程师来弄清楚如何在其他硬件上运行我的模型。

现在,也许我无法弄清楚如何在其他硬件上进行训练,但我可以弄清楚如何在其他硬件上进行推理。因此,英伟达在推理方面的护城河在软件方面实际上要小得多,但在……方面要大得多,嘿,他们只是拥有最好的硬件。现在,最好的硬件是什么意思?这意味着资本成本,这意味着运营成本,然后意味着性能。性能、TCO。而且……

所以英伟达的整个护城河就在这里,如果他们停滞不前,他们的性能TCO就不会增长。但有趣的是,他们正在增长,对吧?就像Blackwell一样,它不仅快得多,对于推理来说,在非常大的模型上快了10到15倍,因为他们已经针对非常大的语言模型对其进行了优化。他们还决定,嘿,我们也要稍微降低一下利润率,因为我正在与……

你知道的,芯片和TPU以及AMD以及所有这些东西竞争,他们决定也要降低利润率。所以,在所有这些事情之间,他们决定需要提高性能TCO,而不是每两年提高2倍,对吧?摩尔定律,对吧?他们决定需要每两年将性能TCO提高5倍。

也许每年,对吧?至少Blackwell就是这样,我们将看看Rubin会做什么。但是,你知道,在一年内将性能TCO提高5倍以上是一个疯狂的速度,对吧?然后你叠加在上面,比如,嘿,人工智能模型对于相同的大小实际上正在变得更好。交付LLM的成本正在下降,这将刺激需求,对吧?是的。

只是为了澄清你所说的一件事,或者至少重新陈述一下以确保,我认为当你提到软件对于训练更重要时,你的意思是CUDA在训练中比在推理中更具差异化。所以,我认为投资者社区中的许多人,你知道的,称CUDA,这只是……

英伟达所有软件的一层。有很多层的软件,但为了简单起见,你知道的,关于网络或在交换机上运行的内容或在……你知道的,所有类型的舰队管理软件,英伟达制造的所有这些东西,为了简单起见,我们将其称为CUDA。但是所有这些软件都极其难以复制。事实上,除了超级计算公司之外,没有其他人拥有可以做到这一点的部署,对吧?几千个GPU是……

就像一个微软推理集群,对吧?它不是一个训练集群。所以,当你谈到,嘿,这里的困难是什么,对吧?在训练方面,这是用户不断进行实验,对吧?研究人员说,嘿,让我们试试这个,让我们试试那个,让我们试试这个,让我们试试那个。我没有时间优化和费力地提高性能。我依赖英伟达的性能在现有软件堆栈中相当好,或者只需要很少的努力,对吧?但是当我进行推理时,

微软正在跨多少数十亿美元的收入部署五到六个模型,对吧?所有OpenAI的收入加上他们在Copilot上的收入。他们说有100亿美元的推理收入。是的,所以他们在这里有100亿美元的收入,他们正在部署五个模型,对吧?GPT-4、4.0、4.0 mini,以及现在的推理模型。所以这就像他们正在部署很少的模型,而这些模型每六个月就会改变一次,对吧?是的。

所以每六个月他们都会得到一个新模型并部署它。所以在那个时间范围内,你可以费力地提高性能。因此,微软已经在其他竞争对手的硬件(例如AMD)以及他们自己的一些硬件上部署了GPD风格的模型,但主要是AMD。因此,他们可以使用软件来提高性能,因为他们可以花费数百名工程师、数十名工程师的小时数、数百名工程师的小时数或数千名工程师的小时数来解决这个问题,因为这是一个如此统一的工作负载,对吧?

我想让你对这张图表发表评论。这是我们今年早些时候展示的一张图表,我认为当詹森在……的时候,对我来说这是一个时刻,我认为是在中东。他第一次说,未来四年,我们不仅将有1万亿美元的新人工智能工作负载……

他还说,未来四年,我们还将有1万亿美元的数据中心替换工作负载。这是一个对它进行建模的努力。我,你知道的,我们与他一起在播客上提到了它,他似乎表示它是方向正确的,对吧?他仍然认为这不仅仅是关于……,因为世界上有很多关于……的争论,你知道的,预训练以及如果预训练没有继续快速发展会怎样?

这似乎表明有很多人工智能工作负载与预训练无关,他们正在研究这些工作负载,而且他们还有所有这些数据中心替换工作负载。你相信吗?我听到很多人反对数据中心替换,并说,人们不可能……你知道的,用一堆英伟达GPU重建一个CPU数据中心。这根本没有意义。

但他的论点是,越来越多的这些应用程序,甚至像Excel和PowerPoint这样的东西,都正在成为机器学习应用程序,并且需要加速计算。英伟达长期以来一直在推动非人工智能工作负载的加速器,对吧?专业可视化,对吧?皮克斯使用大量的GPU,对吧,来制作每部电影。你知道,所有这些西门子工程应用程序,对吧?所有这些东西都使用GPU,对吧?对。

我会说,与人工智能相比,它们只是沧海一粟。我想说的另一个方面是,这与你的图表有点争议,但我认为,IBM大型机在每个周期中销售的销量和收入都在增长,对吧?所以,是的,海湾地区没有人使用大型机或谈论大型机,但它们仍在增长,对吧?所以我会说,这同样适用于CPU,对吧?对于经典工作负载。

仅仅因为人工智能出现了并不意味着网络服务会减慢速度,或者数据库会减慢速度。现在,发生的事情是这样的,这条线是这样的,而人工智能线是这样的。此外,当你谈到,嘿,这些应用程序,它们现在是人工智能,对吧?带有Copilot的Excel或带有Copilot的Word等等,对吧?

它们仍然将拥有所有那些经典的操作。你不会放弃你过去拥有的东西,对吧?西南航空公司并没有停止预订航班。他们只是在航班之上运行人工智能分析,也许是为了更好地进行定价或其他什么,对吧?所以我会说这种情况仍然会发生。但有一个被误解的替换元素,对吧?也就是说,考虑到人们部署了多少,有多紧……

数据中心供应链很长,数据中心供应链很长,不幸的是,对吧?这就是为什么你会看到像埃隆·马斯克那样的事情,但是当你……当你想到这一点时,好吧,我如何获得电力呢?所以你可以做CoreWeave正在做的事情,去加密货币矿业公司,然后把它们清理干净,然后放一堆GPU进去,对吧?改造数据中心,放GPU进去,就像他们在德克萨斯州做的那样,或者你可以做……其他一些人正在做的事情,那就是,嘿,好吧……

我的CPU服务器折旧期已经从三年前变成了六年,仅仅几年时间。为什么?因为英特尔的进步是这样的,对吧?所以实际上,旧的英特尔CPU并没有好多少。但在过去几年中,AMD突然出现。ARM CPU也出现了。英特尔,

开始纠正航向。现在我可以升级……亚马逊数据中心中大多数CPU都是24核英特尔CPU,这些CPU是在2015年到2020年制造的。大致相同的架构。有24核CPU。对。

我现在可以购买128核或192核CPU,其中每个CPU内核的性能都更高。好吧,如果我只是用一个CPU替换六个服务器,我就基本上凭空创造了电力,对吧?我的意思是,你知道的,实际上,因为这些旧服务器已经有六年多了,或者甚至……你知道的,它们可以被弃用并放置。所以有了资本支出,

新的服务器,我可以替换这些旧服务器。现在,每次我这样做时,我都可以在那里添加另一个AI服务器。所以这就是……是的,有一些替换。我仍然需要更大的总容量,但这种总容量可以用更少的机器来满足,也许吧。

如果我购买新的机器。一般来说,市场不会萎缩。它仍然会增长,只是远不及人工智能的增长速度。人工智能正在导致这种行为,我需要进行替换才能获得电力。嘿,比尔,这让我想起了萨提亚上周在播客上提到的一点,我已经多次看到它被重播,我认为它被误解了。

他上周在播客上说,他受到电力和数据中心的限制,而不是芯片的限制。我认为这更多的是对真正瓶颈的评估,即数据中心和电力,而不是GPU,因为GPU已经上线。所以我认为你刚才提出的论点,我认为,有助于澄清这一点。

在我们深入探讨英伟达的替代方案之前,我认为我们会谈谈你最近一篇文章中写到的预训练规模化辩论,迪伦,我们已经讨论了很多了。但你为什么不告诉我们你对那里发生的事情的看法呢?我认为伊利亚是最可信的候选人。

人工智能专家提出了这一点,然后它被重复了很多次,并且……并且进行了交叉分析。比尔,为了重复一下它是什么,我认为伊利亚说,你知道的,数据是互联网的人工智能的化石燃料,我们已经消耗了所有化石燃料,因为我们只有一个互联网。因此,我们从预训练中获得的巨大收益将不会重复。一些专家预测,数据……

数据会在一年或两年前耗尽。所以这并不是……这并不是突然出现的论点。无论如何,让我们听听迪伦怎么说。预训练规模化定律非常简单,对吧?你获得更多的计算能力,然后我把它扔到一个模型中,它就会变得更好。现在,这会分解成两个轴,对吧?数据,

和参数,对吧?你知道的,模型越大,数据越多,效果越好。实际上存在一个最佳比率,对吧?谷歌发表了一篇名为Chinchilla的论文,其中提到了数据与参数的最佳比率,你知道的,模型大小。这就是规模化问题。现在,当数据用完时会发生什么?好吧,我实际上不会获得更多数据,但我继续增加模型的大小,因为我的计算预算一直在增长。但这有点不公平,对吧?我们几乎……几乎……几乎没有利用……

视频数据,对吧?所以有很多数据没有被利用。只是视频数据的信息量比书面数据多得多,对吧?因此你把它扔掉了。但我认为这就像……这是……的一部分,就像……你知道的,那里有一些误解,但更重要的是,文本是最有效的领域,对吧?人类通常,是的,一幅图胜过千言万语,但是

如果我写100个字,我可能……你可以更快地理解,对吧?而且大多数视频的文字记录已经……是的,许多视频的文字记录已经存在了。但是,你知道的,无论如何,数据就像一个大轴。现在,问题是这只是预训练,对吧?引号,预训练。

训练模型不仅仅是预训练,对吧?它有很多组成部分。所以人们一直在谈论,嘿,推理时间计算。是的,这很重要,对吧?如果你能想出如何让它们思考并递归地思考,哦,那不对。让我这样想。哦,那不对。就像你不会雇佣一个实习生,然后说,嘿,X 的答案是什么?或者你不会雇佣一个博士生,然后说,嘿,X 的答案是什么?你会说,去研究这个。然后他们会回来给你带来一些东西。所以推理时间计算很重要。但真正更重要的是

随着我们获得越来越多的计算能力,如果数据用完了,我们能否改进模型?答案是你可以凭空创造数据,对吧?在某些领域,对吧?这就是围绕缩放定律的整个争论,我们如何创造数据?

对吧?那么 Ilya 的公司最有可能在做什么?Mira 的公司最有可能在做什么?Mira Murady,OpenAI 的 CTO。所有这些公司关注的是什么?OpenAI。所有这些公司关注的是什么?他们有 Noam Brown,他可以说是推理领域的大人物之一,在路演上到处演讲,基本上是这样,对吧?他们在做什么,对吧?他们说,嘿,我们仍然可以改进这些模型。

是的,在推理时间花费计算能力很重要,但我们在训练时间做什么?因为你不能仅仅告诉模型,多想想,它就会变得更好。你必须在训练时间做很多事情。所以,那就是,我采用模型,我有一个目标函数,对吧?81 的平方根是多少,对吧?现在,如果我问很多人 81 的平方根是多少,很多人可以回答,但我敢打赌,如果他们多想想,更多的人可以回答,几乎,你知道,更多的人,对吧?也许这是一个简单的例子。

但你说,嘿,让我们让现有的模型做到这一点。让我们让它运行所有可能的,你知道,不是所有可能的,许多这种排列组合。从 5 开始,然后每当它不确定时,就分成多个分支。所以你开始,你有数百个所谓的展开或轨迹的生成数据。大部分都是垃圾,对吧?

你把它修剪成,嘿,只有这些路径得到了正确的答案。好的。现在我输入它,这现在是新的训练数据。嗯,所以我用所有可能的领域来做功能验证,功能验证,即,嘿,这段代码编译通过了,嘿,我代码库中的这个单元测试,

我如何生成解决方案?我如何生成函数?好的,现在,你一遍又一遍地重复这个过程,在许多许多不同的领域,你可以从功能上证明它是真实的。你生成所有这些数据,你扔掉绝大部分,但你现在有一些可以用来训练模型的思维链,然后它将学习如何更有效地做到这一点,并且它可以泛化到其外部,对吧?这就是整个领域。现在,当你谈论缩放定律时,

它的收益递减点实际上还没有被证明,顺便说一下。对。因为它更像是,嘿,缩放定律是对数对数坐标轴,对数,即,需要 10 倍的投资才能获得下一个迭代。好吧,10 倍的投资,你知道,从 3000 万到 3 亿,从 3 亿到 30 亿是相关的。但是当萨姆想从 30 亿到。

到 300 亿时,筹集这笔钱有点困难,对吧?这就是为什么最近几轮有点像,“哦,糟糕,我们不能在下一轮花费 300 亿。”所以问题是,这只是一个方面。我们在合成数据方面取得了哪些进展?哦,我们还处于非常早期的阶段,对吧?我们可能在合成数据上花费了数千万美元。

合成数据用于在某些领域进行限定,当他们发布 1 时,它在某些领域也有类似的限定。我只是说这两个缩放轴在某些领域表现更好,而在其他领域则不那么适用。我们必须弄清楚这一点。

是的,我认为关于 AI 的一件有趣的事情是,在 2022 年和 2023 年,随着扩散模型和文本模型的发布,人们会说,哦,哇,艺术家是最倒霉的,而不是技术工作者。实际上,这些东西在技术工作方面很糟糕。但是,随着合成数据和测试时间计算这个新轴的出现,实际上,我们可以在哪些领域教模型?我们无法教它什么是好的艺术。

因为我们无法从功能上证明什么是好的艺术。我们可以教它编写非常好的软件。我们可以教它如何进行数学证明。我们可以教它如何设计系统,因为虽然存在权衡,但这并不是一个非此即彼的事情,尤其是在工程系统上。这是一件你可以从功能上验证它是否有效或是否正确的事情。你可以对输出进行评分,然后模型可以更频繁地迭代。没错,它回到了 AlphaGo 的事情,以及

为什么这是一个可以允许新颖的移动和玩法的沙盒,因为你可以遍历它并进行合成运行。你可以让它不断地创造和创造。

戴上我的投资者帽子,公共投资者帽子,当我们展望 2025 年以及这个问题的预训练时,世界对英伟达有很多担忧,对吧?如果事实上……

你知道,我们已经看到了,我们摘取了预训练带来的 90% 的低垂果实,那么人们真的需要购买更大的集群吗?我认为世界上有一种观点,尤其是在 Ilya 的评论之后,不,预训练的 90% 的好处已经消失了。但随后我看到,你知道,Hoctan 本周的评论,

在他们的财报电话会议上,所有超大规模公司都在构建这些百万,你知道,XPU 集群。我看到,你知道,X.AI 的评论说他们将构建 20 万或 30 万个 GPU 集群,Meta 据报道正在构建更大的集群,微软正在构建更大的集群。你如何将这两件事联系起来,对吧?如果每个人都正确,并且预训练已经结束,那么为什么每个人都在构建更大的集群?所以,

缩放,对吧,回到最佳比例是什么?什么是,我们如何继续增长,对吧?当我们没有更多数据或数据很难获得时,例如因为它是视频数据,盲目地增加参数数量不会给你带来很多收益。然后还有访问权限,如果它是对数图表,对吧?你需要 10 倍的增长才能获得下一个工作,对吧?所以当你看到这两点时,

哦,糟糕,就像我需要投资 10 倍。嗯,我可能无法获得全部收益,因为我没有数据,但是数据生成方面,我们还处于非常早期的阶段,对吧?所以重点是我仍然会获得足够的收益,使其成为正回报,尤其是在你考虑到竞争动态时,嗯,

我们的模型与竞争对手的模型相比。所以,即使预训练中那种巨大的单次收益已经过去,从 10 万增加到 20 万或 30 万也是一个合理的决定。或者更确切地说,获得这种收益的成本呈指数级增长,呈对数级增长。正确。对吧?所以它仍然存在。

就像收益仍然存在,但就像围绕 OpenAI 模型的 Orion 失败的叙事一样,他们没有发布 Orion,对吧?他们发布了 O1,这是一个不同的轴。部分原因是,嘿,这是因为这些数据问题,但部分原因是他们没有 10 倍的扩展,对吧?因为从 4 开始 10 倍的扩展,

这实际上是 Gavin 的观点。好吧,我还想,我们稍后再谈 Gavin。我认为这之所以引起争议,其中一个原因是,Dario 和 Sam 在此之前,或者至少在我听到他的说法时,听起来他们只是要构建下一个最大的东西并获得相同数量的收益。他们留下了这种印象。

所以我们到了这个地步,正如你所描述的那样,情况并非完全如此。然后人们会说,哦,这是什么意思?就像它导致他们抬起头来。所以我认为他们从未说过小雪貂缩放定律是带给我们 AGI 的东西,对吧?他们有缩放。缩放是你需要大量的计算能力。你猜怎么着?如果你有,你知道,如果你必须生成大量数据并丢弃大部分数据,因为嘿,只有一部分路径是好的。

你在训练时花费了大量的计算能力。这是一种轴线,就像我们实际上可能会看到模型在未来六个月到一年的改进速度比过去一年更快。因为有了合成数据生成这个新的轴线,以及我们可以投入的计算能力,我们仍然在这里,在缩放定律中,对吧?我们没有在这里,我们还没有将其推到数十亿美元的计算支出上。

合成数据生成、功能验证、推理训练。我们只花费了数百万、数千万美元,对吧?那么当我们将其规模扩大时会发生什么?所以有一个新的支出轴线。当然,还有测试时间计算,即在推理时花费时间以获得越来越好的结果。所以这是可能的。事实上,这些实验室的许多人都认为,下一年的收益或未来六个月的收益将

更快,因为他们通过一种新的方法解锁了这个新的轴线,对吧?它仍然是规模,对吧?因为这需要惊人的计算能力。你生成的数据比网络上存在的数据多得多,然后你扔掉大部分数据,但你生成的数据如此之多,以至于你必须不断运行模型,对吧?你认为哪些领域最……

适用于这种方法?就像在哪里,在哪里,合成数据最有效?也许,也许你可以做一个,一个,

一个优点和一个缺点,比如一个它会非常好的场景和一个它不会那么好用的场景,是的,我认为这回到了关于我们可以从功能上验证什么是真的或不是什么的问题,我可以对什么进行评分,它不是主观的,你在大学里上的什么课,你拿到卡片,你拿到东西回来,你会说,哦,这是胡说八道,或者像,我搞砸了,对吧,有些课你可以确定地

对输出进行评分。对,没错。所以如果它可以从功能上进行验证,那就太棒了。如果它必须被判断,对吧?所以判断输出有两种方法,对吧?有一种方法是不使用人类,对吧?这就是整个规模 AI,对吧?他们最初在做什么?他们正在使用大量人力来创建好的数据,对吧?标记数据。但是现在……

人类无法适应这种级别的数据,对吧?人类每天都在互联网上发帖,我们已经用完了,对吧?或多或少在文本领域。那么哪些领域有效呢?所以这些是那些领域,嘿,在谷歌,当他们将数据推送到他们的任何服务时,他们有大量的单元测试。这些单元测试确保一切正常。好吧,为什么我不能让 LLM 只生成大量输出,然后使用这些单元测试来对这些输出进行评分呢,对吧?因为它是通过或失败,对吧?它不是……

然后你也可以用其他方式对这些输出进行评分。例如,运行需要这么长时间与运行需要这么长时间相比。所以你有了各种各样的,还有其他领域,例如,嘿,图像生成。好吧,实际上很难说哪张图像看起来对你和我来说更漂亮。你知道,我可能喜欢日落和鲜花,而你可能喜欢海滩,对吧?你不能真正争论什么是好的。所以没有功能验证。只有主观的,对吧?所以这个目标的性质是,所以我们在哪里有目标评分?

我们在代码中拥有它。我们在数学中拥有它。我们在工程中拥有它。虽然这些可能很复杂,例如,嘿,工程不仅仅是这是最好的解决方案。它是,嘿,考虑到我们拥有的所有资源,以及所有这些权衡,我们认为这是最好的权衡。这通常是工程的最终结果。

好吧,我仍然可以查看所有这些轴线,对吧?而在主观的事情上,对吧?例如,嘿,写这封电子邮件的最佳方法是什么?或者与这个人谈判的最佳方法是什么?这很难,对吧?这不是客观的东西。你从超大规模公司那里听到了什么?我的意思是,他们都在说我们的资本支出明年会增加。我们正在构建更大的集群。是的。

这实际上正在发生吗?外面发生了什么?是的,我认为当你查看资本支出的街道估计时,它们都太低了,你知道,基于几个因素,对吧?所以当我们追踪世界上每一个数据中心时,这太疯狂了,有多少数据

尤其是微软,现在还有 Meta 和亚马逊以及许多其他公司,对吧?但那些公司特别是在数据中心容量上花费了很多钱。随着这种能力上线,如果你查看所有不同的监管文件和卫星图像,所有这些我们所做的事情,你可以很容易地追踪到这一点,嘿,他们将拥有这么多的数据中心容量,对吧?对。

所以它正在加速。你要在那里填什么,对吧?事实证明,你必须填满它,你知道,你可以对每个 GPU 的功率进行一些估计,全部包括在内,对吧?萨蒂亚说他会稍微放慢一点速度,但他们已经签署了明年的租赁协议,对吧?在某些情况下,对吧?部分原因是他所说的,

他预计明年上半年的云收入将加速增长,因为他表示我们将拥有更多的数据中心容量,而我们目前受到容量的限制。所以,你知道,他们,你知道,再次回到,缩放已经结束了吗?那么马克·扎克伯格为什么在路易斯安那州建造一个 2 吉瓦的数据中心呢?对。为什么亚马逊要建造这些多吉瓦的数据中心?为什么谷歌,为什么微软要建造多个吉瓦的数据中心,还要购买数据

数十亿美元的光纤来连接它们,因为他们认为,嘿,我需要在规模上获胜,所以让我用超高带宽将所有数据中心连接在一起,这样我就可以让它们像一个数据中心一样工作,对吧?朝着一个目标,对吧?所以整个像……

缩放结束的叙事在你看那些最了解的人在花钱的时候就站不住脚了,对吧?你在开头谈了很多关于英伟达在这些用于预训练的大型相干集群方面的差异化。你能看到任何东西,比如,我想,有人可能会对推理非常乐观,并继续建设数据中心,但他们可能会

认为他们将从 10 万个节点增加到 20 万到 40 万,如果这个预训练的事情是真的,现在可能不会这样做。你是否看到任何能让你了解这个维度的东西?所以当你考虑训练神经网络时,对吧,它正在进行前向传递和反向传递,对吧?前向传递基本上是生成数据,它的计算量是反向传递的一半,反向传递是更新权重。好的。

当你考虑这种新的合成数据生成、对输出进行评分,然后训练模型的范式时,你将在进行反向传递之前进行许多许多次前向传递。服务用户是什么?这也是一个前向传递。所以事实证明,训练中有很多推理,对吧?事实上,训练中的推理比更新模型权重要多,因为你必须生成数百种可能性才能

然后,哦,你只训练其中几个,对吧?所以有——这种范式非常相关。我想说另一个非常相关的范式是,当你训练模型时,你是否一定需要在各个方面都位于同一位置,对吧?这是——答案是——

取决于你在做什么。如果你处于预训练范式,那么也许你不需要,是的,你需要它位于同一位置,对吧?你需要所有东西都在一个地方。是的,微软在一季度和二季度为什么签署了这些大规模的光纤协议,对吧?为什么他们在威斯康星州、亚特兰大和德克萨斯州等等地方建造多个大小相似的数 据中心,对吧?在亚利桑那州,他们为什么要这样做?因为

他们已经看到研究表明可以更适当地分配工作负载,那就是,嘿,这个数据中心,它不服务用户。它正在运行推理。它只是运行推理,然后丢弃大部分输出,因为一些输出是好的。

因为我正在对它进行评分,对吧?他们在这样做的时候,也在其他领域更新模型。所以整个预训练的范式并没有放缓。它只是对每一代,每一次增量改进来说,成本呈对数级增长。所以人们正在寻找其他方法来……但是还有其他方法不仅可以继续这样做,而且嘿,我不需要……

对数级的支出增长才能获得下一代改进。事实上,通过这种推理、训练和推理,我可以获得模型的对数改进,而无需花费任何费用。现在我要同时做这两件事,对吧?

对。因为这是因为每个模型的跳跃都带来了巨大的价值。对。这,这,你知道,我认为非常有趣的是,你知道,我今天早上在 CNBC 上听到克莱默说,你知道,他们正在谈论,这是 2000 年的思科吗?周日晚上我在奥马哈与比尔共进晚餐。嗯,

他们显然是公用事业的大投资者,他们正在关注数据中心建设中发生的事情。他们就像,这是 2000 年的思科吗?所以我让我的团队为思科调出了一个图表,你知道,2000 年,我们将在播客上展示它。但是,你知道,他们的市盈率峰值约为 120 倍。

对。你知道,如果你看看收入和 EBITDA 的下降,你知道,然后市盈率倍数下降了 70%。对。所以市盈率倍数从 120 下降到接近 30。所以我对,你知道,在这个晚餐谈话中我说,好吧,英伟达的,你知道,今天的市盈率是 30。它不是 120。

对。所以你必须认为从这里开始会有 70% 的市盈率压缩,或者他们的收入会下降 70%,或者他们的收益会下降 70%。你知道,为了发生像思科那样的事件,我们都对这件事有创伤后应激障碍。我的意思是,见鬼,你知道,我也经历过。没有人想重蹈覆辙。但是当人们进行这种比较时,我觉得他们缺乏信息。

对。这并不是说不会出现回调。但是鉴于你刚才告诉我们的关于明年建设的情况,鉴于你告诉我们的关于缩放定律继续的情况,当你听到人们谈论英伟达时,你对思科的比较有什么看法?

是的,我认为有一些不公平的地方,对吧?思科的收入,很大一部分是通过对电信基础设施建设的私人/信贷投资获得的,对吧?当我们查看英伟达的收入来源时……

很少一部分来自私人/信贷,对吧?在某些情况下,是的,它是私人/信贷,比如 CoreWeave,对吧?但是 CoreWeave 只是由微软支持的。资本来源存在很大的差异,对吧?另一件事是在互联网泡沫的顶峰时期,尤其是在通货膨胀调整之后,进入该领域的私人资本比

今天要大得多,对吧?尽管人们说风险投资市场正在疯狂地向所有这些公司抛出这些巨大的估值。我们在节目开始前刚刚讨论过这个问题,但是,嘿,风险投资市场,私人市场甚至还没有介入,对吧?你猜怎么着?私人市场资金,比如中东的这些主权财富基金,还没有进来。它几乎没有进来,对吧?为什么他们也不会增加更多的支出呢,对吧?所以,是的,

资本来源存在很大的差异。来源是历史上最赚钱的公司或人类历史上曾经存在的最赚钱公司的正现金流与……

投机性信贷支出,对吧?所以我认为这是一个很大的方面。这也给它提供了一个旋钮,对吧?这些盈利能力强的公司会更理性一些。我认为美国企业对人工智能的投资比他们甚至在互联网浪潮中所做的还要多,而且更有信心。也许我们可以稍微换一下。你刚才几次提到了推理时间推理。这显然是扩展智能的一个新的向量,并且

我最近读了你的一些分析,关于推理时间推理比简单地扩展预训练要密集得多,对吧?为什么你不带我们一起走一遍呢?我们这里有一个非常有趣的图表,关于为什么会出现这种情况,我们也会发布。但是为什么你不先带我们一起走一遍,从计算消耗的角度来看,推理时间推理是什么,为什么它如此密集,并且

因此得出的结论是,如果这实际上将作为一种新的智能向量继续扩展,它看起来将比之前的计算密集得多。是的,预训练可能会放缓,或者它太贵了,但是有合成数据生成和推理时间计算这些其他方面。推理时间计算表面上听起来很棒,对吧?我不需要花费更多时间来训练模型。但是

当你思考一下时,这实际上非常非常,这不是你想要扩展的方式。你这样做只是因为你必须这样做,对吧?因为,想想看,GPT-4 是用数百亿美元训练的,它正在创造数十亿美元的收入。数亿美元。

数亿美元用于训练 GPT-4。它正在创造数十亿美元的收入。所以当你这么说时,嘿,微软的资本支出很疯狂。当然。但是他们用于 GPT-4 的支出与他们从中获得的投资回报相比非常合理。对吧?现在,当你这么说时,嘿,我想要下一个收益。嗯……

如果我只是花费,你知道,某种程度上的大量资本并训练一个更好的模型,那就太棒了。但是如果我不必花费那么多资本,而我部署它,你知道,我在收入生成时部署这个更好的模型,而不是在我训练模型之前,这听起来也很棒。但这伴随着一个很大的权衡,对吧?当你运行推理时,对吧,你让模型生成很多东西,对吧?

然后答案只有一小部分,对吧?今天,当你打开 ChatGPT,使用 GPT-4,4.0 时,你说些什么,你会得到一个回应。你发送一些东西,你会得到一个回应,无论是什么,对吧?所有正在生成的东西都发送给你。现在你有了这个推理阶段,对吧?OpenAI 不想让你看到,但是有一些开源的中国模型,比如阿里巴巴和 DeepSeek。

他们发布了一些开源模型,当然,这些模型不如 OpenAI,但如果愿意,它们会向你展示推理的样子。OpenAI 也发布了一些例子。它生成大量的东西。它就像,它有时会在中文和英文之间切换,对吧?无论是什么,它都在思考,对吧?它在运转。它就像这样,这样,这样,这样。哦,我应该这样做吗?我应该把它分解成这些步骤吗?

然后它会给出一个答案,对吧?现在,表面上看,太棒了。我不必在研发或资本上花费更多,对吧?我用宽松的术语来说。我认为在微软的财务基础上,他们不把训练模型当作研发,但是他们不必这样做,他们不必提前这样做,对吧?你可以在花费时间时得到它。但是,

想想这意味着什么,对吧?例如,对您来说,我们做过很多测试的一件简单的事情是,“嘿,帮我生成这段代码,对吧?比如创建这个函数。” 太好了。我描述了这个函数,你知道,几百个单词,我得到了一个一千个单词的回应。太棒了。

而我按标记付费。当我用O1或任何其他推理模型这样做时,我发送的是相同的响应,对吧?几百个标记。我为此付费。我得到了大致相同的回应,大约一千个标记。但在中间,有10000个标记的思考过程。那么这10000个标记的思考究竟意味着什么?这意味着,模型正在输出多10倍的标记。

那么,如果微软产生了,比如说100亿美元的推理收入,而且他们的利润率很高,他们已经声明了这一点,对吧?根据你如何计算OpenAI的利润分成,他们的毛利率在50%到70%之间,他们的成本是几亿美元,收入是100亿美元。对。如果……

现在,很明显,更好的模型可以收取更高的费用,对吧?所以O1确实收费高得多,但是你现在增加了你的成本,从“嘿,我输出了1000个标记”到“我输出了11000个标记”。为了生成……我将支出增加了10倍。

现在,不是同一件事,对吧?质量更高,对吧?而这只是其中一部分。这具有欺骗性地简单。不仅仅是10倍,对吧?因为如果你去看O1,尽管它与GPD 4.0的模型架构相同,但它每个标记的成本也高得多。这是因为我们在这里看到的图表,对吧?这张图表显示,嘿,GPD 4.0……

如果我生成大约1000个标记,这就是右下角的GPT-40,或者Lama 405B,这是一个开放模型,所以更容易模拟它的精确指标。但是如果我这样做,我会保持用户对模型的体验不变,即他们获得标记的数量和速度,那么当我问它一个问题时,它会生成单元,生成代码,无论是什么。

我可以将许多用户的请求组合在一起。我可以在一台NVIDIA服务器上组合超过256个用户的请求,对吧?比如,一台大约30万美元的服务器。

当我用O1这样做时,对吧,因为它正在进行10000个标记的思考阶段,这基本上就是整个上下文长度的问题。上下文长度不是免费的,对吧?上下文长度或序列长度意味着它必须计算注意力机制,即它在生成这个KB缓存和不断读取这个KB缓存上花费了大量的内存。现在最大批量大小,即我可以拥有的并发用户数是10000。

它的几分之一,四分之一到五分之一,当前可以使用该服务器的用户数量。因此,我不仅需要生成多10倍的标记,每个生成的标记的用户数量也减少了四到五倍。所以当你考虑单个用户时,成本增加是惊人的。生成单个标记的成本增加了四到五倍,但我却生成了多10倍的标记。所以你可以说成本增加了50倍。

哇。我不知道。对于O1风格的模型,从输入到输出——我知道10倍是因为它在最初的O1版本中使用了对数刻度,但我不知道。好吧,对于——它需要你拥有——同样,为了服务相同数量的客户,你必须拥有更多的计算能力。布拉德,这里有好消息也有坏消息,我认为这就是迪伦告诉我们的。

如果你只是销售英伟达的硬件,而它们仍然是架构,而这是我们的扩展路径,你将消耗更多。但是,除非他们能够将其转嫁给最终消费者,否则生成端人员的利润率将会下降。问题是,你可以将其转嫁给最终消费者,因为,嘿,这并不像,“哦,在这个基准测试中它提高了X%。” 它是

它之前根本无法做到这一点,而现在可以了。他们现在正在进行一项测试,他们将向最终消费者收取的费用提高了10倍。每个标记10倍,对吧?正确。记住,他们也为多10倍的标记付费。所以实际上,你知道,消费者每次查询要多付50倍的钱。对。但他们从中获得了价值,因为现在它突然可以通过某些基准测试了

比如SWEbench,对吧?软件工程基准测试,对吧?这只是一个生成体面代码的基准测试,对吧?有前端网页开发,对吧?你付给前端网页开发人员多少钱?你付给后端开发人员多少钱?与“嘿,如果他们使用O1呢?他们可以输出多少代码?他们可以输出多少?”相比,查询很昂贵,但它们与人工相比根本不算什么,对吧?因此,我获得的每个生产力提升水平,每个能力提升水平,都是它可以执行的一整类新任务

对。因此,这就是整个轴线,是的,我花费更多才能获得相同的输出,但你并没有获得这个模型的相同输出。我们是否高估或低估了最终需求?

对O1模型的企业级需求。你听到什么了?我会说O1风格的模型还处于早期阶段,人们甚至不明白,对吧?O1就像他们刚刚破解了代码,他们正在这样做。但猜猜怎么了?现在在一些匿名基准测试中,它被称为LLM-SYS,这是一个不同的LLM可以竞争和人们对它们投票的竞技场。现在有一个谷歌模型正在进行推理。它还没有发布,但很快就会发布。

很快,对吧?Anthropic将发布一个推理模型。这些人将互相超越,而且他们现在在训练时间上花费在推理上的计算量非常少。他们看到了在支出上大幅增加的非常清晰的路径,即提升规模定律。哦,我只花了1000万美元。好吧,等等,这意味着我可以像那样在规模上提升两到三个对数,因为我已经有了计算能力。

你知道,我可以从1000万美元迅速跃升到1亿美元,再到100亿美元用于推理。因此,我们将从这些模型中获得的性能改进是巨大的,对吧?在未来六个月到一年中,在某些具有功能验证器的基准测试中。

快速提问,我们承诺会转向这些替代方案,所以我们最终必须做到这一点。但如果你回顾一下,我们多次使用过这个互联网浪潮的比较。当所有风险投资支持的公司都在互联网上起步时,它们都在使用Oracle和Sun。五年后,他们不再使用Oracle或Sun了。有些人认为它从一个开发沙盒世界变成了一个优化世界。

这种情况可能发生吗?这里是否存在等价性?如果你能谈谈为什么后端如此陡峭且便宜,比如,你知道,只是一个模型,你知道,落后一点。比如,你只需稍微落后一点就能节省的成本是疯狂的。

是的,是的。所以今天,对吧,O1非常昂贵。你降到4.0,它便宜得多。你跳到4.0 mini,它非常便宜。为什么?因为现在有了4.0 mini,我正在与Llama竞争,我正在与DeepSeek竞争。我正在与Mistral竞争。我正在与阿里巴巴竞争,我正在与众多公司竞争

所以你认为这些是市场出清价格?我认为,此外,对吧,还有一个问题是,推理小型模型相当容易,对吧?我可以在一个AMD GPU上运行Lama 70B。我可以在一个NVIDIA GPU上运行Lama 70B,很快它就可以在一个亚马逊的Neutranium芯片组上运行,对吧?我可以在单个芯片上运行这个模型。这不是一个很容易的问题,仍然是一个难题。

这比运行这个复杂的推理或这个非常大的模型要容易得多,对吧?所以存在这种差异,对吧?还有这样一个事实,嘿,实际上有15家不同的公司提供API推理,对吧?

在Lama和阿里巴巴以及DeepSeek和Mistral等不同模型上的推理API,对吧?你正在谈论Cerebrus和Grok,还有Fireworks以及所有其他公司。是的,Fireworks一起,你知道,所有不使用自己硬件的公司。当然,Grok和Cerebrus也在做自己的硬件,也在做这件事。但是……

这里的利润率很低,对吧?当Mistral发布他们的Mistral模型时,我们讨论过整个向底部的推理竞争的问题,这在去年年底非常具有革命性。

因为它达到了开源中不存在的性能水平,所以它导致价格下降得如此之快,对吧?因为每个人都在争夺API。作为API提供商,我为你提供了什么,比如,你为什么不从我的切换到他的?为什么?因为,好吧,没有,它相当容易互换,对吧?我仍然在同一个模型上获得相同的标记。所以

对于这些人来说要低得多。微软在OpenAI模型上的毛利率为50%到70%。这是他们获得的利润分成或他们给予OpenAI的分成,对吧?或者,你知道,Anthropic在其最近一轮融资中,也显示出70%的毛利率。但这并不是

但这只是因为他们有这个模型。你降到这里,没有人使用这个模型……很少有人从OpenAI或Anthropic使用它,因为他们可以从Lama获取权重,将其放在他们自己的服务器上,反之亦然。转到许多竞争性API提供商之一,其中一些是风险投资支持的,一些是亏损的。所以这里存在所有这些竞争。所以你不仅在说……

我退后一步,这是一个更容易的问题。我,所以因此,如果模型小10倍,那么运行它要便宜15倍,最重要的是,我正在去除该毛利率。所以它运行起来并不便宜15倍。它便宜30倍。嗯,所以这就是……这就是像,“好吧,一切都是商品吗?” 不,但是像这样追逐一样,如果你将其部署在服务中,这对你是有好处的。A,呃,B,呃,

如果你是一个实验室,你必须拥有最好的模型,否则你就什么都不是,对吧?所以你会看到很多公司试图构建最好的模型但失败了,对吧?可以说,你不仅必须拥有最好的模型,你还必须拥有愿意为最好的模型付费的企业或消费者,

因为归根结底,最好的模型意味着有人愿意以高利润率向你付费。这可能是企业或消费者。所以我认为你很快就会缩小到只有少数几家公司能够在这个市场上竞争。我认为在模型方面,是的。我认为在谁愿意为这些模型付费方面——

我认为更多的人会为最好的模型付费,对吧?当我们在内部使用模型时,对吧?我们让语言模型浏览每个监管文件和许可证,以查看数据中心的内容,并将其提取出来,告诉我们应该在哪里查看,在哪里不应该查看。我们只使用最好的模型,因为它非常便宜,对吧?比如,我从中获得的数据,我从中获得的价值要高得多。你使用什么模型?我们现在实际上使用的是Anthropic,Cloud 3.5,CNET New,Sonnet。

所以仅仅因为O1在某些任务上要好得多,但不一定在监管文件和许可证等方面,因为错误的成本要高得多,对吧?开发人员也是如此,对吧?如果我可以将湾区年薪30万美元的开发人员的效率提高20%,那将是很多。如果我可以……

如果我可以带一个100名开发人员的团队,并使用75名或50名开发人员来完成相同的工作,或者我可以交付两倍的代码。这非常值得使用最昂贵的模型,因为O1,尽管相对于4.0而言很昂贵,

它仍然非常便宜,对吧?社会中情报的成本非常高,对吧?这就是为什么高智力工作是薪酬最高的工作。白领工作,对吧,是薪酬最高的工作。如果你可以降低情报成本或增强情报,那么就会有一个高市场出清价格,这就是为什么我认为像“哦,是的,O1很贵”。

人们总是会在一定智力水平上倾向于最便宜的东西。但是每次我们突破一个新的智力水平时,这不仅仅是,“哦,你知道,我们可以做更多任务了”。我认为它会极大地增加可以完成的任务模式。很少有人可以使用GP2和3,对吧?

很多人可以使用GBD4。当我们达到下一代所看到的这种质量飞跃时,可以使用它的人数,它可以完成的任务数量会激增。因此,它可以增强生产力的白领工作数量将会增长。因此,该标记的市场出清价格将非常高。这非常有趣。我可以提出另一种论点,即那些大量使用它的人,你知道,这取代了大量的客户服务电话或其他什么,可能会。

可能会试图尽量减少支出。绝对的。并最大化他们围绕此构建的增值量,数据库写入和读取。绝对的。所以我喜欢的一件有趣的事情是,我们进行的计算是,如果你取英伟达出货量的四分之一,并说所有这些都将用于推理LAMA7B,

你可以每分钟给地球上的每个人提供100个标记,对吧?或者抱歉,每秒100个标记。你每秒给地球上的每个人提供100个标记,这简直是荒谬的。你知道,所以如果我们只是部署Lama 7B质量的模型,我们已经过度建设了,甚至都不好笑。现在,如果我们部署可以增强工程师并提高生产力,并帮助我们更快地构建机器人或自动驾驶汽车或其他任何东西的东西,对吧?

那么这将是一个非常不同的计算,对吧?所以这就是整个问题。比如,是的,小型模型在那里,但它们运行起来太容易了。而且这两种情况都可能是正确的。对,我们将有大量的小型模型在各处运行,但它们的计算成本非常低。是的,很公平。比尔和我之前与硬盘有关的讨论过这个问题,你知道,你过去也报道过。但是如果你看看内存市场,它一直是这些繁荣或萧条的市场之一。其想法是,你总是会在它们接近峰值性能时出售这些东西。

你知道,你总是在低谷时购买它们。你不会在两者之间拥有它们。它们的市盈率非常低。我说的是海力士,我说的是美光。当你考虑到向推理时间计算的转变时,这些芯片所需的内存,詹森对此谈论了很多,只是在一个长期向上的转变中。

对。因为如果他们正在进行这些传递,你知道,你正在运行,就像你说的,10次、100次或1000次推理时间推理,你只需要随着上下文长度的扩展而拥有越来越多的内存。所以,你知道,跟我们谈谈你如何看待内存市场。是的。所以,你知道,为了更进一步地设定舞台,思考推理模型是。

输出成千上万个标记,是的,而且当我们查看转换器注意力时,转换器的圣杯,即它如何理解整个上下文

会急剧增长,而KV缓存,即跟踪此上下文含义的内存,则呈二次方增长,对吧?因此,如果我的上下文长度从10增加到100,则不仅仅是10倍,而是更多,对吧?所以你处理它,对吧?像今天的推理模型一样,它们会思考

10000个标记,20000个标记。当我们得到,“嘿,复杂的推理会是什么样子?” 模型将达到思考数十万个标记的程度。然后这将是一个完整的思维链,或者它可能是一些搜索,但它将进行大量的思考,而这个KV缓存将膨胀。所以你说内存的增长速度可能比GPU快。

当你查看英伟达的销售成本时,客观上是这样的,他们的最高销售成本不是台积电,这是人们没有意识到的一点。实际上是HBM内存,主要是SK海力士。现在也可能是这样。是的,所以那里有三家内存公司,对吧?三星、SK海力士和美光。英伟达主要使用SK海力士。这就像……

整个内存市场的一个重大转变,因为历史上它一直是一种商品,即它是否可互换,我是否从三星或SK海力士或美光购买,或者插座可更换,是的,即使现在三星也受到了非常严重的打击,因为……有一家中国内存制造商CXMT,他们的内存不如西方好,但还可以,在低端内存中,它是可互换的,因此低端内存的价格大幅下降,在HBM中,三星

几乎没有份额,对吧?尤其是在英伟达。所以这就像,这给三星带来了很大的打击,对吧?尽管他们是世界上最大的内存制造商,每个人总是说,如果你说内存,就像,“是的,三星在技术方面领先一点,他们的利润率好一点,他们做得很好”,对吧?但现在情况并非如此,因为在低端,他们受到了打击,在高端,他们无法突破,或者他们一直在尝试,但他们一直在失败。

另一方面,像SK海力士和美光这样的公司正在将其大量普通DRAM产能转换为HBM。现在,HBM仍然是可互换的,对吧?如果有人达到一定的技术水平……

他们可以将美光换成海力士,对吧?所以在这种意义上它是可互换的,对吧?在这个意义上它是一种商品。但由于推理需要更多的内存,而H100到Blackwell的销售成本中,HBM的成本百分比增长速度快于领先的硅成本百分比。

你正在经历这种巨大的转变或动态。这不仅适用于英伟达的GPU,也适用于超大规模的GPU,对吧?或者像TPU、亚马逊Tranium等加速器。海力士的毛利率高于内存公司的毛利率。正确,正确。如果你至少听詹森描述它,你知道,并非所有内存都是一样的。

对。所以今天产品差异化程度更高,今天与产品相关的软件也更多,但这与它如何集成到整个系统中也有关。对。回到供应链问题,听起来它都是商品。在我看来,至少存在一个问题。它是否正在发生结构性变化?我们知道长期曲线是向上向右的。我听到你说它可能已经足够差异化,不再是一种商品。

它可能是。我认为另一件需要指出的是,有趣的是,HPM的毛利率并不高。它们不错,但并不高。实际上,普通的内存,高端的服务器内存,而不是HPM,其毛利率实际上高于HPM。原因是英伟达对内存制造商施加了很大的压力,对吧?他们希望更快、更新一代的内存更快、更快、更快地用于HP。

对于HPM,但不一定像其他服务器一样。这是什么意思?这意味着,嘿,即使三星可能达到四级或三级或他们之前达到的任何级别,他们也无法达到海力士现在的水平。竞争对手在做什么,对吧?AMD和亚马逊在说什么?AMD明确表示拥有更好的推理GPU,因为它们为你提供了更多内存。

它们为你提供了更多内存和更多内存带宽。这实际上是AMD的GPU甚至被认为更好的唯一原因。芯片上?HBM内存。好的。这是封装上的。好的。具体来说,是的。然后当我们查看亚马逊时,如果你们真的在他们宣布Trinium 2时与他们交谈,以及我们关于它的全部帖子和我们的分析,

从供应链的角度来看,这看起来像一个亚马逊基础款TPU。它不错,但它非常便宜,A。B,它提供了市场上任何芯片中每美元最高的HBM容量和每美元最高的HBM内存带宽。因此,对于某些应用来说,使用它实际上是有意义的。

所以这就像一个真正的、真正的转变。比如,“嘿,我们可能无法像英伟达那样设计得那么好,但我们可以将更多内存放在封装上”,对吧?现在这只是一个向量,你知道,这里有一个多向量问题。他们的网络远不如英伟达好。他们的软件远不如英伟达好。他们的计算单元远不如英伟达好。但是

我的天,他们每美元的内存带宽更多。好吧,这就是我们想在时间用完之前去的地方,只是讨论一下这些替代方案,你刚刚开始这样做。所以尽管有这么多令人惊叹的原因,没有人会

想与英伟达对抗。许多人都在尝试,对吧?我甚至听到人们谈论尝试过的人,比如OpenAI一直在谈论他们自己的芯片。这些其他参与者做得怎么样?比如,你会如何评估?让我们从AMD开始,因为它们是一家独立公司,然后我们将转向一些内部项目。

是的,所以AMD竞争得很好,因为从硅工程的角度来看,它们很棒,对吧?它们很有竞争力。它们击败了英特尔。但是,是的,它们击败了英特尔,但这就像从婴儿那里偷糖果一样。它们从很低的地方开始。在20多年的时间里,情况相当糟糕。

太棒了。所以AMD真的很好,但他们缺少软件。我认为AMD根本不知道如何做软件。他们在这方面只有很少的开发人员。他们不会花钱为自己建立一个GPU集群,以便他们可以开发软件,对吧?这简直是疯狂的,对吧?比如英伟达,你知道,前500名超级计算机列表并不重要,因为大多数最大的超级计算机,比如埃隆的和微软的等等,都不在上面。

英伟达在前500名超级计算机列表中有多台超级计算机,它们完全在内部使用它们来开发软件,网络软件,无论是网络软件、计算软件、推理软件,所有这些东西。测试他们所做的所有更改,然后推出推送,如果XAI很生气,因为软件无法工作,英伟达将在第二天或两天后推送它,就像时钟一样,对吧?因为当你训练模型时,会不断出现很多问题。对。

AMD没有这样做,对吧?我不知道他们为什么不花钱买一个大型集群。另一件事是,他们不知道如何进行系统级设计。他们一直生活在一个这样的世界里,“我正在与英特尔竞争,所以如果我制造出比英特尔更好的芯片,那么我就很棒了。” 因为软件,x86,它是x86。据推测,他们已经阅读过。一切都是可互换的。我的意思是,英伟达并没有保守秘密,说他们是一家系统公司,所以据推测他们已经阅读过。是的,所以他们收购了这家名为ZT Systems的系统公司。但是,

但是整个机架规模架构,谷歌在2018年使用TPU v3部署了该架构。是否有任何超大规模公司对AMD的成功如此感兴趣,以至于他们正在与AMD共同开发?所以……

超大规模公司都有自己的定制硅片工作,但它们也以不同的方式帮助AMD很多,对吧?Meta和微软正在帮助他们开发软件,对吧?不足以让AMD赶上或接近它。他们正在帮助AMD很多关于他们甚至应该做什么,对吧?所以人们认识到的另一件事是

如果我拥有世界上最好的工程团队,但这并不能告诉我问题是什么,对吧?这个问题是这样的,那样的,还有这样的。它有这些权衡取舍。AMD 不懂软件开发。它不懂模型开发。它不懂推理,也不懂推理的经济效益是什么样的。那么他们怎么知道要做出哪些权衡取舍呢?我是不是要把芯片上的这个杠杆再用力压一下,然后我又不得不在这方面让步?或者我到底该怎么做,对吧?但超大规模厂商正在提供帮助,但这还不够,不足以让 AMD 与 NVIDIA 保持同步。在未来一年里,AMD 在……

人工智能收入方面会有多成功?他们可能会取得什么样的成功?是的,我认为他们今年在微软方面的成功会比今年少得多。而且他们今年在 Meta 方面的成功也会比今年少得多。这是因为监管规定使得 AMD 的 GPU 实际上非常适合中国,因为他们的设计方式。但总的来说,我认为 AMD 会做得很好。

好的。他们会从市场中获利。只是不会像人们希望的那样大获成功。而且他们不会成为——他们占总收入的份额明年将会下降。好的。但他们仍然会做得很好,对吧?数十亿美元的收入并不是——没有什么好阻止的。让我们来看看 Google TPU。你之前说过,它的工作负载排名第二——

似乎高出很多。它稳居第二位。是的,这就是整个系统和基础设施问题非常重要的原因。每个单独的 TPU 并不那么令人印象深刻。它令人印象深刻。

它拥有良好的网络,良好的架构等等。它的内存还可以。它本身并不那么令人印象深刻,但是当你这样说,嘿,如果我花 X 数量的钱,那么我的系统是什么样的?Google 的 TPU 看起来很棒。所以 Google 为一些 NVIDIA 可能没有那么关注的事情设计了它。

所以实际上,它们芯片之间的互连在某些方面可以说是具有竞争力的,甚至更好,在其他方面则更差,因为他们一直在与博通公司合作,博通公司是网络领域的领导者,与他们一起制造芯片。自 2018 年以来,他们一直在进行这种规模的扩张。NVIDIA 正在谈论 GB200、NVL72。TPU 现在已经达到 8000 个。

虽然它不是交换机,但它是一个点对点连接。这里有一些技术上的细微差别。这些数字并不是你应该关注的全部,但这很重要。另一方面是 Google 多年来一直在使用水冷。NVIDIA 才刚刚意识到他们需要在本代产品中使用水冷。Google 引入了

NVIDIA GPU 所不具备的可靠性水平。你知道,一个不为人知的秘密是去问问人们 GPU 在云端或部署中的可靠性是多少。他们会说,哦,天哪,它不是,它们还算可靠。但是,尤其是在最初,你必须拿出大约 5% 的 GPU。为什么 TPU 在 Google 之外没有取得更大的商业成功?

我认为 Google 保留了很多内部软件,而他们应该让它开源,因为,谁在乎呢?你知道,这是一个方面。你知道,DeepMind 使用了很多软件,这些软件根本无法用于 Google Cloud。第二……即使是他们相对于 AWS 的 Google Cloud 产品也存在这种偏见。是的,是的。第二,它的定价有点……

并不是说它的标价过高。Google Cloud 上 GPU 的标价也很过高。但是你作为一个知道我去租用 GPU 的人……

你知道,我告诉 Google,嘿,你知道,等等。你会说,好的,你可以绕过第一轮谈判,把两者都降下来。但是你会说,好吧,看看 Oracle、微软、亚马逊或 CoreWeave 或 80 个 Neo 云中的一个提供的报价。Google 可能不会像许多这些公司那样匹配,但他们会降价,因为,你知道,然后你会说,哦,好吧,如果我想租用 H100 两年或一年,那么市场均衡价格是多少?

哦,是的,我可以以两美元的价格买到它。对。比报价的 4 美元略高一点,对吧?而 TPU 就在这里。你不知道你能得到这里。所以人们看到标价,他们就会说,啊。你认为这会改变吗?我,

我看不出有什么理由会改变。所以第三点是 Google 最好将所有 TPU 用于内部。顺便说一句,微软租用的 GPU 很少,对吧?他们实际上从将 GPU 用于内部工作负载或将它们用于推理中获得了更多的利润,因为销售代币的毛利率为 50% 到 70%。

销售 GPU 服务器的毛利率低于此。所以虽然这是一个不错的毛利率,但它就像,你知道,它……他们说过,在他们引用的 100 亿美元中,没有一美元来自外部租赁 GPU。如果 Gemini 成为一个极具竞争力的 API,那么你将间接地让第三方使用 Google TPU。这是准确的吗?是的,绝对准确。广告、搜索、Gemini 应用程序,所有这些都使用 TPU。所以并不是说你没有使用,你上传的每个 YouTube 视频都会经过 TPU,对吧?它也会经过他们自己制造的其他芯片,用于 YouTube 的定制芯片。但是有很多东西都与 TPU 相关,但你却不会间接地租用它,对吧?因此,当你查看租户市场时,只有一家公司占 Google TPU 收入的 70% 以上,据我了解,那就是 Apple,对吧?

对。我认为关于为什么 Apple 讨厌 NVIDIA 有一个很长的故事。但是,你知道,这可能是另一个故事。你刚刚写了一篇关于 Tranium 的非常深入的文章。你为什么不针对亚马逊做你刚刚对 Google 做的事情呢?是的。很有趣的是,亚马逊的芯片就是亚马逊的。我称之为亚马逊的基础版 TPU。原因是我认为

是的,它使用了更多的硅。是的,它使用了更多的内存。是的,网络与 TPU 有点类似。它是一个 4x4x4 的金牛座。

他们只是以效率较低的方式来做这件事,就……你知道,嘿,他们在有源电缆上花费了更多,对吧?因为他们正在与 Marvell 和 Alchip 合作开发自己的芯片,而不是与博通公司合作,博通公司是网络领域的领导者,然后可以使用无源电缆,对吧?因为他们的 SERD 非常强大。这里还有其他事情。他们的 SERD 速度较低。他们花费了更多的硅面积。关于 Tranium,有很多这样的事情。

你知道,你可以看看它,然后说,哇,如果这是一款商用硅片,那就会很糟糕,但它不是,因为它,它,它,亚马逊没有支付博通的利润率,对吧?他们支付的利润率较低。嗯,他们没有支付 HPM 的利润率。他们支付的是,你知道,他们支付的利润率普遍较低,对吧?支付给 Marvell 的 HPM 利润率。嗯,你知道,他们做了所有这些不同的事情来压低价格,以至于他们的亚马逊基础版 TPU,Tranium 2,对吧?是,是,

非常非常具有成本效益的最终客户和他们自己,就每美元 HBM、每美元内存带宽而言,它具有 64 的世界规模。现在,亚马逊无法在一个机架中做到这一点。它实际上需要两个机架才能达到 64,并且每个芯片之间的带宽比 NVIDIA 的机架慢得多。嗯……

而且它们每个芯片的内存比 NVIDIA 的低,每个芯片的内存带宽也比 NVIDIA 的低。但是你没有支付,你知道,每个芯片超过 40,000 美元的价格来购买服务器。你支付的是,你知道,要少得多,对吧?每个芯片 5000 美元,对吧?你知道,这就像一个巨大的差距,对吧,对于亚马逊来说。然后他们把它转嫁给客户,对吧?因为当你购买 NVIDIA GPU 时。所以有一些合理的用例。正因为如此,对吧,亚马逊和 Anthropic 决定,你知道,制造一个 400,000 个 Tranium 芯片

服务器,超级计算机,对吧?400,000 个芯片,对吧?回到主机缩放定律已经失效。哦,他们正在制造一个 400,000 个芯片的系统,因为他们真的相信这一点。对。嗯,而且,400,000 个芯片在一个位置对于提供推理服务并没有用,对吧?它对于创建更好的模型很有用,对吧?你希望你的推理比这更分散。嗯,所以,所以这是一个巨大的,巨大的投资。嗯,

虽然从技术上讲它并不那么令人印象深刻,但我略微忽略了一些令人印象深刻的方面。它非常便宜,非常具有成本效益,我认为这对亚马逊来说是一个不错的选择。也许只是总结一下,我想稍微转向一下你对 25 年和 26 年发生的事情的看法,对吧?

例如,在过去的 30 天里,对吧,我们看到博通公司,你知道,股价暴涨。NVIDIA 的股价下跌了很多。我认为在过去的 30 天里,两者之间大约有 40% 的差距。博通公司是定制 ASIC 的一个选择,你知道,人们质疑 NVIDIA 是否面临很多新的竞争,预训练等等。

你知道,没有以前那样快地改进。看看你的水晶球,看看 25 年和 26 年的情况。你在与客户谈论什么,你知道,就你认为最被误解的事情、最好的想法、你所涵盖的领域而言?

所以我认为其中一些事情是,嘿,博通确实赢得了多个定制 ASIC 项目。这里不仅仅是 Google。Meta 主要仍在为推荐系统进行扩张,但他们的定制芯片将会变得更好。还有其他参与者,比如 OpenAI,他们正在制造芯片。还有 Apple,他们并没有完全与博通公司一起制造整个芯片,但其中一小部分将由博通公司制造。他们有很多胜利。

对。现在这些都不会在 25 年实现。其中一些将在 26 年实现。而且,你知道,这是一个定制 ASIC。所以它可能,它可能失败,而且不好。就像,就像微软的,因此永远不会扩张,或者它可能真的很好。而且,就像,或者至少,你知道,

价格性能比亚马逊的好,它可以大幅扩张,对吧?所以这里存在风险。但是博通拥有定制 ASIC 业务,第一。第二,非常重要的是,网络方面非常非常重要,对吧?是的,NVIDIA 正在销售大量的网络设备。但是当人们制造自己的 ASIC 时,

他们会做什么,对吧?是的,他们可以去亚马逊或不去,但他们还需要将许多这些芯片连接在一起。对不起,是博通还是不去。他们可以去 Marvell 或其他许多竞争对手,如 Alchip 和 GUC。就像,你可以……

博通非常有能力制造 NVSwitch 的竞争对手,许多人认为这是 NVIDIA 在硬件方面相对于其他所有人的最大竞争优势之一。而博通正在制造其竞争对手,他们将让渡给市场,对吧?多家公司将使用它。不仅仅是,你知道,AMD 将使用 NVSwitch 的竞争对手,但他们自己并没有制造它,因为他们没有这种技能。

对吧?他们会去博通那里制造它,对吧?所以,当你考虑当今的半导体市场时,请为我们做一个预测。你知道,你拥有 Arm、博通、NVIDIA、AMD 等等。当我们进入 25 年和 26 年时,整个市场还会继续上涨吗?从目前的水平来看,谁最有可能做得很好?谁最被高估?谁最被低估?我认为……

我长期持有博通的股票,但在未来六个月内,Google TPU 的采购量会略有下降,因为他们没有数据中心空间。他们想要更多。他们真的没有数据中心空间来放置它们。所以我们实际上可以看到暂停了一段时间。但是人们……

可能会忽略这一点。除此之外,对吧?问题是,谁会赢得哪些定制 ASIC 项目,对吧?Marvell 会赢得未来几代产品吗?博通会赢得未来几代产品吗?这些几代产品会有多大规模?超大规模厂商是否能够将越来越多的业务内部化,或者不能,对吧?Google 试图离开博通并不是什么秘密。他们可能会成功,也可能会失败,对吧?这不仅仅是——扩大博通以外的范围。我说的是 NVIDIA 和所有其他人。就像,你知道,我们已经经历了两年的大规模

顺风推动了这个行业。2025 年是整合的一年吗?你认为这一年该行业还会做得很好吗?我认为超大规模厂商的计划相当坚定。他们明年将花费更多资金。因此,网络参与者、ASIC 参与者、

系统供应商的供应商将会做得很好,无论是 NVIDIA、Marvell、博通、AMD 还是,你知道,总体而言,一些比其他公司更好。人们应该关注的真正问题是 2026 年。支出是否会持续下去,对吧?我们不会,NVIDIA 的增长率明年将非常惊人,对吧?这将带动整个组件供应链的发展。它将带动很多人一起发展。但是 2026 年就像清算的时候到了,对吧?是的。

你知道,人们是否会继续这样花钱?这完全取决于模型是否会继续改进?因为如果它们没有继续改进,在我看来,事实上,明年我们会更快地改进,那么就会发生一次巨大的,你知道,清算事件,对吧?但这并不是明年的事情,对吧?我还想说的是,NeoCloud 市场正在整合,对吧?我们正在跟踪 80 个 NeoCloud,我们与他们交谈,我们了解他们有多少 GPU,对吧?问题是……

现在,如果你看看 H100 的租赁价格,它们正在暴跌,对吧?不仅仅是在这些 NeoCloud 上,对吧?你过去必须签订四年期合同并预付 25%。你会签署风险投资协议,你会

购买一个集群,就是这样了,对吧?你会租用一个集群,对吧?现在,你可以以比你过去为 Hopper 签订的四年期或三年期合同更好的价格获得三个月或六个月的合同,对吧?最重要的是,这不仅仅是通过 NeoCloud。亚马逊按需 GPU 的价格正在下降。现在,它仍然超过,它仍然相对昂贵,但价格下降得非常快。80 个 NeoCloud 将无法生存。也许只有 5 到 10 个会生存下来。这是因为

其中五个是主权的,而另外五个实际上具有市场竞争力,这些可能无法生存的 NeoCloud 占行业人工智能收入的百分比是多少?是的,你可以说超大规模厂商占收入的 50% 左右,50% 到 60%,其余的是 NeoCloud/主权人工智能,因为企业购买 GPU 集群的数量仍然相当低,如果

最终对他们来说,当他们能够通过安全检查时(对于某些公司如 Corby 来说是可以的),将业务外包给 NeoCloud 会更好。在 2026 年,你是否认为行业销量

实际上会低于 2025 年,或者 NVIDIA 的销量实际上会比 2025 年大幅下降?所以当你看到即将推出的定制 ASIC 设计以及 NVIDIA 即将推出的芯片时,收入,每个芯片的内容收入

都在爆炸式增长。制造 Blackwell 的成本超过了制造 Hopper 成本的两倍。因此,NVIDIA 可以制造相同数量的芯片,而且显然他们正在稍微降低利润率,但 NVIDIA 可以出货相同数量的芯片,并且仍然可以大幅增长。所以与其说是单位销量,不如说在 26 年行业收入下降或 NVIDIA 收入下降的可能性有多大?清算的时机是……

模型是否会继续变得更快、更好?超大规模厂商是否愿意将他们的自由现金流降至零?顺便说一句,我认为他们愿意。我认为 Meta 和微软甚至可能会将其自由现金流降至接近零,然后继续支出。但这只有在模型继续改进的情况下才会发生。这是 A。然后是 B,我们是否会从我们尚未获得资金的人那里获得大量资金涌入?中东?

新加坡和北欧的主权财富基金以及加拿大养老基金和所有这些人,他们可以开出非常大的支票。他们还没有,但他们可以。而且……

如果情况继续好转,我确实相信 OpenAI、XAI 和 Anthropic 将继续筹集越来越多的资金,并继续这场游戏,而不仅仅是,嘿,OpenAI 的收入在哪里?好吧,它是 80 亿美元,明年可能会翻倍甚至更多。那是他们的支出。不,不,不。他们必须筹集更多资金才能大幅增加支出。这会让引擎继续运转,因为一旦其中一个公司支出——

埃隆实际上正在迫使每个人都增加支出,对吧?凭借他的集群。以及他的计划,因为每个人都认为,好吧,我们不能被埃隆超越。我们必须增加支出,对吧?所以这里也存在一种博弈。我们就像,哦,他们买了这个?我们必须与他们匹敌或做得更大,因为它是一场规模的游戏。所以在帕斯卡赌注的意义上,对吧?

如果我支出不足,那将是历史上最糟糕的情况。我将成为有史以来最赚钱的企业中最糟糕的首席执行官。但是如果我支出过多,是的,股东会生气,但这没关系,对吧?它是,你知道,200 亿美元,500 亿美元。你也可以从两个方面来解释这一点,因为如果这成为这样做的理由,那么你更有可能,过度支出的概率会增加。当然。而且我们每个泡沫都会过度支出。你知道,对我来说,你知道,你已经说过了,一切取决于模型的改进。

我会更进一步,回到萨蒂亚上周对我们说的话。最终,一切归结于购买 GPU 的人所产生的收入,对吧?就像他上周说的那样,我每年都会购买一定数量的 GPU。

这将与我能够在那一年或未来几年产生的收入有关。所以他们不会在收入超出预期的情况下进行支出。所以他正在关注什么,你知道,他今年的收入为 100 亿美元。他知道这些推理收入相关的增长率。

他们正在制定,他和艾米正在制定一些预测,以确定他们能够承受多少支出。我认为扎克伯格也在做同样的事情。我认为桑达尔也在做同样的事情。因此,如果你假设他们采取理性行为,那么不仅仅是模型的改进,还有使用其服务的相关企业的采用率。这是消费者采用率以及消费者愿意为使用 ChatGPT、Claude 或其他这些服务支付的费用。

所以,你知道,如果你认为基础设施支出每年将增长 30%,那么我认为你必须相信,底层推理收入,对吧,无论是在消费者方面还是在企业方面,都将以类似的增长率增长。

当然,也存在超前支出的因素,对吧?这是时间点支出与我对服务器未来五年的收入预期之间的关系,对吧?所以我认为肯定存在这种因素,但是绝对的,对吧?关键是模型的改进会产生更多收入,对吧?并且它会被部署。所以我想我同意,但是人们肯定是在超前支出。

足够了。

对整个生态系统来说。我认为关于担忧之墙的一件事,比尔,那就是我们都在谈论和寻找,对吧,泡沫。有时这就是阻止泡沫真正发生的原因。但是,你知道,作为一个投资者和分析师,你知道,我看着这个,我说,肯定有一些人正在花钱,而他们的收入并不相称,超前支出

另一方面,坦白地说,你知道,我们上周从萨蒂亚那里听到了这一点。他说,听着,我有收入。我已经说明了我的收入是多少。我没有从其他人那里听到过。对。所以看看 2025 年谁会带着收入出现将会很有趣。我认为你已经看到一些规模较小、排名第二和第三的模型正在改变商业模式,逐渐消失,不再参与军备竞赛,嗯,

你知道,这是创造性破坏过程的一部分,但很高兴你来到这里。是的,非常感谢你,迪伦。非常感谢。是的,很高兴在这里见到你,比尔。直到明年。太棒了。谢谢。提醒大家一下,这只是我们的意见,并非投资建议。