We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode How GPU Access Helps AI Startups Be Agile

How GPU Access Helps AI Startups Be Agile

2024/10/23
logo of podcast AI + a16z

AI + a16z

AI Deep Dive AI Insights AI Chapters Transcript
People
A
Anjney Midha
D
Derek Harris
Topics
Anjney Midha:a16z的Oxygen项目旨在解决AI初创公司在获取GPU资源方面面临的挑战,这些挑战包括GPU短缺、价格飙升以及云服务提供商对长期合同的偏好。Oxygen项目通过整合a16z投资组合公司的需求,与云计算合作伙伴协商获得更有利的GPU资源价格和使用条款,从而帮助初创公司降低成本,提高灵活性,并在与大型科技公司的竞争中获得优势。该项目还考虑了训练和推理工作负载的不同需求,并帮助公司根据实际需求调整资源分配。 Anjney Midha还分析了GPU短缺的成因,包括对AI计算能力的整体需求激增、数据中心建设周期长、供应链问题以及大型科技公司对GPU资源的争夺。他指出,在GPU供应紧张时期,短期GPU容量的价格远高于长期合同价格,这给初创公司带来了巨大的财务压力和规划难题。 此外,Anjney Midha还讨论了推理成本下降对不同类型公司(基础模型实验室、应用开发者、微调客户)的影响,以及新型GPU(如英伟达的Blackwell系列)和ASIC芯片对未来GPU市场的影响。他认为,开源模型的兴起也将在一定程度上降低模型训练的成本。 Derek Harris:本期节目探讨了AI初创公司在获取GPU资源方面面临的挑战,以及a16z如何通过Oxygen项目帮助其投资组合公司解决这些挑战。节目中指出,云计算服务提供商对长期合同的偏好以及大型AI公司对GPU资源的争夺,使得初创公司难以获得足够的GPU资源,这使得它们在某种程度上回到了购买服务器的时代。

Deep Dive

Key Insights

Why is GPU access critical for AI startups?

GPU access is critical because startups face challenges in securing GPUs due to competition from large incumbents, long-term contracts, and high costs. Without GPU access, startups cannot train models efficiently, which is essential for their agility and competitiveness.

How does the Oxygen program help AI startups?

The Oxygen program provides AI startups with guaranteed GPU capacity at competitive prices, allowing them to train models on day one without the long-term financial commitments required by cloud providers. This gives startups an unfair advantage over larger competitors.

What are the main challenges startups face in accessing GPUs?

Startups face challenges such as high costs, long-term contracts, and being deprioritized by cloud providers in favor of larger customers. These issues force startups to overcommit financially and make suboptimal capacity planning decisions.

Why do startups struggle with GPU capacity planning?

Startups struggle because they must plan for both training and inference needs upfront, often without knowing future demand. This leads to overcommitment to specific chipsets or capacity types that may not align with future needs.

What is the difference between training and inference workloads in terms of GPU usage?

Training workloads require significant GPU resources for extended periods, while inference workloads are more sporadic and demand-driven. Inference is cheaper but harder to predict, making it challenging for startups to optimize GPU usage.

How does the falling cost of inference impact AI startups?

The falling cost of inference benefits application developers by reducing their compute expenses, allowing them to reinvest savings into product development. However, it can be challenging for startups focused solely on inference infrastructure, as margins may shrink.

What role does NVIDIA play in the GPU market?

NVIDIA dominates the GPU market due to its ability to handle both training and inference workloads efficiently. Its flexibility allows startups to repurpose GPUs between training and inference, optimizing utilization and cost efficiency.

Why is the H100 GPU still valuable despite newer models like the Blackwell?

The H100 remains valuable for inference workloads, even as newer models like the Blackwell excel in training. Startups with strong inference demand can continue using H100s while investing in Blackwells for future training needs.

What are the implications of compute thresholds in AI regulation?

Compute thresholds in AI regulation are arbitrary and lack empirical evidence linking compute spend to model risk. They can unfairly penalize startups that fine-tune existing models, as the aggregate compute cost may trigger unnecessary regulatory burdens.

How does open-source AI models impact GPU demand?

Open-source models reduce the need for startups to train their own models from scratch, lowering GPU demand for training. However, startups still require GPUs for fine-tuning and inference, making GPU access essential for their operations.

Shownotes Transcript

0 这是我们的一位创始人想出了“氧气”这个名字,因为他们基本上说,如果第一天我没有那种计算能力,我就无法呼吸。因此,第一天,我们就能对创始人说,你们的计算能力得到了保证,价格是你们在其他任何地方都无法获得的。同时对我们的云计算合作伙伴说,你们可以直接接触到世界上最好的基础模型初创公司和人工智能初创公司。

他们意识到了其中的价值。对于创始人来说,他们得到了什么非常清楚。他们能够筹集更少的资金,承担更少的长期风险,同时仍然能够在第一天就训练出非常好的模型。我们的目标始终是让初创公司比大型科技公司拥有不公平的优势。仅仅通过将计算能力重置为合理的、正常的市场价格,我们就能够让这些团队获得不公平的优势。您好,您正在收听 A16Z AI 播客。

我是德里克·哈里斯,本周再次与我一起加入的是 A16Z 普通合伙人安杰内·米达,这次我们将讨论人工智能工作负载的 GPU 经济学以及 A16Z 正在运行的一个项目,该项目旨在帮助我们投资组合中的公司以合理的价格获得 GPU。

我保证这不是对该程序(称为 Oxygen)的广告,而是更多地讨论为什么初创公司和其他小型客户难以从云提供商那里获得足够的资源。对于那些没有深入了解人工智能和云经济学的人来说,一个非常有趣的见解是,正如安杰内特所说,我们“在启动初创公司所需的资本支出方面回到了过去”。

虽然基础设施即服务应该让初创公司避免购买新服务器的开销以及过度配置的高风险,但云提供商对长期合同的要求,加上资金雄厚的人工智能巨头之间的竞价大战,基本上使试图训练基础模型的初创公司回到了同样的云计算之前的境地。如果他们必须承诺三年和数百万美元,他们需要在短期内获得令人难以置信的客户需求,否则他们就会被困住,并为他们不需要的非常昂贵的计算能力付费。

如果您听说过其他投资者提供价格合理的 GPU 作为初创公司的附加值,这就是原因。但是您可能从未听说过这些努力背后的理由如此详细地解释过。

提醒一下,请注意,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且并非针对 A16Z 基金的任何投资者或潜在投资者。有关更多详细信息,请参阅 a16z.com/disclosures。

因此,Oxygen 是我们在 A16Z 的计算程序,我们帮助初创公司创始人以及我们的公司应对他们的计算挑战,无论是帮助他们找到他们需要的培训能力,还是推理能力。我们有……

您知道,现在初创公司创始人有很多选择,特别是那些从事大型人工智能基础设施工作的人,他们可能有非常资本密集型、对 GPU 需求很大的业务计划,能够在我们的帮助下及时获得他们需要的计算能力。

随着人工智能的规模法则越来越成熟,我开始越来越难以忽视我花了多少时间帮助创始人解决他们的计算需求。我认为这始于 2021 年初的 Anthropic,当时我接到 Dario 和 Tom 的电话,他们是 Anthropic 的两位联合创始人,并且一直在领导 OpenAI 的 GPT-3 工作。大约在他们决定离开并创办 Anthropic 的时候,他们给我打了个电话,说,嘿,我们很乐意……

让你参与作为早期投资者。我说,当然,你在考虑为你的种子轮融资多少?他们说,我们需要 5 亿美元才能开始。

这有点令人震惊。此后不久,我开始意识到他们的需求并非孤立的。所以我认为这始于一种倒推式的认识,即我们每天服务的许多客户,尤其是那些在人工智能基础设施前沿工作的创始人,都面临着一个共同的问题,那就是作为一个初创公司,他们被大型 GPU 云、超大规模公司为了更大的客户而被降级处理。

这真的很艰难。当时我们正处于供应短缺的时期,H100 的产能短缺。结果,发生的事情是那些经营云业务的超大规模公司,他们的利润率与集群的占用率或利用率密切相关,基本上开始优先考虑长期合同而不是短期合同,这完全是合乎逻辑的做法。但如果你是一家初创公司,

现在你要以六个月前租用六个月的合同就能获得的相同价格来访问每小时的 GPU。

如果你现在必须签订三年合同,超大规模公司通常会要求你预先投入比你筹集的资金或甚至计划在未来一年筹集的资金更多的资金才能获得这些费率。因此,举例来说,当时短期 GPU 容量的市场价格是这段时间的三到四倍,我认为从 2020 年底到 2023 年年中。那是一个真正的,我认为是一个顿悟的时刻,

这并不是说存在针对初创公司的某种大规模阴谋论,而只是自然市场力量使得如果你是一家处于基础模型领域的初创公司,并且想要在第一天获得任何数量的 GPU,那么以合理的价格做到这一点非常困难,除非你对这些 GPU 承诺两到三年,有时甚至四年。现在,对于初创公司来说,这是一件非常困难的事情,原因有三。

首先,早期你还没有筹集那么多资金。因此,投入比你筹集的资金更多的资金是非常令人望而生畏的。第二件事是它使得进行产能规划变得非常困难,

因为你甚至不知道你的推理需求会是什么样的,对吧?它迫使你必须对你的产能做出许多次优的决策。在正常情况下,你知道,这将如何运作,你作为一家初创公司开始,你购买一些短期产能,比如说六个月。

然后你需要在六个月内训练你的基础模型。然后你发布模型,你开始获得客户,并且在那时你对客户对推理的需求有了相当好的了解。你知道一周中的哪些日子会激增。你了解你在哪些地区获得最多的推理需求。你了解发布新功能时的排队时间是什么样的。然后你用它来告知你的推理采购。而如果你必须预先进行所有这些产能规划,你基本上是在黑暗中猜测。

这使得你经常过度承诺于一种芯片或一种产能类型,而这种芯片或产能类型实际上可能根本不是你以后需要的。第三件事是它确实给这些公司带来了很大的压力,迫使他们试图以高于他们应该有的估值来融资,因为……

如果你需要筹集更多资金来支付这些 GPU,那么防止自己被稀释的唯一方法就是提高估值。我认为在三年的大部分时间里,我们都处于一种输-输-输的局面,创始人不得不向超大规模公司支付过高的价格。他们不得不进行长期规划,而他们作为一家初创公司应该专注于短期内灵活敏捷。

所有这一切,我认为都在去年夏天达到高潮,当时一些超大规模公司决定比初创公司更优先考虑最大的客户。在一个案例中,我有一家投资组合公司与云端签订了交付一定数量 GPU 的合同。最后一刻,我们被告知,实际上,嘿,我们三个月内无法向你交付。

然后当我们问为什么时,事实证明一个更大的客户已经进来了,并提供了三倍于他们所能提供的价格。你知道,这源于想要解决创始人的客户痛点。当基础设施即服务成为一件事情时,故事是你过去必须过度配置所有这些服务器。你必须预先购买所有这些东西。这花了很多钱。现在你可以按需租用它,并调整它,整个故事就是这样。所以我们又回到了这里。它基本上又回到了原点。这是一个回到过去的时刻,对吧?

我们处理此类问题的方式很棒的是,我们非常习惯为创始人构建此类产品。当我们注意到营销或招聘是这些反复出现的需求时,我们能够在许多公司中整合需求。到目前为止,我们有 550 家投资组合公司,并在他们生命周期的早期就将规模经济传递给每家公司。我认为主要的是,我认为,

目标是试图让一家公司、一位初创公司创始人及其团队能够获得只有后期公司(通常是大型科技公司)才能获得的价格、短期持续时间和计算灵活性,而无需像我们这样的人介入,然后实际上说,你知道什么,你不需要作为一个单独的初创公司购买超过你需要的。

由于我们有 550 家投资组合公司在我们这边,我们可以比你更有效地整合这些需求。我们实际上可以代表你承担一些规模经济谈判。我认为,是的,它实际上听起来像是让 AI 初创公司回到了任何初创公司传统上从一开始就应该从的地方。对。所以我们能够做的是构建一个双赢的局面,我认为实际上对所有三个参与方都有利,即计算合作伙伴,通常是超大规模公司或大型数据中心提供商或云合作伙伴,我们可以与他们合作来获取该容量。然后我们能够对创始人说,嘿,你们可以筹集更少的资金,这里有你们第一天就能获得的保证容量。

这是我们的一位创始人想出了“氧气”这个名字,因为他们基本上说,如果第一天我没有那种计算能力,我就无法呼吸。我们实际上还没有为我们的研究人员做任何事情,对吧?因此,第一天,我们就能对创始人说,你们的计算能力得到了保证,价格是你们在其他任何地方都无法获得的。同时对我们的云计算合作伙伴说,你们可以直接接触到世界上最好的基础模型初创公司和人工智能初创公司。

这样做的妙处在于,对于我们合作的大多数最先进的云合作伙伴来说,他们意识到了其中的价值,那就是,如果你能够尽早与最好的基础模型公司建立关系作为他们的培训提供商,你

你很有可能成为他们的推理计算供应商。对于最好的公司来说,从长远来看,他们的大部分需求都来自推理,这一点非常清楚,对吧?不是训练。这是一种安慰,训练停留是为了计算合作伙伴的推理价值主张。

对于创始人来说,他们得到了什么非常清楚。他们能够筹集更少的资金,承担更少的长期风险,同时仍然能够在第一天就训练出非常好的模型。我们的目标始终是让初创公司比大型科技公司拥有不公平的优势。我认为这也是我们的目标,仅仅通过将计算能力重置为合理的、正常的市场价格,我们就能够让这些团队获得不公平的优势。

不过,更广泛地说,云提供商的问题是,他们可以以规模经济购买。他们以大幅折扣的价格获得所有这些计算能力。但似乎他们在某个时候也遇到了产能问题。这是新冠疫情的事情吗?还是英伟达只能在任何给定时间生产这么多高端 GPU?更大的问题是什么?为什么亚马逊网络服务没有无限量的强大 GPU?

所以那里有三个问题正在发生,这有点像一场完美的风暴。首先,看看,仅仅是没有人为之做过产能规划的净新增需求。而数据中心需要时间来建设,对吧?因此,当时数据中心的平均建设时间,如果所有组件都已准备好,则在较短的一侧约为六个月。如果你没有,你需要新的许可等等,并且需要采购组件,那么建造一个新的数据中心需要长达一年时间。

因此,结果是,大多数数据中心需求的预测都过时了一到一年半。

因此,发生的事情是,我认为 GPT-3 于 2020 年 7 月或 8 月发布。当 ChatGPT 于 2022 年 12 月发布时,所有产能预测突然都错了五到十倍,因为 OpenAI 基本上向世界推出了这个研究预览版 ChatGPT,它是免费的,并且没有预期它会成为如此流行的消费者应用程序。

然后这证明了一个非常关键的缺失部分,那就是存在消费者需求

对于基础模型。我认为大多数数据中心提供商已经开始规划来自训练运行的需求增加,但没有这种爆炸性的杀手级应用程序来推动来自消费者市场的推理需求,对吧?那时事情真的爆炸了。因此,我认为从 2022 年 1 月开始,OpenAI 试图在任何可以获得的地方购买推理能力,然后其他每个基础模型实验室都

哇,我们需要赶上。我们需要构建我们自己可比的前沿语言模型。Meta 也加入了这场游戏。Gemini 已经投资了很多 TPU,但它仍然依赖于 H100 上的大量内部实验。因此,我认为从 2022 年到 2023 年底,在 ChatGPT 之前完成的所有需求预测与供应赶上该需求之间存在 18 个月的延迟。所以这是第一点。

第二件事是网络方面的巨大供应链短缺。对于这些训练运行,你需要联网数千个 GPU。而 H100 芯片依赖于一种特定类型的互连。当时存在严重的短缺。这将事情推迟了大约六个月。因此需求激增。

供应是固定的。目前尚不清楚一些供应链短缺何时能够解决。因此,支付意愿和定价正在疯狂上涨,因为任何时候你都有需求增加而供应没有变化,你都会有激增定价。这就是当时发生的事情。我认为第三件事是,一些现有实验室发生了大量的过度配置。

事后看来,他们现在做得对,他们基本上支付了荒谬的价格来买断云已经承诺的现有合同。因此,你有一些云已经将产能出售了 18 个月,基本上以三到四倍的价格向现有客户二次出售相同的产能。然后基本上对他们的小型客户说,对不起,我们不再为你提供它了。这是一场完美的风暴。但我想问你一下英伟达。我的意思是,你有没有感觉到他们正在提高产能?

从大局来看,我认为他们能够相当快地适应不断增长的需求。因此,对他们来说,问题始终是,鉴于我们很快就会推出下一代芯片,我们希望提高多少 H100 产能,对吧?因此,Jensen 去年或今年年初宣布了……

Blackwell 系列,GB200,B200。同样,我们还没有看到这些的现场生产基准测试,但根据早期测试,B200,Blackwell 系列的马力是 H100 系列的两倍半。因此,如果你是英伟达,并且你正在说,你知道,你有很多客户来找你,说,看,我想将我的 H100 订单增加三倍。

你有一个有趣的困境,对吧?你是否要将你的生产从你计划中的下一代产品线转移到服务这条新的激增的现有产品线?或者你是否坚持计划,并说,对不起,我们无法交付这些新的 H100 订单,因为我们将继续按照我们的 Blackwells 计划进行。我认为他们在平衡这些方面做得相当不错。但结果是,我认为我们看到许多不得不长期承诺的客户

H100,现在对明年 Blackwell 推出时感到非常紧张,并说,好吧,我们已经预先投入了所有这些资金用于上一代芯片,而这些芯片现在不再是最好的了。与此同时,没有进行这些长期承诺的竞争对手,他们

并且可能为短期交易支付了更高的价格,现在可以访问 Blackwell 芯片,并且他们能够将训练速度提高两倍半。从大局来看,我认为英伟达有能力相当令人印象深刻地扩大生产规模。问题始终是,他们希望以牺牲其他产品线为代价来扩大哪一部分产品线?因此,当新产品线推出时,你是否对这些 H100 以及之前的 A100 的使用寿命或二次寿命有什么感觉?就像……

下来?这取决于使用它们的客户,即实际上签订了 GPU 合同的人是否可以使用它们,或者是否可以使用它们来真正优化这些芯片的效率。因此,作为一个例子,如果你碰巧是

一家图像模型公司或视频模型公司,并且你今年签订了 H100 的长期合同,并且你训练并发布了一个非常好的模型和一个很多人想要使用的产品,即使你明年不在最好的和

最新的 H100 集群上进行训练,也没关系,因为你基本上可以将你的训练工作负载换成这些 H100 上的推理工作负载。因为 H100 实际上是功能非常强大的芯片,你可以用它运行非常好的推理工作负载。因此,只要你有客户想要在你的基础设施上运行你的模型的推理,那么你就可以将该容量重新定向给他们,然后为你的训练运行购买新的 Blackwells。对于那些购买了一堆的人来说,情况就变得非常棘手了

没有来自客户的推理需求,因此只能在上一代硬件上进行训练运行。这是一个艰难的处境。是的,我确实想问一下推理,因为我最近读到,包括我认为 Andrew 有一条很长的推文,关于推理的每个令牌成本已经急剧下降,至少如果你看看 OpenAI 在过去一年或什么的定价的话。这如何影响从资本支出角度来看待人工智能的初创公司或任何公司的经济学?是的。你所描述的成本结构对不同类型的公司有不同的影响,你可以将它们大致分为三种不同类型。如果你是一个在或接近前沿训练模型的基础模型实验室,那么令牌成本的下降,从某种意义上说,推理,

以边际方式使你受益,主要是在这个,我认为是在合成数据生成步骤中,对吧?因为合成数据生成和训练后正成为训练基础模型的工作负载中越来越大的部分。

因此,你知道,我们所说的推理时间或测试时间计算缩放直接是推理成本的函数,对吧?因此,更便宜的推理当然有助于进行基础模型训练、进行测试时间缩放、推理时间缩放或生成大量合成数据以在其上训练其模型的实验室。但我认为这种影响的幅度并不是主要的。我目前将其置于 20% 到 25% 的范围内。

真正受益的是应用程序开发人员。因为当你在构建的 API 上的推理成本急剧下降时,

那么你的成本结构就会发生变化。你可以负担得起将这些成本节约传递给你的客户,或者你可以负担得起将你本来必须花在计算上的收益再投资到你的产品价值主张的其他部分。你可以投资更多功能,并雇用更多工程师来构建更好的产品体验。因此,我认为应用程序开发人员可能受益最大。

还有一类人是微调客户的客户。这些人不一定是在为最终消费者市场构建应用程序。他们可能是需要微调大型模型的企业,无论是语言模型、图像模型、视频模型等等。对于他们来说,推理成本的下降也使他们能够更有效地进行微调。

因为通常你在微调步骤或训练后步骤中所做的事情实际上是使用推理生成足够高质量的合成数据来完成你的任务。总的来说,在这个周期的这个阶段,每个人都从推理成本的下降中受益。我认为困难的地方在于,如果你是一个推理提供商,如果你销售推理,

并且你正在进行令牌经济学的竞争,并且你没有任何高于基础推理的真正粘性,那么这可能是一个非常难以运营的业务。我确实认为有很多初创公司现在正在努力解决这个问题,他们既不训练自己的模型,也不构建最终消费者应用程序,但他们在中间层,他们提供推理基础设施。对于他们来说,推理的市场价格下降通常对应着利润下降。

现在硬件方面是否有有意义的进步?无论是英伟达的新一代产品,还是任何其他提供商可能正在做的事情,它们是否会缓解对英伟达的这种积压需求或对英伟达的这种垄断需求?简短的答案是肯定的。我认为有很多非常好的研究正在进行,以使芯片更快、更便宜,并且更适合不同类型的推理工作负载。我认为最令人兴奋的事情仍然只是摩尔定律的冲击,这

因此,当 Blackwells 允许实验室访问每芯片两倍半以上的浮点运算时,这非常令人兴奋。因为这直接将你的模型可以训练的速度至少提高了两倍半。我最期待看到的是,当我们解决围绕堆叠的冷却和能源问题时,

你知道,在一个数据中心中堆叠 20,000、30,000 个 Blackwells。然后你可以在上面运行训练运行。我们得到了什么?另一边出来的能力是什么?坦率地说,目前还没有那么多规模的训练运行成功。

在推理方面,最有趣的是速度。当你有一个为特定架构、特定模型定制设计的芯片时,我们看到一些公司取得了 200 倍推理速度的提升。当你解锁这一点时,你可以构建全新的应用程序。当然,ASIC 的挑战是,它们不是 GPU,因为它们是专用架构,如果模型架构发生变化,

那么你就不能使用该芯片。你必须扔掉那个芯片。因此,我认为很多人现在都在等待看到的是,我们是否会稳定模型架构以适应不同类型的工

因此,无需使用一个 10,000 GB 200 集群来训练 Lama 4 或 GPT-5,现在可以将其拆分成四个不同的 2,000 或 2,500 GB 200 集群。这些集群更容易构建,更容易连接到电网,也更容易处理冷却问题。然后问题就变成了,

从架构上讲,能否以一种不会严重降低模型性能且不会严重减慢训练速度的方式运行分布式训练?

这是一个非常复杂的系统问题,因为这些芯片的可靠性不高。例如,NVIDIA 显卡在数据中心的烧毁率可能高达 30%。由于这些训练运行是高度并行的,因此它们对故障的容忍度不高。因此,当单个芯片出现故障时,它会使整个训练运行失败。如果我们能够找到一种方法来进行容错分布式训练,跨越四个、五个或六个具有有意义芯片规模的集群(但这些不是超大规模的),

我认为这将是一个巨大的突破,因为今天世界上拥有我们所看到的超大型数据中心中那种 GB200 集群(例如 100KH100 等效集群)的地区数量屈指可数。

另一方面,在拥有 2,000 到 10,000 个 H100 等效集群的地区和数据中心分布中,存在一个非常长的尾部。如果您能找到一种方法将这些集群连接起来进行训练运行,我认为我们将拥有更多训练模型的能力,而不仅仅是集中在两三家公司手中。这大概也有助于解决日益增长的能源问题,对吧?例如,

您越能分散这些资源,就越不需要像一座城市那么多的电力。——没错。我要说的是,与能源的共同选址可能在一段时间内不会消失,因为即使您没有将所有芯片都放在一个数据中心中,也不希望不同的集群彼此相距太远,因为电力传输的损耗非常大,对吧?您希望拥有一个几乎类似于超中心区域

的地方,那里有一个相当好、高能量密度的电源,然后在它周围布置多个集群。因为这并不容易……

跨越数英里传输电力,而且对于这些跨大量传输和光纤的训练运行,以容错的方式传输数据也不容易。我认为位置仍然很重要,但芯片不必一定位于单个主干上。那么,当我们谈论训练与推理时,您能否简单地介绍一下成本差异和时间差异?粗略的估算结果是

一个月大约有 730 个小时,如果您正在运行这些模型之一,则按小时向云提供商付费,每个芯片 730 个小时,或者在 12 个月到三年之间,对吧?所以……

假设 2023 年 8 月 H100 芯片的平均价格为每小时 5 美元,这与当时的实际价格和短期合同的标价相差不大。现在您基本上每月每芯片要支付 5 美元乘以 730 小时。

对于运行训练运行所需的芯片数量。如果您需要相当于 2000 个 H100 来训练图像模型三个月,那么您突然需要支付大约 2200 万美元。这大约是在供应短缺高峰期时的成本。

另一方面,推理是在客户想要创建图像(例如,从您的文本到图像模型创建图像)时对该模型进行预测。让我们假设创建该图像大约需要一秒钟。训练是相当可预测的。因此,虽然它很昂贵,但它更可预测一些。不太可预测的是推理,因为它更便宜,因为工作负载要小得多。

但它更不可预测,因为它是一种可变成本。您必须在客户需要时提供服务。推理的难点在于围绕客户需求进行容量规划。

如果您甚至还没有发布您的模型,甚至还没有实现产品市场匹配,那么您基本上是在黑暗中猜测您的推理需求。通常发生的情况是,人们会购买推理,然后让它闲置,而这是在浪费资金。因此,拥有一个可以同时进行训练和推理的单一芯片,然后可以在两种工作负载之间来回切换,这要高效得多。非 NVIDIA 芯片最大的问题之一是它们在训练和推理方面都不太好。

实际上,亚马逊等一些芯片提供商的既定策略是构建不同的芯片组。他们有一个名为 Tranium 的芯片组,另一个名为 Inferentia。在当前一代中,它们看起来几乎相同,只是它们的网络和互连不同。但 TPUv5P 与 TPUv5E 看起来大相径庭。一个设计用于训练,另一个设计用于推理。NVIDIA 最大的价值主张是,因为它们是 GPU,并且可以处理这两种工作负载,

假设您购买了 2,000 个 H100 用于推理,因为您假设有这么多的需求,但事实证明您没有那么多的客户需求。现在您可以将这些芯片转移到您的训练集群,反之亦然。这种灵活性在提高整体利用率和降低成本结构方面非常强大。

整个对话确实清楚地表明,当有人担心模型的成本时,它确实让我觉得,嗯,这太随意了。如果模型大小继续增加,您最终可能会支付数亿美元,这在技术上是训练模型的成本,

训练模型的成本。但正如您所说,那是构建成本。这是获取基础设施的成本。它在某种程度上与模型本身脱节。就像,GPU 的价格是多少?您被迫签署的合同是什么?

在过去一年中,随着我们处理越来越多的 AI 监管,我们已经看到许多政策提案。有些有道理,有些没有,但计算阈值尤其没有道理,而且在不应该的时候却走得最远,因为它们与任何能力都没有直接联系。AI 监管最常见的既定目标是管理风险。但说,“哦,好吧,让我们来规范一下。”如果有人在计算上花费了 1 亿美元,那么模型的危害性就会更大。

与花费 5000 万美元的人相比,这没有任何经验证据,对吧?因为实际上,更重要的是模型被训练来执行哪些能力以及它是如何使用的?在供应短缺高峰期,您可以轻松地花费 1 亿美元来训练一个小型模型,因为市场价格飙升了 5 倍。顺便说一句,还有很多方法可以浪费训练周期进行实验,而这些实验实际上不会产生任何新兴能力。有

根据您的定义,如果您正在微调之前的模型,并且之前的模型开发者以非常低效的方式花费了 9500 万美元,而您花费 700 万美元来微调它,

作为一家初创公司,您现在受制于 1 亿美元的阈值,因为总成本触发了 1 亿美元的阈值。现在您必须遵守许多没有意义或根本没有对安全产生任何作用的法规。这实际上类似于说,做得很糟糕的菜肴会导致食物中毒。

仅仅因为一位厨师花了 10 倍的钱购买新鲜西红柿来制作可能变质并使人中毒的意大利面,我们现在就要规范任何花费超过 10 美元购买西红柿的人。西红柿与最终制作的菜肴的好坏以及是否,你知道,在户外放置了三天或没有放置,以及是否有人在其中添加了毒药有什么关系?试图将这两者联系起来是如此荒谬。一种是成分。

而您关心的是结果。我认为这主要是新闻和关注度的问题。我认为,设置 1 亿美元等阈值的规章制度比对结果和背景进行更精确的规章制度具有更大的模仿潜力。因此,这个氧气计划是一方面。但我知道我们正在大力投资的另一件事是开源模型和开源基础模型。

这些模型变得越可用、越强大,您就可以对它们进行微调,并且可以对它们进行改进,那么公司需要在训练上花费的资金就越少。

——哦,当然。不,我认为高质量开源模型的可用性以及具有宽松许可证的模型对下游开发者来说是巨大的通货紧缩,对吧?因为然后您可以利用 Meta 在 Lama 系列上投入的数百万美元,或者 Mistral 在 Mistral 系列上投入的资金,或者 Blackforce 在其 Flux shell 模型上投入的资金。所有这些计算周期或浮点运算都免费提供给开发者社区。然后他们肯定可以从中获益。

Linux 现在是开源的,这意味着重新创建应用程序的成本比没有专有软件,没有开源生态系统的情况要低得多,那么您需要购买该软件堆栈的一部分的许可证

或者必须自己构建它。因此,开源越多,浮点运算在整个社区中的摊销就越多,而不必由每个在之上构建的开发人员重新花费或重新购买。是的,看起来开源有助于缓解这种情况,因为在 AI 中,硬件与实际执行操作是密不可分的。您拥有的越多,它就越好,至少在训练方面是这样。

因此,如果您不必训练自己的模型,您只需……因此,以下方面有一些需要注意的地方。更多并不总是更好,因为如果您不增加高质量数据标记的数量,您可以不断地在一个永远不会改进的模型上燃烧计算资源。我认为在这一点上,我们已经经历了至少四次不同的

规模定律浪潮,这些浪潮显示了正确的组合方式,您必须将计算与数据结合起来,以及算法效率,对吧?2020 年,随着 GPT-3 的出现,出现了 Kaplan 规模定律浪潮。然后是 Chinchilla 计算最优规模定律,它指出,嘿,对于给定的计算预算,您实际上必须进行扩展。最佳扩展方式与 Kaplan 定律所展示的方式不同

Kaplan 定律所展示的方式,实际上 Kaplan 定律非常低效。它们在计算上的支出过高,几乎达到了 60%。他们没有适当地扩展训练运行中的数据量。

然后我们有了 LAMA 3、4、5B 规模定律,这表明大多数模型都严重欠训练,您实际上应该为它们提供比人们预期更多的数据。因此,如果您没有实际提供比 1 比 1 比例增加更多的标记,就不要向其投入更多浮点运算。标记的增加不是线性的。通过过度训练较小的模型,

在更大的标记语料库上,您可以获得比在较少数据上训练的更大模型更好的性能模型。在我看来,第四波规模定律在推理方面可能最有意义,即围绕 01 展开的规模定律,即测试时间计算规模,它表示,或者让我们说,如果您拥有的任务需要模型进行更多思考,那么您实际上可以在推理步骤中投入更多计算。

它会做得更好,因为有充分的理由相信,如果您让模型思考更长时间,而思考需要使用更多浮点运算。我用“思考”这个词是一个非常非常宽松的比喻。假设您为模型提供更大的预算来处理问题,然后它才能给出最终输出。然后它能够提高其在许多基准测试上的精度。

这很有趣,因为到目前为止,大多数公司和大多数客户都无法说,我不是在谈论现在的基础模型开发者,我不是在谈论训练模型的人,我是在谈论使用模型的人。他们没有办法说,让我们投入更多资金来解决这个问题,以获得更准确的答案。到目前为止,这还不是一种选择。但测试时间规模定律表明,您现在实际上可以在推理步骤中投入更多计算来提高模型的准确性。

这可能会增加对推理芯片的需求。您是否看到了这种需求的预期,即在像 Oxygen 这样的计划中,对于初创公司来说,需求会减少,或者在可预见的未来,因为我们仍在训练基础模型并显然正在运行 AI 推理?这在可预见的未来是否仍然会是现状?简短的答案是肯定的。只要 AI 持续发展并且成为我们世界的重要组成部分,我认为 Oxygen 将成为我们公司非常重要的价值主张。我认为……

变化的是,我认为,世界各地的云和数据中心提供商越来越清楚地认识到 AI 将长期存在。他们做得非常好,而且比这波浪潮开始时预测得更好。没有改变的是,作为一家初创公司,作为一个小公司,第一天您仍然需要帮助才能像大公司一样得到对待。

这就是 A16 将始终帮助您做到的事情,对吧?因为我们有一些非常独特的东西。我们拥有 550 家公司的投资组合。因此,我们可以以小型初创公司无法做到的一种方式来汇总需求。

这使我们能够与大型计算合作伙伴合作,协商更好的价格、更好的条款,在时间和持续时间方面更灵活,而小型初创公司很难独自做到这一点。市场力量的现实是,只要有更大的客户因为批量购买而获得更好的待遇,我们总会有办法帮助我们的公司获得这种不公平的优势,即使它们是一家小型种子阶段的初创公司。

这就是 Oxygen 计划从一开始就被设计成要做的,就是帮助小公司在计算定价、计算条款和持续时间方面获得与大型科技公司相同的待遇。我们为他们提供不同类型的芯片,因此在我们可以为他们提供的硬件方面非常灵活。

最终,我们的目标是让他们成长起来,并成为大型买家之一。然后,在那时,我们将把这些能力重新分配给进入我们计划的下一代创始人及初创公司。♪

虽然细节可能会发生变化,虽然一年后我们可能需要更多地帮助他们进行推理扩展而不是训练,但该计划的大致框架是利用我们投资组合的规模为各个公司提供那种只有在它们成为规模更大、发展阶段更晚的公司时才能获得的访问权限和好处,这可能将是一个常青的项目,只要计算是构建 AI 基础设施业务的重要组成部分。

本期节目到此结束。感谢您的收听。与往常一样,我们希望这次讨论是有益的,并且在这种情况下,有助于阐明您为什么 GPU 访问是人工智能领域的一个重要话题。如果您喜欢它,请广泛分享并为您首选的收听平台上的播客评分。