We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

REPLAY: Scoping the Enterprise LLM Market

2024/11/30

AI + a16z

AI Deep Dive AI Chapters Transcript

People

Matt Bornstein

Naveen Rao

Topics

Naveen Rao 阐述了其在人工智能领域的多年经验，以及对大型语言模型市场趋势的深刻见解。他认为，虽然Nvidia目前在硬件方面占据主导地位，但随着技术的进步和成本的降低，其他硬件平台将涌现，为企业提供更多选择。他强调了定制芯片的重要性，以及在Transformer架构标准化后，硬件厂商将拥有更多优化机会。他还讨论了模型训练和推理之间的关系，以及模型的持续迭代和更新的重要性。他认为，企业应该根据自身需求选择合适的模型大小和训练方法，并利用高质量的特定领域数据来提高模型性能。他同时指出，小型模型在特定领域可以超越GPT-4，因为它们更专注于特定任务，并且利用了企业自身独有的高质量数据。最后，他还展望了大型语言模型的未来发展，认为它们将成为企业数据基础设施的重要组成部分，并最终发展成为能够自主学习和推理的智能代理。 Matt Bornstein 主要关注大型语言模型的企业应用和市场趋势。他分析了Nvidia在硬件市场上的主导地位及其原因，并探讨了企业寻找具有更好TCO（总拥有成本）的替代方案的可能性。他与Naveen Rao 共同探讨了Transformer架构的标准化对硬件厂商的影响，以及未来模型架构可能的变化。他还关注了模型训练和推理的成本以及生命周期，并与Naveen Rao 一致地认为，模型的持续迭代和更新是必要的。他最后探讨了企业内部部署大型语言模型的挑战和机遇，以及如何利用自监督学习和微调技术来提高模型性能。

Deep Dive

Chapters

The discussion revisits the state of enterprise LLM adoption and market demand, highlighting the relevance of the topic despite changes in the AI world.

Enterprise LLM adoption remains valid and insightful.
Naveen Rao's background in AI and custom chips is briefly mentioned.

Shownotes Transcript

我已经在这个领域待了一段时间了。从纯粹的兴趣角度来看。我在业界担任计算机架构师和软件架构师十年，然后又回来，获得AP，C。

而地球科学的原因是，我们能否真正地将智能带入机器，以经济上可行的方式。我对世界的发展感到非常高兴和兴奋。我的意思是，说实话，仅仅是陪衬从不只是一个。

你可以从中获得激情，因为我认为这实际上是你成为陪衬的原因，你会有激情继续下去。我认为你可以将其作为优势。但真正重要的是拥有这种激情，这种力量，是为了创造一些有意义的东西，一些持久的东西，一些真正能够改变人类进化进程的东西。

大家好，感谢收听a16z AI播客。如果您是在美国黑色星期五发布的这一集之后收听的，我深感抱歉。现在，这实际上是我们第一集的重播，该集于四月播出，由我自己、Databricks的AI副总裁Naveen Rao和a16z的合伙人Matt Bornstein共同讨论。

从那时起，AI世界可能发生了很多变化，但关于企业LLM采用现状和LLM整体市场需求的讨论仍然既有效又富有洞察力。您应该了解的所有背景信息是，Naveen在AI领域工作了十多年，从事定制芯片和模型的构建工作。并且我们在三月份的英伟达GTC活动之后录制了这段内容。因此，我们自然地从英伟达的主题开始讨论。

提醒一下，请注意，此处的內容仅供参考，不应被视为法律、商业、税务或投资建议，也不应被用于评估任何投资或证券，并且并非针对任何a16z基金的投资者或潜在投资者。更多详情，请参阅a16z.com/disclosures。

英伟达也一直处于每个趋势的最前沿。所以你可以看到他们做得非常好。我的意思是，他们能够看到任何低精度张量计算的趋势，等等，并且执行得非常好。

所以它对任何想要对抗的人来说都是一个强大的竞争对手。然后，你知道每个人都在谈论某种锁定之类的。我实际上认为这不再是一个理由了。

我认为它只是成为了黄金标准，IT引入商不愿转向任何其他硬件平台。我们一直在寻找新的方法，看看我们能否找到更好的TCO，基本上就像我关注的有效浮点运算次数/美元这个数字一样。这很难，因为他们确实构建了一个好部件。而且你知道，我们可以利用现有的成熟软件堆栈来实现这一点，早期，让IT保持锁定的原因仅仅是成熟度。

但是你看另一个平台。我们的平台交付方式会随着这些平台的演变而演变，我的大脑会立即想到。所以俱乐部平台正在构建一切。有一些学生正在这个领域进行实验，但我很好奇我们正在关注什么。

我们与所有、所有的人谈论。就目前而言，仍然很难摆脱英伟达，因为如果我们试图为某种目的构建模型，这代表了到达目的地的最短路径，如果你有任何其他东西，在这个时候就会引入一些摩擦。我认为到今年年底，这种情况可能会发生变化。

可能会有其他一些参与者能够在没有太多摩擦的情况下达到最终目标。我们正在构建我们的软件堆栈，以便为我们的客户简化这一过程，通过他们已经知道如何使用的堆栈为我们的客户提供最佳TCO。我们有很多专注于在MosaicML数据库堆栈之上构建的客户。是的，我们可以吸引所有这些硬件细节。我们可以让IT做到我们的客户可以有更多选择。

关于这一点，语言模型在很大程度上已经围绕Transformer架构标准化了。现在显然，这似乎为芯片公司创造了一个机会，可以将其产品定制到更同质的工作负载集。你认为这是真的吗？如果是这样，你认为这对行业是好事还是坏事？

我的意思是，如果回顾五六年，你必须支持许多不同的神经网络系列，这是肯定的。我的意思是，循环神经网络、递归神经网络、卷积神经网络和长短期记忆网络，等等。所以实际上，要发布一些硬件部件相当困难，因为你必须为所有这些不同的东西启用支持，并针对这些不同的东西进行优化。

正如他所说，它是一种Transformer或扩散模型。我会说扩散模型仍然是很重要的工作负载。所以这两者都有相当有限的一组基元。

因此，你可以对其进行优化。这是好事吗？我不太确定“好”是什么意思。

我认为它并非万能的。我认为Transformer有一些固有的问题仍然没有完全解决。无论接下来是什么，我们都将从Transformer的经验教训中吸取经验。

那么，这些根本性的局限性仍然是问题吗？它们是否可以在Transformer架构的范围内解决？我不完全确定。我认为这里需要进行一些修改。我的意思是，我们正在做一些事情，比如RAG，我相信你听说过，让人们管理生成。

这基本上是一种方法，你可以将其视为将上下文窗口扩展到使用近似搜索的大量其他文档。我认为它有点像模式网络，并且它在今天增加了价值。这有点像一种技巧，因为它涉及搜索和编辑模型等等。

那么，我们能否真正开始将这更多地作为神经网络范例的一部分，并使其更扎根于提供给我们真相的东西？这是一个难题，即使是语言学方面也是如此。所以我认为Transformer成为一种标准范例对硬件供应商来说是一件好事，因为这给了他们真正参与竞争的机会。

这就是我们今年将看到的情况。这就是为什么我认为今年我们将真正看到一些竞争，这对行业来说是一件好事。我认为这对于现在的架构来说有点过度依赖，但这只是这些事情的运作方式。

我们得到了一些有效的东西。我们继续追逐它。所以我认为无论它是什么，都必须对该范例进行某种修改才能向前发展。

既然你是为数不多的真正同时精通硬件和软件方面的人之一，你能否给我们一些直觉，解释一下当你必须支持CNN等许多不同的架构时，为什么构建定制芯片如此困难？并且展望未来，如果我们确实放弃了Transformer，那么芯片行业需要多长时间才能重新调整？

它的一部分是硬件中的一个基本概念，即限制计算基元的数量，这意味着一遍又一遍地执行一组操作。所以你一次又一次地进行矩阵乘法，然后使用查找表，就像如果你看到同样的事情一遍又一遍地发生，那么现在，就像一个大型硬件部件可以优化它一样。

因此，构建定制硬件一直是关于找到这些主要的基元和模式，然后基本上为其构建非常专门的东西。因此，这与灵活性之间存在固有的权衡。CPU长期以来一直是主要的范例，因为我们非常关心指令的顺序执行。

这就是大多数应用程序（如Microsoft等）所关心的。现在我们进入了一个世界，这个世界非常依赖数据并行，并且具有足够的灵活性来支持下一代算法（如Transformer），同时又对某些基元具有足够好的性能。一直以来都是这种权衡。

当我们开始构建软件硬件，例如VA时，我们非常关注一组特定的基元，例如转换器和卷积网络。但是，我们也有像谐振器这样的东西，它们是卷积网络。我们有不同类型的全连接层，这带来了问题。

我们改变了我们可能进行卷积的方式。我们能否在频域而不是时域中进行卷积，这实际上改变了基元？同样，很多这样的工作都有利于像GPU这样稍微灵活一点的东西。

但是现在我们有了更刻板的东西，比如Transformer，这给了我们机会去构建一些不太灵活但性能更高的东西。你可以把它想象成一个非常极限的情况。想象一下，我只是拿了一个完全训练好的神经网络，比如你最喜欢的现成EEM，然后我把它烧录到硅片上。

我可以找到各种各样的优化，因为零只是变成它们甚至不是门。它们不再占用任何能量了。进行矩阵乘法。当你在优化逻辑优化工具中运行它以构建硬件时，你实际上会丢弃一堆晶体管，因为你有一个零在系统中传播。

所以现在你有了这样的情况，就像，好吧，如果我从某种角度考虑，我只是要拿，当你走到完全缺乏灵活性的另一端时，我只是要烧录一个神经网络，我实际上可以找到大量的优化。但这真的会成为一个有足够市场让我销售它以证明开发成本合理的市场吗？我认为这是这里的权衡。

我的意思是，那是什么样子？你提到了这个市场的规模。市场就在那里。目前的参与者是正确的。也许还有一些其他人正在训练基础模型，正在训练这些大型模型？或者这是企业实际上会投资于非常规定的和不灵活的芯片的东西吗？

说实话，可能两者都有市场。所以训练模型和为不同领域构建特定模型将是一件持续的事情。现在就是这样。

有很多原因。首先，如果您处于受监管的行业，您需要控制权。此外，公司希望实现差异化。

他们希望创建特定于其数据和客户的模型，并且他们可以拥有与竞争对手不同的东西。但与此同时，也有一些主要的用例，例如ChatGPT。GPT-4在过去一年中发生了很多变化。

所以我知道人们喜欢说，“哦，这是一个一年前的模型”。所以这并不是真的，它总是在幕后发生变化。好吧，让我们假设一下。例如，假设它是一个一年前的模型，或者假设那个一年前的模型仍然有用。如果是这样的话。

那么，如果我可以通过这个模型运行足够的推断，或者我有足够的订阅者，大约有1亿订阅者每月20美元，那么这开始证明构建芯片的成本是合理的。假设这个复杂度是多少？我会说3000万美元作为前期成本，每个芯片的每次推断运行成本都会便宜得多。

我认为这实际上是值得的。所以在某些情况下，我们可以开始从不同的角度思考。我们过去认为硬件是昂贵且不可改变的东西，但在今天，人们为其筹集数十亿美元，这并不算小。

我可以旋转芯片。我可以每六个月构建一个新芯片。它花费我3000万美元。没什么大不了的。所以我认为，如果我们从这个角度来看，就像如果我知道我的模型的生存时间，并且我知道有多少人会使用它，或者会生成多少标记，我实际上可以开始制定一个合理的财务模型，以证明为每个模型构建一个新芯片是合理的。

这很疯狂。这种转变发生得如此之快，就像几年前谷歌会做的那样，以及其他公司。现在是一些只有几年历史的公司在做这件事。

我喜欢这一点。我想问一下，如果我们从硬件转向软件方面，这会发生转变。这会影响我的印象、你的偏好、定制训练模型。但我很好奇，或者只是值得权衡的问题，或者什么是任何一种方法的正确用例？

我认为这个问题没有一个答案。我们希望支持客户的现状并增加价值。我的意思是，今天，我们实际上看到我们的大部分业务是为将模型投入生产的人们进行定制训练。

我们预计，推断方面的事情会进一步发展。所以我认为，从某种程度上说，我想关注微调加上预训练。我可能会把这都称为预训练，或者把这都称为训练。

所有这些都是训练，而推断只是一个附属品。就美元而言，它将接近50/50。这是我的猜测，因为当你训练时，很明显你必须将某些东西投入生产。

当你将某些东西投入生产时，你会收集反馈，并且你想要回去进行训练。所以这两件事会相互补充。也许在某个时候你会改变。

许多人说，“不，这将完全是推断。”就像，好吧，由于这个特定原因，实际上不会发生这种情况。当我构建模型时，模型是时间的快照。

它不是不可改变的，并且会长期存在的东西。根据我所看到的，一个模型的生存时间大约为六个月，即使是最好的模型，例如GPT-4，也是如此。

This is a replay of our first episode from April 12, featuring Databricks VP of AI Naveen Rao and a16z partner Matt Bornstein discussing enterprise LLM adoption, hardware platforms, and what it means for AI to be mainstream. If you're unfamiliar with Naveen, he has been in the AI space for more than decade working on everything from custom hardware to LLMs, and has founded two successful startups — Nervana Systems and MosaicML. Check out everything a16z is doing with artificial intelligence here, including articles, projects, and more podcasts.</context> <raw_text>0 大约六个月后，你就会开始看到相当大的模型迭代。我认为，从我的角度来看，这就像，好吧，我要把一个模型投入生产六个月。我会回顾一下，从部署该模型中学到的经验教训，然后改进模型，然后再进行训练。

所以这两件事是齐头并进的。我的意思是，我并不真正关心。我们将顺应趋势发展，但到目前为止，我的观察结果似乎是训练和推理一起扩展。

这似乎意味着应用程序的运行时间为六个月，之后我们需要重新构建它，因为这会影响公司的运作方式，对吧？对于某种基础性事物来说，这似乎是一个更快的周转时间，比许多公司习惯的要快得多。

我认为这是真的。我的意思是，你会在芯片领域看到这种情况，芯片的寿命大约是两年。两年后，芯片虽然还能用，但已经过时了。

但是，你知道，你可以说，在某些部署中，人们会保留一个已经经过合规性检查的特定模型，并且可能会将该模型在生产环境中运行更长时间。例如，汽车中的芯片可以运行十年以上，汽车在路上行驶十年。

这些芯片会经过大量的检查。这些东西的寿命很长。但在任何数据中心，事情变化得更快，因为我们有这些升级周期。

我认为同样地，我们将看到模型，特别是那些处于最前沿的模型，你一直在不断地获得反馈，你会进行更多更新。当我提到六个月的寿命时，我并不是说你把它扔掉然后构建一个完全不同的东西。在那之后，你基本上会继续改进你的应用程序。

我们在Databricks内部构建的东西就是，能够从深入的模型中收集反馈，然后利用这些反馈来改进模型，你实际上可以从这些反馈中创建监督微调数据集，然后微调模型，并将新模型部署到生产环境中。这是一种持续的开发周期。我们一直在软件中看到这一点。

这并不一定意味着你改变了整个应用程序的架构。这意味着你处于持续开发中。你看到反馈，你收到错误报告，你看到性能问题，你将这些反馈，你进行调试，然后你部署更新。我认为在数据领域，我们将在模型中看到这种情况，人们将经常进行版本控制，一次又一次地转向下一个版本。

那么，在谷歌或OpenAI等公司内部进行这种操作与在标准企业内部进行操作之间有什么区别呢？因为我认为我一直在听到的是，今年我们将看到LLM真正进入企业内部。我很好奇这会是什么样子，因为多年来我们一直被告知，这并非人人适用，而是专家才能做的事情。但现在，这似乎正在变得人人适用。

是的，这是我们在MosaicML中所做工作的重要组成部分。现在Databricks正在使每个人都能做到这一点。我们一个著名的用例是一个拥有分布式IDE的公司。

两个人在我们平台上构建了一个最先进的编码模型。他们两个人知道自己在做什么。他们非常优秀。但基本上只有两个人用我们的工具完成了这项工作。五六年以前，你不可能在谷歌内部做到这一点。

像谷歌和OpenAI这样的公司，他们组建庞大的团队来构建基础设施，使基础设施正常运行，处理故障，所有这些。我们基本上采用了这种模式，并为每个人构建了它。因此，我们创建了易于管理基础设施的工具。

我们看到的情况是，许多企业都在训练模型。我检查了最新的数据，但我们已经训练了超过十万个LLM。它不是即将到来，它已经存在。

企业正在构建自己的模型，因为他们现在拥有使这项工作易于操作的工具，而且成本已经下降到不再是数亿美元的程度，他们可以用不到一百万美元做一些真正有意义的事情。我认为这两件事结合在一起，实际上使它变得非常重要。这看起来是什么样子？好吧，我认为许多企业正在努力解决这个问题。

我们许多人都在CIO的领导下工作。你知道，这是一个IT方面的事情，负责基础设施。但随后，有一些业务线数据科学家或机器学习工程师负责处理数据，并使用这些工具，这是一种与人们以前使用数据平台略有不同的模式，所有这些都由CIO负责。

通常情况下。因此，我们在公司内部略有不同，略微偏离了这一点。因此，通常你会看到一个机器学习团队在某个靠近业务部门和IT部门的地方组建起来。这些人会说，我需要这些工具，因为我需要去构建这个东西，定制这个模型。我知道我确切想要做什么。

现在到处都有聪明人，斯坦福大学或其他大学毕业的本科生，他们对很多东西都有很深的了解，每个人都必须进行微调，让它按照自己的意愿工作。他们了解所有这些东西。

现在，至少在概念上是这样。因此，我认为人才已经发展到可以在许多企业中找到的地步。只是你不会看到那么高的密度。

你不会在这些业务部门看到一个由一百人组成的团队。你会看到一个五到十三个人的团队。因此，他们需要易于操作的工具，这就是我们销售的对象。

关键在于帮助我们理解小型模型如何才能在目前超越GPT-4？以及这实际上是如何运作的，为什么……我的意思是。

GPT-4是用大量数据训练的。它对大多数公司来说具有很强的代表性能力。他们希望它在一个特定领域工作。我不需要它无所不知。

我认为你可以把它看作一个类比，如果我有一个什么都擅长的人，那么一个在某一方面非常擅长的人实际上更有价值，因为我们可以有很多在某一方面都擅长的人。因此，创造一个样样通，样样不精的东西价值较低。因此，我们在不同领域一次又一次地看到这种情况。

如果你有一个在特定领域数据上训练的小型模型，那么你就可以轻松超越GPT-4，而这个模型在一般事物上表现良好。让我们明确一点，如果你创造了一个非常擅长银行客户支持的东西，它就不会擅长谈论哲学。它不会擅长数学。

它不擅长解决这些问题。它根本就不是为此而设计的。它是为客户支持而设计的，并且了解产品，但这就是企业所关心的。

你可以把它看作是训练或服务一个非常大的模型以用于特定用例的成本完全是过度的。现在每个人都意识到，我可以构建一个成本是其百分之一，大小也是其百分之一的东西。

但它在我的领域做得很好。那么，我为什么要使用这个让我付出更多成本的东西呢？这种计算正在发生。

你能分享一些例子吗？因为我认为人们对此非常感兴趣，这是一个常见的论断，对吧？这几乎已经成为人们普遍接受的观点，即如果你训练一个小型模型或微调一个小型模型，你就可以在某些方面超越GPT-4。但是，当你真正寻找例子时，你可能会发现它们比你想象的要难找。

我的意思是，GitHub Copilot就是一个很好的例子，这是一个代码补全工具，因为它拥有来自其自身客户的数据集。所以要记住这一点，对吧？它不仅仅是一个在特定领域训练的小型模型。

它也是一个非常高质量的数据集，而OpenAI并没有这些数据。这不是他们的领域。因此，GitHub拥有大量来自其客户尝试使用此类工具的数据，请求代码补全，并且他们拥有所有这些锁定数据。

他们用它来训练模型。所以模型实际上很好。在内部，我们也有一个编码模型，我们将其用于编码辅助。这实际上是同样的故事。

我们使模型的性能比GPT-4高得多，顺便说一句，我们并没有强迫任何内部人员这样做。所以我们有……我们是一家企业公司。我们构建工具，我们不会强迫公司或团队使用我们的模型而不是GPT-4。我们使用OpenAI，我们使用所有这些工具。在Databricks内部为我们的客户构建应用程序的每个人都应该使用最好的东西。

因此，我们认为，如果他们没有切换，这充分证明他们无法从不同的模型中获得更好的性能。但如果他们确实切换了，那么他们就可以。我们实际上在内部看到了许多案例，在代码生成、助手类型的东西上，正在发生切换。我们现在开始使用我们自己的模型进行演示，因为同样，我们了解该领域，我们了解客户的使用情况，我们拥有表征它的数据集。现在我们可以微调模型，使其真正出色。

我们在最近几年看到的最大趋势之一是从监督学习转向自监督学习时代。我们已经投资AI公司八年了，甚至更久。但我认为，至少对我们来说，监督学习时代的一个重要收获是，很难说服客户。

正如你所说，这些大公司要组建一个由二十、五十或一百人组成的团队，当时被称为机器学习专家或机器学习工程师，收集所有这些数据，进行标注，将其输入自定义训练作业，找出模型架构。这非常复杂，非常昂贵，而且很难做好，要在自己公司做机器学习。

现在，在自监督学习时代，有了这些大型预训练模型，这实际上不再是必需的了，对吧？正如你所说，两个人就可以直接拿来现成的模型，做一些令人惊奇的事情，无论如何都能创建一个很棒的演示。然而，你开始提出一个非常有说服力的观点，即微调你自己的模型，甚至从头开始训练你自己的模型，可以做得更好。

这对我来说很有趣，这听起来几乎像是又回到了监督学习。问题是，预训练模型是否只是突破了噪音，说服人们这很重要？现在，某种形式的监督学习或在微调数据上的直接训练是真正的答案，我们只需要一个市场来实现这一点？还是还有其他事情发生，比如我们找到了一个折中方案？

你的说法略有不准确。这不是无监督的，这是自监督的。它是自动回归的，经过大量训练。因此，监督来自单词的内在顺序。一旦你转向自动回归，你就不需要进行标注。标注存在于数据中。

这很酷。为了解释你的意思，你是在说，当我们有这些非常长的文本序列进行训练时，“监督”或“标注”来自这样一个事实，即人类已经通过这种方式，并且这种构建在其中的结构，以及单词的特定序列，某种程度上具有内在的监督。

对吗？没错。因此，单词本身的顺序具有内在的意义。我认为理解这种意义是什么，以及这种意义是如何产生的，是这些模型能够做到的事情，这很酷。但我认为这更符合你所说的折中方案。

我们现在发现，你仍然……我的意思是，这些模型中的每一个都是用监督学习训练的。因此，必须进行监督微调。你不能只是预训练模型然后就发布它。它会偏离轨道，立即出现奇怪的行为。

所以，你知道，我认为早期的一些尝试，如果你还记得的话，我认为微软的什么东西，这些只是在没有太多微调的情况下训练的狂野模型。之后，你会得到一些奇怪的行为。所以你不能那样做。

任何一个模型实际上都会进入预训练阶段，你获得语言的内在结构，然后你开始说，好吧，这些是我想要的输入输出模式，比如有人以这种方式提出了这种问题格式。这些东西本质上是不好的。不要这样做。

所以这就是监督出现的地方，监督数据已经变得相当大。我认为它们远没有预训练那么大，但它们确实变得相当大了。因此，实际上，创建一个真正优秀的模型更多的是关于微调部分。

0 所以现在我们做得很好。我们将渥太华的格雷西尔自监督部分与一种范式混合在一起，它进行不同类型的监督。这种监督甚至可以很小。你可以用一百个例子，但是如果你，如果你以正确的方式训练并以正确的方式构建损失，你实际上可以获得模型行为的深刻变化，这些变化是建立在自监督学习之上的。所以这就是在我看来范式转变的地方。

所以你完全正确，纯粹的监督学习要求你去构建一个非常高质量的数据集，这个数据集是完全监督的，这既困难又昂贵。现在我们必须做一堆其他的工程。所以这并没有真正起飞，只是很难。

但是现在我们可以获得平滑的性能梯度，我可以说，好吧，我有一个相当不错的基础模型，它理解语言，理解概念。然后我可以开始关注我知道的事情，我知道得越多，我就能投入得越多。如果我缺少某些信息，没关系，我仍然可以得到一些有用的东西。我可以把它放到野外，或者放到某种直接的野外环境中，获得反馈，然后改进这个模型。所以这种范式实际上是治愈范式。

现在地球上每个企业的技术领导者可能都在考虑启动这样一个项目，而且这是理所当然的。我的意思是，这可能是我们在十年、二十年甚至更长时间内看到的最重要的技术变革。但是，如果我处于那个位置，除了来和你谈谈，来和Databricks谈谈等等，我该如何真正知道我是否真的有一个问题和一个好的数据集？以及什么样的东西才能真正做到这一点。

嗯，这是一个很好的问题。我认为数据集几乎总是存在的。几乎所有收集数据的公司，某些可以被的东西，要么已经以一种有用的方式被格式化，要么他们只需要对其进行一些简单的整理，并正确地进行格式化，比如你知道的呼叫中心类型的东西。

你有一堆成绩单，这就是你所需要的。你基本上只需要一些你想要的行为示例。就像我说的，我认为预训练加上SFT，IFTA监督，指令微调范式真正酷的地方在于，我可以取少量我拥有的东西的例子，展示价值，展示事情变得更好，然后然后把它包装起来。

所以我们发现大多数企业，正如你所知，也许他们有一些子集，比如有人做了一些好事，他们去了，我会从这个客户体验或其他方面收集数据，这是一种非常干净的方式。他们从过去二十年里获得了大量其他数据，这些数据都很脏、很糟糕，隐藏在一百万个角落和缝隙中。但是他们有一个很好的小型数据集。

所以现在他们可以利用它。他们可以，他们可以发现，哇，好吧，我得到了一些很酷的东西。好吧，现在让我们证明回去进行考古学，挖掘所有旧数据，重新格式化它，并将它放入以获得更好的东西是合理的。所以这就是我们今天看到的趋势，比如证明进行考古学以完善所有其他数据是合理的。

这就像印第安纳·琼斯版本的，你知道，这就像你去寻找特殊的文物，一旦你得到了它，你就可以周游世界，知道它与所有核心……

数据完全正确，是的，就像你拥有的那样，因为大多数这些企业，尤其是数字化原生企业，他们拥有这些黄金数据集，这些数据集基本上是他们业务的蓝图。你拥有购买行为，你拥有我的互动行为，你拥有所有这些东西，但没有人知道如何正确使用它。

我的意思是，这在十多年前就是人工智能的承诺，你可以利用这些数据，并真正利用它做一些有用的事情。直到今天，这可能才成为现实。所以考古学之所以存在，是因为我们已经收集了二十年的数据。所以有些东西以奇怪的格式存储在奇怪的存储位置和奇怪的驱动器中，某个地方有一个磁带驱动器，那里有非常好的数据。

我现在担心那些可怜的、疲惫不堪的工程师，他们从堆栈中拉出旧的、满是灰尘的手稿，然后被压垮。我得到了惊喜，这现在完全正在发生。

你知道，因为这就像，等等，鲍勃，我实际上可以利用这些数据做一些事情，而且它是差异化的。我得到了一些我的竞争对手都没有的东西。

所以你提到了构建一些有用的东西。我认为这在某种程度上是一种准确的描述方式。我认为其他时候人们会认为它是概率性的，比如在达到某个点时这种演变是什么样的，或者也许这只是我们实际思考企业应用方式的转变，他们正在努力解决这样一个事实，是的，这些应用是有用的，但它们绝对不像确定性应用，而且还有……

没有保证是，是的，这是一个挑战，尤其是在受监管的行业。他们喜欢拥有超确定性的模型。我知道输入是什么，我可以非常精确地预测输出，无论是在分布内还是分布外。

当某些东西是生成性的时，所有这些东西都得到了很好的描述，你知道，它会生成新的东西。它会进行新的匹配，而且有点不可预测。我们看到为公司描述这一点的最佳方法是找出什么对您的业务有利，什么对您的业务不利。

所以想出一个评估指标。我们在学术界和行业界都这样做，那里有五十个不同的事件，比如，你，还有帮助swag和各种各样的东西，对吧？所以我们用这些东西来说，这个模型更好。但是当涉及到非常具体或特定领域、内在问题时，我实际上没有办法给它考试。

很多时候，企业有一种说法，好吧，我知道，我知道一个人擅长什么，比如我把某人放在客户面前，对吧？我得到了这个人的检查，他被批准站在客户面前或媒体面前，或者其他什么地方。但是我们没有一个好的考试来判断，比如一旦你通过这个考试，你就一百分合格。

所以我认为现在最大的难题，尤其是在受监管的行业，就是制定这个考试。制定这样的评估标准，以便它能给他们信号。好吧，一旦我让一个模型通过，我就可以比较这个模型和那个模型在我领域的相对优点。所以我们现在做的很多事情就是建议公司这样做，制定你的成功标准，把它写下来，然后我们将开始为你构建一切。

我想说客户服务看起来很容易，因为它一开始就很容易改进，但另一方面，我想设计一个航空公司聊天机器人来以一美元的价格运行它。所以你能做到吗？所以我想问，你之前写过一篇博客文章，关于将大型语言模型视为一种，也许是一种关系数据库，或者某种公司DNA的结构化表示，或者用更好的术语来说。所有这些数据都让我想要详细阐述这个概念，因为它确实看起来像一个关键点，是的，我们看到的是，如果你真的可以根据你拥有的几十年数据进行训练，你就会开始构建某种关于这个业务实际运作方式的知识库。

我们一直在努力寻找人们会抓住并理解的术语，然后我们可以解释新事物是什么，因为新事物本质上是新的，它有一些新的能力，它并不完全像数据库那样是一种隐喻。是的，你可以放入数据，你可以放入知识，但是模型实际上可以创建，基本上可以对这些新数据进行推理。

这发生在训练过程或微调过程中，当你引入这些新数据时，它实际上开始为其周围的推理找到这些数据的有用旋转。例如，如果我开始从PubMed中列出一堆关于遗传学的术语，那么一个不了解遗传学的人会说，什么？我很快就会明白，但是听了许多术语之后，你实际上开始理解，好吧，这是关于基因如何工作的思维模型。这是关于终止密码子、启动子和这样那样的思维模型，你开始理解这些概念。

然后当你听到新的文本时，你实际上可以说，哦，好吧，我可以找到这方面有趣的东西。这段文字刚刚逃过我的注意，因为你已经有了这个领域的思维模型。所以这种定制推理实际上才是重要的。

现在我们可以开始使用这个术语“推理”了，我认为人们认为这个行业正在变得越来越成熟，我说“推理”这个词，人们不喜欢。两年前我说这个词，就像我不知道这是什么意思。我知道要找到这样的术语，好吧，我可以更清晰地找到它，就像它是在你的数据周围形成思维模型的东西。

这是在引入客户数据时发生的定制推理，当你预训练或微调某些东西时，你开始构建某种定制推理引擎。所以我认为我们现在正从数据库隐喻转向这个隐喻，但这实际上描述的是相同的现象。你知道我有一些东西可以获取自定义数据。我可以对其形成某种表示，然后我可以为我的业务做一些有用的事情。我的感觉就是这样。

有道理。说到数据库，我很想知道，比如，比如数据基础设施至少是这样的，平台层需要很长时间才能移动，它会长期保持不变，对吧？就你真正的人们仍在运行他们一直在运行的相同数据库而言。你认为我们应该如何看待基础模型，因为它们甚至比空间移动得快得多，正如你所说，它们进行的推理不仅仅是处理数据。

所以是的，我的意思是，我认为在接下来的几年里，我们将处于这样一个空间，我们不会长期部署一个基础模型。你知道，你在数据库的早期看到了这一点。所以我在读医学院的时候，数据库是一个很大的问题，当Oracle变得庞大时。

所有这些不同的公司在90年代初期都在发展壮大。但在那时，我认为一家公司不会长期承诺使用一个数据库，因为总会有新的技术，速度更快，更好。它有自己的数据模式。

你可以将大型语言模型视为灵活的模式。它根据数据生成模式，而那时，我们就像构建一个对某些用例来说本质上更好的模式，对吧？就像我有一些东西可以服务于实时的东西，它有一个更好的模式来进行回忆。

它更快，而其他东西可能有很多键，例如。这些是人们做出的权衡。所以我认为即使在那时，你也会看到一家公司可能不会长期承诺使用一个数据库。

现在这些模式已经非常成熟。我可以长期承诺使用一个数据库，因为它已经成熟，我知道事情会奏效。它将得到支持，并且它增加了，它已经成为我业务的基石。

基础模型需要一段时间才能达到这一点。但我认为这实际上就是为什么我们开始看到这种领域特异性甚至客户特异性的繁荣，就像一旦我构建了一个非常了解我领域的模型，你知道，我们的愿景是让这种模型实际上开始成为更多的代理。它实际上变成了我可以信任的东西。

让我们假设它只是无处不在地使用我的所有数据，我可以四处寻找有趣的见解。好吧。你知道吗？你可以通过注册这些东西来降低你的供应链成本。我们还没有做到这一点。但是一旦我们拥有能够真正很好地理解我的业务并为我的业务提供这种定制推理，并反复给我带来我信任的新见解的东西，那么我就会开始达到这样一个点，我们会拥有一个成熟的、寿命超过六个月的模型。即使你……

在这个世界里待了很长时间。你从很多不同的角度看待它。我一直觉得你是一个特别有思想的人。你从个人的角度谈论了一些事情，比如创办了一家非常成功的公司，被大公司收购，在那里待了一段时间，然后又创办了另一家初创公司。

我认为我们人工智能领域中很多人一直在等待人工智能真正发挥作用，已经很多年了。我知道我个人就属于这一类。相反，有很多新人第一次使用人工智能进行开发，第一次了解人工智能。

就像你说的，孩子们在大学里学习卷积，这让我有点难过，因为我现在不在大学里。你知道我的意思吗？你想谈谈你个人在这个领域的历程吗？就像当前的浪潮对你意味着什么等等？

我一直出于纯粹的兴趣关注这个领域。我在业界担任计算机架构师和软件架构师十年。

其中一个让我钻研神经科学的原因是：我们能否真正地将智能带入机器，并以经济可行的方式做到这一点？最后一点非常重要，因为如果某些东西在经济上不可行，它就不会流行，就不会被采用，就不会改变世界。所以我喜欢将技术转化为产品，因为当有人为你的东西付费时，这意味着非常重要的事情。

他们看到了能为他们增加价值的东西。他们正在解决他们关心的问题。他们正在改进他们的业务，用某些东西。

他们愿意拿出钱，并将其用于你的产品。这意味着一些事情。我认为一旦你建立了这一点，你就可以一次又一次地做到。

现在你开始看到真正的价值了。现在你明白了，对吧？我一直期待着看到人工智能增加更多价值并真正发挥作用很久了。

我的意思是，我们有过很多疯狂的想法，在大约2000年左右关于如何构建智能机器的想法，很多想法将会回归。我们陷入这些局部最小值，例如反向传播、卷积数学、转换器。它们都是局部最小值，但它们正在朝着某种更大的、对智能可能是什么的更宏观的视野努力。

所以我很高兴也很兴奋地看到机器智能成为主流。我们进行的所有讨论，即使是那些愚蠢的讨论，当我们谈论机器人毁灭世界等等疯狂的事情时，说实话，对我来说，从这样的角度来看，这实际上很有趣：我们已经将这部分内容纳入了我们正常的社会结构。它不再是奇怪的边缘事物了。

多年来，它一直是奇怪的边缘事物的一部分。但现在不是了。它将成为一件大事，并将具有生命力。当我们看到这种采用率时，我们将看到更多的投资。我们将开始解决这些问题，找到解决这些问题的新的方法，我们将重新发明范式。

我认为在十年或二十年后，我们将真正开始拥有能够发挥作用的事物，它们能够形成假设、创建行动、执行行动、观察结果、更新假设生成，然后实际上能够以稳定方式通过非常复杂的行为和环境来做到这一点。这非常有趣。而我长期以来一直在研究这个问题，这就是我看到的。

十年前，我不知道我们该如何实现，但现在我认为我们有一些零部件，我们已经具备了一些可以做到这一点的基元。是的，这可能需要一百兆瓦的能量才能做到，所以它不像你大脑那样只有二十瓦的能量，但这是一种进步，你知道的。所以我真的很兴奋，也很激动，就像我八十岁的时候看到的一样。

回顾过去，我们将真正有所作为，并将彻底改变世界，我认为这非常令人兴奋。这令人沮丧。它并非短期的事情。短期是十年。这不是一件小事，这是一件，你知道的，一百年左右的事情。

过渡时期，做那个奇怪的边缘世界的一部分更有趣吗？你能，你知道的，像，尝试宣称那一天很重要，当没有人相信它的时候，我们会到达那里？或者现在成为一个数十亿美元的退出更有趣吗？你知道的，每个人都希望你在他们的播客上，在报纸的头条上。

我实际上要问一个相关的问题，那就是在你的个人生活中，现在人们对你更感兴趣了吗？因为更容易解释你做什么？

是的，更容易解释我做什么，这是真的。所以这使得我妻子的生活更容易，我会这么说。但我认为这也让我很烦人，因为人们只想谈论这个。

现在每个人都有自己的理论了，这与我谈论的宠物理论有关，就像我的观点一样，而不是，我说，我们能不能谈谈别的事情？重点是，我现在失业了。我就像休假一天，谈谈别的事情，总的来说，我认为我对世界的发展方向感到非常高兴和兴奋。

老实说，做配角从来都不是一件有趣的事。就像你不能从中获得热情，因为我认为无论何时有人在卖你，你都是一个配角。你必须有足够的热情才能继续前进。

我认为不，你可以把它作为优势。但真正重要的是拥有这种热情，这种力量，是为了创造一些有意义的东西，一些持久的东西，一些真正能够改变人类进化进程的东西。这就是我来到这里的原因。我来这里是为了成为构建下一套技术的一部分，这些技术真正使人类能够以更大、更强大的方式影响世界。

太棒了。希望您像我们与他们交谈一样享受聆听Naveen的谈话。我们还有一些更令人兴奋的新剧集即将推出，以及更多来自a16z的档案，请订阅，这样您就不会错过它们。再次感谢您的收听。

REPLAY: Scoping the Enterprise LLM Market 43:12 Share

AI + a16z

Deep Dive

Shownotes Transcript

REPLAY: Scoping the Enterprise LLM Market