We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Ep 50: Fireworks CEO Lin Qiao on Why There Won’t be a Single Model, Will Hyperscalers Win Inference & AI Use-cases with PMF

2024/12/16

Unsupervised Learning

AI Deep Dive AI Chapters Transcript

People

Lin Qiao

Topics

Lin Qiao: 我认为Fireworks从一开始就考虑到了这一点。Fireworks是一个专注于AI推理的生成式AI平台，其首要目标是提供最佳质量、最低延迟和最低成本的推理服务。然而，推理并非简单的单一模型服务，它远比这复杂得多。未来AI推理系统将是一个复杂的系统，它将整合数百个小型专家模型，并具备逻辑推理能力，能够访问各种API和数据库。单一模型由于其概率性本质和有限的知识，难以提供始终如一的准确结果并解决复杂的现实问题。控制模型的幻觉至关重要。此外，许多客户使用我们的平台来解决复杂的业务问题，这需要整合多个模型和多种模态。例如，我们现在进行的对话就涉及音频和视觉信息的处理，以提供良好的交互式体验。许多面向消费者的应用程序也需要处理多种模态的信息，甚至在同一模态内也需要使用多个专家模型，例如大型语言模型中用于分类、摘要、多轮对话和函数调用的不同专家模型。单一模型的知识有限，其知识仅限于其训练数据，而训练数据是有限的，并非无限的。现实世界中大量信息存在于API（公共API或企业内部专有的私有API）的背后，如果没有直接与企业合作，就无法访问这些信息。因此，我们认为下一个挑战是如何超越单一模型服务。我们需要的是复合AI系统，它整合多个模型、多种模态以及各种API和数据库，以提供最佳的AI结果。

Deep Dive

Shownotes Transcript

我认为大家都会喜欢这次谈话。话不多说，下面是Lynn。

Lynn，非常感谢你来到播客。非常感谢。是的，我一直期待这一刻。我觉得现在和你聊天真是个好时机。显然，你们为在人工智能领域工作的开发者和人士构建了一个令人难以置信的平台。而且总是有——人工智能世界从不沉闷，而且我感觉总是在变化。我非常好奇的是，显然，我认为每个人现在都在谈论测试时间计算。

以及01和许多似乎很快就会出现的模型。我想知道，这如何改变你在Fireworks提供的策略或产品，这些类型的模型？

是的，我认为从Fireworks的创立之初，我们就一直牢记这一点。Fireworks是什么？Fireworks是一个专注于推理的生成式人工智能平台。这里最高目标是提供最佳质量、最低延迟和最低成本。所以在推理堆栈中，我很想深入探讨细节，因为推理不仅仅是模型即服务推理。没那么简单。

我刚才提到了测试时间推理、测试时间质量缩放定律。我们设想未来的推理系统是一个复杂的

推理系统，具有逻辑推理能力，可以访问数百个小型专家模型等等。所以我们试图解决的问题的级别不是，“嘿，这只是一个API调用，现在完成了”。它永远不会这么简单。所以听起来你设想了一个用户输入查询的世界，在Fireworks中，你负责路由并找出针对该查询作为响应的最佳性能模型。对。所以我觉得

让我们回顾一下我们试图解决的问题。模型有很多局限性。它的局限性来自模型不是确定性的，它本质上是概率性的。当你想要向你的最终用户提供真实的结果、始终如一的结果时，这是不可取的。

因此，控制幻觉非常重要。第二个是复杂的业务问题，我们有很多客户在使用我们，它必须跨多个模型、跨多种模式来解决这些问题。就像我们现在正在谈论的那样，对吧？所以，很多应用程序都是面向消费者和个人开发者的，我们不是互相沟通、发短信。

我正在处理音频信息和视觉信息，以提供良好的交互式体验，我们现在正在进行的对话类似于许多基于JNI的原生

面向消费者的个人应用程序，它们还需要处理跨多种模式的信息，甚至在同一模式内，让我们以LMS为例，有许多不同的专家LM模型专门进行分类、总结、多轮聊天到调用，它们都是

彼此略有不同。所以如果你想解决一个现实世界的问题，单一模型非常有限。最后但并非最不重要的是，单一模型的知识非常有限。它的知识受到其训练数据的限制。训练数据是有限的，而不是无限的。

所以很多真实信息、现实世界的信息都存在于API的背后。它们是公共API，甚至是企业内部专有的私有API，如果没有直接与企业合作，你无法访问它们。因此，我们设想下一个障碍是如何超越单一模型即服务。所以世界需要

一个叫做复合人工智能系统的概念，即多种模式下的多个模型以及各种不同的API持有知识，包括数据库、存储系统、知识库需要协同工作以提供最佳的人工智能结果。是的。但是当你考虑构建这些更复杂的复合人工智能系统时，你认为开发者需要哪些工具才能有效地构建这些系统？也许我们可以先谈谈

像极端相反的设计点，对吧？所以一种设计叫做命令式，你完全控制工作流程是什么，输入和输出是什么，你想要让它确定性的一切，对吧？这是一种设计级别。另一种设计，所以你基本上设计了房子。-是的。-对，规定了这一点。另一种设计叫做声明式，

你定义了“什么”，即这个系统应该为你解决什么问题，但是你让系统找出“如何”。一般来说，在业界，这并非人工智能所独有。一般来说，我们在系统设计中存在这两种思想流派。例如，在数据库世界中，充满了这种例子。

SQL是颜色层的例子。是的。你的数据工程师或分析师精确地定义了我们想要从数据库中检索什么，而数据库管理系统则找出执行计划，即最佳、最高效的执行计划。

然后ETL过程是声明式的，你可以说定义，哦，这是源，什么是处理逻辑，你如何触发下一步以及如何进行回填，非常命令式。这些方法都没有错。它们不同，只是不同的方法。Fireworks基于我们的

PyTorch经验，我们想要交付最终的设计原则。我们希望提供最简单的用户体验，并尽可能隐藏后端的所有细枝末节的复杂性，而不会影响迭代速度。这是一个非常微妙的平衡。所以我们更倾向于更声明式的系统。

具有完全的可调试性和可维护性。也许我们可以举一些例子，说明你在哪里犹豫不决，比如，“我们可以这样去做，这将更具声明性，或者另一种方式。”你必须或考虑做出哪些权衡？是的。例如，当我们开始时，我们从最低级别的抽象开始，即单一模型即服务。是的。

今天我们提供了数百个模型，包括大型语言模型、音频模型、转录、翻译、语音合成和对齐，以及视觉模型，其来源可以是PDF图像、屏幕截图等等，以及嵌入模型、图像生成模型，我们正在添加视频模型。这些都是构建块的最低级别。

开发者可以在此基础上随意组合他们想要的东西，但是有很多东西需要组合。有很多东西需要组合，质量控制也很困难，因为每周都会发布多个模型。他们不断地问我们，

我们想尝试这个模型，你的建议是什么？我们甚至应该尝试吗？那么我们的生产稳定性如何呢？所有这些都成为他们的问题。但我们从那里开始，所以我们知道我们如何理解行业的发展方向。但随后我们很快意识到，可用性方面存在巨大差距。

尤其是在企业方面，那里存在巨大的差距，我们希望填补这个差距。当你与人们交谈时，为什么没有更多的人工智能应用程序出现？我认为实际上有很多障碍。一个是没有一个模型适合所有情况。这是我们的观察结果。这是一种训练过程的本质。

训练过程是一个非常有主见的过程，你必须选择你在世界上数千个问题中，最关心的问题子集，并将最大数量的资源和资金投入到获取数据，并确保你所在领域的数据质量和数据多样性是最好的。你不在乎的问题子集，我们处于中间位置，对吧？

因此，模型的最终结果将非常非常擅长做某些事情，然后非常不擅长做某些事情。这就是模型训练的本质。我们相信未来会有数百个小型专家模型。因为当你将问题缩小到一个狭窄的空间时，小型模型在提高质量方面不可避免地更容易成功。

事实上，在开源世界中，这对开源社区来说非常好，因为使用基于开源的模型，它为你提供了大量控制来定制你的模型。有很多模型提供商，他们专注于训练后或微调，并提供专门的模型

回馈给开源社区，这在解决某些问题方面非常非常出色。所以我们相信未来会有数百个小型模型。我认为这就是我们看到企业界正在走向的方向。他们想要更多控制权。

他们想要可控性。在这个数百个小型专家模型的世界中，我可以想象一个世界，在这个世界中，有很多人正在采用开源模型并以某种方式对其进行调整。因此，Fireworks拥有一个大型的模型库。我是一家企业，我有一个问题。你会说，“嘿，这里有十几个非常棒的模型，我们将一起协调它们。”我也可以想象，在某些情况下，你会告诉一家企业，“你应该为此用例进行微调”。或者你实际上，也许在某些情况下，甚至可以预训练一个模型。

你如何看待长期发展？你认为五年后，企业会微调很多模型还是预训练，或者这将如何发展？我们深信定制化，正如我提到的那样。但是这个过程有点，我不会说它很简单。它不像，“一分钟就完成了”，对吧？所以它比这更长。所以我们看到微调和问题工程之间存在一种微妙的平衡。

那里存在强烈的权衡，这就是我们正在努力的方向，因为我们相信定制化，我们正在努力使定制化变得极其容易。

所以平衡正在下降，对吧？所以它更直接。你可以立即看到结果。使用问题工程更具响应性、更具交互性。这就是它的本质。我们看到很多企业或开发者从问题工程开始。所以，“这个模型是否可以转向我想要的方向？”我可以快速测试一下。但是然后我们看到成千上万行的系统问题。在某些时候，如果你想继续控制它，你必须停下来。

因为你不知道在哪里更改，而且所有内容都会丢失。所以解决非常复杂的系统问题管理本身就是一个问题。所以实际上，最终如何使定制化变得容易的关键。

是解决这个问题。我们将推出一个产品来解决这个问题。很有趣。是的。所以，然后我们看到，然后在那个阶段，

把那个放在一边，在那个阶段，你有成千上万行的系统提示，然后你做什么？通常那是时候了，这是你进行微调的黄金时间，将系统提示吸收进模型本身。因为到那时，你应该已经证明该模型能够解决你的问题。你能够让模型遵循你的指令。你的指令几乎就是你提供给模型的数据。

然后，你知道，进行微调会很好。这已经意味着你可能正在从产品市场匹配前发展到产品市场匹配后、产品扩展。一旦你将长文本系统提示吸收进模型，模型也可以运行得更快、更便宜，而且质量更高。所以我们看到了这种转变。这是一个非常有机的转变。但是，即使在你吸收进微调之前，管理这些漫长的过程和承诺也是一件非常具有挑战性的事情。-你认为预训练对企业有意义吗？-预训练有点像整个行业都在说，“预训练正在整合”，对吧？所以进入超大规模企业，这几乎是现实。我们确实觉得

我们确实看到一些企业进行预训练模型，因为它们与他们的业务核心相关，或者出于其他原因。

但是，是的，但是差异化，我们看到很多企业甚至初创企业都在问自己的问题是，是什么样的差异化？因为预训练非常昂贵，而且研发部门必须通过大量资金和人力资源来做到这一点。如果你可以在非常强大的基础模型之上进行训练后，那么研发部门就会强大得多，而且你对测试不同想法的敏捷性也会更高。你已经说过一个有趣的观点，因为你看到很多人

在Fireworks之上构建，你认为哪些生成式人工智能用例今天具有产品市场匹配？我会说，我会将这些用例分类到不同的类别中。总而言之，我认为我们看到的大多数成功获得采用的用例都是某种人机协同自动化。还不是无人参与的自动化。我的假设是

生成式人工智能系统必须是人类可调试的、可理解的、可维护的、可操作的。如果人类无法评估它、无法维护它或对其施加影响并在生产中操作它，那么它将非常非常难以获得采用。因此，由于这种性质，我们看到了很多充满活力

各种各样的人类助手产品。

在不同的类别中。我们已经看到人们为医生构建助手，以使他们的记录更容易。所有助手都面向教师和学生，以及想要学习外语的人，教育方面。我们已经看到助手在编码方面。当然，这是一个竞争非常激烈的领域，但是我们已经与Cursor、Sourcegraph和许多其他优秀的公司密切合作。

我们已经看到助手，比如医疗助手，显然，北美缺少超过一百万名护士。而且有很多患者需要关注。所以这是一个针对消费者、专业消费者和开发者领域的整体解决方案。所以这是一个。另一个是更面向B2B的。

例如，有呼叫中心自动化。但是更像是呼叫中心自动化是一个很好的例子。它具有，你可以构建一个人工智能系统来帮助人工座席提高生产力，更好地回答问题或取代人工。我们已经看到很多成功的案例

构建这个助手来帮助人工座席，对吧？这是另一个例子。很多优化业务逻辑、业务工作流程、效率等等的过程。那么模型方面呢？你注意到哪些模型实际上被公司使用了吗？我们看到很多LAMA模型的变体趋同。

我认为这是对模型质量的证明。这是一个非常强大的基础模型，非常擅长遵循指令，并且非常适合微调。当然，Meta的支持非常重要，并且看到了很多企业采用它。显然，我相信你的企业客户非常关注的是，

比如评估。我相信你显然也对此进行了大量的思考。评估的现状是什么？你如何看待为可能具有非常不同的用例，因此具有非常不同的成功评估方法的企业提供正确的构建块？

许多企业在评估阶段是基于感觉的，这并不奇怪，对吧？所以，是的，所以他们是这样做的，但他们很快意识到，对于早期阶段的产品开发来说，这是一种基于感觉的方法，我只是想了解一下这个产品

使用不同的模型等等的感觉，对吧？他们很快就会发展到有意识地构建评估的阶段，他们知道这是一个投资领域，但是为了保持技术领先地位，

他们必须能够进行评估，而且他们还必须能够在深入进行问题工程或微调后进行评估，例如如何评估质量非常重要。他们不能总是进行A/B测试，A/B测试是确定产品影响的最终过程，但周期较长，所以

有趣的是，我们与一些人交谈过，我认为，你们Sourcegraph的客户说他们甚至不费心进行评估。他们只是发布它，进行A/B测试，他们会很快从他们的开发者那里知道哪个模型更好。是的。但是评估非常重要，因为

从我们客户的角度来看，他们意识到投资于生成良好的评估数据集并不断向其中添加更多内容可以让他们非常清晰地了解。

什么重要，什么不重要。因为在这个赶上不断变化的那些小型专家模型的过程中，模型不仅仅是每周都有一个更好的模型，比如竞价排行榜。模型也越来越专业化。而且他们也会，我们的许多客户，他们从他们的产品是开放式开始。

他们对应该期望用户提出什么样的问题没有明确的意见，他们开始对产品设计中开放式产品有越来越清晰的意见，然后从这些产品特性中，他们希望拥有专门的模型来解决这个问题，所以这是一个自然的产品开发演变，我想，你知道

也许只是谈谈你们构建的一些东西。显然，你们正在采用开源世界中存在的优秀模型，然后你们也构建了自己的模型，对吧？你们构建了F1。也许谈谈为什么你们决定这样做。所以我们在API下发布了F1，这是一个模型API。基本上，你使用F1的方式就像你使用新模型一样。但是F1实际上是一个复杂的逻辑推理推理系统。

所以，我们还没有过多地讨论F1的底层是什么，但这是一个对底层的简要介绍。所以在底层实际上有多个模型，而且我们还在系统中实现了逻辑推理步骤。所以实际上构建一个系统非常复杂。它不是

它不像仅仅是常规的单一模型即服务推理。而且，我们还必须解决很多与质量相关的问题，因为现在你让模型与自身对话，让模型互相对话，以及它们为了提高质量而沟通的信息，它们对这些信息很敏感，对吧？以及如何在这样一个复杂的系统中进行质量控制

我认为其复杂性实际上高于构建数据库管理系统。然后当然，因为涉及多个步骤，所以你的整体推理延迟和成本变得更有趣。这就是我们的核心业务，因为我们是一个团队，非常擅长优化这一点。

然后我们认为，当我们创办公司时，我们构建了更低级别的单一模型即服务。这是通向这个复杂的逻辑推理堆栈的构建块。-很有趣。然后显然，我认为很大一部分也是函数调用，对吧？比如，我认为获取更好的函数调用的障碍是什么？感觉我们在很多方面仍然处于起步阶段。-函数调用，就像许多人认识到的那样，我们看到很多，在我们发布F1之后，我们有

我们有一个等待名单，让人们加入，我们与他们中的许多人交谈过。显然，他们的用例，大多数用例实际上是构建代理，他们需要函数调用。那么什么是函数调用呢？函数调用基本上是这个模型的扩展点，可以调用其他工具来提高答案的质量。但是函数调用不仅仅是调用一个工具。

如果你仔细想想，它实际上非常复杂。通常人们在多轮聊天上下文中使用这些函数调用模型，对吧？是的。该模型应该能够，它需要能够保持长时间的上下文，即会议的内容，然后使用该上下文来影响哪个是最佳的工具调用。而且他们通常还需要调用多个工具，最多可以达到，

可能高达数百个工具，工具选择。而且他们还需要，不仅仅是一次调用一个工具。他们通常还需要并行和顺序地调用多个工具。所以这是一个一次性的复杂协调计划。所以我们的函数调用能够进行并行、顺序、复杂的规划，然后协调和执行该计划。

当然，位置很重要，比如如果我要求模型绘制前三家云提供商的股票价格的1月份图表，它会在下面快速返回答案，并向你显示图表，但在下面会搜索以找出前三名，会有三个并行的函数调用来获取股票价格，然后调用图表来获取图表。

这是一个非常简单的例子，但它展示了协调的复杂性，模型需要具有非常强大的理解能力，如果你插入你的工具，何时调用这个工具以及如何驱动该位置非常重要。所以这使得调整过程非常复杂，但是我们现在已经在这个领域投资了

大约一年。所以，是的，所以就像我们开始发布第一个函数持有模型时，我认为我们领先于采用曲线。用例还没有

你如何看待，你知道，为什么决定构建它，而不是我相信如果你等待一段时间，就会有，你知道，一个具有某些功能的优秀开源模型。你如何确定何时在模型方面内部构建东西？是的，我们没有在开源社区之上构建，对吧？这绝对是事实。我们正在押注这一点，因为我们相信数百个小型专家模型将来自开源社区。

这与我们的愿景直接一致。但与此同时，我们也在大力投资复合人工智能系统，它完全是关于如何以非常简单的方式组合这些数百个小型专家模型来解决复杂的业务任务。这种组合的关键部分在于这一层

协调，所以模型足够智能，能够调用不同的工具。在这里，你可以考虑关于工具的一般思维方式，每个单独的小型专家模型也是一个工具。

除了这个特定的大型语言模型之外。然后它成为将所有内容联系在一起的关键成分。我们将战略性地投资于我们不能仅仅等待看看会发生什么的关键领域。推理模型最终将如何融入其中？我的意思是，显然，至少我们今天看到的那些模型是，你知道，我认为它们很笨重，而且通常擅长推理所有事情。我们最终会得到像小型专家一样的东西吗？你知道，像测试者

测试时间计算密集型模型？或者，就像你考虑这些复合系统一样，我只是好奇，像O1这样的模型将如何融入其中？

我认为即使对于推理，也有不同的方法来解决推理问题。而且会有不同的模型专门针对不同的方法。一种方法是拥有一个非常强大的基础模型本身来进行自我检查。并且已经讨论了很多技术，包括思维链、思维树和

回溯以及所有这些不同的技术。所以这是其中一种。还将有一套新的模型。它们可以在非提示空间中进行逻辑推理，

这是我非常兴奋的事情，而是在潜在空间中。因为你可以想象，当我们思考时，我们不必用言语表达，我们的思维过程。我们可以，但我们不必。我很确定，当我们在脑海中处理问题时，我们可能正在思考不同的空间。类似于模型也是如此。有很多积极的研究正在进行，以了解如何使

思维过程更高效，更适合该过程。我对这种研究感到非常兴奋。还会有其他类型的逻辑推理。所以我们不是，我们不想对哪一个会获胜过于武断。相反，我们将把所有这些不同的类型整合到我们的逻辑推理过程中。

我喜欢这个。我想除了你在Fireworks的工作之外，你认为今天人工智能基础设施中还有哪些其他尚未解决的重大问题？我认为我们已经看到很多转向构建代理工作流程的转变。再说一次，我认为我们仍然处于早期阶段，正在弄清楚什么是正确的用户体验。

什么是抽象，整个行业，对吧？什么是正确的抽象？我们应该隐藏在系统后面，应该向开发者公开什么。我们仍然处于非常早期的阶段，而且我认为它现在非常具有实验性。但是抽象所在的位置将决定隐藏在抽象后面的基础设施的复杂性。但是我们，我认为我们现在开始形成关于这方面的观点。在一两个月内，我们将发布F1。所以，好吧，我们的思维过程是构建F1，一个是，F1是我们自己为了理解系统抽象和复杂性而进行的练习。

构建逻辑推理引擎。从那里开始，当我们发布时，我们希望公开面向开发者的插件，以及开发者如何构建他们自己的F1。所以，是的，我对这个方向感到非常兴奋。这太酷了，因为显然你通过自己构建来学习必要的工具和抽象，然后你基本上允许开发者重新创建它。我喜欢这个作为

一种方法。我想你知道很多，感觉上在硬件方面，我的意思是显然每个人都在使用英伟达，但是有很多竞争对手一直在涌现。而且我很好奇你对这个领域以及这些努力的可行性有什么看法。我知道你们支持在平台上进行推理的AMD芯片。比如，你知道，这对开发者什么时候有意义，你如何看待这种发展？总的来说，我们看到

开发者空间中存在一种稀缺性，即他们了解硬件、低级硬件优化。而且我们也看到了

硬件开发节奏的巨大变化，之前是每三年出现一次新的硬件技能。不是每年都有一个新的硬件技能，而是针对每个硬件供应商，然后整个硬件领域发展非常迅速。以及如何获得最好的硬件，而最好的意思是指，再次强调，没有一个尺寸适合所有情况，这实际上取决于你的工作负载模式。即使对于访问同一个模型，也没有一个模型的最佳硬件。

因为你的工作负载分配将决定你的最大瓶颈在哪里。不同的硬件倾斜将最适合解决，消除某些瓶颈。所以即使在Fireworks层，我们也承担了

整合和确定哪种硬件最适合哪种工作负载的负担。即使对于一项工作负载，当您具有混合访问模式时，我们也可以路由到不同的硬件。所以，是的，我们真的想减轻开发人员的担忧和负担。他们应该专注于构建产品，我们将承担管理和优化硬件的复杂性。是的。

看起来你显然非常关注这些复合系统。显然，总有一些人只想调用 Lava 模型并运行它。在这个世界里，感觉有一段时间推理方面竞争非常激烈。一个新的开源模型会发布，每个人都会提供他们的价格，而且价格会越来越低。在那场游戏中，你认为最终超大规模企业最适合赢得开源模型的直接推理吗？这是如何发展的？

这是一个非常复杂的问题。我认为所有超大规模企业，他们都想成为苹果。所以他们想打造一款iPhone。他们想构建一个垂直整合的堆栈，因为

因为他们可以。但同样，我们前进的方向是，我们认为未来在于数百个小型专家模型，我们希望利用这种能量来构建一个利用最佳模型来解决复杂问题的复合人工智能系统。

所以在我看来，我觉得超大规模企业最大的好处是什么？最大的好处是解决问题需要大量的资金和人力资源。这些例子包括建设数据中心、获取电力以及存储大量机器、部署它们、点亮它们以及启动大规模存储和计算。

云提供商解决了这些问题，对吧？所以这种大规模的巨大问题。我们专注于解决需要大量工程合作和深入研究的问题。然后我们可以大规模部署。所以我认为推理就是这样。我在 MITRE 工作，这不像 MITRE 有一个由一千人组成的推理团队，对吧？因为一旦你有了

一个可以水平扩展并具有高生产质量的系统，那么剩下的就是让它扩展。这就是设计高度可扩展系统的妙处。从这个意义上说，我认为这完全符合我们的优势和专业知识。而且，同样，基础设施系统并不简单。

它实际上将发展成为这种复合逻辑推理推理系统。

构建它有很多复杂性。这种复杂性不是通过投入人力和资金来解决的。所以，是的。是的。我想对于这些较小的专家模型，我想知道的一件事是，随着这些模型越来越小，我觉得有一个很大的趋势是将它们本地运行。我很想知道你如何看待这种情况在未来几年中的发展，以及这是否也会成为 Fireworks 平台的一部分。是的。

我看到很多关于本地运行模型的论点，原因有两个。我们还应该讨论本地到底是什么意思，对吧？一个原因是节省成本，因为是的，你需要支付云端的 GPU，而运行在桌面上则不需要付费。是的，所以另一个是隐私，对吧？所以我对此有不同的看法。我认为

将计算从云端卸载到桌面上是有意义的。我认为许多应用程序，例如 Zoom，例如，为他们节省了很多成本，对吧？但是将计算从云端卸载到移动设备则另当别论。因为手机的功能越来越强大，但它的电力非常有限，对吧？所以，一个问题是

应用程序，许多应用程序指标都受到严格监控，包括成本、时间、功耗。所有这些都会影响应用程序评级和用户采用率以及体验。因此，由于这个原因，可以实际部署到移动设备的模型非常小。

1B、10B 以及非常非常小。这些模型的能力有限。所以我认为移动设备和云端之间的差异非常大。我认为对于许多面向消费者的个人应用程序来说，卸载到桌面是有意义的。但也有一些说法是，嘿，你知道，它更私密。

隐私很有趣，对吧？因为我们有很多个人数据已经存储在云端。我们的大部分个人数据不再存储在本地桌面上。那么，嘿，这对于隐私来说甚至有意义吗？是的，我认为这是一个单独的问题。是的，非常有趣。我想在开源方面，你以前在 Meta 工作过。感觉上，显然，他们通过训练越来越大的模型为生态系统提供了巨大的服务。

你认为他们在继续扩大对开源模型的支出方面能走多远，比如，在某些时候——我的意思是，我认为每个人都在问所有参与者这个问题，而不仅仅是开源参与者。但是你如何看待继续推动预训练支出的程度？我认为这也是一个很好的问题，Zach。

不，我在开玩笑。我们与 Meta 团队密切合作。当然，我们来自 Meta。我们实际上共同设计了，不仅仅是开源 Lama 模型，他们还在构建一个名为 Lama Stack 的标准。

LamaStack 的目的是标准化围绕 Lama 模型的工具堆栈。我们与他们共同设计，因为我们有很多

来自客户的信息可以帮助他们做出设计选择。我认为这是 Mana 的一种雄心，即构建这个 Android 世界，在这个世界中，一切都很好地标准化了，你可以插入不同的组件，并使其非常易于采用。从我的角度来看，

minus-SAML4 即将推出，对吧？所以将会有持续的投资

来自 Meta 的训练，我还没有看到它停止……当然，如果这是一个普遍的问题，模型提供商何时会停止或减少对预训练的投资，那就是当没有太多剩余价值时，所以为什么没有太多剩余价值是因为我们遇到了数据瓶颈，每个人都使用相同互联网数据，我们只是已经用尽了合成生成数据

我们已经用尽了多媒体和文本数据的组合，那么就没有多少回报了。在我们遇到这个瓶颈之前，我认为将会有持续的投资。你认为我们什么时候会遇到这个瓶颈？我认为，从开源发布的角度来看，它肯定越来越长，对吧？所以……

我确实看到很多投资开始从预训练转向后训练，从后训练转向推理。所以我认为我们已经遇到了一个软性瓶颈，而不是硬性瓶颈。

所以是的，所以我认为作为一个行业，投资回报率正在从预训练转向后训练再到推理。——当你考虑使代理成功的所需的所有工具集时。我的意思是，有一个世界，作为 Fireworks，你可以成为一站式商店并构建所有这些工具。还有一些你可以合作的地方，你会说，看，我们不会构建，你知道，这件事的一部分。你如何看待这种权衡？——是的，我们总是与

与必要的代理工具兼容，对吧？我认为最值得注意的是 Lanchain。我们一直是他们非常强大的合作伙伴，因为我们不会像

LanChain 在他们正在构建的东西上做得很好。庞大的社区追随者和采用率，真的很棒。我们只想通过组合在任何有意义的地方组合多个模型来更好地解决问题，从而简化单一模型即服务的下一层。我们没有改变我们的立场，我们正在连接到 LanChain。

例如，作为一个例子，当然，社区中还有许多其他例子。是的，非常有意义。当你考虑今天的竞争格局时，我想象当人们想到 Fireworks 时，他们也可能会将你与 Together AI 归为一类。我知道 Databricks 也谈论了很多关于这些复合人工智能系统的事情。你如何看待当今 Fireworks 的与众不同之处，以及五年后，最终将决定谁能够占据这个真正有趣的领域？

是的，我们可能正在考虑……所以复合人工智能实际上是我们没有创造这个词，对吧？所以它是伯克利创造的。我们知道 Databricks 也在关注这个领域。所以我认为这很好。这是一个我们正在定义的新类别，对吧？所以肯定会有多个参与者在这个相同的领域。我们非常高兴 Databricks 也在考虑这个问题。

所以我认为这个领域非常有意义，因为它对于应用程序开发人员、产品开发人员和工程师来说是一个非常复杂的领域。在这个领域中，将出现一套丰富的工具，使开发效率更高。而今天我们还没有达到那个水平。所以我们决心成为这个领域的关键参与者。

除此之外，我们并不属于 GPU 云领域，例如，提供对廉价 GPU 的访问。这根本不是我们的目标。所以我们实际上是在 GPU 云之上构建了一个复杂的推理堆栈。我想关于这家公司有趣的一点是，我想你在 Fireworks 开始工作的时间是在 ChatGPT 之前几个月？

所以我很想知道，当你考虑公司的最初愿景以及你今天在这个生成式 AI 热潮中所取得的成就时，在 22 年 9 月，有多少是相同的？随着世界在过去几年中发生了如此巨大的变化，你必须改变多少？是的，这是一个非常有趣的问题。当我开始 Fireworks 时，实际上存在一场激烈的辩论，人工智能是否已经到来？

因为这是在基础模型的意识之前，而且有点像，哦，有这么多支离破碎的人工智能应用程序，而且数据也不存在，你知道，人工智能也不存在。但我们清楚地看到人工智能即将到来，对吧？所以通常超大规模企业就像

领先整个行业三到五年，而 Meta 是大型人工智能驱动的……通过……显然，该行业通过 PyTorch 的采用，很明显他们看到，你知道，浪潮即将来临……这就是关于 Fireworks 的时间……而生成式人工智能确实严重扭曲了人工智能的采用曲线，并且存在一种特殊类型的人工智能，所以这非常有趣

生成式人工智能是一种不同的野兽，不是因为它神奇，而是因为它从根本上改变了可访问性。在生成式人工智能之前，当它是传统的机器学习或早期的深度学习模型时，任何投资人工智能的公司都必须首先

聘请机器学习团队，因为他们必须从头开始训练模型。没有其他选择。没有其他预训练的模型可以构建在其之上。

这意味着这个团队必须花费大量时间来整理数据，然后进行训练过程，因为从头开始训练需要很长时间。所以他们必须有资源来雇佣这些非常稀缺的人才，并将资金投入到培训中。——最初的 Fireworks 产品是为这些人构建的吗？因为最初感觉这将是获得采用的必要条件。——是的，是的。当我们开始时，我们考虑的是这个群体。

然后有了生成式人工智能，它使得

它变得更加容易，这是一种变化的景象，对吧？你不需要雇佣一个大型团队来处理数据。因为 JNI 的优点在于它创建了一个吸收大部分知识的基础模型，然后你就可以直接在其之上构建，或者你可以进行微调，对吧？你有数千个样本，你可以进行微调。因此，你或者不需要任何机器学习团队，你只需要有一个应用程序团队来直接在其之上构建，或者你有一个小型机器学习团队。

对。所以这是一个巨大的、巨大的障碍消除，是这项技术的可访问性。这就是为什么我们看到采用曲线像疯了一样飙升，因为这种可访问性在之前和之后是根本不同的。

因此，由于这个原因，他们专注于此，因为在这个方向上的池子要强大得多。另一个副作用是所有这些模型，所有生成式人工智能模型都是 PyTorch 模型。是的。我们多年来一直在编写 PyTorch 代码，并且我们使用高流量运行 PyTorch

大型复杂包模型。这就是我们真正擅长做的事情。是的，非常适合这种情况。你提到当你在 Meta 这样的地方工作时，你会在它变得明显之前看到未来的窗口。你在 Meta 工作时有没有看到什么让你觉得，“天哪，这很快就会变得如此之大？”我认为更多的是人工智能将成为一股非常大的浪潮。这是很清楚的。

我在 Mada 工作了七年，对吧？这是一个有趣的时期。当他们加入 Mada 时，他们正在经历移动优先的转变和尾声。然后整个行业也在经历移动优先，对吧？有时是桌面到移动。移动优先使消费者能够随时随地访问应用程序。这推动了采用率和参与度的提高。因此，它产生了大量数据。

而大量数据是由人工智能驱动的。对吧？所以，然后整个行业也遵循移动优先，驱动大量数据，并且它们是由人工智能驱动的。所以这种趋势非常明显。你关注哪些人工智能研究？也许甚至超出了 Fireworks 的日常工作？我通常关注两种研究。一种是模型系统协同设计类型的研究。因为存在

有趣的组织划分，即研究人员专注于质量。像我们这样的系统构建者专注于以低延迟和低成本提供最佳质量，因此我们解决了系统问题。但通常情况下，最佳投资回报率是将两者结合起来考虑。这就是我们在 Meta 的运作方式，研究团队和信息团队坐得很近，讨论权衡和协同设计。

所以协同设计领域有很多研究，我认为找到质量、延迟和成本这三个维度优化的最佳设计点将非常有吸引力。另一种研究是根本不同的、具有颠覆性的研究。例如，Transformer 作为一项技术已经过时了，需要进行颠覆。

那么下一代 Transformer 在哪里？这将改变我们训练模型的方式，改变我们进行推理的方式等等。所以这非常有趣。同样在代理领域，不同的代理将如何相互沟通。正如我提到的，思考潜在空间，这种

非常新的思维方式非常非常有趣。我设想在构建基础设施公司时面临的一个挑战是，显然变化的速度非常快，无论是模型的改进，还是企业如何思考和实际使用这些东西。我可以想象一种观点是，变化如此之快，例如，你知道，我们将快速更新我们正在做的事情，你知道，我们的核心工具，因为变化的速度如此之快。在某些时候，它会稳定下来，然后我们可以构建标准的工具集

你如何看待在人们今天正在做的事情的基础上进行构建的这种张力，而不知道确切的情况？也许在两三年后，模型将拥有所有这些其他不同的功能，我们将以所有这些其他不同的方式设计系统。是的，这是一个非常好的问题。这就是我们一直在思考的事情。我们不想一直追逐即将到来的一切，因为追逐是令人筋疲力尽的。我们总是想保持领先地位。

我认为模型能力肯定在发展，尤其是在过去两年中，如果我们只关注从 GP3 到今天的开放式眼模型能力，就会发现差异。但从根本上说，一些不会改变的趋势。所以一个，再次回到我们的愿景，我们相信方向是专业化和定制化。

这不会改变模型核心能力如何发展。

因为我们只是不相信一种尺寸适合所有不同的工作负载，以及专有数据等等。我们相信，如果你可以定制，如果你可以引导，如果你有控制权，那么会有更好的解决方案。这就是为什么我们构建了我们的堆栈，以便以一种简单的方式实现这一点。

具体来说，我们在我们的推理引擎之上提供了一体化解决方案，我们有一个一体化优化器。我们将推理工作负载作为输入，并将您的自定义目标作为输入，并输出推理部署配置以及可能为您调整的模型，以便您可以控制是否要部署该模型。

所以这是一个我们闭环并使其易于定制的过程。我认为这在未来不会改变。完全正确。你正在定制的内容可能会改变，但你将如何去做，我认为这是非常有意义的。好吧，我们总是喜欢以快速问答环节结束我们的谈话，在这个环节中，我们会了解你对一组标准问题的看法。

所以也许首先是 Luv，你认为现在人工智能领域中有一件事被过度炒作了，还有一件事被低估了。——我认为被过度炒作的是这种观念，JNI 是神奇的。它是所有问题的秘诀。我们应该问问它。任何问题，它都会给出正确的答案。我认为它现在正在经历修正时期。同样，这就是我们相信的原因

像没有一个神奇的模型能够以最佳方式或正确的方式解决所有问题。在过去一年中，你在人工智能领域改变了哪些想法？我认为我的假设是

建立这家公司以及这项生成式人工智能技术如何被采用。在我看来，我们的上市策略总是循序渐进的。初创公司就像生成式人工智能原生公司，所以它们将处于采用的前沿。然后我们将与数字原生公司合作。他们拥有非常强大的工程资源，并且总是更具技术前瞻性。然后是传统企业，因为他们有更多其他问题需要解决。

但现在我们同时与他们所有人合作。对我来说，这有点疯狂。当然，用例并不完全相同，但是……

采用曲线同时发生。这与我最初的想象大相径庭。在应用程序方面，感觉上，获得一个大型企业然后获得几个大型企业需要多长时间的正常规则。一切都消失了。一些这些应用程序公司正在大型企业中如此快速地扩展。我认为人们对此有着巨大的需求。没错。这就是为什么我觉得我们正处于这场革命性浪潮中。很多事情都会做得不同。不仅仅是

应用程序审查将有所不同，技术采用曲线将有所不同，甚至如何考虑上市策略也将有所不同。销售周期更短。

人们愿意以不同的方式考虑采购流程。所以这是这种巨大转变带来的非常有趣的连锁反应。——你是否觉得，你必须为企业构建的东西与为初创公司构建的东西有什么不同，还是实际上需求非常相似？——我认为，我的观察是初创公司，他们通常是，

就像他们想要访问一样，当我们谈论抽象时，对吧？他们想要访问低级抽象。是的。因为他们想考虑很多事情，对吧？所以要组装很多东西。对于传统企业，我并不是说以详尽的方式，但通常情况下，他们希望拥有更高级别的抽象。如果他们不需要解决低级细节，则不需要关注，最好不要关注，

所以即使在 Meta，我们也为不同类型的团队提供了这些不同的抽象层，因为他们想要选择，对吧？所以通常两层抽象就足够了，他们对此感到满意，或者至少有两个选择。我们看到了一些这样的情况。同时构建两者一定很有趣，对吧，当你快速扩展时。对，对。所以无论如何，我们需要一个低级抽象，所以……

对我们来说，这不是额外的开销，但我们看到采用将在不同的层次上发生。是的。我知道这可能，我不会让你选择最喜欢的，但是你今天最喜欢的 Fireworks 应用程序是什么？这是一个棘手的问题。

我会说 Cursor，它……但我们在这个生产力领域看到了很多类似的公司，对吧？不仅仅是 Cursor，还有 Sourcegraph、Zed、Cognition、Factory。他们都是非常具有前瞻性的公司。我认为在这个领域，还为时过早。

但你知道，这就是我们对整个领域都非常兴奋的领域。你认为在未来几年内，有人会花费 1000 亿美元来训练一个模型吗？哦，也许只有当他们使用根本不同的模型架构进行训练时，这才是有意义的。是的，这是如此具有颠覆性。这就是这项投资。是的，我

你已经提到了编码领域和一些初创公司，但是除了 Fireworks 之外，你还有什么其他你真正兴奋的人工智能初创公司或领域？同样，我认为代理领域还没有完全弄清楚。你有没有看到任何做得很好的应用程序？我们已经看到了早期的应用程序，例如。

数字 SDR、数字营销。所以我们已经看到一些优秀的初创公司获得了很好的采用。但我确实认为未来这个领域将会有更多的复杂性。

我们还处于早期阶段。——好吧，这是一次引人入胜的谈话。我相信人们会想要抓住各种线索。所以我想把最后一句话留给你。人们可以在哪里了解更多关于你以及你在 Fireworks 上构建的内容的信息？轮到你了。——是的，是的，当然。所以我们提供，

为了我们开发者社区的利益，我们提供了一个自助服务平台。非常简单，只需访问 firewalls.ai，你就可以访问我们的游乐场和我们拥有的数百种模型功能。是的，随时联系我。在 LinkedIn 上联系我，我很乐意听取你的用例、挑战和痛点。太棒了。好吧，非常感谢，Teresa。这是一次引人入胜的谈话。

你

Ep 50: Fireworks CEO Lin Qiao on Why There Won’t be a Single Model, Will Hyperscalers Win Inference & AI Use-cases with PMF 55:49 Share

Unsupervised Learning

Deep Dive

Shownotes Transcript

Ep 50: Fireworks CEO Lin Qiao on Why There Won’t be a Single Model, Will Hyperscalers Win Inference & AI Use-cases with PMF