We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Building Developers Tools, From Docker to Diffusion Models

2024/11/15

AI + a16z

AI Deep Dive AI Insights AI Chapters Transcript

People

Ben Firshman

Matt Bornstein

Topics

Ben Firshman: 本期讨论了构建吸引软件开发者的产品和公司的技巧。他分享了在Docker的经验教训，包括自下而上构建开发者业务的重要性，以及过早地尝试向企业销售产品的风险。他还介绍了Replicate，一个蓬勃发展的开发者社区，允许开发者托管和微调自己的模型以支持AI应用程序。他认为，与大型语言模型相比，多媒体模型具有更大的应用潜力，因为它们能够创造出以前无法实现的产品。他强调了API设计、快速运行速度和易用性在开发者工具中的重要性，并分享了Replicate的成功经验，包括如何利用社区的力量和开放源码项目。他还讨论了GPU短缺问题以及Replicate如何应对这一挑战。最后，他分享了构建AI应用的最佳实践，包括探索新的应用场景和避免过度依赖现有产品。 Matt Bornstein: Matt Bornstein 则从投资者的角度分享了他对AI创业公司的观察和经验。他指出，基于多媒体模型的AI应用比基于大型语言模型的应用更加多样化。他认为，现在是构建AI应用的好时机，因为基础模型已经足够稳定，并且对模型的理解也日益深入。他还强调了AI公司增长的不稳定性，并建议创始人保持冷静，避免过度反应。他认为，AI只是另一种形式的软件，许多软件开发领域的经验可以应用于机器学习领域。他建议AI创业公司应该关注如何持续增长，并在主要版本发布之间保持增长势头。

Deep Dive

Key Insights

Why did Ben Firshman focus on building tools for developers at Replicate?

Ben was inspired by the challenges faced by machine learning researchers, particularly the difficulty of turning academic papers into running software. He saw an opportunity to create tools that could bridge the gap between research and production, similar to how Docker simplified software deployment.

What are the key differences between multimedia AI models and language models in terms of application diversity?

Multimedia models like Stable Diffusion allow for a wide variety of creative applications, from image generation to video editing, which were previously impossible. Language models, on the other hand, are more limited in their applications, often resulting in similar-looking chat or code-based tools.

How has the GPU crunch impacted Replicate's operations?

Initially, Replicate could easily access GPUs, but as demand surged, they had to purchase large blocks of GPUs to ensure availability. They now offer a mix of high-end GPUs like A100s and H100s for training, along with more cost-effective options like L40s and T4s for inference.

What lessons did Ben learn from his experience at Docker that influenced Replicate's strategy?

Ben learned that building a bottoms-up developer business requires starting with individual developers, then scaling to teams, and eventually targeting enterprises. Docker's early focus on enterprise sales alienated the developer community, which was the core user base.

What are some common mistakes developers make when building AI applications?

Developers often underestimate the complexity of turning prototypes into real products. AI systems require significant duct tape and heuristics to function reliably in the real world, which can be time-consuming and challenging.

How does Replicate handle the diversity of AI models on its platform?

Replicate hosts over 20,000 models, with many coming from fine-tuning existing models for specific styles or objects. Users also pipeline models together to create unique combinations, such as combining language models with image generators for multimedia applications.

What advice does Matt Bornstein have for founders entering the AI space?

Matt advises founders not to overreact to market fluctuations, as AI companies often experience periods of rapid growth followed by slower months. Staying the course and focusing on long-term vision is key to success in this dynamic market.

What role does open source play in Replicate's ecosystem?

Open source is central to Replicate's multimedia models, with the community heavily contributing to model development and sharing. For language models, proprietary models like GPT still dominate, though open-source alternatives like LLaMA are gaining traction.

How does Replicate balance ease of use with developer flexibility?

Replicate offers high-level APIs for quick integration but also provides open-source tools like Cog, allowing developers to customize models and deploy them on their own infrastructure if needed. This balance ensures developers can start easily but still have the flexibility to scale.

What trends does Ben see in the future of AI development tools?

Ben predicts that AI will become more integrated into the software development stack, with higher-order systems emerging from combinations of lower-level components. These systems will combine language models, image models, and traditional software to create new, more powerful applications.

Chapters

This chapter discusses the experience of building Docker and the lessons learned from it. The main takeaway is that for a bottoms-up developer business, it's crucial to start by building for and selling to developers directly, gradually expanding to larger teams and enterprises over time.

Docker's initial focus on enterprise sales proved ineffective.
A bottoms-up approach, starting with developers, is more sustainable.
Growth should be gradual, expanding to larger clients over time.

Shownotes Transcript

我认为Docker构建了这个令人难以置信的自下而上的开发者生态，但他们过快地尝试向企业销售。因此，几乎从第一天起，他们就构建了这种自上而下地向大型公司销售的企业产品。而这些公司内部的人根本不知道Docker是什么。那些知道Docker是什么并从中获得价值的人是那些在日常工作中使用它的人。所以，我认为这里的教训是，如果你正在构建一个自下而上的开发者业务，那就自下而上地构建它。

一步一步来。你知道，为开发者制作一些东西，卖给开发者，然后也许卖一些对他们的团队有用的东西，然后逐步向上发展。然后也许五年后，你可以向沃尔玛的首席技术官或其他什么人出售一些东西，但你不可能从第一天就能做到。您正在收听A16Z AI播客。我是德里克·哈里斯。在本期节目中，我与A16Z合伙人马特·博恩斯坦和Replicate联合创始人兼首席执行官本·费什曼一起讨论了开发者生态系统和生成式AI的交汇点。

本之前在Docker领导开源产品开发，并创建了Docker Compose。因此，他对开发者想要什么以及如何构建满足这些需求的工具有着很好的理解。在本次讨论中，本探讨了一些历史，同时深入探讨了开发者今天如何使用生成模型，以及像Replicates这样的社区方法如何让比以往更多的人能够访问、部署、

构建并发布他们自己微调的模型。马特还分享了他两年来深入参与AI初创公司后看到的一些事情和学到的经验教训。什么有效，什么无效，以及如何应对每个新模型发布带来的流行浪潮和随后的低谷。如果您正在生成式AI时代开发开发者工具，那么您应该从这次讨论中获得不止一点启示。因此，事不宜迟，以下是我和本和马特的谈话。

提醒一下，请注意，此处的內容仅供参考，不应被视为法律、商业、税务或投资建议，也不应被用于评估任何投资或证券，并且并非针对A16Z任何基金的任何投资者或潜在投资者。更多详情，请访问a16z.com/disclosures。

本，在环游世界骑自行车和开货车几年后，你于2019年创立了Replicate。在生成式AI真正兴起之前的几年里，你看到了什么让你得出结论，认为Replicate将成为你的下一家公司，而这是一个你想要追逐的领域？它实际上始于科学，始于学术基础设施。所以我对学术基础设施这个领域产生了浓厚的兴趣。它只是一个……

运作方式仍然像100年前一样的领域。它碰巧在互联网上。我来自开源世界，观察开源以及所有这些协作，这是一个发展极其迅速的开源世界，然后观察科学，就像，“为什么它不能更像那样运作呢？”

这就是让我与我现在的联合创始人安德烈亚斯合作的原因，因为他当时是一位机器学习研究员，当时仍然被称为机器学习。这都是AI炒作之前的时期。他的很多工作都是实现论文，因为那时机器学习主要以研究的形式发表。

arXiv上的PDF学术论文，这是一个学术论文的存储库。他的很多工作都是获取这些学术论文，并试图将它们转换成运行的软件。这其中的悲剧在于，在某个时候，这个研究实验室中制作这篇论文的人制作了一个运行的软件。他们将其压缩成散文和数学图表，放在PDF中。安德烈亚斯的工作是试图解压它。

将其转换回运行的软件。而这往往是不可能的。这就是让我走上这条道路的原因，哦，实际上机器学习是科学中一个非常有趣的子集，发展非常迅速。它是软件，所以它与我的软件世界联系在一起。这就是我们为机器学习研究人员构建工具的原因。MARK BLYTH：您早期的软件经验是如何帮助您做出这个决定的？因为您构建了Docker Compose，这显然在软件工程领域并非易事。

其他东西是否也起到了作用，例如，就一般兴趣而言，好吧，我有可能应用于此的技能？我认为，从根本上说，我喜欢创造事物。我尤其喜欢为人们构建工具。为开发者构建工具非常自然，因为我是一名软件开发者，但我通常喜欢为人们构建工具。我认为我在Docker的经验尤其为这家初创公司提供了信息，因为我将此……

安德烈亚斯正在做的事情联系起来。安德烈亚斯过去曾在Spotify工作。我将他在Spotify所做的工作，即获取这些机器学习模型并试图让它们在生产环境中运行，与我们在Docker所做的工作联系起来。因为在Docker，我们通过告诉软件开发者，“嘿，将你的工作放在这个隐喻的集装箱里”，为普通软件解决了这个问题。然后你可以知道其他软件开发者能够运行

这段软件。你可以将其发送到测试环境。你可以将其发送到各种不同的云端。我们只是将这个比喻用于机器学习。我们想，如果这些研究人员将他们的工作放在这个盒子里怎么办？那么，其他研究人员可以运行它。软件开发者可以运行它，将其部署到生产环境中等等。正是这种思路导致了Replicate的诞生。

我想知道，为整体软件做这件事与为这些AI模型做这件事之间有什么区别，从而具体转向AI？主要的一点是，它们必须连接到GPU，不像普通的软件。所以现在很难采购。当我们开始的时候，采购起来没那么困难。但首先，这是难以采购的硬件。还需要大量的管道来连接它，比如很多非常复杂的CUDA东西，我认为这是机器学习研究人员生活中的一大难题，CUDA错误。但它的行为也

与普通的软件服务大相径庭。具体来说，它们通常运行时间较长。它们通常需要批处理系统，以便你可以在GPU上一次运行多个请求。

你通常需要基于队列的系统，而不是，它们通常更像是批处理工作负载，而不是通常在Web系统中使用的这种循环服务系统。它们也是一种更特定和更狭窄的软件类型。因此，当你将某些东西打包到Docker容器中时，它实际上就像在计算机上运行的任意软件。而机器学习模型实际上只是一个函数调用。

所以它通常就像通过这个模型进行一次传递，带有一些参数和一个返回值。还有一个Docker问题，然后我们可以进入Interreplicate。但我很想知道，因为你在Docker的快速增长时期加入了Docker，而且我

我想知道你在那段经历中学到了什么，或者那段经历是什么样的，尤其是在将开发者工具和开源产品产品化方面，以及在运营开源业务方面。是的，当然。我从中学到了很多东西。老实说，这真是一次疯狂的旅程。我认为我加入时是第20多名员工，离开时已经有将近300人了。他们显然在业务方面遇到了困难，但他们构建的东西现在是我们现在用来构建服务器应用程序的核心部分。

他们在那里所做的事情就是为开发者构建一个非常棒的工具。我认为这是我们在构建Replicate时真正铭记在心的事情。还有社区的力量。他们有Docker Hub，所有这些软件都在那里共享，这与Replicate非常相似。但Docker本身作为一项技术，从根本上来说就是关于与他人共享软件。我们在构建的核心内容中也采用了这一点。我们有一个名为Cog的核心开源项目，我们称之为机器学习容器。我们受到了Docker在那里所做工作的启发，并试图将其应用于机器学习。

Docker也有很多艰难的教训。我认为我们应该真正铭记在心的一件事是，我认为Docker构建了这个令人难以置信的自下而上的开发者生态，但他们过快地尝试向企业销售。因此，几乎从第一天起，他们就构建了这种自上而下地向大型公司销售的企业产品。而这些公司内部的人根本不知道Docker是什么。那些知道Docker是什么并从中获得价值的人是那些在日常工作中使用它的人。

所以，我认为这里的教训是，如果你正在构建一个自下而上的开发者业务，那就自下而上地一步一步来。为开发者制作一些东西，卖给开发者，然后也许卖一些对他们的团队有用的东西，然后逐步向上发展。然后也许五年后，你可以向沃尔玛的首席技术官或其他什么人出售一些东西，但你不可能从第一天就能做到。

品味和美学现在对开发者来说已经变得非常重要。我认为在过去，没有人关心或考虑过这个问题。就像开发者不是真人一样。他们应该只使用他们拥有的任何笨拙的工具。这显然已经改变了。Docker是这种变化的一部分。我认为你也是这种变化的一部分。你当时处于一个非常有趣的位置，你实际上并不是Docker的员工，对吧？如果我错了，请纠正我。你只是

某个编写了这个工具的人，这个工具最终成为在本地启动docker容器的最佳方式你如何想到这个主意？你认为开发者的品味从何而来？我很想知道这个想法的来源我认为，从根本上说，它来自于这样一个事实，即开发者选择他们想要的工具，开发者更有可能选择高质量的工具，这就是重点，并且

我实际上很早就受到了Heroku的启发。所以我的第一个创业项目是Python的Heroku克隆，当时Heroku只是Ruby的Heroku。那个创业项目没有成功，因为不幸的是Heroku变成了Python的Heroku，他们的产品比我们更好。但这确实是这一切的开始。你知道，我习惯了必须登录服务器的日子，

以及FTP代码或SEP代码来部署它并手动安装Apache之类的。能够获得推送只是太棒了，节省了大量时间。

实际上，关于品味的问题，我想着，我认为另一个非常有趣的品味来源是，我认为那也是Heroku首次推出的时候——大约在Heroku首次推出的时候，许多开发者也开始转向Mac。传统上，开发者是在Windows上构建的。他们是在Linux上构建的。而Mac OS X是基于BSD的。我记得当它发布时，就像，天哪，这太棒了。我当时正在Linux上开发。

它就像，哦，这就像Linux，但不是完全令人头疼。因此，如果可以选择的话，我和世界上其他几乎所有开发者一样，都切换到了Mac。Mac显然构建得非常好。苹果对高质量工具有着极佳的品味。我认为这也影响了这个领域的大部分。我知道Ruby、Heroku和GitHub以及所有这些人都受到了苹果高设计理念的很大影响。我认为……

这种文化渗透到开发者工具中。接下来是Stripe，然后是Vercel和我们。但无论如何，Docker Compose的起源故事是，我们构建了这个Heroku克隆。我去做另一个创业项目

我意识到部署仍然是一个完全令人头疼的问题，因为该创业项目尤其无法在Heroku上部署，因为我们必须路由到特定节点进行实时文档编辑，而你无法在Heroku上做到这一点。我想，哦，我希望有一个更好的——介于EC2服务器和Heroku之间，就像介于两者之间的东西，它只为我提供了正确的抽象。我有点想要进程。我想要负载均衡。我想要网络。我想要卷，所有这些东西。但我不想在服务器上手动安装东西，也不想进行自动缩放等等。

因此，我们开始构建该平台，就像一个更高级的Heroku。然后Docker出现了，我们想，该死。就像Docker一样。这正是我们想要构建的东西。它们在进程级别运行。什么东西？非常轻量级。我们称它们为非常轻量级的虚拟机。他们，你知道，然后依附于容器等等。

因此，我们只是转向构建围绕Docker的工具。其核心是我们有一个YAML文件，这是你将应用程序部署到我们的Heroku PaaS上的东西。我们只是将该YAML文件转换为在Docker之上进行部署。这变成了……当我们第一次创建它时，它被称为Fig。然后它真正变成了Becompose，但这后来就成了Docker Compose文件。所以它是那个想要存在的Heroku竞争对手的配置文件。所以你已经做了……

两次了。我的意思是，如果你考虑Docker Compose，你并没有发明Docker，但你创建了每个人在早期用于在开发环境中编排Docker容器的工具。现在有了Replicate，我认为，你并没有自己训练Stable Diffusion或Llama，但你创建了可以说是最易于使用的工具，开发者通常会首先选择它。

你能将所有这些经验概括为什么是真正优秀的开发者工具，你如何培养品味，你如何培养美学等等吗？是的，我还没有一个经过深思熟虑的秘诀，但有三件事浮现在脑海中。我认为其中一件事是，开发者工具的核心必须是一个API，而这个API必须设计得非常好。当你使用Docker时，你感觉不到你在使用API，但实际上它背后有一个数据模型。

而你作为开发者，正在与数据模型交互，将其塑造成适合你的系统的东西。你需要充分理解这个数据模型。你需要设计真正好的基元

基元，这些基元如何相互交互，并通过产品清晰地展现出来。我认为这是核心。这一切都与API设计有关。它需要非常快。我认为这是Docker做得非常好的地方。Docker令人震惊的地方并不是你可以创建像虚拟机这样的隔离环境。Docker令人震惊的地方在于它可以在100毫秒内启动这个东西。第三，我认为只需让它非常易于上手，非常易于集成。

这部分是制作一个非常简单的产品，但部分是解释得非常好。我选择正确的基元，但部分是解释得非常好，并确保如果作为开发者，我无法在30分钟内从某些东西中获得价值，那么我就会放弃它。理想情况下，某些东西应该在五分钟内就能工作。

这就是Docker的神奇之处，你只需运行一个命令。我有一台空白的Linux机器。这就是Heroku的神奇之处，只需在我的Ruby on Rails应用程序上运行git push Heroku，它就能工作。这就是Stripe的神奇之处。你只需复制粘贴这一行代码，你就可以进行支付了。我认为这也是Replicate的神奇之处，因为你只需复制粘贴这一行代码，你就能在几分钟内完成AI操作。我认为这对优秀的开发者工具来说非常关键。

当你开始构建Replicate时，情况是怎样的？首先，没有很多开源或开放模型可以托管或部署。所以，

那早期的工作是什么样的，比如，“听着，我知道产品应该是什么样子，但这是五年前AI模型的实际状态？”MARK BLYTH：当我们开始的时候，它相对简单。实际上，有很多非常有趣的工作正在进行。所以每个人都痴迷于ImageNess以及识别图像中的物体和图像分割等等，这些都是非常先进的东西。就在几年前，识别图像中的内容是不可能的。

那里还有很多其他非常令人兴奋的事情正在发生。它显然对构建产品很有用，但运行和使用这些模型非常困难。我认为问题是一样的。只是规模较小而已。真正让Replicate发展起来的是，我们注意到所有这些模型仍然……

我在想图像分割，我在想嵌入模型以及所有这些东西。它们都是学术追求。但我们注意到一件非常有趣的事情正在发生，天哪，是什么时候？我认为是2022年初。人们正在构建一些早期的文本到图像模型。大睡眠。

它使用了OpenAI制作的文本嵌入模型Clip，并将其与生成图像的GAN结合起来，以一种非常简单的方式将这些东西组合在一起，将文本提示转换为图像。它们根本不好，但它们具有某种有趣的审美输出。如果有什么不同的话，那就是它吸引了某种技术艺术家群体或创意编码人员等的想象力。

真正有趣的是，这并不是学术界在做这件事。只是一群在Discord和Twitter上分享这些Colab内容的人，Colab是谷歌托管的笔记本服务。

真正巧妙的是，他们正在Colab上分享它们，在Discord上发布它们，有人说，“哦，这很酷，但我对如何改进它有另一个想法。”他们正在按下“文件，另存为副本”，因为它像Google Docs一样工作，你知道吗？文件，另存为副本。然后他们得到了一个新的Google Doc Collab笔记本，然后对其进行修改，并对其进行了修改。它创造了一个社区，人们就像，

分叉、编辑、分叉、编辑、分享东西。这些事情发生得非常快。事情不是每六个月发布一次，人们每小时都在做事情。我看到这个，我想，“哦，这看起来像开源软件。”它还处于早期阶段，但你可以看出变化的速度是惊人的。然后我们得到了像DALI Mini这样的东西，我认为这是很多人看到的一件非常引人注目的事情。这最终导致了Stable Diffusion。Stable Diffusion诞生于这个社区。

但我们在Discord上非常早地看到了这个社区，并且开始围绕它进行构建。这就是整个事情的开始方式。MARK MANDEL：直到今天，我的Twitter个人资料图片都是Replicate上早期基于GAN的模型生成的。MARK MIRCHANDANI：Pixray，我认为。MARK MANDEL：是的，Pixray。没错。没错。没错。它就像一个像素艺术生成图像模型。我当时非常惊讶它能工作。而且，它很棒。从那以后我就再也没有改变过它。

MARK BLYTH：如果你的早期用户是这个Discord社区，并且为这个团队构建东西，那么今天的典型Replicate用户群或典型Replicate用户是什么样的？MARK BLYTH：我们有大约——我们有超过300万用户。我们平台上有大约2万个模型。我们有数十万付费客户。所以我们有Replicate的两面。有些人正在制作模型并将其发布到我们的社区，而有些人则正在利用这些模型构建产品。

绝大多数人都在构建东西，构建项目、功能、产品等等。它实际上是各种模式的混合。我认为我们真正看到的最佳点是人们使用图像、视频、音频、3D等多媒体应用程序，并将所有这些组合到管道中，通常将它们与语言模型结合在一起作为一种粘合剂。我们也看到一些人构建纯粹的语言模型产品。但通常情况下，我们看到人们使用大型

用于基于隐私的模型之类的东西。Replicate上真正有效的一点是，我们也让自定义这些模型变得非常容易。因此，大多数情况下，构建这些多媒体应用程序的人需要以某种方式微调模型。他们需要修改代码。他们需要将模型组合到管道中。大多数情况下，你需要修改代码并自定义东西才能做到这一点。这非常适合该平台。当Stable Diffusion启动时，我认为人们正在构建很多消费者应用程序

你知道，能够运行这些模型本身就足够神奇了，能够从无到有地创造出一张图像。这仍然是我们工作的重要组成部分。这导致了图像编辑软件的出现，你可以使用这些模型向图像添加东西或填充图像中的东西。接下来是大事件是AI头像应用程序，你可以拍摄你脸部的照片，它可以生成你的照片。这仍然是一个巨大的用例。然后我们只是看到很多人构建非常有趣的消费者应用程序，如聊天应用程序。

在销售和营销中构建东西，你可以自动生成广告，你可以自动生成销售材料。我们看到人们喜欢生成会说话的头像，这就像视频、音频、语言模型的整个管道。我们看到人们生成销售，比如游戏内容，人们在企业内部做的事情，他们试图注释内容以将非结构化数据转换为结构化数据。我们看到大型公司构建营销应用程序。我们有广告公司使用我们来生成内容。它就像一个完整的生态系统

你可以看到这些东西在各个地方被用于各种不同的用例。MARK BLYTH：所以有2万个模型——如果我只是关注AI的新闻标题，我可能能够说出10个，也许12个模型。

如果我进入Replicate或浏览模型社区，我会看到什么？社区是如何调整这些东西来创建这些不同的模型的？大多数模型都来自微调，特别是微调图像模型，与语言模型相比，它的效果非常好。因此，你可以将10张图像放入这些模型中，这些模型可以是物体或风格等等。

然后你猜另一个模型，它可以完美地输出图像中的物体或以特定风格输出东西。所以你可能是，你知道，人们对GTA的风格进行了微调，所以你可以制作看起来像GTA的图像，然后你可以把你的脸放在里面，这样你就在GTA里，或者其他什么，你知道，或者以某种特定的风格。我们的客户将此用于，显然是这些头像生成器，但人们通常……

制作与他们的游戏风格或在他们的应用程序中生成有意义的特定风格相符的东西。但我们也看到很多人将这些模型组合到管道中，以创建有趣的模型组合。因此，你可能想使用语言模型来生成更好的提示，然后将其输入图像生成器，然后你想要——

应用某种校正，然后你想要放大它，这就是你在这些……你知道，在这些系统中创建的生成视频的管道，这些大型语言模型、视频模型、音频模型等等的管道，人们正在创建各种各样的模型，有大型语言模型，有大型图像生成模型，无论是什么，这些模型现在都占据了所有

所有的新闻头条。但人们仍在创建许多有用的较小模型，这些模型仍然存在于Replicate上的学术界。而且通常情况下，它们在特定用例中的效果比这些大型模型更好，成本也低得多。Replicate上有很多这样的东西。

实际上，Replicate上的这些东西只是连接到GPU的任意软件。因此，你可以制作一些新的有趣的软件，它碰巧连接到——或者没有连接到GPU。你实际上也可以在Replicate上将普通代码部署到CPU上。人们正在制作这些东西并将它们发布到Replicate上。MARK BLYTH：过去一年左右，更大的发展似乎是开源模型的涌入。现在有很多开源语言模型。有Flux以及这些其他大型图像模型。

我们看到人们对开源模型与专有模型或闭源模型的思考方式或利用方式发生了转变。我认为这很大程度上取决于模式。例如，对于多媒体模型来说，它实际上始于开源。例如，从来没有真正出现过任何优秀的专有图像模型。这始终只是开源的。你的意思是对于开发者，你知道，因为在消费者方面有midjourney，但你的意思是对于开发者。

用于开发产品，是的，完全正确。而这个社区一直完全是开源的。对于语言模型来说，开源在某种程度上来得比较晚。它实际上始于GPT。然后Llama真正让这些大型语言模型的开源开始发展起来。这些专有模型实际上非常适合大型语言模型。而且提示大型语言模型比提示这些……更容易。

使用这些图像模型和相关技术。这些开源语言模型肯定有很多用例，但我认为我们发现从专有模型转向开源语言模型并没有发生巨大的转变。但对于多媒体模型来说，开源确实是其核心所在。就像你提到的所有这些不同的模式一样。随着更多模型上线或更多人参与更多工作，你是否看到了这方面的激增？我还很好奇，比如

使用方式的变化，对吧？当像Flux这样的东西出现时，它会如何影响Stable Diffusion的使用？或者从内部来看你看到了什么？我认为随着模型越来越好，模型越来越快，它一直在稳步增长。

我认为随着人们逐渐了解了这些模型的功能，关于这些模型所能做的事情的地图上还有很多未探索的部分，这些部分正在慢慢被挖掘出来。但新的模型一直在改变一切。当一个新模型出现时，它们

在某些方面要好得多，但也使新的事物成为可能。我认为Flux无疑是图像模型中的一个重要时刻。我认为我们现在看到很多人都在使用Flux。它比我们以前见过的任何东西都要好得多。是的，目前很多人正在从Stable Diffusion转向Flux，但我知道Stability很快也会推出一个新模型。所以也许它会来回切换，但我们必须……它总是像这样……

这场竞赛，你知道吗？我可以非常肯定地说，几乎所有的人工智能初创公司现在都对新模型的发布高度敏感。对于像Replicate这样的基础设施托管公司来说，情况就是这样。

对于像OpenAI和Anthropic这样的模型开发公司来说，情况也是如此。对于像UDO（我们的一个投资组合公司）、Ideogram或Midjourney这样的应用级公司来说，情况也是如此。你实际上可以非常密切地跟踪这一点。每当一个新模型出现时，使用量就会大幅飙升，因为人们只想尝试令人兴奋的新事物。任何给定模型的V1和V2之间的区别

现在非常巨大。如果你回想一下过去，你会升级到Photoshop 8版，因为它是最新的东西，而V7有点老旧，但它只是旧的东西。现在，从一个模型到下一个模型都有实际的重大改进，而这些是计算机以前从未具备的能力。因此，无论你是谁，当一个新模型出现时，都会产生巨大的兴奋浪潮。

诀窍在于，如何在主要版本之间保持稳定并理想地继续增长？对于Replicate来说，能够不断地向其平台添加新模型是一件好事。他们并不仅仅局限于一个模型开发周期。但这确实是每个人都面临的行业动态。我认为关键在于——

你知道，对于所有的人工智能创始人来说，就是要接受它，了解市场的形态，了解用户的需求，并围绕它进行构建。你认为在新的模型发布速度和用户跟上的能力之间是否存在某种程度的脱节？

学习并真正挖掘出所有有趣的使用方法，然后再出现下一个事物，他们的注意力就会被分散。正如你所说，过去版本发布就是版本发布，它可能有一些增量差异。你基本上知道它，而现在它就像一个新事物。哦，百分之百。地图上还有很多未探索的部分。如果有什么不同的话，我认为能力的提升速度超过了我们赶上并利用它们构建事物的能力。我认为这是……

这实际上是由在GitHub上从事副驾驶工作的Nat Friedman很好地实现的。他说他们构建了——我认为大约在“GPT-3”出现的时候——

他们用它构建了Copilot，他们对这些东西的能力以及他们可以用它构建的产品感到震惊。显然，Copilot现在已经成为开发人员工作方式的核心部分。他说，好吧，显然会有数百、数千人使用此模型来构建令人难以置信的产品。然后他们等了一两年，什么也没发生。这就是他启动AI Grants Accelerator的前提，我们稍后实际上也经历了一点。

其前提是我们需要更多产品构建者。我们拥有所有这些能力，我们需要更多产品构建者来围绕这些东西进行构建，并对这些东西感到兴奋，以便能够使用它们并将它们交付到用户手中。这种情况仍在发生。如果有什么不同的话，产品构建正在堆积，但能力的提升速度更快。

产品构建者们，请使用AI进行构建，因为有很多黄金就摆在那里，如果你用这些东西构建一个好的产品，就可以捡起来。作为复制者，我们的角色很大一部分也是帮助这些软件开发人员使用AI，因为他们不可能很快地重新学习机器学习。因此，我们希望将机器学习带给他们，向他们展示如何使用它，并向他们展示他们可以用它构建的所有这些有趣的东西。是的，希望会有很多很酷的东西被创造出来。

我注意到有很多非常多样化的多媒体AI应用程序。这意味着当你给某人一个很棒的原语，比如Flux API调用或Stable Diffusion API调用和复制时，他们可以用它做很多事情。我们实际上也看到了这种情况。与语言相比，就像你说的那样，

如果你眯起眼睛看，所有LLM应用程序看起来都差不多。就像你与某物聊天一样。很明显——有代码，有语言。还有一些不同的东西。但我也很惊讶，即使在今天，我们看到的基于语言模型的应用程序也没有基于图像模型的应用程序多。你认为这是真的吗？还是我只是看到了世界的一个狭窄片段？

我认为我们也看到了世界的一个狭窄片段，因为很多人使用Replicator来构建这些多媒体应用程序。但这确实与我们所看到的相符。我认为这些语言模型不仅仅是聊天应用程序。我认为它们特别擅长的是

将非结构化信息转换为结构化信息，这实际上是一种神奇的事情。这就像——计算机以前并不擅长这一点。这确实是它的一种核心用例。但是对于这些图像模型、视频模型和类似的东西，人们正在创造全新的——许多以前不可能实现的新产品，以及计算机以前无法做到的事情。

是的，我当然对这些多媒体模型所能创造的所有神奇事物感到更加兴奋。所以我想稍微换个话题。我很想了解GPU紧缺问题，就像你如何体验它一样。我的意思是，它会变化吗？我只是想了解你如何看待这个问题，因为它似乎并不是一开始就以产品构建或开发者为中心的思维方式，但它绝对是今天运营AI业务的关键部分。当我们刚开始的时候，并没有GPU短缺。

我们可以得到——我们是一家推理业务，所以我们的使用量会上下波动。我们只是在现场实例上运行了整个系统。你可以很容易地获得A100现场实例，因为没有人想要它们。然后很明显，它们变得越来越难获得了。去年尤其出现了严重的紧缺。

然后我们不得不开始购买大量的GPU，因为这确实是获得它们唯一的方法。如果你去AWS并请求一个H100，他们只会把你从房间里笑出来。但如果你去那里说，我想要500个H100，为期三年，他们会说，当然，给你。这就是他们销售GPU的方式，因为他们只想尽可能多地打包使用。

但对我们来说并不理想，因为我们的使用量变化很大。对于训练来说是可以的，因为你确实会为训练购买这些大量的GPU。但对于推理来说，它会上下波动。所以在某种程度上，我们工作的一部分就是使这个市场流动起来。我们购买这些大量的GPU，然后以更高的价格出售它们，这样人们就可以获得一个H100。A100和H100非常适合训练大型模型，但不一定是运行模型的正确工作。

因此，我们在较小的GPU上运行许多这些模型，在GPU-GPU上。例如，L40S是目前最先进的推理GPU。我们还在一些旧的硬件上运行东西，比如T4。

还在A40上运行东西，奇怪的是，它就像皮克斯用于在工作站上进行3D图形的工作站GPU，但它非常适合图像模型。所以在这种意义上，我们是幸运的。而且这些GPU从来就没有真正短缺过。它们非常容易获得。但今年市场已经放松了很多。所以更容易获得

例如H100，我认为这现在是相当普遍的知识，这更容易多了。是的，它只是上下波动。MARK MIRCHANDANI：这很有趣。我的意思是，我们正在谈论人类有史以来最先进、最复杂的计算能力——就像我们从空气中变出图像一样。

然而，限制因素仍然是供应链的剧烈波动，它上涨，下降，上涨，下降。它很贵，它很便宜，它可用，它不可用，这是人类历史上最古老的问题。如果你停下来思考一下，这就像，你如何养活一个村庄？你如何供应一支军队？

这就像几千年前的事情，而我们现在仍在处理这个问题，以及我们所有新的花哨的AI技术。MARK MANDEL：是的，我很想知道。当无服务器运动开始用于GPU访问时，对吧？MARK MIRCHANDANI：好吧，Replicate在某种意义上是无服务器的，对吧？我的意思是，从开发人员的角度来看，他们甚至不需要缩减到零。他们要么进行API调用，要么不进行。当他们这样做时，他们会得到一个结果。

我们实际上也提供无服务器产品。因此，如果你要部署自定义模型，我们实际上允许你根据自己的自定义代码缩减到零。所以是的，我们基本上已经做到了。你观察到开发人员是否希望随着时间的推移获得更多无服务器类型的灵活性？或者他们是否希望获得更多控制和更低级别的访问权限？因为现在有越来越多的开发人员进入这个市场，而且他们变得越来越聪明，越来越复杂。所以我非常好奇

他们真正想要什么样的抽象，以及你如何看待这种变化。我认为这可以追溯到我职业生涯的开始，当时我正在构建这个Heroku克隆。EC2服务器级别太低了。就像开发人员——除非你正在做一些非常深奥的事情，否则开发人员不想要一个空白的EC2服务器。但他们也不希望感到受到约束。他们不希望感到自己正在使用玩具。他们总是想知道他们可以打开盒子，他们可以深入挖掘，他们可以做更复杂的事情。

我认为这是我们对Replicate非常重视的设计理念，我们拥有这些非常高级的API，你可以非常快速地开始使用它们。因此，你可以复制粘贴此API并使用AI，并在几分钟内开始使用。但如果你想能够自定义这些东西，这些模型是开源的。你可以获取该源代码并将你自己的自定义版本发布到Replicate。

在那里，你可以完全控制该源代码正在做什么。你可以上传自定义权重等等。我们试图找到一个最佳点，即有足够的灵活性可以让你完成95%你想做的事情，而无需从头开始构建这个基础设施的痛苦。我认为这非常重要。然后，如果你想做非常复杂的事情，总会有一个逃生门。所以

在Replicate上，为Replicate提供支持的技术称为COG，这是一个用于机器学习模型的容器化系统，也是开源的。你可以获取它并将其部署在你自己的Kubernetes集群上。如果你想从头开始做这件事，无论出于什么原因，你都可以这样做。我认为这是构建这样的开发者工具非常重要的一部分，那就是你不会在任何时候感到自己受到约束。我不会在任何时候感到自己被锁定。

因为这些都是人们不会选择技术以及人们离开的原因。这实际上是以Heroku命名的。有时会出现一个名为“毕业问题”的问题，人们会说，

遇到产品的瓶颈，他们必须自己构建它，因为他们正在做一些过于复杂的事情。有时它被称为Heroku问题。我们一直在有意地试图避免这种情况。我们很少遇到Heroku问题，因为我们使平台足够灵活，人们可以扩展和发展。而且它不会变得太贵，无论出于什么原因，定价都是非线性缩放的等等。我们对此进行了深思熟虑。我们看到很少有人离开。我们距离

或者说生成式AI特别是在系统层面变得“无聊的技术”还有多远，从某种意义上说，人们理解它。市场上充斥着产品和工具，就像，它只是软件开发堆栈或软件开发周期的另一个组成部分。我认为我们基本上已经到了那里。是的。

我认为还有很多工作要做才能使其更容易访问。但是对于使用AI，你可以使用API运行GPT-4。你可以使用API运行Flux。所有这些都已准备就绪，可以使用。我认为关键在于，目前你正在使用的这些组件级别相当低。开发人员将使用的越来越多的东西将是基于这些低级组件组合构建的高阶系统。这是我们在软件中看到的事情。这就像——

我们从汇编开始，然后我们构建了编译器，我们有了高级编程语言。我们从TCP/IP开始，然后我们构建了Apache，我们构建了JavaScript、React和Next.js。我们只是构建这些高阶抽象，这样你就可以获得越来越多的能力，并且可以使用这些系统做越来越多的事情。我认为类似的事情也将在AI中发生。我认为它将由

这些系统的组合构建而成。它将以有趣的方式提示语言模型。它将以有趣的方式将语言模型插入图像模型。它将把这些模型的管道组合在一起以构建高阶系统。它也将与普通的软件结合起来。我认为人们低估的一件事是，你不能直接使用模型

90%的工作就像一堆胶带和启发式方法，可以将其变成可用的产品。我们想象这些也会作为这些系统发布。是的，我认为我们将看到更多这样的情况。我认为这是我们在Replicate上已经看到的事情，你知道，人们发布管道、模型等等。我认为我们将看到更多这样的情况。了解我们刚刚讨论的内容，

MARK MANDEL：如果我试图开始使用AI模型、使用API编写应用程序，那么对于开发人员来说，是否有最佳实践？是否有每个人一开始就应该知道如何做的事情，或者你反复看到发生的错误？MARK MIRCHANDANI：我认为我最大的建议是，我认为人们还不知道大多数这些事情。我认为现在作为一名在AI领域进行构建的开发人员，最令人兴奋的事情之一

就是还有很多未开发的绿色空间。现在构建强大的AI功能、构建强大的AI产品的方法不是复制别人的做法。而是让你自己去尝试，看看你是否能找到一些适用于你的

产品的新东西。请不要再构建另一个聊天机器人了。已经有足够多了。有一些新的有趣的东西适用于你的产品或你的问题空间，你现在可以用AI实现。所以，只需尝试一下，进行实验，不要太执着于某些事情。尝试50种不同的方法，看看什么有效，什么无效。我认为这是

我现在发现真正有趣的事情，因为90%的可能性还没有被发现。然后我认为我会，这是我们也谈到过的事情，那就是构建原型很容易。用这些AI系统构建真正的产品非常困难，因为

与普通的计算机系统相比，它们是如此不可预测。准备好，一旦你尝试了这50个不同的原型并找到了一个非常有效的东西，准备好，到那时你只完成了10%的工作。还有90%的胶带、启发式方法和提示工程，才能让它在现实世界这个混乱的环境中表现良好。但是一旦你通过了这个考验，你就会得到一些真正有趣的东西。

我现在想象着一卷胶带，上面到处都写着AI。所以无论你在现实世界中看到什么问题，你都可以撕下你AI胶带的一块，然后把问题粘起来。最后，Ben和Matt，我也很想听听你们的见解。现在我们已经进入这个商业化可用的生成式AI和基础模型时代几年，甚至更久了，在运营AI公司方面，你们学到了哪些重要的经验教训？

MARK BLYTH：然后Matt，我很想知道你看到了什么，以及你如何看待它的成熟，因为我们几年前是从无到有的。现在它只是每个人都在谈论的巨大市场。我们看到了什么？或者就如何在这个领域构建公司而言，正在形成什么？MATTHEW WALKER：我认为对于构建开发者产品

我认为我们在Replicate经常说的一件事是，AI只是软件。它是一段令人难以置信的非凡软件，它正在做一些我们以前认为计算机不可能做到的事情，坦率地说，是超人的。但它实际上只是一种软件形式。在其核心，这个机器学习模型只是……

我们喜欢说它是机器学习模型上的前向传递，你……机器学习模型上的推理，你向其传递参数或其他什么，但它实际上只是一个带有某些参数的函数调用，它有一个返回值。它碰巧是在内部的GPU上运行的这个模型。许多适用于软件的问题也适用于机器学习。这当然是我们……

我们一直在进行模式匹配，好的，为普通软件构建了哪些工具，我们可以将其应用于机器学习？我认为Replicate就像我们把GitHub和Heroku融合在一起一样，这就是——以及Docker。这就是Replicate的许多来源。你可以应用——看看普通软件中发生的所有其他事情，然后想一想，嗯，机器学习中是否需要存在这个东西？机器学习中有一些新的问题。

例如，你无法审查机器学习中的代码。因此，了解系统行为的唯一方法是将数据传递给它，然后看看它在现实世界中的行为。这就像机器学习的一个新事物。你需要在那里使用新工具，但很多工具只是，我们可以从普通软件中进行映射。对现在开始的创始人的建议。现在绝对不算太晚。我认为作为创始人或有抱负的创始人，总有一种恐惧，哦，我错过了机会。

所有伟大的东西都已经发明出来了。现在显然并非如此。这是一个特别适合构建应用程序的时代。我认为一年前，基础模型才刚刚开始训练。很难知道如何构建应用程序，因为地基正在你的脚下移动。现在，我认为已经有了足够的稳定性，你可以实际构建一个应用程序。并且对如何

这些模型运行以及它们的性能特征是什么有了足够的了解，你可以与它们进行相当深入的集成，并超越仅仅是基本的包装应用程序。例如，Ben谈到的一些事情，例如

将多个模型组合在一起并围绕它构建这个应用程序。所以如果你正在考虑进入这个领域，现在开始绝对不算太晚。我要说的第二件事是不要过度反应。这是我一直在我们的人工智能公司中看到的事情。我们所有的人工智能公司都经历了令人难以置信的增长时期。他们在一个月内增长了300%。

然后有些月份增长速度没有那么快。这是早期市场的特征，整个市场都在扩张和收缩。这就像宇宙的早期一样。气体云正在压缩，然后爆炸，然后再次压缩。像Bennett、Replikate这样的创始人，以及我们投资组合中的许多其他做得最好的公司

那些不会对任何一种变化过度反应的公司，这意味着在一个艰难的月份保持方向，以确保你忠于你的愿景。如果你在一个月内增长了百万百分比，也不要改变你正在做的事情，因为这可能是短暂的。因此，我们投资组合中的许多公司，包括Replicative，都很好地经受住了这场风暴。所以这就是我对正在进入这个领域的创始人的建议。♪

就这样，另一集结束了。如果你喜欢它，或者至少了解了当前这波AI模型如何塑造开发者工具包，请对播客进行评分并广泛分享。直到下次，继续构建。

Building Developers Tools, From Docker to Diffusion Models 41:49 Share