We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Launching AI products with Braintrust’s CEO Ankur Goyal

2024/10/8

No Priors: Artificial Intelligence | Technology | Startups

AI Deep Dive AI Chapters Transcript

People

Ankur Goyal

Elad Gil

Topics

Elad Gil介绍了Braintrust公司及其产品，指出Braintrust是一个端到端的企业平台，用于构建AI应用程序，帮助公司高效评估和管理复杂的、非确定性的AI应用程序。Braintrust帮助像Notion、Airtable、Instacart、Zapier和Vercel这样的公司进行评估、可观测性和提示开发。Ankur Goyal分享了他对AI工具和编程语言新兴趋势、开源的兴起以及数据基础设施未来的见解。他还谈到了构建有弹性的AI产品、他作为CEO的编程理念以及初创公司初始客户群的重要性。 Ankur Goyal详细阐述了Braintrust的产品功能和发展历程，以及在AI产品开发中遇到的挑战和解决方案。他指出，AI产品开发中评估的难题在LLM出现前后都存在，且持续存在。Braintrust最初的原型虽然粗糙，但由于满足了市场需求，得到了用户的认可和使用，并不断迭代改进。他解释了指令微调和微调的区别，以及为什么大多数客户转向指令微调。他还谈到了开源模型的应用现状、数据基础设施的未来发展以及如何构建AI团队。他分享了他作为CEO的编程经验，以及如何与客户合作，并对Braintrust的未来发展方向进行了展望。

Deep Dive

Chapters

Ankur Goyal, CEO of Braintrust, discusses the company's origins, its mission to help companies build AI applications at scale, and the challenges of evaluating and managing complex AI applications. He highlights the consistent need for robust AI evaluation tools across various stages of AI development.

Braintrust helps companies like Notion, Airtable, Instacart, and Zapier deploy AI solutions.
The company's initial prototype was quickly adopted by users.
The problem of AI evaluation is harder than it seems, requiring consistent and standardized methods.

Shownotes Transcript

今天在No Priors节目中，Elad邀请了Braintrust的创始人兼首席执行官Ankur Goyal。Braintrust使Notion、Airtable、Instacart、Zapier和Vercel等公司能够通过高效评估和管理复杂、不确定的AI应用程序来大规模部署AI解决方案。Ankur分享了他对AI工具和编码语言的新兴趋势、开源的兴起以及数据基础设施未来的见解。Ankur还反思了构建弹性AI产品、他作为首席执行官的编码理念以及初创公司初始客户群的重要性。每周注册新的播客。将反馈邮件发送至[email protected]在Twitter上关注我们：@NoPriorsPod | @Saranormous | @EladGil | @Ankrgyl节目要点：(0:00) 简介(0:38) Ankur加入Braintrust的历程(3:05) Braintrust的解决方案(5:46) AI工具趋势 (7:58) 指令微调与微调(8:57) 开源AI的采用 (10:42) 数据基础设施和合成数据的未来(14:45) 设计技术面试(18:04) 重新思考基于代理的方法(19:34) 建立AI团队(23:35) TypeScript作为AI的语言(25:12) 远离使用框架的转变(26:02) 企业间的供应商整合 (27:16) 作为首席执行官的编码(30:16) 与客户合作(33:00) Braintrust和评估的未来</context> <raw_text>0 哦，不。

所以在今天的NoPriors节目中，我们邀请了Ankur Goyal，他是Braintrust的联合创始人兼首席执行官。Ankur之前是SingleStore的工程副总裁，也是Impira（一家被Figma收购的AI公司）的创始人兼首席执行官。Braintrust是一个端到端的企业平台，用于构建AI应用程序。他们帮助Notion、Airtable、Instacart、Zapier、Vercel等许多公司进行评估、可观察性和提示开发，以用于其AI产品。Braintrust刚刚从Andreessen Horowitz等公司筹集了3600万美元。

Ankur，非常感谢你今天加入No Priers节目。很高兴来到这里。你能告诉我们更多关于Braintrust的信息吗？它的产品是做什么的？我们可以谈谈你如何开始从事这个领域以及更广泛的AI领域的工作。当然，我从现在人们可能认为是古代历史的时候就开始研究AI了。早在2017年，当我们开始研究Empira时，情况完全不同。但是

仍然很难交付有效的产品。因此，在我们开发AI产品时，我们在内部构建了工具来帮助我们评估事物、收集真实用户数据、使用它来进行更好的评估等等。几年后，Figma收购了我们，我们实际上遇到了完全相同的问题，并构建了几乎相同的工具系统。

我认为这很有趣，原因有几个，其中一些你也在我们闲聊时指出来了。但是，首先，Empiro属于LLM之前的时代。我在Figma工作的时间是LLM之后。但是这些问题是一样的。我认为这暗示了一些持久性。LLM之前存在的问题现在很可能在LLM领域还会存在一段时间。

第二点是，你知道，基本上两次都构建了相同的工具，很明显存在着相当一致的需求。所以，你知道，我对我们俩一起闲聊，与很多人交谈，比如Zapier的Brian和Mike，Notion的Simon等等，以及交谈的回忆非常美好。

我过去做过很多用户访谈。我从未见过任何事情像Braintrust早期的想法那样引起共鸣，而且每个人都渴望找到一个好的评估问题的解决方案。所以我们开始工作，说实话，我们构建了一个非常糟糕的初始原型，但是人们开始使用它。Braintrust仅仅一年多后，现在已经根据人们的反馈、抱怨和想法迭代成我认为非常强大的东西。是的，这就是我们开始的方式。是的，我记得我们在公司或想法的早期对话中，甚至可能打算将其开源。这是我第一次参与某种客户电话，人们会说，我们不希望你开源它，这让我非常惊讶。人们真的坚持说，我们希望这个东西能够长期存在。我们愿意为此付费。

所以这是一个非常有趣的市场调查。你认为为什么对这个东西有这么大的兴趣或需求？或者，你知道，Braintrust是做什么的，它如何真正影响你的客户？你知道，我们许多客户，早期的客户，在我们与他们接触之前就已经构建了Braintrust的内部版本。而且

这里有一些事情从中显现出来。一个是它帮助他们了解问题的难度。评估听起来很容易。哦，这只是一个for循环。然后我查看控制台日志中的for循环，然后查看结果。

但现实情况是，你评估的速度越快，查看评估结果的速度越快（当你开始使用代理时，评估结果会变得非常复杂），你实际上迭代和构建东西的速度就越快。要做好评估实际上是一个相当困难的问题。我们许多早期客户，你知道，

他们都是AI工程的先驱，他们已经艰难地学到了这一点。我认为另一个问题是，人们，特别是像Brian这样的人，他们看到AI将成为整个组织中的一种普遍技术，而不仅仅是Brian可能与一个团队一起照看和工作的项目。

拥有一种真正一致且标准化的做事方式非常重要。我记得早期，Brian向我展示了Vercel的文档，他说，我喜欢的一件事是，当新的工程师现在构建UI时，他们会阅读这些文档，并学习构建Web应用程序的正确方法。你也可以在AI中获得这个机会。我发现这实际上非常激励人，并且真正影响了我们思考问题的方式。

这很有道理。我想如果你要将GPT-4替换为Claude，或者更改模型，或者更改提示，那么它就能帮助你真正理解它是如何传播的，哪些用户结果更好，哪些结果更差，以及如何对其进行故障排除。然后感觉你围绕它构建了一系列其他产品，这些产品确实有助于支持它。构建AI产品时，最大的问题之一是对质量的不确定性。例如，你可能会

对某个功能感到兴奋，构建一个原型。它在几个例子中有效。你将其交付给一些用户，然后你意识到它实际上效果并不好。从原型到系统地以优秀的方式工作，这真的很难。我认为

我们帮助公司做的事情基本上是使这个过程清晰化。因此，不必担心“嘿，我发布了一些东西，我不知道我是否能够让它运行良好”，你可以实现一些评估和Braintrust，然后转动曲柄，获得非常非常好的输出。你知道，你与许多我认为是最早将AI应用到自己产品中的公司合作。换句话说，他们实际上已经发布了包含AI的产品，并且他们是第一波。就像

Notion、Airtable、Zapier等公司一样。你认为有多少比例的客户正在采用人们经常谈论的一些东西？所以这将包括微调、RAG或构建代理等内容。你认为这是一组非常常见的事情吗？或者你认为这只是炒作？因为我认为你对企业市场的至少一部分有一个非常清晰的认识，了解人们实际上在做什么。毫不含糊地说，人们正在做RAG。所以这一个很简单明了。

在我们看到的生产用例中，大约有50%涉及某种形式的RAG。微调很有趣。我认为很多人认为微调是一种结果，但它实际上是一种技术。人们正在寻找的结果是其工作负载的自动优化。微调是一种方法，而且是一种非常非常困难的

自动优化用例的方法。我认为我们与我们的客户一起，每两到三个月就会对他们工作负载上的微调进行重新基准测试。有一段时间，GPT 3.5微调出现时

在GPT-4易于执行之前出现。现在运行GPT-4.0实际上非常便宜，但是有一段时间很难获得GPT-4访问权限，而GPT-3.5微调是一种方法，对于某些用例来说，它是提高质量的唯一手段。但从那时起，你知道，老实说，我认为我

几乎所有，如果不是全部，我们的客户都已从微调模型转向指令微调模型，并且看到了非常好的性能。我们甚至在早期就讨论过这个问题。我记得当我们考虑Braintrust时，我们想，哦，天哪，每个人都需要使用它来微调模型。这是我们考虑构建的第一个功能之一。

而且，你知道，没有人，没有人真的在做。你能为听众解释一下指令微调和微调的区别吗？是的，我认为这就像编写Python代码和创建FPGA之间的区别一样。因此，使用指令微调，你所做的只是修改提示以包含有关其应如何自动运行的示例。

在某些方面，它实际上与微调非常相似。你正在收集指导模型应如何运行的数据，然后将其馈送到某种程度上推动模型朝该方向运行的过程中。

微调是一个更低级别的过程，你实际上是在修改或补充模型中的权重，以便它根据这些示例进行学习。因为它处于如此低级别，所以它往往更慢、更昂贵。你知道，

在微调过程中有很多方法会损害模型，并使其在现实世界的用例中变得更糟。因此，要做好它要困难得多。MARK MANDEL：然后你是否看到很多开源的采用，还是主要使用专有模型？你是否还看到人们现在正在采用其他早期技术？CHRIS BANES：我们非常接近开源模型的分水岭时刻。就像我们在Anthropic发布Cloud 3时看到的分水岭时刻一样，尤其是Cloud 3.5。

Sonnet确实起飞了。我认为我们与Lama 3.1非常接近，但我们还没有达到。因此，我们看到对开源模型的实际采用非常有限，但我认为兴趣比以往任何时候都大。我认为你看到很多东西也仅仅是在生产中，对吧？所以在某种程度上，开发者社区围绕着人们正在使用、采用和玩弄的东西进行了大量的讨论。

然后我认为你真的专注于正在发布AI产品的企业的市场。而且，你知道，它也可以被黑客和开发者使用，但是你的很多用户也是那些拥有生产中事物的人。因此，它在某种程度上反映了大型实时系统的现状。我是一名开发者，我喜欢开源软件。我有一个……

很难接受这样一个事实，即每次我使用OpenAI模型时，我都需要按令牌付费。但是当我查看数字时，当然，我也与我们的客户一起查看过。在某些情况下，它非常便宜。在非常昂贵的情况下，投资回报率实际上非常高。因此，我们的大多数客户都非常非常专注于为他们的客户提供尽可能最好的用户体验。最快的方法

为他们的开发者迭代速度，其他一切都是次要的。因此，我认为在开源能够真正推动这两个轴之一的改变之前，它将很难被广泛采用。你职业生涯的另一个地方是数据库和数据基础设施等方面。因此，你在Single Store担任工程副总裁，我认为

以拥有一个卓越的以数据库为中心的团队而闻名。你如何看待当今AI世界中存在的数据基础设施？需要什么？缺少什么？什么有效？什么无效？变化在于人们在数据仓库中囤积了大量半有用的数据。在LLM之前，

实际上有一个围绕AI的整个行业，例如DataRobot这样的公司会介入并帮助你根据你在你超级专有的数据仓库中收集的这些专有的结构化数据来训练模型。我认为关于LLM的一个重要见解或疯狂的非直觉的事情是，在互联网上训练的东西

优于企业可以使用他们自己的数据在数据仓库中训练的数据所产生的东西。我认为不仅数据处理问题的性质不同，

而且数据的价值以及我们如何看待数据的价值也大相径庭。仅仅囤积关于你的索赔历史或交易历史的数据，实际上可能并没有那么有用。真正的问题是，你如何构建一个真正擅长推理你正在处理的问题的模型？我认为企业将收集

收集数据并将其用于这些AI流程的方式并不像对在Amazon等地方运行的数据仓库进行ETL那样。我认为这将完全改变。我已经看到，你知道，很多存储在Braintrust中的数据通过人们的日志，实际上从未进入数据仓库。人们，他们真的不在乎，因为如果他们把它放在数据仓库里，他们会用它做什么？你认为从数据基础设施的角度来看，缺少什么？所以我认为根据你的观点，有几个不同的步骤。有一些数据清理步骤。有一些存储层。有不同形式的标记等等，

你认为所有这些部分在未来几年将如何发展？然后我想与之相关的是，人们一直在谈论的另一个话题是合成数据以及它在未来将如何重要。我很想知道你对这些不同领域的看法。纯粹从数据的角度来看，重要的是要考虑你将如何使用数据，然后基础设施如何支持它。所以……

数据仓库实际上是为结构化数据的即席探索而设计的。这两件事在AI领域都不相关。你正在处理大量文本，并且你没有使用SQL查询来即席探索它。我们实际上看到最先进的公司正在做的是实际上使用嵌入和模型本身来帮助他们

筛选大量数据，例如查找客户支持票证，这些票证在其用于评估的数据中或其微调数据集中没有得到很好的体现。而且

尝试找到这些示例并使用它们。因此，我认为工作负载将发生变化。而且我认为LLM，特别是嵌入，将成为人们实际查询数据核心的方式，而不是传统的代数关系索引。这将是一个巨大的转变。我认为

关于向量数据库以及传统数据库是否会执行向量数据库操作存在巨大的争论。我认为这场辩论有点愚蠢。我认为关系数据库完全能够向其中添加HNSW索引。真正会被破坏的是OLAP工作负载。所以关系型数据库，你不能仅仅将

语义搜索和一些东西添加到传统数据仓库的架构中。我认为这实际上需要改变的东西比OLTP工作负载要深得多。从某种意义上说，这是你的第三次创业经历，对吧？你很早就加入了MemSQL/Single Store。你创办了Pure，后来被Figma收购。你现在正在做Braintrust。你从这次新的创业中带走了哪些共同点？例如，你在早期实施了什么？你避免了什么？你知道，我的一件事，我在MemSQL中真的认为理所当然，但我们在Braintrust中重新实现了它，那就是进行非常困难的技术面试。嗯，MemSQL，也许，也许我们做得有点过火了，但它确实以非常强大的技术实力而闻名。我认为我们的面试反映了这一点。嗯，这实际上是我们做的第一件事，嗯，

Manu和我可能花了二到三天的时间来研究一系列非常非常困难的面试问题。我认为重要的是你要把技术标准定得很高，并努力找到被它吸引的人。实际上，

例如，如果你在Braintrust进行前端面试，其中一个问题涉及编写一些C++代码。我们因此失去了很多候选人。但这是一个很好的信号，表明Braintrust可能不是你工作的正确地方。因为我们确实喜欢雇佣那些愿意在他们不熟悉的堆栈领域跳来跳去的人。所以，你知道，我认为这是最重要的事情之一……

呃，我们已经延续下来了。我认为我们在Impira和MemSQL做得非常好的一件事是与我们的客户建立一种痴迷的关系，并且真正非常专注于使他们成功。有时很难优先考虑客户反馈并考虑，你知道，10个客户要求10件不同的事情。我该怎么办？所以在Braintrust，我们实际上非常谨慎地选择我们优先考虑的客户，尤其是在早期，并假设，你知道，Zapier和Notion等世界上的公司将具有非常相似的用例，并且

因此，如果你专注于这些类型的客户，那么当他们要求一些东西时，你可以很容易地假设其他类似的客户将遇到同样的问题。这使我们能够在构建一个为更多客户重复的产品的同时，非常以客户为中心。现在我们看到的是，你知道，下一波使用AI构建产品的公司，包括初创公司和更传统的企业，他们实际上希望能够

像他们最欣赏的产品一样设计工程，其中大部分使用Braintrust。因此，许多这些最佳实践现在都内置到产品中，下一批公司能够直接使用它们。是的，这很有趣。我觉得即使在公司第一次将LLM用于实际产品时，他们也会遵循相同的创业历程，或者我应该说技术历程。

最初，他们会至少在当时，他们会研究微调或某些开源模型或其他东西。

他们最终会意识到他们应该只使用GPT-4，这是当时的主要模型。然后他们会经历一个大型循环，开始构建内部工具，然后意识到他们的重点应该放在产品上。这完全是一样的历程。我记得在他们与Braintrust的早期客户对话中，你与他们交谈，他们会说，哦，我们不需要这个。然后三个月后，他们会打电话说，好吧，我们真的需要这个。时间总是大致相同。

你今天是否看到了任何常见的模式，例如，现在已经使用LLM一年或18个月的公司，他们总是遇到同样的问题？有几件事。一个是那些已经深入其历程的公司，他们有一到两个非常成熟的北极星产品，他们正在努力弄清楚如何将这些产品提升到下一个阶段。我看到的最一致的事情是公司从

完全自由形式的代理将解决他们所有问题的幻想中退缩。所以我想也许大约两三个月前，许多先锋公司都深入研究了代理技术。他们意识到，哇，这实际上不是……

这不是正确的方法。很难控制性能。错误率非常高，并且会很快累积。因此，大多数这些公司都已退缩，并尝试构建不同的架构，其中控制流实际上是由他们的代码确定性地管理的，但他们在产品的整个架构中都进行了LLM调用。

所以现在我们看到的最重要的事情是，我不知道是否有一个合适的术语来形容它，但也许是这种在整个产品中普遍存在的AI工程，而不是试图将所有东西都塞进代理的while循环中。是的，我过去也听你谈到过AI团队在公司中扮演的角色的演变。

所以我想如果你回顾几年前，人们正在做机器学习，他们会雇佣一个大型MLOps团队。然后他们每天所做的事情与他们在采用AI的背景下所做的事情大相径庭。甚至你如何看待这个角色以及应该雇佣谁也可能发生了一些变化。你能谈谈一下吗？

你如何看待数据科学团队、数据团队、ML或AI团队等角色的演变？是的，我认为真正有趣的是，许多LLM的早期采用者没有任何ML，你知道，

当ChatGPT出现时，现在是什么时候，将近两年前。这些公司能够快速发展，因为他们从一张白纸开始。我认识的许多聪明的经典机器学习人员或数据科学家现在已经转变了

但实际上，他们早期存在很大的抵制，认为LLM不擅长我们试图解决的问题，或者它可能是一个骗局等等。你认为这仅仅是因为传统ML的问题集与Gen AI可以做的事情不同吗？或者你认为是其他原因？我自己也经历过这个过程，看着我们在Impira构建的用于文档提取的技术变得完全无关紧要。而且

我个人认为这是一件情绪化的事情。你第一次尝试GPT-3。首先，至少在当时，它有点刻薄。所以这有点烦人。而且它在所有方面都比你能训练的任何东西都要好得多。而且

我认为这对许多公司、许多人的个人身份来说是如此根本性的颠覆。如果你已经从事AI和ML一段时间了，那么要理解它并不容易。所以，我认为这主要是一件情绪化的事情。你可以争辩说存在成本、安全、隐私等因素，但是那些处于领先地位的公司能够很快地解决这个问题。嗯，

现在我认为更多公司已经走完了这段旅程，我已经看到许多非常聪明的ML和数据科学人员接受了LLM，并带来了仍然与评估、测量、原型设计等相关的许多严谨性。

并成为这些AI平台团队。通常它是由具有产品工程背景的人员和一些具有统计学或数据科学背景的人员组成的组合。他们首先为公司构建一种类似于标志性产品的东西，然后他们发展成为一个平台团队，使下一个项目能够真正成功。

随着AI变得越来越普遍，我们看到许多这样的团队正在形成。所以如果你现在要进入一家企业公司，并且要尝试采用AI或LLM，你会需要雇佣谁，或者你会将哪些能力转移到这个平台团队中？我会从一群非常聪明的产品工程师开始，因为你需要首先问自己的问题是，

我的产品或我提供的任何东西的哪些部分可以被现代AI吞噬或完全改变。产品工程师通常是考虑这个问题的最佳人选。你可以通过一个非常好的UI和非常基本的AI工程来走得很远，这可以证明一个概念是可行的。我认为

我们已经看到了一些很好的例子。例如，我知道vZero在这一点上确实是一项令人难以置信的工程，无论从AI的角度还是从UI的角度来看都是如此。但在早期，它很简单。这是正确的开始方式。然后我认为当你找到产品市场契合点时，这是开始考虑更多

更多严谨性的时候了，考虑微调，你知道，也许我们应该使用开源模型来降低成本，或者其他什么。尽管我认为没有多少人走到了这一步。我认为你说过TypeScript是一种AI语言，而Python是一种机器学习语言。是的。呃，你能详细说明一下吗？首先，呃，我们的大多数客户都使用TypeScript，嗯，

早期，我们的一些客户正在处理，我们应该使用TypeScript还是Python？有些团队使用TypeScript，有些团队使用Python。现在，几乎每个人，包括以前主要使用Python的人，现在都使用TypeScript了。

我认为这将继续下去。原因有几个。一个是TypeScript是产品工程的语言，而产品工程师是推动大多数AI创新的人，至少在我们参与的世界中是这样。因此，他们只是将AI生态系统带入他们的世界，这正在推动许多TypeScript的发展。

另一件事是，TypeScript作为一种语言，由于其类型系统，天生就更适合AI工作负载。因此，类型系统基本上允许你将来自AI模型的疯狂内容转换为其余软件系统可以使用定义良好的结构。Python有一个相当不成熟的类型系统。他们正在改进，而且当我发布关于这个内容的帖子时，我总是会在Twitter上受到嘲讽，那些人提出了某些有效的论点。但是TypeScript对于编写处理不确定数据形状的软件来说，要好得多得多。我认为这实际上是它的全部意义所在。因此，我认为它实际上是一种更适合处理AI的语言。你是否看到语言、工具或其他方面有任何其他变化？

在这一波AI浪潮中发生了什么？是的，我认为过去六个月我看到的最重要的事情是人们放弃了使用框架。早期，我认为人们认为AI是一件非常独特的事情，并且

就像 Ruby on Rails 或其他框架一样，我们将需要使用新型框架构建新型应用程序才能构建 AI 软件。实际上，我认为人们已经从这种想法中退缩了，他们现在认为 AI 就像其整体软件工程的核心部分一样。因此，AI 现在正在人们的代码库中普遍传播。

它不受单一框架所能创建内容的限制。除了 Braintrust 从工具角度涉及的领域之外，您认为人们开始使用的其他有趣的平台、方法、产品或基础设施还有哪些？我认为我们从许多客户那里看到的是供应商的整合。这非常有趣。

很大程度上是由 AWS 推动的。因此，AWS 现在凭借其在 Bedrock 上的 Anthropic 又重拾了其魔力，Anthropic，你知道，尤其是 Cloud 3 和 3.5 真的非常好。所以……

因为许多公司在 AI 之前就已经整合了他们的供应商，AWS 非常强大。现在你实际上也可以将很多 AI 东西整合到 AWS 上。我们看到供应商整合非常剧烈。我们与一些公司进行了交谈，他们的 AI 供应商是……实际上是 OpenAI、AWS 和 Braintrust。几乎所有其他供应商都已整合。所以……

你知道，看看会发生什么将会很有趣。我当然不会低估 AWS 和超大规模公司，尤其是在基础设施方面。我认为引人注目的一点是，作为 CEO，你仍然要花多少时间编写代码。许多不同公司的 CEO 在职业生涯中都会在不同程度上继续编写代码。你知道，Shopify 的 Tobias 就是一个有趣的例子。

您如何看待在编写代码、营销以及为公司做其他事情之间分配的时间，以及为什么关注这一点？我对这个问题的看法随着时间的推移发生了很大变化。当我年轻得多的时候，我开始领导 SingleStore 的工程团队，然后成为 CEO。人们……

人们会给你关于你应该如何利用时间以及你应该雇用谁之类的传统建议。而且，嗯，首先我认为 CEO 的形象正在发生变化。其次，我认为市场正在发生变化。在我们所处的企业软件领域，

人们非常关心他们正在使用的 UI 的抛光度。我认为像 Notion 这样的公司已经真正提升了人们对这些产品的品味。但是当……

许多风投公司正在积累他们的经验并观察他们最终会在其投资组合公司中强制执行的模式。情况大相径庭。IT 购买企业软件，他们根据产品经理提出的清单购买软件。所以我认为很多事情都变了。对我来说，通过深入参与产品来参与这种变化感觉非常自然。而且

尽管我在过去十年里努力尝试过，但我就是做不到。我认为我只是真的沉迷于编写代码。对我来说，这是参与我们公司正在做的事情最快、最高效和最令人愉悦的方式。因此，与其试图改变这一点（我已经做过），在 Braintrust，我们已经

设计了公司来支持我花大量时间编写代码。例如，我们聘用的第一批人之一是 Albert，他以前是投资者和投资银行家。在此之前，他非常擅长从销售、营销、处理运营、帮助招聘到

与他合作让我腾出更多时间去做这类事情。而在 Empira，我可能每天有一半以上的时间都在做这些事情。是的，我们之前在 NoPriors 上邀请了 NVIDIA 的 Jensen Wang。我认为他分享的一个很少听到的观点，你现在也回应了，你应该真正围绕 CEO 来设计公司。

而不是每次都遵循相同的模式来确定对公司来说正确的事情。显然，有些领域你必须每次都做同样的事情，比如销售佣金。尝试重新发明它真的没有意义。每个人都会为他们的第一个创业公司尝试这样做。到了第二个创业公司，他们就会想，我为什么要尝试呢？它就这样起作用了。但另一方面是有些事情可以委托或不可以委托。有些事情可以微观管理，有些事情不可以微观管理。这真的因人而异，也取决于他们喜欢做什么，以及

你知道，所有其他事情。嗯，您在处理 Braintrust 和 Empira（例如您之前的创业公司）方面还有哪些其他重大区别？Braintrust 非常看好的一件事是人们在办公室里，并且非常乐意接受被打扰。嗯，对于我们在 Empira 的来说，这两场战斗非常艰难。因为你知道，我们对此并不坚定。嗯，我认为第二个实际上更有趣一点。嗯，

在 Braintrust，如果客户抱怨某些事情，或者他们发现我们 UI 的某些方面很烦人，或者他们有想法，我们几乎总是会立即修复它，嗯，

这对许多工程师来说非常不舒服。但对于合适的工程师来说，他们一生都在渴望这种体验。因此，我们精心挑选那些想要在这种环境中工作的人。然后，我们再次设计我们的路线图，并考虑如何分配我们的时间等等，以便能够支持这一点。我认为这是关键的

这使得产品真正出色，也为我们的客户创造了大量好感。并非每个人都必须拥有相同的优势，但我认为你必须拥有一些优势。因此，我们很早就确定了我们真正关心的事情。同样，就像招募了一支真正想要这样做的人组成的团队一样。是的，我想这转化为客户采用和您获得的一些标识。还有哪些其他因素有助于推动

客户获取？而且，你知道，你采用了一些独特的方法来处理市场营销。是的，我的意思是，我认为我去了 Elad 的“苦难学校”，并从你那里学到了很多东西。但是，你知道，我们所做的事情是，我们列出了大约 50 个人，我们认为他们引领着 AI 的发展。而且

并说，你知道，让我们尝试找到一种方法来接触这些人，并将其招募为投资者或客户。我认为这可能是我们所做的最重要的事情之一，如果不是最重要的事情的话。例如，有些人对 Braintrust 感到兴奋。我们已经认识他们一段时间了。他们投资了，他们说，你知道吗，我们已经在内部构建了自己的版本，或者我们不关心这个，但我们认为

其他人会需要它。所以我们很乐意投资。实际上，许多人现在也开始使用 Braintrust 了。因此，只是对……

我们的目标市场是谁非常谨慎。从某种意义上说，50 家公司并不是一个巨大的 TAM，但这些公司非常有影响力，并且已经带来了越来越多的客户。所以我认为这是最重要的事情。是的，感觉人们真的误解了他们最初的客户范围或他们想要瞄准的人。因此，他们要么范围太广，要么什么都做，从财富 500 强到小型创业公司。然后他们并没有真正为任何特定用户构建产品，或者他们

过于具体，甚至可能在一个不值得追求的细分市场中。因此，看到人们如何看待这一点非常有趣。你能告诉我更多关于你对 Braintrust 未来看法的看法吗？它作为产品和平台是如何发展的？然后它随着 AI 的变化而如何变化？

所有评估最终都由机器完成了吗？未来对我们有什么影响？我每个月都会问自己这个问题，令人惊讶的是变化很少。但是 Braintrust，我们一开始是通过解决评估问题来启动的，我认为我们做得很好。我们意识到，实际上人们想要一个完整的平台。我们的一个客户，

实际上是早期的 Airtable，他们使用我们的评估产品来进行可观察性。因此，他们每天都会创建实验，就好像它们是评估一样，并将他们的日志转储到这些实验中。但是

当有人开始这样做时，很明显他们试图在你的产品中进行可观察性。我们深入研究了原因。事实证明，在 AI 中，可观察性的重点是将数据收集到可用于进行评估的数据集中。然后，最终可以微调模型或进行更高级的事情。但是，你知道，评估仍然是最重要的因素。接下来发生的事情是，我

你知道，我们的一些客户说，嘿，实际上，嗯，我已经在 Braintrust 中进行了可观察性和评估等操作。我在这个产品上花费了大量时间，嗯，

为什么我必须回到我的 IDE，顺便说一句，它对我的评估一无所知。它对我的日志一无所知。嗯，我可以在 Braintrust 中处理提示吗？我可以重现我实时看到的内容吗？我可以保存提示然后自动将它们部署到我的生产环境中吗？实际上，这让我很害怕，你知道，仅仅从我的传统，现在是老式的工程角度来看。嗯，但这是人们想要的，而且，你知道，

我最近与 Martine 进行了交谈，他最近成为 Braintrust 的每日活跃用户。你知道，他现在每天花一半时间在 Braintrust 的 AI 城中摆弄提示。因此，即使是像我们这样的老式工程师，这绝对是正确的做法。我看到 Braintrust 正在发展成为这种混合环境。

在某种程度上，它有点像 GitHub。你，你知道，创建提示。现在你可以使用 Python 代码和 TypeScript 代码创建更高级的功能，并将其与产品中的提示结合在一起，一直到评估和可观察性。我认为我们非常高兴能够为 AI 构建一个通用的开发人员平台，你

在质量方面，经历过 LLM 时代之前，我实际上认为关于质量的许多焦虑和预测与 LLM 时代之前完全相同。即使我们在 Empira 做文档处理工作时，人们也会说，哦，嘿，从现在起六个月内，所有文档都将被完美提取。

顺便说一句，LLM 非常棒，但文档处理仍然不是一个完全解决的问题。我认为这是因为人们会利用他们拥有的任何技术并将其推向极致。人们今天正在尝试做的事情已经超出了极限，例如 AutoGPT 就是一个很好的例子，我认为这是一个非常有成效的实验，它将 AI 推向了极致。

它可以合理地做到。但是人们总是会把事情推向极致。AI 本质上是非确定性的。所以我认为评估仍然会存在。我们可能只是在评估越来越复杂和有趣的问题。那么你认为

将在评估本身中扮演什么角色？我的意思是，AI 已经自己进行评估了。这与传统的数学非常相似。我认为，你知道，如果你正在做数学作业，如果有人给你一个证明来验证这个证明，那就比实际生成一个证明容易得多。同样的原理也适用于 LLM。对于 LLM，尤其是前沿模型来说，查看 LLM 的工作要容易得多

你知道，它自己或另一个 LLM 并准确地评估它。所以情况就是这样。我认为人们在 Braintrust 中进行的评估中，可能超过一半是基于 LLM 的，而且

我认为随着 LLM 越来越好，以及 GPT-4 的质量越来越便宜，正在发生的一些有趣的事情是，人们实际上开始对他们的日志进行基于 LLM 的评估。现在你可以在 Braintrust 中做的一件非常酷的事情是，你可以编写基于 LLM 和代码的评估器，然后在你的日志的一部分上自动运行它们。

有时这实际上甚至允许你评估你被禁止查看的内容。嗯，LLM 被允许读取 PII，你知道，处理某些东西并告诉你你的用例是否有效，但公司中的任何开发人员或人员可能都没有。所以我认为这是一个非常有趣的解锁，并且可能代表了人们至少在未来一年中会做的事情。非常有趣。嘿，Ankur，非常感谢你今天加入我们。谢谢你的邀请。

在 Twitter 上关注我们 @NoPriorsPod。如果你想看到我们的脸，请订阅我们的 YouTube 频道。在 Apple Podcasts、Spotify 或你收听节目的任何地方关注该节目。这样你每周都会收到一集新剧集。并在 no-priors.com 上注册电子邮件或查找每集的文字记录。

Launching AI products with Braintrust’s CEO Ankur Goyal 38:28 Share

No Priors: Artificial Intelligence | Technology | Startups

Deep Dive

Shownotes Transcript

Launching AI products with Braintrust’s CEO Ankur Goyal