We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI Apps Are Broken — Here's How To Fix Them

2025/5/23

Y Combinator Startup Podcast

AI Deep Dive AI Chapters Transcript

People

Alex Macaw

Pete Koomen

Tom White

Topics

Pete Koomen: 我认为我们目前在 AI 应用开发中没有充分利用 AI 的潜力，而是沿用了旧的软件开发技术。AI 真正的承诺在于，它应该允许用户使用自然语言来编程软件，从而实现他们想要的任何功能。在使用 Cursor 和 Windsurf 这样的 AI 工具时，我能感受到 AI 的强大，能够创造出我能想象的任何东西。但是，当我在现有的应用中整合 AI 时，体验却往往不尽如人意，使用 AI 甚至比我自己完成任务还要麻烦。例如，Gmail 集成的 AI 模型 Gemini 虽然非常出色，但其用户界面隐藏了它的强大功能，使用起来令人沮丧。理想的 AI 体验应该是 AI 能够根据我的情况，自动处理相关事务，并以适当的语气撰写邮件。AI 模型现在有能力预测并帮助处理我女儿生病后需要发生的所有事情，但我们还没有构建出这样的功能。Gmail 的 AI 助手在生成邮件时，会将我的提示与一个系统提示结合起来，这个系统提示定义了 AI 的角色和任务。我无法看到或编辑 Gmail 的系统提示，但可以推测它类似于“你是一个有用的邮件写作助手，负责代表 Gmail 用户撰写邮件”。结合假设的 Gmail 系统提示和我的用户提示，生成的邮件虽然合理，但听起来不像我写的。我们创建的系统提示是通用的、安全的，旨在避免让公司难堪，但这导致生成的邮件不像是个人会写的。如果 Gmail 允许我编辑系统提示，我可以将其个性化，使其更像我自己的写作风格。我可以告诉 AI 模型我是谁，我的写作风格是什么，这样它就能更好地模仿我的写作方式。通过编辑系统提示，我可以向 AI 模型解释我的写作方式，这样我就不必每次都这样做。AI 应用开发者将系统提示视为代码，用户无法访问，开发者负责定义系统。传统的软件开发方式是构建一种适用于所有用户的通用软件，但这往往导致软件的功能不够个性化。Gmail 的系统提示可以被看作是最低共同标准的邮件撰写者，虽然安全，但生成的邮件没有个性。我认为开发者们正在使用上一代软件开发的方式来使用 AI。就像我们学会使用电脑一样，我们也会学会编写提示语，因为界面会变得更好，技术也会进步。编写提示语非常直观，可以思考自己如何写邮件，然后观察 AI 是否能正确理解。用户可能不需要从头开始编写系统提示，而是希望产品能够根据他们过去的使用习惯生成草稿。AI 应用开发中缺少一个工具，那就是 AI 系统提示编写器，它可以根据用户的反馈自动编辑系统提示。我认为系统提示不应该像黑盒子一样，因为它们都是用英语写的，用户可以随时查看和修改。系统提示就像一份文件，用户可以选择不编辑，但在必要时可以进行修改。我认为五年后，99% 的人不会修改系统提示，但系统提示会根据他们的个人习惯进行定制。我希望开发者们不要把提示语当作黑盒子，能够看到 AI 被指示做什么是非常有价值的。

Deep Dive

Shownotes Transcript

我们使用旧的软件开发技术来构建这些功能，并没有真正利用人工智能的全部优势。我认为，对我们许多人来说，人工智能的承诺在于，它允许我们构建用户可以使用自然语言对其进行编程以执行任何他们想要的操作的软件。史蒂夫·乔布斯将软件描述为一种思想的自行车。这感觉就像，我不知道，像思想的火箭飞船一样。

欢迎来到另一期《深度剖析》节目。今天，我们很幸运地邀请到了我们在 YC 的合作伙伴 Pete Kuhman。Pete 是 Optimizely 的创始人，该公司开发了帮助公司进行 A/B 测试的软件。Pete，欢迎。谢谢。很高兴来到这里。Pete，你最近写了一篇文章，引起了不小的轰动，基本上告诉互联网上所有正在构建 AI 代理的人，他们完全做错了。所以，跟我们详细说说吧。当然。

当我日常生活中使用 AI 时，我有过两种截然不同的体验，对吧？一方面，当我使用 Cursor 和 Windsurf 等工具使用 AI 构建软件时，感觉它是我用过的最强大的工具，对吧？这是一种能够创造任何我想要的东西的感觉，任何我能想象的东西，你懂的，都会通过这些工具出现在我面前。这让我对 AI 如此兴奋。然后

我还有很多其他的经历，很多时候我使用的是我习惯使用的已经整合了 AI 的现有应用程序，根本感觉不到那种感觉。实际上，它感觉更像是一种苦差事，对吧？就像使用 AI 实际上比我自己做任何事情都要给我创造更多的工作。

我在文章中选择的例子是针对 Gmail 团队在其 AI 模型 Gemini 和 Gmail 界面之间构建的集成。这是一个可以创建图像的小型草稿写作代理

电子邮件草稿给我，给出一些指示。是的。底层的 Gemini 模型非常出色，对吧？Gemini 太棒了。模型本身绝对令人难以置信。我们在 YC 广泛使用它来自动化我们自己的工作。我对他们构建的东西印象深刻。但我认为，很多这样的力量都隐藏在一个难以使用的 UI 后面。这正是我的文章的重点。我作为例子选择的特性是这个小型草稿写作代理。

出现在 Gmail 界面中。它能做的是我可以输入一些指令。在这种情况下，让我老板加里知道我女儿今天早上醒来时得了流感，我今天不能来办公室。它会为我写出一封电子邮件草稿。让你的生活更轻松。让我的生活更轻松。没错。所以当我把这个提示

输入 UI。亲爱的加里，我写信通知你，我女儿今天早上醒来时得了流感。因此，我今天无法来办公室。感谢你的理解。此致敬礼。

皮特。如果我收到这个，我会想，“皮特的大脑被……控制了”或者他被钓鱼了，我需要举报钓鱼，就像有什么事严重出错了。皮特的账户被黑了，对吧。这有两个大问题。第一个问题是，就像你指出的那样，这听起来不像我，对吧？如果你收到这封邮件，你会认为其他人写的，我的账户被黑了，我被钓鱼了。第二个问题是，我用来解释我想要的东西的提示

解释我在草稿中想要的内容与草稿本身大致一样长。这就是我的论点，对吧？一方面，使用 AI 会让你感觉自己像是一个拥有无限能力的超人。另一方面，使用 AI 令人沮丧并增加了更多工作。也许我们有点超前了，但我认为理想的体验应该是这样的

告诉 AI，“嘿，我女儿病了，算一下我今天的日程安排，”然后它会查看你的实际日程安排，然后确定每个人，然后以适当的语气写出相应的电子邮件。也许我们直接跳到最后，但是……我认为这完全正确。这些 AI 模型现在能够做这样的事情，它实际上可以预测由于我女儿醒来时得了流感而需要发生的所有事情，并帮助我做这些事情。但这不是我们所构建的，对吧？这不是团队所构建的。

所以 Pete，像在 Gmail 工作的人，我认识很多人，他们不是傻瓜，对吧？一点也不。是的。我猜他们可能自己不使用这个功能，因为我不使用这个功能。那么我们是怎么走到这一步的呢？这是怎么回事？我认识很多在谷歌工作的人。他们非常聪明。为什么他们发布了一个表面上没有人（可能包括他们自己）实际使用的功能？我不知道。问题的一部分是

我们使用旧的软件开发技术来构建这些功能，并没有真正利用人工智能的全部优势。所以我会解释我的意思，对吧？我会回到这两个问题。让我们从语气问题开始，对吧？这听起来不像我。这是为什么呢？

好吧，当我要求这个 Gmail 代理提供草稿时，后台实际发生的事情是，这个 Gmail 代理，这个小 UI 将我的提示（我们刚才讨论过的那个）与所谓的系统提示结合起来。系统提示是向 AI 解释它是什么以及它的工作是什么的文本。每次都会重复使用它。在 Gmail 的情况下，

我实际上不知道该系统提示说了什么。它对用户隐藏了。我不允许查看它，更不用说自己编辑它了。但我们可以猜到它说了什么，对吧？你知道，我在文章中有一个略带讽刺的版本。这里的系统提示类似于：“你是一个有帮助的电子邮件写作助手，负责代表 Gmail 用户撰写电子邮件。”

按照用户的指示操作，并使用正式的商务语气和正确的标点符号，以便很明显用户非常聪明和认真。我实际上构建了一个小演示，以便您可以看到系统提示对电子邮件草稿的影响。对。因此，我们将我们所谓的 Gmail 系统提示与我在这里要求草稿的用户提示结合起来，然后生成草稿。

我们得到这样的东西，对吧？再说一次，这封电子邮件看起来很合理。它按照我的要求做了，但听起来不像我。所以，只是深入研究一下，我们正在猜测在这种情况下系统提示可能是什么。完全正确。但似乎我们的猜测很接近，因为输出基本上是你使用 Gmail 时得到的结果。相对相似。是的。所以，只是为了指出，

我们在这里创建的系统提示是一个通用的提示。它将以完全相同的方式应用于所有用户。这是一个安全的提示。你明确地告诉它，使用商务语气，看起来聪明和认真，不要说任何可能让该产品的母公司难堪的话。对于许多这样的公司来说，这必须是首要关注的问题，对吧？我们不希望 AI 说任何会让谷歌难堪的话。我记得是谷歌还是 Facebook 发布了一个

像一个科学模型，就像很早以前，然后非常非常快地撤回了它，因为它有时会说一些幻觉。所以我认为谷歌在这个转换器技术的领先地位，只是因为我太谨慎了，没有把东西放在那里。是的。是的。我认为这可能是很大一部分原因，那就是

我这里的小假设版本可能是不完整的。实际的系统提示中可能还有一大堆额外的文本，内容是关于不使谷歌难堪以及它应该避免做的所有不同的事情。如果你说任何关于桑达的坏话，你就会被解雇。我们最近看到系统提示有时会被泄露。这是一件大事，因为每个人都在说，“哦，我们现在看到了这个 AI 助手或那个 AI 助手的系统提示。”如果你阅读这些系统提示，是的，它们相当详细。他们有直接的……

避免某些问题的指示。你可以在那个系统提示中看到人力资源团队的印记。我认为这里有一个更深层次的问题，那就是我们正在设计

像这样的功能，看起来很像几十年来我们一直在构建的软件，对吧？所以为了说明什么是可能的，让我们想象一下，Gmail 允许我不但可以看到，还可以编辑我自己的这个系统提示。我可能会写一个版本，而不是说你是一个通用的 Gmail 写作，你知道，电子邮件写作代理，我是

我的版本可能只是说你是 Pete，对吧？你是一个 43 岁的丈夫。你是一个父亲。你是一个 YC 合作伙伴。你很忙。你和所有你与之通信的人一样忙。所以你尽最大努力使电子邮件尽可能简短，对吧？我在这里所做的是，我只是把我的大脑中用于写电子邮件的小程序拿出来。我已经尽力向 Gemini 解释我是如何做到这一点的。如果你只是把同样的用户提示用于请求草稿，呃，

一封解释我女儿生病的电子邮件，你使用我的系统提示而不是通用的“一刀切”

Gmail 系统提示，我们得到的草稿是，嗨，加里，我女儿得了流感，所以我今天不能来了。谢谢。这听起来像是我会写的一封电子邮件。通过编辑这个系统提示，我能够向 AI 模型解释我通常如何写电子邮件，这样我就不必每次都这样做。所以回到你的问题，为什么 Gmail 团队决定隐藏这个系统提示？我的说法是……

许多 AI 应用程序开发人员，包括在这种情况下 Gmail 团队，都以几十年来他们一直在处理代码的方式来处理系统提示。只要我们有软件行业，用户和我，开发人员之间就存在分工。用户看不到

用户看不到代码。开发人员是负责构建系统、定义系统的人。所有这些都被隐藏起来，并被抽象到一个我可以点击周围来做某事的界面后面。它或多或少是一个通用的软件。到目前为止，我们能够构建软件的唯一方法是“一刀切”，对吧？如果你正在构建在线银行软件或 AB 测试软件，你作为开发人员的工作是去与

数百或数千名用户交谈，并将他们所有的需求综合成一组你将在你的“一刀切”软件中构建的通用功能。某种最低限度的软件。没错。我认为，在这种情况下，Gmail 系统提示就是这样。你可以把它看作是最低限度的电子邮件编写器。这是安全的……

任何人都可以使用这个东西，但结果是没有人会实际编写电子邮件。是的，没有人会被解雇，但这并不是将统治世界的软件。这完全正确。你认为今天的开发人员正在使用上一代软件开发中的 AI 吗？

他们习惯了。是的。所以你，你使用了这个词组，“AI 马车”。也许告诉我们你的意思是什么。这是对早期汽车设计的参考，这些设计看起来很像，呃，

带有马匹的马车，马匹被发动机取代了，对吧？这种设计有很多问题。例如，马车上的悬挂较少，这在高速行驶时与振动电机一起使用时不起作用，对吧？重心较高，这使得高速转弯更加困难。基本上，发明发动机只是生产能够利用发动机动力的车辆所需工作的一小部分。只有在你重新设计了整个……

这完全正确，对吧？是的，我们在技术中一次又一次地看到这种现象。像我经历过的一些……

互联网出现时，许多第一批搜索引擎实际上就像数字化黄页一样。它只是一个列表目录。当然，现在我们认为，这很愚蠢。有点像 Craigslist，对吧？是的，这就是它开始的样子。当移动设备出现时，第一批移动应用程序，或许多第一批移动应用程序，基本上只是包装在原生应用程序包装器中的网站。但他们没有利用移动电话上可用的任何新技术，例如 GPS、多点触控。这需要……

通常需要几年时间才能获得新技术的实用部分。我想你声称，Pete，我们还没有到那里。我认为这里最深层次的问题是

当 Gmail 团队着手构建这个时，他们有点问，我们如何将 AI 放入 Gmail 应用程序？我们如何更换马匹并安装发动机？这完全正确。问题在于 Gmail 是一个为人类设计的工作应用程序，对吧？

我认为，对我们许多人来说，AI 的真正承诺是使用 AI 来自动化重复性的繁琐工作，对吧？我花在电子邮件上的很多时间都是重复性的繁琐工作，对吧？这项工作实际上并不需要我动用全部脑力，但因为我们没有这项技术，所以需要它，对吧？所以我在这篇文章中举了一个例子……

只使用这些简单的技术，你可以用电子邮件收件箱做什么。这是一个例子。这是一个电子邮件收件箱的例子。它在右侧有一堆邮件。并且

有一个代理在这个收件箱中运行，它不是电子邮件写作代理，而是一个电子邮件阅读代理，在左侧你可以看到这是一个我写的系统提示，它只是告诉这个代理如何处理每封电子邮件，代理可以为传入的电子邮件分配标签，它可以存档它，我可以在这个标签上添加颜色，并且

它可以写草稿，对吧？这些都是这个代理可以做的事情。我的指示只是每封电子邮件该怎么做。所以如果邮件来自我的妻子，则起草回复并将其标记为个人。如果来自我的老板，则起草回复并将其设置为优先级 1，对吧？这比来自我妻子的电子邮件只低一级。

对于我在 YC 工作的其他人，YC 标签并将其设置为优先级 2，对吧？如果来自需要帮助的创始人，则称之为，你知道，在其上添加创始人标签，使其成为，对吧？这是我的一种内部，再次，我组织电子邮件的心理模型。我只是向 Gemini 解释我是如何做这项工作的，以便它可以代表我做这项工作。

我发现有趣的一点是，这实际上是代码。这是你为这个代理编写的程序。但是如果你阅读它，它很容易理解，对吧？它说，如果它是与技术相关的电子邮件，则将其标记为技术。如果有人试图向我推销东西，则将其存档。这是一个很好的例子，说明 LLM 技术实际上足够好，可以让非程序员编写这些应用程序。你知道，我对这些模型的看法是，一个超级聪明、快速、

你知道，刚从大学毕业的新毕业生，可以做得很好，但不知道该做什么，你知道，缺失的一步是让我能够教会它如何做我不想做的工作，这就是我在这里所做的。你是对的。它完全可以访问。当我开始谈论让用户编写他们自己的系统提示时，我得到的一些反对意见是，嗯，大多数人不是技术人员。他们不知道如何做到这一点。

我认为这是真的。这不是我们与生俱来的技能，但在我自己做这件事的过程中，我发现它非常直观。这基本上就像考虑我如何做出决定，然后尝试向这个 AI 模型解释如何做到这一点。只要你可以观察它完成工作，并通过调整这个提示来提供反馈，它就非常直观。例如，当我将这个小代理应用于此收件箱中的每封电子邮件时，就会发生这种情况。太棒了。我喜欢这个……

这是一篇文章，但它不是静态的。我喜欢你构建这个小部件的事实，人们实际上可以进入，他们可以自己编辑系统提示以根据自己的需要重新格式化它并重新运行它。我认为这是一种传达这种想法的非常聪明的方法。我最喜欢的事情之一就是构建演示。这感觉像是一种直观的开始谈论其中一些概念的方法。

这只是另一个例子，说明当你在使用它时，当你在与这些模型交互时，AI 让你感觉有多强大。顺便问一下，你是如何构建这个的？我用代码编写了整个东西。所以我写了，你知道，这个，我的意思是，具有讽刺意味的是，这些 AI 模型实际上并不是那么有用，无法帮助你从头开始编写东西，对吧？我使用 AI 的部分是描述一个演示，

我认为这将有助于传达我试图表达的观点，然后观察它出现，对吧？这绝对是神奇的。令人惊讶的是这些东西有多好，尤其是编码代理。我的意思是，我重建了我的整个，我在 Tumblr 上，我将我的博客迁移到我在火车旅程中一小时内编写的自定义软件。编码代理尤其是在所有其他通用代理中遥遥领先。是的。对我来说，就像当每个人都知道

拥有与我们在使用这些 Coda 代理及其特定领域时相同的体验时，我们将赶上，对吧？所以当会计可以构建会计代理来代表他们完成所有重复性的工作流程时，当律师可以构建律师代理来完成重复性的工作流程时，我认为基本上每个行业都会有其 Cursor 时刻或 Windsurf 时刻。为什么 Cursor 或 Windsurf 或云代码如此领先于……

你知道，律师代理或会计代理？我认为有两个原因。首先，这些 AI 模型非常擅长处理文本，对吧？所以如果我可以写出我对想要的东西的良好描述，他们可以处理该描述，该提示，并将其转换为大量代码，对吧？这回到了为什么编写原始电子邮件提示如此烦人的原因，就像

这些代理不擅长从头开始写作。他们擅长处理指令并将它们转换为一些文本输出。对于代码来说，这实际上非常有用。如果我可以用英语描述我正在寻找的东西，代理可以输出执行此操作的代码，并且它非常有效。这只是一个这些代理非常强大的领域。但我认为另一个原因是开发人员工具是强大的工具。

开发人员工具，根据定义，允许你接触到底层，接触到你正在使用的任何东西的底层。因此，构建这些工具的团队允许我完全访问这个代理，让它做任何我想让它做的事情。他们没有花很多时间来确保我没有做任何会让 Windsurf 难堪或让任何人难堪的事情。我可以直接与模型交互并使用全部功能。

而我认为很多其他领域，我们仍然使用这种类似于“孩子手套”的心态，就像，哦，不要让他们使用这些模型的全部功能。我希望我们能够超越这个时刻，在这个时刻，应用程序开发人员对这些模型所做的事情承担了如此多的假设责任。好吧，我认为有趣的一点是，如果你确实改变了模型，让用户负责或至少可以访问系统提示，那么……

其后果将由用户承担，而不是由构建该工具的公司承担。是的，就像……

谷歌推出了 Gmail，如果你写一封充满亵渎的电子邮件，那是你的责任，对吧？完全一样。如果你更改系统提示以表现得像一个暴力混蛋，那是你的责任，而不是谷歌的责任。是的，这是一个心态上的转变，将 AI 作为工具提供给用户，他们可以将其用于任何目的，而不是感觉你作为开发人员必须对这些模型输出的所有内容负责，因此你削弱了它，它就变得没有用了。

所以我大体上同意你到目前为止所说的一切，但我有一些问题。第一个问题是，你认为绝大多数人都能够编写这种系统提示吗？我认为今天的答案是否定的。但我认为在不久的将来，答案是肯定的。

这是为什么呢？在我成长的过程中，计算机仍然被视为只有书呆子才知道如何使用的强大工具，对吧？而今天，情况已不再如此。我们所有人都在一直使用计算机。对于某人能够使用计算机来说，这已经不再引人注目或有趣了，对吧？所以发生的事情是我们都只是弄清楚了如何使用这些东西，并且界面得到了改进，对吧？技术得到了改进，我们及时学习了如何使用它，所以它是不引人注目的。

对吧？我认为同样的事情也将会发生在提示方面。我认为这实际上会更快地发生在提示方面，因为编写提示比在你的计算机上操作你的文件系统管理器更容易得多。你不需要理解太多，只需要能够用英语或你说的任何语言来解释自己。我自己做过几次之后，它

非常直观，对吧？考虑一下，好吧，我该如何写一封电子邮件？对吧？这是一个有点玩具的例子，但它很有趣。你可以为它编写你自己的内部算法，然后你可以观察。如果它得到了正确的语气，你的系统提示就是正确的。是的。我同意你的观点。我认为基本上每个人都能做到这一点。我不确定每个人都想这样做或拥有主动性或代理。就像我们三个创始人坐在这里一样。我们喜欢摆弄这些东西。就像你告诉我你妈妈使用……是的……

我妈妈每天都使用 Gmail，但她会编写系统提示吗？可能不会。可能不会。是的，也许吧。所以我不知道。我已经学会不要对用户可以学习什么感到悲观。但我同意 Rich 的观点，我认为我不希望从头开始编写我自己的电子邮件写作系统提示。我希望有这个选择，对吧？但我已经使用 Gmail 20 年了，对吧？有 20 年的电子邮件历史记录，一个好的……

产品可以使用它来为我创建一个草稿提示，对吧？这个想法，让我们做一个人的类比。你雇用了一名新员工，你雇用了一名助理。你将坐下来写出 30 页关于你如何做你生活中每一件事的说明的想法是可能的，但我们没有人真正这样做。你有点，你给这个逐步的培训。

如果他们能够通读你以前的所有电子邮件，他们就会学习。然后你逐步与他们互动。他们写了几封电子邮件，你检查了草稿。当你感到满意时，你说，我不再想检查草稿了，发送它。然后如果你发现有什么不对的地方，你说，哦，不，不，不。我会这样或那样表达。

而这个人会接受反馈并编辑他们自己的系统提示。所以 Pete，你一直在 YC 做这件事，对吧？你已经构建了一些我们的财务团队或法律团队使用的内部工具。感觉互动完全符合 Tom 刚才描述的情况，你实际上是坐在……

财务人员旁边，你问他们，嘿，告诉我你是如何做这个工作流程的，就像给我看看你是怎么做的一样。然后你为他们编写一些系统提示。他们尝试一下。它做得不太对。他们和你一起编辑系统提示。所以这是一种类似于你建议的来回迭代模型。是的。我会更进一步。我认为 AI 应用程序开发中缺少一个工具，那就是不是每个人身边都有一块披萨，但你可以在你身边放一个 AI 系统提示编写器来获取

你说，不，这不对，或者我会这样改写。它会将其翻译回系统提示并进行自我编辑或自动更新。绝对正确。对，这些都是很好的例子，嗯，UI 约定，我们还没有弄清楚。对。你可以看到人们正在尝试不同的模型。一些基础模型实验室已经开始在其聊天机器人中构建内存，对吧。这是一个，嗯，

一种机制，用于获取我一段时间以来共享的上下文并将其永久存储，对吧？我没有很好的体验，因为再次，它被视为一个黑匣子，我实际上无法看到它内部化了什么以及它存储了什么。我的主要论点是，因为这一切都只是英语，我们不再需要将这些东西视为黑匣子。

系统提示几乎就像这个文档，如果你不想编辑它，你就不必编辑它，但在极限情况下，如果真的出了问题，你就可以根据需要进行调整。但对于大多数人来说，AI 会自动生成它。它会查看你以前的工作以根据你的情况进行自定义，并持续不断地接收你的反馈以编辑系统提示。而一种“打破玻璃”的情况是你去编辑文件，然后说，“不，不，不，我真不想发生这种情况。”但是

我认为五年后，对于99%的人来说，他们不会直接接触系统提示，但系统提示会根据他们的需求定制。我认为这是可能的。看看事情将如何发展将会很有趣。我们在YC所做的一些工作，就是构建代理来自动化我们和我们的团队成员定期执行的一些重复性工作，

实际上让我觉得编写提示将成为许多人日常工作流程的一部分。我同意短期内是这样，但我认为我的论点是，在系统提示编写之上存在更高层次的抽象。你实际上不必去编辑系统提示，你能够引导人们

或者说，“不，不，好的，这是一个新的条款清单。这是一个我们从未见过的新的术语。以下是我对它的看法。”人工智能会说，“非常感谢。我会把它提炼成系统提示并自动编辑系统提示”，而不是让Alex不得不查找这份50页的文件，然后说，“我要更改这一特定行”。你明白我的意思吗？这就像在原始的、直接操作系统提示之上存在一个抽象层次。我认为我们可能会拥有使随着时间的推移更容易教导人工智能的工具。是的。

而不是每次你想这样做时都要去编辑一个10页或50页的提示。

我希望开发人员停止将这些提示视为黑盒子。能够查看代表我执行此代理指令的真相非常有价值。而这在许多应用程序中似乎完全缺失。我完全同意这一点。所以我们一直在讨论提示，对吧？汤姆有点像说，在如何编写系统提示、如何编辑它们或如何迭代它们方面，将会有一系列创新。

在文章中，你还谈到了工具，我认为这也是一个非常重要和有趣的话题。跟我们谈谈这个吧。好的，当然。如果开发人员不必从头开始编写所有这些系统提示，那么他们将专注于什么？我认为对我们许多人来说，人工智能的承诺是，它为我们提供软件，或者它允许我们构建用户可以使用自然语言编程来执行任何他们想要的操作的软件。这些代理为了能够做任何有用的事情

我们需要工具。如果我们回到我这里的小型邮件阅读代理，这个代理可以访问的工具是用于标记电子邮件的工具、用于存档电子邮件的工具和用于撰写草稿的工具。你可以想象许多其他工具可以让这个代理更强大，并且能够完成我目前必须花费自己时间才能完成的许多繁琐工作，对吧？所以我收到的很多邮件

不是需要我动很多脑筋才能处理的邮件，但它们只需要完成。支付账单，对吧？

进行介绍和交接，对吧？我不得不创建草稿并将这个人放在密送中的次数之多，一遍遍地做这些事情真是令人抓狂。关键是，电子邮件在很多方面就像我的收件箱，你知道的，它是我的待办事项清单或生活中的一堆杂务，对吧？我写的很少的几封电子邮件是发自肺腑的、原创性的思考。很多都是事务性的，对吧？

有了工具，这个邮件阅读代理就可以处理很多这样的事情。尤其是在Slack、你的日历、你的Notion、你的Jira或你的Linear等方面。当前一批中有一家公司叫做Den，基本上是为知识工作构建光标，试图将所有这些不同的MCP服务器连接在一起，这基本上是一种为代理调用工具的方法。因此，如果你的老板，你知道的，你的老板……

在Slack上给你发消息说，“嘿，审查这些条款和条件”。你从Google Docs中提取它，你审查它。也许人工智能会通过电子邮件将其发送给你的法律团队，他们会审查它，然后你通过GitHub发布它。所有这些都由一个地方控制。我们有点像代理从不同的地方调用这些工具。你只需要坐下来。这就像一个……

史蒂夫·乔布斯将软件描述为一种，作为一种心灵的自行车。我觉得这就像，我不知道，像心灵的火箭飞船。它非常强大，对吧？我们在YC内部构建了这个的早期版本，我们已经看到YC的员工自动化了他们工作中易于自动化的部分。这些工具提供的区别在于，它需要一个代理，以前它基本上只能像问答一样，对吧？一个问答的东西变成了可以在你的代表下外出完成事情的东西。

是的，我有点讨厌那种聊天机器人模式。就像它最容易，它是将最基本的LLM体验带给全世界的途径。你知道，在ChatGPT之前我们就有GPT，而ChatGPT将其带入了主流，但现在每个产品都在其中嵌入这个聊天代理。这就像，在几乎所有情况下，这都不是这种东西应该被使用的方式。我完全同意。因为我们从聊天机器人开始，我们许多开发人员和用户都停留在LLM擅长生成文本的地方。

我认为我们在这里试图争论的是，这些LLM能够代表我们自动化工作，代表我们完成世界上的事情，这样我们就不必这样做，这就是承诺。我认为这是一个令人惊叹的未来。我期待着它。我也是。这太有趣了，皮特。你认为创始人构建公司时应该如何考虑这个问题？这是一个很好的问题。我认为现在是成为创始人的最激动人心的时刻之一，因为我们几十年来一直在使用的几乎所有工具……

都可以从头开始用人工智能重新思考。我认为许多工具的人工智能原生版本将与我们习惯使用的版本看起来不同，对吧？我在这里展示的内容与我一生中大部分时间都在使用的电子邮件客户端看起来非常不同。是的，所以他们必须超越仅仅在现有产品中嵌入聊天机器人。是的。不要问，我该如何……

将人工智能插入我的工具中。而是要问，我该如何从头开始设计这个工具，以便尽可能多地减轻用户的重复性工作，以便他们能够专注于重要的事情。好的，皮特，感谢你今天加入我们。感谢你们的邀请。下期节目再见。

AI Apps Are Broken — Here's How To Fix Them 30:07 Share

Y Combinator Startup Podcast

Deep Dive

Shownotes Transcript

AI Apps Are Broken — Here's How To Fix Them