We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode State-Of-The-Art Prompting For AI Agents

State-Of-The-Art Prompting For AI Agents

2025/5/30
logo of podcast Lightcone Podcast

Lightcone Podcast

AI Deep Dive AI Chapters Transcript
People
D
Diana
G
Garry
H
Harj
J
Jared
M
Mark Mandel
P
Priyanka Vergadia
Topics
Garry: 元提示工程正变得越来越强大,感觉像是1995年的编程,工具还不完善,但同时也像学习如何管理一个人,需要沟通他们做决策所需的信息。我认为评估是所有这些公司真正的核心数据资产,创始人应该将自己视为自己公司的前沿部署工程师。 Jared: ParaHelp 是一家做得非常好的 AI 客户支持公司,为 Perplexity 和 Replit 等顶级 AI 公司提供支持。我期望在提示中看到描述特定场景并给出示例输出的部分,这在流水线的下一阶段会用到。我们需要给 LLM 一个真正的退出机制,告诉它如果没有足够的信息做出判断,就不要编造,而是停止并询问。 Diana: 最佳提示的开头通常是设置 LLM 的角色,然后明确任务,并将其分解为具体的步骤。好的提示会给出高层次的计划,并分步骤细化,同时提醒注意避免调用不相关的工具。提示需要明确输出的结构,以便与其他代理集成,就像粘合 API 调用一样,需要指定接受或拒绝以及相应的格式。最佳的提示会使用 Markdown 风格的格式,将内容分解为标题和子弹点,使其更易于理解。最佳的提示会概述如何推理任务,并提供示例,这种格式更像编程而不是写作。使用 XML 标签格式可以帮助 LLM 更好地理解和遵循提示,因为许多 LLM 在 IRLHF 中使用 XML 类型的输入进行过训练。为了避免变成咨询公司,需要构建围绕提示工程的工具,例如自动从客户数据集中提取最佳示例并将其导入流程的工具。 Mark Mandel: 元提示工程是一个持续出现的主题,初创公司使用它来深入理解和调试提示及其返回值。提示折叠是指一个提示可以动态生成更好的版本,例如分类器提示可以根据之前的查询生成专门的提示。可以将现有提示输入到 LLM 中,并要求它根据失败的示例改进提示,而无需手动重写。 Priyanka Vergadia: 元提示工程是一个非常强大的工具,可以动态生成更好的版本,使用示例可以帮助 LLM 推理复杂的任务。当任务过于复杂时,可以使用示例来帮助 LLM 推理,例如通过提供专家程序员才能解决的难题示例来改进代码中的错误查找。公司可以使用更大的模型进行元提示,然后将结果用于更小的模型,以加快响应速度。使用大型模型进行元提示,然后将结果用于较小的模型,这在语音 AI 代理中很常见,因为延迟非常重要。 Harj: 创始人需要深入了解特定领域用户的细节,并对特定领域用户的细节有狂热的痴迷。垂直 AI 代理的兴起是因为他们能够与企业客户进行沟通,将背景信息融入提示中,并在短时间内达成交易。GigaML 的案例表明,即使是不擅长销售的优秀工程师,也可以通过成为前沿部署工程师来达成大额交易。

Deep Dive

Chapters
This chapter analyzes ParaHelp's customer support prompt, highlighting its length, detailed structure, role definition for the LLM, step-by-step task breakdown, and use of markdown formatting for clarity. It also discusses the importance of examples and the concept of system, developer, and user prompts within the AI agent architecture.
  • ParaHelp's prompt is six pages long and highly detailed.
  • It defines the LLM's role and provides a step-by-step plan.
  • It uses markdown formatting and XML-like tags for structure.
  • The prompt includes examples to help the LLM reason about the task.
  • It outlines the concepts of system, developer, and user prompts.

Shownotes Transcript

元提示正成为一个非常非常强大的工具,现在每个人都在使用它。感觉有点像在1995年编程,工具还没有完全到位,我们正处于一个新的前沿。但就我个人而言,它也感觉像是学习如何管理一个人,就像,我该如何沟通他们需要知道的事情才能做出正确的决定?

欢迎回到《光锥》的另一期节目。今天,我们将揭开在最好的AI初创公司中,关于提示工程实际发生的事情。我们调查了十多家公司,并从构建这些东西的前沿获得了他们的经验,也就是实际的技巧。Jared,我们不妨从你最棒的AI初创公司的一个例子开始吧?我设法从一家名为ProMaker的公司那里得到一个例子。

ParaHelp。ParaHelp做的是AI客户支持。有很多公司都在做这个,但ParaHelp做得非常好。他们实际上正在为Perplexity、Replit、Bolt和许多其他顶级AI公司提供客户支持。所以,如果你给Perplexity发送客户支持工单,实际回复的是他们的AI代理。

很酷的一点是,ParaHelp的伙计们非常慷慨地同意向我们展示实际驱动这个代理的提示,并在YouTube上向全世界展示。获得这些垂直AI代理的提示相对困难,因为它们有点像是这些公司IP的皇冠上的明珠。所以,非常感谢ParaHelp的伙计们同意基本上开源这个提示。Diana,你能带我们了解一下这个非常详细的提示吗?

它非常有趣,也很少有机会看到它在行动。所以,这个提示的有趣之处在于,首先,它真的很长,非常详细。在这个文档中,你可以看到它有六页长,只是滚动浏览它。

许多最好的提示开始时都会用到这个概念,那就是设定LLM的角色。你是一个客户服务代理的经理,它会逐条列出需要做的事情。然后重点是说明任务,即批准或拒绝工具调用,因为它正在协调来自所有其他代理的调用。

然后它会给出一些高级计划。它会一步一步地分解。你会看到步骤一、二、三、四、五。然后它会给出一些需要注意的重要事项,它不应该奇怪地调用不同类型的工具。

它告诉他们如何构建输出,因为代理的很多事情都需要它们与其他代理集成。所以它几乎就像粘合API调用。因此,指定它将给出接受或拒绝的特定输出以及这种格式非常重要。然后这是高级部分。

最好的提示会做的一件事是,它们会以这种markdown类型的样式格式进行分解。所以你在这里有标题。然后稍后,它会更详细地介绍如何进行规划。你会看到这是它的一个子项目符号部分。

作为计划的一部分,实际上有三个大的部分。一个是关于如何规划,然后是如何创建计划中的每个步骤,以及计划的高级示例。最好的提示的一大特点是,它们概述了如何对任务进行推理。然后一大重点是给出示例。这就是它所做的。有趣的是,它看起来更像编程而不是写英语。

因为它有这种XML标签类型的格式来指定计划。我们发现,这使得LLM更容易遵循,因为许多LLM都在IRLHF中进行了后训练,使用了XML类型的输入,结果证明它可以产生

是的,我感到惊讶的是这里面没有,或者这只是他们发布的版本。我几乎期望有一个部分描述一个特定的场景,并为该场景提供示例输出。那是在管道的下一阶段。是的。哦,真的吗?好的。是的。

因为它是特定于客户的,对吧?因为每个客户都有自己如何回复这些支持工单的风格。所以他们的挑战,就像许多这些代理公司一样,是如何构建一个通用产品

当每个客户都想要,你知道,都有略微不同的工作流程和偏好时,这是一个我看到垂直AI代理公司经常谈论的一个非常有趣的事情,那就是如何拥有足够的灵活性来创建特殊用途的逻辑,而不会变成一家咨询公司,你为每个客户构建一个新的提示,实际上我认为这个概念,比如在客户之间分叉和合并提示,以及提示的哪一部分是特定于客户的,哪一部分是公司范围的,这就像一个

一个非常有趣的事情,世界才刚刚开始探索。是的,Jared,这是一个很好的观点。所以有一个概念……

在系统提示中定义提示,然后是开发者提示,然后是用户提示。这意味着系统提示基本上就像定义公司运营的高级API。在这个例子中,ParaHelp的例子非常像一个系统提示。没有什么关于客户的具体信息。然后,当他们添加该API的特定实例并调用它时,

然后他们将所有这些内容都添加到开发者提示中,这里没有显示。

例如,与Perplexity合作的所有上下文。处理棘手问题的方式与处理Bold的方式非常不同,对吧?我认为ParaHelp没有用户提示,因为他们的产品不是直接由最终用户消费的,而是由最终用户提示,可能更像是Repl.it或A0,对吧?用户需要输入,就像,“为我生成一个具有这些按钮、这个和那个的网站”,所有这些都在用户提示中。

这就是正在出现的架构。关于避免成为咨询公司这一点,我认为在构建所有这些东西周围的工具方面有很多创业机会。例如,任何做过提示工程的人都知道,示例和已完成的示例对于提高输出质量非常重要。因此,如果以ParaHelp为例,他们真的想要……

针对每个公司都有很好的已完成示例。因此,你可以想象,当他们扩展规模时,你几乎希望自动完成这项工作。在你的理想世界中,你想要的是一个代理本身,它可以从客户数据集中提取最好的示例,然后是软件,它可以直接将这些示例导入到管道中的任何位置,而无需你手动

出去并将所有这些都插入并自己全部导入。MARK MANDEL:这可能是一个很好的过渡到元提示,这是我们在与AI初创公司交谈时不断出现的一个主题。MARK MANDEL:是的,Trope是我目前在YC批次中合作的初创公司之一。他们真的帮助像YC公司Ducky这样的人对提示以及来自多阶段工作流程的返回值进行了深入的理解和调试。他们发现的一件事是提示折叠。基本上,一个提示可以动态地生成更好的版本。一个很好的例子是一个分类器提示,它根据之前的查询生成一个专门的提示。所以你可以实际进入,获取

你现有的提示,并实际向其中添加更多示例,在这些示例中,提示可能失败了,它没有完全按照你想要的方式进行。你可以实际地,而不是你必须去重写提示,你只需将其放入原始LLM中并说:“帮我改进这个提示。”

因为它非常了解自己,奇怪的是,元提示正成为一个非常非常强大的工具,现在每个人都在使用它。PRIYANKA VERGADIA:在你进行提示折叠之后,如果任务非常复杂,那么就会用到示例这个概念。这就是Jasberry所做的。它是与这个批次合作的公司之一。他们基本上构建了代码中的自动错误查找功能,这要困难得多。

他们这样做的方法是,他们提供了一堆只有专家程序员才能完成的非常困难的示例。例如,如果你想找到一个n+1查询,即使对于当今最好的LLM来说,找到这些查询也很难。他们做到这一点的方法是,他们找到代码的一部分,然后将这些部分添加到提示中,元提示就像,“这是一个n+1类型错误的示例。”然后它就能解决这个问题。我认为这种模式有时是,当即使找到

写一篇散文来描述它也很难时。让我们只给你一个例子,结果证明它非常有效,因为它可以帮助LLM对复杂的任务进行推理并更好地引导它,因为你无法完全给出确切的参数。它几乎就像单元测试编程,就像测试驱动开发是这种LLM的版本。

是的,Trope谈到的另一件事是,模型真的非常想帮助你,以至于如果你只是告诉它,以这种特定格式返回输出,即使它没有所需的信息,它也会……

实际上只是告诉你它认为你想要听到的内容。这实际上是一种幻觉。所以他们发现的一件事是,你实际上必须给LLM一个真正的逃生出口。你需要告诉它,如果你没有足够的信息来判断是或否或做出决定,不要编造它。停下来问我。

这是一种非常不同的思考方式。这实际上是我们通过在YC进行的关于代理的一些内部工作中学到的东西,Jared想出了一个非常有创意的方法来为LLM提供一个逃生出口。你想谈谈这个吗?是的。所以Trope的方法是一种为LLM提供逃生出口的方法。我们想出了另一种方法,那就是在响应格式中,让它能够将响应的一部分作为对我们的抱怨。

你,开发者,你给它提供了混乱或未充分说明的信息,它不知道该怎么做。然后,这样做的优点是,我们只需使用真实的Hoeser数据在生产环境中运行你的LLM。然后你可以回去查看它在该输出参数中给你的输出。我们在内部称之为调试信息。所以我们有这个调试信息参数,它基本上向我们报告我们需要修复的关于它的东西。

最终实际上就像一个待办事项列表,你,代理开发者,必须去做。这真是令人难以置信的事情。是的,我的意思是,即使对于业余爱好者或对为个人项目玩弄这个感兴趣的人来说,开始使用元提示的一个非常简单的方法是遵循提示的相同结构,赋予它一个角色,并使角色成为,你知道,你是一个专家提示工程师,会对如何改进提示给出非常详细、很棒的评论和建议,并给出你想到的提示结构

它会吐出一个更扩展、更好的提示。所以你可以一直运行这个循环一段时间。它出奇地有效。我认为,当公司需要更快地从产品中的元素获得响应时,这有时是一种常见的模式。

他们使用更大的、更强大的模型进行元提示。你拥有,我不知道,数千亿个参数加上模型,比如,我想,Cloud 4、3.7或你的GPT-03模型。

他们进行这个元提示,然后他们有一个非常好的工作版本,然后他们将其用于蒸馏模型。例如,他们将其用于F4O,结果效果很好,有时对于语音AI代理公司来说尤其如此,因为延迟对于完成整个过程非常重要。

图灵测试通过,因为如果你在代理响应之前有太多的停顿,我认为人类可以检测到有什么不对劲。所以他们使用了一个更快的模型,但使用了从更大的模型中改进的更大、更好的提示。这也是一种常见的模式。另一个,再次,可能不太复杂,但随着提示越来越长,它变成了一个大型的工作文档。我发现的一个有用的方法是,当你使用它时,如果你只是在Google Doc中记下你看到的东西,只是输出不是你想要的方式,或者你可以想到改进它的方法,你可以以笔记的形式写下来,然后

让Gemini Pro使用你的笔记加上原始提示,并要求它建议对提示进行一些编辑以很好地整合这些内容,它做得很好。另一个技巧是在Gemini 2.5 Pro中,如果你查看它在解析评估过程中的思维轨迹,你实际上可以了解所有这些

错误。我们也在内部做过这个,对吧?这至关重要,因为如果你只是通过API使用Gemini,直到最近,你都没有获得思维轨迹。思维轨迹是理解提示中错误的关键调试信息。他们刚刚将其添加到API中。因此,你现在实际上可以将其回传到你的开发者工具和工作流程中。是的,我认为这是一个被低估的……

Gemini Pro具有如此长的上下文窗口的结果是,你可以有效地将其用作REPL。像这样逐个进行,将你的提示放在一个示例上,然后实时观察推理轨迹,以弄清楚,

如何将其引导到你想要的方向。Jared,YC的软件团队实际上已经构建了各种形式的工作台,允许我们进行调试等操作。但正如你所说,有时直接使用gemini.google.com更好,然后直接拖放JSON文件。你不需要在某种特殊的容器中进行操作。它似乎是

即使直接在ChatGPT中也能正常工作的东西。是的,所有这些都是。我要向YC的数据主管Eric Bacon致敬,他在这方面帮助了我们很多,很多元提示和有效地将Gemini Pro 2.5用作REPL。评估呢?我的意思是,我们已经讨论评估一年多了。

创始人发现了一些什么?尽管我们已经说了一年多,Gary,但我认为情况仍然是,评估是所有这些公司的真正皇冠上的明珠数据资产。ParaHelp愿意开源提示的一个原因是,他们告诉我,他们实际上并不认为提示是皇冠上的明珠,评估才是皇冠上的明珠,因为没有评估,你就不知道为什么提示是这样写的。很难改进它。是的。我认为从抽象的角度来看,你可以考虑

YC资助了很多公司,尤其是在垂直AI和SaaS领域,除非你与正在进行X、Y或Z知识工作的人并肩而坐,否则你无法获得评估。你需要坐在拖拉机销售区域经理旁边,并了解,好吧,这个人关心的是什么。这就是他们如何晋升的。这就是他们关心的。这就是那个人的奖励函数。

然后,你知道,你所做的是将这些面对面的互动,坐在内布拉斯加州某人的旁边,然后回到你的电脑上,将其编码成非常具体的评估。例如,这个特定的用户在他们的发票进来之后想要这个结果,我们必须决定是否要履行这个拖拉机的保修。举个例子。这就是真正的价值,对吧?你知道,每个人都非常担心

我们只是说唱歌手吗?初创公司会发生什么?我认为这实际上是橡胶遇到道路的地方,如果你在那里,比任何人都更了解用户,并且让软件真正为这些人工作,

这就是护城河。这就像对当今创始人所需的核心能力的完美描述一样!就像你刚才说的那样,像这样的公司创始人的工作就是在这方面做得很好。是的。

并且像疯了一样痴迷于区域拖拉机销售经理工作流程的细节。是的。然后奇怪的是,这很难做到。你知道,你甚至去过内布拉斯加州吗?经典的观点是,世界上最好的创始人,他们都是非常优秀的轨道工程师、技术人员和工程师。

非常聪明。与此同时,他们必须了解世界上很少有人了解的部分。然后有一小部分是数十亿美元初创公司的创始人。我想到了Flexport的Ryan Peterson。一个非常棒的人,他了解软件是如何构建的。但与此同时,我认为他是……

十年前整整一年中第三大医疗热水浴缸进口商。所以,你知道,越奇怪,你看到的这个世界其他人(技术人员)没有看到的部分越多,机会就越大。我认为你以前用一种非常有趣的方式表达过这一点,Carrie,你当时说每个创始人都是自己公司的“前沿部署工程师”。这是一个

可以追溯到Palantir的术语。既然你很早就加入了Palantir,也许可以告诉我们一些关于“前沿部署工程师”是如何在Palantir成为一件事的,以及创始人现在可以从中学习什么?我的意思是,在某种程度上,Palantir的整个论点是,如果你看看当时的Meta,它被称为Facebook。

或者谷歌,或者任何当时每个人都知道的顶级软件初创公司。Peter Thiel、Alex Karp、Stephen Cohen和Joe Lonsdale、Nathan Gettings,也就是Palantir的最初创始人,他们认识到的一件关键事情是,进入任何财富500强公司,进入世界上任何政府机构,包括美国。

并且没有人以最高水平理解计算机科学和技术的人会出现在那个房间里。因此,Palantir非常非常大的想法,他们很早就发现了,那就是这些地方面临的问题,实际上是数十亿美元,有时甚至是数万亿美元的问题。然而,这远在AI成为一件事之前。我的意思是,人们当时正在谈论机器学习,但是……

当时他们称之为数据挖掘。世界充斥着数据,这些巨大的关于人和事物以及交易的数据库,我们不知道该如何处理它。这就是Palantir是什么,是,并且仍然是,你可以找到世界上最好的技术人员,他们知道如何编写软件来真正理解世界。你拥有这些PB级的数据,但你不知道如何找到大海捞针。

而且,你知道,奇怪的是,大约20、22年后,这种情况变得更加真实,我们拥有越来越多的数据,但对正在发生的事情的理解却越来越少。这并非偶然……

现在我们有了LLM,就像我们实际上一样,它变得更容易处理了。然后,“前沿部署工程师”这个头衔具体是指,你如何坐在正在调查国内恐怖主义的联邦调查局探员旁边?你如何坐在他们实际办公室的旁边,看看进来的案件是什么样的?所有步骤都包括什么?

当你实际上需要去联邦检察官那里时,他们发送的东西是什么?我的意思是,有趣的是,实际上就像Word文档和Excel表格,对吧?作为一名前沿部署工程师,你所做的是将这些,你知道,

文件柜和传真机的事情,人们必须去做,然后将其转换成真正干净的软件。所以,你知道,经典的观点是,在一个三字母机构进行调查应该像在Instagram上拍摄午餐照片并将其发布给你的所有朋友一样容易。就像那样,

你知道,有点好笑。所以,你知道,我认为今天并非偶然,实际上……

现在通过Palantir的系统成长起来的“前沿部署工程师”,他们实际上正在成为YC中一些最好的创始人。是的。我的意思是,它产生了令人难以置信的,

数量惊人的初创公司创始人,因为是的,就像成为一名“前沿部署工程师”的培训一样,这正是现在这些公司创始人的正确培训。关于Palantir的另一件有趣的事情是,其他公司会派销售人员去和联邦调查局探员坐在一起。而Palantir派工程师去这样做。我认为Palantir可能是第一家真正将此制度化并将其作为流程进行扩展的公司,对吧?是的。我的意思是,我认为

发生在那里,他们能够如此一致地获得这些七位数、八位数,现在是九位数的合同的原因是,呃,

而不是派一个像头发和牙齿一样的人去,你知道,让我们去牛排馆,你知道,这都是关系,你会有一次会议,他们会非常喜欢销售人员,然后通过纯粹的人格魅力,你试图让他们给你一份七位数的合同,而这个时间范围可能是,你知道,六周、十周、十二周,比如五年,我不知道,就像,软件永远不会起作用。而如果你派一名工程师去那里,

你给他们Palantir Foundry,这就是他们现在称之为其核心数据可视化和数据挖掘套件的东西。下一次会议不是审查50页的销售文档、合同或规格说明书等,而是像,好吧,我们已经构建好了。

然后你可以在几天内获得真实的实时反馈。我的意思是,这老实说对于初创公司创始人来说是最大的机会。如果初创公司创始人能够做到这一点,而这就是“前沿部署工程师”习惯于做的事情,这就是你如何击败Salesforce、Oracle或Booz Allen,或者任何拥有大型办公室和大型豪华……

大型豪华销售人员,他们握手有力。就像,一个握手无力的好工程师如何进入那里并击败他们?好吧,实际上,你向他们展示一些他们从未见过的东西,并让他们感到非常被重视。你必须对此非常有同理心。就像你实际上必须是一个伟大的设计师和产品人员。然后,

你知道,回来后,你就可以把他们打败了。软件如此强大,以至于,你知道,一旦你看到一些让你感到被重视的东西,你就会当场想要购买它。这是一种思考方式,即创始人应该将自己视为自己公司的“前沿部署工程师”?绝对的。是的。就像你绝对不能外包这个。就像字面意思一样,

创始人自己,他们必须是技术人员,他们必须是优秀的产品人员,他们必须是民族志学家,他们必须是设计师。你希望在第二次会议上看到的人看到你根据听到的内容整理的演示。你希望他们说,哇,我从未见过这样的东西,拿走我的钱。我认为这个模型令人难以置信的地方在于,这就是为什么我们看到许多垂直AI代理兴起的原因,正是因为他们

可以与大型企业的最终买家和拥护者举行这些会议。他们获取该上下文,然后将其基本上放入提示中。然后他们可以在第二天之类的会议上快速回来。也许Palantir需要更长的时间和一个工程师团队。在这里,可能只有两位创始人进去,然后他们就可以完成六位数、七位数的交易,这被看到了。并且与大型企业一起,这从未被看到过

以前做过,而这只有通过这种新的“前沿部署工程师”加AI模型才有可能,它只是在加速。这让我想起了我之前在播客中提到的公司,比如GigaML,他们也做客户支持,尤其是很多语音支持,这只是两个非常典型的案例

有才华的软件工程师,不是天生的销售人员,但他们强迫自己成为本质上的“前沿部署工程师”。他们与Zepto达成了巨额交易,然后还有一些他们还不能宣布的公司。他们是否像Palantir模型那样亲自去现场?是的。所以他们做了所有这些,一旦他们达成交易,他们就会去现场,并与所有客户支持人员坐在一起,弄清楚如何继续调整和让软件或LLM工作得更好。

但在此之前,即使是为了赢得交易,他们发现他们可以通过拥有最令人印象深刻的演示来获胜。就他们而言,他们在RAG管道上进行了一些创新,以便他们的语音响应既准确又非常低延迟,这是一种技术上具有挑战性的事情。

但我只是觉得,在当前LLM兴起之前,你不能在销售的演示阶段进行足够的区分以击败现有公司。你可以通过拥有具有更好UI的略微更好的CRM来真正击败Salesforce。但是现在,由于技术发展如此之快,并且很难将最后5%到10%纠正过来,

实际上,如果你是前沿部署工程师,你可以参与第一次会议,对其进行调整,使其非常适合该客户,然后带着演示文稿回去,就能获得那种“哇,我们以前从未见过其他人做到这一点”的体验,并达成巨额交易。Happy Robot 就是这种情况。

该公司已与全球三大物流经纪商签订了七位数的合同。他们为此构建了 AI 语音代理。他们正在采用前沿部署工程师模式,与这些公司的 CIO 等人士进行沟通,

并快速交付大量产品,周转速度非常快。看到它现在如此迅速发展令人难以置信。它最初是从六位数的交易开始,现在正在达成七位数的交易,这太疯狂了。这仅仅是几个月之后的事情。所以,你可以通过,我的意思是,令人难以置信的非常、非常聪明的提示工程来做到这一点。好吧,其中一件关于

每个模型的事情是,它们似乎都有自己的个性。创始人真正意识到的一件事是,你实际上会为了不同的事情去找不同的人。众所周知的一件事是,Claude 是一种更快乐、更人性化、更易于引导的模型。是的。

另一个是 LAMA4,它需要更多引导。这几乎就像与开发人员交谈一样,部分原因可能是因为它没有在其之上进行过多的 RLHF。因此,它使用起来有点粗糙,但如果你真的擅长的话,你可以很好地引导它。

实际上进行大量的提示。我几乎做了更多 RLHF,但实际上它更难使用。——好吧,我们内部一直在使用 LLM 来帮助创始人弄清楚他们应该从谁那里拿钱。在这种情况下,有时你需要一个非常直接的标准,从零到一百。零表示永远不要拿他们的钱,一百表示立即拿他们的钱。他们实际上帮助你很多,以至于你不拿他们的钱简直是疯了。

Harjit,我们一直在使用提示来研究一些评分标准。我们学到了一些什么?因此,最佳实践当然是为 LLM 提供标准,特别是如果你想获得数值分数作为输出。你想给它一个标准来帮助它理解,例如,我应该如何思考,80 分和 90 分有什么区别。但是这些标准从来都不是完美的。通常总会有例外。你用……

O3 与 Gemini 2.5 进行过尝试,并发现了差异。我们发现真正有趣的是,你可以为两个不同的模型提供相同的标准,在我们具体的情况下,我们发现 O3 实际上非常严格。它确实坚持标准。它会严重惩罚任何不符合标准的内容

你给它的。而 Gemini 2.5 Pro 实际上在灵活方面做得非常好,因为它会应用标准,但它也可以通过某种方式推断为什么有人可能是例外,或者为什么你可能想要比标准建议的更积极或更消极地提升某些东西,我认为这非常有趣,因为……

这就像你在培训一个人的时候,你试图,你给他们一个标准,就像你想让他们把标准作为指导,但总有一些边缘情况需要更深入地思考一下。我只是觉得很有趣,这些模型本身,

会以不同的方式处理这个问题,这意味着它们有不同的个性,对吧?比如 03 感觉更像士兵一样,好吧,我一定会检查、检查、检查、检查、检查。而 Gemini Pro 2.5 感觉更像是一个高自主权的员工,就像,哦,好吧,我认为这是有道理的,但在这种情况下这可能是一个例外,这真的很有趣。

是的,看到投资者的情况很有趣。有时你会有像 Benchmark 或 Thrive 这样的投资者,就像,是的,立即拿他们的钱。他们的流程非常完美。他们从不冷落任何人。他们回复电子邮件的速度比大多数创始人还快。这令人印象深刻。然后这里的一个例子可能是,有很多投资者只是不堪重负,也许他们只是不太擅长管理时间。

因此,他们可能是非常优秀的投资者,他们的业绩记录也证明了这一点,但他们回复速度很慢。他们似乎总是不知所措。他们可能会无意中,可能并非故意冷落他人。所以这正是 LLM 的用途所在。例如,其中一些调试信息非常有趣,例如,也许是 91 而不是 89。我们会看到的。

我想,在我们自己玩这个游戏的时候,我们可能 80% 到 90% 的时间都与那些处于边缘的创始人在一起,这让我感到非常惊讶的是

一方面,我认为我们甚至用来讨论这个的类比是,它有点像编码。它实际上感觉就像 1995 年的编码。工具还没有完全到位。有很多东西没有具体说明。我们正处于这个新的前沿领域。但就我个人而言,它也感觉像是学习如何管理一个人,就像,

我该如何真正传达他们需要知道的事情才能做出正确的决定?我该如何确保他们知道我将如何评估和评分他们?不仅如此,还有精益改进(Kaizen)这个方面,这是一种制造技术,它在 90 年代为日本创造了真正非常好的汽车。

而这个原则实际上说,那些最擅长改进流程的人就是那些实际在做这件事的人。这正是 90 年代日本汽车变得如此优秀的原因。对我来说,这就是元提示。所以,我不知道。这是一个勇敢的新世界。我们正处于这个新的时刻。因此,时间到了。但我迫不及待地想看看你们会想出什么样的提示。我们下次再见。