We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Tool calling and agents

2025/2/14

Practical AI: Machine Learning, Data Science, LLM

Daniel Whitenack: 我认为 OpenAI 发布深度研究产品很有趣，特别是考虑到 Hugging Face 迅速采取行动，在开源代码中复制了类似的功能。这种动态表明，在通用应用层面建立护城河非常困难。虽然在特定领域或垂直领域，或者利用专有数据可能建立护城河，但在通用应用层面则不然。我关注的重点在于，我们是否在构建增强人类能动性的系统，而不是取代它？我们构建的系统是让我们更加信任人类机构，还是更加恐惧和不信任它们？我们构建的系统实际上是将我们更多地推向个人孤立，还是推向社区？ Chris Benson: 我对 OpenAI 的未来不太确定，也不太关心。埃隆·马斯克收购 OpenAI 的努力以及 OpenAI 从非营利组织转变为营利性公司，都让我觉得没有明确的立场可站。开源选项和应用层面功能的出现速度加快，让我对 OpenAI 等公司的未来商业模式感到好奇。我认为，将 AI 集成到企业堆栈中，例如微软的捆绑效应，可能是一种生存方式。但真正的商业价值在于处理敏感数据，这需要垂直领域的 AI 参与者和工具基础设施参与者来解决。

Deep Dive

Chapters

This chapter discusses the potential trajectory of OpenAI, considering Elon Musk's attempted acquisition and the company's evolving business model. The conversation touches upon OpenAI's release of deep research products and the rapid response of open-source alternatives.

Elon Musk's bid to acquire OpenAI
OpenAI's release of deep research product
Rapid response from Hugging Face reproducing OpenAI's functionality with open-source code

Shownotes Transcript

欢迎收听Practical AI播客，本播客旨在让所有人都能轻松、高效地应用人工智能。如果您喜欢这个节目，您一定会喜欢The Change Log。周一发布新闻，周三进行深入的技术访谈，周五则是一个精彩的周末谈话节目。您可以在任何收听播客的地方搜索The Change Log找到我们。

感谢我们的合作伙伴Fly.io。在五分钟或更短的时间内启动您的AI应用程序。请访问Fly.io了解详情。欢迎收听Practical AI播客的另一期全连接节目。在这些全连接的节目中，我和Chris会尽可能地让您了解AI领域发生的一切。是的。

有很多事情。我们会尽力提供一些学习资源，来提升您的机器学习和AI技能。我是Daniel Whitenack，PredictionGuard的首席执行官。一如既往，我的联合主持人Chris Benson也加入了我们，他是洛克希德·马丁公司的人工智能首席研究工程师。Chris，你好吗？我很好，只是不知道我们要谈论什么，因为AI领域什么也没发生。什么也没发生。从来没有发生过任何事情。埃隆什么也没做。是的。

哦，我的天哪。埃隆又在朝人们扔口水球了。让我们这么说吧，你知道，他一直在起诉OpenAI，现在他在过去几天里提出了他的收购要约，呃，

收购OpenAI。那是，呃，是的，我看到的文章是，“我们不出售。”ChatGPT老板说，我知道老好人Sam。Sam说，我们不出售，因为你知道，他们俩真的彼此相爱。哦，是的，当然。埃隆·马斯克和Sam，Sam Altman，呃，他们是最好的朋友，最好的朋友。这就是我们在这里的报道方式。这就是我们在这里的报道方式，因为我们总是寻找AI领域的积极方面？是的，谁知道亿万富翁背后的动机。这是一个有趣的事情。它肯定会为工作日的谈话增添情趣，也是一个很好的谈话点

与朋友们，你知道？所以是的，这就是我如何看待它的方式。是的，就是这样。我同意这一点。亿万富翁之间的争吵并没有让我，因为我自己不是亿万富翁，所以它并没有让我太担心。是的。你认为像OpenAI这样的玩家的轨迹是什么样的？你知道，他们，

有人……好吧，在美国发生的另一件事是，

这可能也符合我接下来要问的另一个问题，尽管我的思绪被打断了，因为我记得有一场超级碗比赛，OpenAI做了一个超级碗广告，你知道，这是一个很酷的广告。起初我不知道它会是什么，因为它只是围绕着艺术点，你知道，形成场景。然后我想我逐渐意识到这是

OpenAI ChatGPT应用程序上的那些小点，你知道，扩展和很酷的广告。有人，有人评论说，

他们花了大约1400万美元或超级碗广告的成本，我不记得具体是多少了。但我当时想，这与OpenAI通常在托管模型和基础设施上损失的相比，真的不算什么。所以是的，这就是我另一个问题的核心，也就是，

是的，你对……我的意思是，如果埃隆没有收购OpenAI，未来会怎样？说实话，我不知道。而且我必须诚实地告诉你，我不确定我是否很关心。在我们进入这个话题之前，我一直在思考这个问题，那就是，你知道……

这里没有我的立场上的主角。没有我支持或反对的一方。嗯，呃，你知道，你拥有埃隆，拥有所有，你知道，围绕埃隆·马斯克的冒险。我这么说有点开玩笑，嗯，

然后是OpenAI，你知道，埃隆所说的话确实有一部分是真实的，他说它从最初的非营利组织，拥有宏伟愿景，到如今越来越商业化，成为营利性组织，你知道？所以它又是另一个大型的AI公司，你知道，就像其他的公司一样，等等。它，

我用一只眼睛看着它，呃，就像世界上其他人一样，但是，呃，不确定。我只是不知道。而且我不太确定我是否关心。是的。是的。我们听众中有人非常关心这个问题吗？我很想，我很想听到不是埃隆或Sam Altman的人告诉我为什么这是一件大事。是的。

是的，也许我们就此打住。这是一个很好的观点。我对一些动态很感兴趣，比如OpenAI发布了他们的深度研究产品。因此，如果您观察他们发布的内容、他们正在做的事情的轨迹，就会发现这个深度研究产品真正面向的是

你知道，多步骤在线信息研究类型的任务。是的。所以，你知道，去查看各个网站上的各种趋势，进行各种数据推理，整合某些信息，你知道。

为某种研究项目做出贡献。我觉得OpenAI推出这个产品很有意思。我喜欢观察的动态之一是OpenAI发布应用程序级别的产品，比如深度研究，然后

所以我看到了Hugging Face的博客文章。就在第二天。所以他们说昨天OpenAI发布了深度研究。这是一个我会在节目说明中链接的博客文章。

来自Hugging Face。基本上，他们只是决定确保他们能够在24小时内使用开源代码（也许是一些最近发布的模型，如DeepSeq模型或其他模型）来重现该功能。然后他们写了博客文章并发布了它。我不知道这24小时有多长，但你会看到这种动态正在发生。所以你会看到深度研究，然后你会有

开放的深度研究，你会看到操作方面的东西，它操作你的屏幕，你的浏览器窗口。今天早些时候，我运行了Hugging Face小型代理。他们有一个网络代理，它本质上是启动一个浏览器窗口。它在浏览器窗口中为你执行某些任务。你可以输入一个提示，比如，

嘿，找到最新一期的Practical AI，总结主题，然后找到七个

其他相关主题的文章，以Markdown格式列出并输出。类似这样的东西，它需要这种在互联网上运行的代理。超级流畅，超级有趣。我绝对建议人们，如果他们想尝试这种事情，尝试小型代理网络代理。但是是的，你会看到这种趋势，在应用程序级别，其中一些只是，你知道，

看起来你通常无法在那里建立护城河。现在，你也许能够在一个特定的领域或垂直领域，或者拥有某些知识或专有数据的情况下，作为一个公司建立一种护城河。对。但在那种一般的应用程序级别，我认为这很难。

我认为，你知道，我一直想知道，正如，你知道，OpenAI拥有相当大的领先优势，并且有一段时间开源选项和应用程序，你知道，级别的东西才出现。我们已经看到，你知道，这段时间间隔大大缩短了。

所以，你知道，具有讽刺意味的是，就在埃隆努力以970亿美元收购OpenAI的同时。但你也不得不稍微考虑一下未来的商业模式是什么样的。你知道，关于你的观点，你知道，如果你没有时间创造护城河，你知道，如果你现在是主要参与者之一。

你可以，你知道，肯定有其他参与者进入他们的行业并创造能力的商业模式，正如你刚才提到的那样，因为那是他们的专长。这不是大公司会去追求的东西。但正如我们所看到的，商业参与者和开源之间的间隔几乎缩小到零，嗯，

你认为这对谷歌和OpenAI以及Anthropic等公司的未来商业模式意味着什么？我的意思是，我认为部分原因可能是这种在企业堆栈中的集成。我的意思是，你从微软提供的产品中获得的捆绑效应。所以，

所以，你知道，世界上绝对没有人想使用Teams，因为它绝对糟糕透顶。我将公开声明这一点。对于那些从事这项工作的人，我很抱歉。我必须使用它。我没有选择。我想，你知道，你有一个播客，你有一个观点，但这是我的观点。但是，你知道，如果我可以在我的Microsoft租户中打开Teams和Slack，我也不会向Slack支付数十万美元。

在我的Microsoft租户中，他们已经拥有我的所有数据和所有这些东西。因此，他们将Copilot和Copilot周围的许可证与已经如此深入嵌入企业世界的生态系统联系起来，这是一个非常强大的捆绑效应。

是的，这是非常真实的。对。这并不意味着它一定是最好的解决方案，但它是一个解决方案，这取决于你想要什么。对。在那种通用的Copilot级别。对。

在一个需要单租户的情况下，理论上，服务条款是我的数据不会以某种方式被使用，这得到了这种通用情况。但同样，我认为一家公司真正拥有的商业价值是，你拥有这些通用案例，其中某个随机的人会

想要查找Word文档或粘贴电子邮件，然后你就会拥有核心业务价值，对吧？所以一家制药公司拥有其最敏感的数据层，这些数据是，你知道，他们公司的生命线，或者一家，

医疗保健公司或金融公司，他们对某些数据层有某些分类或监管负担。将这些数据层集成到这样的通用系统中是另一回事，因为它们是针对这些类型的通用Copilot系统

不太敏感的数据层，在其他层面上仍然需要解决一些问题，我认为这就是我认为垂直AI参与者，以及，你知道，工具和基础设施参与者仍然可以取得很大进展的地方。你认为你所描述的捆绑，你知道，发生在，你知道，

垂直能力之间，他们正在生产这些能力，并且，你知道，OpenAI正在进行深度研究，或者谷歌将Gemini集成到，你知道，谷歌套件中，他们一直在这样做，并试图从中获得溢价，你知道，从用户那里。这种捆绑对他们未来的发展至关重要吗？或者你认为世界上的OpenAI，以及，你知道，我们从历史上看到谷歌，也许不是总是在AI环境中，而是

进入他们，你知道，他们在保护伞下开辟一个新的垂直领域等等的专业领域。你，你知道，OpenAI是否必须这样做才能生存？因为它将会有开源紧追不舍，沿着通用的道路走下去。是的，我不知道。它可能是垂直的。它可能是，我的意思是，你看Palantir，例如，呃，

股价飙升。大多数普通人不会在日常生活中使用Palantir Copilot，但他们在某个市场，尤其是在国防部或国防或其他领域，他们已经投入了大量资金来很好地服务于此

不太通用，但在不同用例中仍然相当通用的功能集。至少从局外人的角度来看，这为他们带来了好处，如果我这样看的话。所以它可能是工具或垂直领域的专业化。它也可能只是你选择关注的市场细分，并且是其核心业务。这很有趣，因为你拥有所有这些

现在在OpenAI和这些东西上直接面向消费者的最终用户流量，而我们之前谈论的数据科学、AI和机器学习实际上是面向企业的，而不是直接面向消费者的。所以，让我在我们将话题转回到AGI理念时，再添加一层内容。

有了，你知道，人工智能通用智能被反复提及。Sam Altman只是说他预计GPT-5会比他聪明。因此，当我们看到这一点时，你知道，我认为GPT-3比我聪明。

我也是。我同意你的看法。但是，有了这个，你知道，有了这个，AGI的追逐在这个时候仍在继续，你知道，我们已经听到，你知道，DeepSeek和所有其他公司都在谈论商业模式和捆绑等等，并探索新的垂直领域。你认为AGI竞赛如何融入其中？是的，也许这就是在我脑海中没有

并没有像你不那么考虑埃隆一样进入我的脑海，这可能是一件好事。是的，我认为这是一个有趣的问题，并且有一些影响。在我脑海中浮现的更普遍的问题，你可以把它称为AGI或不是AGI，我不知道。但在我脑海中浮现的问题更多的是下游问题。

这些东西？我们是否正在构建增强人类能动性而不是取代人类能动性的系统？我们是否正在构建允许我们更多地信任人类制度还是更多地害怕和不信任它们的系统？我们，你知道，我们是否正在构建实际上让我们更多地走向个人孤立还是走向共同体的系统？我认为这些是……

这些是我在思考这个问题的更普遍方面时想到的一些有趣的方面。

好吧，那里不乏AI工具，但我喜欢Notion，也喜欢Notion AI。我每天都使用Notion。我喜欢Notion。它帮助我为自己和他人组织了很多东西。我可以创建我自己的操作系统、我自己的流程和流程等等，以便……

轻松创建非常复杂的清单、流程等，并与我的团队和组织外部的其他人共享。而Notion AI则更上一层楼

太酷了。我可以搜索我在Notion中的所有东西，我的所有文档，我的所有东西，我的所有工作流程，我的项目，我的工作区。他们用Notion AI所做的事情真是令人惊叹。如果你不熟悉Notion，Notion是你连接你的团队、你的工具、你的知识的一个地方，这样你们都能获得权力，去做你最有意义的工作。并且不像

其他专业工具或遗留套件会让你在六个不同的应用程序之间来回切换。Notion无缝集成。它无限灵活，而且非常美观易用。移动端、桌面端、网络端、可共享。它

都在那里。完全集成的Notion AI帮助我，并将帮助你更快地工作，更好地写作，更宏伟地思考，并完成通常需要你花费数小时才能完成的任务，只需几分钟甚至几秒钟。你可以通过更快地写作来节省时间，让Notion AI处理初稿并给你一些想法来启动头脑风暴，或者将你凌乱的笔记。我知道我的笔记有时很凌乱，变成一些经过润色和

你甚至可以自动化乏味的任务，例如总结会议记录或找到你的下一步行动。Notion AI可以完成所有这些以及更多的事情，它让你可以自由地进行你想要做的深入工作。真正重要的工作，对你和你公司真正有利可图的工作。

当然，Notion被超过一半的财富500强公司使用，使用Notion的团队发送的电子邮件更少。他们取消了更多会议。他们节省了搜索工作的时间，并减少了在工具上的支出，这有助于每个人都保持在同一页面上。今天免费试用Notion，访问notion.com/practical AI。

所有字母都小写，notion.com/practical AI，今天就试用功能强大、易于使用的Notion AI。当你使用我们的链接时，当然，你也在支持这个节目。我们喜欢这样。Notion.com/practical AI。Chris，我们刚才谈到了……

工具和代理。好吧，代理，通常是网络代理，深度研究之类的东西。我们已经在节目中的一些地方谈到了工具调用及其与代理的联系。但我认为我们并没有真正深入到，你知道，以一种可能让事情对人们更清晰的方式。我仍然看到很多人对此感到困惑。嗯，

即使，你知道，在我的日常工作中，当我与客户交谈时，

这个问题是，好吧，我该如何让LLM与这个系统对话？对。或者我该如何，你知道，那个深度研究工具，我该如何让LLM去做某件事？对。这通常是问题的提出方式。我认为当我听到这些问题时，我意识到存在一种对LLM的作用以及

以及它如何与框架联系起来的根本误解，你可能会称之为工具调用，你可能会称之为代理，

不幸的是，这些天这些名称经常被混用。他们会的。在你说完这一切的时候，我就在想，然后你得到了……这正是我脑海中关于这些技术的不同名称的误用以及正在做什么的。是的。是的，完全正确。所以在我看来，所以这是……

我今天感觉非常有主见。我不知道为什么。尽管说吧。太好了。在我看来，我在这里划分的界限是，你知道，当然，模型，大型语言模型。它们预测可能的文本。它们生成文本、图像或任何你想要它们生成的东西。然后是另一边的其他系统。所以你可以想到，你知道，

你的电子邮件或你的银行账户或像Airbnb这样的外部系统，我可能想要预订，或者我公司的数据库，其中包含交易数据，或者我使用的另一个系统，比如HubSpot或所有这些类型的东西。所有这些其他东西。要问一个问题，好吧，我该如何……

LLM如何为我在HubSpot中创建一个新交易？当你这样表达时，它让我很痛苦。它让我头痛。但这就是人们表达的方式，需要明确的是。这些问题是每天都会出现的问题。这个问题经常被表达为，我如何让LLM为我在HubSpot中创建一个新交易？所以，

对，按照你的说法，我不知道，你为什么对那句话感到反感？这对我来说就像指甲刮黑板一样……

你知道，为了回答这个问题，在我们制作这个节目六年半的时间里，我们已经发展了多种技术，你知道，在每个时间点上，这些技术都是热门事物。不可避免的是，人们会暂时专注于此。但现在我们正处于一个生成式和LLM的阶段，在过去的几年里，它们一直是热门事物。

我们忘记了它们并不一定能做所有事情。它不是，你知道，人们会说LLM。事实上，他们只做一件事。完全正确。不仅如此，还可能存在一种AI架构可以做他们想谈论的事情，但这不一定是他们正在谈论的事情。

而且它们被错误标记了。这不是模型。这不是模型。所以这就是指甲刮黑板的感觉，我们在过去一年里一直在谈论这个问题，即生成式AI时代的隧道视野，你知道，就每个人都关注这一点而言。但是，

它已经到了这样的地步：混合中还有其他技术，并且有一种技术可以做他们想做的事情。他们只是没有以他们表达的方式选择正确的方法。所以，是的。是的。所以让我们，让我们也许把它分解成几个部分。所以，所以假设有一个LLM，你知道，我们现在只谈论文本。当然，还有多模态等等，但只考虑文本。有一个LLM，它所做的就是完成可能的文本。

所以我可以，你知道，要求它自动完成。我可以要求它为我写一些东西。我可以要求它为我生成一些东西，这就是它所做的。对。然后是系统。假设我们以HubSpot为例，因为我使用HubSpot，对于那些不熟悉的人来说，它是一个流行的CRM解决方案，对于那些可能不，你知道，不想处理Salesforce和所有这些世界的人来说。所以HubSpot，

我可以创建一个与我可能拥有的销售线索相关的交易，对吧？这是一个由HubSpot托管的独立软件系统，对吧？实际上，我不知道这一点，但我假设HubSpot有一个API，一个REST API，这意味着你可以通过编程方式与HubSpot交互。这就是HubSpot上的应用程序的工作方式，对吧？HubSpot上的应用程序是普通的旧式代码，也许……

允许你向这些记录添加这些字段，或者检索这些数据，或者对这些数据进行报告。这只是普通的旧式代码。它使用API。所以这是一个独立的系统。所以实际上，LLM（它生成文本）和这个其他系统（一个执行某些操作的CRM）之间没有连接。两者之间没有联系。

除非在这两者之间，可以有一个过程，我通常会将其归类为工具调用或函数调用，假设你编写了一个普通的旧式软件函数。

通过HubSpot的REST API在HubSpot中创建一个交易。这与AI无关。这只是一个软件函数，你告诉我人的电子邮件、姓名、公司，我将通过API进入HubSpot并创建交易。所以有一个函数。你给我这些参数。我将在HubSpot中创建交易。

好的，仍然没有与LLM连接。但是，如果我然后要求LLM说，嘿，我有这个客户信息，电子邮件、姓名等，为我生成调用这个函数的参数，该函数采用这些特定参数。

那么LLM可以生成调用该函数的必要参数。如果你在函数和LLM的输出之间建立一个链接，那么LLM实际上仍然没有做任何事情，除了生成文本，但在你的代码中，你实际上是获取LLM的输出

并将其放入该函数的输入中。现在，你可以将某些东西放在前端放入LLM中，并使结果成为从LLM到函数的数据流

然后进入HubSpot API。这就是这种工具调用、函数调用工作方式。这很有道理。这是标准的软件开发。唯一不同的是，

如果你回顾LLM的历史，首先我们有非常好的自动完成模型，因为这是训练语言模型的人员的元任务。然后人们发现，哦，我想将这些用作通用的指令遵循模型。因此，他们开发了特定的提示格式和提示数据集，用于

专门微调LLM以遵循指令，对吧？这是你的系统消息。这是我提供给你的消息。给我助手回复。他们在大量通用的指令遵循事物上对其进行了训练。好吧，他们现在也做了同样的事情，因为他们意识到，哦，很多人想要做这个工具或函数调用机制。

因此，包括OpenAI在内的一些人以封闭的方式，而其他人则以开放的方式，例如我们在节目中邀请过的Noose Research，他们有一个名为Hermes的数据集。

这包括一组与函数调用相关的提示。因此，他们向一个模型（他们会训练像LAMA模型这样的模型）提供了大量关于函数调用提示的示例。现在你有了Hermes，LAMA 3170B。它已被微调以遵循用于函数调用的Hermes风格提示格式。

这意味着它具有一定的优势，如果你愿意的话，或者用这些示例训练的某些模型在该函数调用任务中具有一定的优势。对。所以存在AI元素，因为某些模型比其他模型更擅长此任务，这取决于它们的训练方式。并且有一些特殊的提示格式，对吧？

如果你使用这些提示格式，或者如果你使用支持或内置转换到这些提示格式等的模型服务器（如VLM），你将获得更好的性能。所以它确实存在AI元素，但这只是因为你正在为这种类型的用例准备模型，而不是，你知道，连接。模型与某些外部事物之间存在某种内置连接。是的。

所以我很想知道，你能将工具调用与可能被认为是完整的代理实现联系起来吗？如果有的话，差距在哪里？是的，有趣的问题，因为人们对“代理”一词的用法非常宽松。所以有些人会说我刚才描述的就是，

即使只是那个处理链。所以我把一些东西放在LLM的前端，在HubSpot中创建交易。这可能被认为是一个代理，我的HubSpot交易创建代理。我认为这仅仅是一个使用LLM的工具调用示例。在我看来，区分代理方面的是

LLM执行某种编排的地方。我的意思是，你有一套工具。比如说，我可以访问Airbnb的API、Kayak的API和联合航空的API，或者其他我需要做的旅行相关的事情，也许是我的Gmail用于各种事情。

我说，嘿，我需要为下周去某个地方的旅行预订一辆车。对。这个输入随后可以被LLM处理，而不是调用单个工具，而是首先作为一个目标来确定要调用哪些工具以及以什么顺序调用，以及有什么依赖关系。对。

尝试执行第一步，然后重新评估，然后执行下一步，直到达到目标。对。所以首先，为了预订我的东西，我需要知道我的航班是什么时候。所以我查看我的Gmail并查找确认信息。对。或者，你知道，其次，我使用该日期在Kayak API中查找选择。然后我评估这些选择，然后我用它来预订。所以有一系列步骤可能会调用不同的工具。

或系统，你知道，它可能是数据源，非结构化或结构化数据源，如数据库或rag系统。所以我刚才谈到的那个，比如HubSpot交易创建工具，对吧？

它可能是代理系统中的一个工具，代理可以在某些点选择使用它。我在这里拟人化了。它并没有选择任何东西，对吧？但有时用这种方式谈论它很有用。所以请原谅我。它在一个案例中选择使用该工具，而在其他案例中可能选择其他工具和其他序列。在我看来，这就是代理方面与仅仅是工具调用方面真正区别的地方。♪

克里斯，谈论一些代理的事情很有趣。通常我们会等到剧集结束时才分享一些学习资源。但既然我们一直在谈论工具调用和代理，我只是想提一下Hugging Face的这个新课程。所以他们现在有一个代理课程，我认为是最近才发布的。

如果我理解正确的话，它将在YouTube上直播。在这个课程中，他们讨论了从理论、设计和实践上研究AI代理，使用Small Agents、LinkChain、Lama Index等已建立的库。

分享你的代理，评估你的代理，然后最后你将获得一个不错的证书。所以，如果你对一些工具调用和代理方面的东西感兴趣，那就推荐Hugging Face代理课程。它

看起来不错。是的。在我们录制这段节目时，是的，他们实际上是在我们录制节目后的一个小时二十分钟左右进行的，当你收听时，它就已经过去了。如果你在听，你错过了。你错过了。对不起。你必须重播。是的。但是你可以重播。是的。是的。这很有趣。嗯，他们提到的一个软件包叫做small agents，它非常好。我喜欢使用这个软件包。它很有趣。

而且，你知道，我甚至在一个，在一个非常有趣的，内部的，Prediction Guard的内部用例中使用了它。所以，请帮我一个忙。并且取决于，只要Prediction Guard没有秘密成分，

你能否播下一些种子，关于你所做的事情，你知道，人们可以探索你发现有用的东西，嘿，我做了这件事，只是让大家了解你如何看待它以及他们可能能够做些什么，以便他们能够自己进行构思。

是的，是的，当然。所以我在这里会说得比较笼统一些。所以我不会透露某些事情，但是，你知道，客户的事情。但我们实际上经常与客户一起经历的一个案例是，他们想要构建，你知道，也许是他们想要构建一个聊天机器人，它可以访问一些或可以访问一些特殊知识或可以访问信息。

一种特殊知识。一方面，如果你有

一堆非结构化文本，对吧？这是一个典型的使用rag工作流程的案例，你会将其放入向量数据库中。你可以动态地检索它。这是一个rag聊天机器人。另一方面，例如，存在文本到SQL方法，或者，你知道，API调用方法，可以让你与你的数据库交互，对吧？所以有这些方法。有时

虽然你有一个数据源。对我们来说，有几次情况是，也许是一个没有真正方便的API但有一个非常复杂和烦人的用户界面的网络应用程序。该公司拥有这个网络应用程序，其中包含大量知识，对吧？但是，没有真正好的方法可以从网络应用程序中提取所有这些内容。它

有一个烦人的界面，所以没有人想使用它，对吧？所以像small agents的web agent这样的系统，以及web agent所做的就是执行一系列利用Helium的工具调用，Helium是一个允许你自动化与浏览器交互的软件包。所以如果它是一个网络应用程序，

它基本上可以在浏览器中启动应用程序，然后与某些元素交互，例如搜索某些东西或查找某些组件或对象，总结该输出并从web agent输出它。所以我们正在考虑的一个有趣的案例是，这些案例是

一家公司已经在一个系统或应用程序上投入了大量资金，这可能是一个他们必须继续使用的遗留系统，对吧？

但没有人真正想使用它，因为UI很糟糕。但它也没有真正好的API或方法来访问其中的数据。所以实际上使用代理作为一种你可以通过编程控制的额外用户来与应用程序交互，这确实是一个非常有趣的可能性，可以将这些知识联系起来并从应用程序中提取信息。我认为对我们来说经常出现的一个问题是，因为我们工作……

我们在很多受监管的、注重安全和隐私的环境中工作。这就是PredictionGuard所做的，为人们的公司中的AI部署安全的架构。

人们通常希望，一旦他们现在拥有一个私有的安全系统，将他们的事务数据库与他们的查询联系起来，对吧？这通常是一种文本到SQL类型的操作，你查询数据库，生成SQL查询。这可能会出错，对吧？例如，你可以生成无法执行的SQL查询，或者可能存在问题的SQL查询，或者计算成本非常高的SQL查询。因此，你可以将其他元素，代理元素整合到其中，你使用不同的SQL查询迭代地尝试回答问题，直到你达到目标，拥有代理。这是一种代理方法来处理文本到SQL。

或者你可以整合其他工具，如SQL查询优化器等等，以帮助完成该过程。所以在更侧重于企业业务方面，这些是我们遇到的一些事情。不，这听起来很有趣。它，呃，

我只是很好奇你在想什么，根据你所看到的，这种变化如何改变工作流程的人员方面，你知道，并认识到这些只是一些小的用例，以及所有这些，但是，你知道，这是代理浪潮的开始。

随着我们前进。我想，尤其是在当今新闻中看到的事情的提示下，你知道，关于政府部门的评估，以及这种普遍的，这种普遍的重新评估，无论好坏，都是

你认为这将如何被应用到商业领域，以部署这些代理？你认为它会显著改变工作吗？或者你认为它只会增加而不会那种……我很好奇你对局势的看法。是的，我的意思是……

我认为工作将会发生变化。我认为我们特别在这些例子中谈到的某些事情实际上是扩展人类能动性的好例子，因为很多时候人们不执行某些任务，或者无法执行他们希望作为工作一部分执行的某些任务，因为受到限制

你知道，非常复杂的UI，或者这个，你知道，这样做，然后那样做，这将花费我大量时间，我必须参加这个会议，对吧？所以我认为有很多这样的事情，那就是扩展了该工作人员的人类能动性。所以它放大了该工作人员的影响，并帮助他们感觉自己拥有超能力，因为他们真的不想再登录该应用程序并使用它一次了，对吧？是的。

所以我认为有一个这样的因素。现在你可以争辩说，好吧，也许他们因为这些低效率而雇佣了三个下属来执行一些这些任务，这在某种程度上令人遗憾，因为如果他们只是底层人员，你知道，从糟糕的API或糟糕的用户界面中提取数据，就像你可以……

我的意思是，也许有些人喜欢整天做这件事。我认为一般来说，这不是一种非常体面的做法。现在我意识到我在这里做了一些概括，并且存在人们工作的现实。并非每个人都能做他们想做的工作，或者能给他们带来最大尊严的工作。所以我想承认这一点。我认为会有一个，

将会对部分人产生负面影响，但我希望也会有积极的影响。即使对于那些可能从事技术含量较低职业的人来说，如果有一种更自然的语言方式来访问熟练的知识，并且AI具有这种放大效应，那么它有望在市场上创造新的机会。

所以我希望如此。我的意思是，我认为这当然，我认为我怀疑我们会看到所有，就像我们在生活中和各个方面一样，我们会看到人们增强人类能动性，以你谈到的用例为例。我们可能会看到那些，呃，那些，那些会，那些会采取其他途径的人。我认为这将是整个事情的混合体。所以。

是的。是的。当我们结束这里的时候，我想我们已经在谈论

关于新的趋势和其他事情，我想指出的一件事是德勤刚刚在1月份发布了企业第四季度生成式AI现状报告，我一直在阅读。所以对于那些可能是业务领导者、经理或其他想要了解不同行业企业界正在跟踪的一些事情的人来说，

那里有一份很棒的报告。我看到，例如，他们正在跟踪开发和部署生成式AI的障碍，对遵守法规的担忧，难以管理风险。他们正在跟踪某些用例，实验和POC（概念验证）的数量，寻求的利益与实现的利益，这是一个有趣的问题。并且

以及生成式AI计划，它们在某些工作职能中最活跃的地方，所有这些事情以及更多。因此，如果你对这些类型的见解感兴趣，我认为这些见解很有趣，那么这是一个很棒的学习资源，我们将在节目说明中链接，并希望人们可以找到并仔细阅读，如果他们感兴趣的话。当然。是的。

克里斯，这是一段美好的时光。我觉得我在我的工具方面运作良好，作为一个

作为一个播客代理。嗯，你做得很好。你做得太好了，谁知道埃隆·马斯克可能会，呃，可能随时都会来追捕Prediction Guard。所以，是的。或者也许我所说的只是由笔记本生成的。我将，嗯，这可能是真的。是的。好的，今天谈话很好。好的。是的，谢谢克里斯。嗯，祝你一切顺利。你也是。好的。

好的，这是我们本周的节目。如果你还没有查看我们的ChangeLog时事通讯，请访问changelog.com/news。在那里你会发现29个理由，是的，29个理由说明你应该订阅。

我会告诉你第17个理由，你实际上可能会开始期待星期一。听起来好像有人得了星期一的病。changelog.com/news上还有28个理由在等着你。再次感谢我们在Fly.io的合作伙伴、Breakmaster Cylinder的节拍以及你的收听。现在就到这里，但我们下次再聊。

Tool calling and agents 45:02 Share

Practical AI: Machine Learning, Data Science, LLM

Deep Dive

Shownotes Transcript

Tool calling and agents