We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Giving New Life to Unstructured Data with LLMs and Agents

2025/6/6

AI + a16z

AI Deep Dive AI Chapters Transcript

People

Anant Bhardwaj

Derek

Guido Appenzeller

Topics

Anant Bhardwaj: 我认为AI将显著推动自动化，尤其是在处理非结构化数据方面。传统的RPA在处理非结构化数据时面临挑战，因为它无法适应数据的变化。我们正在押注AI能够克服这些限制，并实现更高效的自动化。我相信，AI不仅可以分析非结构化数据，还可以根据这些数据采取行动，从而彻底改变企业的工作流程。 Derek: 我认为非结构化数据的管理和利用是企业IT的长期目标。非结构化数据是指不能放入SQL数据库中的任何内容，例如PDF文档、图像等。这些数据对业务运营至关重要，但处理和搜索非常困难。AI agents 可以分析文档并对其采取行动。 Guido Appenzeller: 我认为企业对AI的可靠性要求正在发生变化，不再追求绝对完美。他们更关心可预测性，即AI在哪些情况下会出错，以及如何处理这些错误。企业可以接受较低的准确率，只要能够预测哪些部分需要审查。AI将简化信息，提取要点。

Deep Dive

Chapters

This chapter explores the challenges of processing unstructured data using traditional methods like RPA and introduces Instabase's innovative layout-aware models, which leverage LLMs and coordinate encoding to extract insights from complex documents. The discussion highlights the shift from rudimentary techniques to advanced AI solutions for data analysis.

Legacy robotic process automation (RPA) struggles with unstructured data.
Instabase developed layout-aware models to extract insights from PDFs and complex documents.
Encoding X and Y coordinates along with word position significantly improves LLM performance on document understanding.

Shownotes Transcript

所以，机器人流程自动化实际上是这样的，如果人必须做某事，你基本上会打开一些浏览器或其他什么东西，获取一些数据，放入另一个系统，点击一些按钮，所有这些东西。所以它会记录人在桌面上点击的内容，并尝试不断重复。所以你有点像实现了自动化。而他们遇到的难题是，你无法对非结构化数据进行机器人流程自动化，因为它不是固定的，它们会发生变化。所以任何事情都会非常非常残酷。我们所下的赌注是，人工智能将以一种显著的方式推动自动化。

RPA 将被 AI 自动化完全吞噬，未来很可能更多的是去中心化的联合执行。

感谢收听 A16Z AI 播客。我是德里克，我希望你准备好讨论非结构化数据了。长期以来，最佳地管理、利用甚至能够找到非结构化数据一直是企业 IT 的圣杯。什么是非结构化数据？正如本期嘉宾、Instabase 创始人兼首席执行官 Anant Bhardwaj 解释的那样，它基本上就是所有不在 SQL 数据库中以行和列形式整齐存放的数据。文本文件、银行对账单、护照照片，等等。

这些数据对于许多业务运营至关重要，但直到最近，如果没有大量的人工努力，处理或搜索这些数据都非常困难。

因此，在本期节目中，Anat 与 A16Z Infra 合伙人 Guido Appenzeller 坐下来，讨论 Instabase 在自动化非结构化数据管理方面的历史，从 Anat 在 MIT 的早期研究到大型语言模型带来的革命性进步。他分享了一些令人兴奋的新用例，例如印度一家银行通过 WhatsApp 批准贷款，以及，正如你刚才听到的……

他对构建 AI 代理能够从分析文档到根据文档采取行动的未来的愿景和战略。你将听到这一切，从这些披露之后的一些 Anand 的个人旅程开始。

提醒一下，请注意，此处的內容仅供参考，不应视为法律、商业、税务或投资建议，也不应用于评估任何投资或证券，并且并非针对 A16Z 基金的任何投资者或潜在投资者。更多详情，请访问 a16z.com/disclosures。

我将向你简要介绍一下历史，当时我在 MIT 做研究。我认为大数据在 2015 年是一件大事。每个人都在做这件事。所以首先，让我定义一下非结构化数据，因为人们对非结构化数据的定义不同。所以我的定义很简单。任何……

无法放入可以运行 SQL 的漂亮数据库表中的任何东西。任何不是那种东西的都是非结构化数据。例如 PDF 文档或图像或——或任何东西，是的。任何无法放入可以运行查询的漂亮表格中的东西。我们已经知道如何在数据以结构化格式整齐排列时回答问题。所以在 MIT，他们试图提出的问题是，当数据不是那种格式时，你如何回答问题？所以，而且这是非常异构的，基本上没有任何模式。你甚至不知道哪些问题是相关的，哪些问题是不相关的。

所以这是关键的假设。我们当时正在构建一个名为 Data Hub 的产品。它具有安装不同类型内容的能力。因此，你可以安装文件系统，可以安装数据库，还可以安装所谓的应用程序节点。因为一些数据也存在于随机应用程序中。你能问任何问题吗？

这是一个大型研究项目。我想，这可能非常有价值。所以我退学了。我没有解决整个问题，来到了硅谷。然后我开始与许多公司交谈。告诉我你的非结构化数据问题是什么？因为我们必须弄清楚业务或销售地点以及组织（尤其是企业）的真正价值在哪里。

我们被卷入了这个棘手的问题，那就是这里是我的所有图像、文档、Excel 和 PowerPoint。你能帮我回答问题吗？我的第一个问题是，你为什么关心这个问题？你想回答什么问题？我们需要了解这一点。他们说，我们做了一堆流程……

接收大量非结构化数据，我们必须做出决定。例如，对于移民来说，当有人申请移民时，他们会提交一堆东西，他们必须决定是否应该给你签证。或者你申请贷款，你提交一堆东西，他们必须决定你是否应该获得贷款。所以我们想，听起来很有趣。所以让我们考虑如何解决这个问题。

你不会相信的，当时的技巧非常粗糙。人们使用了四种常见的技巧。第一种，他们称之为模板，他们只会说，这是一个护照模板。如果你想要护照号码，请查看下方 10 像素和右侧 10 像素，并绘制一个 20 像素长的方框。你找到的任何东西都是你的护照号码。祝你好运，是的。非常非常残酷，对吧？因为一旦你扫描方式不同，事情就会崩溃。第二种技巧基本上是人们编写

不同类型的规则，例如去查找关键字、句点、开头，以及该关键字右侧的任何内容都是开始日期或其他什么东西。不管用，它只会崩溃。我们的第三种技巧是

人们试图通过为特定文档类型编写特征来训练这些机器学习模型。你为基础步骤编写什么特征？这非常非常困难。所以这些也不管用。所以我们当时开始进行研究，我们在两年内就取消了这项研究，这项研究叫做程序综合，它基本上是这样的，如果我能接触到非常聪明的人，我该如何解决非结构化数据问题？我会要求他们编写代码，你知道，动态地。所以我可以基本上……

要求计算机动态地合成你的程序。对于计算机来说，当时编写程序非常非常困难。大型语言模型还不是什么东西，但我们想，大部分数据都可以通过编写某种形式的正则表达式以及那些东西从文档中提取出来。所以让我们根据你提供的输入输出组合来合成这些正则表达式。这就是答案。只要你的输入具有类似的结构，这就能很好地工作，因为程序的问题在于它

是确定性的。所以如果你的输入发生变化，它就会崩溃。但它仍然会产生可靠的结果，但还不够好，我们无法解决许多问题，但我们可以解决部分问题。这是 2017 年，Transformer 论文问世了。

我认为 Transformer 论文，他们当时还发布了一个名为 BERT 的模型。所以我们非常兴奋。我们想，因为那是最先进的，也是理解自然语言的最佳模型。所以我们基本上将 BERT 应用于这些非结构化文档。我们取了一些标记并放入其中，这产生了非常糟糕的结果。

非常非常糟糕的结果。所以我们当时实际上发送了一份笔记，马丁斯应该有一份副本，我们当时想，看来这个问题是无法解决的。除非有人解决人工智能完整问题，他们称之为 AGI。但我们想，没有其他东西足够有希望。那我们该怎么办？

所以我们基本上尝试了一种创造性的方法，如果你看一下 BERT 语言模型，它们将标记编码为句子中单词的位置。这就是注意力机制的工作方式，并且会解决填充掩码问题。所以我们想，如果我们除了句子中单词的位置之外，还开始编码 X 和 Y 坐标呢？所以我们基本上使用了 1.1 亿份文档

获取每个单词或标记，并使用句子中的位置进行编码，但更重要的是，使用 X 和 Y 坐标，然后尝试通过基本阻塞来解决填充掩码问题，看看该框是否可以由模型填充，并训练了一个类似于 BERT 的模型，我们称之为 InstaLM。

这产生了很好的结果，因为注意力现在不仅关注标记的序列，还关注二维空间中的 X、Y 坐标，从文档布局理解的角度来看，这真的很酷。是的。

我认为可以公平地说，这已经成为，我的意思是，这是很久以后的事了，但今天它几乎已经成为一种标准技术，对吧？如果你正在查看二维数据，你对 X 和 Y 或类似的东西进行了一些旋转编码。是的，是的，是的。所以当时情况并非如此。所以实际上，Rafal，他是我们的一位机器学习工程师，你会看到那两三篇论文在那段时间处于领先地位。

所以我们非常高兴。我们开始赢得很多交易。我们在 2021 年到 2022 年期间将收入翻了两番。但随后 OpenAI 推出了 ChatGPT，也就是 2022 年 11 月。事实证明，一点教训是，规模很重要。所以，我们想，哦，我的天哪，就像那大约是，你实际上可以传递文档。当时他们在第一个版本中不支持文档，但你可以基本上保留并传递带有位置的文本。它做得相当不错。

我们想，这是 Instabase 的终结吗？就像，你现在似乎可以解决整个问题。然后我们意识到还有很多事情，我认为 Databricks 有一篇论文，即复合人工智能系统，

大型语言模型非常好，但在前后你需要一堆系统才能使其可靠，我们可以详细介绍。但这就是我们今天所处位置的历史。是的，太棒了。一个小小的个人轶事。我有很多 PDF 文件，所有东西，我收到的每一张纸，我都扫描并将其转储到一个文件夹中。我最近为自己编写了一个小工具，它基本上首先要求大型语言模型提出文档的层次结构。你知道，我们是一个五口之家，这里有一些关于我们家庭的事情，然后给我一个文档层次结构。

然后基本上通过获取文档并获取文档的摘要，将其提供给大型语言模型并说，这个文档应该放在哪个文件夹中？这是一种非常高效的排序算法。大型语言模型能够做到这一点，真是令人印象深刻。所以今天你有一个解决方案，它基本上允许企业或公司使用非结构化数据。你能谈谈它能做什么以及一些用例吗？用例非常简单，例如，我将举一个银行想要进行贷款或保险公司想要处理你的索赔的简单例子。让我们来看这两个主要案例中的一个。所以当人们申请，比如说，住房贷款申请时，它就像字面意义上长达一百页的资料包，你甚至不知道什么在哪里。可能是前 10 页是他们的银行对账单。这是一鞋盒的文档。是的，是的。中间可能会有猫的照片。中间可能会有某人的随机信件。所以问题我认为是，

没有一个结构。银行说，我需要一些东西来验证你的收入。我需要一些东西来验证你的身份。所以他们并没有告诉你，这是我的护照，这是我的驾驶执照。这是一个申请资料包，去处理它。

你必须可靠地做到这一点，因为你不能犯任何错误。你可以想象一下，你如何解决这个问题？所以有两种技术。这就是，你知道，我认为我们写的一篇论文是大型语言模型不是你所需要的一切。因为你可以做的一件事是将其放入一些东西中，并向大型语言模型提问。但问题是，如果它超出了上下文窗口，那么就是一个问题。你可以使用检索增强生成，因为检索增强生成是一种技术，你将其放入一些向量数据库中，找出对于什么问题，哪些相关问题。

可能有用的块，然后生成它。但是你怎么知道你没有错过什么？你可能会得到精度，但如果你错过了一些东西，那么就是一个问题。大型语言模型是

很棒的，但它们会犯令人惊讶的错误。例如，假设你有一个包含表格的 10 页长的银行对账单。不知何故，他们会把很多事情都做对，但会错过像四个随机单元格的值。你甚至不知道他们错过了它。这改变了整个事情。所以这些是非常令人惊讶的错误。是的。

所以我们考虑如何可靠地解决这个问题？因为可靠性部分很重要，因为这些是银行或保险公司或移民机构做出的复杂决定。所以解决这个问题的正确方法是如何知道如何将这个特定的资料包拆分成我们关心的几件事？你必须详细分析每一件事。一旦你完成了这个，

那么你如何获得我们关心的所有这些结构？例如，我们运行单独的表格检测算法，而不是将整个内容传递给大型语言模型，因为你怎么知道你没有错过四件事？你怎么确保所有单元格都是正确的？类似于复选框和签名以及其他基本重要的事情。一旦你进行了分类，那么我们需要哪些相关的模式？然后你基本上去做那些事情。你如何验证这些事情是否正确？然后编写验证。

然后进行交叉验证，因为粘贴的内容与 W2 说的是同一件事吗？如果不是，那么……所以我们基本上提供的是这个界面，人们可以在不编写任何代码的情况下构建所有这些东西。然后你构建这个应用程序，现在你可以将这个应用程序作为部署的一部分运行，它将与你的上游和下游集成。所以现在你可以在不到五秒钟的时间内完成贷款，而不是之前需要几周的时间。

有一个非常有趣的巨大案例，例如情报的巨大案例。所以假设，这就是我谈论为什么这些方法至关重要的原因。假设你是一个国家，你想收集大量情报数据，你想回答是否存在对国家的任何威胁。你每天收到例如数百万份文件。一种方法是将所有这些内容转储到某个检索增强生成系统中并提出问题，

你怎么知道你没有错过任何东西？因为他们关心这一点。也许回答这个问题的正确方法不是将所有文档放入搜索中，而是查看文档的每一页。寻找你关心的东西，例如，

恐怖主义威胁或洗钱或其他什么东西，然后提取它，将其放入数据库，运行 SQL 查询。一旦匹配到东西，然后进行更深入的分析，因为你现在保证了完整性。所以我认为我们已经看到，虽然检索增强生成对于随意搜索来说很好，但你需要一个复杂的底层工作流程，它是可解释的、可审计的、保证准确无误的。

对于解决许多这些企业问题至关重要。这就是我们所做的。我们帮助企业基本上获取任何类型的非结构化数据并从中做出可靠、100% 完整和准确的用例决策。有些情况下我们可以犯错。在这种情况下，我们必须传递给人类，例如，“看起来好像有什么问题。你能去看看吗？”完全正确。而且看，我的意思是，我认为这是当前人工智能系统的趋势，对吧？是的。

我还没有遇到过一个完美的人工智能系统。根据某些指标，我认为我们永远也不会遇到，对吧？我认为你需要的是找到具有合理错误率的东西，然后是将这些东西交给人类处理的良好升级路径，对吧？没错。甚至人类，人类也不是 100% 正确的，对吧？所以你必须建立正确的流程来捕捉它。这就是为什么我认为有时当人们说这个 AI 不起作用时，只是

AI 本来就不应该在 100% 的时间内可靠地工作。你必须围绕它建立一个系统。没错，是的。这将是你将在各行各业看到的很多投资，那就是我们如何围绕 AI 和大型语言模型构建正确的系统来解决问题。企业或一般人，我认为，人工智能消费者对可靠性的看法是否发生了转变？我的意思是，看，传统上，如果我是一个……

银行里廉价的合规官员，或者说我有一套新的软件，你知道我的想法是这个软件永远不能做 x，因为这会让我们失去合规性，我最近与一家银行交谈，他们说，好吧，我们尝试过，它不适用于人工智能，对吧，所以现在我们说，训练有素的人让我们每 x 小时左右失去 x 次合规性，对吧，所以人工智能必须好 10 倍，然后我们才会签字，你知道，所以你

你不能有绝对的完美。所以，你知道，我们必须改变验收标准。你是否也看到了这种情况？我认为更重要的是可预测性。我认为人们只要错误是可预测的，他们就能接受错误。

当错误不可预测时，那就是问题所在。所以当基本上有人犯了一个错误，你甚至不知道犯了错误时，那就是……因为在人类中，你知道，他们会犯 3%、4% 的错误，你知道。但是如果你安排第二个人，默认情况下，这种可能性很低。复合的。是的，是的。但是人工智能，问题是它们非常准确。它们非常好。但它们会以一种令人惊讶的不可预测的方式犯错误。

这是一个更大的问题。这就是我认为围绕它的工具和系统来检测它们、能够解释何时犯了错误、能够弄清楚如何捕捉它们或构建允许你最大限度地减少这种影响的系统至关重要的原因。所以总的来说，我们已经看到

只要我们向他们展示可预测性，企业就可以使用 AI。他们不在乎 99% 的准确性。你可以达到 90% 的准确性，甚至 80% 的准确性，但只要告诉我们哪些 20% 需要审查或哪些 20% 需要去其他地方。这需要围绕这些工具的许多系统

才能实现这一点。所以我认为我们有时会误解企业想要什么。他们不想要 100% 的准确性。他们想要可预测性。这本质上是未来，你知道，将来，如果一个组织收到一份通常人类不会看到的文档，但会主要查看它并生成摘要或，你知道，我会预先解析它，并且，你知道，我可以更高层次地对其进行推理？当我收到像文档这样的非结构化数据时，

人类仍然会看到某种带有任何东西的仪表板，只有他们感兴趣的东西，他们会双击。人工智能将做很多事情来最大限度地减少他们到达感兴趣的东西所需的时间。谷歌就是一个很好的例子。当你搜索时，

你不会阅读每一件事。谷歌会给你一些你想要双击并进行研究的东西。我认为人工智能将在许多情况下发挥类似的重要作用。去除样板内容并将其简化为要点。我们是否正在展望一个世界，在这个世界中，我的系统将获取我的几个要点或关键词并生成一个 PDF 文档，然后你的系统将获取 PDF 文档并将其简化为几个要点和短语？没错。这是一个好问题。

我想，这并不是在未来运作的坏方法。你见过的最有趣的技术用例是什么？有什么明显普通的东西吗？我认为我们看到客户比我们想象的更有创造力。所以想想看，我曾与印度的一家银行合作。现在，鉴于人工智能已经变得相当可靠，他们正在通过 WhatsApp 提供完整的贷款服务。哦，太棒了。所以你进入 WhatsApp，你说，嘿，我是一家企业，并且……

我想要贷款。然后在 WhatsApp 上，你会收到回复说，嘿，你能上传这些东西吗，你过去 30 天的所有，你知道，你的损益表等等。你基本上是零散地提交这些报告，例如，“这看起来不错。你也可以这样做吗？”我从未见过像通过 WhatsApp 进行对话式贷款这样的事情。这太疯狂了。客户体验从根本上来说非常不同。我认为在未来几年，

它将以非常非常显著的方式改变用户体验。目前，我认为很多人认为人工智能是一项技术，以及我们如何在软件内部使用它。我认为最大的影响将是它赋予你的能力程度，你可以完全构建一类与客户互动的新方式，这在以前是不可能的。我们越来越看到这些

目前，所有这些流程，例如保险索赔等等，都是一个相当痛苦的过程，对吧？我认为美国在这些事情上稍微保守一些。但是如果你去数字化程度更高的发展中国家，人们已经在手机上使用所有东西，

事情正在以一种方式发展，你知道，因为人工智能让你感觉像是在与人类交谈。以前没有人喜欢聊天机器人，但现在你感觉很好，因为他们基本上以与人类行为非常相似的方式与你交谈。这种界面加上他们拥有的所有

互动。当然，每个人都在努力追求的一个主要用例是呼叫中心。但想想其他所有事情。例如，你如何开设账户？你如何进行贷款？你如何进行处理？它将对用户体验将如何以非常非常显著的方式发生变化产生重大影响。我认为……

甚至还有，我认为，这里有一个机会，可以将一些目前非常，你知道，我获取大量文档，我将它们扔过墙，然后返回一个响应，真正转变为更具互动性的东西，对吧？就像，“嘿，Guido，你知道，告诉我更多关于你的具体用例的信息。好的，然后我需要这些文档，我发送它们。就像，“嗯，这份文档缺少一些东西。”并且，你知道，你可以以非常非常短的延迟进行这种互动。所有事情，甚至移民，对吧？就像你发送东西，你甚至不知道，两个月后，你听到你的东西被拒绝了，或者我们需要这样的东西。

我的意思是，所有这些事情都可以从根本上改变。我刚收到国税局寄回的一封信。我提交了一份包含大量支持性文件的冗长申请。我收到一封格式信，说文件不完整，但没有提到什么不完整。没错。我想，“这是什么意思？”这可以更具互动性。是的。因为现在你可以实时地做事情。所以我对……

这将对每个企业如何与其客户互动产生影响感到非常乐观。这很有道理。你认为公司采用这项技术的最大障碍是什么？就像，你知道，我的意思是，我看到许多经典企业正在采用人工智能。围绕合规性和法律以及我的数据去向的讨论，你知道，就像一个很长的……

正在表达的担忧清单。你见过的最重要的项目是什么？这些企业历史上并不以行动迅速而闻名。所以这是第一点。所以我认为期望，就像……我会说他们在人工智能革命中的行动速度比以前快了一点。没错。总的来说，我认为这些大型企业中的每一个都必须获得其合规委员会和监管委员会的批准，你知道，他们都基本上……

而且他们都不真正理解这些事情。有时你会得到可能不适用或可能不适用的法规或问题。例如，每次你更改功能时，告诉我……大型语言模型就像，我们，大型语言模型开发人员不更改功能，对吧？但是当你得到所有这些东西时，这基本上是一个巨大的时间消耗。但我认为他们关心的两件关键事情是……

你如何保证我的数据安全？所以这是第一点。第二点是，你如何给我提供可审计性和可预测性？这是最重要的两点，就像如果你将所有问题归结起来，它们最终都会归结到这两点。就像没有人想要人工智能做出决定，即使它是正确的，如果他们无法解释它所采取的步骤。

因为如果出了问题，他们必须解释。因为在人类世界中，你可以解释。有些东西来了，这去了……

五个不同的团队，他们在那里做了这部分工作，并且犯了这个特定的错误。这就是为什么我们将在未来纠正它，以便不会发生这种错误。如果人工智能成为一个没有内部工作方式的仪表工具的黑盒，那么它将很难，尤其是在以客户为中心的用例中。对于简单的随意搜索和那些事情来说，这很好。但运行时必须是可审计的。

而且你应该能够找到如果有什么地方出错了，错在哪里。他们不会直接告诉你。他们会问最终归结为这个问题的问题，但这就是我们看到的重大要求。说得对。让我稍微换个话题。我们看到，你知道，我认为目前最热门的流行词是代理，对吧？所以，你知道，这是一个被过度使用的术语。有时它被用作营销术语，用于，你知道，基本上是一组被美化的提示，对吧？但我们也看到它

作为一种本质上不同的用户界面范例，对吧？我不再一步一步地完成交易，而是基本上向代理发出高级指令，代理自主行动。我们甚至将其视为一种软件设计范例，现在有多个代理一起工作并更自主地做出决策。你认为

这将如何改变企业处理数据的方式、我们处理非结构化数据的方式以及整个领域。因此，让我们看看我们已经知道哪些有效。所以我们已经知道哪些有效的是，

企业已经知道如何运行由某些开发人员创建的某些工作流程，他们使用某些工作流程管理工具定义一堆步骤，然后你可以运行它。所以人们已经知道如何运行这个。你可以提出的论点是，我们可以告诉代理，比如给我答案，他们会做到吗？目前代理的问题是，如果你只给他们相同的目标和相同的工具集，他们可能会在两次选择不同的路径。

因此，它们不能保证总是确定性地走同一条路径。因此，一般来说，人们不喜欢运行时不一致。所以运行时必须一致。所以我认为我在企业中看到有效的地方是在构建时，当有人必须定义控制路径和逻辑以及所有这些东西时，

你可以让代理生成第一个草稿，比如，“这是我计划执行的方式。它看起来是这样的。”因为否则，人类可能需要很长时间。与 Cursor 非常相似，对吧？如果你想构建一些东西，他们可以编写代码的第一个草稿。人类可以查看，进行一些小的修改。但是你确定性地运行该代码。是的，完全正确。所以我的意思是，我认为方式相同。所以我认为自主代理不会是运行时现象。

然而，这将是一个构建时或编译时现象，这基本上意味着在构建阶段，它们可以完成 90% 的工作。人类进行一些更改。这是一个巨大的、巨大的、巨大的价值，因为事情在企业中无法扩展的原因是

要么缺乏足够的开发人员或技能或动力，或者其他什么。如果人工智能代理可以做事情并使其变得如此容易，你可以构建这些，然后一旦它被批准，我们就知道了正在运行的内容。然后它是可审计的，你也可以添加步骤和检查点，任何需要的东西。例如，游标生成的代码，但你想要更多日志，所以你可以在两者之间添加日志，任何这些事情都可以。一旦你有了可以在生产环境中运行的确定性工件，

所以我认为世界将朝着这个方向发展，这就是你的编译时现象和运行时现象。运行时现象必须是确定性的，是可以审计的、可调试的。你确切地知道发生了什么。你应该能够看到日志和所有这些东西。在编译时，代理可以发挥重要作用，因为它们可以帮助推理并创建第一个草稿，人类可以与代理一起参与以生成将要运行的工件。这很有道理。我的意思是，这目前是一个非常热门的辩论，对吧？我认为我们从这个

AGI 愿景中得到了一切，它就像，“不，这将是一个完全自主的循环，它决定何时终止，决定使用哪些工具。它只是，你知道，你给出你的信用卡并让它运行，对吧？我个人同意。我认为我们还没有到那里，对吧？我们看到的这些最自由形式的代理系统，它们通常还不能工作。这种方法是说，

让 LLM 生成流程，但在流程有效后冻结流程。我认为至少在短期内，这是一个更务实的愿景。此外，我认为我们可以从人类世界中有效的方法中吸取教训。让我们假设每个人都是一个代理。你不会允许你公司中的每一位员工都做出自主的决定。不，顶层的人会说，这是我们将要做的事情。你只能做这些事情。然后，所以基本上，运行时是相当确定性的。

大部分推理、代理和所有那些很酷的东西都被使用了。所以 LLM 流程再造现在是一件事了。是的。我想是的。太棒了。展望未来，你在你的领域中对什么感到兴奋？我的意思是，人工智能目前很难预测六个月后会发生什么，对吧？但是如果你试图将你的水晶球推到绝对的极限，你认为我们会在 12 个月后、两年后看到哪些事情？是的。

在你的领域？我们已经就此进行了相当长一段时间的辩论和推理。也许我的答案会略有争议，因为不同的人对未来会有不同的看法。所以我确实相信人工智能将继续改进和能力，我认为它们将在编译时、构建事物、推理等方面发挥重要作用。尽管运行时将更加确定、可预测和可控。

现在，问题是，执行模式是什么？有两种不同的世界观。一种是，它是否使我的数据管理问题更容易，它允许编译时，将所有东西移到一个地方并能够回答和做事情？或者你基本上保持工具和世界原样，到处都是孤岛，而人工智能会变得足够聪明

进行多代理通信，每个代理都可以做事情并弄清楚如何，你知道，如果一个代理出错并影响如何进行通信。因此，我们一直在研究这种联合人工智能执行的想法，即作为组织，你可以以非常联合的方式定义这些数千个代理，但是

能够通过某些平台或任何可能的东西动态地发现其他代理，然后能够进行通信。因此，如果你有一个更大的目标，不知何故，你不需要一个人来决定一切。动态地，所有代理都可以发现，它们都可以共享能力，然后你可以找出控制路径，然后你可以找出如何运行。所以我们正在尝试构建联合的、分散的自动化框架，这基本上意味着

我可以采用任何组织中的任何流程并找出联合的分散式执行框架，然后可以运行吗？我相信自动化世界将走向那里。仍然有很多悬而未决的问题，很多未知数。还有很多工作要做，是的。但我们正在做的赌注是，人工智能将以显著的方式推动自动化。

RPA 将被人工智能自动化完全吞噬。未来很可能将更多地采用分散的联合执行。是的。这就是我们。这是一个非常棒的愿景。我很兴奋。所以人工智能正在飞速发展。人工智能的一些技术进步如何影响人工智能？

你可以交付给你的最终客户。我的意思是，它们必须基本上不断变化，对吧？是的。是的。所以我认为我们早期主要关注非结构化数据问题作为自动化的一部分，因为这是长期以来的一大难题，即你如何理解它们？因为一旦你以结构化格式获得数据，你就知道如何执行下一步。所以到目前为止，我们主要关注的是，如果你获得一堆非结构化数据，如何获得你需要做出下一步决策的东西。

我们没有触及决策的下一步。例如，假设你是一家贷款公司或保险公司。一旦你获得所有数据，你可能必须，你知道，触发其他一些工具，例如他们的贷款系统或某种欺诈系统或任何风险系统等等。因为这需要了解这些系统，如何解释结果以及所有这些东西。所以我们就像，

数据输入，我们将完成所有工作，给你有价值的数据输出，之后，你将负责所有其他集成。这些家伙解决这些问题的方法，

是使用这种称为 RPA 的技术。你可能听说过机器人流程自动化。所以机器人流程自动化实际上是，如果人类必须做某事，你基本上打开一些东西，浏览器或其他什么，获取一些数据，放入其他系统，点击一些按钮等等。所以它记录了人类在桌面上点击的内容，并试图不断重复它。所以你有点像实现了自动化。他们遇到的难题是，

你不能对非结构化数据进行机器人流程处理，因为它不是固定的。它们会改变它。任何事情都会非常非常残酷。但是如果之后的事情完全相同，你实际上可以录制屏幕并重播。这非常非常残酷。RPH 的问题是，即使它们增加了价值，我认为那里有一些大玩家，UiPath、Automation Anywhere 以及许多其他公司都有合理的、巨大的市值。现在有了人工智能……

我们提出的论点，我们可能是错的，是数据一旦出来，我们在这方面非常非常擅长，我们是否也可以开始操作其他系统？现在，这做了一个巨大的假设，即人工智能将帮助我们操作这些系统。出现了一些有趣的协议，即模型上下文协议，它允许你动态地发现能力，调用这些函数。它仍然有很多问题，即

所有系统是否都支持 MCP？如果他们不支持怎么办？他们对身份验证有点回避，但我们会随着时间的推移解决这个问题。然后是身份验证。然后你如何知道有什么东西坏了？我们提出的论点之一是，也许在未来，当我们基本上范围更广时，我们可以完成整个端到端工作流程？所以一旦数据出来，我们是否有办法在编译时进行规划和区域划分，人工智能代理可以做到吗？

如何操作这些系统，如何调用它们，如何获取数据，然后调用其他系统。如果有什么问题，如何让员工参与。所以在编译时使用人工智能代理创建所有这些东西，然后扩展我们的产品以端到端地完成所有这些事情。为什么 RPA 可以被人工智能自动化完全取代？

RPA 有一些更容易解决的事情，因为有些用户登录。所以它总是运行在用户的上下文中。如果你在桌面上点击等等，我们认为可能有效的技巧之一称为身份传递。可以假设可以在运行时提供用户身份，然后让该用户身份传递给所有 MCP。我是否总是希望代理拥有与我相同的权限？是的。

代理就像今天的优秀实习生，对吧？所以我信任实习生到一定程度。我不一定想要，除了在我的信用卡上花钱之外，也许我想将其上限设置为 50 美元或类似的东西。你可以在编译时决定这一点。所以基本上你可以说，嘿，即使像，让我们说这个用户上下文是这样的，但是一旦它到达这个操作工具，也许我们创建一些像用户除以二

身份，它将具有较少的权限或类似的东西。好消息是，这就是为什么我说人工智能代理应该只在编译时使用，以便它为人类提供对运行时行为应该是什么的所有控制。是的，说得对。当人工智能代理做出运行时决策时，问题就来了，因为那时你无法控制事情的发展方向。因此，这种分离至关重要。所以在最初的构建过程中，你可以选择是否要限制它们的代理能力以及它们具有的限制和约束。这就是它在运行时将要执行的操作。对。

对，阿南特。感谢你今天来这里。这绝对太棒了。我认为我们正在与人工智能一起踏上非常令人兴奋的旅程。回顾过去，我认为我参与的最后一次大浪潮可能是互联网泡沫。我认为如果企业在那些日子里吸取了一个教训，那就是

这些重大的技术转变正在发生。你必须尽早抓住这波浪潮。它可能很复杂。也许，你知道，仍然有点奇怪，有点，你知道，你的合规性，你的法律人员，他们不知道如何处理它。但是，你知道，如果你不这样做，你最终可能会像巴诺书店一样，对吧？缺点是巨大的。我认为今天很清楚的是，企业在这里有一个巨大的机会，既可以

拥有更高效的工作流程，也可以拥有更好得多的最终客户体验和合作伙伴体验。此外，它还做了三件事，那就是它为你节省了很多成本。

它确实做到了。它允许你做得更快得多。第三个是根本上以非常显著的方式改变了客户体验。所以我认为企业采用这些东西的所有业务区域。现在只是关于如何使这项工作发挥作用。我不认为我对这是否有效或这是否是正确的决定有任何疑问。问题是如何使它发挥作用。我认为这是个更大的问题。太棒了。非常感谢你。

这就是本集的全部内容。也许是我多年来一直在关注数据领域并思考大数据，但我认为这是一次很棒的讨论。如果你同意，请分享播客并在你收听的任何地方对其进行评分。并在接下来的几周内继续收听更多精彩内容。

Giving New Life to Unstructured Data with LLMs and Agents 35:49 Share

AI + a16z

Deep Dive

Shownotes Transcript

Giving New Life to Unstructured Data with LLMs and Agents