We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Enabling Agents and Battling Bots on an AI-Centric Web

2025/6/13

AI + a16z

David Mytton: 我认为现在的主要挑战在于区分良性和恶意的机器人流量，尤其是在人工智能代理日益普及的情况下。过去那种一刀切的封锁策略已经不再适用，因为很多AI代理实际上是在代表用户执行任务，例如预订、注册或购买商品。我们需要更精细的控制，理解这些AI代理的目的、行为和来源，才能制定出合适的规则。如果仅仅因为它们是AI就进行封锁，可能会错失很多潜在的业务机会。 Joel de la Garza: 我也认为传统的安全方法已经无法满足当前的需求。过去那种基于IP地址或用户代理的简单封锁，会误伤很多正常的AI代理流量，导致业务损失。现在我们需要更深入的应用层面的上下文信息，例如用户是谁、会话状态以及访问的页面等，才能做出更明智的决策。同时，随着AI技术的快速发展，推理成本也在不断降低，这为我们提供了在边缘设备上进行实时分析的可能性，从而更好地识别和管理各种类型的机器人流量。

Deep Dive

Shownotes Transcript

如果已有 50% 的流量来自机器人，而且这些流量已经是自动化的，而代理才刚刚起步，大多数人现在不使用这些计算机代理是因为它们太慢了。虽然仍有预览版，但很明显，这就是未来的发展方向。很快我们就会看到爆炸式增长。

来自这些工具的流量，仅仅因为它们的 AI 是错误的答案而阻止它们是不对的。你真的需要理解你想要它们的原因、它们在做什么、它们来自哪里，然后你才能创建这些细粒度的规则。感谢收听 A16C AI 播客。如果你已经收听了一段时间，或者你对 AI 世界有所了解，你无疑已经听说过 AI 代理以及它们理论上可以做的所有令人惊奇的事情。但有一个问题。

当涉及到与网站互动时，代理受到任何给定网站允许它们执行的操作的限制。例如，如果一个网站试图限制所有非人类的互动以试图防止不需要的机器人活动，它也可能会阻止 AI 代理代表客户工作，例如，预订、注册服务或购买产品。

这种对网站安全的大致方法与某些人所说的代理体验的概念不相容，这是一种将代理视为一等用户的 Web 和产品设计方法。

在本集中，A16Z Infra 合伙人 Joel De La Garza 与 ArcGIS 首席执行官 David Mitten 讨论了这个话题，ArcGIS 是一家为现代 Web 框架构建开发人员原生安全的初创公司，包括攻击检测、注册垃圾邮件预防和机器人检测。他们的讨论简短、精彩且非常有见地。在这些披露之后，您将听到它。

提醒一下，请注意，此处的內容仅供参考，不应被视为法律、商业、税务或投资建议，也不应被用于评估任何投资或证券，并且并非针对 A16Z 基金的任何投资者或潜在投资者。更多详情，请访问 a16z.com/disclosures。

看起来曾经过时的东西又重新流行了，我很想听听你对机器人重新出现的想法，以及我们知道机器人带来的所有坏处，但实际上也发生很多好的和非常酷的事情，以及我们如何才能努力实现这一点。对。好吧，事情变了，对吧？DDoS 问题仍然存在。是的。

但如今它几乎被视为一种商品。网络提供商、云提供商，他们会处理这个问题。因此，当您部署应用程序时，大多数情况下您无需考虑它。

挑战在于，当您遇到不符合这些过滤器的流量时。它看起来可能是合法的，或者它可能是合法的，而您只是对想要看到的流量类型有不同的看法。因此，挑战实际上是如何区分好的机器人和坏的机器人？然后随着 AI 的改变，机器人甚至可能代表人类行事，对吧？这不再是一个二元决策。

随着来自机器人的流量数量增加，在某些情况下，网站接收的大部分流量都来自自动化来源。因此，网站所有者的问题是，好吧，您想允许哪种类型的流量？当它是自动化的时，应该允许哪种类型的自动化流量访问您的网站？您从中获得了什么回报？在过去，我的意思是，我想说的是这个领域的传统提供商，

就像使用锤子一样，对吧？所以他们会说，嘿，如果这个 IP 地址进来了，它可能是一个机器人。或者他们会说，如果这个用户代理进来了，它可能是一个机器人。非常不精确。我认为这样做的缺点是，您可能会阻止大量合法流量以及非法流量。现在后果非常严重，因为其中一些 AI 机器人可能是实际用户。他们代表那些希望购买您产品的人行事。

这就是挑战。对于体积 DDoS 攻击，您只想在网络上阻止它。您永远不想看到这些流量。但其他所有内容都需要应用程序的上下文。您需要知道流量到达应用程序的哪个位置。您需要知道用户是谁、会话是什么，以及在这种情况下您是想允许还是拒绝它。

因此，对于开发人员、网站所有者和安全团队来说，真正的难题是如何做出这些细致的决策，以了解是否应该允许流量。应用程序本身的上下文非常重要，因为它取决于网站。如果您正在运行电子商务业务、在线商店，

最糟糕的事情是阻止交易，因为那样您就会损失收入。通常，您随后会将该订单标记为需要审核。人工客户支持人员将根据各种信号来确定是否允许它。如果您只是在网络上阻止它，那么您的应用程序将永远看不到它。您甚至不知道该订单以某种方式失败了。有很多媒体报道说，一些公司已经发布了

该领域的解决方案，但它们主要基于使用网络遥测的那些旧方法。

他们现在通常是如何工作的？还是他们发布了一些其他功能？因为他们给它们起了 AI 的名字，你立刻就会认为他们在做一些奇特的事情。没错，是的。因此，在网络上进行阻止基本上是这些老式产品的工作方式。他们在流量到达您的应用程序之前进行分析，然后您永远不会知道结果是什么。这在现在行不通了。它不足以构建现代应用程序了。

特别是随着 AI 的出现，像 OpenAI 这样拥有四五种不同类型机器人的公司，您可能希望对其中一些机器人做出更严格的决定，但其他一些机器人将代表用户搜索采取行动。我们看到……

许多不同的应用程序获得了更多注册用户，企业实际上由于这种 AI 流量而获得了更高的转化率。因此，仅仅阻止任何被称为 AI 的东西都是一种过于迟钝的工具。你需要更细致入微的方法。而唯一能做到这一点的方法就是使用应用程序上下文，了解代码内部发生的情况。我的意思是，我认为我们在整个行业中看到，

AI 为公司带来了难以置信的新的收入。如果您使用旧世界的工具来阻止任何此类流量，那么您可能会损害您的业务。没错。或者您将其置于某种迷宫中，使其看到无关的内容。然后通过这样做，您正在降低您的网站排名，因为 AI 调用将永远不会返回。它

就像阻止 Google 访问您的网站一样。就像，是的，Google 没有得到您，您不再在 Google 的索引中，但随后您不再在 Google 的索引中。因此，任何搜索的人都找不到您。好吧，我相信我们在过去有制定过标准或准标准，例如 robots.txt。

对，它会告诉你，并告诉爬虫，嘿，不要爬取这些目录。我们在这个新的代理时代是否正在做类似的事情？因此，robots.txt 仍然是起点。这是一种自愿标准。它在几十年前发展而来。它已经存在很长时间了。机器人长期以来一直是一个问题。其理念是，您描述应用程序的区域……

并告诉访问您网站的任何机器人，您是否希望允许该机器人访问网站的该区域。您可以使用它来控制新内容的推出，您可以保护您不想出于任何原因被索引的网站的某些页面。

您还可以将爬虫指向您希望它去的地方。您也可以使用站点地图来实现这一点。但是 robots.txt 文件格式随着时间的推移而发展，为来自 Google 等搜索引擎的爬虫提供这些信号。

挑战在于它是自愿的，并且没有强制执行。因此，您拥有像 Googlebot 这样的好的机器人，它们会遵循标准，您将能够完全控制它所做的事情。但是，有一些较新的机器人正在忽略它，或者有时甚至将其用作查找您不希望它访问的网站部分的一种方式，它们无论如何都会这样做。

因此，这成为网站所有者的控制问题。您真的需要能够理解，不仅要了解规则列表是什么，还要了解它们是如何执行的。完全正确。也许最好浏览一下……

对。

因此，如果我们以 OpenAI 为例，因为它们有四五个不同的爬虫，其中一个，它们都以不同的方式标识自己。实际上，有一个爬虫正在爬取以在您的网站上训练 OpenAI 模型。当人们想到“我想阻止 AI，即训练”时，这可能是每个人都在考虑的那个。并且您对如何包含在训练数据中会有不同的哲学方法。

其他的则更细致，需要更多思考。当用户在聊天中键入内容并被问到问题时，其中一个会出去搜索。它已经建立了自己的搜索索引。因此，这相当于 Googlebot。您可能希望出现在该索引中，因为正如我们所看到的……

网站获得了更多注册用户，它们获得了更多流量。发现过程成为另一个搜索索引的一部分非常重要。明白了。因此，当我问 OpenAI 约翰·F·肯尼迪的生日是什么时候时？如果它不知道答案，它就会去搜索网络。是的，没错。或者如果它试图获取某事物的开放时间，它可能会访问咖啡馆的网站或其他网站，然后传递它，然后返回结果。因此，这实际上就像一个经典的搜索引擎爬虫，只是它发生在幕后。

另一个是在实时发生的事情。因此，您可能会给代理一个特定的 URL，并要求它对其进行总结或查找开发人员工具文档中的特定问题。然后，这是一个单独的代理，它将出去，读取网站，然后返回并回答查询。对于这两个例子，

Open AI 和其他公司现在开始引用这些来源。您会经常看到，这是一种建议，即您从 AI 工具获得结果，但您不应该 100% 信任它。然后您去验证，查看文档。也许就像您过去访问维基百科时一样，您会阅读摘要，然后查看参考文献，然后查看所有参考文献，并检查摘要是否正确。但这三个例子……

您可以清楚地看到为什么您希望它们访问您的网站。对。就像阻止所有 OpenAI 的爬虫可能是一个非常糟糕的主意。是的，它太迟钝了。它是一种过于迟钝的工具。您需要能够区分每一个，并确定您希望它们进入网站的哪些部分。然后这就会引出第四个，即实际的代理。

这是一个代理，一种计算机操作员类型的功能。无头 Web 浏览器。无头 Web 浏览器，是的。但即使是 Web 浏览器，在虚拟机内运行的完整 Web 浏览器。这些是需要更多细微差别的那些，因为您可能正在预订机票或进行一些研究，并且您确实希望代理代表您采取行动。也许它正在浏览您的电子邮件收件箱并对邮件进行分类。

从应用程序构建者的角度来看，这可能是一件好事。您希望获得更多交易，您希望更多地使用您的应用程序。但是，也有一些例子表明它可能是一个不好的行为。例如，如果您正在构建一个工具，该工具将尝试购买所有演唱会门票，并

然后稍后转售，这对演唱会销售商来说就成了一个问题，因为他们不想这样做。他们希望真正的粉丝能够获得这些门票。同样，您需要细微差别。也许您允许机器人访问主页并排队。但是当您排到队首时，您希望人类实际进行购买，并且您希望限制其速度，以便人类最多只能购买，比如说，五张票。您不希望他们购买 500 张票。因此，这涉及到每个人的真实细节，关于您可能想要允许的内容和您可能想要限制的内容。

这非常复杂。我的意思是，如果我回想一下，为什么我们在阻止机器人方面做出了许多决定，这完全是因为规模问题。因此，你知道，你有 450,000 个 IP 地址通过只能执行千兆位的链路向你发送太比特的流量，你必须开始丢弃一些东西，对吧？你采取，你知道，这是对伤员的战场分类，对吧？就像你们中的一些人不会成功，它变得有点残酷。这听起来非常复杂。如何

如何在互联网规模上对流量进行这种细粒度的控制？这关乎建立多层保护。首先从 robots.txt 开始，管理好的机器人。

然后查看 IP 并开始了解流量来自哪里。在理想情况下，每个 IP 地址只有一个用户，但我们都知道这种情况不会发生。这种情况永远不会发生。因此，您可以开始围绕 IP 地址建立声誉数据库，并且您可以访问有关该地址的基础元数据，了解它来自哪个国家或属于哪个网络。

然后您可以开始制定这些决策，考虑一下，好吧，我们不应该从数据中心获取注册页面的流量。因此，我们可以阻止该网络。但是，如果我们有代理示例，则会变得更具挑战性。带有 Web 浏览器或无头浏览器的代理将在某个服务器上运行。它可能位于数据中心。然后您还有复合因素，

滥用者将购买对在住宅 IP 地址上运行的代理的访问权限。因此，您不能再轻易依赖它是家庭 ISP 块的一部分这一事实。因此，您必须建立这些模式，了解 IP 地址的声誉。然后是用户代理字符串。这是一个

它基本上是一个您可以随意填写的内容字段。那里有一种标准，但好的机器人会告诉你它们是谁。深入了解这些细节后，令人惊讶的是，有多少机器人实际上会告诉你它们是谁。因此，您可以仅根据该启发式方法与 IP 地址相结合来阻止许多机器人。或者允许它们。

或者允许它们。是的，我是来自 OpenAI 的购物机器人。请进，买些东西。没错。Googlebot、OpenAI，它们会告诉你它们是谁。然后您可以通过对 IP 地址执行反向 DNS 查找来验证这一点。因此，即使您可能能够假装自己是 Googlebot，您也可以通过非常低的延迟查找来检查情况是否如此。因此，我们可以验证，是的，这是 Google。我想允许它们。是的，这是正在执行搜索索引的 OpenAI 机器人。我想允许这样做。

从那里的下一个级别是建立指纹并对请求的特征进行指纹识别。这始于在 Salesforce 发明的 JA3 哈希，现在已发展为 JA4。其中一些算法是开源的。有些不是。因此，您基本上会获取有关会话的所有指标，并创建其哈希值，然后将其放入数据库中。没错。您查找与该哈希值的匹配项。您查找匹配项。然后，其理念是哈希值将根据客户端而变化。因此您可以

允许或拒绝某些客户端。但是，如果您有大量此类客户端都在向您发送垃圾邮件，那么它们都是相同的。它们都具有相同的指纹，您可以阻止该指纹。因此，这几乎就像如果您想到，您知道，我总是根据经典的网络堆栈来考虑事情，例如，您知道，从第 0 层到第 7 层。这几乎就像第 2 层

设备级别身份，对吧？对。它查看网络级别的 TLS 握手，然后您可以向上层移动。有一个名为 J4H 的，它查看 HTTP 标头。早期版本的此方法将处理标头的顺序，例如。因此，一种简单的解决方法是只需更改标头的顺序。哈希算法随着时间的推移而改进，因此即使更改标头的顺序也不会更改哈希值。是的。

其理念是，您可以将所有这些不同的信号组合起来，尝试对您认为是谁发出了请求做出决定。如果它是恶意的，您可以根据此进行阻止。如果它是您想要允许的人，那么您可以这样做。这甚至是在您进入用户级别、应用程序中实际发生的事情之前，对吧？没错。是的。因此，这是其顶部的逻辑。是的。

因为您必须首先识别它是谁，然后才能应用有关您希望它们执行的操作的规则。明白了。因此，这几乎就像您正在向传输端添加身份验证层或身份层。没错。是的，应用程序。是的，应用程序。但它贯穿整个堆栈，整个 OSI 模型。其理念是您拥有此一致的指纹，然后您可以将这些规则应用于它。身份在其之上进行分层。

我们已经看到指纹识别和根据请求来源提供签名方面的一些有趣进展。几年前，Apple 宣布了 Privacy Pass，这是一个附加到您发出的每个请求的哈希值。如果您使用 iPhone 或 Mac 上的 Safari 位于 Apple 生态系统中，那么有一种方法可以验证请求来自订阅了 iClack 的个人。

Apple 有自己的欺诈分析，允许您订阅 iCloud。因此，这是一个很容易做出的假设。如果您有订阅并且此签名已验证，那么您就是真人。

Cloudflare 最近发布了一个新的方法，用于对自动化请求执行相同操作，并在每个请求中附加一个附加到签名的指纹，然后您可以使用公钥加密进行验证。随着能够识别自动化客户端的问题的出现，所有这些都正在出现

增加，因为您希望能够知道哪些是好的，以便允许它们通过，同时阻止所有攻击者。是的，这就像过去使用 Kerberos 一样，对吧？每个大型供应商都会有自己的风格。对。如果您是一家商店，并且试图向所有人销售商品，那么您必须与他们所有人合作。没错。您只需要能够理解，这是人类吗？我们的应用程序是为人类构建的吗？然后您允许它们。或者我们是否正在构建 API，或者我们是否希望被索引，并且我们希望允许此流量？这只是

赋予网站所有者控制权？是的，我的意思是，我认为对我来说真正有趣的是，在我自己的使用和生活中，我越来越少直接与互联网互动，就像几乎每天一样。我正在经历某种 AI 类型的事情。它可能是代理，可能是大型语言模型，可能是任何数量的事情。但我通常不像以前那样直接查询内容。看起来我们正在走向一个世界，几乎……

您描述的层，您描述的代理类型活动将成为互联网上所有内容的主要消费者。由于已有 50% 的流量来自机器人，而且这些流量已经是自动化的，而代理才刚刚起步。大多数人现在不使用这些计算机代理是因为它们太慢了。它们仍然像预览版一样，但很明显，这就是未来的发展方向。很快我们就会看到爆炸式增长。

来自这些工具的流量，仅仅因为它们的 AI 是错误的答案而阻止它们是不对的。你真的需要理解你想要它们的原因、它们在做什么、它们来自哪里，然后你才能创建这些细粒度的规则。我的意思是，我不喜欢使用这个比喻，但这些东西几乎就像化身一样，对吧？它们代表某人四处奔走。对。您需要弄清楚那个人是谁以及目标是什么。对。并非常细致地控制它们。而旧方法这样做是假设恶意意图。

情况并非总是如此。而且越来越多地，情况并非如此，因为您希望代理执行操作。当您期望流量来自数据中心或期望它来自自动化的 Chrome 实例时，信号就无法再工作了。能够了解您的应用程序以深入了解

请求的特征在未来区分罪犯如何使用 AI 方面将变得越来越重要。到目前为止，我们所看到的是，要么是训练，人们对是否想要训练有自己的看法，要么是机器人可能做错了什么。他们访问网站的次数太多，因为他们没有考虑过节流，或者他们忽略了 robots.txt，而不是查看 agents.txt，agents.txt 区分了您希望访问您网站的代理和某种爬虫。

我们看到的例子只是机器人不断访问网站并下载内容。没有哪个世界应该发生这种情况。这就是成本被强加给网站所有者的原因，因为他们目前没有简单的方法来管理控制，控制访问其网站的流量。方向上，情况正在改善。

因为如果您回顾 18 个月，机器人没有速率限制，它们一直在下载内容。今天，我们知道这些机器人可以被验证。它们正在识别自己。它们是互联网上更好的公民。它们开始遵守规则。

因此，在接下来的 18 个月中，我认为我们将看到更多我们想要的 AI 爬虫，遵守规则，以正确的方式做事。它将开始区分，从而更容易检测到具有犯罪意图的机器人。而这些是我们想要阻止的机器人。因此，随着转型过程，

机器人从代表第三方和组织的互联网实体转变为这个新世界，在这个新世界中，这些 AI 代理可以代表组织，可以代表客户，可以代表任何数量的人。在我看来，这可能是未来的浪潮。我很好奇，你如何看待

在互联网上证明人性，对吧？证明是一个古老的故事。有一个关于证明身份的 NIST 工作组，我认为它已经运行了 35 年，但仍然没有真正得到可以实施的东西。有 15 家公司在那里，对吧？第一波

拼车服务和零工经济型公司需要进行证明，对吧？因为您在偏远地区雇佣这些人，那里没有办公室。这仍然不是一个已解决的问题。我很好奇，感觉 AI 或许可以帮助我们实现这一点，或者该领域可能正在发生一些事情。对。好吧，纯粹的解决方案是数字签名，对吧？但我们已经讨论了这么久了。而且

围绕它的用户体验基本上对于普通人来说是不可能弄清楚的。这就是为什么像电子邮件加密这样的东西，没有人加密他们的电子邮件。您有加密聊天，因为它内置于应用程序中，并且它可以在幕后执行密钥交换等所有困难的事情。

因此，该解决方案实际上行不通。但是 AI 至少在十多年来一直被用于分析流量。只是它被称为机器学习。因此，您从机器学习开始。问题是，新一代 AI 允许我们做什么？

LLM 类型模型的挑战在于它们进行分析的速度。因为您通常希望在几毫秒内在网络或应用程序中做出决定。否则，您将阻止流量，用户将感到恼火。因此，您可以使用经典的机器学习模型并快速进行推理。

我认为未来几年有趣的事情将是如何利用新一代生成式 AI 使用 LLM 或其他类型的类似 LLM 的技术来分析巨大的流量模式。

我认为这最初可以在后台完成，但我们已经看到新的边缘模型旨在部署到移动设备和物联网，这些模型使用极少的系统内存，并且可以在毫秒内提供推理响应。我认为这些将在未来几年开始部署到应用程序中。我认为你是完全正确的。就像

现在我们看到的很多东西都受到推理成本的限制。而这笔成本正在以惊人的速度下降，对吧？我们在云计算中看到了这一点，例如 S3 从您可以购买的最昂贵的存储变成了免费的，基本上是免费的。Glacier 基本上是免费的，对吧？免费如啤酒，对吧？无论如何。因此，就像我们看到的那样，即使对于推理而言，速度也更快，成本下降速度非常快。

然后，当你看到这些新技术的能力时，你可以将可疑的电子邮件放入ChatGPT中，并询问它是否可疑，那么它的准确率就达到了100%，对吧？如果你想查找敏感信息，你问LLM，这是敏感信息吗？它的准确率是100%。太神奇了。当你眯起眼睛看向未来时，你就能开始看到这些真正令人难以置信的用例，对吧？就像你说的边缘推理一样，

你认为我们最终都会在本地运行一个LLM，它基本上会成为CISOs的Clippy，它会弹出并说，嘿，你好像做了一些愚蠢的事情。你认为我们会走到这一步吗？我们正在努力将这种分析纳入流程，以便对于每一个传入的请求，你都可以有一个沙箱来分析完整的请求并给你一个响应。

而现在，你可能需要等待两到五秒钟来延迟一封电子邮件，并进行分析，然后决定是否将其标记为需要审查或发送到某人的收件箱。延迟HTTP请求五秒钟，这是行不通的。所以我认为……

我们看到的趋势是推理成本的改善，以及获得推理决策的延迟，这将是关键，这样我们就可以将其嵌入到应用程序中。你拥有完整的上下文窗口，因此你可以添加你所知道的所有关于用户的信息、关于会话的所有信息以及关于你的应用程序的所有信息，以及请求，然后在你的Web服务器上、边缘上或任何运行它的位置完全本地做出决定。当我听到你这么说并描述这个过程时，我唯一能想到的是广告商会喜欢这个。

这看起来像是为某种技术而构建的，比如，“他正在查看此产品，向他展示此产品”，对吧？是的。超快的边缘推理，做出决定。对于广告商来说，阻止点击垃圾邮件是一个巨大的问题。并且能够在它甚至通过你的广告模型和拍卖系统之前做出决定。谁能想到非确定性的、极其廉价的计算会解决这些用例呢，对吧？我们身处一个奇怪的世界。

本期节目到此结束。再次感谢收听。并记住继续收听更多精彩节目。随着人工智能领域的成熟，我们需要开始更实际地思考这项技术如何与我们已经使用的系统和平台共存。这就是我们在这里努力做的。我们将在接下来的几周继续探讨这些问题。

Enabling Agents and Battling Bots on an AI-Centric Web 26:02 Share

AI + a16z

Deep Dive

Shownotes Transcript

Enabling Agents and Battling Bots on an AI-Centric Web