We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI Bots Are Changing Wikipedia — For Better or Worse?

2025/4/13

AI Education

AI Deep Dive AI Chapters Transcript

People

Jaeden Schafer

Topics

我观察到维基百科的访问量自2024年1月以来激增了50%，这主要是因为AI模型和AI爬虫抓取网站信息，导致了服务器成本的大幅增加。这个问题不仅影响维基百科，还会影响到所有网站、企业和个人。维基百科官方也承认了AI爬虫带来的流量超出了其基础设施的承受能力，带来了巨大的风险和成本。虽然维基百科的内容对所有人开放，但AI模型大量抓取数据造成了巨大的成本压力，因为这些模型通常会忽略robots.txt文件，继续抓取数据。Sam Altman曾向白宫建议取消AI模型的版权规则，以便能够抓取所有数据，这引发了版权方面的争议。AI模型抓取数据会增加网站的服务器费用和带宽成本，即使网站本身不直接从中获利。维基百科最昂贵的流量中有65%来自机器人，这些机器人主要访问最受欢迎的文章。维基百科的数据中心架构使得访问热门页面成本较低，访问冷门页面成本较高。AI机器人会抓取所有内容，包括冷门内容，这导致了成本的急剧增加。目前，维基百科约有35%的页面浏览量来自机器人，但这些机器人贡献了65%的最昂贵流量。机器人与人类用户的访问模式不同，机器人倾向于批量读取大量冷门页面，这导致了成本的增加。维基百科基金会正在尝试解决机器人大量抓取数据的问题，Cloudflare推出了AI Labyrinth工具，利用AI生成内容来减缓爬虫机器人的速度。Cloudflare是一个保护网站免受DDoS攻击的工具，通过吸收和分散流量来防止网站崩溃。Cloudflare的AI Labyrinth工具可以检测AI爬虫并提供AI生成的内容来减缓其速度，通过提供垃圾数据来惩罚AI爬虫。AI爬虫忽略robots.txt文件，这导致了网站成本增加的问题。Meta等公司的大型语言模型的爬虫行为导致了网站带宽需求增加和成本增加。OpenAI等公司在抓取数据的同时，也增加了网站的成本，这引起了很多人的不满。网站需要找到解决方案来应对AI爬虫带来的问题，未来需要考虑如何平衡AI代理对网站的影响，既要允许客户使用AI代理进行购买，又要避免滥用。网站需要区分哪些内容会带来销售额，并根据情况选择是否启用AI Labyrinth等工具。应对AI爬虫是一个持续的博弈过程，需要网站不断调整策略。

Deep Dive

Shownotes Transcript

维基百科的访问量自2024年1月以来激增了50%。你可能会问，是什么导致了如此巨大的使用量激增？哦，也许他们获得了大量新用户。也许每个人都厌倦了ChatGPT，所以他们想转到维基百科。

这一切都是由于人工智能模型和人工智能爬虫程序抓取其网站信息，并大幅增加了维基百科的成本。因此，今天在播客中，我想深入探讨这一现象，但这不仅仅是因为维基百科，虽然它如何影响地球上最大的网站之一很有趣。

这是因为它将如何影响地球上的每一个网站，每一个企业，每一个在网上拥有任何东西的人都会遇到同样的问题。有些解决方案实际上非常滑稽，但让我们深入探讨一下。我想说的第一件事是维基百科在其官方博客上发布的正式声明，详细介绍了这个问题的一部分，以及

正在发生的事情。他们说，我们的基础设施是为了应对高关注度事件中人类的突然激增而构建的，但爬虫机器人产生的流量是前所未有的，并带来了越来越大的风险和成本。所以这里真正有趣的是，是的，维基百科对任何人使用都是免费的，从技术上讲，即使是人工智能模型也可以抓取。这有点像它的构建方式，对吧？他们并没有一个庞大的记者团队去撰写文章。任何人都可以贡献。所以这有点像

任何人都可以公平使用这些内容。但问题是这些人工智能模型正在使用这些内容。更大的问题是，即使像维基百科这样的网站实际上并没有这样做，因为他们希望被谷歌索引，但即使一个网站使用robot.txt文件来告诉，呃，

你知道，搜索引擎不要抓取它。这些人工智能模型和为人工智能抓取数据的人，他们通常只是避免了它。他们并不关心。就在两周前，我们甚至让山姆·阿尔特曼与白宫对话，说，嘿，你必须取消人工智能模型的版权规则，因为我们希望能够从所有东西中抓取和吸收数据。然而，棘手的问题是，正如我们在维基百科中学到的那样，是否有理由对版权提出质疑。

这仍然会让这些公司花钱，仅仅是因为这些人工智能模型会抓取他们所有的内容，因为他们的服务器费用会变得非常高，他们要支付所有这些托管费用，他们要支付所有这些带宽费用。所以有人为此付费，而这并不是公司去获取它。所以这里就有点棘手了。我想给你读一些有趣的东西。维基百科说，将近三分之二，大约65%，

他们所谓的“最昂贵的流量”。这就像，为什么有些流量比其他流量更贵？这有点技术性，但本质上是被频繁访问的内容。例如，维基百科或任何网站上最受欢迎的文章，它们存储在数据中心的另一个部分，并且缓存方式略有不同，因此非常容易访问。这些是访问量非常高的网页

因此，维基百科的设置大致是这样的：看，这是我们最受欢迎的10,000个页面。我们网站的大部分流量都流向那里。对于所有不太受欢迎的页面，也许是一个每月只访问一两次的页面，它们位于数据中心的完全不同的部分，更难以访问。它被缓存得更多，嗯，

访问它们需要花费更多的资金和带宽。他们实际上以一种非常聪明的方式设置了这一点，就像，获取最频繁的内容成本最低，而获取最不受欢迎的内容成本最高或使用最多的服务器带宽，这不会花费他们很多钱，除非他们遇到这种情况，即这些人工智能模型想要涵盖所有内容，对吧？所以，通常如果我在维基百科上滚动浏览，他们会有一些相关文章，也许我会点击一些相关文章，这就是我将要消费的内容的范围。

如果你是机器人，你将要抓取所有东西，最受欢迎的、最不受欢迎的内容以及没有人碰过的图片和图像。他们会把所有东西都吸进去。所以，在这种情况下，这真的非常非常昂贵。有趣的是，维基百科上大约35%的整体页面浏览量现在来自机器人。所以他们正在计算。他们就像，看，我们知道我们大约

三分之一，大约四分之一的，或者三分之一的所有浏览量来自机器人。所以这就像我们所有页面浏览量的四分之一，但他们最昂贵的浏览量的65%来自机器人。因此，虽然机器人的比例很小，呃，我不认为是小。我的意思是，它仍然占他们所有网络流量或网络浏览量的三分之一。它在成本方面所占的比例过大。对于这些机器人来说，它比许多人类更昂贵，这对像维基百科这样的公司来说不是一件好事。

所以这就是他们对此的看法。他们说，人类读者倾向于关注特定主题。机器人爬虫通常倾向于“批量读取”大量不太受欢迎的页面。这就是维基百科基金会一直在努力应对的难题。他们有很多不同的方法来做到这一点。最近发布了一个名为

由我们在Cloudflare的朋友们开发的新工具，它被称为AI迷宫。AI迷宫本质上是使用AI生成的内容来减缓这些爬虫机器人的速度。Cloudflare是一个我用在我的大多数网站上的著名工具。很多人都在使用它。它基本上可以保护你的网站免受人们进行攻击，你知道，他们用大量的，你知道，像

一百万人两秒钟内访问它。他们试图使你的服务器崩溃并将其关闭。我认为这被称为DDoS攻击。因此，为了在这种情况下自救，你可以注册像Cloudflare这样的公司，它基本上会位于用户和你的实际网站之间。如果他们看到像这样的巨大激增，Cloudflare将基本上吸收

大部分这种使用，他们会将其分散，并且不会让所有一百万人同时访问你的网站。因此，它基本上确保只有真正的人而不是机器人会使你的网站崩溃。这就是Cloudflare的作用。它很棒。我在我的许多不同站点上出于许多不同目的使用它。他们有很多……

你知道，他们有免费的SSL证书和各种Cloudflare提供的很酷的东西。但其中一件大事就是防止这种情况，这些，你知道，压垮你的服务器。他们现在所做的事情是，他们可以检测到它是否是AI爬虫。而不是仅仅，而不是仅仅，你知道，试图减慢它的速度或其他什么，他们只是喂养，

喂养它AI生成的内容，只是垃圾，称之为AI迷宫，让这些AI爬虫吸收所有这些垃圾，以减慢它们的速度，并同时防止它们使你的网站崩溃。但这也很有趣，因为它就像惩罚他们不仅仅是阻止他们。它就像惩罚他们。它现在在他们的数据集中给他们提供糟糕的数据。是的，所以这有点滑稽，但人们可以注册并使用它，其他人也在这样做。所以这很聪明，有点报复性。但是

这确实很有趣。目前，这确实是一场猫捉老鼠的游戏。人们正在寻找新的方法，使其看起来不像AI爬虫那样从网站上抓取所有内容。但这绝对是一个问题。上个月，一位软件工程师和开源倡导者，这是Drew DeVault。他抱怨说，这些AI爬虫正在忽略robot.txt文件，这些文件应该阻止自动流量。

嗯，Gurgly Osro上周也抱怨说，来自Meta等公司的AI爬虫增加了其自身项目的带宽需求，给他造成了巨额损失。所以这不仅仅是，你知道，这不仅仅是一家公司。是OpenAI。是Meta。是所有这些数十亿美元的公司……

给很多人带来了很多，你知道，成本。我认为当OpenAI第一次获取他们的第一个数据集时，他们可能能够在一定程度上不被注意。但此时，每个人都知道这些流量来自哪里。这花费了巨额资金。在OpenAI是闭源的情况下，他们正在获取数据并为此收费。同时，他们在提取数据的同时也让你花钱。所以很多人对此感到不满。但是

总的来说，除非你开始使用像Cloudflare的AI迷宫或其他类似的工具，否则没有什么可以做的。我一定会让你了解最新的情况。我认为这很重要，因为未来每个网站目前都在经历，并将继续经历一些这些问题。人们会想出一些解决方案。但归根结底，当我们开始考虑它在代理时代的样子时……

我们需要，我们必须考虑这将如何发挥作用，因为如果你假设客户正在使用代理来访问你的网站并购买东西，你真的不想阻止代理。这听起来很棒。但是，如果客户使用代理来抓取一些数据，也许只是因为你造成了一些服务器带宽使用，然后离开，并且没有，你知道，给你任何类型的

广告收入或购买力，那么它就毫无用处了。所以这将是一件有趣的事情。许多网站将不得不根据实际推动销售的内容或实际推动销售的页面来权衡利弊，以及，你知道，也许你的整个博客只是你网站上的免费内容。也许你只是从这些AI代理那里关闭它。你打开迷宫AI。但是当它在你的销售页面或产品页面上时，你实际上希望人们购买东西，也许AI代理实际上正在帮助你

用户购买东西，你希望保持开启。所以这将是一个非常有趣的游戏，也是一个需要权衡的平衡。我会让你了解所有情况以及任何其他出现的有助于解决这个问题的新工具，因为我认为这是一场绝对滑稽的猫捉老鼠的游戏，但你不想站在错误的一边，因为你不想阻止

你知道，实际客户或实际代理从你的网站上购买东西。非常感谢你收听播客。如果你喜欢它，并且如果你想使用AI工具来发展和扩展你的业务，我有一个独家的学校社区，在那里我每周都会发布一个我不在其他任何地方发布的视频，分解我用来发展和扩展我的AI业务的精确工具和

产品。因此，在说明中有一个链接指向AI Hustle School社区。我们有超过300名成员。每月19美元。如果你现在就加入，当我们将来提高价格时，你的价格将永远不会上涨。非常感谢你今天收听播客，我希望你们本周剩下的时间都过得愉快。

AI Bots Are Changing Wikipedia — For Better or Worse? 09:51 Share

AI Education

Deep Dive

Shownotes Transcript

AI Bots Are Changing Wikipedia — For Better or Worse?