We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Wikipedia Faces AI Bot Surge — Should We Be Worried?

Wikipedia Faces AI Bot Surge — Should We Be Worried?

2025/4/15
logo of podcast Lex Fridman Podcast of AI

Lex Fridman Podcast of AI

AI Deep Dive AI Chapters Transcript
People
J
Jaeden Schafer
Topics
Jaeden Schafer: 自2024年1月以来,维基百科的访问量激增了50%,这并非由于用户数量的增加,而是AI模型和AI爬虫大量抓取网站信息所致。这种现象不仅影响维基百科,也将会影响到所有拥有在线内容的网站、企业和个人。维基百科官方也承认了这一问题,指出AI爬虫产生的流量前所未有,带来了巨大的风险和成本。虽然维基百科的内容原则上是公开可用的,但AI模型的无节制抓取导致服务器成本激增,这使得维基百科等网站面临巨大的经济压力。即使网站使用robot.txt文件来阻止爬虫,AI模型通常也会忽略它,这使得问题更加复杂。AI模型抓取数据会增加网站的服务器成本,即使网站内容本身是免费的,也需要有人为此买单。维基百科最昂贵的流量中有65%来自AI爬虫,这些爬虫往往抓取大量不太受欢迎的页面,这使得成本进一步增加。AI爬虫会抓取所有内容,包括不常用的图片和页面,这导致网站成本大幅增加。目前,应对AI爬虫的主要方法是使用像Cloudflare的AI Labyrinth这样的工具,该工具利用AI生成内容来减缓爬虫速度,通过提供虚假数据来减缓AI爬虫的速度,但这是一种治标不治本的方法。许多公司和个人都受到了AI爬虫的影响,这已经成为一个普遍的问题。未来,网站需要权衡如何处理AI代理带来的流量,既要避免不必要的成本,又要支持用户使用AI代理进行正常访问。我们需要考虑如何在AI代理时代权衡利弊,既要避免被滥用抓取数据,又要允许用户通过AI代理正常访问和购买商品。这将是一个持续的挑战,需要不断探索新的解决方案。

Deep Dive

Chapters
Wikipedia's traffic has surged 50% since January 2024, primarily due to AI models and scrapers crawling the site. This is not only affecting Wikipedia but also every website, business, and individual with an online presence. The issue lies in the cost of handling this unprecedented traffic volume.
  • Wikipedia's traffic surged 50% since January 2024.
  • AI models and scrapers are the main cause.
  • This affects all websites, businesses, and individuals online.
  • The increased traffic significantly raises costs for Wikipedia.

Shownotes Transcript

自2024年1月以来,维基百科的访问量激增了50%。你可能会问,是什么导致了如此巨大的使用量激增?哦,也许他们获得了大量新用户。也许每个人都厌倦了ChatGPT,所以他们想转到维基百科。

这一切都是由于人工智能模型和人工智能抓取程序爬取其网站信息,并大幅增加了维基百科的成本。因此,今天在播客中,我想深入探讨这一现象,但这不仅仅是因为维基百科,虽然它如何影响地球上最大的网站之一很有趣。

这是因为它将如何影响地球上的每一个网站、每一个企业、每一个拥有任何在线内容的人,他们都将面临同样的问题。有些解决方案实际上非常滑稽,但让我们深入探讨一下。我想说的第一件事是维基百科在其官方博客上发布的正式声明,详细介绍了这个问题的一些内容,以及

正在发生的事情。他们说,我们的基础设施是为了应对高关注度事件中人类的突然激增而构建的,但抓取机器人产生的流量数量是前所未有的,并带来了越来越大的风险和成本。所以这里真正有趣的是,是的,维基百科对任何人使用都是免费的,从技术上讲,即使是人工智能模型也可以抓取。这有点像它的构建方式,对吧?他们并没有一个庞大的记者团队去撰写文章。任何人都可以贡献。所以这有点像

任何人都可以公平使用这些内容。但问题是这些人工智能模型正在使用这些内容。更大的问题是,即使像维基百科这样的网站实际上并没有这样做,因为他们希望被谷歌索引,但即使一个网站使用robot.txt文件来告诉,呃,

你知道,搜索引擎不要抓取它。这些人工智能模型和为人工智能抓取数据的人,他们通常只是避免了它。他们真的不在乎。就在两周前,我们甚至让山姆·阿尔特曼与白宫对话,说,嘿,你必须取消人工智能模型的版权规则,因为我们希望能够从所有东西中抓取和吸收数据。然而,棘手的问题是,正如我们在维基百科中学到的那样,是否有理由对版权提出质疑。

这仍然会让这些公司花钱,仅仅是因为这些人工智能模型会抓取他们所有的内容,因为他们的服务器费用会变得非常高,他们要支付所有这些托管费用,他们要支付所有这些带宽费用。所以有人为此付费,而这并不是公司去获取它。所以这里就有点棘手了。我想给你读一些有趣的东西。维基百科说,将近三分之二,大约65%,

他们所谓的“最昂贵的流量”。这就像,为什么有些流量比其他流量更贵?这有点技术性,但本质上是被频繁访问的内容。例如,维基百科或任何网站上最受欢迎的文章,它们存储在数据中心的另一个部分,并且缓存方式略有不同,因此非常容易访问。这些是访问量非常高的网页

因此,维基百科的设置大致是这样的:看,这是我们最受欢迎的10000个页面。我们网站的大部分流量都流向那里。对于所有不太受欢迎的页面,也许是一个每月只访问一两次的页面,它们位于数据中心的完全不同的部分,更难以访问。它被缓存得更多,嗯,

访问它们需要花费更多的资金和带宽。他们实际上以一种非常聪明的方式设置了这一点,就像,获取最频繁的内容成本最低,而获取最不受欢迎的内容成本最高或使用最多的服务器带宽,这不会花费他们很多钱,除非他们遇到这种情况,即这些人工智能模型想要涵盖所有内容,对吧?所以,通常如果我在维基百科上滚动浏览,他们会有一些相关文章,也许我会点击一些相关文章,这就是我将要消费的内容的范围。

如果你是机器人,你将要抓取所有内容,最受欢迎的、最不受欢迎的内容以及没有人碰过的图片和图像。他们会把所有东西都吸进去。所以,在这种情况下,这真的非常非常昂贵。有趣的是,维基百科上大约35%的整体页面浏览量现在来自机器人。所以他们正在计算。他们就像,看,我们知道我们大约

三分之一,大约四分之一的,或者三分之一的所有浏览量来自机器人。所以这就像我们所有页面浏览量的四分之一,但他们最昂贵的浏览量的65%来自机器人。因此,虽然机器人在他们的所有网络流量或网络浏览量中所占比例很小,呃,我不认为是小。我的意思是,它仍然占他们所有网络流量的三分之一。它在成本方面所占比例过大。对于这些机器人来说,它比许多人类更昂贵,这对像维基百科这样的公司来说不是一件好事。

所以这就是他们对此的看法。他们说,人类读者倾向于关注特定主题。机器人爬虫往往倾向于“批量阅读”数量更大的不太受欢迎的页面。这就是维基百科基金会一直在努力解决的难题。他们有很多不同的方法来做到这一点。最近发布了一个名为

由我们在Cloudflare的朋友们开发的新工具,它被称为AI迷宫。AI迷宫本质上是使用AI生成的内容来减缓这些爬虫机器人的速度。Cloudflare是一个我用在我的大多数网站上的著名工具。很多人都在使用它。它基本上可以保护你的网站免受人们进行攻击,你知道,攻击是指他们用大量的,你知道,像

一百万人两秒钟内访问它。他们试图使你的服务器崩溃并将其关闭。我认为这被称为DDoS攻击。因此,为了在这种情况下自救,你可以注册像Cloudflare这样的公司,它基本上会位于用户和你的实际网站之间。如果他们看到像这样的巨大激增,Cloudflare将基本上吸收

大部分这种使用,他们会将其分散,并且不会让所有一百万人同时访问你的网站。因此,它基本上确保只有真正的人类而不是机器人才能使你的网站崩溃。这就是Cloudflare的作用。它很棒。我在我的许多不同站点上出于许多不同目的使用它。他们有很多……

你知道,他们有免费的SSL证书和Cloudflare做的各种很酷的事情。但其中一件大事就是防止这种情况,这些,你知道,压垮你的服务器。他们现在所做的事情是,他们可以检测到它是否是AI爬虫。而不是仅仅,而不是仅仅,你知道,试图减慢它的速度或其他什么,他们只是提供,

提供AI生成的内容,只是垃圾,称之为AI迷宫,让这些AI爬虫吸收所有这些垃圾,以减慢它们的速度,并同时防止它们使你的网站崩溃。但这也很有趣,因为它就像惩罚他们不仅仅是阻止他们。它就像惩罚他们。它现在在他们的数据集中给他们提供糟糕的数据。是的,所以这有点滑稽,但人们可以注册并使用它,其他人也在这样做。所以这很聪明,有点报复性。但是

这确实很有趣。目前,这确实是一场猫捉老鼠的游戏。人们正在寻找新的方法,使其看起来不像AI爬虫那样从网站上抓取所有内容。但这绝对是一个问题。上个月,一位软件工程师和开源倡导者,这是Drew DeVault。他抱怨说,这些AI爬虫正在忽略robot.txt文件,这些文件应该阻止自动流量。

嗯,Gurgly Osro上周也抱怨说,来自Meta等公司的AI抓取程序增加了其自身项目的带宽需求,给他造成了巨额损失。所以这不仅仅是,你知道,这不仅仅是一家公司。是OpenAI。是Meta。是所有这些数十亿美元的公司……

给很多人带来了,你知道,成本。我认为当OpenAI第一次获取其第一个数据集时,他们可能能够在一定程度上隐瞒身份。但此时,每个人都知道这些流量来自哪里。这要花费巨额资金。在OpenAI是闭源的情况下,他们正在获取数据并为此收费。同时,他们在提取数据的同时也让你花钱。所以很多人对此感到不满。但是

总的来说,除非你开始使用像Cloudflare的AI迷宫或其他类似工具,否则没有什么可以做的。我一定会让你了解最新的情况。我认为这很重要,因为未来每个网站目前都在经历并将继续经历一些这些问题。人们会想出一些解决方案。但归根结底,当我们开始考虑代理时代的样子时……

我们需要,我们必须考虑这将如何发挥作用,因为如果你假设客户正在使用代理来访问你的网站并购买东西,你真的不想阻止代理。这听起来很棒。但是,如果客户使用代理来抓取一些数据,也许只是因为你造成了一些服务器带宽使用,然后离开,并且没有,你知道,给你任何类型的

广告收入或购买力,那么它就毫无用处了。这将是一件有趣的事情。许多网站将不得不根据实际推动销售的内容或实际推动销售的页面来权衡利弊,以及,你知道,也许你的整个博客只是你网站上的免费内容。也许你只是从这些AI代理那里关闭它。你打开迷宫AI。但是,当它在你的销售页面或产品页面上时,你实际上希望人们购买东西,也许AI代理实际上正在帮助你

用户购买东西,你希望保持开启状态。这将是一场非常有趣的游戏,也是一个需要权衡的平衡点。我会让你了解所有情况以及任何其他出现的有助于解决这个问题的新工具,因为我认为这是一场绝对滑稽的猫捉老鼠游戏,但你不想站在错误的一边,因为你不想阻止

你知道,实际客户或实际代理从你的网站上购买东西。非常感谢你收听播客。如果你喜欢它,并且如果你想使用AI工具来发展和扩展你的业务,我有一个独家的学校社区,在那里我每周都会发布一个我不在其他任何地方发布的视频,详细介绍我使用AI来发展和扩展我的业务的确切工具和

产品。因此,在说明中有一个链接指向AI Hustle School社区。我们有超过300名成员。每月19美元。如果你现在就加入,当我们将来提高价格时,你的价格将永远不会上涨。非常感谢你今天收听播客,我希望你们本周剩下的时间都过得愉快。