We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI Is Taking Over Wikipedia — Here's the Impact

AI Is Taking Over Wikipedia — Here's the Impact

2025/4/15
logo of podcast No Priors AI

No Priors AI

AI Deep Dive AI Chapters Transcript
People
J
Jaeden Schafer
Topics
我观察到维基百科的流量自2024年1月以来激增了50%,这主要是因为AI模型和AI爬虫抓取其网站信息,给维基百科带来了巨大的成本压力。AI模型抓取网站数据的问题将影响到所有网站、企业和个人,这将是一个普遍存在的问题。维基百科的基础设施无法应对AI爬虫带来的前所未有的流量和成本压力,因为其基础设施是为应对人类用户流量峰值而设计的,而AI爬虫带来的流量模式与之不同。AI模型通常会忽略网站的robots.txt文件,继续抓取数据,这使得网站难以控制数据访问。Sam Altman曾向白宫建议取消AI模型的版权规则,以便能够抓取所有数据,这反映了AI模型对数据获取的强需求。AI模型抓取数据会增加网站的服务器费用和带宽成本,这笔费用最终需要由网站承担。维基百科最昂贵的流量中有65%来自AI爬虫,这些爬虫主要访问最受欢迎的文章。AI爬虫会抓取所有内容,包括最受欢迎和最不受欢迎的内容,这增加了网站的成本。虽然AI爬虫只占维基百科总访问量的三分之一,但它们却占了最昂贵访问量的65%,这凸显了AI爬虫对网站成本的影响。维基百科面临着如何应对AI爬虫带来的高成本问题的难题。Cloudflare推出了AI Labyrinth工具,利用AI生成的内容来减缓AI爬虫的速度,通过向AI爬虫提供垃圾数据来减缓其速度,并防止其破坏网站。AI爬虫会忽略robots.txt文件,这给网站带来了成本问题,Drew DeVault和Gurgly Osro都对此表达了不满。大型科技公司如OpenAI和Meta的AI爬虫行为导致了网站成本的增加。OpenAI等公司在收集数据的同时,也增加了其他网站的成本。未来所有网站都将面临AI爬虫带来的问题,需要寻找解决方案。需要区分AI代理是用于购买商品还是仅仅抓取数据,从而决定是否阻止其访问。网站需要根据内容的重要性决定是否阻止AI代理访问,这是一个需要权衡的策略。

Deep Dive

Chapters
Wikipedia has experienced a 50% traffic surge since January 2024, primarily due to AI models and scrapers crawling its website. This increased traffic significantly raises Wikipedia's costs. The situation highlights a broader issue affecting all online content.
  • 50% increase in Wikipedia traffic since January 2024
  • AI models and scrapers are the main cause
  • Increased costs for Wikipedia due to high traffic

Shownotes Transcript

自2024年1月以来,维基百科的访问量激增了50%。你可能会问,是什么导致了这种巨大的使用量激增?哦,也许他们获得了大量的新用户。也许每个人都厌倦了ChatGPT,所以他们想转到维基百科。

这一切都是由于人工智能模型和人工智能爬虫程序抓取其网站信息,并大幅增加了维基百科的成本。因此,今天在播客中,我想深入探讨这一现象,但这不仅仅是因为维基百科,虽然它如何影响地球上最大的网站之一很有趣。

这是因为它将如何影响地球上的每一个网站、每一个企业、每一个在网上拥有任何东西的人,他们都将面临同样的问题。有些解决方案实际上非常滑稽,但让我们深入探讨一下。我想说的第一件事是维基百科在其官方博客上发布的官方声明,详细介绍了这个问题的一部分,以及

正在发生的事情。他们说,我们的基础设施是为了应对高关注度事件中人类的突然激增而构建的,但爬虫机器人产生的流量是前所未有的,并带来了越来越大的风险和成本。所以这里真正有趣的是,是的,维基百科对任何人使用都是免费的,从技术上讲,即使是人工智能模型也可以抓取。这有点像它的构建方式,对吧?他们并没有一个庞大的记者团队去撰写文章。任何人都可以贡献。所以这有点像

任何人都可以公平使用这些内容。但问题是这些人工智能模型正在使用这些内容。更大的问题是,即使像维基百科这样的网站实际上并没有这样做,因为他们希望被谷歌索引,但即使一个网站使用robot.txt文件来告诉,呃,

你知道,搜索引擎不要抓取它。这些人工智能模型和为人工智能抓取数据的人,他们通常只是避免了它。他们并不在乎。就在两周前,我们甚至让Sam Altman与白宫对话,说,嘿,你必须取消人工智能模型的版权规则,因为我们希望能够从所有东西中抓取和吸收数据。然而,棘手的问题是,正如我们在维基百科中学到的那样,是否可以就版权提出一个论点。

这仍然会让这些公司花钱,仅仅是因为这些人工智能模型会抓取他们所有的内容,因为他们的服务器费用会变得非常高,他们要支付所有这些托管费用,他们要支付所有这些带宽费用。所以有人为此付费,而这并不是公司去获取它。所以这里就有点棘手了。我想给你读一些有趣的东西。维基百科说,将近三分之二,大约65%,

他们所谓的“最昂贵的流量”。这就像,为什么有些流量比其他流量更贵?这有点技术性,但本质上是被频繁访问的内容。例如,维基百科或任何网站上最受欢迎的文章,它们存储在数据中心的另一个部分,并且缓存方式略有不同,因此非常容易访问。这些是访问量非常高的网页

因此,维基百科的设置大致是这样的:看,这是我们最受欢迎的10,000个页面。我们网站的大部分流量都流向那里。对于所有不太受欢迎的页面,也许是一个每月只访问一两次的页面,它们位于数据中心的完全不同的部分,更难以访问。它被缓存得更多,嗯,

访问它们需要花费更多的资金和带宽。他们实际上以一种非常聪明的方式设置了这一点,就像,获取最频繁的内容成本最低,而获取最不受欢迎的内容成本最高或使用最多的服务器带宽,这不会花费他们很多钱,除非他们遇到这种情况,即这些人工智能模型想要涵盖所有内容,对吧?所以,如果我通常浏览维基百科,他们会有一些相关文章,也许我会点击一些相关文章,这就是我将要消费的内容的范围。

如果你是机器人,你将要抓取所有内容,最受欢迎的、最不受欢迎的内容以及没有人碰过的图片和图像。他们会把所有东西都吸进去。所以,在这种情况下,这真的非常非常昂贵。有趣的是,维基百科上大约35%的整体页面浏览量现在来自机器人。所以他们正在计算。他们就像,看,我们知道我们大约

三分之一,大约四分之一的,或者三分之一的所有浏览量来自机器人。所以这就像我们所有页面浏览量的四分之一,但他们最昂贵的浏览量的65%来自机器人。因此,虽然机器人的比例很小,呃,我不小。我的意思是,它仍然占他们所有网页流量或网页浏览量的三分之一。它在成本方面所占的比例过大。对于这些机器人来说,它比许多人类更昂贵,这对像维基百科这样的公司来说不是很好。

所以这就是他们对此的看法。他们说,人类读者倾向于关注特定主题。机器人爬虫通常倾向于“批量读取”数量更大的不太受欢迎的页面。这就是维基百科基金会一直在努力应对的难题。他们有很多不同的方法来做到这一点。最近发布了一个名为

由我们在Cloudflare的朋友们开发的新工具,它被称为AI迷宫。AI迷宫本质上是使用AI生成的内容来减缓这些爬虫机器人的速度。Cloudflare是一个我用在我的大多数网站上的著名工具。很多人都在使用它。它基本上可以保护您的网站免受人们进行攻击,例如,你知道,攻击,他们用大量的,你知道,像

一百万人两秒钟内访问它。他们试图使您的服务器崩溃并将其关闭。我认为这被称为DDoS攻击。因此,为了在这种情况下保护自己,您可以注册像Cloudflare这样的公司,它基本上会位于用户和您的实际网站之间。如果他们看到像这样的巨大激增,Cloudflare将基本上吸收

大部分这种使用,他们会将其分散,并且不会让所有一百万人同时访问您的网站。因此,它基本上确保只有实际的人类而不是机器人才能使您的网站崩溃。这就是Cloudflare的作用。很棒。我在我的许多不同站点上将其用于许多不同的事情。他们有很多……

你知道,他们有免费的SSL证书和Cloudflare所做的各种很酷的事情。但其中一件大事就是防止这种情况,这些,你知道,压垮你的服务器。他们现在所做的事情是,他们可以检测到它是否是AI爬虫。而不是仅仅,而不是仅仅,你知道,试图减慢它的速度或其他什么,他们只是喂养,

喂养它AI生成的内容,只是垃圾,称之为AI迷宫,让这些AI爬虫吸收所有这些垃圾以减慢它们的速度,并同时防止它们使您的网站崩溃。但这也很有趣,因为它就像惩罚他们不仅仅是阻止他们。这就像惩罚他们。它现在在他们的数据集中给他们提供糟糕的数据。是的,所以这有点滑稽,但人们可以注册并使用它,其他人也在这样做。所以这很聪明,有点报复性。但是

这确实很有趣。目前,这确实是一场猫捉老鼠的游戏。人们正在寻找新的方法,使其看起来不像AI爬虫那样从网站上抓取所有内容。但这绝对是一个问题。上个月,一位软件工程师和开源倡导者,这是Drew DeVault。他抱怨说,这些AI爬虫正在忽略robot.txt文件,这些文件应该阻止自动流量。

嗯,Gurgly Osro上周也抱怨说,来自Meta等公司的AI爬虫增加了其自身项目的带宽需求,给他造成了巨额损失。所以这不仅仅是,你知道,这不仅仅是一家公司。是OpenAI。是Meta。是所有这些数十亿美元的公司……

给很多人带来了很多,你知道,成本。我认为当OpenAI第一次获取其第一个数据集时,他们可能能够在一定程度上隐瞒身份。但此时,每个人都知道这些流量来自哪里。这花费了巨额资金。在OpenAI是闭源的情况下,他们正在获取数据并为此收费。同时,他们在提取数据的同时也让你花钱。所以很多人对此感到不满。但是

总的来说,除非你开始使用像Cloudflare的AI迷宫或其他类似的工具,否则没有什么可以做的。我一定会让你了解最新的情况。我认为这很重要,因为未来每个网站目前都在经历并将继续经历一些这些问题。人们会想出一些解决方案。但归根结底,当我们开始考虑它在代理时代的样子时……

我们需要,我们必须考虑这将如何发挥作用,因为如果你假设客户正在使用代理来访问你的网站并购买东西,你真的不想阻止代理。这听起来很棒。但是,如果客户使用代理来抓取一些数据,也许只是因为你造成了一些服务器带宽使用,然后离开,并且没有,你知道,给你任何类型的

广告收入或购买力,那么它就毫无用处了。这将是一件有趣的事情。许多网站将不得不根据实际推动销售的内容或实际推动销售的页面来权衡利弊,以及,你知道,也许你的整个博客只是你网站上的免费内容。也许你只是从这些AI代理那里关闭它。你打开迷宫AI。但是当它在你的销售页面或产品页面上时,你实际上希望人们购买东西,也许AI代理实际上正在帮助你

用户购买东西,你想要保留它。这将是一个非常有趣的游戏,也是一个需要权衡的平衡。我会让你了解所有情况以及任何其他出现的有助于解决这个问题的新工具,因为我认为这是一场绝对滑稽的猫捉老鼠的游戏,但你不想站在错误的一边,因为你不想阻止

你知道,实际的客户或实际的代理从你的网站上购买东西。非常感谢你收听这个播客。如果你喜欢它,并且如果你想使用AI工具来发展和扩展你的业务,我有一个独家的学校社区,在那里我每周都会发布一个我不在其他任何地方发布的视频,分解我用来发展和扩展我的AI业务的精确工具和

产品。因此,在说明中有一个指向AI Hustle School社区的链接。我们有超过300名成员。每月19美元。如果你现在就得到它,当我们将来提高价格时,你的价格永远不会上涨。非常感谢你今天收听这个播客,我希望你们本周剩下的时间都过得愉快。