We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

When an AI internet search competes against a human internet search

2025/5/1

Marketplace All-in-One

AI Deep Dive Transcript

People

Megan McCarty Carino

Selena Deckelmann

Topics

Megan McCarty Carino: 我注意到，随着AI技术的快速发展，网络爬虫对维基百科等网站的数据抓取造成了巨大的压力。例如，当吉米·卡特去世时，维基百科的访问量激增，服务器一度出现负载过重的情况。这不仅是因为访问量增加，还因为大量AI机器人爬取数据用于训练AI模型，导致服务器超负荷运行。此外，AI机器人爬取数据的模式与人类用户不同，它们会抓取所有数据，而不是像人类用户那样关注特定内容，这进一步加剧了服务器的负担。这种现象并非个例，许多网站都面临着类似的问题。一些网站开始采取措施阻止网络爬虫，但这往往收效甚微，甚至催生了反爬虫技术的产业，最终可能影响人类用户获取信息的效率。 Selena Deckelmann: 作为维基百科的首席产品和技术官，我深刻感受到AI机器人爬取数据对我们基础设施造成的巨大压力。虽然维基百科拥有先进的缓存系统，可以应对突发流量，但AI机器人爬取数据的模式与人类用户不同，它们会抓取所有数据，这导致系统负载远超预期。维基百科的数据对训练大型语言模型非常有价值，因为这些数据由人类生成，能够更好地回答人类提出的问题。我们理解AI公司需要这些数据来训练模型，但我们也呼吁他们与我们合作，并为维基百科的基础设施建设提供支持，以确保维基百科的持续存在。我们希望他们能够遵循我们的Creative Commons开源许可，对维基百科内容进行适当的引用，并考虑通过付费的方式支持维基百科的未来发展，例如使用我们的Wikimedia Enterprise产品。我们相信，商业用途和非商业用途都能支持维基百科的使命，即永久性地向全球传播免费知识。但大型商业公司需要认识到，其产品价值依赖于维基百科的人工生成知识，并为其基础设施建设做出贡献。我们希望找到一种平衡点，在满足AI公司数据需求的同时，确保人类用户能够便捷地访问维基百科的信息。

Deep Dive

Shownotes Transcript

维基百科充斥着人工智能机器人。这里是美国公共媒体的Marketplace Tech节目。我是梅根·麦卡蒂·卡里诺。去年吉米·卡特去世时，运营维基百科的基金会注意到了一些不同寻常的事情。人们对这位已故总统的兴趣激增，造成了内容瓶颈，导致加载时间大约慢了一小时。

据该基金会称，维基百科能够处理这种流量激增。但它也正在应对机器人数量的激增，这些机器人正在抓取网站数据以训练人工智能模型，并阻塞其服务器。这是维基媒体基金会首席产品和技术官塞琳娜·德克尔曼所说的话。

这种流量并不一定遵循其他人浏览内容的模式。因此，我们拥有一个非常复杂的缓存系统，这样当有人去世或世界上发生一些重大事件，许多人都想了解时，我们就会缓存结果。但是，通过交叉缓存，

爬虫所做的是查看所有内容。他们并不像人类那样对当时人们感兴趣的内容感兴趣。因此，这会导致所有系统加载比平时更多的数据。

网络爬虫自互联网诞生以来就一直存在。这就是我们在谷歌搜索时查找网页的方式。但是，人工智能是如何真正改变机器人流量的规模和强度的呢？我们看到的是对爬取整个互联网和创建机器人的兴趣大幅增加。

也许就像互联网上所有内容的宝库一样。其用途是教……

大型语言模型了解互联网上的内容，并使其能够回答人们可能提出的问题，例如，使用聊天机器人的某人。您已经与ChatGPT或其他某种聊天机器人互动过。您向它提问，它的回答能力取决于它接触到的所有这些训练数据。因此，随着时间的推移，随着这些模型变得越来越流行，它们已经开发出

已部署在人们可能会遇到的所有主要网站上，这些机器人需要训练数据。他们需要了解，通过这些数据的收集来了解世界。所以我们认为这主要就是驱动因素。并且作为其中的一部分，我们注意到，来自维基百科和其他我们

支持的项目的数据，因为它是由人类生成的，因此其训练价值更高，因为它非常擅长回答人类提出的问题。

这对基金会的基础设施有何影响？目前对我们来说最重要的事情是与运营抓取工具的人员沟通，并要求他们与我们合作。我们实际上相信，所有这些令人难以置信的志愿者收集的数据是

它应该是全球信息生态系统的一部分，对其进行训练符合我们拥有的许可证。它们被称为知识共享许可证。它是开放许可的内容。但我们的要求是，依赖这些信息的公司应尽一切努力支持其持续存在，这也就是支持这些编辑。它也遵循这些许可证的其他几个方面，即

它们包括某种归属。我们认为，负责任的产品设计选择，例如正确地归属维基媒体内容和其他开放许可的内容，将有助于共享并确保其他人考虑参与这些共享项目。

我们还要求公司考虑付费支持维基百科的未来。商业公司可以使用维基媒体企业版，这是一个付费产品，使他们能够重复使用内容并以更有效的方式支持基础设施。是的，因为最终，这种增加的压力对维基媒体网站的可用性意味着什么？

我认为，当我们超过我们的容量时，对我们来说主要的影响是它会影响人们获取知识的能力。人们每天都依赖这些信息来源。因此，我们的工作是努力寻找方法，确保他们能够访问这些信息，即使商业公司甚至研究人员也会访问这些数据，也要找到我们共存的方法。其中一种方法是

了解比大规模抓取网站更负责任的数据访问方式。稍后回来。您正在收听Marketplace Tech节目。我是梅根·麦卡蒂·卡里诺。我们又回到了维基媒体基金会首席产品和技术官塞琳娜·德克尔曼这里。正如您所指出的那样，维基百科拥有这种真正独特的模式。许多内容是由志愿者生成或志愿者编辑的。

然后，您有这些网络爬虫，通常服务于营利性公司，训练它们的人工智能，这也带来了一些自身伦理问题。那里是否存在紧张关系？好吧，就像我说的那样，我相信商业和非商业用途都支持我们的使命，那就是永久地在全球范围内传播自由知识。我们认为，

互联网本身就是一个探索、与他人联系、分享知识的地方，它也是一个商业场所。因此，许可证从一开始就被设计为支持这些用例。我不能否认那里存在紧张关系。但我认为，对我们来说，我们认为……

我们可以支持互联网在所有这些人工智能变化中即将发生的任何演变。我们可以最好地合作的地方是将我们的系统视为我们的内容是免费的，但基础设施不是。

这些大型商业重复使用者确实需要认识到，其产品的价值取决于这种知识，取决于这种人为生成的知识，然后这种知识支持更广泛的信息生态系统。而且，你知道，一个我们最终认为可以用于改善人类、可以用于帮助人们了解更多知识的系统。我认为这与我们的使命非常吻合。

那么，基金会需要什么才能能够扩大规模以满足这一需求呢？我们现在主要需要的是编写抓取工具的人员考虑一下他们是如何做到的，使用我们的最佳实践与我们沟通并识别自己，这样在某些时候，你知道，有时这些人员

抓取工具失控了，这可能只是一个错误。因此，给我们一种联系他们的方法非常重要。然后，就像我说的那样，通过归属、通过与我们合作使用维基媒体企业版来寻找支持维基百科未来发展的方法，这些是目前最好的方法。这是维基媒体基金会的塞琳娜·德克尔曼。

我们在MarketplaceTech.org上获得了更多关于维基媒体基金会关于人工智能抓取对其基础设施造成多大压力的信息。在一篇博文中，他们强调这不仅仅是机器人流量的数量，而是流量的随机性造成了问题。事实上，维基媒体表示，机器人占该网站最昂贵流量的65%。

许多其他网站也面临着这个问题，而且并非所有网站都采取维基媒体的慷慨做法。《麻省理工学院技术评论》报道称，一些网站正在对网络爬虫设置障碍，这些代码片段告诉它们离开。但由于这些指令经常被忽略，它刺激了一个反爬虫技术的行业，用于检测、阻止和收费机器人。

对实际人类用户的最终结果是什么？这可能会使我们更难在互联网上找到和访问我们想要的内容。耶稣·阿尔瓦拉多制作了这一集。我是梅根·麦卡蒂·卡里诺，这是Marketplace Tech节目。这是APM。如果有一件事我们知道关于社交媒体，那就是错误信息无处不在，尤其是在个人理财方面。

Marketplace的Financially Inclined播客是一个您可以信赖的播客，它可以帮助您认真对待您的金钱，以便您可以建立您一直梦想的生活。我是主持人珍妮莉亚·埃斯皮纳尔，每周我都会向专家提出重要的金钱问题，例如如何协商工作机会、如何选择负担得起的大学以及如何与朋友和家人谈论金钱。无论您在哪里收听播客，都可以收听Financially Inclined。

When an AI internet search competes against a human internet search 09:18 Share

Marketplace All-in-One

Deep Dive

Shownotes Transcript

When an AI internet search competes against a human internet search