We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode When an AI internet search competes against a human internet search

When an AI internet search competes against a human internet search

2025/5/1
logo of podcast Marketplace All-in-One

Marketplace All-in-One

AI Deep Dive Transcript
People
M
Megan McCarty Carino
S
Selena Deckelmann
Topics
Megan McCarty Carino: 我注意到,随着AI技术的快速发展,网络爬虫对维基百科等网站的数据抓取造成了巨大的压力。例如,当吉米·卡特去世时,维基百科的访问量激增,服务器一度出现负载过重的情况。这不仅是因为访问量增加,还因为大量AI机器人爬取数据用于训练AI模型,导致服务器超负荷运行。 此外,AI机器人爬取数据的模式与人类用户不同,它们会抓取所有数据,而不是像人类用户那样关注特定内容,这进一步加剧了服务器的负担。这种现象并非个例,许多网站都面临着类似的问题。一些网站开始采取措施阻止网络爬虫,但这往往收效甚微,甚至催生了反爬虫技术的产业,最终可能影响人类用户获取信息的效率。 Selena Deckelmann: 作为维基百科的首席产品和技术官,我深刻感受到AI机器人爬取数据对我们基础设施造成的巨大压力。虽然维基百科拥有先进的缓存系统,可以应对突发流量,但AI机器人爬取数据的模式与人类用户不同,它们会抓取所有数据,这导致系统负载远超预期。 维基百科的数据对训练大型语言模型非常有价值,因为这些数据由人类生成,能够更好地回答人类提出的问题。我们理解AI公司需要这些数据来训练模型,但我们也呼吁他们与我们合作,并为维基百科的基础设施建设提供支持,以确保维基百科的持续存在。我们希望他们能够遵循我们的Creative Commons开源许可,对维基百科内容进行适当的引用,并考虑通过付费的方式支持维基百科的未来发展,例如使用我们的Wikimedia Enterprise产品。我们相信,商业用途和非商业用途都能支持维基百科的使命,即永久性地向全球传播免费知识。但大型商业公司需要认识到,其产品价值依赖于维基百科的人工生成知识,并为其基础设施建设做出贡献。我们希望找到一种平衡点,在满足AI公司数据需求的同时,确保人类用户能够便捷地访问维基百科的信息。

Deep Dive

Shownotes Transcript

When President Jimmy Carter died late last year, the foundation that runs Wikipedia noticed something unusual: the flood of interest in the late president created a content bottleneck, slowing load times for about an hour.

Wikipedia is built to handle spikes in traffic like this, according to the Wikimedia Foundation, but it's also dealing with a surge of bots scraping the site to train AI models, and clogging up its servers in the process, the organization’s chief product and technology officer Selena Deckelmann told Marketplace’s Meghan McCarty Carino.