We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Reddit Sues Anthropic for Secretly Scraping Data

2025/6/7

AI Chat: ChatGPT & AI News, Artificial Intelligence, OpenAI, Machine Learning

AI Deep Dive AI Chapters Transcript

People

主

主持人

专注于电动车和能源领域的播客主持人和内容创作者。

Topics

主持人：Reddit正在起诉Anthropic，指控他们未经授权抓取Reddit的数据来训练AI模型。Reddit通过robots.txt文件明确禁止了AI模型抓取其数据，但Anthropic无视了这些规定。Reddit认为Anthropic的行为侵犯了用户隐私，因为未经许可抓取的数据可能被用于反向工程，从而泄露用户身份信息。Reddit已经与Google和OpenAI签订了数据许可协议，并希望Anthropic也能达成类似的协议。我认为，这场诉讼的根本原因是经济利益，尽管隐私问题也被提及以争取公众支持。作为OpenAI的CEO，Sam Altman持有Reddit的股份，这使得情况更加复杂。Reddit声称自2014年以来，Anthropic的机器人持续抓取数据，且抓取次数超过10万次。Anthropic对此表示否认，并表示将积极为自己辩护。

Deep Dive

Shownotes Transcript

这太有趣了，因为现在Reddit和Claude之间闹得不可开交。但有趣的是，与此同时，Windsurf和Claude之间也发生了冲突。我想说的是Anthropic，对吧？虽然有些人认为这两件事完全无关，

但我觉得它们之间存在直接关联。我将解释原因。现在Reddit与Anthropic之间发生的冲突是，Reddit指控Anthropic——他们正在提起诉讼——指控Anthropic没有为训练数据付费。本质上，Anthropic正在使用Reddit的数据进行训练，而没有任何许可。他们选择不给予许可的方式

许可。对于人工智能公司或任何媒体公司来说，这都很容易。他们在网站上放置了一个robot.txt文件，基本上声明人工智能模型不能抓取他们的数据，但他们的数据仍然存在于谷歌上，所以这很棘手。无论如何，Anthropic没有遵守服务条款，他们据称仍在继续抓取数据。我们稍后会更详细地讨论这些指控。

在此之前，我想提一下，如果你想尝试Anthropic最新的模型，你会想，哦，天哪，他们未经许可就抓取Reddit的数据，他们的模型变得越来越好。你可能会问，它到底好到什么程度？你可以访问我的创业公司AIbox.ai，查看我们的playground。我们拥有十大

20个人工智能模型。图像、音频、文本、Anthropic、谷歌、DeepSea、Cohere、Meta、微软，所有公司都在这里。你可以在一个平台上访问所有顶级模型。你可以在同一个聊天中与所有模型聊天，这很酷。你可以尝试Sonnet 3.5，

向它提出很多问题。在对话过程中，如果你不喜欢Claude谈论某个特定主题的方式，你可以切换到ChatGPT。或者你可能正在使用OpenAI，但它没有给你回应。它有点过于谨慎，你可能会想，好吧，我需要它少一些审查。你可以使用Grok，并尝试从中获得更好的答案。所有这些，以及更多功能，包括在同一个对话中使用图像或生成图像和

音频，都非常非常有用。你可以在AIbox.ai上查看所有这些内容。描述中有一个链接。好的，让我们回到Reddit上发生的事情。所以

Reddit已经正式提交了投诉。他们在加利福尼亚州北部地区法院提交了投诉。他们是在周三提交的。他们基本上表示，Anthropic未经授权使用其网站的数据，并将其用于商业目的，对吧？他们正在将人工智能模型货币化，等等。这违反了他们的用户协议。这实际上很有趣，因为这是大型科技公司第一次在法律上挑战人工智能模型提供商，对吧？这很有趣，因为

其他大型科技公司是Meta，他们不会起诉任何人，因为他们很久以前就封锁了他们的数据用于训练。所以他们有自己独有的数据集。但他们没有起诉任何人。谷歌正在开发Gemini，他们也没有起诉任何人，即使他们已经……我认为谷歌的Gemini，例如，我敢肯定OpenAI使用了YouTube来训练他们的Sora模型。这很可疑，违反了他们的条款。但我认为谷歌也这么做了。甚至可能还有一些更隐蔽的事情。好吧，“隐蔽”这个词有点……

棘手。他们可能在YouTube上这么做了，也没有给用户提供选择退出选项。所以他们知道自己是在五十步笑一百步。他们可能会惹上麻烦。即使他们把它放在服务条款中，用户也不会高兴。这不会是一个好兆头。所以他们只是在避免这场诉讼。OpenAI也没有收到谷歌就其视频训练提出的任何诉讼。这很有趣。微软也正在与OpenAI合作，对吧？所以这很有趣，因为许多大型科技公司……

他们正在制作这些AI模型，所以他们不会……他们就像出版商，也在创建模型。所以他们并没有真正起诉任何人，因为这整个领域都是一个灰色地带，一片蛮荒之地。有一些公司没有自己的AI模型。Reddit是其中之一，它正在提起诉讼，我认为X和XAI可能会提起更多诉讼。是的。

埃隆与OpenAI有自己的恩怨，但这些似乎已经平息或取消了。我不知道。它们时有时无。但无论如何，Reddit是第一批在法律上挑战AI模型的大型科技公司之一。原因是Reddit确实赚了很多钱，而且是相当可观的钱。我相信他们与谷歌签署了一项许可协议，将Reddit数据纳入谷歌Gemini，金额为3亿美元。所以他们赚了很多钱。我相信这可能只是一年的费用。所以

Reddit从这件事中赚了很多钱。OpenAI也与Reddit签署了一项未公开金额的许可协议。所以Reddit显然希望Anthropic也这样做，对吧？他们就像，看，Meta，如果你想要，你知道，Anthropic，如果你想要，过来吧。我们正在与谷歌和OpenAI签署Gemini的许可协议。

但他们没有这样做。这就是他们的律师特别说的。他说：“我们不会容忍像Anthropic这样的营利性实体在没有回报Reddit用户或尊重其隐私的情况下，将Reddit内容用于商业用途，赚取数十亿美元。”他们宣传这件事的一个重要方式，我不知道是不是宣传，但他们宣传这件事的一个重要方式是，他们说……

就像用户的隐私一样，你正在提取所有这些用户数据，你并没有真正将其分离，你并没有采取足够的隐私措施。如果你直接与Reddit达成许可协议，他们会提供数据。他们与OpenAI和谷歌达成的协议就是这样，但他们也会保留所有Reddit用户的预设用户名。

所以他们会加密所有这些。所以你可以获得内容，但你不知道是谁说的。但如果你只是抓取它，你可能会知道是谁说的以及内容。可能有一些奇怪的方法可以反向工程数据集，你可以说一些类似的话，比如，给我一个关于这个主题的回复，并想出一个虚构的用户名。也许这个虚构的用户名可能是一个真实的人的用户名。然后，对吧，事情就变得有点混乱了。

有点阴暗了。话虽如此，Anthropic也可以自己模糊用户名，这也可以在他们那边手动完成，我不知道它是不是这样，但这绝对对律师有利，我认为对公众舆论也有利，那就是，你知道，这是一个隐私泄露和问题，或者其他什么，而实际上只是为了钱，我不是说任何一方对与错，但我认为公平地说，这绝对都是为了钱，所以

Sam Altman，事情就变得更复杂了。Sam Altman当然是OpenAI的首席执行官，Anthropic的主要竞争对手，他实际上持有Reddit 8.7% 的股份。这使他成为第三大股东，他曾经是他们的董事会成员。所以，

我认为，在所有这些事情发生之后，他们显然已经告诉他们停止抓取数据。Anthropic拒绝回应。我的意思是，他们可能只是想从他们那里得到一些钱。但Anthropic回应说，我们不同意Reddit的主张，我们将坚决为自己辩护。我觉得每家公司在即将上法庭时都会这么说，他们不同意。

你知道，他们否认并说，我们将坚决为自己辩护。但Reddit声称，自从他们在2014年告诉他们停止抓取数据以来，Anthropic的机器人至少继续抓取了10万次以上的数据。所以问题依然存在，我们将看看它是否会停止。这绝对是一个非常有趣且充满争议的话题。

无论如何，如果你从本集中学到了什么新东西，请务必留下评分和评论。非常感谢你今天的收听。请务必去看看AIbox.ai，我们下一集再见。

Reddit Sues Anthropic for Secretly Scraping Data 07:24 Share

AI Chat: ChatGPT &amp; AI News, Artificial Intelligence, OpenAI, Machine Learning

Deep Dive

Shownotes Transcript

Reddit Sues Anthropic for Secretly Scraping Data

AI Chat: ChatGPT & AI News, Artificial Intelligence, OpenAI, Machine Learning