We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
主持人:Reddit正在起诉Anthropic,指控他们未经授权抓取Reddit的数据来训练AI模型。Reddit通过robots.txt文件明确禁止了AI模型抓取其数据,但Anthropic无视了这些规定。Reddit认为Anthropic的行为侵犯了用户隐私,因为未经许可抓取的数据可能被用于反向工程,从而泄露用户身份信息。Reddit已经与Google和OpenAI签订了数据许可协议,并希望Anthropic也能达成类似的协议。我认为,这场诉讼的根本原因是经济利益,尽管隐私问题也被提及以争取公众支持。作为OpenAI的CEO,Sam Altman持有Reddit的股份,这使得情况更加复杂。Reddit声称自2014年以来,Anthropic的机器人持续抓取数据,且抓取次数超过10万次。Anthropic对此表示否认,并表示将积极为自己辩护。

Deep Dive

Shownotes Transcript

这太有趣了,因为现在Reddit和Claude之间闹得不可开交。但有趣的是,与此同时,Windsurf和Claude之间也发生了冲突。我想说的是Anthropic,对吧?虽然有些人认为这两件事完全无关,

但我觉得它们之间存在直接关联。我将解释原因。现在Reddit与Anthropic之间发生的冲突是,Reddit指控Anthropic——他们正在提起诉讼——指控Anthropic没有为训练数据付费。本质上,Anthropic正在使用Reddit的数据进行训练,而没有任何许可。他们选择不给予许可的方式

许可。对于人工智能公司或任何媒体公司来说,这都很容易。他们在网站上放置了一个robot.txt文件,基本上声明人工智能模型不能抓取他们的数据,但他们的数据仍然存在于谷歌上,所以这很棘手。无论如何,Anthropic没有遵守服务条款,他们据称仍在继续抓取数据。我们稍后会更详细地讨论这些指控。

在此之前,我想提一下,如果你想尝试Anthropic最新的模型,你会想,哦,天哪,他们未经许可就抓取Reddit的数据,他们的模型变得越来越好。你可能会问,它到底好到什么程度?你可以访问我的创业公司AIbox.ai,查看我们的playground。我们拥有十大

20个人工智能模型。图像、音频、文本、Anthropic、谷歌、DeepSea、Cohere、Meta、微软,所有公司都在这里。你可以在一个平台上访问所有顶级模型。你可以在同一个聊天中与所有模型聊天,这很酷。你可以尝试Sonnet 3.5,

向它提出很多问题。在对话过程中,如果你不喜欢Claude谈论某个特定主题的方式,你可以切换到ChatGPT。或者你可能正在使用OpenAI,但它没有给你回应。它有点过于谨慎,你可能会想,好吧,我需要它少一些审查。你可以使用Grok,并尝试从中获得更好的答案。所有这些,以及更多功能,包括在同一个对话中使用图像或生成图像和

音频,都非常非常有用。你可以在AIbox.ai上查看所有这些内容。描述中有一个链接。好的,让我们回到Reddit上发生的事情。所以

Reddit已经正式提交了投诉。他们在加利福尼亚州北部地区法院提交了投诉。他们是在周三提交的。他们基本上表示,Anthropic未经授权使用其网站的数据,并将其用于商业目的,对吧?他们正在将人工智能模型货币化,等等。这违反了他们的用户协议。这实际上很有趣,因为这是大型科技公司第一次在法律上挑战人工智能模型提供商,对吧?这很有趣,因为

其他大型科技公司是Meta,他们不会起诉任何人,因为他们很久以前就封锁了他们的数据用于训练。所以他们有自己独有的数据集。但他们没有起诉任何人。谷歌正在开发Gemini,他们也没有起诉任何人,即使他们已经……我认为谷歌的Gemini,例如,我敢肯定OpenAI使用了YouTube来训练他们的Sora模型。这很可疑,违反了他们的条款。但我认为谷歌也这么做了。甚至可能还有一些更隐蔽的事情。好吧,“隐蔽”这个词有点……

棘手。他们可能在YouTube上这么做了,也没有给用户提供选择退出选项。所以他们知道自己是在五十步笑一百步。他们可能会惹上麻烦。即使他们把它放在服务条款中,用户也不会高兴。这不会是一个好兆头。所以他们只是在避免这场诉讼。OpenAI也没有收到谷歌就其视频训练提出的任何诉讼。这很有趣。微软也正在与OpenAI合作,对吧?所以这很有趣,因为许多大型科技公司……

他们正在制作这些AI模型,所以他们不会……他们就像出版商,也在创建模型。所以他们并没有真正起诉任何人,因为这整个领域都是一个灰色地带,一片蛮荒之地。有一些公司没有自己的AI模型。Reddit是其中之一,它正在提起诉讼,我认为X和XAI可能会提起更多诉讼。是的。

埃隆与OpenAI有自己的恩怨,但这些似乎已经平息或取消了。我不知道。它们时有时无。但无论如何,Reddit是第一批在法律上挑战AI模型的大型科技公司之一。原因是Reddit确实赚了很多钱,而且是相当可观的钱。我相信他们与谷歌签署了一项许可协议,将Reddit数据纳入谷歌Gemini,金额为3亿美元。所以他们赚了很多钱。我相信这可能只是一年的费用。所以

Reddit从这件事中赚了很多钱。OpenAI也与Reddit签署了一项未公开金额的许可协议。所以Reddit显然希望Anthropic也这样做,对吧?他们就像,看,Meta,如果你想要,你知道,Anthropic,如果你想要,过来吧。我们正在与谷歌和OpenAI签署Gemini的许可协议。

但他们没有这样做。这就是他们的律师特别说的。他说:“我们不会容忍像Anthropic这样的营利性实体在没有回报Reddit用户或尊重其隐私的情况下,将Reddit内容用于商业用途,赚取数十亿美元。”他们宣传这件事的一个重要方式,我不知道是不是宣传,但他们宣传这件事的一个重要方式是,他们说……

就像用户的隐私一样,你正在提取所有这些用户数据,你并没有真正将其分离,你并没有采取足够的隐私措施。如果你直接与Reddit达成许可协议,他们会提供数据。他们与OpenAI和谷歌达成的协议就是这样,但他们也会保留所有Reddit用户的预设用户名。

所以他们会加密所有这些。所以你可以获得内容,但你不知道是谁说的。但如果你只是抓取它,你可能会知道是谁说的以及内容。可能有一些奇怪的方法可以反向工程数据集,你可以说一些类似的话,比如,给我一个关于这个主题的回复,并想出一个虚构的用户名。也许这个虚构的用户名可能是一个真实的人的用户名。然后,对吧,事情就变得有点混乱了。

有点阴暗了。话虽如此,Anthropic也可以自己模糊用户名,这也可以在他们那边手动完成,我不知道它是不是这样,但这绝对对律师有利,我认为对公众舆论也有利,那就是,你知道,这是一个隐私泄露和问题,或者其他什么,而实际上只是为了钱,我不是说任何一方对与错,但我认为公平地说,这绝对都是为了钱,所以

Sam Altman,事情就变得更复杂了。Sam Altman当然是OpenAI的首席执行官,Anthropic的主要竞争对手,他实际上持有Reddit 8.7% 的股份。这使他成为第三大股东,他曾经是他们的董事会成员。所以,

我认为,在所有这些事情发生之后,他们显然已经告诉他们停止抓取数据。Anthropic拒绝回应。我的意思是,他们可能只是想从他们那里得到一些钱。但Anthropic回应说,我们不同意Reddit的主张,我们将坚决为自己辩护。我觉得每家公司在即将上法庭时都会这么说,他们不同意。

你知道,他们否认并说,我们将坚决为自己辩护。但Reddit声称,自从他们在2014年告诉他们停止抓取数据以来,Anthropic的机器人至少继续抓取了10万次以上的数据。所以问题依然存在,我们将看看它是否会停止。这绝对是一个非常有趣且充满争议的话题。

无论如何,如果你从本集中学到了什么新东西,请务必留下评分和评论。非常感谢你今天的收听。请务必去看看AIbox.ai,我们下一集再见。