We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

The Human Touch: How Human-Generated Content Shapes ChatGPT's Communication

2024/3/29

No Priors AI

The podcast explores the data sources used to train ChatGPT and other AI models, focusing on the massive text data corpus used in their development. It challenges the common misconception of the data's exact size, highlighting that even massive datasets might still be relatively small compared to the total amount of information available on the internet.

ChatGPT and other AI models are trained on an enormous corpus of text data.
The exact composition of this data is often unclear.
The Allen Institute for AI studied the Google C4 dataset, a snapshot of content from 15 million websites.

Shownotes Transcript

我们经常听到ChatGPT和所有这些不同的AI模型都是在一个庞大的文本数据集中进行训练的。但是，这些数据究竟是什么呢？很多人会提出各种说法，比如，它是互联网的三分之一，或者说是互联网的任意百分比，或者说是今天播客中80%的内容。我们将讨论被称为ChatGPT的黑盒子里究竟有什么。谷歌、脸书，所有这些不同的AI公司都在用数据训练他们的AI模型，我们将讨论这些数据究竟是什么，里面有什么，比如实际的网站是什么。在我看来，这是一个非常有趣的播客，你一定会想仔细听，因为除了谈论具体的网站之外，它还会让你很好地了解为什么ChatGPT和所有这些不同的AI模型在某些方面非常擅长，而在其他方面却不太擅长，因为你将能够……我们将讨论输入到它们中的内容，它将提供一些关于为什么它会说出一些它所说的话的想法。首先，我们将讨论的大量内容来自艾伦人工智能研究所的一些研究，他们实际上进行了一些研究，决定深入研究所谓的谷歌C4数据集。

所以它本质上只是一个来自1500万个不同网站的内容的巨大快照，这些网站被用来构建一些最引人注目的英语语言……，比如谷歌T5和脸书的LaMDA。OpenAI并没有明确说明他们用来训练支持ChatGPT的模型的数据，但我们可以假设它与一些非常类似的东西……你会在稍后看到原因，但总而言之，这就是谷歌的Barded，也是来自许多脸书产品的内容……所有这些可能也都在ChatGPT中。话虽如此，我想说重要的是要知道，在我们今天要讨论的所有内容中，这仍然只是一小部分数据。这是该公司在2019年4月基本上抓取的内容。

这是一家名为Common Crawl的非营利组织。至于谷歌C4数据集，许多不同的AI……许多不同的AI都使用这个巨大的数据集……我认为，虽然它非常庞大，1500万个网站及其所有内容，有些人称之为代理数据集……但如果它可能比GPT-3训练的数据小40倍。

所以，虽然你可能认为它很大，但实际上它仍然比GPT-3小得多，并且假设GPT-4甚至比这还要大得多，尽管他们实际上并没有公布GPT-4有多少参数。所以，关于所有这些，重要的是要知道，在这个整个数据集中最大的内容部分之一，就是商业领域。因此，商业和工业网站约占整个数据集的16%，其中排名第一的网站是fool.com，如果你不知道的话，它就是一个金融投资网站。

所以，这很有趣，因为很多人正在尝试使用ChatGPT进行投资和其他类似领域的各种用例。紧随其后的是kickstarter.com，这是一个众筹网站，用于为不同的企业筹集资金等等。再往后一点，

他们有Patreon，它占了相当大的一部分，如果你不知道的话，它可以帮助创作者从订户那里收取月费以获取独家内容。这实际上非常有趣，因为他们能够获得Patreon上的内容，人们基本上是在销售内容，如果你喜欢，在fool、Kickstarter和Patreon之间，这就像三种不同的在线行业，用于处理大量资金。因此，我真的很想知道从这些数据中收集到的哪些信息将有助于生成商业创意。

Kickstarter和Patreon可能会让AI接触到很多不同的营销理念，以及技术和许多其他非常有趣的理念。在这些模型训练所基于的金融领域之后，下一个最大的领域似乎是新闻。新闻和媒体占据了前十名中的大约一半，是主要的新闻机构，纽约时报排名第四，洛杉矶时报排名第六，卫报排名第七，福克斯新闻和华盛顿邮报……我认为，艺术家和创作者，许多这些新闻机构都批评科技公司未经授权或补偿就使用他们的内容，对吧？他们基本上只是抓取了所有这些新闻数据，许多这些新闻公司都在抱怨这一点。

所以，所有这些都被吸入其中，这将是一件很有趣的事情。我认为他们发现，几个不同的媒体机构，在新闻卫报的独立信任度量表上排名较低的机构，也出现在其中，华盛顿邮报就此发表了一篇新闻报道，他们特别对此发表了评论。要知道，这也很有趣，因为许多不同的，比如可信度或事实核查组织，本身也受到了审查。有很多标记。

我认为总体上，在线……很多人并不真正喜欢事实核查正在进行的事情。华盛顿邮报，我知道，推特上的一些帖子已经被社区笔记所取代。所以，允许任何人去……如果一个社区创作者的排名足够高，那么他们就可以发布一个高质量的链接来反驳一个具体的声明，这很有趣，因为从某种意义上说，这将权力下放了，我认为过去许多事实核查网站都是由编辑或其他组织选择的，人们抱怨谁来选择它们……所以，我认为……将权力下放一点是件好事。

华盛顿邮报对俄罗斯国家支持的新闻网站RT被列入媒体机构名单并不满意，他们还抱怨说，Brightbart.com，一个右翼新闻评论网站，也被列入其中。无论任何人的政治观点如何，我认为拥有来自不同视角的新闻非常重要。所有这些内容都是AI领域的一场大辩论，人们……华盛顿邮报上有很多评论文章特别讨论了，为什么我们要将不可靠的训练数据放入其中，这会导致偏见和宣传信息的传播？

我实际上认为拥有各种各样的观点，无论是真实的还是虚假的，对于这些模型的训练来说都是非常重要的，因为这些观点代表了世界上各种各样的人的观点，任何说他们的观点是他们的偏见，因为政府的偏见是唯一正确的偏见的人，显然缺乏很多视角，因为人们有很多不同的观点和不同的视角。我认为重要的是能够理解所有这些，你可以选择你相信什么或不相信什么。但是，你知道，我看到的华盛顿邮报的那篇文章抱怨说，有一个基本上是黑名单上的词语列表。

其中一个词语，文章中说，它不会被添加到……它不应该被添加到训练数据中。其中一个词是“卐”（纳粹标志），显然，“卐”指的是纳粹党及其所有糟糕的事情……但他们抱怨说，“卐”这个词在这个巨大的AI训练数据集中仍然出现了超过75000次，即使它是一个黑名单上的词，这让我开始思考……我觉得完全将词语列入黑名单不是一个好主意，尽管“卐”显然代表了一个在世界上做了很多可怕事情的政党。为什么我们要删除这个词呢？为什么我们不想说，你知道，纳粹德国是邪恶的，但显然，如果这是历史上发生的事情，对吧，我们不能只是……掩盖它，并希望AI永远不会谈论它，我认为这实际上可能弊大于利，因为我认为重要的是……让这些AI模型接触到任何可能被认为是不好的词语或任何东西，因为这很重要，然后你可以训练它们，并告诉它们，显然，“卐”和……杀害人们是可怕的。

但我认为重要的是，这些内容应该包含在内，因为……你知道，它需要……它需要……它需要了解所有这些不同的概念，我认为重要的是，我们不应该……当我看到人们试图在模型上施加任何偏见，或者删除不同的部分，或者删除不同的黑名单上的词语时，我就会对AI模型的训练方式感到非常紧张。这感觉不太好。这感觉就像……审查制度。

我认为包含所有内容是可以的，然后人们可以选择他们相信什么。你可以设置一些保护措施，并说明XYZ主题是关于什么的。我认为谷歌和OpenAI正在做这件事……针对记者的投诉，包括像“卐”这样的词，这显然……可能是一个危险信号。

但我假设他们使用了……我希望他们使用了参考，你知道，“卐”是一个代表不好的东西的象征，对吧？但我认为你不应该完全把它删除，因为那样它就对世界上发生的一件非常重要的事情一无所知了。所以我不知道为什么你不想完全删除它。

无论如何，我的观点是……我认为另一个非常重要的领域是宗教网站。我认为大约5%的内容是宗教网站。

显然，这很有意义，世界上有超过10亿穆斯林，有超过10亿基督徒。这些都是……你知道，人口中非常大的百分比。所以我认为这并不令人震惊……尽管一些评论员不知道有多少不同的观点。

无论如何，是的，我还认为，对于那些想了解不同文化、宗教或人民的人来说，拥有所有这些不同的内容是非常有用的。所以，这似乎是世界很大的一部分，将这些内容整合到AI模型中将是一件好事。另一个似乎占据了相当一部分（15%）的领域是个人博客。

它实际上是第二大类别。对不起，如果我说错了，我之前说了什么，我说新闻是第三大类别。第二大类别是个人博客……还有一个关于这一点非常有趣的事情，我在开头忘记提到了，那就是在这个用于许多不同AI模型的巨大数据集中，30%的内容目前已无法在线访问。

意思是，那些网站已经过期了。它们被删除了，人们删除了它们，世界在变化，无论是什么。我之所以提到这一点，并认为这一点非常重要，是因为如果你考虑一下，谷歌收集了这个巨大的数据集，他们收集的所有内容中，30%现在对他们来说基本上是独有的，对吧？他们拥有这30%的内容，现在已经消失了。

所以他们拥有这些内容，这将是一件很有趣的事情，因为人们正在……谈论……声称拥有他们数据的权利。Reddit最近表示，他们将开始向使用Reddit数据训练模型的公司收费，Reddit是OpenAI用于ChatGPT数据集的一个很大组成部分。但如果像Reddit这样的公司开始对数据收费，那么数据显然会变得更有价值。

现在谷歌拥有像……我称之为数据黑洞一样的东西，所有数据中的30%都是独有的，因为它们已经从互联网上消失了，但他们可以访问这些数据。所以这真的很令人感兴趣。我想知道这有多值钱，因为其他人将无法访问这些数据。如果我停止使用互联网，可能没有人会声称拥有它的版权或……在未来拥有它的所有权。

另一件非常有趣的事情是，许多这些AI模型……据说，当它们对收集到的所有数据进行分类时，它们并没有真正对……很多数据并没有对作者等进行分类，因为我有点担心个人数据被吸入其中，我们稍后会讨论这个问题，因为很多个人数据已经被吸入这些模型中。我很想知道这些数据是如何被使用、提取、抓取或整合的。但无论如何，正如我们所讨论的，这个整体中第二大块是个人博客，其中包括许多不同的平台，如Blogger、Google Out.com，这些可以是……你知道，从新泽西州的一所天主教高中到纽约的一个犹太学生俱乐部，任何东西。

所以这些都是一些随机的东西，这是一个很大的部分，所以我认为超过50万个个人博客被吸入其中，这……你知道，代表了大约4%的总分类标记。在实际文本中，15%的所有网站，但只有4%的实际文本被输入到训练中。所以这很有趣，其中很多是WordPress、Tumblr、Blogspot和LiveJournal。

ChatGPT会从我们身上学习吗？我们探讨了人类生成内容（如博客、文章和社交媒体）在塑造其沟通风格中的作用。

⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast Studio Network： ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠https://PodcastStudio.com⁠⁠⁠

<raw_text>0 我认为这就是为什么有很多不同的原因。我认为这是一个非常重要的部分，因为这确实为人们对各种不同主题的感受和想法提供了很多视角。我认为这是一个非常有价值的部分。就像我之前提到的，很多公司，比如谷歌，在将数据输入AI之前进行了严格的过滤，所以你可以看到，这些数据被称为IT，代表着庞大、干净的众包语料库。

因此，除了去除所有重复的文本以外，确保整个数据集中没有相同的文本被训练两次，就像我之前提到的，谷歌还使用了一份他们称之为“肮脏”的词汇表，包含约四百零两个英语中的不当词汇，通常公司会使用高质量的数据集来微调模型，基本上他们只是试图保护用户免受不良内容的影响。因此，我认为它会剔除很多这样的内容。正如我们之前提到的，这引发了很多争议，我会说，这在政治光谱的两侧都有。

我知道我最近看到《华盛顿邮报》批评了这一点，显然他们对种族问题持反对态度，但他们表示，他们对一些非性别的LGBTQ内容被排除感到失望，因此他们对此表示抱怨，另外还有一个问题是，它包含了“waska”这个词，所以他们似乎希望它能从“absinthe”中排除更少的内容，而从相关的夏季或“swanker”中排除更多的内容。我认为，归根结底，我认为越少的偏见或微调，用户就能越好地使用它。在我看来，我认为这可能是最终获胜的公司。

而且，似乎谷歌和开放者正在努力让人们以他们想要的方式使用这个工具，显然不是让它变成一个可怕的种族主义健康工具，而是让它变得安全。但你知道，这里有很多不同的意见和想法。所以我相信我们已经讨论了足够多，但无论如何，这真的很有趣。

如果你查看《华盛顿邮报》，看看他们今天发布的文章，你可以查看你的网页是否在某些AI数据上进行了训练，它会显示给你谷歌认为的第一网站。因此，所有关于任何内容的专利都是非常有趣的，并且这不仅仅是在美国，而是在全世界的专利文件中，所以这非常有趣。所有这些都被纳入其中，还有很多非常前沿的内容，这让我想，你可能会问它，如果我是苹果，想为X、Y、Z写一个专利，我该怎么做？这是一个非常有趣的话题。

我认为可能会有一些像宝藏一样的专利，这可能是来自某些研究的金矿，事实是专利是最大的数据库，你可以从中获得很多内容和想法。第二个是维基百科，显然，维基百科是一个巨大的信息源，开源的，老实说，这是一个完美的数据集，用于训练。

第三个是叫做script的东西，基本上是有声书和数字书籍。因此，所有曾经写过的书的内容都在其中，第四个是《纽约时报》。然后他们有journals dot, P O P L O S, dot或gue，这是科学与健康。

他们得到了《时代》、卫报、福布斯等的支持。第十个是patents stock com，所以里面还有更多的专利。第十二个是court Sarah h，这很有趣。

The Human Touch: How Human-Generated Content Shapes ChatGPT's Communication 19:38 Share

No Priors AI

Shownotes Transcript

The Human Touch: How Human-Generated Content Shapes ChatGPT's Communication