We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode When AI Cannibalizes Its Data

When AI Cannibalizes Its Data

2025/2/18
logo of podcast Short Wave

Short Wave

AI Deep Dive AI Chapters Transcript
People
I
Ilya Shumailov
R
Regina Barber
Topics
Regina Barber: 现在生成式AI无处不在,应用于各种场景,例如Google搜索、TikTok工具推荐、客户服务聊天等。大型语言模型如DeepSeek R1、ChatGPT等,能够生成图像、视频等多种形式的内容,但同时也面临着数据偏差和模型崩溃的风险。我们需要深入了解这些风险,并探讨相应的解决方案。 Ilya Shumailov: 为了训练大型语言模型,我们需要使用大量人类书写的例子,让模型阅读整个互联网。然而,随着生成式AI的普及,互联网上越来越多的内容是由AI生成的,这导致模型可能会消耗自己合成的内容,从而产生数据偏差和模型崩溃的问题。模型出错的原因主要有三个:数据相关错误、学习机制的结构性偏差以及模型设计本身的问题。此外,硬件的限制也会导致经验误差。当模型不断地从自身生成的数据中学习时,不可能发生的事件会逐渐消失,模型会变得越来越自信,最终导致模型崩溃。作为研究人员,我正在积极探索各种数据过滤方法,以确保模型摄取的数据能够代表底层数据分布,并防止模型崩溃的发生。我相信我们能够解决这个问题,并继续推动AI技术的发展。

Deep Dive

Shownotes Transcript

最近有没有问过ChatGPT什么问题?有没有和客户服务聊天机器人交谈过?有没有阅读过谷歌“AI概述”摘要功能的结果?如果你最近使用过互联网,你很可能已经接触过大型语言模型创作的内容。这些模型,比如DeepSeek-R1或OpenAI的ChatGPT,就像你手机上的预测文本功能一样,只是功能更强大。为了让它们“学习”如何写作,这些模型接受了数百万个人类书写文本的训练。部分由于这些大型语言模型,如今互联网上的许多内容都是由生成式AI编写的。这意味着现在训练的AI模型可能会消耗自身合成内容……并为此付出代价。查看本期节目中提到的AI生成的图像。你还有什么想让我们报道的人工智能主题吗?请发送电子邮件至[email protected]告诉我们!收听Short Wave的每一集,无需赞助商广告,并通过在plus.npr.org/shortwave注册Short Wave+来支持我们在NPR的工作。了解更多关于赞助商信息选择:podcastchoices.com/adchoicesNPR隐私政策</context> <raw_text>0 这条消息来自弗雷德·哈奇癌症中心,该中心骨髓移植的发现已挽救了全球一百多万人的生命。了解这一突破和其他突破如何影响世界,请访问fredhutch.org/lookbeyond。这条消息来自弗雷德·哈奇癌症中心,该中心骨髓移植的发现已挽救了全球一百多万人的生命。了解这一突破和其他突破如何影响世界,请访问fredhutch.org/lookbeyond。您正在收听NPR的Shortwave。

现在生成式AI似乎无处不在。它在我的谷歌搜索中出现。它在TikTok上被推荐为一种工具。它运行着客户服务聊天。生成式AI有很多形式,比如它可以创建图像或视频。但最近新闻中报道的那些,DeepSeek R1、OpenAI的ChatGBT、谷歌Gemini、苹果Intelligence,所有这些都是大型语言模型。

大型语言模型有点像你手机上的预测文本功能,但功能更强大。大型语言模型是统计学上的庞然大物,它们从……学习

那是伊利亚·舒迈洛夫。他是一位计算机科学家,他说为了训练这些模型,科学家们必须用大量的人类书写示例来训练它们。就像,他们基本上让这些模型阅读整个互联网。

这在一段时间内是有效的。但是现在,部分由于这些大型语言模型,我们互联网上的许多内容都是由生成式AI编写的。如果你今天要随机抽取互联网数据样本,我相信你会发现其中很大一部分是由机器生成的。但这并不是说数据本身不好。主要问题是这些数据有多少潜在的下游危险。

在2023年春季,伊利亚是牛津大学的研究员。他和他的兄弟在午餐时谈论着。他们说,好吧,如果互联网充满了机器生成的内容,而这些机器生成的内容又进入未来的机器,将会发生什么?当时很多这些模型质量相对较低。所以里面有错误。

并且存在偏差,这些模型内部存在系统性偏差。因此,你可以想象这样一种情况:与其学习有用的上下文和有用的概念,你实际上可能会学习一些不存在的东西。它们纯粹是幻觉。伊利亚和他的团队进行了一项研究,表明最终,任何从自身合成数据中学习的大型语言模型都会随着时间的推移而逐渐退化,产生的结果会越来越差。

所以今天节目中,AI模型崩溃。当大型语言模型阅读了过多的自身内容时会发生什么?这会限制生成式AI的未来吗?我是雷吉娜·巴伯,您正在收听NPR的科学播客Shortwave。

本条消息来自Capital One。向无压力的订阅管理问好。您可以直接从Capital One移动应用程序轻松跟踪、阻止或取消定期收费。就这么简单。访问CapitalOne.com/subscriptions了解更多信息。适用条款和条件。

本条消息来自Charles Schwab。在管理您的财富方面,Schwab为您提供更多选择,例如全方位服务的财富管理和您需要时的建议。您也可以自行投资并在Thinkorswim上交易。访问Schwab.com了解更多信息。

好的,伊利亚,在我们讨论模型崩溃这个大问题之前,我认为我们需要了解为什么这些错误实际上会发生。所以你能向我解释一下大型语言模型会产生哪些类型的错误,以及它们是如何发生的、为什么发生的?

所以有三个来源,三个主要的错误来源我们仍然存在。第一个基本上只是与数据相关的错误。通常这些问题是这样的:我们是否有足够的数据来近似一个给定的过程?所以如果某些事情在你的底层分布中很少发生,你的模型可能会错误地认为……

某些事情是不可能的。等等,你说的不可能是什么意思?我在Twitter上看到的一个例子是,如果你搜索婴儿孔雀,你会发现看起来……

相对逼真,但它们根本不是孔雀。它们是完全生成的,你找不到真实的图片。但是如果你试图从中学习任何东西,当然,你将会吸收这种偏差。对。你好像现在告诉我有很多假的婴儿孔雀图像,但是机器不知道这一点,对吧?它们只会认为,太好了,这是一只婴儿孔雀。而且也没有那么多真实的婴儿孔雀图像可以用来比较。

没错。而这些是你通常不会经常看到的错误,因为它们不太可能发生,对吧?如果人们要向你报告事情,并说,哦,你的模型在这里错了,他们很可能会注意到平均而言是错误的事情。但是如果它们在互联网的某个小部分是错误的,而没有人真正关心,那么你甚至不太可能注意到你犯了一个错误。通常这是个问题,因为随着维数的增加,

你会发现尾部的体积会不成比例地增长。不仅仅是婴儿,还有婴儿鸟。不仅仅是婴儿鸟,还有婴儿孔雀。是的,没错。因此,你会发现你需要捕捉相当多。好的,所以这是一种问题,数据问题。另外两种是什么?最重要的是,我们有来自学习机制和模型本身的错误。关于学习机制,我们都在训练我们的模型,所有这些模型,

都存在结构性偏差。所以基本上说你的模型会很好,但它不太可能是最优的。它可能在某些地方有一些错误。这是错误来源的第二点。错误来源的第三点是,模型的实际设计,你的模型应该采取什么形状和形式,这非常像炼金术。没有人真正知道

为什么事情会奏效,但只是凭经验知道事情会奏效。它就像一个黑盒子。我们不知道它是如何做出这些决定的。我们不知道,就像你说的,按照那个顺序它如何修正那些决定,你知道的。是的。

是的,模型的哪些部分负责什么?我们不知道给定模型架构的基本潜在偏差。我们观察到的是,这些架构总是会引入某种错误。对,对。好的,所以错误可能来自三个地方:一是模型本身,二是训练方式,对吧?三是它训练的数据或缺乏数据。

没错。然后我们还有来自例如硬件的经验性错误。所以我们也有我们使用的硬件的实际限制。这些错误也存在。

让我们谈谈这些错误是如何积累的。当它们开始相互叠加时会发生什么?你能向我描述一下结果吗?当然可以。所以我们在简单的理论模型中观察到两种主要现象发生。发生的第一个现象是

很难近似不太可能发生的事件,部分原因是你不会经常遇到它们。所以你可能会发现你正在收集越来越多的数据,而这些数据中的很多看起来都与你已经拥有的数据非常相似。所以你并没有发现太多信息。但重要的是,你没有发现这些不频繁的数据点。所以那些尾部事件,它们消失了。然后发生的另一件事是

你第一次犯了这个错误,低估了你不太可能发生的事件,当你再次遇到这个模型时,它不太可能从这种情况中恢复过来。好的,所以随着时间的推移,你开始失去更独特的事件,所有数据开始看起来更像平均值。

最初不太可能的事件对于后续模型来说更加不可能,它就像滚雪球一样失控,直到整个事情完全崩溃到接近零方差。所以不是这个钟形曲线,你只是在中间有一个点。你只是在中间有一堆东西。没错。

没错。问题是,你可以从理论上描述这一点。它实际上非常简单。你可以运行这些实验多少次都可以。你会发现,即使你有很多数据,如果你不断重复这个过程,这个崩溃的速度你也可以限制,你最终总是处于一个状态,你的不太可能的事件消失了。在实践中,当我们抓取大型语言模型……

我们观察到它们对它们正在做出的预测变得更加自信。所以基本上,这里不太可能的事件将是模型不太自信的事情。通常情况下,它不会对此做出预测。所以当你试图从语言模型中生成更多数据以便另一个语言模型从中学习时,随着时间的推移,它基本上会变得越来越自信。然后……

它基本上在生成设置过程中经常陷入这些重复循环。我知道这并不完全相同,但这让我想起了传话游戏。你知道的,当你告诉某人一句话或几句话,然后下一个人告诉另一个人同样的两句话,然后下一个人说同样的两句话。它通常会随着时间的推移变得越来越含糊不清。

我认为这种比较有点有效。是的。所以这是第一件事。这是不太可能的事件。然后发生的第二件事是你的模型会产生错误。对潜在现象的误解。对。因此……

你会看到这些错误也开始传播。它们是相对相关的。如果你的所有模型都使用相同的架构,那么它很可能以相同的方式相关地出错。所以每当它看到错误时,它可能会放大它观察到的相同错误。是的,我的意思是,我现在正在查看一些用自身数据训练的模型的图像输出。我们将在节目说明中链接这些图像,但是

我看到的是某人手写的0到9,你知道的,它并不完美。这是手写体,但是随着模型一遍又一遍地重新生成它,比如15次,它们只是点,对吧?就像它们无法区分。你甚至无法分辨它们的数字,哪个是哪个。

是的,近似值的近似值的近似值最终非常不精确。只要你能限制你的近似值的误差,我想就可以了。但是是的,在实践中,因为机器学习非常经验性,我们经常做不到。哦,我喜欢这些图像。这太好了,伊利亚。这太好了。是的。所以这里要说明的一件重要的事情是……

我们在这里讨论的设置在某种程度上是假设性的,因为我们并不处于这样的世界中,你知道的,今天我们可以构建一个模型,明天它们就会消失。这种情况不会发生。

我们已经有非常好的模型了,前进的道路是拥有更好的模型,对此毫无疑问。好的。就像你说的,你知道,Chat GPT不会明天就消失。研究人员正在做些什么来避免模型崩溃的问题?作为一个计算机科学家,你认为解决方案是什么?

我的意思是,有很多不同的解决方案。你会发现很多不同的论文都在探索哪些是最有效的缓解措施。它主要是不同类型的过滤数据。

并基本上确保最终被模型摄取的数据能够代表底层数据分布。每当我们达到这个极限,并且我们看到我们的模型偏离某种训练方向,即使模型变差的轨迹时,我向你保证人们会停止训练模型,后退几步,也许添加某种额外的数据,然后继续训练。

对。因为我们总是可以回到以前的模型,没有什么能阻止我们。然后我们可以投入更多精力来获取高质量的数据。或者支付更多的人来创建高质量的数据。是的。所以模型崩溃不会神奇地杀死模型。我们只需要改变我们构建事物的方式。

所以这并不是完全悲观的。我非常有信心我们会解决这个问题。我喜欢这种观点。伊利亚,非常感谢你今天与我们交谈。非常感谢你邀请我。很高兴。

如果你想看看我正在看的一些图像,你知道的,自己看看AI模型崩溃的后果,我们将在节目说明中链接到这些图像。另外,请确保你不会错过任何新剧集,请在您正在收听的任何播客平台上关注我们。本集由汉娜·陈制作,由节目主持人丽贝卡·拉米雷斯编辑。汉娜和泰勒·琼斯核实了事实。吉米·基利是音频工程师。贝丝·多诺万是我们的高级总监,科林·坎贝尔是我们的播客战略高级副总裁。

我是雷吉娜·巴伯。感谢您收听ShoreWave,NPR的科学播客。

本条消息来自Capella大学。通过Capella的FlexPath学习模式,您可以设定自己的截止日期,并按照自己的时间表学习。通过Capella大学,不同的未来比您想象的更近。访问capella.edu了解更多信息。

以下消息的支持来自LinkedIn Ads。作为B2B营销人员,您知道数字广告空间有多嘈杂。如果您的信息没有针对正确的受众,它就会消失在噪音中。通过使用LinkedIn Ads,您可以接触到更有可能发现您的广告相关的专业人士。您可以按职位、行业、公司等对其进行定位。在linkedin.com/results获得您下次活动的100美元信用额度。适用条款和条件。