We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

The AI revolution is running out of data. What can researchers do?

2025/1/31

Nature Podcast

AI Deep Dive AI Chapters Transcript

People

Andy Zhou

Fei-Fei Li

Jan LeCun

Nicholas Muninkhoff

Pablo Villalobos

Shane Longbrey

Topics

Benjamin Thompson: 本文探讨了人工智能革命面临的数据短缺问题。互联网数据并非无限,人工智能研究人员已经接近耗尽可用的数据资源。大型语言模型(LLM)的训练依赖于海量数据,但数据增长速度远低于AI模型训练数据集的增长速度。内容提供商也开始限制数据访问,这加剧了数据短缺问题。一些专家预测,到2028年左右,用于训练AI模型的典型数据集规模将达到估计的公共在线文本总量的规模。数据短缺可能会导致AI发展速度放缓,并迫使人们改变生成式AI模型的类型,从大型通用LLM转向更小、更专业的模型。 Shane Longbrey: 数据所有者(如报社出版商)正在加强对内容使用的限制,导致数据共享资源危机。训练数据的瓶颈即将到来,甚至可能已经开始影响AI发展。如果法院支持内容提供商应获得经济补偿的观点,这将使AI开发者和研究人员(包括资金有限的学者)更难获得所需数据。仅仅增加模型的计算能力或参数数量而不增加训练数据,会使AI变得缓慢且昂贵。 Pablo Villalobos: 大型AI公司可能并没有因为数据短缺而恐慌。专有内容(如社交媒体数据)可能只包含大约另一个千万亿个文本标记,即使获得了所有这些数据,也最多只能将数据瓶颈延迟一年半。目前尚不清楚专业数据集对训练LLM的可用性和有效性。不同类型的数据之间存在一定的迁移学习,但这种方法的有效性有限。多种因素(合成数据、专业数据集、重新阅读和自我反思)将共同推动AI发展。 Fei-Fei Li: 关注专业数据集(如天文或基因组数据)是解决数据短缺问题的一种策略,这些数据正在快速增长。担忧数据耗尽的观点过于狭隘,忽略了医疗保健、环境和教育等领域中未开发的信息。 Jan LeCun: 仅仅依靠语言训练无法达到人类水平的AI,需要利用其他数据类型,例如机器人通过感官经验学习。 Nicholas Muninkhoff: 让AI模型多次重新阅读训练数据集可以提高性能。模型多次重新阅读数据集的效果与阅读相同数量的独特数据的效果一样好。 Andy Zhou: AI的自我反思可能会带来未来的进步。AI已经拥有比任何个人都更强大的知识基础,它只需要进行思考。

Deep Dive

Shownotes Transcript

这是一篇来自《自然》杂志的音频长篇阅读。在本期节目中,人工智能革命正在面临数据短缺的问题。研究人员能做些什么呢?文章由尼古拉·琼斯撰写,由我,本杰明·汤普森朗读。互联网是人类知识的浩瀚海洋,但它并非无限。人工智能研究人员几乎已经将其榨干。

过去十年人工智能的爆炸式发展,很大程度上是由神经网络规模的扩大以及在越来越多的数据上进行训练所驱动的。这种扩展在创建大型语言模型(LLM)方面被证明是出奇地有效,例如那些为ChatGPT聊天机器人提供动力的模型,它们既更能够复制会话语言,也能够发展出推理等涌现特性。

但一些专家表示,我们现在正在接近扩展的极限。部分原因是计算的能源需求激增。但这也因为LLM开发者正在耗尽用于训练其模型的常规数据集。

一项著名的研究在去年占据了新闻头条,它为这个问题提供了一个数字。Epoch AI(一家虚拟研究机构)的研究人员预测,到2028年左右,用于训练AI模型的典型数据集大小将达到估计的公共在线文本总量的规模。换句话说,人工智能可能在大约三年内耗尽训练数据。

与此同时,数据所有者(例如报纸出版商)开始严格控制其内容的使用方式,进一步收紧了访问权限。麻省理工学院人工智能研究员、Data Providence Initiative(一个进行AI数据集审计的基层组织)负责人谢恩·朗布雷表示,这正在导致数据共享池规模出现危机。

训练数据的迫在眉睫的瓶颈可能已经开始显现。“我强烈怀疑这种情况已经发生了,”朗普雷说。尽管专家表示,这些限制可能会减缓人工智能系统快速改进的速度,但开发人员正在寻找解决方法。

“我认为大型人工智能公司没有人感到恐慌,”Epoch AI的马德里研究员、预测2028年数据崩溃研究的主要作者巴勃罗·维拉洛博斯说。“或者至少,如果他们恐慌的话,他们不会给我发邮件,”他补充道。

例如,位于加利福尼亚州旧金山的OpenAI和Anthropic等知名人工智能公司公开承认了这个问题,同时表示他们有计划解决这个问题,包括生成新数据和寻找非常规数据源。

OpenAI的一位发言人告诉《自然》杂志:“我们使用众多来源,包括公开数据和非公开数据的合作关系、合成数据生成以及来自AI培训师的数据。”即便如此,数据紧缩也可能会迫使人们构建的生成式AI模型类型发生剧变,可能会使格局从大型通用LLM转向更小、更专业的模型。

过去十年LLM的发展显示出其对数据的巨大需求。尽管一些开发人员没有公布其最新模型的规格,但维拉洛博斯估计,自2020年以来,用于训练LLM的标记(或单词的一部分)数量增加了100倍,从数千亿个增加到数万亿个。

这可能是互联网上很大一部分内容,尽管总数非常庞大,难以确定。维拉洛博斯估计,目前互联网文本数据的总量为3100万亿个标记。各种服务使用网络爬虫抓取这些内容,然后消除重复内容并过滤掉不良内容(例如色情内容),以生成更干净的数据集。

一个常见的数据集被称为“红色睡衣”,包含数万亿个单词。一些公司或学术界会自己进行抓取和清理,以创建定制数据集来训练LLM。互联网中只有一小部分被认为是高质量的,例如在书籍或新闻报道中可能找到的人工编辑的、社会可接受的文本。可用互联网内容的增长速度出奇地慢。

维拉洛博斯的研究论文估计,它的增长速度低于每年10%,而AI训练数据集的规模每年都在翻倍以上。预测这些趋势表明,这些曲线将在2028年左右汇合。与此同时,内容提供商越来越多地包含软件代码或改进其使用条款,以阻止网络爬虫或AI公司抓取其数据进行训练。

朗普雷和他的同事们在去年7月发布了一篇预印本,显示越来越多的数据提供商阻止特定爬虫访问其网站。在三个主要清理数据集中的最高质量、最常用的网络内容中,被爬虫限制的标记数量从2023年的不到3%上升到2024年的20%-33%。

目前正在进行几起诉讼,试图为用于AI训练的数据提供者争取赔偿。2023年12月,《纽约时报》起诉OpenAI及其合作伙伴微软侵犯版权。去年4月,纽约市阿尔登全球资本拥有的八家报纸联合提起类似的诉讼。

反驳的论点是,人工智能应该像人一样被允许阅读和学习在线内容,这构成对材料的合理使用。OpenAI公开表示,认为《纽约时报》的诉讼“毫无根据”。

如果法院维持内容提供商应该获得经济赔偿的观点,那么这将使AI开发人员和研究人员(包括没有雄厚财力的学者)更难获得他们需要的东西。“学者们将受到这些交易的打击最大,”朗普雷说。“拥有开放的网络有很多非常有利于社会和民主的好处,”他补充道。

数据紧缩对传统的人工智能扩展策略构成了一个潜在的重大问题。朗普雷说,虽然可以在不扩展训练数据的情况下扩展模型的计算能力或参数数量,但这往往会使人工智能变得缓慢且昂贵,这通常不是人们所希望的。

如果目标是寻找更多数据,一个选择可能是收集非公开数据,例如WhatsApp消息或YouTube视频的转录文本。虽然以这种方式抓取第三方内容的合法性尚未得到检验,但公司确实可以访问他们自己的数据,并且几家社交媒体公司表示,他们使用自己的材料来训练他们的AI模型。

例如,位于加利福尼亚州门洛帕克的Meta公司表示,其虚拟现实头显Meta Quest收集的音频和图像被用于训练其AI。然而,政策各不相同。

视频会议平台Zoom的服务条款规定,该公司不会使用客户内容来训练AI系统,而转录服务Otter AI则表示,它确实使用去标识化和加密的音频和转录文本进行训练。然而,维拉洛博斯估计,目前此类专有内容可能总共只包含另一个千万亿个文本标记。

考虑到其中很多是低质量或重复的内容,他说这足以将数据瓶颈延迟一年半,即使假设单个AI可以访问所有这些内容,而不会引起版权侵犯或隐私问题。“即使将数据库存量增加十倍,也只能让你获得大约三年的扩展时间,”他说。

另一种选择可能是专注于专业数据集,例如天文数据或基因组数据,这些数据正在快速增长。斯坦福大学著名人工智能研究员李飞飞公开支持这一策略。

她在去年5月举行的彭博科技峰会上表示,考虑到医疗保健、环境和教育等领域尚未开发的信息,对数据耗尽的担忧对数据的构成采取了过于狭隘的观点。但维拉洛博斯说,目前尚不清楚此类数据集对于训练NLMs的可用性或实用性如何。

“许多类型的数据之间似乎存在某种程度的迁移学习,”维拉洛博斯说。“也就是说,我对这种方法不太乐观。如果生成式AI在其他类型的数据上进行训练,而不仅仅是文本,那么可能性就会更广阔。一些模型已经能够在一定程度上对未标记的视频或图像进行训练。扩展和改进这些能力可能会打开通往更丰富数据的大门。”

Meta首席人工智能科学家、纽约大学计算机科学家、被认为是现代人工智能创始人之一的Yann LeCun在去年2月在加拿大温哥华的一次人工智能会议上的一次演讲中强调了这些可能性。“用于训练现代LLM的10的13次方个标记听起来很多。一个人需要17万年才能阅读这么多,”LeCun计算道。

但他表示,一个四岁的孩子仅仅通过在清醒时观察物体,就已经吸收了比这多50倍的数据量。LeCun在人工智能促进协会的年度会议上展示了这些数据。类似的数据丰富性最终可能通过让AI系统以机器人的形式从自身的感官体验中学习来实现。

“我们永远不会仅仅通过在语言上进行训练就能达到人类水平的人工智能。这根本不可能发生,”LeCun说。如果找不到数据,可以制造更多数据。一些人工智能公司花钱让人们为人工智能训练生成内容。其他公司使用人工智能生成的合成数据来训练人工智能。这是一个潜在的巨大来源。

今年早些时候,OpenAI表示每天生成1000亿个单词。这每年超过36万亿个单词,与当前的AI训练数据集规模大致相同。而且这个输出正在迅速增长。总的来说,专家们一致认为,合成数据在存在明确可识别的规则的制度中效果很好,例如国际象棋、数学或计算机编码。

一种人工智能工具alpha geometry成功地通过使用一亿个合成示例和没有人为演示来训练解决几何问题。合成数据已经被用于真实数据有限或存在问题的领域。

这包括医疗数据,因为合成数据没有隐私问题,以及自动驾驶汽车的训练场,因为合成车祸不会伤害任何人。合成数据的问题在于,递归循环可能会强化虚假信息,夸大误解,并普遍降低学习质量。

2023年的一项研究创造了“模型自噬障碍”(MAD)一词来描述人工智能模型如何以这种方式“发疯”。例如,部分在合成数据上训练的面部生成AI模型开始绘制嵌入奇怪哈希标记的面部。另一种策略是放弃“越大越好”的概念。

尽管开发人员继续构建更大的模型并依靠扩展来改进他们的LLM,但许多人正在追求更有效的小型模型,这些模型专注于单个任务。这些模型需要改进的、专业的数据和更好的训练技术。总的来说,人工智能工作已经能够用更少的资源做更多的事情。

2024年的一项研究得出结论,由于算法的改进,LLM实现相同性能所需的计算能力每八个月左右就会减半。这加上专门用于人工智能的计算机芯片和其他硬件改进,为不同地使用计算资源打开了大门。一种策略是让AI模型多次重新阅读其训练数据集。

尽管许多人认为计算机具有完美的记忆力,只需要阅读一次材料,但人工智能系统以统计的方式工作,这意味着重新阅读会提高性能,”斯坦福大学博士生、Data Provenance Initiative成员尼古拉斯·穆宁霍夫说。

在他于2023年在纽约市人工智能公司Hugging Face工作期间发表的一篇论文中,他和他的同事们表明,一个模型从四次重新阅读给定数据集中学到的知识与阅读相同数量的独特数据一样多,尽管此后重新阅读的好处迅速下降。

尽管OpenAI没有披露其LLM-01模型的大小或训练数据集的信息,但该公司强调,该模型采用了新的方法,在强化学习(模型获得其最佳答案反馈的过程)上花费更多时间,并花更多时间思考每个响应。

观察人士表示,该模型将重点从使用海量数据集进行预训练转移到更多地依赖训练和推理。朗普雷说,这为扩展方法增加了一个新的维度,尽管这是一个计算成本高昂的策略。LLM可能已经阅读了大部分互联网内容,不再需要更多数据来变得更聪明。

卡内基梅隆大学研究人工智能安全的研究生安迪·周说,进步可能很快就会通过人工智能的自我反思而来。“现在它拥有一个基础知识库,这可能比任何个人所能拥有的都要多,”周说,“这意味着它只需要坐下来思考。我认为我们可能非常接近这个点了,”周说。

维拉洛博斯认为,所有这些因素,从合成数据到专业数据集,再到重新阅读和自我反思,都会有所帮助。“模型能够自己思考,并能够以各种方式与现实世界互动,这很可能推动着前沿发展,”他说。要阅读更多《自然》杂志的长篇新闻报道,请访问nature.com/news。

The AI revolution is running out of data. What can researchers do? 16:31 Share

Nature Podcast

Deep Dive

Shownotes Transcript

The AI revolution is running out of data. What can researchers do?