We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The AI revolution is running out of data. What can researchers do?

The AI revolution is running out of data. What can researchers do?

2025/1/31
logo of podcast Nature Podcast

Nature Podcast

AI Deep Dive AI Chapters Transcript
People
A
Andy Zhou
F
Fei-Fei Li
J
Jan LeCun
N
Nicholas Muninkhoff
P
Pablo Villalobos
S
Shane Longbrey
Topics
Benjamin Thompson: 本文探讨了人工智能革命面临的数据短缺问题。互联网数据并非无限,人工智能研究人员已经接近耗尽可用的数据资源。大型语言模型(LLM)的训练依赖于海量数据,但数据增长速度远低于AI模型训练数据集的增长速度。内容提供商也开始限制数据访问,这加剧了数据短缺问题。 一些专家预测,到2028年左右,用于训练AI模型的典型数据集规模将达到估计的公共在线文本总量的规模。数据短缺可能会导致AI发展速度放缓,并迫使人们改变生成式AI模型的类型,从大型通用LLM转向更小、更专业的模型。 Shane Longbrey: 数据所有者(如报社出版商)正在加强对内容使用的限制,导致数据共享资源危机。训练数据的瓶颈即将到来,甚至可能已经开始影响AI发展。如果法院支持内容提供商应获得经济补偿的观点,这将使AI开发者和研究人员(包括资金有限的学者)更难获得所需数据。仅仅增加模型的计算能力或参数数量而不增加训练数据,会使AI变得缓慢且昂贵。 Pablo Villalobos: 大型AI公司可能并没有因为数据短缺而恐慌。专有内容(如社交媒体数据)可能只包含大约另一个千万亿个文本标记,即使获得了所有这些数据,也最多只能将数据瓶颈延迟一年半。目前尚不清楚专业数据集对训练LLM的可用性和有效性。不同类型的数据之间存在一定的迁移学习,但这种方法的有效性有限。多种因素(合成数据、专业数据集、重新阅读和自我反思)将共同推动AI发展。 Fei-Fei Li: 关注专业数据集(如天文或基因组数据)是解决数据短缺问题的一种策略,这些数据正在快速增长。担忧数据耗尽的观点过于狭隘,忽略了医疗保健、环境和教育等领域中未开发的信息。 Jan LeCun: 仅仅依靠语言训练无法达到人类水平的AI,需要利用其他数据类型,例如机器人通过感官经验学习。 Nicholas Muninkhoff: 让AI模型多次重新阅读训练数据集可以提高性能。模型多次重新阅读数据集的效果与阅读相同数量的独特数据的效果一样好。 Andy Zhou: AI的自我反思可能会带来未来的进步。AI已经拥有比任何个人都更强大的知识基础,它只需要进行思考。

Deep Dive

Shownotes Transcript

The explosive improvement in artificial intelligence (AI) technology has largely been driven by making neural networks bigger and training them on more data. But experts suggest that the developers of these systems may soon run out of data to train their models. As a result, teams are taking new approaches, such as searching for other unconventional data sources, or generating new data to train their AIs.

This is an audio version of our Feature: The AI revolution is running out of data. What can researchers do?) Hosted on Acast. See acast.com/privacy) for more information.