We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

OpenAI's "Scaling Laws for Autoregressive Generative Modeling"

2020/11/8

Last Week in AI

AI Deep Dive AI Chapters Transcript

People

Tom Henighan

Topics

Tom Henighan: 本文研究了自回归生成模型的性能如何随着模型规模、数据集大小和计算量的变化而变化。研究发现，在没有其他因素限制的情况下，测试损失随着这三个因素的增加而呈幂律加常数偏移的趋势下降。常数项代表数据的真实熵，即完美模型所能达到的最低不确定性；幂律部分代表可减少的损失，即模型与真实数据分布之间的KL散度。可减少的损失是衡量模型逼近真实数据分布程度的重要指标。对于给定的计算预算，存在一个最佳模型大小，它能够在损失显著下降之前达到收敛性能。最佳模型大小与计算预算之间呈幂律关系，并且在不同领域中幂律指数惊人地相似。即使在达到生成模型的不可减少损失之后，用于ImageNet分类的微调模型的分类损失仍然会随着模型大小的增加而呈幂律下降，这表明关注可减少损失比关注总损失更重要。更大的预训练模型在微调时效率更高，需要更少的数据就能取得更好的结果。虽然更大的模型在样本效率方面表现更好，但在推理阶段的成本也更高，因此需要权衡训练成本和推理成本。对于图像数据，损失与数据集大小的关系并非总是呈幂律关系，在一定范围内呈线性关系，之后会趋于平缓，这可能是由于模型过拟合造成的。未来的研究方向包括研究模型剪枝对幂律关系的影响，以及将研究扩展到其他架构（如卷积神经网络）和模型类型。 Andrey Kurnikov: (问题引导，未形成核心论点)

Deep Dive

Chapters

The paper focuses on understanding trends in performance across various domains by examining the relationship between loss and factors like data set size, compute, and model size.

Shownotes Transcript

订阅：RSS | iTunes | Spotify | YouTube

主题：深思熟虑 Kevin MacLeod (incompetech.com)

<raw_text>0 你好，欢迎收听SkyNet Today的“让我们谈谈AI”播客，在这里你可以听到AI研究人员关于AI实际情况和哪些只是点击诱饵标题的讨论。我是Andrey Kurnikov，斯坦福视觉与学习实验室的三年级博士生，也是本集的主持人。在这一访谈集中，你将听到Tom Hannigan的声音，他是OpenAI技术团队的一员，致力于安全团队。

Tom与Jared Coplin、Moore Katz等人共同提出了最近的论文《自回归生成建模的缩放法则》。他在斯坦福物理系完成了博士学位，研究原子运动和固体，导师是David Rees。非常感谢你，Tom，抽出时间参加这一集。谢谢你邀请我。很高兴来到这里。

所以我们的重点将放在你的论文上，你与OpenAI的许多人一起撰写的论文，你可以直接说，《自回归生成建模的缩放法则》，这篇论文几周前刚刚发布。跟进OpenAI的几篇其他论文，包括著名介绍GPT-3的《少样本学习的语言模型》，以及今年发布的《神经语言模型的缩放法则》。

在我们深入任何细节之前，能否请你提供一下这篇论文的摘要，以及它的主要结论是什么？

是的。所以，我认为机器学习领域的很多工作都集中在获得最先进的结果上。因此，人们试图找到调整事物的方法，以提高损失准确性或他们选择的任何指标，以获得新的最先进结果。这种情况往往发生在学习的边缘。

技术进步或可能性，使模型稍微变大，增加一点数据，这些事情。因此，我认为我将其视为一种尝试，工作的重点是试图放大视野，看看，好的，你知道，性能趋势是什么样的？不是说我只是增加数据集，或者让事情变得更好。

两倍大甚至十倍大。但如果我看一下，比如说五个数量级的东西呢？那里是否存在某种宏观趋势，可能是有启发性的？令人惊讶的是，我们发现，在测量测试损失的情况下，

似乎测试损失作为数据集大小或你在训练中投入的计算量或模型大小的函数显著增加。

或者损失以幂律加常数偏移的趋势下降，只要你没有被其他两个瓶颈限制。因此，例如，如果你有大量数据并且有很多计算能力，所以你可以训练到收敛，损失作为模型大小的函数似乎是幂律加常数偏移，对于变压器来说。

我们首先在语言中看到了这一点，正如你在我们的论文《神经语言模型的神经缩放法则》中提到的。但这篇论文的重点是看看这是否可以推广到其他领域。似乎确实如此。

我明白了。是的，谢谢你提供的精彩总结。是的，我刚刚看了一下图一。正如你所说，这里的想法是你对几种不同类型的模型进行此操作。因此，我认为你对图像、语言、文本到图像任务、图像到文本、视频进行了此操作。

如果我理解正确的话，你有相同类型的架构，即变压器架构，这也是GPT-3的基础。因此，你应用相同的模型，执行相同的任务，使用相同的交叉熵损失。因此，在不同类型的数据中使用相同的常数，你得到了这种平行关系，基本上是在说

当你改变这些变量之一，比如说计算时，每增加一个数量级，你会看到损失以某种线性方式减少。这是对主要结果的正确描述吗？是的。所以我想我会说...

如果你将计算增加10倍，你总是会看到损失的相同分数减少。但这个分数减少的大小，无论是50%还是30%或其他什么，顺便说一下，我随便举的数字，可能不是实际的数字。这取决于领域。因此，这是一个问题。

幂律关系，所以在对数-对数图上看起来是线性的。只是为了准确起见，我知道这有点挑剔，但就是要把它弄对。当然，是的，获取细节很重要。也许现在我们可以深入一些细节。因此，在描述结果时，你还有一个相当有趣的可约损失和不可约损失的概念。因此，这种幂律关系，我认为主要结果是针对可约损失的。

所以你能试着向听众解释一下这些可约损失和不可约损失是什么，以及你是如何得到这些的吗？是的。所以我们发现损失与计算或模型大小或数据集大小之间的关系，无论是哪三者，都是幂律加常数偏移拟合。因此，对于那些熟悉...

信息理论的人来说，实际上有一些非常好的解释，表明这个幂律加常数拟合中的常数。因此，当你接近无限数据、无限计算、无限模型大小时，你所接近的值是你试图建模的数据的真实熵。

这是一种最佳、最低不确定性，完美模型可以达到的那种数据。

而幂律成分，所以你有一个常数，那就是常数。额外的幂律成分是所谓的可约损失，它是可以学习的损失成分。它实际上代表了模型的数据分布与真实数据分布之间的KL散度，即Kullback-Leibler散度。

我明白了。所以如果我理解正确，基本上是在说不可约损失是即使你有一个完美的模型，可以完美地从训练集中学习，由于数据的性质，它也无法达到零损失，因为存在某种内在的随机性，你永远无法克服它。因此，你可以在某种程度上找到这种不可约损失，并且这成为了你平行关系的常数偏移。

在图表上，有一条线，呈对数-对数线性。因此你在绘制的是不可约损失，抱歉，可约损失，它

不包括这种无法摆脱的不可约损失。对吗？完全正确。我们所建议的是，也许可约损失才是真正重要的量。它在告诉你你离建模数据的真实分布有多近。

是的，如果我可以给出一个我有时思考不可约损失的轶事。假设语言的任务。在这种情况下，这些是自回归变压器。因此，你只是试图预测下一个单词会是什么。

如果我读了一本谋杀悬疑小说的第一章，世界上没有人可以100%确定地说他们知道谁是凶手，他们知道是普拉姆教授在书房里用烛台。对于谁是可能的凶手，他们会有某种概率分布，并且

对于你能多么准确地进行预测，存在某种内在的限制。抱歉，存在对你能多么准确地进行预测的限制。因此，这代表了不可约损失。因此，这种情况就像是无法做到更好。因此，也许我们应该关注的真正重要的指标是可以学习的损失成分。因此，可约损失。

很好。是的，希望这对读者来说清晰。我认为这对我来说很有意义。再深入一点细节，我认为你有几个主要的量或定量结果。这些是损失作为模型大小的函数，损失作为计算的函数。然后你还有一些我认为相当有趣的东西，

即最佳模型大小作为计算的函数，我认为你称之为opt C，对于给定的计算预算找到最佳模型大小。你还展示了这个最佳模型大小可以准确地建模为纯幂律。因此，你能否告诉我们更多关于这些不同量以及它们的一致性的信息？是的，那里有什么让你感到兴奋的事情？

是的。首先，简要描述一下我们所说的给定计算预算的最佳模型大小。你可以想象，如果你使用一个非常小的模型并投入大量计算，因此你训练它很长时间，损失只会下降到一定程度，因为你的模型容量有限，小模型只能学习到一定程度。

但相反，如果你使用一个极大的模型并投入相同的计算预算，你可能只能进行一步，因为你有太多参数，需要进行...

太多浮点运算，以至于你只能查看一批数据。很难想象一个模型仅通过查看一批数据就能学到很多东西。因此，对于给定的计算预算，存在某种金发女孩区域，在这个金发女孩选择的模型大小中，

你能够查看足够的数据，以使损失显著下降，但这在损失开始平稳并渐近接近无论收敛性能将是什么之前。因此，你可以使用这些结果提取出这一点，再次针对仅解码器的变压器和这些不同领域，图像、视频、数学、语言，

令人惊讶的是，最佳模型大小作为计算预算的函数似乎是一个幂律。不仅如此，而且所有这些看似不同的领域的幂律惊人地相似。所有领域的指数大约在0.7左右。现在，当我说相似时，我的意思是，有些领域，实际值可能相差一个数量级。因此，是的。

但是当你在对数-对数图上查看时，这些线似乎几乎重叠在一起，这让我感到非常惊讶。它似乎想告诉我们一些我们尚未完全理解的理论东西，我认为这很令人兴奋。确实。看到这些跨不同数据类型的趋势非常有趣，我想这就是论文的整个令人兴奋之处。

接下来稍微具体一点的细节，我发现很有趣。你在论文中提到，当生成图像模型为ImageNet分类进行微调时，你发现分类损失与模型大小之间存在平行关系。

因此，基本上是在说，如果你将模型大小增加10倍，你会得到一些分数减少，分类损失始终减少10%或20%，这非常酷。你基本上可以做得越来越好。但这里的一个细节是，即使超越了接近生成建模的不可约损失的模型大小，这种情况也会发生。因此，你可以超越那个。

生成建模的损失。在这里你还说，你得出的结论是，接近不可约损失并不一定表明表示质量或语义内容的收益递减，这很有趣。因此，如果我理解正确，重点是你可能会将幂律解释为收益递减。基本上，你

随着你增加10倍，因此你从百万到十亿到万亿，每次都获得相同的回报，对吧？这可能是坏事，因为这意味着一旦你达到十亿，达到万亿再获得10%就非常困难。

那么你能否多谈谈这个ImageNet分类以及这是否表明收益递减的问题？是的。因此，我认为对我来说，这与那个幂律加常数方程中的常数有关，

正如我们之前所说的，正对应于不可约损失。因此，如果你在查看可约损失，那么你所说的就是真的。每次你将计算或模型大小或其他任何东西增加10倍时，可能会将损失再减少10%或20%或其他什么。

但实际上，当你有幂律加常数偏移拟合时，即使那个分数回报也开始减少，因为你开始接近不可约损失并渐近接近它。因此，可能是你将模型大小增加100倍或10倍，损失仅减少，可能是1%或0.1%。

因此，从这一点来看，如果你没有查看这些宏观趋势，你可能会得出结论，哦，好吧，随着我增加模型大小，我的损失并没有下降很多。因此，我认为我的模型并没有真正变得更好。我的下游任务性能也可能没有改善。但实际上，情况并非如此。

正如我们在这里看到的，当我们为分类目标进行微调时，性能继续以平滑的幂律方式改善，无论是分类损失还是分类错误率。

因此，我认为这再次表明，也许重要的量不是总损失，而是具体的可约损失。因为如果你做了同样的趋势，但你查看的是总损失，而不是可约损失，抱歉，不可约损失，你会看到它始终以每十年10%的速度减少。因此，这可能是更好的指标，表明你应该期待什么样的下游任务性能。

是的。是的，我特别对情感分类感兴趣，因为这是一个我们可以专注于的相当具体的任务。你知道，在某种程度上，你可以说这很重要，产品等等已经很重要。

ImageNet分类，对于那些不知道的人来说，是图像分类，说明这张图像中有什么。许多在线API存在以执行此操作。因此，我想象提供这些API的公司关心性能，并希望尽可能做好。

因此，看到你有这种幂律，随着模型的增加，分类也以某种一致的数字改善，这非常有趣。此外，我认为你在这里还有更有趣的结果。因此，你有一些其他人也在某种程度上展示过的东西，我认为，随着你去更大更大的模型，

在这里你是在这个生成任务上进行预训练以学习表示。然后你为分类进行微调，你发现更大的预训练模型微调速度显著更快。因此，你需要查看更少的数据以获得更好的结果。因此，是的，从某种意义上说，优化更大的模型更容易。它们实际上随着时间的推移表现得更好。

因此，是的，我想知道你是否可以强调一些结果，从程序的角度来看，从想要的操作角度来看，如果你正在构建一个产品，如果你正在构建一个神经网络来执行某些任务，我认为这是一个看起来很有趣的结果，即优化更大的模型更容易。也许对于ImageNet，你只需变得更大。还有其他类似的结果吗，从这个角度来看，你认为

你可以强调的？是的。因此，我想我会首先补充说，我们在这里只做了解码器-仅变压器。在许多这些问题中，这可能不是最佳架构，当然语言是个例外。变压器在

你知道，也许不是最佳的，解码器仅变压器，显然还有其他东西，比如BERT和那些东西，但在那方面的某些东西似乎在语言上效果很好，但对于生成图像建模，解码器仅变压器可能不是最佳的架构。在，

我们之前关于语言建模的神经缩放法则的论文中，我们比较了变压器和LSTM的趋势。我认为这很有启发性，因为如果你查看损失作为模型大小的函数，它们似乎在幂律中大致具有相同的指数，但...

LSTM在幂律前面有一个不同的乘法常数。因此，在对数-对数图上，它们是平行线，但在每个点上，LSTM的损失都高于变压器。因此，看看是否...

<context>OpenAI的“自回归生成建模的缩放法则”

订阅：RSS | iTunes | Spotify | YouTube

主题：深思熟虑 Kevin MacLeod (incompetech.com)

<raw_text>0 所以，这意味着，令人惊讶的是两个指数是相同的，但自然地，另一个自然的问题是，如果我们使用比仅解码器的变换器更自然的东西来进行生成图像建模，比如PixelCNN或类似的东西，它是否会有相同的指数并以相同的方式偏移？我对此非常好奇。没错。我实际上接下来想问你的是，你是否考虑过转向其他架构，比如卷积神经网络，

很高兴听到这对你来说也是显而易见的下一步。

是的，绝对如此。我想这几乎就是我想问的所有问题。论文中有很多有趣的细节。所以再次提到标题是《自回归生成建模的缩放损失》。你可以在archive上找到它，自己看看。尽管有一点技术性，但它相当易读。我认为经验结果相当容易理解。

嗯，还有什么其他你想提到或强调的论文内容我们还没有涉及到吗？是的，我认为这些是主要的内容。我想我会呼应你刚才所说的，这篇论文主要集中在经验结果上。你知道，我们确实对如何解释其中一些结果做了一些推测。我对，

其他人追求与此相关的理论工作感到兴奋，想出一些为什么所有这些事情可能是幂律的想法。我的同事Jared，以及他的一个学生一直在努力，试图为此提供一种理论，作为一种

对为什么会这样的一种初步理论。但我认为还有很多更有趣的东西可以追求，不仅在这条经验工作线上，还可以看看我们是否能从中提取一些理论理解，我对此感到兴奋。绝对是的。是的，这将会非常令人兴奋。好吧，在这种情况下，我认为我们对论文有了相当好的概述。非常感谢你今天加入我们，Tom。

是的，谢谢。这是我的荣幸。非常感谢你们，听众，感谢你们收听本期Scan Today的“让我们谈谈AI”播客。你可以在scantoday.com找到与我们今天讨论的主题类似的文章，并订阅我们的每周通讯。在你获取播客的地方订阅我们，如果你喜欢这个节目，请不要忘记给我们留下评分。一定要收听我们未来的节目。

OpenAI's "Scaling Laws for Autoregressive Generative Modeling" 33:15 Share

Last Week in AI

Deep Dive

Shownotes Transcript

OpenAI's "Scaling Laws for Autoregressive Generative Modeling"