We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Prof. Randall Balestriero - LLMs without pretraining and SSL

2025/4/23

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Randall Balestriero

Topics

我进行了一项实验，发现即使从随机初始化开始，大型语言模型也能在小型数据集上很好地学习特定任务，训练稳定且不易过拟合，有时性能可与昂贵的预训练模型相媲美。这引发了我们对预训练成本效益的思考，至少在某些应用中，预训练的优势并不明显。我们还研究了自监督学习和监督学习之间的关系，发现它们在学习表示方面具有理论上的等价性，这使得我们可以将监督学习的理论和经验应用于自监督学习。通过这种联系，我们可以设计出新的自监督学习模型，以处理现实世界数据分布的不平衡性，例如在ImageNet等数据集上表现良好，但在iNaturalist等重尾分布的数据集上表现不佳。此外，我们还研究了地球数据模型中的公平性问题，发现这些模型可能存在偏差，在某些特定位置（如岛屿或沿海地区）的预测精度较差，这可能会对基于这些模型的政策决策产生不利影响。我们发现，这种偏差可能部分源于模型架构和编码位置的方式，例如使用傅里叶基函数进行建模会引入偏差，而使用小波基函数可以提高模型的局部化能力，从而减少偏差。

Deep Dive

Shownotes Transcript

我们启动了这个实验，然后我们非常惊讶地看到，这个参数过多的模型不仅能够开箱即用地进行训练，训练曲线非常漂亮，而且根本不会过度拟合。我们在经验上发现，我们只需开箱即用地使用典型的监督式训练，无需调整超参数优化器，训练过程非常稳定。

所以这就引出了一个问题，花这么多钱收集庞大的预训练数据集，花费数月和许多GPU来生成这些模型是否值得？但至少对于某些应用来说，它似乎并不比随机初始化好多少。

MLST由2forAI Labs赞助。他们是一家位于瑞士的深度学习公司。他们拥有一个令人惊叹的团队。你已经见过团队中的许多成员。他们收购了Minds AI，当然。他们在ARC上做了很多伟大的工作。他们现在正在研究O1风格的模型和推理、思考以及测试时间计算。你想要为他们工作的原因是，你可以获得大量的自主权，获得可见性，可以发表你的研究成果。而且他们也在招聘，除了机器学习工程师，他们还在招聘首席科学家。

他们真的非常希望为这个职位找到最合适的人选，他们准备支付高额的签约奖金。因此，如果你有兴趣作为一名机器学习工程师或他们的首席科学家为他们工作，请联系Benjamin Krusea，访问twoforlabs.ai，看看会发生什么。

最初，主要的动机是想看看通过预训练能获得多少信息。这种下一个标记的预测是否真的能让你的网络学习到关于语言和推理的知识？因此，我们说，至少在经验上，比较这一点的一种方法是，只需取一个随机初始化的模型，在一个监督任务（如情感预测、情感分析）上从头开始训练它，然后在理论上，

因为我们有一个非常非常小的训练数据集，比如说2万个样本，而且这些模型有70亿个参数，预训练的模型在进行少量LoRA微调后会表现得非常好，因为它已经知道如何对世界进行推理，对吧？所以你可能只需要对特定任务进行少量调整

就可以了，但是由于你拥有如此多的预先知识，你将很容易地解决这个问题。但是随机初始化的模型要么会完全过拟合，因为你有70亿个参数，只有2万个训练样本，要么可能根本学不会，因为

训练动态将完全混乱。所以我们启动了这个实验，然后我们非常惊讶地看到，70亿或类似参数过多的模型不仅能够开箱即用地进行训练，训练曲线非常漂亮，几乎就像训练MNIST一样，而且它们根本不会过度拟合。它们的过拟合程度甚至低于你在MNIST上训练MLP的情况。

这非常令人惊讶。基本上，从这一点出发，我们说：“好吧，实际上，可能存在一个更深层次的问题，那就是这些语言模型中存在多少隐含偏差。”因为我们已经从计算机视觉中知道，例如，在ImageNet中，你可以在一百万个数据集上使用一个5000万参数的模型。我们有这个50比1的比例。你拥有防止过度拟合并仅服务于任务的隐含偏差。

但仍然是50比1。对于统计学家来说，这可能听起来很多。但现在是70亿比2万。所以比例是巨大的，对吧？对我来说，非常令人惊讶的是，这种比例的大小仍然

允许你学习一些不会过度拟合的东西。这非常令人惊讶，因为例如在视觉领域，transformer比ResNet更容易过度拟合。至少在视觉领域，它们似乎实际上具有较少的隐含偏差或隐含正则化，但至少对于这种类型的下一个标记因果

架构，LLM来说，你似乎不容易过度拟合你的数据。所以这相当令人惊讶。是的，我们应该提到一下名字。所以这是你在NeurIPS的自我监督学习研讨会上发表的研讨会论文。它被称为“对于感知任务，LLM预训练通过下一个标记预测是否值得成本？”

所以这绝对令人着迷，对吧？所以我们一直相信我们需要拥有这些巨大的预训练模型，它们是在互联网上的所有数据上进行训练的，结果证明，对于判别任务，例如分类而不是生成，实际上你可以从一个相当小的模型开始，从头开始，有时甚至可以得到更好的结果，是的，而且

即使是小型或大型模型。就像你从头开始，你执行这个非常简单的监督分类任务，对吧？好的，给定这个提示，它是正面还是负面情绪？或者提示描述的是什么类型的作业？你知道，这种，我不会称之为推理，但是，是的，更多的是语义分类。结果证明，是的，你从随机开始。

即使你有一个小的训练数据集，你也会获得有时与预训练模型一样好的性能。所以这就引出了一个问题，花这么多钱收集庞大的预训练数据集，花费数月和许多GPU来生成这些模型是否值得？

对于某些情况，对于生成来说，好吧，毫无疑问，这是你需要做的。你进行下一个标记预测，你学习如何生成样本。但至少对于某些应用来说，它似乎并不比随机初始化好多少。所以这很有趣。那么学习到的表示有什么区别呢？所以这是我们没有真正关注的东西，比如你学习到的低维表示。

有可能，一些工作试图从LLM的注意力熵和机械可解释性的角度来看待这个问题。所以看看你是否拥有这种

你知道，神经崩溃现象的发生。所以即使你像70亿个参数一样，你最终也可能学习到一个非常非常简单的子网络来执行任务，有点像彩票假设。这自然地从训练动态中出现。或者它是否真的利用了所有参数？我认为这是一件事。为了将研讨会论文扩展到会议，我们想进一步探究，哪些是有用的参数？他们学到了什么？

每一层是否都在学习一些东西，或者也许前几层并没有真正学习任何东西，只有最后几层在学习一些东西。所以是的，这有很多悬而未决的问题。这告诉我们关于理解甚至智力的本质是什么？因为我们认为这些东西之所以能够理解，是因为它们只是对它们经验中所有这些不同的事物都有所有这些表示。

现在我们可以跳到一个更好的词。这告诉我们什么？-是的，我认为这是一个好问题。在这种情况下，我们必须关注非常具体的分类任务。例如，你有一个工作的描述，是什么工作，是正面还是负面情绪？

这一点，你能够很好地解决它，但你无法超出分布来解决一种新型的问题。例如，对于这个工作描述，你无法回答，好的，这份工作比那份工作付给你更多吗？因为这在训练数据中不存在，对吧？我认为你可以廉价、快速地从随机初始化获得非常好的模型，但它们将非常专业化。我认为拥有预训练的好处可能在于，如果你想做更多类似开放式

分类或推理的事情。所以我认为这真的取决于你想要解决的应用程序类型、你的下游任务以及你希望在多大程度上泛化到新的场景。但至少现在它表明，不仅仅是下一个标记预测的预训练对所有事情都有好处。

所以，我的意思是，回到五年前，数据科学家过去常常构建特定的分类模型来做所有事情。现在我们处于这样一个阶段：我们需要这些非常大的模型，我们进行上下文学习，甚至可能进行一些微调，我们让他们执行相当具体的判别任务。但现在你说我们应该几乎回到五年前的状态，再次开始构建专门的模型。只是现在，而不是构建……

分类模型，我们仍在使用transformer和LLM，但我们让他们执行特定任务。是的，完全正确。我认为如果你只想解决一些特定的任务，使用这种先验知识来拥有一个不错的架构，为此准备一个监督数据集，然后从头开始做。这将可能更好地工作。但同样，你需要确保下游应用程序永远不会

太超出分布。这就是为什么它真的取决于应用程序和你的用例类型。但我认为至少在这里它表明，存在一些任务，下一个标记预测并不是答案。事实上，它不仅不是答案，而且它并不比随机初始化更好，这实际上是最坏的情况。

有趣。我的意思是，从公平性和偏差的角度来看，很多人说，你知道，大型语言模型是不好的，因为北美文化的主导地位等等。但你也可以反驳，那就是它们的好处在于它们确实对价值有一些了解，你知道，所以我们可以对它们进行微调以设置防护栏并说出正确的事情等等。这种方法是否更难做到？是的。在这里，因为你处于完全监督的环境中，

你没有那么大的灵活性来改变模型的行为，或者它必须采取监督微调的形式。但由于你没有生成能力，它肯定会限制你与模型交互的类型以及你可以如何改进它。

因为输出只是，好的，是正面还是负面情绪？它不是给你一个完整的答案，然后你可以尝试反驳并从中生成一个微调数据集。它只是，好的，好，坏，就是这样。另一件事是训练策略。所以，你知道，像构建这些LLM的大型公司一样，他们拥有大量内部化的知识……

甚至你训练语言模型的顺序，一切都很重要。当然，在旧的简单模型时代，你只需要放入大量数据，没有人真正关心。那么现在人们是否需要考虑专门的知识，也许考虑课程学习以及所有这些东西呢？是的，这是一个很好的观点。我们最近发表了一篇名为“公平语言模型悖论”的论文，我们证明，当你进行下一个标记预测时，因为你有一些频率非常低的标记，

很难对它们进行训练，而且需要很长的训练时间。所以这是非常浪费的，对吧？问题是，因为你进行下一个标记预测，你需要真正捕捉到你所有标记的分布，所以你花费了大量时间。但在这种情况下，如果低频标记对解决你的任务没有用，你实际上根本不需要捕捉它。因此，就训练动态而言，这在许多情况下实际上是一个更简单的问题。我们在经验上发现，我们只需

开箱即用地使用典型的监督式训练。我们无需调整超参数优化器，训练过程非常稳定。所以这可能是未来工作中另一个有趣的事情，看看这是否更容易优化，也许这就是为什么这些70亿参数的模型能够学习并且不会在1万个样本上过度拟合的原因。然后它也带来了其他一些东西，也许这本身也可以成为下一个标记预测的更好的初始化

方法。所以这在空中非常开放，但也许你可以考虑一个更简单的监督目标，这将是更好的预训练

解决方案，然后你可以用于下一个标记预测（如果你想的话）。但至少这将是从随机开始的更好的起点。你几乎颠倒了趋势。所以我们讨论了两个极端。在一个极端，我们有预训练，你可以将其用于任何下游任务。在另一个极端，我们有，你知道，你从一个任务开始，从头开始。

有没有中间的解决方案？如果我使用了这种新方法，但用于多任务，比如说五个任务呢？是的，这是一个很好的问题。所以如果你真的仔细考虑一下，你可以将下一个标记预测表述为一个多任务，你希望每个任务预测下一个标记是这个还是不是。所以在极端情况下，你可以在一端恢复下一个标记预测，

另一方面，你拥有我们在这里拥有的东西。只是一个任务，非常粗略，高级别，预测它是正面还是负面情绪，或者其他什么。所以在这两者之间，你有一个你可以利用的巨大范围。如果你能找到，正如你所说，也许五个非常不同的代表性任务，这应该足以或可能足以学习尽可能通用的表示。然后你可以将它用于可能出现的新的任务

所以我认为研究问题是如何设计最少数量的任务，以便你拥有尽可能多样化的表示。当然，我们不想走到仅仅再次进行下一个标记预测的极端。

但这确实是一个非常好的研究问题，因为如果你有这个范围，你可以控制你想要在哪里，那么你就可以真正地进行成对的使用案例选择。所以不是，好吧，你总是在这里或总是那里。告诉我你想做什么，你期望你的模型接触多少新任务，我会告诉你你需要在这个范围内的哪个位置。所以这也可能非常有趣。非常酷。但这确实让我想到，

这些模型是通过朴素的统计对齐来理解的吗？我们使用的基准是否只是没有捕捉到，你知道，从预训练模型转向后我们失去的理解差距没有被捕捉到？是的，我认为尤其是在最近几年，我们非常关注生成解码器专用方法。我们给自己设定的所有评估和目标类型实际上都是关于良好的生成，对吧？

即使你想回答一个问题，你也需要生成一个好的解释。你需要了解中间步骤是什么。我认为我们关注生成模型这一事实意味着我们完全偏向于评估和我们处理这件事的方式。也许你仍然可以拥有学习到的知识，而无需生成任何东西。所以我认为这也是一个值得关注或至少需要记住的事情

当我们探索这些模型时。但从哲学上讲，生成在某种意义上是否类似于思考？所以不会生成模型，它们在某种程度上是不是更聪明？你可能想做的是想象一下可能是什么，但我认为你不想用非常细致的细节（如下一个标记生成）来进行生成。因为如果你仔细想想，即使只是就分类任务而言，

你有很多不同的不确定性，这取决于标记。如果我开始这句话，好吧，我看这部电影看了几分钟，你无法知道四之后下一个标记是什么，对吧？所以这意味着你知道，先验地，它将像一个时间，

也许是1小时10分钟，2小时。但我们需要能够生成52分钟或任何答案才能真正理解我正在看电影，因此我至少待在一个地方超过5秒钟，对吧？所以我认为标记太细粒度了。

如果你可能有概念标记，那就是你可以开始看到的地方，好的，这是有意义的，因为这更接近我们可能做的事情。但现在我们处于非常非常低级的水平，因为标记化是无损压缩，对吧？所以这太接近原始数据了。然而，与计算机视觉相比，我们的生活更容易，因为你已经在语言中工作，这是知识的非常压缩的表示，但标记可能仍然太低级了。

好吧，这是一篇引人入胜的论文。让我们继续你的下一篇文章。所以自我监督学习和监督理论的诞生，那是与Yann LeCun一起的。基本上你说自我监督学习和监督学习之间观察到的差异不是由于损失函数本身，而是由于训练中使用的数据集的标记。给我们一个电梯演讲。是的。所以基本上我们在本文中展示的是，你可以有一个监督目标，比如让我们简单地说最小二乘法。

所以你有输入，你有你网络的预测，你有标签。你可以将这个试图将样本Xn预测为预测Yn的目标转换为一个自我监督学习目标，该目标试图将样本彼此进行比较。所以基本上，你从说，好的，这张图是一辆车或一条狗，变成了说，这两张图是否相同，这是自我监督类型的联合嵌入世界。

所以你可以证明，如果你有标签或你了解这种成对关系，它们实际上学习的是相同的表示，直到某些对称性（如果你进行线性探测则无关紧要）。损失函数本身，SSL损失函数或监督损失函数，试图做同样的事情。它们只是对标记的不同视图进行操作。

这张图是那个，还是这两张图或两个样本代表相同的事物。所以鉴于此，下一个问题是为什么自我监督学习能够比监督学习更好地泛化？从这个角度来看，你可以说这是因为这就像他们在解决一个监督任务，其中标签不是关于将所有汽车预测为汽车，而是非常非常细粒度的标签，在极限情况下，每张图都是它自己的类别，基本上。

所以如果你考虑在这种极端情况下进行监督学习，你也不会过度拟合任务，因为你不会将任何图像折叠到另一个图像。所以从理论上讲，你可以根据需要解决许多下游任务。所以损失的这种等价性至少为这样一个事实带来了一个新的视角，即这并不是真正关于目标的问题。更多的是关于你如何设计SSL管道。你说，好的，这个样本与这个样本相关，但并不是目标让你学习更好的表示。好的，在论文中你谈到了SSL如何最大化最坏情况下的下游任务性能。你能概述一下吗？是的，所以基本上，如果你考虑所有可能的在下游任务实现，你可能会有一些非常粗略的。我们可能有汽车和公共汽车的不同图片，你只想说，“好的，这是一辆汽车或一辆公共汽车，”所以不需要编码细节来解决这个问题。但随后你可以进行下游任务，你想要说，“好的，这是什么品牌的汽车，或者是什么颜色的汽车？”所以你有一个下游任务的分布，对吧？

所以现在的问题是，你想学习这种表示，这样如果你查看下游任务性能的分布，你就能在大多数任务上尽可能好。所以你不想在某些任务上表现得非常好，然后在尾部，你在大多数任务上表现得很差

。所以从这一点出发，你可以尝试说，好的，什么样的标记试图使你的最坏情况尽可能好？从这一点出发，你可以说，好的，这实际上是自我监督隐式地

所做的。类平衡如何影响损失的差异？哦，是的，这实际上是一个非常好的观点。在我们现在正在进行的一篇后续论文中，我们表明当前的SSL目标假设类平衡。这是我们在几年前发表的“将SSL监督作为统一聚类先验”论文中已经快速强调过的事情。我们表明，当前的SSL目标假设类或概念的平衡表示

这意味着如果你在ImageNet上进行训练，事情会进展得非常好，因为概念大致是平等表示的。但如果你转到其他数据集，如iNaturalist，它们是重尾的，那么你的表示就会有很大的偏差。所以直到现在，人们实际上并不知道如何解决这个问题。所以一种方法……

人们的做法是通过数据管理。他们说，好的，我只是要删除过采样的概念，以使其更均匀。然后我在此基础上进行自我监督学习。但因为现在我们有了这个理论公式和损失的等价性，我们可以使用人们在监督学习中使用的完全相同的设置来重新加权，这取决于类的频率，

我们可以用它来提出一个新的自我监督学习损失，它考虑了这种不平衡。这种类型的事情是由这个数学公式及其原理实现的。所以我们进行这种加权的方式，你可以证明这是正确的方法，至少是从这个监督理论的角度来看。

所以这真的很好，因为突然从这种看似天真的联系中，你现在可以提出新一代的自我监督学习模型，你实际上可以匹配现实世界的数据分布。

非均匀分布的类。即使你有一些样本比其他样本更嘈杂，你也可以将这些信息作为SSL目标的一部分包含在内。所以你突然有了全新的可能性，因为存在这种联系，你实际上可以证明，好的，这是正确的方法，至少是从这个监督理论的角度来看。你还指出了与vCreg的联系。

完全正确。所以基本上，我们在论文中所做的是，我们表明如果你有一个最小二乘监督类型的目标，并且你将其转换为SSL1，你所获得的基本上就是V-Creg。然后你有一些变化。它可能是V-Creg或WMSE，这取决于你如何从

监督到SSL，但你可以证明，根据监督损失的类型，你会恢复不同类型的SSL损失。如果你可能更多地关注交叉熵，监督学习将更像是一种SIEMCLR类型的损失，但你有一一对应的关系。这也非常好，因为在监督学习中，至少你知道与另一个相比，何时可能更喜欢一个损失。这已经被研究了很长时间了，对吧？因为监督学习已经存在很久了。所以现在我们可以重用这些见解

用于自我监督学习。所以对我来说，这也是一件非常非常大的好处，那就是突然所有在监督学习中完成的理论和论文，我们都可以拿来并应用于SSL。例如，神经崩溃，例如，已经在监督环境中得到证明。现在它也适用于

SSL环境中的五行代码。所以这种联系不仅仅是试图说，好的，并不是目标使SSL更好。它实际上是将这两个

巨大的社区联系在一起，朝着拥有单一统一目标来学习表示的目标前进。这也很好，因为如果你与人们交谈，他们会认为，好的，你有一方面是监督学习，另一方面是SSL，基本上你是在一个阵营或另一个阵营中。但现在我们所展示的是，你实际上，SSL是

表示学习中几乎所有内容，而监督学习只是SSL的一种实现。然后没有标签的V-CREG是另一种。然后这个是另一种。所以你真的对这种关系以及表示学习试图做什么有了更好的理解。

银河大脑问题即将到来。你能以某种方式结合SSL和监督目标来提高泛化能力吗？是的，是的。有一篇论文是监督对比学习。他们这样做的方法是在SIEMCLR框架内使用标签，基本上进行完全监督学习，但使用SIEMCLR目标。

所以首先，我们可以证明这确实有意义，并且基本上我们可以解释他们所获得的经验结果。但实际上，我们可以做得更多。所以如果你处于半监督环境中，例如，可能不清楚如何再结合这两个损失了。或者你可能会说，好的，我有这两个，我有一个系数来加权它们。但随后你需要进行交叉验证等等。但现在从这个角度来看，

你可以以一种非常有原则的方式将它们结合起来，你可以理解根据你在一个或另一个中拥有多少样本，哪种加权是有意义的。你也可以再次使用监督学习的所有文献来进行这种设置。所以这也是你可以用这种公式很容易做到的事情。好的，所以如果SSL和监督学习是同一枚硬币的两面，我的意思是，当然，我们可以使用这个理论框架来设计新的SSL框架形式，但是

如果它们是同一件事，那么这种区别是否相关？我认为这不仅仅是同一枚硬币的两面。SSL比监督学习更通用。所以它确实是SSL，它可能是学习表示的更通用的目标。你拥有的先验知识越多，你对下游任务了解越多，你对标签了解越多，那么SSL

就会通过你用于SSL目标的标签逐渐变成监督学习。但正如你所说，因为你现在有了这种层次结构，说你既有监督学习又有SSL实际上并没有意义。相反，有意义的是说，好的，这个关系矩阵是什么？这个成对矩阵是什么？如果你从标签构建它，那就是监督学习。如果你从其他先验知识构建它，例如视频中的两个连续帧，

基本上具有相同的类别，那么您就更处于无监督的 SSL 设置中。但这都是关于如何构建这个成对关系矩阵的问题？这是主要问题。非常酷。好的，让我们继续下一个论文。所以，“不让任何地方掉队：衡量和改进地球数据隐式表示的公平性”。因此，现在有很多模型框架可以对地球地理空间数据进行这些隐式神经表示。例如，气候建模、资源分配、环境建模。

我昨天实际上采访了来自 NXAI 的 Johannes。我不知道你是否认识他，但他正在从事类似的工作。问题是你已经研究过这个问题，你发现有很多偏差和公平问题。是的，完全正确。所以基本上我们展示的是，当你想要模拟，例如，让我们说温度或降水来简化它，并且你想学习，例如，隐式神经表示，这意味着你想要一个模型，这样如果你给出一个位置和一个日期，例如，它可以预测那里的温度是多少。

所以，如果你有这种类型的隐式神经表示，那就非常好，因为如果你学习了一个不错的模型，那么你实际上可以内插这些值。所以也许可以估计地球上你没有传感器的那部分的温度是多少。但你也可以进行外推。如果你假设你真的学习了世界的真实物理模型，你可以开始说，好吧，两年后的温度是多少。

所以拥有这种类型的模型对于各种应用来说都非常好。问题是，现在这样做，取决于你所做的架构和不同的设计选择，你的平均预测可能非常好。所以当你查看全球平均性能时。但实际上，如果你查看，例如，岛屿或沿海地区，你的预测将会非常糟糕，几乎是随机的。

所以这可能是非常令人担忧的事情，因为如果你使用这种类型的模型来决定一项将影响特定岛屿的政策，那么使用这种模型预测与使用随机猜测一样好。所以它可能非常有害，人们需要意识到这些偏差。所以我们发现，例如，对于这种类型的气候数据，岛屿经常被忽略，沿海地区，基本上是你试图模拟的气候类型存在巨大梯度的区域

你试图模拟的数据的动态在岛屿附近更难

或者它甚至可能是不可预测的，因为你没有足够的观察来做到这一点。所以你有一些不确定性，你可能永远无法从好的设计中恢复过来。但我们在这里发现的是，现在很多

偏差来自架构，以及你想要用来编码这些位置的所有内容，你用来进行预测的基础类型。所以现在看来，很大一部分偏差来自架构。但我完全同意，我认为我们不能完全消除偏差，因为地球上不同地方可能只是存在不同类型的不确定性。

我的意思是，世界是一个非常非常复杂的地方。我的意思是，从现实的角度来看，我们在多大程度上可以用数学方法对其进行建模？是的，这是一个很好的问题。我认为这取决于你拥有的视野类型和你想要建模的数据类型。如果你有一个更加混沌的系统，或者可以在没有太多过去观察变化的情况下快速变化，那么当前的模型很难处理这种情况。如果你想预测其他东西，例如温度，

在北美，而不是靠近沿海地区，所以真的是内陆地区。也许这就是为什么我们有较少的梯度动态，事物在空间和时间上都比较稳定，所以它会变得更好。但我认为在这一点上，我们还没有一个能够理解你在全球不同地区有不同的物理、不同的动力学模型的架构。

因此，由于这一点，你只会看到平均情况下最好的情况，这意味着你错过了很多细节。你能告诉我们一些技术框架吗？例如，我们至少为这种类型的全球数据表示展示了一件事，那就是人们使用傅里叶基来模拟预测。这比根本不使用任何基要好。但这意味着你暗示你预测的信号类型非常平稳，根本没有局部化。

这是一个非常强的先验，对吧？所以这对于某些事情可能是正确的，但对于其他事情，例如降水或温度，你会有局部非常高的梯度，那么这是一个强烈的偏差。如果你来自信号处理社区，你非常清楚，为了获得更好的局部化，你需要从傅里叶变换到小波变换。所以这就是我们在本文中所做的一件事。我们证明使用小波基来编码这些

数据允许你拥有更好的局部化，这消除了一些偏差。在这里，它更像是一个概念证明，不同的设计选择会给你不同类型的偏差权衡。我们没有让它回答所有问题，对吧？但我认为下一步是真正能够编码越来越少，先验地，使用哪个基，并让模型自己从数据中学习。

对于这种类型的气候数据，我们还没有达到这一点。它如何处理噪声或缺失数据？这实际上取决于你使用的模型类型。例如，如果你有 INR，那么你不会将缺失数据作为训练管道的一部分。这是它们的好处之一。所以如果你的一个传感器在某些年份停止记录，你只需要不将其作为训练数据的一部分，因为你真正控制的是你拥有数据的位置以及你拥有数据的时间，预测应该是什么。

所以这些地球模型现在正在影响全世界的政策。我们应该让谁负责？是技术吗？是设计模型的科学家吗？是解读结果的政策制定者吗？我认为对于设计模型的人来说，事先知道它将被用于什么用途是非常困难的。

所以我认为当你清楚地知道你想用它做什么时，它更多的是下游的。你应该首先建立一个良好的评估管道，以确保它实际上可以用来做出这些决定。然后你可以报告你观察到的任何类型的故障模式，以便人们改进设计。但事先，很难想象这个模型将被用于什么用途。所以在理想情况下，你希望根本没有偏差，但在实践中，

可能性世界如此之大，它需要更多的是一个反馈循环，然后迭代，直到你拥有真正可以信任的东西，然后你可以采取行动。地球建模数据是非常以人为中心的，对吧？所以，你知道，我们关注的是人口等等。我们是否也应该关注，你知道，像生态系统和与人类无关的地方？哦，是的，这是一个很好的问题。事实上，这是许多数据科学的一个大问题

集，这是一个众包集，因为根据定义，你获得的数据量与你根据位置拥有的用户数量成正比。这意味着你的模型学习的内容和你的模型关注的内容存在巨大的偏差，这意味着你错过了很多东西。我认为这也是一件事，好吧，众包可以让你快速获得大量数据，但它是非常有偏差的数据。

那么问题是，多少这种有偏差的数据与可能付出更多代价并捕捉地球其他部分的数据相比，你应该有多少？也许你能够证明，在某些特定条件下，只有 10% 的数据是高质量的、均匀采样的，然后 90% 是众包的。你可以尝试使用这 10% 来锚定你的表示，然后一起使用所有这些数据。但在这方面有大量的研究问题

因为这是一个非常大的偏差来源。这是一个政策问题，但我们正在使用这些东西来进行资源分配，对吧？所以给某些人口提供更多资源可能意味着从其他人那里拿走资源。然后还有随着时间的推移的公平性问题，那就是现在公平的可能在 100 年后不公平。我们应该如何考虑这个问题？是的，这是一个很好的问题。我认为这也非常……

特定于应用程序。例如，如果你想预测在哪里建房子来解决某个特定问题，也许你并不介意在根本没有人口的地方进行糟糕的预测，因为你不会在那里建房子。所以，在这种情况下，也许众包类型的数据实际上是好的，但这可能真的取决于应用程序的类型。我只想说一句关于你之前提出的观点，这种类型的偏差实际上是你可以在计算机视觉中看到的。所以，有一篇非常好的

马克·易卜拉欣做的论文。基本上，他们表明我们从 ImageNet 获得的大部分数据来自北美。所以也许你可以达到 90% 的最先进性能来预测，例如，椅子、汽车的类型，但仅限于北美模型。

当你开始查看中非或东亚的汽车或椅子的类型时，模型的性能突然变得非常糟糕。这种类型的问题是你跨模态都会遇到的问题，这是一个非常非常大的问题。Randall，很高兴也很荣幸能邀请你参加节目。非常感谢你。同样，同样。非常感谢你。谢谢。

Prof. Randall Balestriero - LLMs without pretraining and SSL 34:30 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

Prof. Randall Balestriero - LLMs without pretraining and SSL