所以基本上,在训练的早期阶段,训练精度或训练指标(它可以是精度以外的其他指标)会增长,然后开始趋于平稳。所以你会认为,好吧,训练完成了,但实际上测试指标仍然没有达到高点。所以如果你实际上比通常情况下训练更长时间,那么尽管训练指标仍然保持平稳,但测试指标会突然开始
增加,你的网络将开始组合它的权重,以便它可以对测试样本进行外推。所以基本上,高级总结是,在一些非常具体的设置、具体的任务、具体的模型、具体的权重初始化中观察到了 groping 现象。
在这里,我们试图研究更一般的设置,并尝试查看是否发生了相同的延迟属性出现。事实证明,就训练和测试精度而言,这种情况并没有发生,对吧?这两件事大致以相同的速率发展,并在大致相同的时间达到平稳状态。但是当你开始关注
测试精度在对抗性噪声下的情况时,你会发现,在达到干净训练和干净测试精度的平稳区域很久之后,才会出现对测试图像对抗性噪声的鲁棒性。首先,我还想感谢 IMTIAS,因为它一直在大力推动,这就是这篇论文达到这个阶段的原因。当你的神经网络具有任何分段定义的非线性时,它可以是 ReLU、Leaky ReLU,
也可以是锯齿波,任何分段线性的东西。所以如果你有一个像这样的神经网络,具有这样的非线性,那么它基本上做的就是将输入空间切割成线性区域,然后线性地将每个区域映射到输出。所以基本上,这就是理论所说的,你有一个样条曲线,其中神经网络边界——就像样条曲线边界是由网络权重定义的,映射也是由网络权重定义的。很像折纸。
但是折纸不仅仅是折纸。也有一些拉伸。所以我会说,神经网络做的是弹性折纸。就像你给它一个输入空间,一个输入域,它会玩折纸,把它变成任何东西,比如一些扭曲的空间,然后画一条线把它切开。所以最后一条线将是,因为输出是线性的,就像嵌入空间中的超平面。所以它会用直线切割这个折纸,这样决策边界就能将类别分开。
但这基本上是一个神经网络正在做的,因为对于我们实验中看到的一些样本,对于一些样本,你会看到它周围有更多的分区,这意味着在那里需要更多的非线性,或者函数实际上更复杂,然后空间的某些部分,空间的切割会更稀疏,这就像一个更难的区域,然后在切割更多的地方,更容易受到对抗性攻击,因为如果你稍微移动一下,你就会像基本上穿过更多的非线性,所以网络中会有更多的激活发生变化
。取几个不同的切片,二维切片,来估计分区统计量是什么。更重要的是估计局部周围的分区统计量。这些统计数据基本上可以告诉你模型对不同样本的行为有何不同。例如,如果你有一些样本来自一个群体,这些样本由神经网络分配的表达性较少,
你基本上可以说,神经网络在算法上对这些样本有偏见,因为它在这些区域的表达性不高。而对于其他样本或特定类别,它将分配更多区域——根据统计数据,你可以推断模型对不同样本集的行为有何不同。与其提出神经网络通常做什么的一般概念,不如让我们考虑神经网络在数据流形或流形的不同区域中通常做什么
。我认为这些概念将帮助我们,就像已经趋于对神经网络有更一般的理解,而不仅仅是像一句简短的陈述那样,这就是神经网络所做的。样条函数逼近中的一个基本结果,而且它主要被研究用于一维到一维的回归,那就是当你设计一个样条曲线时,你必须挑选出你空间的分区
和你对每个区域使用的多项式的次数。如果你仔细想想,你可能会说,分段仿射真的不是最好的。你每个区域只有一个仿射映射。它不足以表示每个区域内的许多变化。但事实证明,如果你必须在
很好地定位你的区域,所以找到一个好的分区与增加你多项式的次数之间进行选择。实际上,即使你保持分段仿射,根据数据微调或定位你的分区也更好,仅仅从这一点你就可以获得极好的逼近能力,尽管
在平行区域中你有一个非常简单的函数。你获得这种能力的方式比保持分区不变,只是增加多项式的次数要好得多。所以从这一点,你应该带走的是
没有平滑度,只是分段仿射是可以的,而且实际上是最佳的,如果你能很好地定位这些区域。这就是你用深度网络所做的。基本上,当你训练模型的参数时,你会对分区进行这种调整,因为分区和仿射映射是联系在一起的。所以通过学习一个,你学习另一个。
它在实践中的工作方式是,我们看到大多数区域都集中在训练点周围,并且也根据架构给出的规则进行外推。如果你进入空间的其他部分,这些部分既不在数据分布附近,也不在外推规则附近,那么你就会有更少的区域集中。这非常重要,因为同样,区域越小,你的逼近就越精确。
MLST 由 CentML 赞助,CentML 是一个专门针对 AI 工作负载优化的计算平台。他们开箱即用地支持所有最新的开源语言模型,例如 Lama。你只需选择价格点,选择你想要的模型。它启动后,可以弹性自动缩放。你基本上可以按使用量付费,或者你可以拥有一个始终运行的模型,或者在你不用时可以冷冻它。所以,你在等什么?现在就访问 centml.ai 注册吧。
Tufo Labs 是一个新的 AI 研究实验室。我正在苏黎世启动它。它由 PASS Ventures 资助,也涉及 AI。我们正在招聘首席科学家和深度学习工程师研究人员。所以我们是 DeepSeq 的瑞士版本。
所以是一个小型团队,非常有动力,非常努力工作,我们试图进行一些 AI 研究,从 LLM 和 O1 风格的模型开始。我们想研究逆向工程并自己探索这些技术。
Randall Balestrieri 教授,欢迎回到 MLST,并祝贺你在布朗大学的新职位。谢谢,非常感谢,很高兴回来,特别是来谈谈最新的研究和样条曲线,所以我很高兴来到这里。
你发明或共同发明了神经网络的样条理论,这彻底改变了我对深度学习的理解。我认为我们应该快速回顾一下。那么,我们所说的神经网络样条理论是什么意思呢?
是的,首先,为了更好地说明一些事情,并避免以后出现一些问题,法律问题。样条曲线有一个非常丰富的理论,它可能自 80 年代甚至更早以前就被用于函数逼近。
但问题是,大多数研究都是针对一维、二维或可能三维的输入空间进行的,因为那是大多数函数逼近所需的地方,可能是对于偏微分方程和你可以观察到的东西。那么我们做了什么?
大约在 2018 年,我们试图理解当前的深度网络是什么,当时主要是卷积网络、ResNet 或具有 ReLU 激活、最大池化的 MLP,这种类型的非线性。事实证明,当你进行这种类型的操作时,例如
密集映射或卷积,然后是 ReLU 或最大池化,并且你不断地交错和组合这些层,那么整个输入-输出映射本身就是一个连续的分段仿射样条曲线。这意味着网络的输入空间,例如,如果你进行 MNIST 或 CIFAR 分类,那么图像的空间,这是一个巨大的高维空间,
它被分割成多面体凸区域,在每个区域内,你的网络只是一个仿射映射。总的来说,它是连续的,但在一个区域内,它只是一个仿射映射。因此,你可以描述这些区域的几何形状,你在哪些地方有更多区域,在哪些地方更少,你可以开始理解你的网络实际上在学习什么,以及它为什么能够进行外推,例如,架构、正则化等的影响是什么。
这里有一些相当专业的术语。所以我只想让听众明白,这有点像,你知道的,当我们训练一个神经网络时,我们训练它变得有点像蜂窝。所以有这种结构和结构
有点像晶格,蜂窝的孔代表神经网络做出的决策。是的,完全正确,也许我们可以做的另一个比喻是,如果你进行 k 均值聚类或某种聚类方法,这样你就可以学习
根据你的点被分配到的集群,对你的空间进行分区。所以你有了这种带有区域的结构。所以如果你做 K 均值聚类,当然映射是分段常数的,对吧?在区域或集群内,你被分配到同一个集群。然后当你进入下一个区域时,你被分配到另一个集群。所以这就是你得到的 K 均值分区几何类型。
对于深度网络,情况非常相似。你也有这些区域,但在每个区域内,你不是常数,而是一个仿射映射,然后你有一些额外的约束,这些区域彼此之间并不独立,即使你在非常远的外推状态下,它们也能学习。但是是的,你得到的几何类型与你在 K 均值聚类或 KNN 等方法中得到的一样。然而,深度网络的关键之处,也是其主要优势之一,
是如何学习你的分区或学习这些区域,这不仅仅是你有数据的地方,而是空间的任何地方。这就是你即使在高维空间中也能获得更好的外推性能的原因,而如果你使用 KNN 等方法则不会这样。我喜欢样条理论的一个原因是,很多人说神经网络会进行这种神奇的涌现推理。
当你理解神经网络作为计算这些样条分区边界时。所以它本质上有点像局部敏感哈希表。
这并不利于它们的推理或进行任何不同类型的计算。是的,我认为这里有两点。首先,正如你所说,你有了这种局部敏感哈希或模板匹配。所以你只是尝试局部地拟合区域几何形状和仿射映射。所以你可以认为这确实是临时性的,你知道的,像蛮力规则,但是你实际上有一些推理或智能的东西出现是因为你学习的路径
空间的一部分会影响你如何学习空间的另一部分,即使你那里没有数据。我认为这就是事情从真正临时性的 KNN 或 K 均值聚类转变为更复杂、可能更像人类的东西的地方,从一个例子中,你学习了一些东西,你将能够在训练期间没有看到、并且在你的空间中非常非常远的另一个例子中重复使用这些东西。所以它在那种意义上并不是临时性的,因为它能够以非常有效的方式从隐藏的规则中进行外推。太棒了。好吧,现在我们要进入今天最激动人心的部分,我认为,那就是你有一篇论文,你与 IMTIAS 共同撰写了这篇论文。我们实际上也有一些与 IMTIAS 合作的精彩内容。但它被称为深度网络总是会 grok。
这就是原因。给我们一个电梯演讲。是的。所以是的,首先我还想感谢 IMTIAS,因为它一直在大力推动,这就是这篇论文达到这个阶段的原因。不幸的是,由于签证原因,它无法来到这里,但是是的,向 IMTIAS 致以巨大的敬意。
所以基本上,高级总结是,groping 在某些非常具体的设置中被观察到,作为泛化的延迟出现。所以你的测试集精度在你的训练精度已经达到平稳状态很久之后才开始增长。但这是在非常具体的设置、具体的任务、具体的模型、具体的权重初始化中。
在这里,我们试图研究更一般的设置,例如 CFAR(计算机视觉任务)、卷积网络、ResNet,并尝试查看是否发生了相同的延迟属性出现。事实证明,就训练和测试精度而言,这种情况并没有发生,对吧?这两件事大致以相同的速率发展,并在大致相同的时间达到平稳状态。但是当你开始关注
测试精度在对抗性噪声下的情况时,你会发现,在达到干净训练和干净测试精度的平稳区域很久之后,才会出现对测试图像对抗性噪声的鲁棒性。所以你确实在大多数我们发现的设置中都发生了对抗性 groping,并且这
发生,尽管你根本没有进行任何对抗性训练。这仅仅是由于非常非常长的训练和那些稀疏解的出现,其中你的网络的一些新的几何属性自然地出现了。也许我们应该在这里停留一会儿。首先,让我们谈谈对抗性鲁棒性。是的。
那么,当神经网络不鲁棒时会发生什么?是的,所以我们基本上做的,这是一种攻击网络的非常标准的方法,你得到一个图像,一个输入,无论它是什么,图像以外的东西,你把它输入你的网络,然后根据梯度信息,你看到的是向原始输入添加什么方向的噪声才是最好的,这样你就可以欺骗网络预测错误的类别。所以这是一个白盒攻击。你使用网络的梯度信息。
通过这种方式,你可以欺骗网络,例如,你可以得到一个训练集,其中网络在干净图像上的精度可能为 100%。仅仅因为这些你肉眼看不到的非常小的扰动,你就可以将其精度降低到随机猜测。所以这是一个非常非常有效的攻击。很多人试图通过对抗性训练使网络对这种攻击具有鲁棒性。所以在训练期间,他们实际上会对这些攻击进行采样,并试图使网络对它具有鲁棒性。
在这里,我们表明,实际上,你只需要通过非常长的训练阶段就能自然地对这些攻击具有鲁棒性。是的。现在,我一直将样条理论视为解决对抗性示例问题的一种思维直觉泵。所以我们现在将在屏幕上显示一个图形。但本质上,当你查看样条分区时,只是......
样条曲线相互交叉重叠。它一团糟。非常非常混乱。这就是网络如此脆弱的原因,因为很容易将测试示例推过边界,从而使网络的行为发生变化。是的,完全正确。所以基本上,当你在这个图中看到所有分区区域时,你必须考虑的是,当你
稍微移动一下,从一个区域到另一个区域时,你的映射就是一个非线性,所以你的预测会发生变化。所以你拥有的区域越多,你就会有越多的非线性扭结或点,因此扰动你的网络就容易得多。
但是当你达到这个非常长的训练阶段,所以这个稀疏解时,发生的事情是,你不再在空间的任何地方以及训练点周围有这么多的区域,而是区域开始远离训练点和测试点,集中在决策边界附近。现在,因为你在这些点上有了更宽的区域,这意味着你的网络在这个空间的更大区域内只是一个仿射映射。
因此只是一个仿射映射,并且更容易控制其对噪声的敏感性。所以你是在说,也许我们应该先介绍一下 grokking,然后我们再回到这个问题。所以 grokking 是一种泛化的延迟出现现象。我知道这是一个过度简化,因为每当我与 grokking 的人交谈并这样说时,他们都说,不,这是一个过度简化。但基本上,你训练一个网络的时间比你通常训练的时间长得多,然后在训练的后期会发生一些事情。你能解释一下吗?
是的。
是的,所以他们基本上做的是在特定的设置上,大多数设置可能是构造的或简单的任务。你可以证明,在训练的早期阶段,训练精度或训练指标(它可以是精度以外的其他指标)会增长,然后开始趋于平稳。所以你会认为,好吧,训练完成了,我可以在那里停止训练。但实际上,测试指标(同样,它可以是精度或其他指标)仍然接近随机或只是略微高一些,但仍然没有达到高点。所以如果你实际上像你所说的那样,比通常情况下训练更长时间,那么尽管训练矩阵仍然保持平稳,但测试指标会突然开始增加
并在稍后自行收敛。这意味着在训练期间,你仍然有一些梯度信息使你的权重发生变化。它们对训练指标没有任何影响,但最终在某个时刻,你的网络将开始组合它的权重,以便它可以对测试样本进行外推。
好的。这里还有一个有趣的更广泛的故事,因为我知道你对学习动态非常感兴趣。训练有不同的阶段。所以一开始,网络学习相当简单的特征。然后随着我们进入训练阶段,它学习越来越复杂的特征。但这有点奇怪,对吧?因为你展示的是局部去复杂化。因为我想事情会变得更复杂。它正在学习高频信息。
但是网络正在学习局部去复杂化,以某种方式拉伸这些边界。然后是这个问题,好吧,它使用什么学习信号来做到这一点?是的,完全正确。所以基本上,正如你所说,你有了这个两阶段的训练,有点像在双下降动态中。
在第一阶段,你从随机初始化开始,你的网络积极地关注这些点,在这些点周围使用很多区域。所以这是一种记忆。所以它仍然能够进行外推,但它仍然真正地关注实际的点。
所以在它们附近有很多区域,映射非常平滑,空间中没有任何简化。但是一旦你达到这个阶段,并且你再次进行比通常情况下长得多的训练,发生的事情是,仍然有一些梯度信息
通过你的损失传递,网络将像你所说的那样,在这些点周围去复杂化。所以区域将开始迁移和移动,相反,它们将集中在决策边界在哪里。所以所有分配的参数都在试图
非常精确地拟合决策边界,而不是记住这些点在哪里。正因为如此,这些点周围区域的半径将增加,因此你将获得对抗性鲁棒性,并且你将达到网络从非常平滑的东西(几乎像均匀平滑)转变为分段常数的东西的阶段,这在理论上是你应该收敛到的极限。
真正好的属性自然地出现,尽管你必须训练非常非常长的时间才能发生这种情况。
是的,是的。我想你可以从两个方面来争论,是复杂化还是去复杂化。但正如你所说,值得注意的是,它从关注训练示例转变为关注区域。现在我将再次在屏幕上显示一个很棒的图,在这个图中,在发生这种 grokking 阶段之后,这些分区就会出现。它看起来有点像拓扑图或等高线图之类的东西。
这些分区看起来非常像 Voronoi 图。所以看起来分区是等距的,边界在点之间是等距的。它看起来像一个山脉结构。它不是单个决策边界。它实际上是许多被压缩在一起的边界。是的,完全正确。当你看到这些分区区域的大量集中时,所有这些都压缩在决策边界周围,以提高
表示能力,从一个类别到另一个类别。这就是你想要的,对吧?因为当你靠近一个点并且它在邻域中时,你只需要一个简单的仿射映射甚至常数映射。你不需要在那里放置很多参数,很多区域。但是相反,你想要放置所有区域的地方是在决策边界处,因为这是你需要从一个类别到另一个类别的地方。所以你需要映射中的实际曲率。
所以这种转变确实是关键,它使空间中的均匀平滑性转变为分段常数映射。这也带来了对抗性鲁棒性。同样,这只有在非常非常长的训练之后才会出现,因为正如你之前所说,它不是网络首先学习的东西,对吧?所以这是一种隐藏的解,在非常长的训练之后才会出现,可能是因为达到那里的梯度范数非常小,或者可能是因为它只是在对抗你的架构的隐式偏差。
架构,因为正如我们也展示的那样,作为正则化强度的函数,你可以控制这种出现发生的速率。所以基本上,你用权重衰减等方法进行的正则化越多,你就越能对抗这种部分解,因此它可能根本不会发生,或者即使发生也会发生在
训练的后期,这与稀疏性有关,对吧?所以当我们进行迭代幅度剪枝时,你知道我们训练一个密集网络,然后我们有点像,你知道的,我们我们剔除所有具有低幅度的权重,并且稀疏网络奇怪地更鲁棒,即使我们已经去掉了大部分,你知道的,大部分大部分权重
而且有趣的是,在这个 grokking 现象之后,我们得到的网络类似于一个稀疏网络?是的,是的。所以这完全相关。所以在另一篇论文中,我们展示了你实际上可以以一种非常有见地的方式进行剪枝,作为简化分区的一种方式,使其专注于决策边界而不是点。你可以证明剪枝、对分区几何形状的影响以及其他方法(如参数秩的崩溃)之间的关系
以及这种类型的正则化器。所以基本上,所有这些东西之间存在一一对应关系。好消息是,分区为你提供了一个单一的几何对象,你可以在其中可视化所有这些,并理解它们何时以及为什么是有益的。但是是的,完全正确。它与彩票假设和
迭代剪枝非常相关。在某种程度上,当你进行迭代剪枝时,你可能首先用区域的均匀分布来切换这个复杂的解,但是然后你积极地删除对你任务无用的区域,所以可能是你点附近的区域。所以你使模型更接近这个后期的
阶段,但通过主动剪枝你的模型参数或单元。这种现象与双下降有什么关系?是的,这也是与我们之前提到的神经元崩溃相关的因素之一。所以基本上存在这种动态,首先是这种
记忆,然后你开始学习外推,除了这里我们不从参数数量的角度来看待容量,而是从分区的几何形状来看待,但你拥有完全相同的东西,所以如果你查看我们导出的这个局部复杂度度量
你可以看到区域迁移的动态。所以当你查看训练的开始以及你开始提高训练和测试精度时,你会发现很多区域都集中在这些点附近。这是你在第一次下降之后获得的第一次上升。在这里,你根本没有任何鲁棒性。所以这就是人们会停止训练的地方,因为你的训练和测试精度看起来不错。但是你不会得到任何鲁棒性。
如果你继续训练,那么区域会突然迁移。所以你会看到第二次下降发生。这就是鲁棒性最终出现的时候,因为同样,这些区域移开了。所以训练点和测试点附近的区域半径更大,因此你获得了鲁棒性。但这是......
为你提供了一种新的方法来通过分区的几何形状来观察双下降或只是训练动态,这非常好,因为到目前为止,大多数被研究的东西都是观察损失函数或训练和测试精度,这些可能非常特定于任务,或者非常像
黑盒,因为你只是查看网络 F,而没有真正深入研究它。但现在你有了这种新的方法来查看网络内部发生的事情,从分区的几何形状来看。所以未来的一个重要问题是尝试根据分区的几何属性重新推导出这些结果中的大多数。
现在,我们使用正则化器,因为,我的意思是,这当然更像是旧的观点,但是通过有意识地限制网络的简单性,它们训练得更好。但是我们现在谈论的是,实际上我们想要一种复杂性。
我认为你之前对我说过,如果我们不注意我们的正则化器,我们甚至可能根本不会获得这种效果。是的,完全正确。首先,有很多方法可以正则化网络,例如隐式和显式正则化,甚至像批量归一化这样的方法,例如,我们可能会认为,好吧,这只是使
训练更容易,因为您有归一化,它实际上也充当正则化器。因此,在这篇其他的论文中,我们表明,例如,如果您有批量归一化,您实际上会积极尝试将区域集中在您的训练点附近。因此,当您采用这种技术时,您实际上会对抗这种稀疏解,因此您根本无法到达那里,或者您甚至可以通过更长的训练阶段到达那里。
正如您所说,当您使用其他东西时,例如权重衰减,例如,这也具有很强的偏差。您说,好的,接近零的解是使您的模型达到良好解的解。通常,所有这些正则化器都试图在您的映射中以 L2 意义上强制执行平滑性。
但正因为如此,您不会尝试获得分段常数解,而分段常数解是会为您提供对抗鲁棒性的解,也是您最终在达到对抗工作阶段时达到的解。这就是为什么我们通过标准正则化施加了许多隐式偏差,如果我们想加快对抗工作的出现,例如,我们可能需要重新思考。
我们今天要讨论的事情之一是,神经网络在训练动态的后期会做令人难以置信的有趣的事情。这很棒,对吧?如果您是 Meta 或 Google 之类公司,因为他们拥有这些大型 GPU 集群,并且他们训练的神经网络超出了普通人的能力范围。因此,我们希望捕捉这种行为,并且我们希望神经网络能够更早地做到这一点。
我知道您已经做了一些工作,我认为,您不是构建了一个几何启发的正则化器,它使边界彼此正交吗?我们可以设计一个正则化器来鼓励这种理解行为更早地发生吗?是的,这是一个非常好的问题。所以首先,正如你提到的,
现在我们通过非常长的训练达到这种对抗鲁棒性,并且因为我们实际上没有进行对抗性训练,所以我们获得的鲁棒性在不同类型的对抗性攻击中似乎都非常好。这是一个人们真正想要的非常有益的特性。
但是正如您所说,问题在于,因为您需要训练很长时间,所以现在并不是每个人都能获得的解决方案。这是一个非常大的限制。这就是为什么一个重要的研究方向是如何加快对抗性理解的出现,以便每个人都能获得它。
然后到您的第二点,是的,有很多方法可以基于分区几何理解构建正则化器。例如,即使对于非常非常大的网络,也很容易计算的一件事是点到其所在区域的最近边界的距离。所以这个
量,它的距离,关于模型的参数是可微的,并且获得它非常快,这意味着您实际上可以在训练期间将其用作正则化器。这只是一个例子,但是有很多方法可以导出可微的正则化器,可以用来强制执行分区中的某些约束。
另一件事是,您实际上可以使用这些约束和力来构建体系结构。一个典型的例子是,假设您的网络根本没有任何偏差,那么您获得的分区类型被限制为中心,因此所有区域
都是从零到无穷大的锥体,这是一个硬约束。因此,如果您没有任何偏差,那么您就会将分区约束为始终看起来像这样,因此您不需要额外的正则化器。有很多方法可以将硬约束构建到您的体系结构或权重的参数化中,或者构建可以在训练期间使用的可微正则化器。
是的,绝对的。我的意思是,在上周与 Sarah 交谈之后,她发表了关于欧盟人工智能法案和行政命令的论文。他们对计算浮点运算的次数(我们执行的计算操作的数量)设置了严格的绝对限制。问题是,我们现在正处于人们......
人们只是认为,哦,你知道,能力和计算之间存在着相应的联系,所以让我们投入更多的计算。我们需要做的是智能浮点运算。此外,我们需要像你这样的人,他们实际上有神经网络的理论。因为如果您没有这种神经网络的样条理论,那么您就不可能拥有这种思维模型,也无法以有原则的方式设计新的正则化器。这太重要了。
是的,完全正确。我认为使用样条的一个关键好处是,它不仅为您提供了一些理论保证和解决方案,而且您可以可视化的内容也非常容易解释。因此,即使您以前从未使用过样条,也很容易查看这些粒子的图形
区域并查看为什么对于这个特定任务或就鲁棒性而言,这个分区比那个分区更好。因此,好的事情不仅仅是对深度网络有理论上的理解,而是任何非专家都可以可视化、操作和使用以实际改进最先进模型的训练的东西。您希望它易于处理、易于解释并且易于让每个人都参与其中。
正如您所说,您可以从中获得非常强的见解。例如,通过这篇论文,我们看到,如果您分配了数量的浮点运算,那么普遍的智慧,或者至少大多数人可能会做的事情,就是说,好吧,让我尝试在我的 GPU 上拟合最大的模型
然后,我拥有的任何剩余数量的浮点运算,我都会将其用于训练时间。但是从这篇论文中,您看到的是,实际上,根据您想要的应用程序类型,如果您想要对抗鲁棒性,例如,您可能想要使用更小的模型,但要为训练时间分配浮点运算。当您执行这种不同的浮点运算分配时,正如您所说的那样,例如智能浮点运算分配,那么您将获得一个对抗鲁棒的模型
经过这个漫长的训练阶段之后。这就是为什么通过这个,你应该重新提出关于,好吧,你根据你希望你的网络具有的特性来分配浮点运算的地方的问题。谈谈你的结果,根据问题的类型、数据集等等,它会如何变化?你看到了什么?是的,我们看到了一些趋势。例如,作为
数据集的大小增加或减少,或者您在标签中拥有的噪声的函数,那么理解的出现可能会延迟或不会延迟。这些也是需要记住的事情,这些事情以后也可以用来尝试加快理解。例如,如果您可能有一个智能的训练课程,或者如果您有一种类似于师生训练的东西,那么这就是您可以尝试加快理解出现速度的那种事情。现在越来越多的论文试图研究这个问题。
因为同样,所有这些事情都是相互交织的。因此,如果您再次回顾分区,您必须将分区视为适应您手头的数据集。这就是深度网络使用的样条与标准样条相比的优点之一,现在分区确实通过权重的梯度下降而适应。
到您的数据分布和您拥有的损失。因此,如果您更改点的分布方式、点数、它们所在的维度或只是网络的参数化,它都会影响您学习的分区,因此会影响对您来说是有益的或不是有益的几何属性。所有这些事情都是相互交织的,样条解释的优点
深度网络的解释是您可以精确地理解这种关系,并且您可以对为什么您获得这个分区而不是另一个分区进行可能的保证。因此,现在您可以告知决策如何行动或参数化您的模型以达到对您的下游任务有益的状态。
是的,非常有趣。我的意思是,我认为现在可能是谈谈您的局部复杂化度量的好时机。我提出这一点的唯一原因是,第一阶段是我们可以,你知道,当我们有了这种复杂化和摇摆的度量时,我们可以改变超参数,你知道,像预测架构等等来优化这种效果。我的意思是,也许在下游我们可以实际拥有
以有原则的方式设计体系结构以优化理解。但是您是如何设计这种复杂化的呢?是的,完全正确。基本上,我们试图做的是观察有多少个区域或特定点附近的划分有多复杂。
因此,一个很好的替代方法是简单地计算附近的区域数量。正如您之前提到的,这大致相当于您的网络在这个邻域中拥有多少信息位。基本上,我们所做的是一个代理来快速获得该区域数量,即使您使用非常大的模型,这也基于每层对 epsilon 球中顶点数的计数。然后我们进行一些消融实验以表明这是一个区域数量的良好替代方法。
但这就是我们衡量的。基本上,您在这些局部复杂性图中看到的是,这个数字在训练期间具有不同的动态。您观察到的非常有趣的事情是,当训练和测试精度达到平台期时,它达到峰值,但在您获得对抗性理解之前,它就开始下降了。
发生,这意味着这个指标实际上更好。它对训练动态和深度网络几何中发生的事情更敏感,因为这个指标开始显示这一点,正如您之前所说,点周围的复杂化。
在您获得对抗性理解之前很久。这非常好,因为您有一个灵敏的指标可以告诉您模型的几何形状是如何演变的。这也为例如新的提前停止方法或
了解您的网络是否已完成训练,因为即使您对这种对抗性理解不感兴趣,让我们假设您只想了解好的,训练的第一阶段何时发生,您可以查看此指标并开始查看好的,它何时达到平台期以及何时达到第一个
平台区域,您知道您可以在此处停止训练,尽管您从未计算过训练或测试精度。因此,您会看到,表征分区几何形状的代理矩阵实际上是您真正理解网络所处阶段所需的一切,并且您是否需要停止训练或是否需要更改一些超参数或架构或类似的东西。
事实上,这是有些人以前一直在使用的东西。德克萨斯大学奥斯汀分校的 Atlas Strong 有一篇论文,他们表明,您只需查看分区的一些统计数据即可进行神经架构搜索。这足以进行神经架构搜索并获得一个良好的训练模型。有趣。
为什么神经网络会先学习低复杂度、低频特征?是的,这是一个好问题。有很多关于这种隐式偏差或简单偏差的工作,您只是尝试首先学习最简单的规则,例如虚假相关性,对吧?这就是人们现在试图对抗的事情。
很多,因为当然你认为你学习了一个好的解决方案,但实际上你只是学习了一个捷径解决方案,一旦你部署你的模型,这可能会让你处于非常糟糕的境地,这是一个非常活跃的领域。在某些情况下,我们可以解释为什么会出现这种情况。例如,如果您通过重建学习,那么还有另一篇论文,我们展示了好的,这种偏差来自数据集,因为这种
简单偏差会转化为图像的哪些频率具有最多的梯度信息。事实证明,这些是图像的低频部分。当您通过重建学习表示时,您可以证明为什么会出现这种情况。但在最一般的设置中,我认为这仍然是一个悬而未决的问题,它将体系结构的隐式偏差、我们进行训练的方式,甚至其他一些事情,如批量归一化,
以及增强也结合在一起。您暗示高复杂度特征不太可能是捷径特征。这背后的直觉是什么?是的,完全正确。基本上,至少对于感知任务来说,例如,您可以证明,当您查看高频特征时,
视觉上您有更少的先前相关性,例如背景和图像中实际对象的之间。因为此信息不存在于图像的高频部分。因此,自然地,因为您删除了它们,那么如果您在此类过滤图像上进行训练,您当然会消除网络学习这些捷径解决方案的机会,而它将不得不专注于对象的实际形状
我尝试分类,而不是仅仅是,好的,背景是草地还是背景是美丽的沙滩?因此,您可以仅从此处判断图像中的对象是什么。因此,这个术语出现也经常出现。这是一个有点模糊的词,人们在谈论理解时会谈到它,有时它被高估了,因为他们使用对数图,而理解并不像人们认为的那样短暂。但是使用“出现”这个词有意义吗?
对我来说,这是有意义的,因为它是一种自行发生的现象。这不像在您达到训练的第一阶段后,您积极地改变学习率或改变正则化器并使其发生。您什么也不做,您继续训练,突然这个新的属性自行出现。因此,我认为对我来说,“出现”这个术语实际上非常适合这种情况,只要您没有积极地做任何事情来使其自行发生。
很酷。所以我再次查看这张图,它显示了蜂窝状的拓扑图。这是一个很好的例子,因为它显示了示例之间真正干净的分区。但我很好奇,还有没有更复杂的例子?将来,是否可能存在一种元分区方案,它可以进一步粗化它?是的,完全正确。所以我想
从这种理解中,我们知道我们试图获得哪种分区。所以下一个问题是:我们如何尝试将其强制到您的网络中?有没有办法通过模型的参数化、正则化或修剪(如您之前提到的)来实现这一点?我认为一点一点地,一旦我们理解了您需要的几何属性,
或者它是否在权重的参数方面转移?现在我们处于一个阶段,我们能够说,好的,我们实际上可以推导出一种方法来主动地在训练早期达到这个阶段。这再次通过样条分区比您只是将网络 F 视为黑盒模型更直观,对吧?因为您查看此图像,您会说,好的,我们想要增加区域的半径。例如,我们可以查明哪些单元负责每个分区
分区边界,因此我们知道我们需要修剪哪些单元才能使区域更大或更小。所有这些事情都是相互关联的,因为我们有这种理解,所以采取行动来更快地达到该解决方案就变得容易得多。太棒了。现在对于在家里的朋友们,我无法充分强调
对你们来说,这是一个多么大的结果。这绝对是辉煌的。所以,你知道,我已经邀请了很多对抗鲁棒性研究人员,比如 Nicholas Carlini。我知道,明天是 Andrew Ilias。多年来,人们说这是一个棘手的问题,您所做的任何修复鲁棒性的工作实际上都不能修复它,您只是降低了标题精度。是的,是的。
而你实际上已经证明你正在以最佳方式做到这一点。也许您可以解释一下?但您认为这对整个空间意味着什么?是的,这非常有趣。我认为对此有很多疑问。首先,一件事情是,在这里,
正如我们之前提到的,我们不使用强正则化,对吧?因此,之前的许多结果可能是在强正则化设置下获得的。那么,也许不可能获得普遍的鲁棒性,或者获得它要困难得多。因此,在这里我们展示了一种新的方法,人们可以尝试以不同的方式看待这个问题。
但这里的好处还在于我们没有进行对抗性训练,对吧?正因为如此,我们并没有真正将鲁棒性过度适应特定类型的攻击。从某种意义上说,这也是
与过度拟合相关联,如果您使用对抗性示例进行训练,您会将鲁棒性过度拟合到这种特定的对抗性攻击,也许仅仅是因为这种过度拟合机制,您会对另一种类型的攻击更加敏感,但在这里我们没有进行任何对抗性训练,这种鲁棒性是自然产生的,因此没有理由认为它过度拟合到任何特定的攻击,因为它在训练期间没有使用,对吧,所以我认为因为它是一个
隐式自行出现,那么根据定义,它将比人们以前一直在使用的主动获得对抗鲁棒性的方法更普遍。我认为这为尝试再次查看这些结果并查看是否可能存在新的方法或通过这种隐式出现可以获得的新折衷方案打开了一扇新的大门。
太棒了。好吧,祝贺您取得这项惊人的成就。此外,我的爱也献给 Intias。你们俩都为此工作了这么长时间,我很高兴你们终于向世界证明了样条理论是多么重要。
是的,是的,是的。而且好的一点是,所有这些结果都不是特定于视觉或特定架构的。这就是样条的优点之一,无论数据模式如何,无论输入维度如何,您的网络都是样条。因此,您获得的任何见解都可以转移到许多应用程序中。
应用程序。因此,当您推导出新的东西或发表新的论文时,您解决的不仅仅是一个问题,而是一系列问题。这也是这种理论理解的力量之一,您可以做一个证明,它对许多人都有用。所以它非常有效。
也许也值得一提的是,人们可能会认为,哦,样条理论只是在谈论 MLP,但我只想向大家强调,从技术上讲,每个神经网络都是一个 MLP,对吧?你知道,无论是转换器,每个自注意力层都有一个 MLP,无论是图卷积神经网络还是
无论是什么,它都是一个 MLP。是的,完全正确。如果您考虑卷积,您可以将其视为具有血循环矩阵的 MLP,只是一个受约束的参数,但您仍然拥有相同的,整个网络是仿射映射和非线性的交织,这对所有当前的架构都是正确的。
事实上,在这篇其他的论文,极性论文中,我们控制生成样本的质量和多样性,我们表明您可以使用样条公式和样条结果来改进大型架构上的最先进结果。这不仅仅是玩具示例或小型维度设置的东西。这确实可以为您提供答案和针对各种模式的最先进模型的可操作解决方案。
很酷,很酷。好的,我们现在将继续讨论您的下一篇文章。
您的第二篇论文是“通过重建学习产生无信息特征用于感知”。这在谈论重建(如自动编码器)之间的区别,您实际上是在重建图像,然后您有点像在原始图像和重建图像之间进行均方误差,或者另一种方法是所谓的对比和非对比模型,您实际上是在查看潜在空间中的差异。告诉我们这篇论文的内容。
是的,完全正确。在这篇论文中,我们试图对一些经验观察到的现象给出一些答案和解释。其中两个是,如果您通过重建学习表示,那么您获得的表示是一个良好的基线,但它不是最先进的,您需要一些微调才能真正提高其针对您试图解决的特定下游任务的质量。
第二个观察结果是,表示解决任务的质量与重建样本的质量并不完全一致。通常,即使重建样本看起来不错,您仍然需要长时间训练才能使表示对下游感知任务有用。
这两个观察结果已经为人所知有一段时间了。关键是,我们能否尝试解释原因?也许从中,以后可以推导出更好的方法。主要结论是,因为输入空间中的重建方法(对于图像来说,在像素空间中)使用均方误差,所以大部分梯度信息都来自图像的低频。而这些特征并不是对感知任务有用的特征。
有一个很好的例子,我们查看低频特征和高频特征中编码的信息。即使您用肉眼也能很容易地看到,低频特征不足以让我判断这张图像是哪个类别,但高频特征就足够了。因此,这种偏差仅仅来自数据集分布及其所有
频谱再次是自动编码器中复制的东西,但因为它是有偏差的,所以它与我们的下游任务不一致,您会得到次优表示。
是的,我的意思是,我现在将向您展示第一页上的图,它显示了这个特征谱。在右侧,它显示了神经网络首先学习的特征,它们具有更大的质量,因此它们占据主导地位。然后,稍后学习高频特征。你能否,并且还有一些例子。因此,左侧的图像是高频特征,它很容易识别。左侧的图像是低频特征,它只是
是的,完全正确。正如您所说,在这个我们看到 Hegan 值分布的图表中,您在右侧看到的是对应于低频特征的那些特征,它们是具有最高 Hegan 值的那些特征。这就是为什么您的图像中大部分能量的原因。您可以证明,这就是我们在论文中所做的,这将主导梯度信息。因此,这就是您自然会首先学习的内容。
这就是在均方误差方面为您提供最大减少的因素。因此,从某种意义上说,您可以说,如果有一个频率可以为您提供均方误差的最大减少,那么它是什么?答案是低频。因此,正因为如此,并且因为我们进行梯度下降,显然,我们将首先学习这个。这很自然,因为我们只是试图复制已经存在于数据集中的偏差。
因此,我们首先学习这些。然后,如果您训练足够长的时间,并且您的自动编码器具有足够的容量,您将开始学习高频细节,这些细节的幅度要小得多,因此梯度信息要少得多。因此,只有这样,您才能学习对解决感知任务有用的特征,因为即使通过肉眼,您也可以看到,好的,它们包含可以告诉我好的,这张图像是这个类别还是那个类别的特征。完美。
非常有趣。现在,您说现在有一种新方法。人们开始使用重建,例如自动编码器,仅仅因为它非常容易,人们可以在家做。但它确实会选择这种数据集偏差,因为许多数据集确实具有,它们主要由这些低频属性决定。但它是特定于数据集的,您可以实际添加噪声
来解决这个问题。是的,完全正确。基本上,它是特定于数据集的,因为正如您在该图中看到的,您试图模仿数据集的再次频谱方面的偏差。但是这个再次频谱将有所不同,这取决于您是否拥有,例如,背景或没有,如果您在图像中具有不同的平移,您有多少个类别或对象。因此,这种偏差或这种重建与感知特征之间的错位
重建和感知特征是特定于数据集的。数据集越简单,例如 MNIST、SVHN,这两个任务就越一致。因为从某种意义上说,图像中的每一位信息对重建和感知都有用。因为没有背景、没有干扰变量、没有噪声。因此,如果您学习重建,您就会学习识别,基本上。但这在您转向非常真实的图像时并非如此,因此分辨率更高、颜色更多、背景更多、
许多不同类型的对象,如 ImageNet,那么对齐就会变得非常非常糟糕。因此,这是特定于数据集的。正如您所说,因此,现在,例如,人们广泛使用掩码自动编码器,这是一种具有不同噪声策略的降噪自动编码器的不同版本。在这种情况下,您不仅将原始图像作为自动编码器的输入
并尝试重建它。相反,您会向原始图像添加一些噪声,一些扰动,然后您尝试重建原始图像。您试图消除您正在使用的噪声分布的噪声。因此,在降噪自动编码器中,通常使用加性各向同性高斯噪声,但在掩码自动编码器中,您实际上会掩盖大型
图像的块。因此,您会看到您有不同类型的噪声策略。我们在论文中展示的是,您可以使用这种噪声策略来尝试对抗您在数据集中存在的偏差。因此,从某种意义上说,您试图告诉网络,好的,我知道您试图模仿这种偏差,但让我让您在这个频谱部分或这些类型的特征方面的生活更艰难,以便您转而专注于另一侧
这可能对我的下游任务更好。因此,这就是为什么通过仔细调整你的噪声分布,你可以尝试重新调整学习的重建和感知特征的学习。但仍然,这是一个非常非常活跃的过程。从某种意义上说,如果你事先无法访问标签,你怎么能完成这个过程呢?所以这是一个很大的问题。这就是为什么未来的研究之一是,如何自动设计噪声分布?
是的,完全正确。因为你之前说过,例如,粉红噪声,我认为它具有对数功率谱,如果我理解正确的话。所以你可以实际设计噪声谱来优先关注,比如说低频特征。是的,完全正确。例如,如果你告诉我,好的,对于我的下游任务,我知道我
应该关注哪种类型的频率以及哪些频率是无用的。那么仅凭这些信息,所以你并不真正需要标签,但你仍然需要这种形式的弱监督,对吧?但是仅凭这些信息,你就可以反向生成并找出什么是一种噪声策略,这样当你通过重建学习表示时,你将不会编码无用的特征,而只会关注对下游任务有用的特征。
但同样,这需要一些先验的专家知识,而这并非总是那么容易做到。例如,对于感知,我们表明,好的,如果你关注更高频率的细节而不是低频率的细节,实际上很容易获得更好的表示。但是如果你明天有另一个下游任务,比如深度估计或试图计算图像中树木的数量,那么高频与低频之间并不真正清楚。
一般来说,根据你的下游任务,可能很难真正定义对你来说最合理的噪声策略。你还需要能够实现这种噪声策略,对吧?因为如果它太复杂、太复杂,并且会大大减慢你的训练速度,那么它也不是你在实践中可以使用的东西。我明白了。所以要点是,如果你使用重建损失,你基本上继承了一堆数据集偏差,这些偏差会在下游搞砸你。因此,我们应该使用这种对比方法。
一些观众可能需要回顾一下这意味着什么。这是如何工作的?是的,在我所说的那些大多数无重建自监督学习方法中,你观察原始图像的不同视图。这可能是因为你对其应用了不同的数据增强,或者你在视频中提取相邻帧,或者你只是对同一建筑物的不同视角。然后你试图做的是让这些输入图像通过你的网络
并比较它们在嵌入空间中的表示,并使它们对所有这些不同的视图获得相同的表示。这也是一种比较形式,但它发生在嵌入空间中,而不是试图重建原始图像并将重建与原始输入进行比较。
并且直觉是,正如我们之前所说,训练好的神经网络在达到成熟后,往往会关注高复杂度信息。所以你可以免费获得它。当你比较潜在空间时,你实际上是在关注你想要的表示类型。
是的,完全正确。因为你在嵌入空间中工作,所以你可以忽略很多你不需要的输入图像的细节。当然,这是你如何定义数据增强以及你如何进行正对采样的函数。但是更容易忽略事物,因为你没有试图比较
根据均方误差来比较原始像素空间图像。仅仅因为这一点,你就可以忽略无用的信息,因此你可以更容易地控制你的网络关注哪些特征。相反,如果你尝试进行重建,唯一可以说,好的,我不想关注,例如,树叶,
树木的方法是尝试提出一个对该树木不变的新损失。但这本身就是一个巨大的研究项目,也许没有简单的解决方案,或者至少没有易于处理的解决方案。这就是为什么在嵌入空间中工作是一个非常非常好的代理和高效的代理,你可以在其中继续使用这个均方误差,但在你可以轻松忽略输入信息的新空间中。
精彩。第三篇论文,表征大型语言模型几何有助于解决毒性检测和生成问题。给我们一个电梯演讲。很好。这篇论文有两个关键组成部分。一个,它又回到了样条曲线,我们观察LLM的单层,你可以看到你可以将其分解成两个大块。你有多头注意力,然后是下面的MLP块。对于大多数当前LLM的每一层都是如此
所以如果你只看每一层的MLP块,你可以再次将其解释为样条曲线,无论它使用的是卷积激活还是开关激活,在样条曲线的观点下,都是一样的。你可以尝试理解,好的,我们可以表征给定提示落入的区域吗?
所以,纯粹的几何表征是区域大小,这个区域有什么几何特征。由此,我们推导出七个非常简单的特征来表征这一点。所以每个MLP块有七个特征。因此它随着你拥有的层数线性增长。但是特征的总数非常小。例如,即使对于一个70B的模型,你也有大约500个特征可以完全表征给定的输入提示。
然后我们说,好的,这些特征是否对提示有任何信息?我们发现,即使你做一些非常简单的,例如,TSNI可视化,非常像无监督降维到2D,我们说,好的,这些特征的分布是什么?你可以看到它们是聚类的,例如,基于提示的模式。例如,这个提示来自哪个数据集?是关于
数学、法律、医学数据。所以仅仅基于这一点,这些特征自然就已经根据提示模式进行了聚类。这是你自然获得的东西之一。而且,例如,对于毒性检测,你也可以看到,提示中是否存在毒性,你会得到这些特征的不同集群。
这非常有趣,因为它再次表明,通过表征你的分区的几何形状以及你的提示落入的区域,你突然可以对你的提示是什么有一个非常强的表征。这同样可以应用于任何预训练的LLM,不需要像专家知识或任何东西,并且提取和使用它们来做像
你可能想要做的不同下游标签非常容易。如果你想做毒性检测以外的事情,你可以将它们作为输入拟合到线性层。你可以尝试训练一个模型来预测你想要的任何数量,你将得到一个非常好的基线。
是的,这是一个很好的例子,我认为现在很多人在做无监督表示学习时,他们正在查看空间,他们没有查看几何形状,例如,这个分区边界。另一个很好的例子说明了样条理论
在这里真正帮助了我们。所以你创建了一堆特征,这些特征描述了,统计地描述了这个几何形状。所以其中一个特征可能是边界处的平均距离或类似的东西。是的,完全正确。这些特征本身,所以你对它们进行tisny处理,你会看到它们效果很好,但是你可以构建一个线性探测器,只是一个简单的线性分类器或随机森林或类似的东西,这些信息量比
其他任何东西都多得多。是的,完全正确。我们比较的一件事是查看,例如,Hugging phase,下载次数最多的毒性检测模型。我们将这些与你所说的基线进行比较,我们只是提取这些特征,并在顶部训练线性头来进行毒性检测。我们看到,我们不仅能够以与它们一样低的延迟进行预测,而且还获得了更好的检测率。
这是一个非常有竞争力的解决方案。当然,这非常好,因为你可以重用预训练模型,并且可以控制如何将这些特征用于你的下游任务。在这里,它是毒性检测,但你可以真正看到你可以将其拟合到你想要的任何东西。
而且,正如你所说,这样做的好处是这些特征非常容易推导,假设你对你的模型一无所知。每一层都有表示,这可能是四万维。你在每一层对每个标记都有这个。所以你真的不知道如何理解这一点。你不能仅仅说,好的,我将提取所有表示并将它们连接在一起,因为你有像一百万维的
提示表示,这意味着如果你想在其上学习线性探测器,你需要在正则化、特征选择方面进行大量操作,所以对你来说将非常麻烦。但是在这里,由于这种样条曲线直觉,我们知道如何推导出最具信息量的特征来表征你的提示。因此,我们只得到几百个,因此即使你的下游任务只有少量样本,你也可以学习线性探测器。太不可思议了。我的意思是,我现在正在查看你的结果,我认为最著名的
毒性检测模型。这是在Omnitoxet数据集上。这个模型,Martin Hart,我认为在上个月下载了120万次。它的曲线下面积大约为73.5%。你的......
只是在Lama 2 7位上的线性探测器,99.18%,你的延迟与最好的一个相当。是的,完全正确,这种方法的好处是,因为每层你都提取特征,所以你实际上可以通过使用例如在这种情况下只有前三层特征来控制延迟和精度之间的权衡
所以你得到了良好的延迟和良好的精度,但是你可以通过使用更多层和增加延迟来提高精度。或者,如果你想进一步降低延迟,你只需使用前一层或前两层。所以你可能会失去一些精度,但你会进一步降低延迟。所以同样,因为你可以控制你想要使用多少特征,你将真正有一个权衡,而不是当前的解决方案,它们是
好的,我将重新训练一个新的LLM,并将此毒性检测视为LLM的一个新任务。因此,你需要将其用作一种黑盒检测器。是的,我认为家里的朋友们应该研究样条统计。我的意思是,例如,有很多人,例如,Anthropic对Claude Sonnet的语言模型表示进行了稀疏自动编码器,他们做了旧金山大桥的事情,他们只是使用了向量空间。如果他们使用样条特征,可能会更好。是的,完全正确。并且这种解释的好处还在于,你可以做的不仅仅是毒性检测。所以他们在本研究中所做的是,你可以尝试这样做,例如,用于数据过滤或尝试推导,好的,你应该使用哪些提示或不使用哪些提示进行训练或比较
模型,对吧?你可以尝试创建一个新的LLM,就这些特征而言,它与当前的LLM是正交的。你可以做很多事情,因为这些特征也是可微分的,这意味着你实际上可以在训练期间使用它们。所以它突然为许多事情打开了大门。
而且这些特征,你可以非常快速地动态计算它们,这意味着你可以从一开始就在每一步都将它们用作额外的正则化器,作为额外的训练目标。我认为这非常重要。我们之前谈到过,比如说,构建一个新的正则化器。但是正如你所说,这些特征是可微分的,你可以用它们
在许多许多不同的方面。所以,可解释性、鲁棒性、稀疏性,训练动态的许多许多部分都可以使用这些特征。是的,完全正确。所以你可以将它们用作正则化器,但你甚至可以利用它们来尝试推导出对抗性攻击。回到第一个主题,因为既然你可以通过它们进行微分,你可以尝试说,好的,你可以利用它来操纵提示,例如,使其看起来更具毒性或毒性更小?或者你可以做很多事情,因为你获得了可微性。这是一个非常非常好的特性。
太棒了。好的,所以这第二部分是你正在研究与提示相关的内在子空间。你能告诉我们关于这个吗?是的,完全正确。所以第一部分是试图理解MLP块,并看看我们可以从这种几何理解中得到什么。LLM层的另一部分是这个多头注意力,对吧?所以在这里我们试图理解,好的,这在几何上是如何表征给定输入的?
所以我们推导出这个很好的代理标量,它是提示所在的空问的内在维度。简而言之,你可以将其推导出为注意力稀疏性的函数。由此,我们可以很容易地看到
当前的训练提示具有一些内在维度分布,因此我们可以尝试创建具有增加或减少内在维度的新的提示。当然,事先你可能会认为,好的,这很有趣,但是你可以用它做什么呢?我们在论文中发现的一个应用是,如果你实际上人为地增加了内在维度,使其看起来像
一个远离训练数据的点。也许这是一个你的LLM没有进行RLHF的区域,所以你可以绕过RLHF机制并使你的LLM生成有毒的答案。事实上,这非常自然,因为你阻止有毒
生成的方式只是在训练期间,所以你试图说,好的,不要在这里说,不要在那里说,但是你推断出来的是一个悬而未决的问题,在这里我们展示的是,一旦你通过操纵内在维度来探索训练期间从未使用过的空间的新部分,你就可以使你的RLHF LLM生成有毒的答案,即使你使用像
正常的原始提示,它也会说,好的,我不能说这个,因为它不是我被允许说的东西。是的,这太有趣了。所以这里有一个真正的主题,我们一直在讨论,那就是神经网络训练动态和表示中存在一种复杂性谱。
你在这里有一个图,你展示了上下文长度和内在维度之间存在相应的关联。我认为更好地解释这一点的方法是表示的复杂性。现在,RLHF目前具有一种复杂性维度。
限制,这意味着它只能解决低复杂度表示或具有小型内在子空间的事物,所以当你有一个非常长的上下文长度时,这与我前几周与多伦多大学学生进行的采访有关,他们有这个自注意力可控性定理,他们基本上说,随着上下文长度的增加,可控性会增加,这意味着你可以让语言模型说任何话,这与你移动有关,你就像增加了表示的内在
复杂性。是的,完全正确。因为如果你仔细想想,你工作的维度越高,就越难控制你的LLM将做什么或不做什么,因为这意味着你需要真正控制它的样本数量呈指数级增长,对吧?除非你对如何做到这一点有一个聪明的参数化
这样你就可以从少量样本中学习推断,但这并不是目前进行微调的方式。因此,随着你增加上下文长度以及你增加标记之间的相关概念,以便存在真正非稀疏的自注意力掩码,那么你就会进入一个以前从未见过的空间部分,而这个空间部分确实是高维的。因此,创建LLM的人不太可能控制那里发生的事情,因为你只是在这个实际空间中。
非常高维的空间,在这个空间中,没有人能够保证任何事情。是的,现在这对可控性、一致性、可解释性等等来说都是一个真正的问题。我前几天与Nora Belrose交谈过,她谈到了概念擦除,你知道,所以你可以从神经网络中擦除概念,它在训练早期效果非常好,但是随着网络复杂化,它会适应并抵消
你所做的任何概念擦除。所以我们有一个真正的问题,那就是随着神经网络的复杂化,我们再也无法控制正在发生的事情。-是的,完全正确。而且也很难通过我们自己对数据采取行动来找到解决方案,因为根据我们的视野和学习方式,有一些我们可以思考的东西,好的,我们从数据中删除这些信息,我们认为这就是我们需要做的全部。但实际上,因为有很多,对吧,我们在高维空间中,所以许多事情发生在不同的输入维度之间,
也许这个概念仍然嵌入在数据的其他部分,如果网络有一个很好的短路解决方案,它将能够找到它。所以基本上,这就是我们必须非常小心的地方,因为通过目视检查和二维推理的直觉在进入真正高维空间时可能无法扩展,因为许多其他事情正在发生,并且网络将抓住这些。所以这就是为什么非常需要
可证明的解决方案,因为你需要理解网络试图学习什么或在几何上控制它以防止学习这些捷径解决方案,并且还要保证好的,现在你达到了这个阶段,你可能有像安全模型或类似的东西,但这不能
仅仅通过对数据集或经验进行操作来实现,因为正如我们在这里展示的那样,你总是可以找到一种方法进入以前从未见过的空间的新部分,仅仅是因为空间巨大。所以如果你真的想要像RLHF外推在这种情况下获得可证明的保证,你需要对你的网络有更好的参数化或更好的控制。
是的,是的。这太有趣了。我的意思是,为了让大家也明白这一点,这个越狱的例子我认为你只需要写8, 8, 8, 8, 8, 8。你只需要这个非常长的上下文长度。然后突然之间,你使提示不受RLHF的影响,因为RLHF有一个复杂性上限,对吧?所以就像在某些时候你使提示复杂化。你现在处于上下文之外。
RLHF的可控空间。这是一个大问题。我们可以对RLHF做些什么来解决这个问题?是的,完全正确。需要补充的一点是,这种越狱并非特定于一种LLM架构或一种LLM设置。所以在论文中,我们展示了一些关于LAMA、LAMA 2的东西,但是例如,你用ChatGPT做过实验,你也有同样的情况。所以它似乎不是特定于架构或RLHF的实现方式。
所以确实存在一个根本性问题,那就是如何在非常高维的空间中控制深度网络的行为,在这个空间中你无法访问所有地方。一种看待它的方法可能是,我们能否找到网络的更好参数化,以便仅通过从少量示例中学习,我们就可以在
空间的许多其他部分进行概率泛化或外推。这与找到模型的正确参数化或在这种情况下进行RLHF的正确方法有关。但这是一个巨大的问题,它与一般的外推有关,以及如何处理真正高维的数据以及如何仅从少量训练样本中控制模型在空间中任何地方的行为。攻击RLHF的一种方法是增加上下文长度。
但是增加攻击成功率的一种方法实际上不是仅仅添加具有随机标记的额外上下文,而是添加相关概念。由于添加的标记中的相关概念,注意力的稀疏性将较小,因此你更有可能突破RLHF机制。所以这些攻击也很难检测到。例如,如果你只是多次添加A,A,A,A,A,那么很容易保护模型免受攻击。但是如果你只是添加与你提供的有毒提示相关的自然英语句子,那就很难检测了,对吧?因为它就像普通的英语,正常的句子,但仍然能够以比仅仅使用随机更好的速率突破RHF
所以还需要做很多工作,例如,添加与当前提示相关的上下文或仅仅添加随机上下文之间的关系是什么?所有这些事情相互作用。这也是一个重要的未来研究问题。非常有趣。所以你多年来一直在Meta与Yann LeCun非常密切地合作。你现在在布朗大学。
你明年的研究计划是什么?是的,我的研究计划是尝试增加我们在当前学习解决方案中拥有的可证明保证的数量,无论是使用文本、计算机视觉还是多模式数据集。我们需要更深入地研究幕后发生的所有事情,例如训练动态、公平性、
或你从数据中学到的偏差,并重新思考我们永远都在做的一些基本事情,例如正则化或只是训练,以便我们可以控制这些事情并向用户或从业者提供可证明的答案。有很多事情要做,因为现在我们什么都不质疑,对吧?事实证明,如果我们想在这个领域取得进展,我们需要重新质疑我们正在使用的大多数方法。当然,这可以采取使用样条曲线的形式,
但我们还可以使用许多其他工具。但目标是,每当你的方法不起作用时,你都需要能够给出精确的答案,而不仅仅是说,好的,尝试另一个超参数,两天后再来找我。所以我们可以做的一切来获得有用的理论、可证明的保证,并且易于应用于工业规模的问题。这就是我们未来几年将要研究的内容。非常酷。
非常酷。我们之前简要谈到了与Sho Yida和Dan Roberts合著的深度学习理论书籍。你对深度学习的其他理论有什么广泛的看法吗?是的,有很多,而且许多理论都有非常实际的见解。例如,你有一篇Greg Young的论文,他们从训练动态的理论表征和当前网络中发生的事情中展示,
你可以对小型网络进行交叉验证,然后根据你找到的超参数,你知道你有一个规则可以对其进行外推,以便它也是当你使用更大模型时的最佳超参数。你有很多这样的实际东西来自深度网络的理论研究
我认为现在我们缺少的是对每个人都容易获得的东西。许多当前的深度网络理论研究需要大量的数学背景,对于没有获得数学博士学位或至少没有获得数学学士和硕士学位的人来说,这真的不容易获得。这就是为什么我真的很喜欢
因为你实际上即使只是通过对模型的目视检查也可以取得进展。这就是为什么我一直试图不仅为了理论而做理论,而是为了让任何阅读这篇论文的人都能够从中学习并在明天训练更好的模型。这是我的目标。
我试图关注并使其对人们更容易理解。但是深度学习有很多不同的理论观点,每一个都试图提出新的解决方案。但是现在我认为我们需要尝试将所有内容组合成一个独立于模式、独立于架构并且对每个人都容易理解的东西。
太棒了。你明年会与Ellie Pavlik一起发表论文吗?这是希望。这是希望。是的,是的,是的。我是Ellie的忠实粉丝。我让她参加了节目。我认为她目前正在研究LLM中的否定问题。是的。是的,是的。与她交谈也很有趣,因为她思考语言的方式
以及我们如何学习、LLM如何学习以及我们可以从中学习什么非常有趣,并且非常补充尝试使用Siri和样条曲线来解释LLM。这就是为什么我认为明年肯定会有很多富有成效的合作。
我的意思是,在某种程度上,这就是ICML的优点,但这也是让我对我们今天讨论的论文着迷的原因,因为你拥有如此丰富的背景,你知道,进行自监督学习和视觉模型等等。而且,你知道,我们一直在谈论的主题是表示和训练动态中这种复杂性谱。将它转移到RLHF中是多么有趣。
这似乎是一个略微不同的领域,但科学都是关于从不同领域重用知识和交叉授粉的,对吧?是的,完全正确。我认为只要你不过度依赖于非常具体的架构、非常具体的观点,你在一类模式中获得的直觉很容易转移到其他模式。这就是样条曲线的妙处。
样条曲线与模态无关,无论你对样条曲线划分获得什么见解,它都可以在不同的数据集上转移,无论是图像还是文本等等。正如你所说,这篇论文就是一个很好的例子,Sarat 和 Romain 来自
LLM 领域的专家,我来自样条曲线领域,我们很容易就找到了解决方案,因为一旦你掌握了这种直觉,一切都是可以转移的。这就是为什么人们不应该害怕
探索新的维度、新的数据模态甚至新的架构。实际上,这就是你获得最佳见解的方式,最终这些见解会互补。太棒了。现在,如果人们想了解更多关于样条曲线理论的知识,你会推荐他们去哪里?这是一个好问题。我认为最好的方法可能是看看我们最近与 Rich、Imtiaz
一起做的几篇关于样条曲线的论文。其中有一些论文侧重于生成模型,例如使用样条曲线进行不确定性量化,或者这里用于 LLM 并尝试找到最接近他们当前专业知识的论文,这样就不会一次学习太多东西。所以只需要学习样条曲线划分等等。然后联系我们,显然,
随时可以给我们发邮件,在 Twitter 上给我们发消息等等,因为如果你看 80 年代和 90 年代的论文,样条曲线可能会非常神秘,因为他们思考问题的方式非常非常不同。所以不要试图去看一篇 30 年前的关于样条曲线逼近和逼近率的论文,因为它只会让你更加困惑。首先看图,看最新的论文,
然后如有任何问题,请联系我们。酷。还有一个额外的问题,最近,Kolmogorov-Arnold 网络受到了关注,它们也是一种样条曲线方法,对吗?是的,是的,完全正确。基本上,他们试图提出一种替代当前 MLP 的方法,在架构中添加硬编码,一些样条曲线激活函数。这是一个很好的例子,说明如何使用先验知识来定义一个非常适合某些特定问题的架构。我认为他们研究的大多数问题都是小规模和低维度的。这就是你需要真正专业的知识来设计分区应该是什么样子以及使用哪种类型的样条曲线才能从小型训练集中获得最佳效果的地方。
到目前为止,样条曲线是一种非常好的方法,因为几何图形是可视化解释的。你可以看到你需要什么。如果你对大多数事情进行硬编码,这意味着你需要的训练时间更少,训练样本更少才能学习到有意义的东西。所以样条曲线的另一个有用之处在于,如果你真的是
你所在领域、你的数据领域和你的下游任务的专家。然后你可以尝试将其转化为几何属性,样条曲线为你提供了一种非常好的方法来做到这一点,并将它付诸实践,创建新的架构并获得新的模型。- Rando Bellistrio,非常荣幸也很高兴再次邀请你。非常感谢你。- 同样,同样。非常感谢你的邀请。