We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI黑箱里的一张新地图

AI黑箱里的一张新地图

2025/6/23
logo of podcast AI可可AI生活

AI可可AI生活

AI Chapters Transcript

Shownotes Transcript

我们都知道现在的人工智能特别是那些大型模型非常强大但它们内部是怎么工作的对很多人来说甚至对很多专家来说都是一个黑箱我们只知道把数据喂进去它就能吐出惊人的结果但这个过程到底遵循什么规律有没有办法能像我们理解牛顿定律一样去精确地理解和预测它呢你可能会觉得这太难了但最近有一篇题为

《Random Matrix Theory for Deep Learning Beyond Eigenvalues of Linear Models》面向深度学习的随机矩阵理论超越线性模型的特征值的论文就给了我们一个非常有启发性的新视角它就像是为探索 AI 这个神秘大陆绘制了一张全新的、更精确的地图

我们先从一个反常识的现象说起在学习或者工作中我们通常认为一个模型或者一个系统如果参数太复杂变量太多就容易过拟合也就是说它在熟悉的数据上表现很好但一遇到新情况就抓瞎就像一个学生只会死记硬背课本里的例题稍微换个数字就不会了所以常识告诉我们模型不是越复杂越好但奇怪的事情在 AI 领域发生了

科学家们发现在某些情况下当模型的参数数量大到一定程度甚至超过了训练数据的数量时它的性能不仅没有变差反而神奇地又开始提升了这就是著名的双峰下降 Double descent 现象这完全违反了我们的直觉这背后到底是什么道理过去科学家们不是没有工具有一个很厉害的数学工具叫随机矩阵理论它最早是物理学家用来研究原子核内部复杂粒子系统的后来在很多领域都大放异彩

这个理论特别擅长处理由大量随机变量组成的系统这不正好和今天动辄几千亿参数的 AI 模型很像吗但是传统的随机矩阵理论有个局限它更像是只能分析一个交响乐团所有乐器发出的平均音高而无法告诉你这首交响乐好不好听也就是说它主要关注一些比较宏观线性的指标比如特征值但对于我们真正关心的 AI 模型的性能比如它的预测准确率到底是多少

这种传统工具就有点力不从心了特别是 AI 模型里充满了各种非线性的激活函数这让传统工具更是束手无策而我们今天聊的这篇论文它做的最重要的贡献就是把这个经典工具做了一次关键的升级它提出了一个核心概念叫做高维等价物

High Dimensional Equivalent 这是什么意思呢别被这个名字吓到我给你打个比方想象一下你要计算一个上千万人口的大城市的平均收入最笨的办法是什么是一个一个地去问然后加起来再除以总人数这个过程极其复杂而且充满了各种不确定性但如果我告诉你我有一个神奇的更简单的等价模型比如一个只有几十个参数的数学公式你把城市的一些关键数据比如 GDP 就业率等输进去

它就能算出一个和真实情况几乎一模一样的平均收入这个简单的数学公式就是那个复杂随机庞大的真实城市的确定性等价物 Deterministic Equivalent 它用一个简单的确定的东西替代了一个复杂的随机的东西但在我们关心的平均收入这个具体问题上两者的结果是一致的这篇论文的作者们发现在 AI 模型这个高维世界里同样可以找到这样的等价物对于线性模型他们证明了

一个巨大而随机的矩阵可以看作是模型的一部分它的某些关键性能可以被一个规模小得多完全确定的矩阵所等价这样一来分析就变得极其简单对于更复杂的非线性模型他们更进一步提出了线性等价物

Linear Equivalent 也就是说即使模型里有那些弯弯绕绕的非线性函数但在高维空间里从整体效果来看它们的作用居然可以被一个简单的线性函数或者一个二次函数所替代就像一台结构极其复杂的机器在完成特定任务时它的核心作用可能就等同于一根简单的杠杆有了高维等价物这个强大的新工具我们再回头看之前那个反常识的双峰下降现象

就不再神秘了通过这个新的分析框架科学家们可以精确地计算出模型的预测误差会如何随着参数数量变化那条奇怪的曲线现在可以被数学公式完美地预测出来不是什么魔法而是高维空间里一个必然的可计算的规律给我们带来了什么启发呢首先它把 AI 的一部分玄学变成了科学我们不再只能通过一次又一次的实验去猜模型的效果而是可以在一定程度上算出模型的效果比如

这个框架可以告诉我们模型的训练误差会随着数据量的增加遵循什么样的缩放率 Scaling Law 这对于我们设计和优化 AI 系统具有非常实际的指导意义其次它加深了我们对深度的理解为什么深度神经网络 DNN 通常比浅层网络更好这个框架同样可以用来分析它甚至揭示了一种深度的诅咒在一个随机初始化的深度网络里信号可能逐层衰减

最终让网络变得毫无用处这反过来也启发我们如何才能设计出真正有效的深度结构总而言之这篇论文并没有发明一个全新的 AI 模型但它的价值是为我们提供了一套更强大的认知工具它告诉我们

面对 AI 这样一个新生事物我们过去的直觉可能会失灵但数学和物理学中沉淀下来的深刻思想经过创造性的发展依然能为我们照亮前路它把一个看似混沌的黑箱变得有迹可循有理可依这比单纯提升模型的性能点数可能来得更为重要

We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Export Podcast Subscriptions