我们今天都生活在一个被 AI 包围的时代你有没有发现一个现象有时候 AI 强大到让你觉得不可思议它能写诗能画画能编程但有时候它又笨得可爱会犯一些常识性的在我们看来非常可笑的错误这背后其实藏着一个根本性的问题今天的 AI 到底是真正理解了我们教给它的东西还是仅仅在进行一种高级的模仿和统计猜谜它能学会加减法
那他真的理解什么是运算吗?他能写出合乎语法的句子那他真的理解什么是语法结构吗?换句话说 AI 能不能从我们喂给他的海量数据里自己悟出那些最底层的最根本的规则和结构这就像我们教一个孩子 1 加 1 等于 21 加 2 等于 3 我们希望他有一天能自己顿悟明白加法到底是怎么回事然后就能举一反三解决所有加法问题最近有一篇科学论文标题很长叫《
神经网络为何能通过梯度训练发现符号结构神经符号推理的代数与集合基础 Why neural network can discover symbolic structures with gradient-based training?An algebraic and geometric foundation for neurosymbolic reasoning 就尝试从一个全新的非常巧妙的角度来回答这个问题首先我们得知道训练一个 AI 模型好比什么呢?最经典的那个比喻就是一个蒙着眼睛的人下山想象一下
你被蒙着眼睛放在一个高低不平的山坡上你的任务是走到山谷的最低点你该怎么办很简单伸出脚往四周探一探哪边是下坡就往哪边迈一小步这样一步一步走下去虽然慢但最终总能走到一个局部的最低点这就是 AI 训练中最核心的梯度下降思想但是这篇论文提供了一个更高级的视角它说咱们别只盯着这一个蒙眼的人了我们来想象一下
在训练刚开始的时候我们不是放一个人而是在整个山坡上密密麻麻地撒下了一大群人成千上万我们关心的不再是某一个人的具体路径而是这整个人群的整体分布和流动趋势这个视角一变境界就打开了 AI 模型的无数个参数就不再是一个个孤立的点而是一个概率分布像一片云或者说就是这一群人训练过程就是这群人整体寻找最低点的过程好现在这群人开始下山了
他们要怎么走才能不仅找到最低点还能在行走的过程中自动排好队形领悟山坡背后隐藏的规则呢这篇论文发现了一个关键的秘密武器几何约束这是什么意思呢还是用下山的例子如果这个山坡地形极其复杂坑坑洼洼那这群人下去之后可能就乱作一团东倒西歪但如果这个山坡具有某种非常优美的对称性呢比如说它不是一个乱七八糟的山坡而是一个完美的圆形的大碗
当你把这群人撒在这个大碗的碗壁上时会发生什么你会发现不管他们一开始在哪个位置由于碗这个几何形状的约束他们唯一的方向就是朝着碗底滑动所有人的行动路线一下子就变得极其简单和一致了这篇论文的核心洞察就在这里他发现如果我们给 AI 模型的训练过程加上一些特定的几何约束比如
某种对称性那么原本极其复杂的高维度的优化问题就会被奇迹般的结偶分解成一系列各自独立的简单的子问题这就好比那群下山的人本来需要互相协调看路找方向非常复杂但在大碗这个几何约束下问题被简化了每个人只需要沿着自己的那条直线滑到碗底就行了互不干扰每个人要解决的只是一个从高到低的一维问题
当这些独立的子问题都被解决了所有人都滑到了碗底那个复杂的总的任务也就被解决了 AI 就在这个过程中自然而然地发现了解决问题的符号结构也就是那些最根本的规则在这个几何约束引导的下山过程中还产生了两个特别有意思的副产品第一代数结构的浮现论文发现用这种方法找到的答案也就是模型参数的最终分布
他们之间不是孤立的他们竟然像乐高积木一样可以按照某种代数规则进行拼接组合比如你训练了一个会做加法的 AI 又训练了一个会做乘法的 AI 在一定条件下你可以把这两个 AI 的解决方案组合起来得到一个既会加法又会乘法的新 AI 这就为我们构建更强大的可组合的 AI 能力提供了一种理论上的可能性第二 维度的降低一开始那群人散布在整个山坡上代表着一个非常高维复杂的系统
但随着他们不断向碗底汇集这群人最终会聚集在一个很小的区域甚至是一个点这意味着系统在训练过程中会自动甩掉那些不必要的复杂性收缩到一个更简单更低位的有效状态就像我们学习一样一开始可能觉得千头万绪但一旦抓住了本质规律知识体系就会变得非常简洁和清晰聊到这你可能明白了这篇论文的厉害之处在于它为我们描绘了一幅全新的图景解释了
AI 是如何可能实现顿悟的这不仅仅是一个漂亮的数学模型它至少给了我们三点重要的启发第一 AI 的智能不是凭空产生的而是源于精心设计的约束想要让 AI 学会举一反三光靠未给它海量数据可能还不够更重要的是在训练机制中引入正确的几何结构和对称性就像为它打造一个完美的大碗引导它走向正确的结构化的解决方案第二未来的 AI 可能是可组合的
这篇论文揭示的代数结构让我们看到了模块化构建 AI 的可能性我们不再需要每一次都从零开始训练一个庞大无比的模型而是可以像搭积木一样将解决不同子任务的模块组合起来构建出能力更强更通用的智能系统第三为设计更好的 AI 指明了方向他告诉我们在设计新的 AI 架构时可以有意识地去考虑如何嵌入这些几何和代数原理比如
设计一些能自动寻找低伤也就是更简单更有续解的机制或者在架构中直接体现出任务所需的对称性总而言之这篇论文用一套优美的理论告诉我们机器的学习过程可以不只是对数据的暴力拟合它同样可以是一个涌现出秩序结构和规律的优雅过程这就像我们人类学习不仅仅是死机硬背更是要掌握事物背后的规律和结构这篇论文就是为我们揭示了机器通往这种深层理解的一条可能路径