cover of episode 你的AI在偷偷“修炼”:通往无穷的平坦大道

你的AI在偷偷“修炼”:通往无穷的平坦大道

2025/6/24
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
Topics
我介绍了当前人工智能模型训练的一个常见类比,即蒙眼机器人在复杂地形中寻找最低点。虽然理论上找到全局最优解非常困难,但实践中AI训练的成功率却出乎意料地高。一篇名为《神经网络损失景观中的无限平坦通道》的论文揭示,在复杂的损失景观中存在着通往无穷的平坦通道,这解释了AI训练为何能取得成功。这些通道并非真正的平坦,而是具有极其微小的坡度,沿着这些通道前进,AI的性能会持续提升。这就像人生中的平台期,表面看似停滞不前,实则可能正处于通往更高境界的通道上,需要耐心和坚持才能实现蜕变。 我进一步阐述了AI在平坦通道中的内部运作机制。研究发现,当AI进入这些通道后,网络中的神经元会展开一种奇特的合作。具体来说,至少有两个神经元的输入权重会变得越来越接近,最终几乎完全一致;而它们的输出权重则会向两个极端分化,一个变得非常大,另一个变得非常小。这种看似内耗的机制实际上促使这两个神经元共同实现了一种更高级的功能,即门控线性单元。这意味着AI并非简单地寻找最优解,而是在训练过程中自我创造出更强大、更精密的计算工具,实现自我进化。

Deep Dive

Shownotes Transcript

你有没有想过一个问题我们现在天天说人工智能训练一个 AI 模型感觉很高科技但说白了这个过程就像是把一个蒙着眼睛的机器人放到一个地形极其复杂的山脉里让他自己找到海拔最低的那个山谷这个地形图在行画里叫损失景观按理说

这个机器人很容易就走到一个坑里出不来以为自己到了最低点其实只是个小土坑也就是所谓的局部最优或者卡在一种叫安点的地方就像马鞍前后是下坡左右是上坡也动弹不得总之想找到真正的最低点难于上青天但奇妙的是在实践中我们发现训练 AI 模型成功率还挺高这是为什么呢难道是我们的运气都那么好最近一篇名为

《神经网络损失景观中的无限平坦通道》Flat Channels to Infinity in Neural Lost Landscapes 的论文给我们揭示了一个非常精彩的幕后故事他发现在那个复杂无比的山脉地形里存在着一些我们以前没注意到的神秘结构论文称之为通往无穷的通道想象一下你的那个机器人走着走着来到了一片看起来非常非常平坦的区域你用一气一测几乎是水平的心想得到地方了

这就是一个不错的山谷底部了但这篇论文告诉我们你可能被骗了这片区域不是一个平底锅而是一条极其平缓的通道它看起来平但其实有一个微乎其微的坡度一直在缓缓下降而且这条通道没有尽头它一直延伸到无穷远的地方

只要你沿着它一直走你的 AI 性能就会持续地一点一点地变好这就非常有意思了这就像我们的人生有时候你觉得进入了一个平台期每天都在重复没什么进步但也许你只是走上了一条通往无穷的通道真正的蜕变需要的是沿着这条路持续走下去的耐心那么在这条神秘的通道里 AI 内部到底发生了什么呢研究者发现了一个更奇妙的二人转机制

当 AI 进入这个通道后网络里至少有两个神经元你可以理解为两个员工开始了一种奇特的合作第一他们的输入权重也就是他们看待问题处理信息的方式变得越来越接近

最后几乎一模一样第二他们的输出权重也就是他俩的话语权和影响力开始向两个极端分化一个的影响力变得超级大比如正一万另一个则变得超级小负一万一个技能相同的人却分裂成了一个铁杆支持者和一个铁杆反对者这是要干嘛

内耗吗恰恰相反当这两个极端的力量结合在一起时它们没有相互抵消而是涌现出了一种全新的更高级的功能论文指出这两个神经元最终共同实现了一个叫做门控线性单元 Gated Linear Unit 的东西这个词你不用记你只需要理解这个比喻

它相当于把两个普通员工合成了一个带智能开关的高级专家这位专家不仅能干原来的活线性单元还额外多了一个门或者叫开关门控这个开关能根据不同的情况非常精妙地决定某个附加功能要不要开启开启多少你看 AI 不是简单地在找一个现成的最优解它在训练过程中竟然通过这种方式给自己创造出了更强大更精密的计算工具

他在自我进化在偷偷修炼所以这篇论文给了我们什么样的启发呢首先他让我们看到了 AI 系统内部一种令人惊叹的自组织和自由化能力他不是一个死板的巡路机器他的内部会涌现出新的结构和能力来更好地解决问题其次他也提醒我们不要被平台期的表象所迷惑很多时候我们以为的停滞可能恰恰是进入了一条通往更高境界的漫长通道的入口这时候重要的不是进步的速度有多快而是

而是你是否还在那条正确的虽然平缓但持续向上的道路上最后这个发现也为我们打开黑箱理解 AI 的内部世界提供了一张更清晰的地图我们看到的那些看似平淡无奇的平坦区域背后可能隐藏着通往无穷智慧的康庄大道这不仅是对机器智能的洞察对我们理解复杂系统乃至我们自身的发展都颇有启发