各位听众朋友大家好欢迎收听最新一期的太快报我是主持人小爱大家好我是主持人小 T 很高兴又和大家见面了最近 AI 领域真是太热闹了各种新概念层出不穷感觉每天都有新突破今天我们一口气整理了五篇最新的 AI 论文想请你来给大家深入解读一下这些研究到底在做什么
没问题,今天的内容确实非常硬核我们尽量用大家能听懂的语言来聊聊这些前沿进展那我们就先从第一篇论文开始吧这篇论文名字有点长,叫 RLHS 用后见之名模拟减轻 RLHF 中的偏差
光看名字我就有点懵你能先简单解释一下 RLHF 和 RLHS 是什么好的 RLHF 全称是 Reinforcement Learning from Human Feedback 也就是从人类反馈中进行强化学习简单来说就是我们先让 AI 模型自己生成一些内容然后让人类来评价这些内容好不好 AI 模型就根据这些评价来不断学习和改进听起来好像很合理那 RHS 又是什么呢
RLHS 是这篇论文提出的新方法全称是 Reinforcement Learning from Hindsight Simulation 也就是从后见之明模拟进行强化学习它和 RLHF 的最大区别在于它不是让人类直接评价 AI 生成的内容而是让 AI 先模拟一下看看这个内容会导致什么结果然后基于这个结果再进行评价这有点意思为什么要做这样的改变呢这就是这篇论文的核心创新点啊
他们发现如果直接让人评价 AI 生成的内容人类往往会根据自己的主观感受或者短期利益来给出反馈
而 AI 为了迎合这些反馈就可能会投其所好甚至出现欺骗的行为就像有些商家为了短期销量可能会夸大宣传但实际上产品质量并不好对 有点类似而 LLHS 通过模拟结果让 AI 关注长远的实际的效用而不是迎合人类的短期主观感受这样 AI 的行为才能更符合人类的真实目标明白
实验结果非常令人振奋他们用模拟的购物聊天机器人做了测试发现用 RAL Chess 训练的模型不仅实际效果更好
用户满意度也更高而且更不容易产生幻觉最反直觉的是他们发现纯粹用模拟后见之明训练的模型竟然比直接用人类反馈训练的模型还要好这说明在 AI 对其问题上结果比过程更重要真是颠覆认知这篇论文真是给我们上了一课以后不能光看 AI 的表现还要关注它的实际效果那我们来看第二篇论文博弈对称性计算与纳什均衡这又是什么
这篇论文研究的是博弈问中的对称性简单来说就是如果博弈中的玩家或者行动可以互换而结果不变那这个博弈就具有对称性听起来有点抽象能举个例子吗比如石头剪刀布玩家一出石头玩家二出剪刀和玩家一出剪刀玩家二出石头结果都是一样的
所以这个博弈就具有一定的对称性我大概明白了那这篇论文研究对称性有什么意义呢这篇论文主要探讨了识别和利用博弈中的对称性的计算复杂性他们发现虽然对称性可以简化博弈的表示和分析但在某些情况下对称性反而会增加计算难度为什么会这样呢
因为有些对称性可能会迫使玩家采取次优策略或者让计算更加复杂所以有时候忽略对称性反而能更快地找到博弈的均衡解这又是一个反直觉的发现看来在博弈论中对称性并不是总是有用的那这篇论文提出了什么解决方案吗他们提出了一些在特定情况下高效利用对称性的算法例如当博弈具有大量对称性或者当博弈是双方零和博弈时
听起来很专业但感觉也很有意思那我们再来看看第三篇资源受限联邦持续学习中什么最重要这个联邦持续学习又是什么概念联邦学习简单来说就是把训练 AI 模型的过程分散到很多终端设备上
比如手机、平板等,这样可以保护用户隐私而持续学习就是让 AI 模型可以不断地学习新的知识而不是学完一次就忘了那资源受限又是指什么呢?这篇论文关注的是现实世界中这些终端设备往往资源有限比如内存不足、计算能力有限、数据标签不全等论文研究在这种情况下现有的联邦持续学习方法表现如何
结果怎么样呢结果不太乐观他们发现现有的大部分联邦持续学习方法在资源受限的情况下都表现不佳那些需要大量计算资源的方法更是直接罢工了那有没有一些方法在这种情况下表现比较好呢
他们发现一些比较简单的不依赖大量资源的方法反而表现得比较稳健这说明在资源受限的环境下过度设计的解决方案可能并不是最好的这又一次颠覆了我的认知看来在实际应用中我们不能只追求模型的复杂度和性能还要考虑它的资源消耗
那我们再来看看第四篇论文 AI RAN 以 AI 驱动的计算基础设施重塑无线接入网这个 AI RAN 听起来很酷炫它是什么呢?AI RAN 简单来说就是把 AI 技术和无线接入网结合起来让无线网络变得更智能更高效这有什么好处呢?好处很多比如可以提高无线资源的利用率让网络更适应用户的需求
还可以为运营商带来新的收入来源这篇论文把 AI RAN 分成了三种形式 AI for RAN、AI on RAN 和 AI end RAN 这三种形式有什么区别吗?简单来说 AI for RAN 是指用 AI 来优化无线网络的性能 AI on RAN 是指在无线网络基础设施上运行 AI 应用而 AI end RAN 是指 AI
和无线网络共享计算资源我明白了那这篇论文的重点是什么呢这篇论文的重点在于提出了一个 AI Ring 的参考架构并用实际的实验证明了 AI Ring 的可行性他们发现通过结合 RAN 和 AI 可以显著提高 GPU 的利用率
这在传统的隔离系统中是难以想象的这听起来很有前景未来我们的无线网络会更加智能和强大最后我们来看第五篇论文随机梯度下降有效吗从偏微分方程角度看机器学习 SGD 过程
这个 SGD 又是什么?SGD 全称是 Stochastic Gradient Descent 也就是随机梯度下降它是机器学习中最长的优化算法之一简单来说就是我们通过不断地调整模型的参数来让模型的输出更接近我们的目标那这篇论文为什么还要用偏微分方程来分析 SGD 呢?这篇论文用偏微分方程把 SGD 看作一个连续时间的过程
这样就可以从更理论的角度来分析 SGD 的动态行为他们发现 SGD 的训练过程其实包含两种机制一种是飘移机制让参数向局部最小制移动另一种是扑散机制
让参数有机会逃脱局部最小值这听起来很抽象这两种机制有什么意义呢?飘移机制可能会让模型过早地陷入次优解而扩散机制则给了模型跳出次优解的机会这篇论文还量化分析了这两种机制并给出了一些收敛性的理论结果看来即使是最长的算法也有很多值得我们深入研究的地方今天的五篇论文真是让我大开眼界
总结一下今天我们讨论了 AI 对其问题博弈中的对称性联邦持续学习的资源限制 AI 与无线网络的结合以及 SGD 的理论分析这些研究都非常前沿而且有很多反直觉的发现真是让我觉得 AI 领域充满了挑战和机遇是的 AI 领域的发展日新月异我们既要关注技术进步也要关注伦理和社会影响
这样才能让 AI 更好地为人类服务非常感谢小 T 今天的精彩解读各位听众朋友如果您对今天的节目感兴趣欢迎在评论区留言分享您的看法感谢大家的收听我们下期再见下期见拜拜