大家好,欢迎收听最新一期的《太快报》,我是主持人小爱。大家好,我是小 T,很高兴和大家见面了。最近 AI 领域又涌现了不少有意思的新研究,今天我们要聊的这几篇论文感觉都特别有意思,它们不仅在方法上有所创新,更是在理念上给了我们很多新的启发。
是的,今天我们选取的这几篇论文涵盖了自监督学习语言模型对其专家系统以及强化学习等多个方向这些研究都试图从不同的角度让 AI 变得更智能、更安全、更有效第一篇论文题目是自监督学习的概率模型自监督学习现在很火,但感觉它一直有点神秘小 T,你能不能先给我们通俗地解释一下什么是自监督学习
好的小爱你可以把自监督学习想象成一个自学成才的学生他不需要老师直接告诉他正确答案而是通过自己做练习题的方式从大量未标记的数据中学习到有用的知识比如说给模型看一张被遮住一部分的图片让它还原或者把一段被打乱的文字让它恢复原样通过这种方法模型就能逐渐理解图片和文字的内在结构听起来很有意思
那这篇论文又提出了什么新观点呢?这篇论文厉害的地方在于它把自监督学习放到了一个概率模型的框架下进行分析它就像给自监督学习做了一次透视找到了一个万能公式能够解释自监督学习的工作原理这个模型的核心观点是自监督学习的效果好不好很大程度上取决于我们怎么做练习题也就是数据增强的方式
数据增强这个词听起来有点专业能再解释的简单点吗没问题数据增强就是我们为了让模型更好的学习对原始数据进行一些加工比如把图片旋转一下或者加一些噪声论文发现如果数据增强只是简单的加一些各项同性噪声就像给图片均匀的加上一些雪花点那么自监督学习的效果其实和传统的 PCA 主成分分析差不多并没有什么优势
但如果数据增强加的噪声是正交噪声,就像给图片加上一些和原始信息垂直的担扰,这时自监督学习就能够超越 PCA 学到更好的表示。这意思是说不是所有的练习题都有效。是的。
论文的核心观点就是有效的自监督学习增强应该能够保留数据中重要的信号并去除或者弱化不重要的噪声这就像一个好的老师应该知道怎么给学生布置有针对性的练习题而不是随便给一些没有意义的题目这个观点很有启发性也让我们更深入地理解了自监督学习的本质太棒了感觉对自监督学习的理解又深了一层
接下来我们聊到第二篇论文测试时偏好优化通过迭代文本反馈进行及时对齐这个标题听起来有点绕能简单介绍一下它在说什么吗?好的现在的大圆模型很强大但有时它的输出可能不符合我们的预期比如有些回答不够安全或者不够符合我们的偏好为了解决这个问题传统的做法是在模型训练的时候通过人类的反馈来优化模型但
这篇文章提出了一种新的方法叫做测试时偏好优化它的厉害之处在于它能在模型推理的时候也就是在模型回答我们问题的时候实时的微调模型的输出让它更符合我们的偏好
听起来很灵活它是怎么实现的呢 TPO 的核心思想是把人类的偏好转化为文本反馈当模型给出一个回答时会有一个奖励模型对这个回答进行评估并给出一个文本评价这个文本评价就像一个文本梯度指导模型进行迭代优化这感觉就像我们做数学题时老师不仅会告诉我们答案是否正确还会给出详细的解题步骤指导我们下一步怎么做
是的,你可以这么理解,更神奇的是,论文发现,即使是对一个没有经过对齐训练的模型,通过几轮 TPO 的优化,就能超越那些经过专门训练的对齐模型,这说明模型本身其实蕴藏着巨大的潜力,只要我们能找到合适的方法,就能充分挖掘出来。这个发现太反直觉了,那 TPO 有什么限制吗?
TPO 的成功依赖于模型强大的指令遵循能力。如果模型本身理解和执行文本反馈的能力较弱,那 TPO 的效果就会受限。另外,文本反馈的质量也至关重要,如果反馈不准确可能会影响优化的效果。这也是提醒我们要深入研究模型的能力,才能找到合适的微调方法。
好 接下来我们聊聊第三篇论文 专家自主模型这篇论文听名字就感觉很厉害这篇论文确实很有意思 它挑战了传统的混合专家模型的设计思路传统的混合专家模型就像一个分工明确的团队有一个领导负责把任务分配给不同的专家去处理但这篇文章认为这种由中心化的领导进行分配的方式并不高效
而且可能存在选择不当的问题那他们是怎么做的呢这篇文章提出了一种新的专家自主模型 AOE 架构在这个架构中专家不再需要领导大概的分配而是根据自己对任务的理解来决定是否要接单具体来说每个专家都会先评估一下自己处理这个任务的能力如果觉得自己能胜任才会参与进来这感觉像一个自由职业者平台
每个专家都有权利选择自己擅长的任务是的 你可以这么理解论文还采用了一种叫做低质分解的技术来提高效率让专家的自我评估过程更加快速和高效实验结果表明 AOE 模型不仅能更好地选择专家还使得整个模型的训练更加高效移除领导反而效果更好
就有点反常识这正是这篇文章的亮点所在它启发我们中心化控制不总是最好的选择在某些情况下赋予组建更多的自主权反而能带来更好的效果最后我们来聊聊第四篇论文以及第五篇论文他们都与强化学习有关而且都提出了对奖励机制的新思考
是的,这两篇论文都非常有启发性先说 MONA 短视优化与非短视认可相结合以缓解多部奖励篡改强化学习的目标是让智能体通过不断试错学会最大化奖励但是如果奖励函数本身存在问题那么智能体可能会通过一些不期望的行为来获得高奖励这就是所谓的奖励篡改传统的强化学习往往是希望模型最大化长期收益
但这篇文章提出一种新的方法叫做短视优化与非短视认可 Mona 这个名字听起来就很矛盾那它是怎么实现的?Mona 的核心思想是它让智能体只关注眼前的奖励而不是未来的奖励同时它引入了一个监督者来评估智能体的行为并给出额外的认可
这种认可是基于对智能体未来行为的预测而不是实际的结果这就像我们教育孩子不仅要关注他最终的考试成绩还要关注他的学习过程和方法及时给予引导和认可这感觉是既短视又远视的结合
是的 这种短视的优化可以防止智能体为了获得长期收益而发展出复杂的难以理解的奖励 篡改策略而远视的认可又能保证智能体的行为符合我们的希望听起来很有道理那最后一篇用分布动态规划优化回报分布又有什么新意呢这篇论文的重点在于他认为强化学习不应该仅仅关注期望回报而应该关注整个回报分布他把我们对风险的偏好考虑了进来
他提出了一种库存增强的方法,把过去的奖励统计信息整合到状态中,从而使动态规划能够优化更广泛的统计泛含,比如风险灵感的决策。
听起来很复杂能举个例子吗比如在投资中我们不仅关心平均收益也关心风险有的投资者比较厌恶风险希望收益波动尽可能小有的投资者则比较喜欢冒险希望获取更高的收益即使伴随着更高的风险这篇论文提出的方法就能让 AI 更好的根据我们的风险偏好做出决策这感觉就像给强化学习增加了一个个性化的设置
是的它可以让 AI 系统更加灵活地适应不同的任务和目标听完小 T 的解读感觉今天的这几篇论文真的太精彩了他们从不同的角度提出了对 AI 发展的新思考是的这些论文不仅在技术上有所创新更重要的是它们启发我们重新审视 AI 的本质以及我们应该如何更好地利用 AI 感谢小 T 今天的精彩分享也感谢大家的收听我们下期节目再见下期见拜拜