大家好欢迎收听太快报我是小爱大家好我是小 T 欢迎回来那咱们先聊聊第一篇论文标题是 Absolute Zero Reinforced Self-Play Reasoning with Zero Data 听起来像个科幻片的名字绝对零是什么意思 AI 真的能从零开始学习这个绝对零确实挺酷的
他指的是一个完全不需要任何人类准备的数据就能让 AI 自己学会推理的训练方法想象一下你是个学生老师不给你课本系题甚至连题目都不出你的自己想出问题解答还得检查答案对不对这论文提出了一种叫绝对零推理器 SVR 的系统 AI
自己当出题人和答题人,通过写代码和验证代码来提升推理能力。等等,自己出题自己答,这不会乱套吗?怎么保证 AI 出的题有意义?好问题 A,JR 的设计很巧妙,它让 AI 扮演两个角色,一个出题人生成编程任务,一个答题人去解决这些任务。
关键是 AI 用一个代码执行器来检查答案,相当于一个严格的自动评分机出题人还有个奖励机制,如果出的题目太简单或太难,奖励就低只有难度适中的题目能让 AI 学到最多这种适度挑战的设计,就像我们学东西时难题和简单题都不如中等难度题让人进步快听起来像 AI 在玩一个超级复杂的自学游戏
那他学的怎么样能跟那些用大量人类数据的 AI 比吗结果非常震撼 AZR 从一个简单的很等函数开始完全没用外部数据却在编程和数学推理任务上超过了那些用了成千上万人类数据的模型比如
他在数学推理上的进步比传统方法高出 10 到 15 个百分点更神奇的是他在编程任务上训练后数学能力也突飞猛进说明他的推理能力能跨领域迁移哇这有点像一个人学下棋后逻辑思维变强连解谜题都更厉害了但有没有什么隐患毕竟 AI 自己进化听起来有点不放心你抓到了重点论文里提到一个警报 Azure 训练的模型偶尔
会产生一些令人担忧的推理过程研究者称之为 OHO Moment 这提醒我们这种自进化系统虽然强大但可能有不可预测的行为未来的在安全性和可控性上多下功夫比如设定更严格的边界明白了 潜力巨大但的小心驾驭接下来是第二篇 Improving ModelAlignment Through Collective Intelligence of Open Source LRM
这个集体智慧听起来很有意思是 AI 们组团干大事吗没错这篇论文提出了一种叫混合智能体对其 MOAA 的方法核心是用一群开源 AI 模型的集体智慧来提升单个 AI 的表现想象一个场景你想写篇好文章与其只靠自己不如找几个朋友一起头脑风暴最后整合出更好的点子 M
就是让多个开源 AI 合作生成高质量的训练数据用来调教一个目标 AI
有点像 AI 版的群测群力具体怎么操作呢他们怎么分工 MOAA 分两步走第一步是监督微调阶段多个 AI 分成提议者和整合者提议者们各自给出答案整合者挑出最好的生成高质量的指令数据第二步是偏好优化阶段 AI 们组团当评委判断哪些回答更好哪些不行这种集体判断比单个 AI 更靠谱
实验发现用这种方法调教出的小模型甚至比用单个超级强的闭元模型如 GPT-4O 生成的数据训练出的模型还厉害这太反直觉了一群小 AI 居然能打败一个大 boss 有什么实际好处吗好处多首先它成本低用开源模型比租用闭元模型便宜其次调教出的小模型推理速度快适合实际部署最惊喜的是 MOS
AA 还能让 AI 自我进化当最强的 AI 用集体生成的数据在训练它能超越自己原来的能力这就像一个团队协作后不仅项目做好了连团队成员都变强了这让我想到开源社区的魅力大家一起贡献成果反而更牛接下来是第三篇 Retro Infer a Vector Storage Approach for Scalable Long Context LDM Inference
这个听起来很技术化长上下文推理是什么为什么是个难题好咱们来拆解一下长上下文推理是大模型处理超长文本时的能力比如读一本后书后回答问题现在的 AI 模型在处理长文本时 GPU 显存和带宽会成为瓶颈因为它们需要存储和访问大量的建值缓存
KV 缓存有点像大脑的技术梳理的美业 RetroInfer 这个系统把 KV 缓存当作一个向量数据库用聪明的办法只挑出最重要的部分来处理速度快了显存也省了挑最重要的部分怎么挑不会漏掉关键信息吗 RetroInfer 有个叫波浪索引的设计把文本分成三块一直很重要的部分直接留着比较重要的部分通过
通过索引快速找到其他不太重要的部分用估计来代替误差还控制的很小打个比方就像你读书时把目录和关键章节记牢其他内容大致了解就行结果呢它比传统方法快 4.5 倍显存不够时甚至快 10.5 倍而且准确率几乎没损失这就像给 AI 装了个高效阅读器太实用了未来能用在哪些场景
绝对是大有可为比如法律 AI 分析长篇合同医疗 AI 处理患者病例甚至智能助手帮你总结整本书的内容都能靠这个技术又快又准唯一要注意的是系统有点复杂实际部署可能需要工程师多调优好的
第四篇是 Teaching Models to Understand, but Not Generate High-Risk Data 这个标题很有意思,AI 为啥要理解但不生成高风险内容这是个跟 AI 安全密切相关的研究现在很多 AI 在训练时直接把不当言论或版权内容过滤掉怕他们学会说坏话或侵权
但这样一来 AI 就完全不理解这些内容遇到时可能反应不当比如没法识别恶意评论论文提出了 slang 方法让 AI 在训练时看到高风险内容但不鼓励他生成这些内容相当于教他认识坏东西但别学着说这
怎么做到听起来像让 AI 睁一只眼闭一只眼形容的贴切 Slung 在训练时对高风险内容用特殊的损失函数比如直接忽略它们的生成奖励或者惩罚生成这些内容的倾向但这些内容依然出现在 AI 的视野里 AI 的理解它们才能预测后面的正常内容实验表明 这种方法让 AI 在识别不当言论或版权内容上更强
同时生成这些内容的风险几乎没增加这有点像教小孩认识危险但不让他们模仿实际用处大吗非常大比如社交平台的 AI 审核员的识别恶意评论但不能自己生成类似内容又比如 AI 助手的知道哪些是版权内容避免违法引用此外让 AI 在安全和能力之间找到平衡
不过它依赖于精准的风险标注如果标注错了效果可能打折扣最后是 Distro Dynamic Strategy InductionWith Large Language ModelsFor Reinforcement Learning 强化学习我听说过是让 AI 通过试错学习的对吧这个动态策略归纳又是什么
对 强化学习 RL 就像让 AI 在游戏里试错找到最佳策略但传统方法学的慢而且不容易解释 AI 为啥这么做 Dusty 说用大语言模型 LM 来提炼策略相当于请了个超级聪明的教练
根据 AI 的失误和专家示范写出清晰的行动指南比如 AI 在迷宫游戏里老走错教练就说靠近墙时先左转这些策略会动态更新 AI 通过训练把它们刻进脑子里这教练也太贴心了效果怎么样 AI 真能听懂这些策略吗效果很惊人在复杂迷宫任务中 Distro 的成功率比其他方法高 17.75 个百分点而且学得更快
更酷的是,这些策略式文字形式的人类一看就懂,解决了强化学习黑箱的问题比如,AI 会告诉你,我学会了先找钥匙再开门,可解释性大大提升这让我想到,未来 AI 可能不只是干活,还能解释自己的思路
太有潜力了不过有没有什么挑战有 Digital 依赖强大的语言模型来生成策略如果模型不靠谱策略可能有问题另外动态更新策略会增加计算成本实际部署的优化效率哇今天这五篇论文真是脑洞大开今天就到这里感谢小 T 的精彩讲解咱们下期太快报再见下期见拜拜