欢迎大家收听台块棒,我是小爱。大家好,我是小弟,很高兴我们又见面了。那咱们就直接开聊吧。第一篇论文标题有点拗口,叫 Learning to Chain of Thoughts with Jensen,Quad as Evidence Lower Bound,听起来像是教 AI 怎么一步步思考。
能不能先给我们讲讲什么是思维链为什么它对 AI 这么重要好问题思维链英文叫 chain of thought 简称 COT 简单说就是让 AI 在解决问题时像人一样一步步推理而不是直接蹦出答案比如一道数学题 AI 不是立刻说答案是 5 而是会写出先加 2 再乘 3 最后除以某数
这样一步步推导这种能力特别重要因为很多复杂问题比如数学推理或者逻辑体光靠直觉猜答案很难搞定得靠清晰的推理过程明白了就是让 AI 把思考过程写出来有点像小学生做作业得写步骤那这篇论文是怎么让 AI 学会这个的呢听说它不用传统的奖励函数这让我很好奇
这就是这篇论文的亮点通常训练 AI 用强化学习的有个外部奖励函数比如答对了给个高分错了就扣分但设计这个奖励函数很麻烦而且不一定准这篇论文另辟蹊径用了一个数学工具叫 Janson 证据下界简称 JLB
把思维链优化变成一个概率推断问题通俗点说他让 AI 自己根据正确答案的概率去调整推理步骤不需要人为告诉他这个好那个不好哇这听起来很聪明那他具体怎么做到的呢能给我们举个例子吗当然假设有个问题小明有三个苹果小红给了他两个
问他现在有多少 AI 可能会尝试不同的推理路径比如 3 加 2 等于 5 或者先算 3-2 再加回来 GLB 方法会让 AI 多试几次然后根据正确答案 5 的概率推算哪条推理路径更靠谱
论文还加了个多样本 版本 通过平均多个推理路径的带率 让结果更稳这种方法在数学推理数据集上表现得很不错 甚至不输给传统的强化学习这让我想到一个画面 AI 像个学生拿着橡皮擦改来改去 最后找到最靠谱的答案那它比传统方法好在哪呢最大的好处是不用依赖外部奖励函数 省去了涉及奖励的麻烦
而且它计算成本更低适合大规模训练论文里还提到这种方法让 AI 的推移过程更稳定特别是在数学这种需要精确推理的场景不过它也有局限比如目前主要在数学任务上测试过其他领域还得再看看原来如此感觉像是给 AI 装了个内嵌导航自己找路那咱们接着看第二篇 Optimizing Language Models for Inference Time Objectives Using Reinforcement Learning 这个标题
这个推理时目标指的是 AI 在实际使用时的表现而不是训练时的表现比如我们常听到的 pass at 意思是 AI 生成 K 的答案只要有一个对就算成功还有多数投票就是从多个答案里挑最常见的那个这篇论文说传统的训练只关注平均正确率但实际用的时候大家更关心这些推理时的指
所以他们用强化学习直接优化这些目标哦 我懂了就像考试平时链题是平均分但考试时你可能只关心能不能蒙对一个答案那他们怎么优化的呢他们设计了一种强化学习算法专门针对 PathK 和多数投票这些指标比如 Path
就是让 AI 生成 8 个答案他们会调整 AI 的参数让这 8 个里至少有一个对的概率变高实验在数学和代码生存任务上都试了发现这种方法确实能提升 Path-to-tweet 的表现尤其在难题和大模型上效果更明显
有優化這些推理時目標可能會犧牲平均正確率,也就是 pass at one,而且計算成本會高一些。
因为要生成多个答案不过论文里说这种权衡在实际应用中很值得比如写代码时多试几次总比一次错要好确实很实用接下来第三篇 Scaling EvaluationTime Compute with Reasoning Models as Process Evaluators 这个好像跟评估有关能不能给我们讲讲对 这篇论文很有意思传统的 AI 优化都集中在训练和生成上
但这篇说咱们也可以在评估阶段多下功夫他们提出用会推理的 AI 当评估员不仅看答案对不对还检查每一步推理过程比如一道数学题 AI 不只看最后答案 5 对不对还会检查 3 加 2 这步有没有错这不就像老师批作业吗不仅看结果还看过程那这样做有什么好处
好处是评估更细致能发现 AI 推理中的小毛病他们还发现把计算资源多花在评估上比多生成几个答案更有效比如用 Best of 8 评估比 Best of 64 生成还强这在代码生成任务上特别明显能显著提高成功率
哇,这让我想到一个比喻,与其让 AI 多写答案,不如请的郝老师严格把关,那他有什么挑战吗?挑战是计算量会增加,毕竟每步都得检查,不过论文认为这种投入很值得,因为它能让 AI 的输出更可靠,未来如果能优化效率,这个方法可能会大方一彩。
听起来像是在 AI 世界里引入了质检源那第四篇 Evolutionary Policy Optimization 这个跟进化有关能不能讲讲这篇论文很有创意它针对强化学习的一个老问题样本效率低他们借鉴了生物进化的思路提出一种叫 EPO 的算法想象一群 AI 小兵每个人都有自己的基因也就是独特的推理方式通过自然选择表现差的被淘汰
好的留下还会杂交出新丁这样既保持多样性又提高了学习效率这不就像养宠物吗挑好的繁殖最后养出一只超级聪明的那它效果怎么样效果很棒他们在模拟环境里测试比如让 AI 控制机械手操作东西 EPO 的表现比传统方法强多了
而且它还能随着计算资源增加不断变强,特别适合大规模并行计算。不过它算法复杂条参数可能有点费劲。感觉像在玩,就是 AI 进化模拟器最后一篇 Scaling Laws of Synthetic Data for Language Models,这个跟合成数据有关,能不能给我们讲讲?当然,现在 AI 训练靠网络数据,但好数据越来越少。
这篇论文提出用合成数据代替他们设计了一个叫 SynthesisLM 的框架能从现有数据里生成新问题比如从数学文档里提取概念重组出新题目再用 AI 生成答案实验发现合成数据也有自己的增长规律模型越大需要的数据越少但性能照样提升这让我想到变非为宝把旧数据翻新成新题目那它效果好吗
很好,在数学推理任务上,Sensei LOM 生成的题目比现有合成数据强,问题还更多样。不过它目前主要在数学领域试过,其他领域还在验证,而且生成过程有点费算力,未来可以再优化。好了,今天的太快报就到这里,感谢小 T 的精彩讲解,也谢谢大家的收听,我们下期再见。