We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：从思维链到合成数据

2025/3/27

AI可可AI生活

AI Deep Dive AI Chapters Transcript

People

小

小T

小

小弟

Topics

小爱: 我是本期节目的主持人小爱，我们将和大家一起探讨五篇关于AI前沿研究的论文，涵盖思维链、强化学习、合成数据和模型评估等多个方面。小弟: 作为另一位主持人，我很高兴能和大家一起学习这些前沿的AI技术。小T: 大家好，我是本期节目的技术讲解员小T，我将为大家详细解读这五篇论文的核心内容和研究成果。首先，第一篇论文《Learning to chain-of-thought with Jensen's evidence lower bound》提出了一种利用Jensen证据下界(JLB)优化思维链的新方法，无需外部奖励函数，在数学推理任务上展现了很强的竞争力。JLB方法将思维链优化转化为一个概率推断问题，通过让AI模型尝试不同的推理路径，并根据正确答案的概率来调整推理步骤，从而找到最优的推理路径。这种方法的优势在于避免了传统强化学习方法中设计奖励函数的复杂性和不确定性，计算成本更低，并且能够提高推理过程的稳定性。第二篇论文《Optimizing Language Models for Inference Time Objectives using Reinforcement Learning》关注的是如何优化AI模型在实际应用中的表现，而不是仅仅关注训练时的平均准确率。论文提出使用强化学习直接优化推理时目标，例如pass@k和多数投票等指标。通过强化学习算法，可以提高模型在实际应用中生成正确答案的概率，尤其是在处理难题和大模型时效果更明显。第三篇论文《Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators》提出了一种新的模型评估方法，该方法不仅关注最终答案的正确性，还对AI模型的推理过程进行评估。通过使用会推理的AI模型作为评估员，可以更细致地发现模型推理过程中的错误，从而提高模型的可靠性和准确性。实验结果表明，将计算资源更多地用于评估阶段比生成更多答案更有效，尤其是在代码生成任务中效果显著。第四篇论文《Evolutionary Policy Optimization》提出了一种结合进化算法和强化学习的EPO算法，用于提高强化学习的样本效率和解决复杂任务的能力。EPO算法模拟生物进化过程，通过自然选择和杂交等机制，不断优化模型的参数，从而提高模型的性能。实验结果表明，EPO算法在模拟环境中表现优异，并且能够随着计算资源的增加而不断提升性能。第五篇论文《Scaling Laws of Synthetic Data for Language Models》研究了合成数据在大型语言模型训练中的应用。论文设计了一个名为SYNTHLLM的框架，用于生成高质量的合成数据。实验结果表明，合成数据在数学推理任务上取得了良好的效果，并且模型越大，所需的数据量越少，性能提升也越明显。但是，合成数据的生成过程计算量较大，未来需要进一步优化。

Deep Dive

Chapters

本期节目首先探讨了如何利用Jensen证据下界(JLB)优化思维链，从而使AI能够像人类一样逐步推理，而非直接给出答案。该方法无需外部奖励函数，通过概率推断调整推理步骤，在数学推理任务上表现出色，计算成本更低，且推理过程更稳定。

使用Jensen证据下界优化思维链，无需外部奖励函数
将思维链优化转换为概率推断问题
在数学推理数据集上表现出色，优于传统强化学习方法
计算成本更低，推理过程更稳定

Shownotes Transcript

欢迎大家收听台块棒,我是小爱。大家好,我是小弟,很高兴我们又见面了。那咱们就直接开聊吧。第一篇论文标题有点拗口,叫 Learning to Chain of Thoughts with Jensen,Quad as Evidence Lower Bound,听起来像是教 AI 怎么一步步思考。

能不能先给我们讲讲什么是思维链为什么它对 AI 这么重要好问题思维链英文叫 chain of thought 简称 COT 简单说就是让 AI 在解决问题时像人一样一步步推理而不是直接蹦出答案比如一道数学题 AI 不是立刻说答案是 5 而是会写出先加 2 再乘 3 最后除以某数

这样一步步推导这种能力特别重要因为很多复杂问题比如数学推理或者逻辑体光靠直觉猜答案很难搞定得靠清晰的推理过程明白了就是让 AI 把思考过程写出来有点像小学生做作业得写步骤那这篇论文是怎么让 AI 学会这个的呢听说它不用传统的奖励函数这让我很好奇

这就是这篇论文的亮点通常训练 AI 用强化学习的有个外部奖励函数比如答对了给个高分错了就扣分但设计这个奖励函数很麻烦而且不一定准这篇论文另辟蹊径用了一个数学工具叫 Janson 证据下界简称 JLB

把思维链优化变成一个概率推断问题通俗点说他让 AI 自己根据正确答案的概率去调整推理步骤不需要人为告诉他这个好那个不好哇这听起来很聪明那他具体怎么做到的呢能给我们举个例子吗当然假设有个问题小明有三个苹果小红给了他两个

问他现在有多少 AI 可能会尝试不同的推理路径比如 3 加 2 等于 5 或者先算 3-2 再加回来 GLB 方法会让 AI 多试几次然后根据正确答案 5 的概率推算哪条推理路径更靠谱

论文还加了个多样本版本通过平均多个推理路径的带率让结果更稳这种方法在数学推理数据集上表现得很不错甚至不输给传统的强化学习这让我想到一个画面 AI 像个学生拿着橡皮擦改来改去最后找到最靠谱的答案那它比传统方法好在哪呢最大的好处是不用依赖外部奖励函数省去了涉及奖励的麻烦

而且它计算成本更低适合大规模训练论文里还提到这种方法让 AI 的推移过程更稳定特别是在数学这种需要精确推理的场景不过它也有局限比如目前主要在数学任务上测试过其他领域还得再看看原来如此感觉像是给 AI 装了个内嵌导航自己找路那咱们接着看第二篇 Optimizing Language Models for Inference Time Objectives Using Reinforcement Learning 这个标题

这个推理时目标指的是 AI 在实际使用时的表现而不是训练时的表现比如我们常听到的 pass at 意思是 AI 生成 K 的答案只要有一个对就算成功还有多数投票就是从多个答案里挑最常见的那个这篇论文说传统的训练只关注平均正确率但实际用的时候大家更关心这些推理时的指

所以他们用强化学习直接优化这些目标哦我懂了就像考试平时链题是平均分但考试时你可能只关心能不能蒙对一个答案那他们怎么优化的呢他们设计了一种强化学习算法专门针对 PathK 和多数投票这些指标比如 Path

就是让 AI 生成 8 个答案他们会调整 AI 的参数让这 8 个里至少有一个对的概率变高实验在数学和代码生存任务上都试了发现这种方法确实能提升 Path-to-tweet 的表现尤其在难题和大模型上效果更明显

有優化這些推理時目標可能會犧牲平均正確率,也就是 pass at one,而且計算成本會高一些。

因为要生成多个答案不过论文里说这种权衡在实际应用中很值得比如写代码时多试几次总比一次错要好确实很实用接下来第三篇 Scaling EvaluationTime Compute with Reasoning Models as Process Evaluators 这个好像跟评估有关能不能给我们讲讲对这篇论文很有意思传统的 AI 优化都集中在训练和生成上

但这篇说咱们也可以在评估阶段多下功夫他们提出用会推理的 AI 当评估员不仅看答案对不对还检查每一步推理过程比如一道数学题 AI 不只看最后答案 5 对不对还会检查 3 加 2 这步有没有错这不就像老师批作业吗不仅看结果还看过程那这样做有什么好处

好处是评估更细致能发现 AI 推理中的小毛病他们还发现把计算资源多花在评估上比多生成几个答案更有效比如用 Best of 8 评估比 Best of 64 生成还强这在代码生成任务上特别明显能显著提高成功率

哇,这让我想到一个比喻,与其让 AI 多写答案,不如请的郝老师严格把关,那他有什么挑战吗?挑战是计算量会增加,毕竟每步都得检查,不过论文认为这种投入很值得,因为它能让 AI 的输出更可靠,未来如果能优化效率,这个方法可能会大方一彩。

听起来像是在 AI 世界里引入了质检源那第四篇 Evolutionary Policy Optimization 这个跟进化有关能不能讲讲这篇论文很有创意它针对强化学习的一个老问题样本效率低他们借鉴了生物进化的思路提出一种叫 EPO 的算法想象一群 AI 小兵每个人都有自己的基因也就是独特的推理方式通过自然选择表现差的被淘汰

好的留下还会杂交出新丁这样既保持多样性又提高了学习效率这不就像养宠物吗挑好的繁殖最后养出一只超级聪明的那它效果怎么样效果很棒他们在模拟环境里测试比如让 AI 控制机械手操作东西 EPO 的表现比传统方法强多了

而且它还能随着计算资源增加不断变强,特别适合大规模并行计算。不过它算法复杂条参数可能有点费劲。感觉像在玩,就是 AI 进化模拟器最后一篇 Scaling Laws of Synthetic Data for Language Models,这个跟合成数据有关,能不能给我们讲讲?当然,现在 AI 训练靠网络数据,但好数据越来越少。

这篇论文提出用合成数据代替他们设计了一个叫 SynthesisLM 的框架能从现有数据里生成新问题比如从数学文档里提取概念重组出新题目再用 AI 生成答案实验发现合成数据也有自己的增长规律模型越大需要的数据越少但性能照样提升这让我想到变非为宝把旧数据翻新成新题目那它效果好吗

很好,在数学推理任务上,Sensei LOM 生成的题目比现有合成数据强,问题还更多样。不过它目前主要在数学领域试过,其他领域还在验证,而且生成过程有点费算力,未来可以再优化。好了,今天的太快报就到这里,感谢小 T 的精彩讲解,也谢谢大家的收听,我们下期再见。

AI前沿：从思维链到合成数据 07:44 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：从思维链到合成数据