We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：深度思考、代码修复与文化偏见

2025/1/13

AI可可AI生活

AI Deep Dive AI Insights AI Chapters Transcript

小爱/小T：小型语言模型通过蒙特卡洛树搜索（MCTS）和过程偏好模型（PPM）相结合，可以实现强大的数学推理能力。MCTS 就像一个试错过程，模型逐步尝试不同的解题思路，并由 PPM 评估每一步的正确性，最终保证训练数据的质量。这种方法甚至可以使小型模型在数学推理上超越大型模型，展现了小型模型的巨大潜力。此外，我们还讨论了如何利用开源LLM模型自动修复GitHub上的代码问题。该模型采用两阶段流水线，首先通过BM25算法和轻量级LLM进行代码文件检索，然后利用结构化输出格式和思维链技术生成代码补丁来修复bug。在检索阶段，只输入代码文件的骨架（文档结构）比输入整个文件内容效率更高；在编辑阶段，结合代码行号输入可以显著提高性能。该模型的开源特性更有利于技术的普及和发展。关于决策树，我们发现了一个反直觉的现象：在特定情况下，决策树会偏向少数类，这与我们通常的认知相反。这种现象与数据的生成方式有关，当数据集中只有一个少数类样本且特征均匀分布时，决策树会高估少数类的发生率。为了解决这个问题，作者提出了一种减少偏差的方法，即在节点只包含某一类样本时，使用单个特征进行分裂。最后，我们讨论了语言模型中的文化偏见问题。作者发现，这种偏见不仅源于预训练数据的不平衡，还与一些语言现象有关，例如词汇多义性、词汇重叠和分词策略等。在阿拉伯语环境中，语言模型往往会对西方文化相关的实体有偏好，这影响了AI的公平性。

Deep Dive

Key Insights

小型语言模型如何通过深度思考提升数学推理能力？

小型语言模型通过蒙特卡洛树搜索（MCTS）进行深度思考，逐步尝试不同的解题思路，并通过过程偏好模型（PPM）评估每一步的正确性。模型还会生成代码验证推理步骤，确保训练数据的质量。PPM利用从Q值中提取的偏好信息进行训练，更准确地评估推理过程。这种自我进化的训练方法使模型在多轮迭代中不断提升推理能力，甚至在数学推理上超越OpenAI的O1模型。

开源LLM如何修复GitHub上的代码问题？

开源LLM采用两阶段流水线修复GitHub代码问题。首先，使用BM25算法进行代码文件检索，找到有问题的文件；然后，通过代码编辑生成补丁修复bug。研究发现，仅输入文件骨架（文档结构）比输入完整文件内容效果更好。在代码编辑阶段，模型使用结构化输出格式并结合思维链技术逐步生成补丁，输入代码行号还能显著提高性能。该模型在GitHub代码修复基准测试中达到开源模型的领先水平。

为什么决策树在不平衡数据集中有时会偏向少数类？

决策树通常偏向多数类，但在某些特殊情况下会偏向少数类。当数据集中只有一个少数类样本且特征均匀分布时，决策树会高估少数类的发生率。此外，决策树在分裂时也会偏向少数类，选择次优分裂点，导致模型更复杂且不准确。这种偏差与数据的生成方式和特征分布有关，类似于幸存者偏差。

如何减少决策树在不平衡数据集中的偏差？

作者提出了一种减少偏差的方法：当决策树到达某个节点且只包含某一类样本时，仅使用单个特征进行分裂。这种方法可以避免决策树高估少数类的发生率，并减少模型选择次优分裂点的可能性，从而降低模型的复杂性和不准确性。

什么是语义熵引导的自适应检索（Sugar）？

语义熵引导的自适应检索（Sugar）是一种让语言模型更高效利用外部知识的方法。模型首先判断自己对问题的答案的把握程度，如果把握不大，才会触发检索。语义熵用于衡量模型对答案的犹豫程度，如果模型认为答案有多种可能性且每种可能性相似，语义熵就较高。这种方法避免了不必要的检索，节省了计算资源，同时提高了模型性能。

语言模型中的文化偏见是如何产生的？

语言模型的文化偏见不仅源于预训练数据的不平衡，还与语言现象有关，如词汇多义性、词汇重叠和分词策略。例如，阿拉伯语实体可能具有多种含义，导致模型难以准确识别；与波斯语等语言的词汇重叠也会影响模型性能。此外，分词策略将实体切分为单个token时，也会降低模型的识别能力。这些因素共同导致了文化偏见的产生。

Chapters

本篇论文探讨小型语言模型如何通过蒙特卡洛树搜索（MCTS）和过程偏好模型（PPM）实现深度思考，从而在数学推理上超越大型模型，展现了小型模型的巨大潜力和自我进化能力。

小型语言模型通过MCTS进行深度思考，模拟试错过程。
利用PPM评估每一步推理的正确性，类似于考试中的解题步骤。
自我进化训练方法，提升模型推理能力。
在数学推理上超越OpenAI的O1模型。

Shownotes Transcript

各位听众朋友欢迎收听最新一期的太快报我是主持人小爱大家好我是主持人小 T 今天我们将继续深入探讨 AI 领域的最新进展为大家解读几篇非常有意思的论文没错今天的这几篇论文我看完之后感觉脑洞大开信息量满满既有关于如何让小模型拥有强大推理能力的

也有关于如何让 AI 修复代码的,甚至还有关于文化偏见的讨论是的,今天的内容非常丰富,既有技术突破,也有对社会问题的反思我们先从第一篇论文开始吧好,第一篇论文是关于小型大语言模型如何通过自我进化的深度思考掌握数学推理的听起来就非常厉害,能给我们通俗的解释一下吗?

當然這篇論文的核心思想是即使是小型語言模型只要通過一種叫做蒙特卡洛數搜索簡稱 MCTS 的深度思考方式也能擁有強大的數學推理能力你可以把 MCTS 想像成一個試錯的過程

模型会一步步尝试不同的解题思路并通过一个过程偏好模型简称 PPM 来评估每一步是否正确哦就像下棋一样模型先尝试走几步然后看看哪一种走法更有可能赢

很形象而且更厉害的是这个模型还会自己生成代码来验证每一步的推理是否正确只有验证通过的步骤才会被保留下来这样就保证了训练数据的质量太聪明了那这个过程偏好模型又是怎么回事呢这个 PPM 就像一个裁判它会评估每一步推理对最终答案的贡献不同于以往直接使用 Noise 的 Q 值作为奖励信号

他会利用从 Q 值中提取的偏好信息来训练自己这样就能更准确地评估推理过程这就像我们考试的时候老师不仅会看你最后的分数还会看你的解题步骤来判断你是不是真的掌握了知识

是的,而且他们还提出了一种自我进化的训练方法模型会在多轮迭代中不断提升自己的推理能力更让人惊讶的是这个小模型在数学推理上的表现竟然能超过 OpenAI 的 O1 模型真的吗?这么说以后我们用手机上的小模型也能解决奥数题了

可以期待一下这项研究表明深度思考和自我进化是提升模型推理能力的关键小型模型也拥有巨大的潜力当然目前这个方法对几何和图像题的支持还比较有限明白了接下来我们再看看第二篇论文关于

训练开源 LM 解决 GitHub 问题的这又是什么黑科技这篇论文是关于如何训练开源的 AM 模型来自动修复 GitHub 上的代码问题的你可以把 GitHub 看成一个程序员的社区大家会在上面报告代码的 BUG

而这个 AI 模型就像一个智能的代码修复工听起来很有用那它是怎么工作的呢这个模型采用了一个两阶段的流水线第一步是代码文件检索它会先找到出现问题的代码文件第二步是代码编辑它会根据问题描述生成代码补丁来修复 bug

那他怎么知道哪个文件有问题呢他先用一个叫做 BM25 的算法进行初步检索然后用一个轻量级的 LL 门来精细筛选有趣的是作者发现在检索阶段如果把整个代码文件的内容都输入给模型反而会降低性能反倒是只输入文件的骨架也就是文档结构效果更好就像我们找东西的时候如果东西太多太杂反而更难找到对吧

是的,在代码编辑阶段,作者使用了结构化的输出格式,并结合了思维链技术引导模型一步步地生成代码补丁,而且他们还发现,如果把代码的行号也输入给模型,能显著提高性能。太厉害了,这就像给模型一个精确的坐标,让它更快找到问题的所在,而且这个模型还是开源的,这更有利于技术的普及和发展。

是的,开源是这篇论文的一大亮点它们的模型在 GitHub 代码修复的基准测试中已经达到了开源模型的领先水平虽然在一些复杂问题的解决上还存在一些局限性但它展现了开源模型在软件工程领域的巨大潜力这真是太棒了接下来我们讨论第三篇论文这篇论文有点颠覆我的认知它竟然说决策数在特定情况下会偏向少数类这和我们通常的认知不太一样

是的这是一个非常反直觉的发现通常我们认为决策数在不平衡的数据集上会偏向多数类因为它们更容易选择能区分多数类的特征但这篇文章的作者通过理论证明和实验发现在一些特殊情况下决策数反而会偏向少数类这是为什么呢

这跟数据的生成方式有关当数据集中只有一个少数类样本而且特征是均匀分布的时候决策数会倾向于高估少数类的发生率即使只有一个特征也会出现这种偏差就有点像幸存者偏差有那么一点意思作者还发现决策数在分裂的时候也会偏向少数类这会进一步加剧这个问题而且模型有时候还会选择次优的分裂点导致模型更复杂更不准确

那这个问题应该怎么解决呢?作者提出了一种减少偏差的方法,就是在数到达某个节点,如果只包含某一类样本时,就只用单个特征进行分裂。这个发现挑战了我们以往对决策数的认知,也提醒我们在使用机器学习模型时,不能盲目相信一些常识,要深入分析数据的特点和模型的行为。

是真是眼见不一定为实接下来我们再来看看第四篇论文关于利用上下文知心度进行智能检索这篇论文关注的是如何让语言模型更好地利用外部知识通常语言模型在回答问题时会依赖自己内部的知识这可能会导致一些错误所以我们需要借助外部知识来增强模型的能力这就是检索增强生成简称 RAG 我明白了就是模型需要查阅外部资料来回答问题

是的但是如果每次都进行检索会很浪费资源而且检索到的信息可能不相关反而会干扰模型所以作者提出了一种叫做语义不确定性引导的自适应检索的方法 Sugar

这个名字听起来很高级它的核心思想是模型会先判断自己对问题的答案有多大的把握如果把握不大才会触发检索而且它还会根据不确定性的程度来决定是进行单步检索还是多步检索那它是怎么判断自己不确定的呢

他使用了一种叫做语意商的指标你可以把语意商理解为模型对一个问题的答案有多么犹豫如果模型觉得答案有很多种可能性而且每种可能性都差不多那么语意商就很高

那为什么不用传统的预测商呢?因为预测商只考虑了词语层面的不确定性而忽略了语意层面的变化同一个意思可以用很多不同的词语来表达语意商可以更好的逗量模型对含义的真实不确定性实验表明这种自适应检索方法既提高了模型性能又节省了计算资源开吧

最后我们再看看第五篇论文关于语言模型文化偏差的起源这篇论文关注的是语言模型在不同文化背景下表现出的文化偏见问题比如在阿拉伯语环境中语言模型往往会对西方文化相关的实体有偏好这个问题挺严重的会影响到 AI 的公平性

是的作者发现这种偏见不仅仅是预训练数据不平衡导致的还跟一些语言现象有关比如词汇多义性词汇重叠分词策略等可以解释得更具体一些吗比如当一个阿拉伯语的实体同时有多种含义时模型就很难准确识别当一个实体和其他使用阿拉伯文字的语言如波斯语有词汇重叠时模型的性能也会下降

还有如果分词策略把一个实体切成单个的 token 也会影响模型的识别看来文化偏差这个问题比我们想象的要复杂得多是的这提醒我们在开发语言模型时不仅要关注技术本身还要考虑文化因素尽量避免算法偏见实现更加公平和包容的 AI 今天的几天论文真是让我大开眼界从技术突破到社会反思每一个话题都非常精彩

希望今天的分享能给大家带来启发感谢大家的收听我们下期再见下期见拜拜

AI前沿：深度思考、代码修复与文化偏见 08:44 Share