小型语言模型通过蒙特卡洛树搜索(MCTS)进行深度思考,逐步尝试不同的解题思路,并通过过程偏好模型(PPM)评估每一步的正确性。模型还会生成代码验证推理步骤,确保训练数据的质量。PPM利用从Q值中提取的偏好信息进行训练,更准确地评估推理过程。这种自我进化的训练方法使模型在多轮迭代中不断提升推理能力,甚至在数学推理上超越OpenAI的O1模型。
开源LLM采用两阶段流水线修复GitHub代码问题。首先,使用BM25算法进行代码文件检索,找到有问题的文件;然后,通过代码编辑生成补丁修复bug。研究发现,仅输入文件骨架(文档结构)比输入完整文件内容效果更好。在代码编辑阶段,模型使用结构化输出格式并结合思维链技术逐步生成补丁,输入代码行号还能显著提高性能。该模型在GitHub代码修复基准测试中达到开源模型的领先水平。
决策树通常偏向多数类,但在某些特殊情况下会偏向少数类。当数据集中只有一个少数类样本且特征均匀分布时,决策树会高估少数类的发生率。此外,决策树在分裂时也会偏向少数类,选择次优分裂点,导致模型更复杂且不准确。这种偏差与数据的生成方式和特征分布有关,类似于幸存者偏差。
作者提出了一种减少偏差的方法:当决策树到达某个节点且只包含某一类样本时,仅使用单个特征进行分裂。这种方法可以避免决策树高估少数类的发生率,并减少模型选择次优分裂点的可能性,从而降低模型的复杂性和不准确性。
语义熵引导的自适应检索(Sugar)是一种让语言模型更高效利用外部知识的方法。模型首先判断自己对问题的答案的把握程度,如果把握不大,才会触发检索。语义熵用于衡量模型对答案的犹豫程度,如果模型认为答案有多种可能性且每种可能性相似,语义熵就较高。这种方法避免了不必要的检索,节省了计算资源,同时提高了模型性能。
语言模型的文化偏见不仅源于预训练数据的不平衡,还与语言现象有关,如词汇多义性、词汇重叠和分词策略。例如,阿拉伯语实体可能具有多种含义,导致模型难以准确识别;与波斯语等语言的词汇重叠也会影响模型性能。此外,分词策略将实体切分为单个token时,也会降低模型的识别能力。这些因素共同导致了文化偏见的产生。
本期TAI快报带你深入AI前沿:小模型大能量! 看小型语言模型如何通过“深度思考”在数学推理上超越大型模型,揭秘AI自我进化的奥秘!代码修复神器! 了解开源LLM如何化身“代码修复工”,高效解决GitHub难题,更有消融研究揭示模型优化关键!颠覆认知! 决策树并非永远偏向多数类!专家带你揭开不平衡数据下的模型偏差真相,以及如何减少这种偏差。智能检索! 探索基于“语义熵”的自适应检索技术,让AI更聪明地获取外部知识,提升问答效率!文化偏见! 深度剖析语言模型中文化偏见的根源,从预训练数据到语言现象,探讨如何构建更公平的AI。立即收听,解锁AI最新进展,开启你的科技探索之旅!