We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：AI前沿：纯RL驱动，知识蒸馏与智能论文搜索

2025/1/22

AI可可AI生活

小爱/小T：DeepSeek RE模型通过纯强化学习，无需任何监督微调，即可涌现出强大的推理能力，甚至可以媲美OpenAI的模型。这颠覆了以往训练大型语言模型的认知，证明了推理能力可以通过纯强化学习来开发。虽然该模型存在一些缺点，例如输出文本可读性较差和语言混合问题，但通过加入冷启动数据集和多阶段训练，这些问题得到了有效解决，最终实现了与OpenAI最先进模型相当的推理能力。此外，通过知识蒸馏技术，该模型的推理能力还可以被传授给更小的模型，使其在推理任务上超越同等规模的开源模型，甚至达到某些大型模型的效果。这充分证明了纯强化学习的潜力以及知识蒸馏的有效性，为AI模型的训练和应用提供了新的思路。小爱/小T：FRAG模型是一个基于知识图谱的灵活模块化检索增强生成框架，它能够根据查询的复杂程度动态调整检索策略，从而在灵活性和检索质量之间取得平衡。对于简单的查询，它采用广度优先搜索；对于复杂的查询，则采用最短路径检索。这种动态调整策略避免了现有RAG方法在灵活性和检索效果之间的权衡问题，提高了检索效率和准确性。此外，FRAG不需要对大型语言模型进行额外的知识图谱微调，提高了通用性和效率，为知识图谱与大型语言模型的结合提供了新的解决方案。小爱/小T：关于生成模型ELBO收敛到熵和的研究揭示了生成模型学习过程中的一个重要规律。该研究证明，在许多生成模型中，ELBO在所有节点处都会收敛到一个由潜变量和观测变量的商组成的表达式。这个表达式可以被理解为信息量的一个度量，它揭示了生成模型学习过程中一些隐藏的规律，并为后续研究提供了坚实的理论基础。这一发现不仅加深了我们对生成模型的理解，也为设计更好的学习目标提供了新的思路。小爱/小T：PASA模型是一个由大型语言模型驱动的智能体，它能够像人类研究人员一样自主地进行学术论文搜索，包括收集论文、阅读论文和浏览引文网络等。PASA由两个智能体组成：一个负责广泛收集论文，另一个负责精确评估相关性。通过强化学习的优化和高质量数据集的训练，PASA在真实数据上的表现远远超过了其他基线方法，包括基于GPT-4的模型。这表明，即使是参数较少的模型（70亿参数），也能在复杂的学术论文搜索任务中取得优异的成绩，挑战了传统观念。PASA在召回率和精确率方面都有显著提升，为高效的学术论文搜索提供了新的工具。

Deep Dive

Chapters

This chapter explores DeepSeek-RE, a model that uses reinforcement learning to enhance the reasoning capabilities of LLMs without supervised fine-tuning. It discusses the model's impressive results, its limitations, and the innovative use of knowledge distillation to transfer its reasoning abilities to smaller models.

DeepSeek-RE uses pure reinforcement learning to train an LLM, achieving strong reasoning abilities without supervised fine-tuning.
Knowledge distillation allows transferring the reasoning capabilities of DeepSeek-RE to smaller, more efficient models.
The model demonstrates that strong reasoning capabilities can be developed through reinforcement learning alone.

Shownotes Transcript

大家好欢迎收听最新一期的《太快报》我是主持人小爱大家好我是主持人小 T 今天我们继续聊聊最近 AI 领域的一些新进展涉及到了大型语言模型的推理能力提升知识图谱的应用生成模型的新理论以及智能学术论文搜索

感觉每一项都很有看点没错而且这几篇论文都非常具有代表性分别展示了当前 AI 研究的一些热门方向和前沿探索我们先从第一篇论文开始吧它来自 DeepSeek AI 题目是 DeepSeek RE 用强化学习激发 LM 推理能力听起来就很高大上强化学习这个词我们都听过很多次了但是具体是怎么应用到大型语言模型上的呢嗯

强化学习简单来说就是让 AI 像人类一样通过不断的试错从奖励中学习这篇论文的特别之处在于它挑战了之前的一个普遍认知就是大家普遍认为训练大型语言模型一定要先用大量的标注数据进行监督微调 SFT 然后再用强化学习进一步提升这我好像有点印象之前很多模型都是这么做的那

那 DeepSeek ERE 是怎么做的呢?他们先训练了一个叫 DeepSeek RE0 的模型这个模型完全没有经过任何监督微调直接用强化学习进行训练结果发现这个模型竟然也能涌现出很强的推理能力包括自我验证反思甚至可以生成很长的思考链哇完全不用老师教自己就学会了推理这有点像自学成才的感觉

是的,而且效果还挺惊艳的他们在一些推理基准上的成绩大幅提升甚至可以媲美 OpenAI 的一些模型当然这个模型也有一些缺点比如输出的文本可读性比较差还会有语言混合的问题听起来有点意思

那他们是怎么解决这些问题的呢他们在 DeepSick 2.1.0 的基础上又提出了 DeepSick 2.1 这个模型在强化学习之前加入了一个冷启动数据集这个数据集里面是一些高质量的可读性好的思维链然后他们还使用了多阶段训练第一阶段主要提升推理能力第二阶段侧重于和人类的天号保持一致相当于给他找了个好榜样然后分阶段进行训练效果肯定好很多吧

没错,效果确实提升了很多,推理能力达到了和 OpenAI 最先进模型相当的水平。更厉害的是他们还做了一个知识蒸馏,把 DeepSeek RE 的推理能力交给了一些更小的模型。知识蒸馏,这听起来像大牛把自己的经验传授给后辈一样。

对,就是这个意思,他们发现通过知识蒸馏,小模型也能在推理任务上超越同等规模的开源模型,甚至可以达到某些大型模型的效果。这太厉害了,感觉他们就像是在教我们不要迷信,大力出奇迹,有时候巧妙的方法也能达到很好的效果。

是的,这篇文章最大的亮点就是证明了推理能力可以通过纯强化学习开发出来无需监督微调作为预训练步骤同时还展现了知识蒸馏的有效性他们还开源了 DeepSeqIE0, DeepSeqIE 以及多个不同规模的蒸馏模型对研究界来说是一项重大贡献这对我们普通人来说意味着什么呢?这意味着未来我们可能会看到更多的

更高效、更强大的 AI 模型而且这些模型可能会更易于部署和使用接下来我们再聊聊第二篇论文题目是 FRAG 基于知识图谱的灵活模块化检索增强生成框架

知识图谱这个概念我也听过好像是一个能把知识组织起来的网络那它是怎么和大型语言模型结合的呢这就是一个非常实用的结合方式叫做检索增强生成 RAG

就是让大模型在回答问题的时候先从知识图谱中检索相关信息然后再生成答案这样可以减少模型胡编乱造的可能性听起来就像给大模型配备了一个知识库回答问题的时候先查一下资料

这样就更靠谱了对但是现有的基于知识图谱的 RAG 方法在灵活性和检索质量之间存在一个权衡有些方法很灵活但是检索效果不好有些方法检索效果好但是灵活性又不够听起来是个两难的问题那 FRAG 是怎么解决这个问题的呢 FRAG 的核心思路是根据查询的复杂程度来动态调整检索策略它会先分析查询的跳数范围

把查询分成简单和复杂两种类型然后针对不同的类型采用不同的检索方法听起来有点像因材施教根据学生的不同情况采取不同的教学方法是的简单查询就用广度优先搜索复杂查询就用最短路径检索而且 FRAG 不需要对大型语言模型进行额外的知识图谱微调提高了通用性和效率

感觉他就像一个聪明的图书管理员知道什么问题应该查什么书并且还能灵活应对不同的情况可以这么说 F2J 的创新之处在于它不是仅仅依赖知识图谱本身的信息

而是通过分析查询的结构信息来改进检索性能这种思路也挺反直觉的但确实很有效感觉这篇论文也是一个很好的例子告诉我们不要只盯着既有的东西有时候换个思路从问题本身入手也能找到新的突破口没错接下来我们再聊聊第三篇论文题目是生成模型的 album 收敛到山河那个题目听起来就挺学术 album

和伤感觉离我们的日常生活有点远。确实有点抽象,但是它揭示了生成模型的一个非常有趣的性质。简单来说,able 就是证据下界,它是我们在训练生成模型时需要优化的一个目标函数。听起来好像是模型学习过程中的一个指标,那这个指标收敛到伤的和又是什么意思呢?

这篇文章证明了在很多种生成模型中这个 elbow 在所有注点处都会收敛到一个表达式这个表达式是由潜变量和观测变量的商组成的这里的商是什么意思呢我们是不是在物理课上学过表示混乱程度的一个指标对但这里的商你可以理解为信息量的一个度量这个结论的意义在于它揭示了生成模型在学习过程中一些隐藏的规律

而且这个规律适用于很多种模型包括一些经典的生成模型像高斯混合模型概率主成分分析等等听起来有点像书图同规的意义不管模型多么复杂最终都会收敛到这样一个简单的形式是的

而且这个简单的形式也方便我们进行理论分析甚至可以帮助我们设计更好的学习目标而且这篇文章的证明过程非常严谨为后续研究提供了坚实的理论基础感觉就像是数学家在探索宇宙的奥秘一样通过严谨的推导揭示了背后的一些基本规律

确实如此最后我们再来聊聊第四篇论文题目是 PASA 用于全面学术论文搜索的 LLM agent 我猜这个 PASA 肯定是一个很厉害的学术论文搜索工具它可以帮助我们找到自己想要的论文吗是的 PASA 就是一个由大型语言模型驱动的智能体它可以像人类研究人员一样自主地进行搜索、阅读论文、浏览引文网络从而找到更全面、更准确的论文

听起来非常智能感觉,就像一个贴身的科研助手可以帮我做文献综述。可以这么说,而且它的架构也很有意思,它有两个智能体组成,一个是负责广泛收集论文的爬虫,另一个是负责精确评估相关性的选择器。一个负责扩大搜索范围,一个负责筛选有用信息,感觉分工很明确。

对,而且他们还用强化学习来优化这两个智能体的能力,并且构建了两个高质量的数据集,一个合成数据集和一个真实数据集。为什么既要用合成数据又要用真实数据呢?用合成数据可以方便进行大规模的训练,而用真实数据可以验证模型在实际场景中的表现。

而且实验结果显示,PASA 在真实数据上的表现远远超过了其他基线方法,包括基于 GPT-4O 的方法。这个结果太令人意外了,感觉它就像一个黑马在没有真实训练的情况下去取得了惊人的效果。

是的而且更令人惊讶的是一个 70 亿参数的模型居然超越了更大的模型这挑战了复杂任务需要大量真实数据的传统观念而且帕萨在召回率和精确率方面都有了显著的提升感觉它就像一个学术界的搜索引擎可以帮助我们更高效地找到自己需要的论文是的

而且这篇文章还告诉我们,引文网络的探索对于提升论文检索的全面性非常重要,他们还开源了模型、数据集和代码,对,学术界也是有很大的贡献。今天的这四篇论文,每一篇都让人感到很震撼,从模型训练、知识图谱、应用生成模型理论到智能搜索,感觉 AI 的进步真是太快了。

是的而且这几篇论文都展现了 AI 研究的一些最新趋势比如利用强化学习来提升模型的推理能力利用知识图谱来增强模型的知识探索生成模型的深层规律以及构建更智能的 AI 助手感觉今天的节目信息量有点大我需要好好消化一下感谢大家的收听我们下期再见下期见拜拜

AI前沿：AI前沿：纯RL驱动，知识蒸馏与智能论文搜索 09:48 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：AI前沿：纯RL驱动，知识蒸馏与智能论文搜索