大家好 欢迎收听最新一期的《太快报》我是主持人小爱大家好 我是主持人小 T 今天我们继续聊聊最近 AI 领域的一些新进展涉及到了大型语言模型的推理能力提升知识图谱的应用生成模型的新理论以及智能学术论文搜索
感觉每一项都很有看点没错而且这几篇论文都非常具有代表性分别展示了当前 AI 研究的一些热门方向和前沿探索我们先从第一篇论文开始吧它来自 DeepSeek AI 题目是 DeepSeek RE 用强化学习激发 LM 推理能力听起来就很高大上强化学习这个词我们都听过很多次了但是具体是怎么应用到大型语言模型上的呢嗯
强化学习简单来说就是让 AI 像人类一样通过不断的试错从奖励中学习这篇论文的特别之处在于它挑战了之前的一个普遍认知就是大家普遍认为训练大型语言模型一定要先用大量的标注数据进行监督微调 SFT 然后再用强化学习进一步提升这我好像有点印象之前很多模型都是这么做的那
那 DeepSeek ERE 是怎么做的呢?他们先训练了一个叫 DeepSeek RE0 的模型这个模型完全没有经过任何监督微调直接用强化学习进行训练结果发现这个模型竟然也能涌现出很强的推理能力包括自我验证反思甚至可以生成很长的思考链哇完全不用老师教自己就学会了推理这有点像自学成才的感觉
是的,而且效果还挺惊艳的他们在一些推理基准上的成绩大幅提升甚至可以媲美 OpenAI 的一些模型当然这个模型也有一些缺点比如输出的文本可读性比较差还会有语言混合的问题听起来有点意思
那他们是怎么解决这些问题的呢他们在 DeepSick 2.1.0 的基础上又提出了 DeepSick 2.1 这个模型在强化学习之前加入了一个冷启动数据集这个数据集里面是一些高质量的可读性好的思维链然后他们还使用了多阶段训练第一阶段主要提升推理能力第二阶段侧重于和人类的天号保持一致相当于给他找了个好榜样然后分阶段进行训练效果肯定好很多吧
没错,效果确实提升了很多,推理能力达到了和 OpenAI 最先进模型相当的水平。更厉害的是他们还做了一个知识蒸馏,把 DeepSeek RE 的推理能力交给了一些更小的模型。知识蒸馏,这听起来像大牛把自己的经验传授给后辈一样。
对,就是这个意思,他们发现通过知识蒸馏,小模型也能在推理任务上超越同等规模的开源模型,甚至可以达到某些大型模型的效果。这太厉害了,感觉他们就像是在教我们不要迷信,大力出奇迹,有时候巧妙的方法也能达到很好的效果。
是的,这篇文章最大的亮点就是证明了推理能力可以通过纯强化学习开发出来无需监督微调作为预训练步骤同时还展现了知识蒸馏的有效性他们还开源了 DeepSeqIE0, DeepSeqIE 以及多个不同规模的蒸馏模型对研究界来说是一项重大贡献这对我们普通人来说意味着什么呢?这意味着未来我们可能会看到更多的
更高效、更强大的 AI 模型而且这些模型可能会更易于部署和使用接下来我们再聊聊第二篇论文题目是 FRAG 基于知识图谱的灵活模块化检索增强生成框架
知识图谱这个概念我也听过好像是一个能把知识组织起来的网络那它是怎么和大型语言模型结合的呢这就是一个非常实用的结合方式叫做检索增强生成 RAG
就是让大模型在回答问题的时候先从知识图谱中检索相关信息然后再生成答案这样可以减少模型胡编乱造的可能性听起来就像给大模型配备了一个知识库回答问题的时候先查一下资料
这样就更靠谱了对但是现有的基于知识图谱的 RAG 方法在灵活性和检索质量之间存在一个权衡有些方法很灵活但是检索效果不好有些方法检索效果好但是灵活性又不够听起来是个两难的问题那 FRAG 是怎么解决这个问题的呢 FRAG 的核心思路是根据查询的复杂程度来动态调整检索策略它会先分析查询的跳数范围
把查询分成简单和复杂两种类型然后针对不同的类型采用不同的检索方法听起来有点像因材施教根据学生的不同情况采取不同的教学方法是的简单查询就用广度优先搜索复杂查询就用最短路径检索而且 FRAG 不需要对大型语言模型进行额外的知识图谱微调提高了通用性和效率
感觉他就像一个聪明的图书管理员知道什么问题应该查什么书并且还能灵活应对不同的情况可以这么说 F2J 的创新之处在于它不是仅仅依赖知识图谱本身的信息
而是通过分析查询的结构信息来改进检索性能这种思路也挺反直觉的但确实很有效感觉这篇论文也是一个很好的例子告诉我们不要只盯着既有的东西有时候换个思路从问题本身入手也能找到新的突破口没错接下来我们再聊聊第三篇论文题目是生成模型的 album 收敛到山河那个题目听起来就挺学术 album
和伤感觉离我们的日常生活有点远。确实有点抽象,但是它揭示了生成模型的一个非常有趣的性质。简单来说,able 就是证据下界,它是我们在训练生成模型时需要优化的一个目标函数。听起来好像是模型学习过程中的一个指标,那这个指标收敛到伤的和又是什么意思呢?
这篇文章证明了在很多种生成模型中这个 elbow 在所有注点处都会收敛到一个表达式这个表达式是由潜变量和观测变量的商组成的这里的商是什么意思呢我们是不是在物理课上学过表示混乱程度的一个指标对 但这里的商你可以理解为信息量的一个度量这个结论的意义在于它揭示了生成模型在学习过程中一些隐藏的规律
而且这个规律适用于很多种模型包括一些经典的生成模型像高斯混合模型概率主成分分析等等听起来有点像书图同规的意义不管模型多么复杂最终都会收敛到这样一个简单的形式是的
而且这个简单的形式也方便我们进行理论分析甚至可以帮助我们设计更好的学习目标而且这篇文章的证明过程非常严谨为后续研究提供了坚实的理论基础感觉就像是数学家在探索宇宙的奥秘一样通过严谨的推导揭示了背后的一些基本规律
确实如此最后我们再来聊聊第四篇论文题目是 PASA 用于全面学术论文搜索的 LLM agent 我猜这个 PASA 肯定是一个很厉害的学术论文搜索工具它可以帮助我们找到自己想要的论文吗是的 PASA 就是一个由大型语言模型驱动的智能体它可以像人类研究人员一样自主地进行搜索、阅读论文、浏览引文网络从而找到更全面、更准确的论文
听起来非常智能感觉,就像一个贴身的科研助手可以帮我做文献综述。可以这么说,而且它的架构也很有意思,它有两个智能体组成,一个是负责广泛收集论文的爬虫,另一个是负责精确评估相关性的选择器。一个负责扩大搜索范围,一个负责筛选有用信息,感觉分工很明确。
对,而且他们还用强化学习来优化这两个智能体的能力,并且构建了两个高质量的数据集,一个合成数据集和一个真实数据集。为什么既要用合成数据又要用真实数据呢?用合成数据可以方便进行大规模的训练,而用真实数据可以验证模型在实际场景中的表现。
而且实验结果显示,PASA 在真实数据上的表现远远超过了其他基线方法,包括基于 GPT-4O 的方法。这个结果太令人意外了,感觉它就像一个黑马在没有真实训练的情况下去取得了惊人的效果。
是的而且更令人惊讶的是一个 70 亿参数的模型居然超越了更大的模型这挑战了复杂任务需要大量真实数据的传统观念而且帕萨在召回率和精确率方面都有了显著的提升感觉它就像一个学术界的搜索引擎可以帮助我们更高效地找到自己需要的论文是的
而且这篇文章还告诉我们,引文网络的探索对于提升论文检索的全面性非常重要,他们还开源了模型、数据集和代码,对,学术界也是有很大的贡献。今天的这四篇论文,每一篇都让人感到很震撼,从模型训练、知识图谱、应用生成模型理论到智能搜索,感觉 AI 的进步真是太快了。
是的 而且这几篇论文都展现了 AI 研究的一些最新趋势比如利用强化学习来提升模型的推理能力利用知识图谱来增强模型的知识探索生成模型的深层规律以及构建更智能的 AI 助手感觉今天的节目信息量有点大我需要好好消化一下感谢大家的收听我们下期再见下期见 拜拜