We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 89. 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”

89. 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”

2025/2/4
logo of podcast 张小珺Jùn|商业访谈录

张小珺Jùn|商业访谈录

AI Deep Dive AI Chapters Transcript
People
张小珺
活跃在人工intelligence和大模型领域的播客主持人和专家,通过《全球大模型季报》和《商业访谈录》分享行业深入分析和预测。
潘家怡
通过强化学习提升语言模型推理能力的研究专家
Topics
潘家怡:我主要从事语言模型强化学习方面的研究,关注如何利用强化学习等后训练技巧提升AI在智能体行为决策与推理方面的能力。在DeepSeek R1发布后,我和合作者对该技术进行了小规模复现,发现即使是小规模模型,通过强化学习后也能发展出自我纠错、搜索等能力。DeepSeek R1-Zero和R1模型都基于强化学习,但R1-Zero更简洁,直接从预训练模型开始强化学习,无需监督微调;R1则在R1-Zero的基础上进行了多轮训练和微调,提升了性能和用户体验。R1-Zero模型展现了模型自主学习、自我纠错和反思的能力,这些能力并非人为编程的结果,而是模型在强化学习过程中涌现出来的。DeepSeek R1的训练成本相对较低,可能只需10万到100万美元,远低于预训练的成本。优美的算法往往简洁高效。OpenAI的O1模型也使用了强化学习,并展现了模型自主学习识别和纠正错误、分解复杂步骤等能力。预训练侧重于知识积累和思维模式的构建,而强化学习则关注于如何将这些知识应用于特定任务。强化学习的目标是将已有的知识库应用于特定任务,例如聊天机器人或复杂推理。如果数据充足,预训练仍然可能实现AGI;但强化学习提供了另一种更经济高效的途径。强化学习能够弥补预训练的不足,并可能成为实现AGI的更有效途径。OpenAI同时在预训练和强化学习方向上投入资源。智能体(Agent)是指将语言模型与外部环境相结合,使其能够执行复杂任务。智能体(Agent)能够与外部环境交互,执行诸如编写代码、网上购物等复杂任务。DeepSeek R1和Kimi K1.5模型在技术思路高度相似,但DeepSeek R1的算法更简洁、更易于理解。DeepSeek R1的目标是通过强化学习提升语言模型的推理能力。强化学习的重点在于激励模型,而非直接教导模型。强化学习适用于复杂任务,因为人类难以一步步教导模型。DeepSeek R1-Zero模型直接基于预训练模型进行强化学习训练,无需监督微调。DeepSeek R1模型在R1-Zero的基础上进行了多轮训练和微调,提升了模型性能和用户体验。R1-Zero模型展现了模型自主学习、自我纠错和反思的能力,这些能力并非人为编程的结果,而是模型在强化学习过程中涌现出来的。DeepSeek R1的训练成本相对较低,可能只需10万到100万美元,远低于预训练的成本。优美的算法往往简洁高效。OpenAI的O1模型也使用了强化学习,并展现了模型自主学习识别和纠正错误、分解复杂步骤等能力。预训练侧重于知识积累和思维模式的构建,而强化学习则关注于如何将这些知识应用于特定任务。强化学习的目标是将已有的知识库应用于特定任务,例如聊天机器人或复杂推理。如果数据充足,预训练仍然可能实现AGI;但强化学习提供了另一种更经济高效的途径。强化学习能够弥补预训练的不足,并可能成为实现AGI的更有效途径。OpenAI同时在预训练和强化学习方向上投入资源。智能体(Agent)是指将语言模型与外部环境相结合,使其能够执行复杂任务。智能体(Agent)能够与外部环境交互,执行诸如编写代码、网上购物等复杂任务。DeepSeek R1和Kimi K1.5模型在技术思路高度相似,但DeepSeek R1的算法更简洁、更易于理解。DeepSeek R1的目标是通过强化学习提升语言模型的推理能力。强化学习的重点在于激励模型,而非直接教导模型。强化学习适用于复杂任务,因为人类难以一步步教导模型。DeepSeek R1-Zero模型直接基于预训练模型进行强化学习训练,无需监督微调。DeepSeek R1模型在R1-Zero的基础上进行了多轮训练和微调,提升了模型性能和用户体验。R1-Zero模型展现了模型自主学习、自我纠错和反思的能力,这些能力并非人为编程的结果,而是模型在强化学习过程中涌现出来的。DeepSeek R1的训练成本相对较低,可能只需10万到100万美元,远低于预训练的成本。优美的算法往往简洁高效。OpenAI的O1模型也使用了强化学习,并展现了模型自主学习识别和纠正错误、分解复杂步骤等能力。预训练侧重于知识积累和思维模式的构建,而强化学习则关注于如何将这些知识应用于特定任务。强化学习的目标是将已有的知识库应用于特定任务,例如聊天机器人或复杂推理。如果数据充足,预训练仍然可能实现AGI;但强化学习提供了另一种更经济高效的途径。强化学习能够弥补预训练的不足,并可能成为实现AGI的更有效途径。OpenAI同时在预训练和强化学习方向上投入资源。智能体(Agent)是指将语言模型与外部环境相结合,使其能够执行复杂任务。智能体(Agent)能够与外部环境交互,执行诸如编写代码、网上购物等复杂任务。DeepSeek R1和Kimi K1.5模型在技术思路高度相似,但DeepSeek R1的算法更简洁、更易于理解。DeepSeek R1的目标是通过强化学习提升语言模型的推理能力。强化学习的重点在于激励模型,而非直接教导模型。强化学习适用于复杂任务,因为人类难以一步步教导模型。DeepSeek R1-Zero模型直接基于预训练模型进行强化学习训练,无需监督微调。DeepSeek R1模型在R1-Zero的基础上进行了多轮训练和微调,提升了模型性能和用户体验。蒸馏技术可以有效地将大模型的推理能力迁移到小模型上,即使是只有1.5B参数的小模型也能在推理任务上取得很好的效果。后训练的成本远低于预训练。OpenAI的O1模型首次展示了强化学习在推理能力上的可拓展性。DeepSeek R1模型通过简单的强化学习方法,实现了与OpenAI O1模型相当的推理能力。DeepSeek R1-Zero模型直接基于预训练模型,通过强化学习算法GRPO进行训练。DeepSeek R1-Zero模型的输出质量较差,因此DeepSeek R1模型在强化学习之前进行了微调。冷启动数据用于引导模型的学习方向。DeepSeek R1-Zero模型专注于理工科领域的推理任务,而DeepSeek R1模型则更具通用性。DeepSeek R1模型通过蒸馏技术,将大模型的推理能力迁移到小模型上。在DeepSeek R1的训练中,没有使用过程奖励模型,而是直接使用ground truth reward,以避免reward hacking问题。优美的算法往往简洁高效。 张小珺:DeepSeek R1模型改写了全球AGI大叙事,我认同这种说法。DeepSeek的创新能力让业界惊讶,其算法简洁高效。DeepSeek R1的出现,点燃了业界对强化学习提升语言模型推理能力的热情。DeepSeek R1并非是对OpenAI O1的简单复刻,而是在其基础上做出了创新。DeepSeek既是追赶者,也是创新者。DeepSeek R1和Kimi K1.5模型在技术路线和目标上高度相似,但DeepSeek因其简洁性、易读性和开源文化而获得更多关注。开源文化促进了DeepSeek的知名度和影响力。开源正在成为AI领域的主流趋势。开源促进了AI生态的繁荣,降低了技术门槛和成本。开源模型的商业模式转变为订阅制,降低了价格竞争的压力。OpenAI、DeepSeek和Kimi目前采用的强化学习技术路线高度一致。强化学习提升语言模型推理能力,是一种技术发现而非公司独创。预训练模型的进展缓慢且成本高昂,强化学习为模型能力提升提供了新的、更具成本效益的途径。OpenAI的O1模型证明了强化学习可以拓展地提升语言模型的推理能力。OpenAI的O1模型通过强化学习,在复杂的数学推理任务上取得了显著的性能提升。OpenAI的O1模型使用了强化学习方法,模型自主学习了识别和纠正错误、分解复杂步骤等能力。预训练侧重于知识积累和思维模式的构建,而强化学习则关注于如何将这些知识应用于特定任务。强化学习的目标是将已有的知识库应用于特定任务,例如聊天机器人或复杂推理。如果数据充足,预训练仍然可能实现AGI;但强化学习提供了另一种更经济高效的途径。强化学习能够弥补预训练的不足,并可能成为实现AGI的更有效途径。OpenAI同时在预训练和强化学习方向上投入资源。智能体(Agent)是指将语言模型与外部环境相结合,使其能够执行复杂任务。智能体(Agent)能够与外部环境交互,执行诸如编写代码、网上购物等复杂任务。DeepSeek R1和Kimi K1.5模型在技术思路高度相似,但DeepSeek R1的算法更简洁、更易于理解。DeepSeek R1的目标是通过强化学习提升语言模型的推理能力。强化学习的重点在于激励模型,而非直接教导模型。强化学习适用于复杂任务,因为人类难以一步步教导模型。DeepSeek R1-Zero模型直接基于预训练模型进行强化学习训练,无需监督微调。DeepSeek R1模型在R1-Zero的基础上进行了多轮训练和微调,提升了模型性能和用户体验。蒸馏技术可以有效地将大模型的推理能力迁移到小模型上,即使是只有1.5B参数的小模型也能在推理任务上取得很好的效果。后训练的成本远低于预训练。OpenAI的O1模型首次展示了强化学习在推理能力上的可拓展性。DeepSeek R1模型通过简单的强化学习方法,实现了与OpenAI O1模型相当的推理能力。DeepSeek R1-Zero模型直接基于预训练模型,通过强化学习算法GRPO进行训练。DeepSeek R1-Zero模型的输出质量较差,因此DeepSeek R1模型在强化学习之前进行了微调。冷启动数据用于引导模型的学习方向。DeepSeek R1-Zero模型专注于理工科领域的推理任务,而DeepSeek R1模型则更具通用性。DeepSeek R1模型通过蒸馏技术,将大模型的推理能力迁移到小模型上。在DeepSeek R1的训练中,没有使用过程奖励模型,而是直接使用ground truth reward,以避免reward hacking问题。优美的算法往往简洁高效。

Deep Dive

Chapters
本期节目重点讲解DeepSeek-R1技术报告,介绍了DeepSeek-R1-Zero和DeepSeek-R1两个模型,它们通过强化学习提升语言模型的推理能力。R1-Zero模型展现出令人惊叹的自我纠错和顿悟能力,而R1模型则在性能和用户体验上做了进一步优化。
  • DeepSeek-R1通过强化学习提升语言模型推理能力
  • R1-Zero模型展现出自我纠错和顿悟能力
  • R1模型在性能和用户体验上做了优化
  • 模型推理能力的提升与训练算力呈对数关系
  • 强化学习成本远低于预训练成本

Shownotes Transcript

2025年这个春节,DeepSeek一举改写了全球AGI大叙事。在万般热闹之际,我们特别想沉下来做一些基础科普工作,一起来研读这几篇关键的技术报道。

今天这集节目,我邀请加州大学伯克利分校人工智能实验室在读博士生潘家怡,来做技术解读。他的研究方向是语言模型的后训练。

这期播客中,**家怡将带着大家一起来读,春节前DeepSeek发布的关键技术报告,他在报告中发布了两个模型DeepSeek-R1-Zero和DeepSeek-R1;**并对照讲解Kimi发布的K1.5技术报告,以及OpenAI更早之前发布的o1的技术博客,当然也会聊到它春节紧急发布的o3-mini。这几个模型聚焦的都是大模型最新技术范式,RL强化学习。

希望我们的节目能帮更多人一起读懂这几篇论文,感受算法之美,并且准确理解目前的技术拐点。

(以下每篇技术报告都附了链接,欢迎大家打开paper收听✌️)

期待2025,我们和AI共同进步! 【嘉宾小记】

加州大学伯克利分校人工智能实验室在读博士生,上海交通大学本科毕业。他的研究方向主要集中在语言模型的后训练领域,通过强化学习等方法提升AI在智能体行为决策与推理方面的能力。这是他做的有关R1-Zero小规模复现工作:github.com) 我们的播客节目在腾讯新闻首发),大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)03:46 讲解开始前,先提问几个小问题16:06 OpenAI o1技术报告《Learning to reason with LLMs》讲解 报告链接:openai.com)

中文标题翻译:《让大语言模型学会推理》

OpenAI在报告中有几个重点:

  • Reinforcement Learning — 强化学习
  • It learns to recognize and correct its mistakes. It learns to break down tricky steps into simpler ones. It learns to try a different approach when the current one isn’t working. (它学会识别并纠正自己的错误,学会将复杂的步骤分解为更简单的步骤,学会在当前方法行不通时尝试不同的解决途径。)这些是模型自己学的,不是人教的。
  • 我们还在技术早期,他们认为这个技术可拓展,后续性能会很快攀升。

33:03 DeepSeek-R1-Zero and DeepSeek-R1技术报告DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》讲解 报告链接:github.com)

中文标题翻译:《DeepSeek-R1:通过强化学习激励大语言模型的推理能力》

35:24 摘要(Abstract)

37:39 导论(Introduction)

44:35 发布的两个模型中,R1-Zero更重要还是R1更重要?

47:14 研究方法(Approach)

48:13 GRPO(Group Relative Policy Optimization,一种与强化学习相关的优化算法)

57:22 奖励建模(Reward Modeling)

01:05:01 训练模版(Training Template)

01:06:43 R1-Zero的性能、自我进化过程和顿悟时刻(Performance, Self-evolution Process and Aha Moment)

值得注意的是,“Aha Moment”(顿悟时刻)是本篇论文的高潮:

报告称,在训练DeepSeek-R1-Zero的过程中,观察到一个特别引人入胜的现象,即“顿悟时刻”。这一时刻出现在模型的中间版本中。在这个阶段,DeepSeek-R1-Zero通过重新评估其最初的方法,学会了为一个问题分配更多的思考时间。这种行为不仅是模型推理能力不断增长的有力证明,也是强化学习可能带来意想不到且复杂结果的一个迷人例证。

**这一时刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。它凸显了强化学习的力量与美感:我们并没有明确地教导模型如何解决问题,而是仅仅为其提供了正确的激励,它便自主地发展出高级的问题解决策略。**这种“顿悟时刻”有力地提醒我们,强化学习有潜力在人工智能系统中解锁新的智能水平,为未来更具自主性和适应性的模型铺平了道路。

01:14:52 模型能涌现意识吗?

01:16:18 DeepSeek-R1:冷启动强化学习( Reinforcement Learning with Cold Start)

01:24:48 为什么同时发布两个模型?取名“Zero”的渊源故事?

01:28:51 蒸馏:赋予小模型推理能力(Distillation: Empower Small Models with Reasoning Capability)

01:35:27 失败的尝试:过程奖励模型(PRM)与蒙特卡罗树搜索(MCTS)

01:42:33 DeepSeek-R1技术报告是一片优美精妙的算法论文,有很多“发现”,这是它成为爆款报告的原因

01:43:50 对DeepSeek-R1训练成本的估算:

往高里估,一万步GRPO更新, 每步就算1000的batch size(试一千次),一次算一万个token;模型更新用的

  • $2.2 / 1M tokens,
  • 总共是100B tokens — 0.22M
  • 算上效率损失,模型训练也有一定开销,说破天也就1M;如果优化的话很有可能只有10万美金左右的成本
  • 相比之下,预训练用了600万美金,相当便宜

01:49:05 KIMI K1.5技术报告《KIMI K1.5:SCALING REINFORCEMENT LEARNING WITH LLMS》讲解 中文标题翻译:《KIMI K1.5:利用大语言模型扩展强化学习》

报告链接:arxiv.org)

该报告公开了许多技术技巧细节,对于想要复现的人,两篇paper一起使用更佳。如,数据构造、长度惩罚、数学奖励建模、思维链奖励模型、异步测试、Long2short、消融实验等。

02:20:07 DeepSeek论文的结尾谈未来往哪里发展? 02:24:35 以上是三篇报告所有内容,接下来是提问时间,我们继续强化学习一下! “数据标注”在几篇论文中藏得都比较深,小道消息OpenAI一直以100-200美元/小时找博士生标数据

“DeepSeek的论文隐藏了技术细节,但把算法的精妙之处和美展现给你,让你感受技术之美,给你震撼。”

它解密了后训练范式革命可以何处去,让你发现原来算法这么简单!

再一次验证——“最优美的算法永远是最干净的。” 关于强化学习往期节目:

AGI范式大转移:和广密预言草莓、OpenAI o1和self-play RL|全球大模型季报4)

和OpenAI前研究员吴翼解读o1:吹响了开挖第二座金矿的号角)

【更多信息】

联络我们:微博@张小珺-Benita),小红书@张小珺)

更多信息欢迎关注公众号:张小珺