We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

89. 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”

2025/2/4

张小珺Jùn｜商业访谈录

AI Deep Dive AI Chapters Transcript

People

张

张小珺

活跃在人工intelligence和大模型领域的播客主持人和专家，通过《全球大模型季报》和《商业访谈录》分享行业深入分析和预测。

潘

潘家怡

通过强化学习提升语言模型推理能力的研究专家

Topics

潘家怡:我主要从事语言模型强化学习方面的研究,关注如何利用强化学习等后训练技巧提升AI在智能体行为决策与推理方面的能力。在DeepSeek R1发布后,我和合作者对该技术进行了小规模复现,发现即使是小规模模型,通过强化学习后也能发展出自我纠错、搜索等能力。DeepSeek R1-Zero和R1模型都基于强化学习,但R1-Zero更简洁,直接从预训练模型开始强化学习,无需监督微调;R1则在R1-Zero的基础上进行了多轮训练和微调,提升了性能和用户体验。R1-Zero模型展现了模型自主学习、自我纠错和反思的能力,这些能力并非人为编程的结果,而是模型在强化学习过程中涌现出来的。DeepSeek R1的训练成本相对较低,可能只需10万到100万美元,远低于预训练的成本。优美的算法往往简洁高效。OpenAI的O1模型也使用了强化学习,并展现了模型自主学习识别和纠正错误、分解复杂步骤等能力。预训练侧重于知识积累和思维模式的构建,而强化学习则关注于如何将这些知识应用于特定任务。强化学习的目标是将已有的知识库应用于特定任务,例如聊天机器人或复杂推理。如果数据充足,预训练仍然可能实现AGI;但强化学习提供了另一种更经济高效的途径。强化学习能够弥补预训练的不足,并可能成为实现AGI的更有效途径。OpenAI同时在预训练和强化学习方向上投入资源。智能体(Agent)是指将语言模型与外部环境相结合,使其能够执行复杂任务。智能体(Agent)能够与外部环境交互,执行诸如编写代码、网上购物等复杂任务。DeepSeek R1和Kimi K1.5模型在技术思路高度相似,但DeepSeek R1的算法更简洁、更易于理解。DeepSeek R1的目标是通过强化学习提升语言模型的推理能力。强化学习的重点在于激励模型,而非直接教导模型。强化学习适用于复杂任务,因为人类难以一步步教导模型。DeepSeek R1-Zero模型直接基于预训练模型进行强化学习训练,无需监督微调。DeepSeek R1模型在R1-Zero的基础上进行了多轮训练和微调,提升了模型性能和用户体验。R1-Zero模型展现了模型自主学习、自我纠错和反思的能力,这些能力并非人为编程的结果,而是模型在强化学习过程中涌现出来的。DeepSeek R1的训练成本相对较低,可能只需10万到100万美元,远低于预训练的成本。优美的算法往往简洁高效。OpenAI的O1模型也使用了强化学习,并展现了模型自主学习识别和纠正错误、分解复杂步骤等能力。预训练侧重于知识积累和思维模式的构建,而强化学习则关注于如何将这些知识应用于特定任务。强化学习的目标是将已有的知识库应用于特定任务,例如聊天机器人或复杂推理。如果数据充足,预训练仍然可能实现AGI;但强化学习提供了另一种更经济高效的途径。强化学习能够弥补预训练的不足,并可能成为实现AGI的更有效途径。OpenAI同时在预训练和强化学习方向上投入资源。智能体(Agent)是指将语言模型与外部环境相结合,使其能够执行复杂任务。智能体(Agent)能够与外部环境交互,执行诸如编写代码、网上购物等复杂任务。DeepSeek R1和Kimi K1.5模型在技术思路高度相似,但DeepSeek R1的算法更简洁、更易于理解。DeepSeek R1的目标是通过强化学习提升语言模型的推理能力。强化学习的重点在于激励模型,而非直接教导模型。强化学习适用于复杂任务,因为人类难以一步步教导模型。DeepSeek R1-Zero模型直接基于预训练模型进行强化学习训练,无需监督微调。DeepSeek R1模型在R1-Zero的基础上进行了多轮训练和微调,提升了模型性能和用户体验。R1-Zero模型展现了模型自主学习、自我纠错和反思的能力,这些能力并非人为编程的结果,而是模型在强化学习过程中涌现出来的。DeepSeek R1的训练成本相对较低,可能只需10万到100万美元,远低于预训练的成本。优美的算法往往简洁高效。OpenAI的O1模型也使用了强化学习,并展现了模型自主学习识别和纠正错误、分解复杂步骤等能力。预训练侧重于知识积累和思维模式的构建,而强化学习则关注于如何将这些知识应用于特定任务。强化学习的目标是将已有的知识库应用于特定任务,例如聊天机器人或复杂推理。如果数据充足,预训练仍然可能实现AGI;但强化学习提供了另一种更经济高效的途径。强化学习能够弥补预训练的不足,并可能成为实现AGI的更有效途径。OpenAI同时在预训练和强化学习方向上投入资源。智能体(Agent)是指将语言模型与外部环境相结合,使其能够执行复杂任务。智能体(Agent)能够与外部环境交互,执行诸如编写代码、网上购物等复杂任务。DeepSeek R1和Kimi K1.5模型在技术思路高度相似,但DeepSeek R1的算法更简洁、更易于理解。DeepSeek R1的目标是通过强化学习提升语言模型的推理能力。强化学习的重点在于激励模型,而非直接教导模型。强化学习适用于复杂任务,因为人类难以一步步教导模型。DeepSeek R1-Zero模型直接基于预训练模型进行强化学习训练,无需监督微调。DeepSeek R1模型在R1-Zero的基础上进行了多轮训练和微调,提升了模型性能和用户体验。蒸馏技术可以有效地将大模型的推理能力迁移到小模型上,即使是只有1.5B参数的小模型也能在推理任务上取得很好的效果。后训练的成本远低于预训练。OpenAI的O1模型首次展示了强化学习在推理能力上的可拓展性。DeepSeek R1模型通过简单的强化学习方法,实现了与OpenAI O1模型相当的推理能力。DeepSeek R1-Zero模型直接基于预训练模型,通过强化学习算法GRPO进行训练。DeepSeek R1-Zero模型的输出质量较差,因此DeepSeek R1模型在强化学习之前进行了微调。冷启动数据用于引导模型的学习方向。DeepSeek R1-Zero模型专注于理工科领域的推理任务,而DeepSeek R1模型则更具通用性。DeepSeek R1模型通过蒸馏技术,将大模型的推理能力迁移到小模型上。在DeepSeek R1的训练中,没有使用过程奖励模型,而是直接使用ground truth reward,以避免reward hacking问题。优美的算法往往简洁高效。张小珺:DeepSeek R1模型改写了全球AGI大叙事,我认同这种说法。DeepSeek的创新能力让业界惊讶,其算法简洁高效。DeepSeek R1的出现,点燃了业界对强化学习提升语言模型推理能力的热情。DeepSeek R1并非是对OpenAI O1的简单复刻,而是在其基础上做出了创新。DeepSeek既是追赶者,也是创新者。DeepSeek R1和Kimi K1.5模型在技术路线和目标上高度相似,但DeepSeek因其简洁性、易读性和开源文化而获得更多关注。开源文化促进了DeepSeek的知名度和影响力。开源正在成为AI领域的主流趋势。开源促进了AI生态的繁荣,降低了技术门槛和成本。开源模型的商业模式转变为订阅制,降低了价格竞争的压力。OpenAI、DeepSeek和Kimi目前采用的强化学习技术路线高度一致。强化学习提升语言模型推理能力,是一种技术发现而非公司独创。预训练模型的进展缓慢且成本高昂,强化学习为模型能力提升提供了新的、更具成本效益的途径。OpenAI的O1模型证明了强化学习可以拓展地提升语言模型的推理能力。OpenAI的O1模型通过强化学习,在复杂的数学推理任务上取得了显著的性能提升。OpenAI的O1模型使用了强化学习方法,模型自主学习了识别和纠正错误、分解复杂步骤等能力。预训练侧重于知识积累和思维模式的构建,而强化学习则关注于如何将这些知识应用于特定任务。强化学习的目标是将已有的知识库应用于特定任务,例如聊天机器人或复杂推理。如果数据充足,预训练仍然可能实现AGI;但强化学习提供了另一种更经济高效的途径。强化学习能够弥补预训练的不足,并可能成为实现AGI的更有效途径。OpenAI同时在预训练和强化学习方向上投入资源。智能体(Agent)是指将语言模型与外部环境相结合,使其能够执行复杂任务。智能体(Agent)能够与外部环境交互,执行诸如编写代码、网上购物等复杂任务。DeepSeek R1和Kimi K1.5模型在技术思路高度相似,但DeepSeek R1的算法更简洁、更易于理解。DeepSeek R1的目标是通过强化学习提升语言模型的推理能力。强化学习的重点在于激励模型,而非直接教导模型。强化学习适用于复杂任务,因为人类难以一步步教导模型。DeepSeek R1-Zero模型直接基于预训练模型进行强化学习训练,无需监督微调。DeepSeek R1模型在R1-Zero的基础上进行了多轮训练和微调,提升了模型性能和用户体验。蒸馏技术可以有效地将大模型的推理能力迁移到小模型上,即使是只有1.5B参数的小模型也能在推理任务上取得很好的效果。后训练的成本远低于预训练。OpenAI的O1模型首次展示了强化学习在推理能力上的可拓展性。DeepSeek R1模型通过简单的强化学习方法,实现了与OpenAI O1模型相当的推理能力。DeepSeek R1-Zero模型直接基于预训练模型,通过强化学习算法GRPO进行训练。DeepSeek R1-Zero模型的输出质量较差,因此DeepSeek R1模型在强化学习之前进行了微调。冷启动数据用于引导模型的学习方向。DeepSeek R1-Zero模型专注于理工科领域的推理任务,而DeepSeek R1模型则更具通用性。DeepSeek R1模型通过蒸馏技术,将大模型的推理能力迁移到小模型上。在DeepSeek R1的训练中,没有使用过程奖励模型,而是直接使用ground truth reward,以避免reward hacking问题。优美的算法往往简洁高效。

Deep Dive

Chapters

本期节目重点讲解DeepSeek-R1技术报告,介绍了DeepSeek-R1-Zero和DeepSeek-R1两个模型,它们通过强化学习提升语言模型的推理能力。R1-Zero模型展现出令人惊叹的自我纠错和顿悟能力,而R1模型则在性能和用户体验上做了进一步优化。

DeepSeek-R1通过强化学习提升语言模型推理能力
R1-Zero模型展现出自我纠错和顿悟能力
R1模型在性能和用户体验上做了优化
模型推理能力的提升与训练算力呈对数关系
强化学习成本远低于预训练成本

Shownotes Transcript

然后我们这里可以看一下 DeepSeek R1 的 paper 它的标题叫做 Incentivizing reasoning capability in LIMs while reinforcing learning 叫做通过强化学习的方式激励语言模型激发它的推理能力这个

这个地方有个非常有意思的词叫做 incentivizing 这个词其实业内人是大家也谈论了很多他其实是有一些之前有一些小故事的就是之前 OpenAid 的一个研究员叫做 Hongyu 他在 MIT 有个演讲演讲的标题叫做 Don't teach, incentivize 不要教模型怎么做而是鼓励他

然后他在这里模型自己输出了 wait wait there an aha moment i can fly here 等一下这里有一个啊哈时刻我可以看一看然后接下来他就说让我们来重新检验一下这部对不对然后他重新验算了这个式子发现有个地方有问题最后解决问题

然后这里面之所以有意思是因为这样子的啊哈模型这样子自纠错能力这样子的等一等这里有一个啊哈 moment 我可以也看一看然后同时一步步验证自己的结果这样子的能力并不是由 DeepSeek 的研究员他们自己写入模型内的而是模型自己涌现出来的能力

模型自己最终达到了 superhuman 能力这样能力包括中间有些所谓就是围棋中的那样神之一手之类的就是是人类开发者是没有想过的预料之外的情况同时是极其复杂的一种就是行为模式这也就是强化学习的一种美吧模型可能训练的成本如果优化的足够好的话可能就 10 万美金就够了如果说说破天可能最多最多也就 100 万美金相对之下他们的预训人用了 600 万美金

所以優美的算法或者優美的技術往往是最簡單乾淨的技術

Hello 大家好,欢迎收听张小军商业访谈录,我是小军这是一档提供一手高密度信息的商业访谈节目首先祝大家 2025 春节快乐哇,在刚刚过去的这个春节呢 DeepSick 一举改写了全球 AGI 的大叙事那在万般热闹之际啊我们特别想沉下来做一些基础的科普工作一起来研读这几篇关键的技术报告

今天这期节目呢,我要请的是加州大学伯克利分校人工智能实验室的在读博士潘嘉怡来做一个技术解读。她的研究方向集中在语言模型的后训练。

那这期播客呢,嘉宜将带着大家一起来读春节前 DeepSick 发布的那篇关键的技术报告。她在报告里发布了两个模型,分别是 DeepSick R1-0 和 R1,并且对照讲解最近 Kimi 发布的 K1.5 模型的技术报告,以及 OpenAI 更早之前发布的 O1 的 blockposts。

当然也会聊到它春节紧急发布的 O3 Mini 这几个模型都聚焦的是目前大模型最新的技术范式 RL 强化学习那希望我们的节目能帮助更多人一起读懂这几篇论文感受算法之美并且准确地理解目前的技术拐点期待 2025 我们和 AI 共同进步

佳怡先给听众朋友们打个招呼你也可以介绍一下你的研究方向还有你在对 R1-0 上复现上做的一些尝试嗯

好呀,谢谢小军的邀请大家好,我是潘夏宜我是加州伯克利大学人工智能实验室的一名博士生我现在自己主要的工作集中在于用语言模型强化学习的方式做智能体和推理的后训练我主要关注的方向可能会说怎么用强化学习等后训练技巧让 AI 学会写复杂代码控制电脑完成各种通用的任务

然后在 R1 发布之后的话我和合作者都对这个技术非常的兴奋然后刚好手里有一些相关的项目也对这些代码比较熟悉花了几个小时然后发布了就是现在大家看到 TinyZero 项目算是全网第一个对 R1Zero 的小规模复现然后同时进行了一系列早期的消融实验

在这个工作里面我们觉得可能最有意思的一个点是说我们发现在一些简单的任务上在这里我们的任务是 24 点的一个通用版大概意思是说你有几个数字然后你的目标是用它组合用加减乘除以及括号组组合出一个算式让它能

最后等于一个目标数字在这样的任务上面就算是一个 3B 的这种非常小手机都能跑的模型再通过强化学习后也可以自然发展出自我纠错搜索等能力然后我们会希望这样的工作能让大家以更低的成本来快速地就是迭代研究出这样子的一个新技术路线到底是怎么做的以及未来该怎么发展你们就花了几个小时就实现了小规模的复现吗

对了对了这个当时对那天晚上就是我自己玩的比较就是激动然后大概是一个晚上就把早期的时间全都做完了那今天我们这个节目的形式希望稍微发生一些变化我想请嘉义来主讲这几篇关键的技术报告他会带着我们读一遍那中间如果我遇到不懂或者有疑惑的地方呢我会作为观众视角来提问提问过程可能在中间也可能在最后

主要的目的还是希望帮助大家一起来共同理解这几篇技术报告包括其中的真正的突破点然后以及几篇报告之中相似处不同之处还有如果附现的话可能会遇到的一些困难或者陷阱那在正式开始之前我还是先问嘉宜几个问题啊第一个问题是很多人说 DeepSick 一举改写了全球 AGI 的宏观去世你认同吗

在你看来 DeepSync R1.0 和 R1 这两个模型对于 AGI 路线图或者大国的科技叙事它的标志性意义是什么

我觉得这很好问题我个人可能更多是做这些研究然后对这些宏观的叙事没有足够多了解能发表非常好的评论但是我觉得有几点是一定成立的一个是 DeepSeek 最近的工作一定是让美国的这些大厂再重新反思自己的模型的不管是模型的训练效率还是自己的创新能力之类的他们会发现自己可能并没有想象那么领先同时现在在深度求索在海外一系列爆火之后现在美国也开始正式

中国的 AI 创新能力而不像之前只觉得是在就是一步步的非常差了一两年时间的模仿然后同时的话像对于 R1Z1 以及 R1 这两个模型的话它主要的标志意义应该是说从欧万发布之后到现在大家终于知道就是用强化学习来可拓展的提高语言模型能力的整个技术路线的秘密然后所以说在未来的话可能说不管是模型的推理能力还是作为智能体之类的能力一定会快速提高

我还挺好奇你周围有什么比较有意思的讨论或者 feedback 吗

我觉得大家可能包括是跟一些像 GoogleDMind 以及 OpenAI 的一些研究员聊的话我发现大家都对 DeepSeek 的最近的创新能力也好包括是以这么低的成本产出了这么漂亮的工作也好的能力都非常的惊讶然后对于 R1 的话大家都觉得这个方向非常漂亮而且算法也非常干净然后很多人可能就后续会想转比如我有些朋友之前是做视觉语言模型的预训练的

然後現在可能就想轉型到就是做這種視覺語言模型的推理之類的就是這會是一個全新的領域可能就像一兩年前的 CHAT-GBT 剛出來時的 ROHF 一樣後面肯定會有很多人進入這個領域然後拓寬它進行相關的研究這很有意思這個變化不是在 O1 出來發生的是在 Deep-seek R1 推出來發生的是嗎

对我觉得是的就是 O1 出来之后显然有些已经在这里的研究员已经在做推理的研究员在进行相关的就是探索是但是我觉得可能是对我觉得这是很有意思的现象可能更多的人就是还是会在整个趋势非常明了之后才会做这种大的抉择所以说像 R1 出来之后你也可以看到就是说 R1 出来之后

最近的这些流量也好或者讨论也好我觉得甚至可能至少是跟 O1 当时是可比的就是当整个技术路线对整个公众都是可以明示而且让大家都知道它的原理之后整个大家的激情才真正的被点燃了在业内人士看来 DeepSeek R1 是对 OpenAI O1 的复刻吗现阶段的 DeepSeek 它究竟是一个追赶者还是一个创新者的角色

我觉得至少在 R1 这个例子上我觉得可能一个类似的事情是这项是 OpenAI 在 O1 中给大家出了一个非常有意思的谜语然后整个业界的所有厂商都开始想揭晓这个谜语的答案然后 DeepSeek 是第一个也是第一个找出答案的同时给出的答案也非常的漂亮

然后但是您说如果 DeepSick 自己是作为追赶者还是创新者的话我觉得就是其实我觉得他已经在做出一些非常杰出的创新包括他之前 V3 里的就是那些超级稀疏的 MOE 也好就是

专家模型也好或者说是他的就是他对于自主阅历机制的创新也好都非常非常出色我觉得可能大家还缺的一点就是像 open eye 一样可以持续的像 chartgpt 也好 sora 包括到现在 o1 一样出一系列的就是能够改变 paradigm 的一些创新这个事情还没有出现不过这个事情其实也就只有 open eye 这这些年能长期

能持续突破这个也是个非常高的要求节前其实前后脚国内发两个模型一个是 DeepSeek R1 和 R1.0 然后还有 Kimi 1.5 就它们之间的差距大嘛为什么同时发布大家的关注全部在 DeepSeek 上

我觉得其实 Kimi1.5 是个非常漂亮的工作而且其实如果大家看这两篇的工作报告的话它们其实相似度非常高可以说是就是异曲同工有异曲同工之妙然后其实也很一样就是感觉其实如果作为 Moonchild 团队的成员当然就是

就是这样的这么好的团队肯定也该收到更好的关注和激励更好我觉得就是如果从事后角度来分析的话我能够看到几个方面可能是一个是就是 Kimi 的团队因为主要是在国内应该他们的主要的就是

产业是在国内然后没有开院的传统也没有过就是这种长期的论文发表的情况所以说在海外也好或者说在就是研究社区里面不存在这种自来水的粉丝然后深度求索是一系列从几年前一两年前开始就开始有一些非常高质量的技术报告开始公布同时也有

模型公开在各种社区里面有非常多的自来水而且大家也可以跟着这些报告一点点读然后对我觉得可能就是缺乏一点这样的后继播发然后同时可能从 R1 的报告来讲的话他更加的简洁易读一些 K1.5 他其实有非常多非常漂亮的一些技术细节的公布而且你可以看到他做了非常多漂亮的一些工程创新但是可能就是缺乏像 R1 以及 R10 这样子的就是非常爆款的一些就是

報告讀起來就沒有那麼的爆款以及令人激動跟開源避免有關嗎然後這也是 Kimi 好像是他們第一次發技術報告是的我覺得其實如果就是就比如說如果我們看梁文鋒他之前自己報道中的就是自己講的思路我覺得是類似就是開源其實會創造一個文化以及一種認同我覺得這已經在深度求索上已經得到一個非常明顯的體現

因为它一直有这样的开源文化因为它的技术报告可以被看到因为它一直以来的这些开源的一些长期坚持所以说其实在海外已经积累了一个非常好的名声也好或者说就是大家对它的这种文化的拥促感也好你觉得后面 DeepSeek 的这一系列举动会让更多的公司开始开源吗它会促进开源的生态进一步繁荣吗

对的我觉得这是非常好问题而且目前看来真的会这个事情我觉得特别是对于我们这种在学校研究院来说我们就会非常开心能够看到这些大厂自己折折这么久的一些东西我们可以举些具体的例子比如说昨天或者前天应该是 San Martiman 在 OSI mini 的一个 Ask me anything 就是在一个类似

在一个论坛上就是你可以问我任何问题的一个地方有人问他说你们觉得开源怎么样他们就说我们觉得我们之前的行为站在了历史的错误的一面我们后面会想想看是否要进行开源然后后面有些他们的研究员补充说可能他们会开始开源一系列的工作以及把一些老旧的已经不是那种用来赚钱的模型进行开源然后同时的话就是我知道就是包括 Kimi 也开始进行这样子开源举措而且听说他们后面可能会进行更多的这样子的就是技术八卦的公开行为

开源会对 AI 的整个生态带来哪些后续的影响对我觉得这是个很好问题我觉得一个形式可能就是大家可以促进整个生态的更快的繁荣

而且有更少的这样子的折损比如在开源之前的话可能大家技术路线都要自己摊一遍也好或者说如果特别是如果有些公司愿意开源一些 framework 也好大家就可以建议基于这些代码直接进行复用而不用说自每个人每个团队自己都要重新摊一遍各种技术细节以及各种代码的细节这是一方面然后第二个方面我觉得可能就是说对于

各就是对于开发者也好或者说对于研究员也好甚至说是对于大众来好开源了之后这项技术一定会更快的普及而且成本会降得更低比如说现在深度求索的 R1 模型本身他们的就是他们已经是用因为他们的

他們的推理架構就已經很便宜所以說他們可以以很低的成本進行部署但現在大家網友也已經開始了進行了自己的部署也好或者說後面隨著推理框架的繼續開發我非常相信說就這樣的技術成本會降得非常非常低那如果都開源了的話這些大模型公司他們怎麼掙錢啊?他們自己的商業模式會遇到問題嗎?好問題這個事情我覺得我沒有特別多就是能夠有建設性的看法

对我觉得这非常好问题我觉得可能一个事情比如我跟就是之前跟 OpenAid 有些研究员聊他们个人会觉得 ChatGPT 这个商业模式比卖 API 棒非常非常多我相信国内可能也有些就是公司会有这样的共识原因是因为如果你要卖 API 也好

那么你可能就要跟开源模型竞争而且就是 API 线大家都同志外非常严重对吧大家都是兼容 OpenAI 的 API 你想换个 API 你就只用改几个代码然后给另一个公司充点钱就好了它的可替换性非常强而且你面临的竞争非常激烈你要一直处在价格便宜同时性能靠前的这样的地方你才能够持续的卖你的 API 对吧但是对于 TradeGBT 它其实可能会说我每个月用户

付一个费用比如 ChashBT 的 20 美金然后你可以享受 OpenAI 它最近一系列技术包括它的这样子的推理模型 O1,4O 以及它的 Sora 这张图片以及视视频生成模型一系列的东西这更像是一个就是比较可持续的而且竞争更少的有一定护城河的一个商业模式不过对我对这个地方没有特别多的就是深入了解就是也就只是抛砖引玉一下

OpenAI DeepSync 和 Kimi 目前都在探索強化學習的路線這三家公司在 general 來說他們選擇的技術路線差異大

我觉得从目前来讲的话其实大家的技术路线都很一样的我觉得一个原因可能是说像这样的技术路线它与其说是一个公司的发明它更像是一种发现这个发现其实简单来讲就是说大家发现用强化学习在足够强的语言模型上进行训练会涌现出场思维链同时能让模型学会推理在一系列设计推理的任务上性能要明显提升这个像是个发现所以说大家其实目前的路线都还是挺一致的

好的那以上的問題是希望能幫助大家做一個大致的定位那接下來我們就把主場嘉瑋佳儀她來給我們講解這幾篇關鍵的技術報告好呀謝謝那我們就開始吧然後在這的話我覺得可以從一些背景開始講起這樣子能讓大家對整個就是為什麼我們需要推理模型以及它在就是整個技術眼睛上的重要性有一些了解

其实我们可以从 GPT-3 开始看去 GPT-3 的话我这边查的材料是它是 2020 年的 6 月份发布的然后大概在两年半之后也就是 2023 年的 3 月左右 GPT-4 发布了然后我们现在是在 2025 年的 2 月了其实也已经过去了近两年时间了但是到现在我们还没有看到 GPT-5 的发布然后同时就算是现在的不管是 DeepSync V3 也好或者说一些像 Lamar 的 400B 以及最近出来的一些其他模型也好

其实他们的就是基础模型能力并没有明显的强过 2023 年这个已经时隔两年的 GPT-4 模型的能力可能更多的是说在后续链上进行了更多的就是微调让这个模型更好能利用工具也好或者说能够对其人类的价值让用户更喜欢也好在这些方面上有了非常大的进步然后同时我们也可以看到说这样子的这其实就是所谓的预训练的模型的一些技术进展

同时现在我们看到他这些预训练的模型算力他其实已经用的非常庞大在 GPT4 的时代应该大家一般的估计是说在 50M 美金左右然后当然现在说因为算法效率的提升像 DeepSig V3 可以用大概 6M 也就是不到 10%的钱就可以实现大概 GPT4 的训练然后同时芯片也在变便宜然后但是如果我们要拓展到 GPT5 可能你会需要大家一般来说会希望说就 GPT5 因为按照 OpenAI 的命名

规律一般一代比一代会大概多 100 倍的有效算力然后这样子的话他可能会需要更多的钱一般猜测会在 200 million 以上但总而言之大家可以看到就是预训练他确实仍然在有进展虽然说伊利亚也有说就是预训练可能马上就要到头了但是可能说我们还能再推一代左右但他现在确实首先他要的成本非常高其次他的迭代非常慢不管什么原因已经有两年时间我们没有见到下一代模型了尽管这个行业有如此巨大的投入

然后其实 O1 这种工作也就是在这个前提下开始展开的其实它主要的问题是说除了预训练算力之外有没有其他可以拓展的维度让我们丢入算力让模型能够可拓展的有进一步的提升然后其实 O1 这边工作就是 learning to reason with ALMs

用语言模型的方式让模型学会推理这篇工作里面就告诉我们有的其实你用强化学习的方式你就可以让你的后训练以及推理师算力可以获得可拓展的提升同时让你的性能呈现性的近似提升

然后我们这样走我们可以先从 O1 这边工作看起 O1 这边工作其实最重要的图也就是它的第一张图也就是它的 X 轴是训练时的算力然后同时它是取了对数也就是说是每你的你第一个如果是 10 第二个就是 100 第三个就是 1000 这样子然后它的横轴是训练时的算力这里的训练不是预训练而是后训练然后同时还有一个是测试时算力就是 test time compute

它的横轴是这两个然后它的纵轴是一个非常难的叫做美国数学邀请赛大概是就是可能在国内就类似于高中说高中奥数竞赛这样子一个邀请赛

一样的一个就是任务上的精度然后我们可以看到说在你没有进行任何的后续练以及推理时拓展的情况下你的算力大你的性能大概是在 30%左右然后当你一步步的投入更多的后续练以及推理时算力你会发现基本上跟你的算力的对数呈现性的

他的 AIME 上的成绩也在稳定的提升这是个非常漂亮的结果因为可以看到他一路从 20%左右 20% 30% 一路升到了快 80%基本快把 AIME 这样子的难度给解了所以这是个非常非常漂亮的结果

然后我们可以再看看这个 blog 里面他说了他其实这 openside 在这 blog 里面没有讲很多的技术细节但是他其实从现在过来看他其实主要的要点都讲了他这个谜题设置的也就非常精妙他强调了很多点第一个事情是他做到这个事情的方法是 reinforcement learning 也就是强化学习

在这里我可以先快速讲一下强化学习大概是什么然后后面我们再遇到的话可以再进一步的讲要讲强化学习我们可以其实跟预训练或者 sft 也就是监督微调进行一个对比在预训练或者监督微调里面更多事情是说我们给这个模型一段文字这个东西大家已经写好已经知道答案然后你教他怎么做你教他模仿这段文字比如说

比如说你好比如说你好他就要回你好那么你可能就把你好这个词交给他他就会学会好我要说你好然后在强化学习中这行更多事情是我们告诉模型他的回复是好还是不好然后让模型自己捣鼓出来怎么样做会更好让模型去做一个任务然后如果这个他会自己试很多次然后其中会有效果好的和效果差的我们人或者说一个模型会告诉

就会告诉这要训练的模型就是 language 模型这个效果还是好不好如果效果好我们就会鼓励模型多这么做如果效果差那么就让这个模型少这么做这大概就是强化学习的原理然后

然后在这里欧凡还告诉我们说强化模型是实现这个范式突破的重要途径同时他给我们展示了一些他的这些长思维链对在这里的话可能刚刚旺提的是说我们这里是这里说就是他在他不仅是在后续链时随着算力的投入他的性能能够增长同时还有一个叫做推理时随着算力的投入能够进行更多增长在这里是他是怎么做的

如果在训练中我们知道就是你把模型训练的越久跑更多的次数那他就会用更多算力在推理时他做到的方式其实是说让模型输出更多的更长的思维链让模型先输出思维链然后再回答这个思维链其实一个比较简单的就是

以及直观的类比其实就是慢思考以及快思考模型可能会在思维链中先说我要这么做让我先把任务给他分成几个小任务让我再一个个试让我再试下这个题他是不是这么做让我先试试方案 A 不对我试方案 A 中这一步可能有错那让我再重新试一试方案 A 好像不对让我试试方案 C 吧

方案 Z 好像也不对哦我知道了可能我还是是方案 D 大概会在思维链中像人就是自己的就是自己内心的思绪一样就是一步步慢慢的把这个问题一步步的解决对这是慢思考然后与其相对比的其实是语言模型之前也是 ChatGPT 或者就是标准的就是之前大家用 Chatbot 就是这些聊天机器人他们其实是目前看来的话更类似近似于一种快思考就是他会一开始就给你答案大概这样的对比是这样子的

对然后在这里我们可以看到就是说它能通过让模型学会慢思考它能实现推理时的可拓展性然后这里 OpenAI 又给了一个非常关键的词他说 You learn to recognize and correct this mistake 这里我直接用中文吧就是说这个模型他自己学会了找出并且也改正自己的错误他学会了把复杂的难的步骤给解构成更简单的步骤他也学会了在

现在的步骤错的时候选择别的方法而且他非常明确的提到了这些东西是模型自己学到的不是人教的然后最后他还说他们觉得我们正在这个技术的早期他们认为这技术是可拓展的而且后续会有很多很多的技术迭代突破这大概就是 OpenAI 在这篇就是 Blog post 以及在 O1 发布时给出来的所有信息

预训练加 SFT 其实这个快速考其实涌现的是人类的智商是吧我可以这么简单的理解吗它其实是智力提升对我觉得就是如果从现在看的话其实预训练更多的是说你教会了模型很多就是关于世界的知识以及教会它了你有这些就是思维的一些模式也好或者说你知道一些

很多這些世界上的一些各種信息也好更相對於是就是吸收整個信息以及同時儲備各種可能有用的思維模式的這種模板我覺得可能現在用現在理解的話育訓練可能是在做這樣的一件事情那強化學習呢?

强化学习其实可以看两段一段是像在 ROHF 也就是之前就是我们做这种就是聊天机器人这个阶段以及现在的就是 O1 这样子就是推理模型阶段其实他的目标都还是挺一致的叫做说我们已经有了这样一个非常大的一个就

就是数据支持库他储存了非常多的就是不管说是网上大家的各种就是事实信息或者说就是各种就是推理的知识的就是模板也好然后但是我们的目标是让他用来做某件事情

然后在做聊天机器人的时候我们的目标是让他能够作为一个非常友好同时没有杀伤性的一个就是能陪我们聊天的机器人然后在推理了我们就希望他能够解决某一个就是非常复杂的问题然后我们用强化学习的方法就像我们刚刚说的就是强化学习他更多的是我们告诉他要去做什么而且我们告诉他他做的好不好模型会自己也通过各种尝试的方法找出我其实该这么做我该那么做这样子

然后其实我们可以看就是说强化学习在这里想要做的是说

让把这个已经有了这样一个非常丰富的一个知识以及推理模式的数据库让它用在某一个非常特定的当然这可以是个非常通用的一个任务上这个任务我们可以目前看到是一个是聊天机器人一个是进行这种非常复杂的推理 GPT-4 GPT-5 他们的那条线索是扩展整个最大可能性的知识库然后这个可能再有一代也就到天花板了

所以现在我们做的事情是怎么把这个知识库用好用在具体的任务里我觉得这个我觉得基本可以这么理解就是其实 OpenAI 研究员他们自己就是在推特上有一个非常有意思的描述就是我觉得我们可以这么理解就是如果说我们仍然能生产出非常非常多的网络的数据就是说如果数据不是平静的话那么可能预训练仍然比如我们推了 GB6GB7 它就可以可能还是能实现 AGI 或者能实现 O1 这样的推理效果

但是因为我们现在有了更多的方法来拓展这个事情其实你可以想象这些东西类似于我觉得一个就是不太严简类比的它有点类似于乘法就是你预训练用的算力成立你推理时用的算力这东西可能就是大家给你模型的性能有关然后我们之前其实在预训练上投入了非常多的算力但是推力非常便宜这导致说就是这个模型可能然后导致我们继续推进预训练它已经过于昂贵了然后在现在有了推理时算力的情况下我们可能其实能够用 GPD4

以及更多的推理式算力就能够实现可能未来我们仅仅做就是预训练可能 GPD5GPD6 才能达到的高度之前就是在推特上有欧凡研究员说就是 O1 is sort ofGPD6 in your hand 就是说 O1 这个模型就相当于把 GPD6 通过推理式拓展的方法现在就送到你面前

就是推理帮助了预训练推理应该算是帮助了模型的整个能力的激发我觉得可能可以这么说那实现 AGI 还需要通过 GPT-5 GPT-7 以及往后的这条路线吗还是说它可能就沿着 O 序列可以实现 AGI 啊

我觉得这很好问题我觉得应该所有公司应该都还在这方面进行探索然后根据已有的一些公开信息比如说 MarkChain 就是 OpenAI 现在总管研究的一个高管的说法他们会在预训练以及这样子的推理时候训练拓展上面进一步的同时进行投入就是说两方面你都可以进行推进那何乐而不为对吧

所以现在是两个腿在跑步对我觉得是的我觉得是的嗯理解那你继续对然后当然可以提到一点是说就是现在的叫后训练的就是这样子的拓展也才刚刚起步现在预训练我们已经看到就是你训练一个模型可能要就是

特别是一个下一代模型可能要就是几百万美金来起步但是其实现在后续呢比如说我们可以后面可以提一下对于就是 R1 成本的预估他可能最多最多也就也就 100 万美金很有可能就只用十几万几十万美金就是他现在还在一个非常早期所以说在现在这个阶段非常非常快的就是推进这种后续练的后续训练以及强化学习的拓展其实是非常有非常非常高回报因为这个范式才刚刚开始

包括我們也可以看就是 GPT OpenIT 他們已經在就是 O1 發布大概三四個月後就發布了下一版模型 O3 同時 O3 已經又在各種方面上有了非常非常明顯的提高 O3 相對 O1 它提高主要哪些方面

因為它給我們的體驗其實比較少就是 O3 我自己也還沒有摸到過但是 O3 民營型的 CHAT GPT 上大家都可以用到我覺得可能有幾點一個事情是說就是說 O3 系列就是說在同樣的成本下它一定能提高高很多的智力就是說整個智力的成本

快速下降同时 O3 本身他提高了更高更高的上限比如我们可以看到 O3 他在就是一个就是困扰了大家很久的也就是 ARK AGI 的一个就是 benchmark 上直接从 O1 的 2 30%这也其实也是大家之前所有语言模型的能力直接提高到了我觉得应该是七八十的样子

非常震惊当时的主办方然后同时的话像一些 frontier math 这是最近出了一个非常非常困难的由专业的数学家构造了一个就是数学测试数据集直接从之前的之前应该最高分是 1%左右直接现在提高到了 20%几就是他在智能上有非常大的突破然后同时我们也看到最近有一些就是 openeye 的产品发布也显示说在欧三之后他们现在更多的在

再投入一些就是所谓就是多轮的就是工具使用这个东西其实就是智能体了就是说你可以认为像如果只做推理给你一个问题你回答答案这其实就你不需要一个环境对吧你就只要自己马白想想也好就是推理模型然后对于智能体的话其实它也是类似的只是说它现在有个多有个外界的环境你可能说你有个任务好模型想一想

走一步环境给他一个反馈他再走一步这样子一个有个循环多步的然后通过使用工具的方法跟环境交互目前可以看到比如说 openai 最近今天刚出的这个所谓的 deep research 以及之类的一些工作也好他们目前在非常稳步的推进这些就是欧系列模型在这种多轮的工具使用上的能力

春節期間他們發這個 O3 mini 是被 DeepSeek 逼出來的嗎這個我們也不清楚但是應該是他們本身應該也是計劃要在 1 月末發 O3 mini 但是 O3 mini 的價格比 O1 mini 甚至還降了就是降到了 O1 mini 的三分之一這個東西很有可能是被 DeepSeek 逼出來的你們能簡單的講講 agent 是什麼意思就是科普性的讓大家理解他具體能幹什麼

好的没有问题其实这个地方 agent 也就是这里说的这种智能体它其实更多的说就是我们希望把语言模型放在一个非常丰富的外界环境下让它像人一样就是操纵一个东西然后来完成任务我们这一局举个具体的例子比如说写代码的

写代码的智能体可能就是说你给他一个任务说帮我完成比如我现在有一个就是任务我要修某个 bug 或者我要实现某一个功能也好你把这东西告诉 agent 告诉这个语言模型然后这个语言模型智能体然后这个语言模型智能体他

可能你会你再给他一个外界环境这个外界环境可能是一个电脑比如可能是一个就是 ID 这样子就是而程序开发环境你可以让他他可以自己就是编辑文件可以在就是终端里面运行命令也可以就是进行 Git 上的一些操作包括可能可以翻阅 Github 以及就是网上各种材料给他这样的环境然后这个 Azure 因为有这些环境可以接触自己可以跟这些环境进行交互他就可以实现一些非常复杂的任务比如说

完成这个软件的项目然后同时一些比如说有些就是现在比较火的 computer use agent 就是你直接给这个语言模型把整个电脑交给他让他通过就是敲键盘然后挪动鼠标的方式完成一些比如网上购物或者说一些就是制作 PPT 或者说就是以及之类的功能他更相当于是把这种语言模型这种智能接到一些非常现实的一些有用的空间里面

大语言模型调读外部世界对对我觉得这个描述非常准确谢谢我觉得大概就是 O1 这边的以及整个就是技术的背景是这样子如果没有问题的话我们现在可以就是从 DeepSeek R1 开始看起然后我们这里的话其实现在还会有就是有两篇文章要讲一个是 DeepSeek R1 一个是 Kimi 的 K1.5 这两篇文章其实大家他们的主要思路都非常的异曲同工我们然后

其中的 R1 更它的算法上会写的更加干净以及漂亮然后 K1.5 带了非常多的不管是数据也好还是说整个就是架构也好以及各种就是实验的细节也好带了非常有会更加更加丰富我们会就是先从 R1 开始讲起然后中间有相似的地方上我们会插播一下 K1.5 然后最后我们再通过 K1.5 的地方看一下它比如数据构造也好或者这种就是奖励函数的构造等等细节

对然后我们这里可以看一下 DeepSeek R1 的 paper 它的标题叫做 Incentivizing reasoning capability in AI arms while reinforcing learning 叫做通过强化学习的方式激励语言模型激发它的推理能力这个地方有个非常有意思的词叫做 Incentivizing 这个词其实就是河南人是大家也谈论了很多它其实是有一些之前有一些小故事的就是之前 OpenAI 的一个研究员叫做 Hongyu 他在 MIT 有个演讲

他就演讲的演讲的标题叫 don't teach incentivize 不要教模型怎么做而是鼓励他这个意思其实是其实这个意思是说就是你不要教模型具体该怎么做这些就是我们在 sft 以及在预训练过程中做的事情而是说根据让模型自己你就告诉他什么好什么不好

然后让他自己摸索出来怎么样更好这样子的其实实际逻辑是说当整个问题足够过于复杂当整个模型的就是你希望他的行为非常非常复杂的时候人其实是没有办法教一步一步教会他怎么做的这个情况下你就该告诉他什么对怎么错然后希望模型自己学会他一个就是比较简单的类别的话可能是说就是

他里面举的例子也就是说我们之前知道是说授人鱼鱼不如授人鱼鱼就是给一个人给他一条鱼不如教会他怎么样打鱼然后在这里的话这个例子可能是说不如让这个其实教会他怎么打鱼不如先让这个人知道鱼有多香然后让他饿着肚子他自己就会有足够的奖励激励自己学会怎么打鱼而且可能打得比你更好对大概是这样子一个例子然后我们可以开始看一下这篇文章

好的我已经打开了对我们可以先从这个就是摘要以及第一段开始看起他大概的说法是说我们在这里就是推出了我们的第一代的推理模型 DeepSync R1-0 以及 R1 然后其中的 R1-0 是一个通过大规模的强化学习也

训练出来的模型同时他没有经过监督微调 SFT 也就是说他是一个预训练完直接出马的出马进接上大规模强化学习模型不像我们之前进行 RHF 一样先进行预训练再进行微调再进行强化学习这里帮我们可以后面展开然后他说 DeepSync R10 他展现出了非常漂亮的推理能力然后同时

通过这样的强化学习 R10 它自己展现出了各种非常有意思的推理的行为这里包括其实就跟我们之前 OpenAI 说的那个谜题一样就是说这个模型通过强化学习自己学会了各种奇妙的能力比如说搜索比如说就是检查自己的错误以及改正自己的错误在这里面 R10 展现出了类似的性质

然后我们继续读这里说同时 R1-0 它面对了一些困难比如说它的就是输出读起来比较难读以及就是说他可能一会说中文一会说英文然后因为有这些比较实际的问题他们同时也为了就是进一步提高的模型能力他们后续推出了 DeepSeq R1 模型也就是其实现在大家如果在 R1 就是 Chatbot 上或者 API 调用使用的模型 R1

这个模型它不像 RY0 只是经过单规模强化学习它经过了多轮的就是各种 training 的各种训练模式然后同时在强化学习之前通过一些就是冷启动数据进行了微调

然后继续读他其实就说这样子的 R1 模型它的性能非常漂亮已经完全赶上了在各种推理任务上已经赶上了 O1 然后同时他也然后同时 DPC 说他们开源了 R1 以及 R1Zero 以及他们甚至进行了一些蒸馏的尝试并且把蒸馏的这一系列从 1.5B 到 70B 这些都是开发者能够在本地跑起的模型进行了开源这大概是来 XRap 说的事情然后我们可以

从 introduction 细细的看一下他具体做哪些大事然后一步步就是一段一段的读起来

好的我们可以看一下就是 Introduction 里面他说就是说语言模型他经过了非常多的迭代然后然后同时现在已经被证明是大家就是进军 AGI 的一个非常几乎是唯一的一个同时也是非常就是非常 promising 的一个人选然后在这些年的话后续训练其实已经成为了整个语言模型训练中越来越重要的部分我们之前讲过说就是其实现在基础模型的能力都并没有

显著的高过于 GPD4 但是比如在 Chabot Arena 或者各种榜单上我们可以看到模型能力有很大提升这部分除了就是大家数据的构造好之外很大一部分其实也就是整个后训练模式的提高但是他这里这里提到

哪怕说就是我们在这里看到了各种就是有后训练带来的各种提高包括在推理任务上包括说让就是这个模型的输出更对用户友好以及更加符合社会价值观也好他们用的算力仍然都相对于预训练是毛毛雨

然后这里他说盲目语大概是有多少呢我这里大概就是查了 DeepSick V3 的 paperV3 的 paper 里面他讲了说他们的预训练花了 5.3 million 然后同时中间有个我们大线可能有些人会称为叫做 mid train 叫做中训练了大概意思是说这个预训练它的模型的就是文本长度只能在比如 8k40008000 这个长度上然后你通过一个非常简单的用 0.2m 就对大概就是 2%左右的一个成本你就可以让他把它

把它拓展到比如说 128k128,000 这样子的长度上这个是中训练但是我们可以看到整个 deep-seek v3 它的后训练它报出来的成本是 0.01m 就是 0.01 万美金这个数字是它预训练成本的不到 0.2%所以它真的就是非常毛毛雨非常就是几乎可以忽略不计的一个数量这也可以看出就是说我们在这个如果能在这个地方实现拓展呢它的收益一定会非常非常大

然后我们继续读他接下来会说就是像欧万这一系列模型他第一他第一次展现了我们可以进行就是这种推理时的拓展性然后然后你这样子实现的方式其实是让模型自己实现了就是长思维链

然后后面他又说就是之前大家有着各种各种尝试包括就是学校的各种尝试也有或者 DeepSeek 自己之前的一些强化学习包括一些就是 MCTS 蒙特卡罗搜索之类的尝试都有很多很多尝试但是没有人达到像 O1 这么漂亮的效果在这篇文章中就是 DeepSeek 脉说第一步展现出了通过通过简单的纯粹的强化学习方式就可以达到像 O1 一样的就是非常强的推理能力

然后他这里开始介绍就是 R10 具体是怎么做的 R10 的做法其实是说我们从 DeepSeek V3 base 模型开始就是他是没有经过后训练的就只是你从一系列文本中进行预训练之后的结果开始然后你通过一个叫做 GRPO 的

策略梯度强化学习算法然后你直接在各种推理任务上进行强化学习然后你就会发现这样子的模型它会自己的展现出各种各种有意思的推理模式然后同时在经过几千步的强化学习也计算之后 R10 它展现出了非常非常漂亮的推理能力

能够跟 O1 打平同时可能是之前的像 GPT-4 或者就是 V3 的 Base Model 可能就是高就相对来讲高了相当相当可能百分之几百的这样子的模型性能跨越然后他接下来会说就是像我们刚刚在这中提到的

R1 ZERO 因为你是从这个样子的没有经过价值对齐以及没有经过用户的就是这种喜好对齐的模型开始出发的所以说其实它就像就是它的文本质量肯定就可以跟在互联网上随便看文本一样它会比较乱乱糟糟的而且同时因为是多语言训练它会有一些就是各种语言来回跳之类的现象然后然后在这里它就为了解决这样的问题然后提高用户体验也是为了提高性能它推出了 R1R1 的话它

首先他会用一系列非常少量的冷启动数据进行先启动微调这冷启动数据其实就是一些研发员非常好

我们可以在后面说简单来说就是冷启动数据是一些研发人员通过各种方式精心挑选出来的一些长的思维链数据这样子这模型一开始就大概知道往哪个方向去了而且知道说就是他可能在冷启动数据里面已经告诉了模型你可以做这样子就是搜索你也可以做这样子的就是自我纠错这样子的一些事情这样子模型学会了这个

这些 pattern 就是这样子的一些模式之后后面在探索的时候可能也就能够事半功倍然后接下来他就进行了一个跟 r10 一样的强化学习模式然后这样子的强化学习模式之后你其实就得到了一个推理的专家模型因为这样子推理任务你需要有你依赖于有就是问题以及标准答案

或者说一个能验证答案的这样的一个问题答案组吧我们这么说这种答案组其实我们可以看其实在像理工科比较常见数学可能很多题你就有个标准答案看见最后答案对不对就行代码的话你会有一些这样的 unit test

你跑一下知道对不对但是可能比如说在文学创作或者说一些别的地方就没有那么简单所以说在这里面 R1ZERO 以及是这里第一步模型中它的强化学习是在这样子这里工科以及数学这方面的领域进行它其实是一个专攻这方面的推理非常漂亮的专家模型但是我们的目标是什么我们目标是想做一个通用的模型这样子他可能也会需要在别的一些就是正常的就是聊天或者一些就是一些

更软的领域上有一些就是训练那这里他采用的方法其实也是大家行业比较通用的就是我们现在专家模型用它来生成一些数据然后进行正流也就是 SFT

然后在这里蒸馏的时候我们除了用这专家模型他的这种数学以及就是各种理工科的就是这种能力之外我们还会他们同时还从 deep seek v3 中抽取了一些就是这样子的蒸馏数据他们可能会这些可能会是在一些更更加通用的通用的斗媒比如像是聊天啊以及就是角色扮演式的斗媒然后把这些数据混到一起

然后重新微调一下 V3 这样走这 V3 他又见过他从类似于说从多个专家这里学到知识之后他自己就会在各个方面表现得更加均衡同时什么都能做然后在这个模型之后他们最后再进行了一轮在所有领域上通用的强化学习得到最后的 R1 然后这个 R1 这个就是他们最后得到 R1 的步骤然后最后 R1 它的性能表现跟 O1 比较相似所以 R1 更重要还是 R1 肌肉更重要

对我觉得这个可能看你就是关注什么如果你说从这个技术的干净性上来讲的话 R1Zero 显然就是就是大家都会觉得更加干净因为就是你不需要就是做像就是 R1 像 R1 一样就是说自己手工先就是缝缝缝缝

补出这样子的强思维链数据你发现这是模型会自己就是自发涌现出来的性质这性非常漂亮而且你可以想象如果后面模型就是性能更快提升的话说不定就是说 R1 ZERO 因为它更少的依赖于人类的鲜艳知识当然它这样模型本身是在人类知识上预先练过所以它还是有些鲜艳知识但肯定会比 R1 这种就冷启动数据更少

因為有更長時間的支持說不定它能達到更大的高度或者說在各種領域裡面會更加的靈活自由但是 R1-0 它就是目前反正它性能也沒那麼好其次是說它的通用性不強而且就是用戶友好度不強所以說就是作為商業化或者說一個就是實際的部署的話顯然現在 R1 會是更好的選擇所以我們現在用 DeepSync 都是 R1 對對都是 R1

然后最后深度求索就是在这篇文章中就也是英硕的最后一段他说我们

有了 R1 之后我们也尝试了说怎么能不能做这种蒸馏其实我们这样看到 O1mini 是个非常有意思的模型就是它 OpenAI 在各种场合都虽然成长非常小而且价格确实也还行但是同时它在各种就是榜单上的能力非常非常相对于前一代的这种就是聊天机制模型来说非常非常夸张然后圣球这里面也在探索就是说就是能不能用知识的蒸馏的方法用 R1 蒸馏到小模型上然后在这里他们用了千万 1.2 2.5 32B 模型做

做了两个实验一个是说我们用 R1 的这些就是我们已经用 R1 之后用它生成各种数据然后直接 SFT 蒸馏到千万的千万三十二币上这是方案一方案二是我们在千万三十二币上直接用 R1Zero 的方式进行就是大规模强化学习

他们最后发现甚至说你这样子从大模型蒸馏到小模型上的效果比直接用小模型进行后训练效果更好这是个非常有意思的发现对我们后面具体看了这段时候可以细致的聊然后同时就是他后面也不管不论是 32 币还是更小他们最低做到 1.5 币他们发现说都有非常非常好的正向的结果这表示说就是这样子的推理能力和能力由大模型发展发现出来的推理能力是

是可以被非常有效的征流到小模型上的好的这大概就是这篇文章就是从就是哈拉罗上讲了什么我们这样可以就是稍微过一下看看他就是每一段就是有没有什么有意思的东西那我们就从 approach 这里开始就是

他的 R10 的技术路线然后 R10 这个技术路线其实他说的意思他的意思是我们在这里其实也跟 openshack 当时的出发点一样就是我们想看一下这种能力能不能就是自发的涌现出各种这样子的推理的模式然后在这里 DeepSync 从 2.2 开始说我们在这里探索说就是不给定任何的监督数据语言模型是否也能够自己的发展出各种推理能力

然后在这里他们的方法其实非常简单就是说给一个 base 就是这样子的基础圆就是基座的圆模型直接在上面运行强化学习算法然后其实当你整个设定做对了之后你就能看到这样的能力然后我们可以从这里的强化学习算法看一下

他这里的算法其实是跟 deep seek 之前的算法沿用了叫做 GRPO 这是 GRPO 这个没有个特别好中文翻译我就直接这么说了我们可以聊一下这 GRPO 大概在做什么 GRPO 是一个非常出名的 PPO 算法的一个 deep seek 自己研发出来的迭代版本他最大的区别是说我们可以这么说我们可以先聊一下在此之间我们可以先聊一下 PPO 做了什么在 PPO 里面

模型我们有需要训练两个模型一个叫做价值模型一个叫做就是 actor 模型也就是而策略模型 policy model

然后这里然后是这样子的我们的目标目标其实是得到一个非常好的策略也就是一个非常好的一个就是能够用来做事情的模型这就是我们的目标然后在这里面为什么 PPO 要训练一个价值模型呢价值模型的意思其实是说我们之前我们在强化学习中很多时候可能就是我们的

奖励也好或者就是每一步就是我们强化学习中可能更多的是说我们只有最后一步也好或者中间某些步骤也好会得到一个奖励而不是每一步我们都知道他有多好但是实际上你知道比如我们要生成一个句子它里面是有非常非常多的字也是有非常非常多的 token 组成的

那么这个情况下的话我们其实会更希望说我们能够微调每一个字它的就是权重有多高就比如这个句子里面可能它其实我们举个例子比如说问题是 1+1=2 然后这模型说 1+1=3

不对我觉得 1+1 好像等于 2 答案 1+1 等于 2 那在这个例子上的话如果我们就是只用 reward 的话那我们可能就会会把整个句子都因为他最后答案是我们就会把整个句子的就是奖励提高

这样子的话就是所有东西都学了包括你中间错误的那 1+1=3 部分你也学到了还是后面那个非常有意思的就是自己改错让自己纠错然后最后得出正确答案的步骤也学到了然后 PBO 的意思是说我们可以通过学一个价值函数来细致的描绘说某一每一步是对是错如果你能够学出一个很好价值函数他会告诉你说好的

他会告诉你说某个字是对是错他是好是坏这样子你就可以说这个字我要学他那个字我不要学了甚至是个更加细致的监督信号比如说在我们刚刚这里怎么他可能就 1+1=3 这个 3 因为错了那可能如果说这个价值函数他学的足好那他可能就会把等于 3 的这个 3 就说我们不要学了这个是错的然后后面东西继续学这样子我可能会让整个收敛更快也可能让这个策略学的更好

这是 PBO 的出发点但是实际上包括这个然后这个我们可以结合 k1.5 谈一下这个这个这个事情他假设是说我们能够学到一个非常好的价值函数但这个事情其实在现实生活中也就是其实在圆模型特别这种长思维链下我们发现他可能并不成立

原因因为是首先我们就这个任务非常非常难你想就是你只有一个特别是在就是原模型这样的任务中我们只有我们只要一个事情就是最后这东西是对是错 0 或者 1 这样一个非常非常稀疏的一个监督信号我们要学会每个 token 对还是错这事情本来就难而且同时就是监督信号只有最后一步有然后同时特别是在长思维链下整个这个就是一步一步走你可能要走几千个 token 整个就是序列非常非常长

以及特别是 K1.5 中有提到一件事情是说在这个情况下语言模型他自己学会了纠错那么这个情况下这个 1+1=3 这个三是对是错其实就不好说了这完全解决你最后能不能纠正我们可以看这个例子如果这个模型说 1+1=3 好的那答案就是 1+1=3 那这个东西 1+1=3 我们肯定不想要对吧因为他

引向了错误的答案但是如果像我们刚刚例子说 1+1=3 哦不对 1+1 其实等于 2 那我的答案是 1+1=2 这个情况下因为这个策略他自己本身就能够纠错那么可能他就那么这个情况下 1+1=3 这个 3 真的就是一个错的行为吗

他可能也不盡然是吧因為他後面能糾錯那可能只是說我試了一下改錯了就是我只是我中間一個沒有那麼優的嘗試而已在任何情況下其實在這樣子能無限糾錯的場景下其實你想學會一個

精确的价值函数是非常困难的事情然后最后我们可以看到的事情是不管是 k1.5 也好还是 r1 也好大家都异曲同工的取消这个价值函数我们因为这个价值函数不可能精确他不可能得到这样的气质反馈同时他还会占量占用巨大的算力而且就是让整个训练过程变得更复杂那我们不如把它丢掉就用最简单的办法给所有的每一步骤一样的奖励

其实这就是就是 GRPO 就是 DeepSeq R1 以及就是 K1.5 里面他们用的另一个算法的出发点就是说当价值函数不准的时候我们就直接舍弃它只进行 Policy Gradient 也就是就是策略梯度的训练然后在这里我们可以看下它整个就是训练的函数大概在讲什么事情它有两项第一项是就是 PPO 一个非常标准项它的意思是说好的就是

我们先从 advantage 开始说起或者说就是每一步他就是每一个就是每一个尝试是对是错还是说起他的意思是说就是说这个模型他会是很多次有些对有些错然后呢我们在这里我们把相对比较好的

作为好的把相对比较差的作为错的然后把它进行归一化它的命会是 0 然后同时它的 standard deviation 会是 1 这样子的话就一般来说这样技巧会有助于稳定训练这样子的话我们就对于每每一个就是 batch 也就是每一次模型尝试比如 10001000 次然后对于 1000 次中我们就可以分出来哪些好哪些坏

这个是 advantage 这里的一项他的意思就是说让我们看一下这一组里面就是相对的哪些好哪些坏然后向好的学习向坏的我们就舍弃

然后另一项就是不管是 k1.5 也好还是 deep-seq R1 也好还有个事情是说我们希望就是因为语言模型训练很贵而且因为就是每次生成数据你其实就要生成一个这么长的常温的它的价格也很贵所以我们希望它除了能用就是策略梯度里面所谓的 unpolicy data 之外也能用一些所谓的 off policy dataunpolicy data 意思就是说我们现在模型

及时生成的数据而 All Policy Data 意思其实说就是这个模型可能几代之前生成的数据他可能跟现在这个模型已经有一些就是他在就是各种就是他的角色上面已经有一些细小不一样了但是我们仍然能希望这个老一些的一个就是稍微有些不一致的

策略他生成的数据能够帮助我们学习然后他这里相对是有一些就是 RL 技巧包括就是重要性重采样之类的技巧帮助我们说好的我们让这个模型他除了能够就是接受 Unpolished 数据之外也能够稍微的容忍一些就是站在过去的稍微过时的数据这样子能够让我们就是重复的利用之前的就是之前已经采样过的数据提高这个数据的利用率

这是他的一个技巧然后另一个技巧其实也是非常标准的就是说他有一项 loss 叫做 KL divergence 他的意思是说我们现在有一个我们正在训练的模型同时我们有一个就是我们刚开始的一个 reference model 就是一个作为样板或者一个参考的模型这参考模型他可能能力没有我们想要的那样但我们知道就是他的输出大概是相回事的我们希望他这输出不要偏离之前的这个样板

样板参考模型太多这个叫做 KL divergence 他就是说如果你跟之前的这个输出偏离太多了那么你就会遭到惩罚那这样就不好这大概其实就是整个就是强化学习算法的就是含义然后这里面其实一个比较其实我跟就是我我身边也有一些就是包括做理论强化学习或者是的一些同学以及师兄师姐跟他们聊天之后其实主要感慨是说就是像这样的其实是

就是像这样子的算法其实是在强化学习那里算是极其简单以及直接的并没有一些很深的一些就是各种就是技巧呀之类之类的就是用非常简单直接的方法然后解决了一些一定要解决的问题比如我们刚刚说到就是这种离线数据 of policy data 以及是以及就是不要偏离原策略太远这样一些非常简单的一些问题之后得到一个非常简单明了的一个训练损失函数

這個算法是 DeepSeq 的創新點對吧 GRPO 算法是 DeepSeq 大概一年之前在 DeepSeq Math paper 中第一次提出來的然後它是 DeepSeq 的創新點而且現在我覺得可能後續大家都會用的更多因為就是其實我覺得它這裡的就是論點其實主要是 K1.5 講的這個論點是就是非常明確就是說

当你这样的价值函数估计不准时你不如丢掉它那么大家可能后面发现这个事情之后可能也会从就是 PPO 这样带价值函数的东西转到了不带价值函数的东西 GRPO 是这样子一个例子然后 K1.5 中他们自己写的一个相似的但是就是损失函数细节上有一些不同的算法也是这样的例子

那我们继续看嗯好的然后我们看下一部分其实就是他说的就是对于一个强化学习我们其实需要几部分我们

我们有一个我们就是希望训练出来的策略对吧就是他能干就是他能够拿到最高的奖励然后同时这样说我们还会需要一个环境这环境其实在 R1 以及就是 K1.5 的例子里面其实就是你有一个问题以及你有一个这样的奖励函数这奖奖励这个对奖励函数他会告诉你说你到底是对做对了还是做错了然后我们可以看一下 R1Zero 里面是怎么构造的 R1Zero 里面他的意思就是我们

它可能就是一个用 Python 写出来的一些一些东西比如比如说你这个答案要跟某一个我们的就是标准答案是一致的或者说他们在进行化解或者这个操作之后是一致的或者说就是说你这样的标准的一段代码要能通过要跟我这样的就是样板答案一样都能通过一个 test case 同时可能比如说性能占用要达到一定的就是量级大会是这样的东西

然后他这里说 R10 他有两部分的奖励一部分叫做 Accuracy Reward 一部分叫做 Format RewardAccuracy Reward 的意思是说他这 Accuracy Reward 他具体是说就是这个问题做对了没有

然后 full my reward 的意思是说就是它的格式对没对这个格式包括是说就是因为在这里我们我们刚刚提到了我们希望他先进行一个慢思考然后回答然后再进行回答然后在 deep seek r1 这个例子里面的话他们会让整个格式更更清晰他们会是说让模型先出出一个 think

思考这样的一个 tag 然后在这个 tag 里面把就是把自己的就是慢思考的一个非常长的思维链过程写在里面然后后面再转向然后后面再用一个 answer 就是答案这个 tag 然后把自己的就是最后的答案写在里面

然后 DPC R10 的意思是说我们的整个奖励会是这两部分如果你答对了当然给你奖励如果你格式对了我们也会给你点奖励然后在这里我们其实在 tiny0 附现里面我们当时设了一下 format reward 我们给的 0.1 然后 efficacy reward 给的 1 这些就已经能够跑起来了对这个地方应该就是事实应该都还好

然后这里他还说的事情是说我们在就开发 DeepSync RY0 中没有用到针对过程或者结果的神经网络奖励模型这里的意思其实这里主要是跟我们之前的在 ROHF 中以及最近就是这种就是 PRM 也就是过程过程奖励模型相对比在 ROHF 中其实我们就是说我们也是在强化学习但是我们强化学习的目标是针对一个就是这样的奖励模型奖励模型它

的训练过程也是其实是从一个圆模型开始然后他会收到很多文本队告诉你说这个是问题这是答案一这是答案二我告诉你答案一比答案二好或者答案二比答案一好那你就学会了然后最后你在训练过程中你问这个模型答案一怎么样他会告诉你一个分数你问他答案二怎么样他会告诉你一个分数这样子了然后就是在这样的聊天机器人之间 RHF 场底下模型就会用这样的用这样子的

那奖励模型作为就是自己的奖励函数进行学习

然后同时我们可以看到他说了另一个叫做 process neural reward model 也就是过程讲解函数这东西其实是现在复盘来后啊大家可能有些被就是 openAI 去年或者前年的一个叫做 let's verify step by step 的研究有点带偏因为那个其实是 openAI 出的最后一篇的关于就是语言模型推理的公开论文之后就出了欧万可能让大家觉得这个之间有些神秘联系然后其实很多团队在上面

投了相当多时间这个东西他其实跟我们刚刚说就是刚刚说的就是结果奖励函数以及就是标准 RHF5MODEL 有些类似也是说你有一个问题有一个答案然后打分但过程奖励函数意思是他是他不是给结果打分不是说就是你整个回答我给你打个分数他会更加细致同时他也会从这些他会更加细致他在学的时候你会告诉他说

第一步是对的第二步是对的第三步是错的这样子就是他会细致的学到说是哪一步是对哪一步是错同时就是你在训练的时候他也会这会细致的告诉你第一步对第二步对第三步错之类的其实这个东西就跟我们之前说的价值函数非常非常相关他会告诉我们非常细致的不是整次 roll out 也就是不是整个回复是好是坏他会告诉你非常细致的哪一步好哪一步坏

这东西确实听起来是个非常非常诱人的事情对吧因为有这样子的细致的就是回复包括在强化学习中已经被长期证明于非常有效但是目前至少在 R1 这样的时间点上的话我们发现就是你没办法做出非常精确的这种奖励的就是行进网络模型同时因为这些模型他只是就是其实这是个模型呢就会有错对吧然后你现在呢

然后我们现在训练的这个策略模型它太厉害了它非常有可能就会直接进行所谓的 reward hacking 对于这样子的神经网络构造的奖励函数模型 DeepSeq R1 中他们提到说这样子的模型在足够大的强化学习下以及模型做好的情况下会发生所谓的 reward hacking 现象也就是说对它这个奖励进行了一些破解

这具体的表现是说我们因为这样的 reward model 它其实只是对我们心中的一个就是实际想要的奖励的一个非常一个不完美的模仿那么模型可能会通过就是破解这些不模仿中的破绽然后导致你的奖励函数告诉你这个模型做的事情非常好非常正确但其实我们人拿到发现他去做一些非常奇怪的事情

一些 RHF 中的例子比如说如果你的就是 reward model 就是如果就是你的训练没有调好的话有可能性是说奖励函数自己奖励模型会觉得就是如果这个用户如果就是这个回复中有很多 emote 那么这可能是一个非常好的事情他自己学会了 emote 很好就越好但是可能人类并不想这样子然后你发现如果你用那奖励函数作为奖励

奖励函数模型作为奖励然后这样迅速的模型它可能就会输出非常多的 emoji 但是人看起来就会非常的一言难尽其实并不希望这么做这就是这样的 reward hacking 奖励破解的一个具体体现

然后在这里的话 DPCR1 的意思就是说为了防止这样的现象我们就直接用 ground truth reward 也就是真实的奖励我们在这样子的数学或者说代码这些地方我们能确定他最后答案是对是错这样子我们就避免了一切的这种就是奖励破解的可能性

你剛才提到 OpenAI 之前有一個最後那份報告它是故意把別人往天裡帶嗎?那時候我覺得可能不一定可能當時他們自己也還沒找到北吧然後就設了各種各種技術路線其實您也可以看就是說像 DeepSeek 或者之類的 DeepSeek 他們自己其實也做了很多就是 Process Reward Mode 這種過程監督

我的奖励模型的一些工作我觉得可能是当时大家都还没有找对方向所以说就那样子了因为当时那个 Let's Verify step by step 那篇 paper 距离最后 01 的公布应该有大概一年时间左右只是这一年内他们没有公布更多的进展对我觉得我我觉得他们不一定是有意的对但是虽然这个结果看起来确实是给大家带拐了一些

這是 approach 裡面的第二點第一點是算法第二點是獎勵函數對對然後我們現在可以快速看一下它的就是這樣子的一個他們用的模板

他这里的模板意思其实就是说我们告就是相当于是给你模型的一个就是前缀就是告诉给他一些文本告诉你该怎么做规然后就规定他的训练会训练的模式而且他模板其实是没有什么意外的一个非常简洁的一个模板他的模板说的事情说好的下面是一个人跟这样的一个助理的一个对话然后

用户会问一个问题助理会解答他这个助理他会首先就是一步步的思考然后自己的推理过程然后在最后给用户一个答案然后比较重要的是说他这里会因为我们刚刚说了说 DeepSeek 他希望能够就是他的奖励函数构建中有一部分是格式这也是因为我们希望能够比较简单读出答案这也是为了

我们能够在比如 reward 的时候我们能够非常好就是提出来答案是哪部分他跟我们的就是标准答案比起来到底怎么样对吧所以他这里面会在这样子的一个模板上他提到说哦他提到就是这样格式回答的

聊天机器人的回答格式该是怎么样的他提到的就是说你应该先把你的就是推理过程思考过程放在这样的 think 的 tag 里面然后最后再把你的答案放到 answer tag 里面然后这就是整个就是这个模板有什么然后现在用户会问个问题然后就换上语言模型开始进行一步步的生成解答这个问题

对整体来讲整个就是模板是非常清晰简洁的就只是告诉他格式该怎么做然后你该先思考然后再回答问题这些都是非常干净的事情然后我们现在看一下他接下来的 2.4 他应该是开始讲的一些就是实验的结果之类的然后我们可以从他的

我们可以从他的二点 FIG2 跟 FIG3 开始看这其实是他就是最漂亮以及也就是所谓的附件 O1 上面那些图的一些样板了在 FIG2 中我们可以看到他就是也是拿 AIME 这样子一个美国数学邀请赛的性能作为 Y 轴然后他的 X 轴是就是你强化学习训练的步数当然就是你强化学习训练的步数显然也就是跟你投入的算力多少成正相关然后在这我们看到就是一样的就是

而万模型从最开始的可能就是只有百分之十几的精度一步步随着强化学习的跟进一步步精度到了百分之七十左右然后同时如果你用一些

然后这是他蓝线所指的然后同时他也测试了一个所谓就是 concept16 这个的意思应该是指就是说你让模型输出 16 次答案然后同时你输出然后同时你提取出中间就是中间就是答案中重复最多的也就是大家共识最高的那一个答案来作为你最后回答这是一个就是非常标准的一个就是做

推理时拓展以及提高模型能力的一个技巧对它也被叫做 Best of N 或者 Modularity Voting 之类的就是一个非常标准然后如果你用到这样子的事情那就是红线的结果它会大致的高一些但是整体的趋势都是一模一样的然后从里面看来最后它在进这样一万步强化学习后它的性能大致的来到了 O1 的区间还低了一点点

然后 fig3 是一个非常有意思的图在 fig2 中我们看到它的性能在一步步拓展但是其实就是你只看这个可能还是很纳闷他为什么能提高这么多对吧就是他是怎么做的是说他就是直接就一次就答对了呢还是说有些别的

事情在其实在发生然后 PK3 就告诉我们说其实他之所以能够一步步提高性能很大一部分原因是因为他的输出在慢慢变长模型在强化学习中慢慢学会了利用更多的 token 用更长的思维链通过更多的推理时算力提高自己的能力这其实就是推理时拓展怎么来的模型自己在强化学习中发现了如果我在推理时做更多的

做更多的思考生成更多的 token 用更多的算力我性能能提升所以说他就学会了推理时拓展在这里我们可以看到事情是这在这里他的 y 轴是每个回复的就是回复的平均长度就是模型思维链的平均长度 x 轴还是步数我们可以看到第 0 步的时候就是他的输出有 100 来个 token 几百个 token 长度通过 8000 步左右的

强化学习训练后面模型的平均恢复长度来到了大概 1 万个 token 左右提高了将近 20 倍同时他这个图也非常漂亮就是是一条直线从 0 拉到上面就是您很会期待说他们为什么在这停了呢是不是后面继续训还会有继续拓展那我觉得是非常有可能的这两张图应该是他最大的就是结果展示也就是能够看到他最多的这种信息量他在这里是不是用了一个词叫动物时刻

对了对了对了我们可以对我们可以马上看一下这个对我现在往下翻然后我们也看到说这里我们发现了就是模型他居然自己学会了说利用更多就是自己在强化区中发现哦如果我用更多的测试时算力我就能够增长我的性能就能变好所以我就该这么做我们刚刚发现这个事情然后我们可以像然后我们可以看看他究竟是在怎么样花他这么长的滋味链里面他就在干什么然后 deep seek 这里在说

这在后面这个 Aha moment 里面提到了说这个模型通过这个模型 R1-Zero 他通过强化学习的方式自己涌现出了复杂的推理时推理能力

这些能力包括反思这个模型他可能会自己就是重新看一遍之前自己的问自己的答案然后同时重新就是评估一下答案然后可能也会改正他同时也会可能进一些搜索或者说一些或者进行搜索之类的一些各种非常复杂的一些复杂的推理能力

然后通常在这里说这些行为并没有被并不是这些就是 deep seek 的研究员自己写进模型里面的他们并没有说我先给他一个就是这样的 sft data 教他说你可以进行反思你可以进行搜索而是这个模型自己在强化学习中自己涌现出来的能力

然后这个其实跟他的所谓的啊哈 moment 的定义也非常相关在啊哈 moment 里面他其实举了一个例子这个例子是说就是模型一开始其实就是说一步步按部就班的往下走比如你有一个数学问题带走很多步那就一步一步走然后如果你每步都对了那你就成功了如果你错了那可能这模型就错误就这个问题就失败了而且也不会自我定着

然后这里的啊哈 moment 呢指的是他们发现在模型的某一个训练时刻这个模型开始学会了这样子的 self revision 这样的就是纠错能力他在中间的某一步他一步步走下之后突然发现自己有个式子列错了然后他在这里模型自己输出了 wait wait that's an aha momenti can fly here 等一下这里有一个啊哈时刻

我可以看一看然后接下来他就说让我们来重重新检验一下这部对不对然后他重新验算了这个式子发现有个地方有问题最后解决问题

然后这里面之所以有意思是因为这样子的啊哈模型这样子自纠错能力这样子的等一等这里有一个啊哈 moment 我可以也看一看然后同时接下来一步步验证自己的结果这样子的能力并不是由程序员以及开发者他们自由 deep seek 的研究员他们自己写入模型内的而是模型自己涌现出来的能力这也像他们所说的就是这个能

这个行为不仅向我们展现了模型究竟是如何一步步的提高自己的推理能力同时也让我们看到就是说强化学习是如何能够领向意外之中以及复杂的一些这样子的行为对这里的一个就是观念是说其实就在整个就是

这里的一个观点是说其实跟这样子的监督学习相反就是强化学习因为就是你没有你是在就是告诉他什么是好什么是坏你没有规定他该怎么做这其实是我们现在唯一已知的就是可以达到就是 superhuman performance 的一个方法

包括你说在下围棋也好或者说打游戏也好这都是大家大家都是通过强化学习的方法然后告诉他哪个好哪个不好模型自己最终达到了 superhuman 能力这样能力是人类包括中间有些所谓就围棋中的那样神之一手之类的就是是人类开发者是没有想过的预料之外的情况同时是极其复杂的一种就是行为模式这也就是强化学习的一种美吧

我能理解这个是这篇论文的高潮部分对吧对我觉得是的因为其实这里面这个 Aha Moment 其实之前就是 OpenAI 他们 O1 的里面我觉得其实也是有类似的提到过就是这个模型怎么自己涌现这一部分能力也好包括就是他们研究院前他们其实 OpenAI 内部他们有些视频里面也提到他们有类似的 Aha Moment 也好其实这个 Aha Moment 的出现其实就说明是他们的技术路线是对的同时就是你能看到说

就是首先一部分这个技术路线是一定是对的而且同时从科学上来讲这样啊哈梦梦的出现其实增长了我们对于这个路线可拓展性以及进一步推进的信心在这里能够出现一些我们人意料之之外的一些就是这样复杂的推理能力那么当我们把它再推进几个数量级给更多数据给算法调得更好之后它很有可能能够出现更加漂亮更加有意思的效果我觉得这个从各种角度来讲都是个非常非常漂亮的结果

模型能涌现出意识吗

我觉得这个得看大家对定义识的定义是什么有些人会觉得说这个东西他只是一次次预测下一个词他就没有意识有些人会比如 Joford Hinton 今天说他认为现代模型已经有意识了因为如果你只看他的输入输出对吧他跟人一样你给他一句话他能给回复他只能回复的比我还好那么你你只看这个情况那他里面好像你说他是人吗还是人他里面我们知道人有意识他能这么做那你没换成模型他输入输出都一样你就能说他没有意识吗

而是這個就是不太好定義的問題但是對我覺得大家能夠開始探索這個問題就說明模型的能力真的在有非常非常卓越的突破而且開始讓人認真的思考就是自己的存在也好或者就是自己的價值之類的問題已經超過人了嗯嗯在很多領域上可能已經超過人但是還有很多很多領域還需要一些突破對然後在這裡後面就是像我們剛剛提到就是聖諾修所這裡

DeepSick 他们提的就是 R1 这些就是一些劣势然后就像我们刚刚说的就是说它的就是可动性比较差因为他是直接从基础模型进行初始化的然后同时他会有的时候会跳各种语言然后接下来他就然后在这个基础上他们迭代出了就是 DeepSick R1 模型这个就相对于是他没有在科学上有那么的就是有意思但是他会就是商业上更加可行而且性能上也会更加好

作为一个落地方案这部分是工程能力的优化对我觉得这方面会是比较工程的一些优化然后对我觉得是的你说对然后同时这个 R1 其实就跟 K1.5 整篇文章的就是思路是相对类似的对我们可以就是一起来看看这个事情然后这里他提到的事情是说他们首先用了冷启动数据

我们刚刚也提到一些这里的冷启动数据其实就是指一个非常小量的就是长思维链数据这些长思维链数据就会作为一个初始化像我们刚刚说的 R1Zero 这个他会自己学会说这样子就是纠错能力也好或者是进行搜索的能力也好

那在就是 R1 中以及包括 K1.5 中应该大家做一件事情是说我们把这些能力直接展示给模模型通过 SFT 的方法我们自己手工标注也好或者通过他这里说的 Future Prompting 也好或者之类的就是各种手法也好我们自己制作一些这样子的长四位链数据展现给模型你可以进行这样子这样子的就是这样子的推理模式你可以进行搜索你可以进行这样子的改正之类的这样子的模式

然后我们直接告诉模型可以这么这么做然后同时我们的这些长思维链我们肯定会就是像之前说就是这种就是可读性差的问题我们肯定也会给他修复然后如果语言有跳来跳去的问题我们肯定也会修复这样子的话给模型一个更好的初始化 DPCR1 会先用这样子一个小的小但是晶的长思维链数据进行冷启动好然后可以看一下下一段就是 2.302 这里说就是

面向推理的强化学习这个地方其实就和 R1-0 做的事情非常类似就是说当我们有了这样子一个已经被冷启动数据就是调优过的一个模型之后我们在上面运行跟 R1 类似的算法在这样子的主要涉及推理能力的方向也就是写代码数学科学以及这种逻辑推理这样的领域上面我们运行强化学习然后在这些领域中的话我们需要我们因为需要一个这样子的

确认答案我们需要一个非常精确的一个讲义所以说我们会需要这样的答案它有非常好的非常就是能够非常简单验证的答案

然后在这里的话他们发现你训练着训练着这个模型又会出现就是这样子混合各种语言的这种情况这样子对大家用户体验肯定不好然后他们做了一些工程上的调优具体是说如果我们发现这个模型在回复中有各种语言混杂的话那我们就给他一些就是惩罚给奖励调低一些这样子我模型就会学会说哦我其实不该混合语言对然后在这里进行了一个这样的小的补丁

好然后这样子之后我们其实就得到了一个就是中间的这样的一个专家模型他在推理上的能力会非常漂亮但是你让他可能说比如说聊文学或者说就是当 chatbot 或者说决策扮演他的能力因为没有在这方面训练上肯定就会逊色不少但然后我们这里 R1 他的目标是一个就是可以 production 用的模型那么这里的话我们会需要把它一步步向这个能力上面迁移

然后这里做事情其实说我们把各种专家模型先蒸馏的或者说叫做就是混就是我们把这些专家模型通过类似于蒸馏或者说就是自训练的方式能力集中在一个模型上这个做法很简单就是我们现在有一个这样子的 R1 这样子的一个在推理方面的一个专家模型

然后他会提供这样子的推理方面的数据然后同时他这里提到说我们还会有这个 DeepSync V3 就像是一个通用模型我们在一些没有推不是推理的这些

这些方向比如说写作或者说一些关于就是写作或者说翻译或者说一些是涉及涉及实际信息的一些提问回答这些方向的话我们用 DeepSync V3 模型当做专家然后我们做形是这样子的

有了这些专家模型同时我们当然也有这些专家在这些领域的那些 prompt 我们用 rejection sampling fine tuning 的方式找征留这些专家模型的能力

对然后这里的方式也就 rejection sampling 方式就是说拒绝是采样意思是说可能比如说我们采样 100 次回答然后我们根据其中就是我们比如说比如对于这个推理乱架模型也就是我们刚刚训练的就是这 r1 的中间中间参数我们对它进行

拒绝采样也就是我们比如采样一千让他根据对一个问题或者一系列问题比如采样一千个他的回答然后我们剔除中间的回答错的剔除中间中就是比如这个语言格式不好的以及剔除中间的比如说语言混杂的啊或者说有些我们或者就是答案写的不标准的这些一些就是我们不喜欢的

我们不喜欢的一些答案然后留下剩余的数据当做我们的就是蒸馏的 sft data 然后在这个然后在 R1 这里的就是就是推理专家中他们具体得到这个推理数据的方法是说我们对 R1 这个中间中间的 sharepoint 进行这样子拒绝采药

然后我们里面的 prompt 会包含上一个阶段就是 R1 这个中间参数进行大规模强化学习时所有的这样子的数据然后同时还会包括然后那些数据是可以直接用这样子就是基于规则的得到标准得到就是 ground truth reward 这之前那些数据是可以有这样的 ruby reward 然后同时我们还会

同时 DeepSeq 他还扩充了整个数据集包括了一些额外的数据这些额外的数据有些可能就是没有办法很简单的写成有 ground truth rule based reward 形式但是你可以用一些就是这样生成式的就是用奖励模型的形式进行判断然后在这个阶段里面他们也就是在这一阶段他们除了用这样子的规则奖励函数之外也用了奖励模型

然后同时因为他们发现说这个模型的输出有的时候是有些乱的或者难读的然后他们就这样所以说他们仍然他们在这个拒绝式采样中筛出了那些就是思维链中有混杂了各种语言的或者过长的以及格式不想要的那些数据然后在整个流程之后他们最后拿到了 60 万个跟推理相关的训练数据

然后我们接下来看下这个非推理部分非推理部分其实就是经过用用 DeepSeek V3 进行这样子的拒绝采药

然后对于这样子这样子的非推理任务对于然后对于对于一些可能比较难的话他们会让 v3 也像就是模仿 R1 一样先生成一个 chain of thought 这样子的思维链然后再给出答案然后对于一些非常简单的比如你说你好那他肯定就没必要先给个思维链再回答你好他就会直接输出一个答案然后在这样子的话他在这样子非推理里的方向他收集了总共 20 万个训练数据

然后这样子你总会有 80 万个这个由专家模型产生的数据然后我们用这个数据微调我们最开始的 DeepSig V3 的 base model 然后这样子可以得到我们下一轮的数据这样子模型它相对是被两个专家都教过一个推理和一个通用的专家都教过那么这样子我们可能肯定会期望这个模型它推理也懂推理也比较懂同时这样子通用通用的任务也不会落下

然后我们可以看最后这段就是对所有场景进行强化学习在这样子我们得到了一个就是比较通才的会推理同时也在通用任务上不错的模型之后我们对它进行最后一轮的强化学习调优

这个强化学习条优其实就是你可以认为有点类似于把正常的 RHF 跟 R1 的这种强化学习混在一起做就是说按他的说法是说对于推理的数据对于推理的一些任务们还像 R1 一样就是说我们有这样子的就是我们有这样子用这样子的基于规则的 Broad Truth Reward 然后对于这样子的非推理的那些任务更加通用那些通用任务的话我们就直接用

reward model 來進行然後通過這樣的過程他們最後得到 DeepSeek R1 的最後商用以及落地的模型像這樣子就是同時發布兩個模型一個跟偏技術向一個跟偏工程向常見嗎在技術報告發布上面我覺得很不常見就之前基本沒見過這樣子的然後可能是確實大家我猜測他們研究員也覺得 R1-0 這個就是事情

因為可能他們自己也能意識到這個 R1-0 這個趣事非常非常的有意思而且整個技術突破非常好玩所以說願意花很大的篇幅先講 R1-0 同時把 R1-0 也當作一個模型也公開開源就是如果不選擇這種方法的話它可以只開源 R1 對吧但是你就隱藏了 R1-0 的這個部分

哦了解我知道您的意思说就是他们可以就是开源的时候只选择开源 R1 我不太清楚因为 R1Zero 其实大家就是后面用的人我我久没有看到有人在实际在用 R1Zero 因为他确实没有说像这样的一套工程打法下那么好用可能我觉得一个可能就是 DeepSick 他们想把自己的开源文化贯彻到底第二可能是他们也都觉得这 R1Zero 是个非常重要的发现觉得发出来会比较好对

你觉得他为什么叫 R1Zero 啊?Zero 这个词其实是有一些渊源的就是这可能跟之前就是 AlphaGo 以及 AlphaGo Zero 有关就是我们可以先说 AlphaGo 跟 AlphaGo Zero 大概是做了什么其实它有点像 R1 跟 R1Zero 但是顺序是反正就是 AlphaGo 是先出来然后出了 AlphaGo ZeroAlphaGo 是说这个它这个下围棋的一个就是第一个就是世界级的下围棋的一个 AI 能下围棋的 AI 它的做法是说我现在

整个网上的超级大量的就是人类的对局中学习然后再进行强化学习的条由所以说它是依赖于人的鲜艳知识的

然后 AlphaGoZero 或者说后面的另一个版本叫 AlphaZeroAlphaGoZero 是在围棋中你不借助任何人类的线线知识直接从零开始就给你盘棋和一个奖励函数你从零开始学棋然后看能学出什么这是 AlphaGoZeroAlphaZero 是说给任何一个棋局我都可以这么做不只是围棋任何一个棋都可以这就是

AlphaGo 跟 AlphaZero 这里的主要区别是说他们完全不依赖人类的先验知识就可以学到各种事情同时他们证明了说这样的 Zero 模型修炼后的上限是高过 AlphaGo 的同时能够有各种所谓的神之一手吧对然后在这里的 R1 跟 R1Zero 的话其实就是

其实他还没有那么 zero 因为他是经过就是大量的互联网的预训练的但是他没有但是他不像 R1 一样就是经过了所谓的就是这样子各种思维模式的能启动他是直接就是他是直接进行强化学习学出了各个这样子的思维模式在这个程度上他依赖更少的人类鲜艳

所以说你可以称它为 Zero 不过目前的话它还没有展示出 R1-Zero 比 R1 的效果更好的这一面说不定后面会有这个大家也都说不准没有 R1-Zero 就没有 R1 对吧因为 R1 是基于 R1-Zero 的条优这个其实不太清楚就是 K1.5 其实你可以看到 K1.5 就是完全类似于 R1 他们可能没有做出 R1-Zero 但是也可以做 K1.5 就是说大家其实知道一个

就是因为最近其实也有些同期工作就是大家知道的一定能够就是能一定能做出效果的方法是说我先用这种长次位链能启动然后再进行强化学习他就能够至少在很大程度上附现 O1 这样子的效果

这个都是带在已知的一些信息然后同时也是就是最保险的技术路线然后同时大家可以看现在上线来看也是现在最高的上线最高的方法但是 R1Zero 其实算是个比较出乎意料的创新就是说你可以不用这样的思维链进行能启动也可以达到类似的效果同时它也更贴近于 OpenAI 自己 Blog 中描述的就是这样子的一些思维模式是涌现出来的而不是人教的

那我们就接下来看一下最后一段就是他进行的这些对小模型的蒸馏实验好的然后在这里的话我们可以看到 2.4 他这里的这段叫做蒸馏让小模型也拥有推理能力

然后在这点的话其实对整个事情他还是挺造福社区的因为他的一口气从 1.5b 一点点 1.5b 3b 7b 一点点的一直开到了 70b 一系列的推理模型而且性能都相当漂亮现在有很多就是开源社区的人都在玩他们然后在这里的话其实我们可以看到事情说他的作用非常简单我们上一步在 R1 中提到说他通过推理的专家模型以及非推理的就是 DeepSeek V3 这两个模型他都得到了 80 万的

这样子的就是非常高质量的数据然后在这里面他做实验非常简单他用这些高质量的数据蒸馏一系列的模型包括千万包括拉玛然后看一下他蒸馏之后效果表现如何然后我们可以简单看一下 Leaderboard 它的表现效果相当好

然后我们都可以比如说它的 1.5B 的性能在比如它这里的用 R1 的这 80 万数据正流的千万 1.5B 它在 AIME 上的性能已经比就是 GPD-4o 或者说 CloudSonic 这样子的就是前沿模型还要高可能 10~20 个百分点非常夸张包括说它在 Math 或者这样一些大家标准这些

就是榜单上面表现都超出传统这种摇天机器人模型相当多所以说蒸馏非常成功哪怕是 1.5B 的模型你也能让它有通过推理的方式获得非常好的性能提升然后另一个我们可以关注的数据点是它这里的就是通过 R1 蒸馏的千问 32B 以及千问 32B0 以及千问的 QWQ 这里我们一点点讲

对我们这里可以看一下主要的 4.1 这个 4.1 里面的 table6 有个非常有意思的表它对比的就是我们刚刚上述的三个模型

让我们来理一下这是什么第一个模型叫 deep seek r1000032b 这是什么就是说我们通过 r10000 的方式让模型自己就是自己探索出这样子的就是推理的模板然后这样子训练出来的一个千万三十二 b 的推理模型这是我们的样板一然后样板二是

我们从先用 R1 这样一个 600 多币的 moe 这样一个超超强的老师学出来这样子的推理逻辑然后用蒸馏的方式蒸到千万 32b 上然后看一下他的效果然后我们这里可以看到的事情是通过 R1 蒸馏方式的得到的模型效果远超过千万千万 32b zero

这一总结下可以说的事情是从往从大模型往小模型征流很有可能比小模型自己强化学习学到的东西还要好这个原因大家可以就是简单理解一下可以这么想就是说其实这里面你之所以能学到各样子的逻辑各各样子就是这样子的就是推推理的

推理的范式也好其实主要原因是因为就是你模型能尝试各种解然后有一次可能是对了那你就会学会他你试对了更多好的那就能学会更多的然后因为这样子的大模型他想象比小模型来说他的就是他的性能更好他更有可能能探索到那些复杂的或者说一些就是有力更更加有益的更加

更加复杂更加有益的这样子的推理模式他也能够做更好的探索所以说他的他探索这些东西会比小模型这样一个更加弱的模型探索出来的东西更好那么你探索完了之后交给小模型可能就比小模型自己通灵探索好很多对我觉得这东西从就是职业上来讲也是可以讲得通的

然后同时我们可以看一下有意思的事情是说就是这样子 R10 它最后的性能跟千万之前去年放出的这个 QWQ32B Preview 就是千万自家的这样子的一个推理模型性能基本上是完全就几乎一致就也不知道千万自己内部是不是一样的管线呢还是就大家不同技巧最后收敛的性能都差不多还挺有意思的

然后这里我们可能还要就是可以插播一个事情就是说蒸馏当然是没有问题但是就是深度求所这篇 paper 中他也提到事情说的事情是就是他们这里只是探索了蒸馏这一个事情他们发现了在蒸馏之后继续进行强化学习能够获得更好的性能提升他们只是没有放出相关的模型参数而已

对也就是说蒸馏是非常好的一步但是蒸馏之后能做强化学习还是可以继续做强化学习这里你可以理解为说蒸馏之后他现在是一个非常笨拙的学生他在学习一个比自己强很多老师那肯定这里面呢很多就是技能啊或者这个就不是非常的 match 对吧因为这个学生可能要就是要笨拙很多这个情况下你通过强化学习学生就会自己学会说哪些东西我该用哪些东西我不该用就进一步的打磨自己的这样子的就是

推理模式这样子就能学得更好就笨学生努努力还是可以成绩变好对就是笨学生你也不能只是抄了啊对吧你自己再就是也要自己对症下药一下这样子就能够学得更好对对对

然后这样我们可以看就是前段时间就是 prime intellect 他们公司在 qwq 上做就是 sft 后再蒸馏的一个就是小实验这应该是我在目前能看到的一个就是比较早就是最新的一个就是蒸馏后强化学习有提升的这样子一个线索在这里的话他们他们设定有点不厌因为当时的 r1 应该还没有出来所以说他们是在 qwq 上做的蒸馏在强化学习然后我们可以看到的事情是他这里报告的数据是

好的是这样子这个千万模型他自己的就是千万 2.5 mass 这个模型他自己的就是

平均成绩是 43.8 如果你做了蒸馏你可以蒸馏到 49 的样子然后如果你再做前面后面再加一步强化学习你可以再上升到 52 对他确实是有明显提升的而且我相信说整个就是不管是蒸馏也好或者蒸馏或强化学习也好大家其实整个汉元社区才刚刚开始摸索后面有非常非常好很多很多的效果其实我完全不会意外

嗯然后这大概是这篇论文讲的主要的点然后后面深度求早他们还非常好了放出了一些他们之前的一些失败的尝试然后同时简单讲一下他们的就是这些心得体会我们也可以稍微过一下对

他这里说的第一个就是过程奖励函数然后第二个是蒙特卡洛搜索这两个东西深度求索之前都有论文专门做过一个是 Maths Shaffer 一个是他们的 DPC Prover 他们现在真的在这个方向上都生根过所以说其实另一个方面可以看就是深度求索他们能够第一个比较漂亮的复现当然就是跟 Kimi 等其他厂商一起复现也不是个巧合他们其实是就是各种方向都试过然后最后

然后最后发现其实直接做强化学习是通的然后在这方向投注了而不是说一个巧合我们只吃了这个然后做通了然后在这一块对然后其实这里就是

过程奖励函数奖励模型他这里其实没有就是他觉得不行的原因跟我们当时说的是类似的一个事情是在这里你要因为你是过程完你需要标注第一步第二步第三步在这个事情上是非常在特别是在通用的任务上你还难说哪一个是第一步哪个是第二步对吧比如说我觉得可能一个例子是说比如你要列一个数式乘法那你是每一行数式的每一行是一步吗还是整个数字是一步或者这个反正就是在标注中肯定会带来很大的困难

然后第二个事情是说就是评估当前这一步对还是不对是困难的这事情我们之前也提到过首先就是就就是哪怕是说我们不考虑这个模型能够悔奇就是他能说哦我这不做错了让我来改一改这个事情你一步步看对于标注者来说也是非常困难因为你要一步步跟着走然后当然又悔奇了之后这事情我觉得就更加模糊了这个在 k1.5 中有非常明确的提及过然后其次是说

说对于这样子的就是过程奖励模型我们需要训练它然后他们发现之前有一些就可以自动化训练的这样子的一些算法他们的效果并不尽如人意但是对于人工标注环那又太贵了而且没有办法没有任何拓展性

然后最后一点可能其实也是比较本质一点是说只要你有这样子的一个就是奖励模型之后他一定会带来 reward hacking 模型就很有可能通过就是压榨欺骗这个奖励函数的方式而学到一些奇怪的东西然后同时离我们实际的目标远去

然后这里做的总结是说其实 P2M 在他之前最传统的用处也是 OpenAI 以及一些近期工作展示他的用处上面其实还是非常好用的这个用处其实叫做就是 Best of Selection 他具体的设置是说你给一个模型他可以比如你让他说你给他比如一个就是温度等于 1 这样他们是输出结果会不太一样

你让他输出 10 字 100 字然后你挑中间然后你用这样子一个就是奖励模型因为奖励模型会给每一个就是输出打分然后你这样用这样的方式让他挑出打分最高的那一条作为答案这个方法其实也是 let's verify step by step 中就是做的实验在这个情况下过程奖励函数仍然是非常好的选择而且比就是你只告诉他就是就是 outcome base 的奖励函数会好很多

但是在这样子的大规模强化学习中他们目前并没有发现它有什么作用然后同时我们一看了就是如果现在你只用就是这样子的 Ruby 的规则函数已经能做通论了那确实你也没必要给系统增加这样的复杂性对这是他关于第一方面的论述第二方面就是所谓就是蒙特卡洛数搜索 MCTS

对 MCTS 这些东西大家都觉得非常帅而且有就是很多就是不管是学校也好或者是各种公司也好做了很多很多的论文然后但是当然中间这两样良有不齐有人觉得有用有人觉得没用然后这里 MCTS 的意思其实是这样子就是说我们给一个任务他其实是最开始大放光彩当然是在 AlphaGo 跟 AlphaZero 中他就是个完全基于 MCTS 的一个方案

在 MCTS 中它的方法是说就是我们对于一个任务它肯定是一步步走下来的然后在这样情况下我们可以把它切分成一步和每一步然后在这像一个树一样就每一步之后它可以比如你现在在这一步你下面可能有几个决策你可以往 A 走可以往 B 走可以往 C 走 MCTS 就是就是它会就是非常刻意的人为的构造这样的树结构就是模型走了第一步走了第二步走了第三步

然后同时他在每一步的时候他会可以分叉所以他可以在这一步就是试多个多个下一步哪一个好哪个坏然后同时对于 mcts 比较重要的一个事情叫做 value estimation 叫做这又讲回我们之前说就是这样的价值函数对吧就是说他会评估说这一步到底是好是坏他有没有前途我们究竟该不该继续走下去

然后这是大概 mcts 的几个组成方法然后它具体的运行起来就是说你模型会是好几个比如走一步然后设计好几个方案然后对于每几个方案你可能会用价值函数评估下哪个好哪个坏然后你坏的话你可能就不继续了好的话呢你就继续加注在上面更多的搜索往前继续走然后这样子最后到达答案这个东西听起来确实是就是非常因为特别是以前在强化学习也在围棋啊这样子的方面做的非常非常的

有效所以大家其实就都会觉得他非常就是都会在上面做非常多探索然后在这里的话深度求索他们提到了几个可能影响了影响了这个方法和拓展性的方法

一个事情是我们现在的方向不像围棋或者这种棋乐运动就是非常有非常好定义的下一步是什么就落个子嘛对吧然后在这个情况下的话其实每一因为每一步球球是一步语句跟我们刚刚在那个就是 prm 里提到就是每一步难以定义一样在这里 mcts 每一步你也是难以定义的

而且同时我们现在是一个一个 token 生成一个一个一个一个词的生成然后我们整个的搜索空间可能有 1 万个词左右这个搜索空间太大了成本太高了然后同时你要做减值就是你不可能这个数这个数你可以想象他

有一万层每一层可以有就词表可能有 15000 这么大当然你中间很多都是可以去掉的但是整个搜索空间相当大然后减值我们如果要减值我们就选用这样的奖励函数但奖励还是我们之前提到了他其实可能是非常不稳定而且难以估计的训练起来也不太好训练

然后这里深度求和其实大概讲一下他们的一些比较就是细节的他们做了怎么样大概 ABCD 我们遇到这些困难我们尝试了怎么怎么解决然后怎么样但是后面他们还是发现说训练这样的一个非常精确的奖励函数是非常非常困难的

尽管说 AlphaGo 它的成功展示了只在那样的斗命可以训练出一个非常好的奖励函数但是我们发现在我们这样的一个通用的源模型推理场景下难以复现

对这大概就是声乐求索这个 deep seek R1 中整个 paper 主要的要点中间的很多东西其实是跟 k1.5 异曲同工的我们接下来其实对可以考虑就是看一下 k1.5 中他其实带了更多的包括数据数据怎么构造或者说如果我们真的想用一个奖励模型而不是一个这样而而不是一个这样的一个非常局限的一个就是基于规则的奖励函数该怎么构造以及

一些数据构造之类的一些更多的技术细节对所以 K1.5 的技术细节更多对的对的 K1.5 是工程化的细节更多吗对我觉得是就是如果说要复现的话我觉得显然就是 K1.5 中有非常非常多的东西可以学习对就是大家其实有人说就是这两篇 paper 其实可以

融到一篇 paper 里面一起读其实就是最舒服的对 DeepSick 他这个 paper 其实他给了很多就那种精妙的算法我觉得这可能也是比较出圈的原因之一就是读起来非常像一个非常就是很优美非常优美一个算法论文

然后同时给了很多的 finding 就是这样的发现但是他技术细节上其实很多东西他并没有像比如 V3 那么公开他没有公开自己的算力用了多少他也没有公开就是比如他的整个超三数怎么调啊或者这些的就是很多细节他都隐去了哦对其实最后的话我们其实可以做个非常小的一个就是叫做 back of envelope calculation 就是说我们可以快速的估算一下整个 R1 的成本有多高

这里有些线索我们可以参考一下首先是整个训练用了大概 1 万步的这样子的强化学习强化学习然后每一步的话按照传统来讲比如他们这样的 Math 之类的话一般来说大概会就是让模型是 1000 个左右的就是回复大概是 1000 这个量级我们这里都是估算可能目标是希望数量级对就是他可能每次的后来会有 1000 这个量级的乘成 1000 这个量级的就是回复

然后每一个回复的话我们满打满送的话就算他有 1 万个 token 这其实就是他到训练后期才达到了一个就是平均值那么这样子的话其实他模型总共整个训练步骤中会生成 100 个 billion 个 token 就是 1000 亿个 token 这个东西有多贵呢其实他也没有特别贵就算我们就是 DeepSeek R1 他现在有 API 价格他 API 的价格是每 100 万个 token 卖 2.2 美金

所以说就算说你直接用他 API 的价格买这些 token 也不过才 200 也不过才 0.2M 也就是 20 万美金出头

然后你考虑到这个价格肯定 deep seek 自己有很大的赚头然后同时再考虑到说虽然说就是整个模型训练中这样子的就是这样子的就是 auto aggressive 一步一步 token 的生成是最大的开销你同时还会有一些就是用强化学习训练策略之类的这样子的模型开销就是一部分我们一部分我们肯定

极大的高估了这个 token 的价格一方面我们就是忽略了一个比较小头的这个模型训练的开销这样子可能

但这样子就是相对平衡一下应该数量级不会有错所以说我们其实最后的结论是说这模型可能训练的成本如果优化的足够好的话可能就 10 万美金就够了如果说出破天可能最多最多也就 100 万美金相对之下他们的预训用了 600 万美金已经相当便宜就是用了可能不到 20%到 2%左右的算力

当然你这个东西对之前的就是之前训练 Chabot 那些聊天机器人的 0.2 之类的已经有一个数量级的突破了一到两个数量级的突破了但是我们也看到这个确实这条就是这条拓展的就是这条拓展路线仍然在早期我们完全可以期望它后面用越来越多的算力甚至哪一天超过预训练的算力然后达到更好的结果

对对对 By the way 它的现在的成本如果可以降低到 10 万美金最高 100 万美金它这个是必须要依赖于它的 V3 吗你说是就是整个 R1 的训练一定要依赖于 V3 是吗对需要吗对对就是你需要有一个预训练模型才能进行后训练对一步一步相对是相辅相成的

那比如说我现在自己没有做运训练然后我基于 V3 的模型来做一个强化学习我能够复现它的结果吗就如果我不是 DeepSeek 的话对我觉得一定是可以的就是如果你有相应的数据你就可以复现成功现在自己再去做运训练的必要性是不是进一步降低了因为我们已经有 V3 这样的模型了

对我觉得可能看就是这个公司处于什么样的阶段就是如果你想真真的就是想像深度求索一样说我或者说像 Moonshot 他们一样说我们的目标就是做通用人工智能那么显然每个环节你都希望自己把关但是如果说比如说你有些非常明确的目标比如说我就想就是训练在某个行业去就在某一个行业训练一个非常好的推理模型或者我想训练一个 agent

或者说我想训练一个在某个行业表现的非常好的就是个模型吧这个情况下其实后训练本身就够了而且有了 V3 这么强大的模型对我觉得就是预训练的重要性就是在特别是不好意思我重新组织一下就是在有了 DeepSeek V3 这个这样子非常强的而且未来可见的可能能长期持续开源推进的模型情况下

自己做预训练的重要性确实降低了给同样的钱给同样的资源你做后续训练收益应该会更大一些但是如果我要追求 AGI 的话我还是每一步都需要自己摸一遍我觉得是的对因为你要做 AGI 的话可能比如预训练上面你也会有一些技巧你想要自己实行你可能也不希望就是等着就是另一个厂商自己就是开源赏饭这样子对吧你可能希望就是整个整个技术路线全都由你自己把关推进

理解我觉得你说的是对的但是 R1 的成本其实它是基于到它 V3 的投入之上的所以 R1 的成本也不能只算 R1 的成本我同意我同意我理解了好的继续

好的我觉得现在大概就是 R1 这边的配播讲了然后接下来我们可以其实还是跟刚刚说的一样尽管说是一直是说圣诺求所团队或者说就是 R1 那其实就是 Himi 团队做的也是相当漂亮而且就是很多东西一曲同工就一起都带说了然后在这里我们可以看就是 K1.5 他们这边工作里面的很多技术细节

然后这里我们有些就是像就是类似的东西我们就可以快速的快速带过一下包括说就是 K1.5 它的训练的逻辑其实更类似于就是 R1 而不是 R1.0 它同样的是用了一部分的冷启动数据也就是冷启动的长四位链数据来交汇模型这些四位模式然后之后再一步步让模型就是自己探索自己打磨提高这些模式然后进行强化学习训练

然后这里其实没有特别多的细节可以说我们可以看一下在这里的就是这样子冷启动数据是怎么构造的怎么构造是 R1 里面没有的

对,R1 里面写的会更加模糊一些然后 Kimi 其实也写的很模糊但是会稍微好一点点对,Kimi 这里面其实他说的他主要说的事情就是说你有几个能力你很希望覆盖在里面他们这里面其实加了加粗了然后可能

然后这里面能力他们其实具体说的是说有这样子的 planning 就是规划能力就是模型可能会说先在做事情之前先自己的先自己写个草图说我要先做什么再做什么这规划能力这样能力就是自我验证能力就是说我能不能自己验证一下自己中间有没有做对还有一个事情是 reflection 反思

模型有没有就是能够就是在中间反思自己某自己的就是是否在对的路径上这个这样子的能力还有就是探索就是说能不能让模型比如再发现一条路径上是行不通了之后他能不能就自己绕到别的路径进行探索他把这些就是比较本质的以及就是比较重要的这样子就是推理的推理的模板通过就是长思维链的方通过通过自己手写一些长思维链的方式直接交给模型然后再进行强化学习

然后接下来我们看其实他的整个包括就是整个

任务设置以及他的强化学习算法其实都跟 deep seek R1 类似他的强化学习算法是另一个变种但是其实思路都是一样的就是说我现在有一堆回复然后我先算出哪些相对好哪些相对坏对于好的我就学对于坏的我就就是忘了他们然后同时我确保说我这个正在学的这个算法他不要离我最开始的这个样板算法离太远大概思路都是这样子的而且也是非常简洁的表述

就是应该不会有特别大区别他用的不是这个 GRPO 的算法对吧对对对他不是他自己提了一个叫做 A variant of online policy mirror descent 就是自己提了一个算法这里其实他也没有解释清楚说就是为什么不要用 GRPO 之类的但是整个算法其实你从他的整个目的也好或者说他的整个就是梯度也好其实看起来跟 GRPO 是比较类似的我的猜测是可能就是差别不会很大

对然后我们接下来可以看一下一个事情是说我们刚刚在在 deep seek R1 中有看到说就是这个模型会自动的蹭蹭蹭的长自己的就是回复的长度这当然是个好事就是相对于部长而言但是说当我们就是开始把这东西当做一个就是

当我们把当这个模型已经开始能做到这种长度我们希望进行优化的时候我们可能就希望这样模型不要的长度不要过长对吧就是你都能解答解决问题的话那我们肯定希望 500 个 token 还是会比 1000 个 token 或者 2000 个 token 好就是越短越好但是我们希望他对所以在这里其实 k1.5 他有一个非常简洁的就是 lens penalty 就是奖励惩罚的机制设置他这里其实就是在我们这样的就是 ruby 的这样子的规则奖励中加了在又额外加了一项

你想他的逻辑其实非常简单就是他的逻辑是这样子就是说如果说你做错了那你最好要越短越好那你还是短点好如果你做对了那很好但是我希望更短大概是这个逻辑就是说所有的回复里面我们都希望短的然后但是如果你做对的话那么还是会给你很大很大的奖励对

其實就非常直觀你希望這個模型想要怎麼樣你希望讓它就是儘量的短一些大概還能做對那你就把這些東西寫成一個規則然後告訴模型它其實就能慢慢學到這個是跟 Deep-seek 有點不一樣對 Deep-seek 它其實沒有提到有這麼一項它會影響輸出的長度嗎

我觉得会的他其实这里面就是 k 1.5 他一个目的就是希望输出尽量的少包括他们后面除了这样子的一个 r1 这样的就是长思维链模型之外他们还有一个叫做从长思维链转成的短思维链模型就是希望他更短但就是用户体验更好但是就是因为有时候用户希望他能赶快回复但是同时保留了一些高优高性能的就是这种推理能力对就是这里会有一些吹到然后他们在做

但是 DeepSync 的输出我感觉 DeepSync 的输出一直都比 Kimi 要长一些 Kimi 的输出比较短我觉得你这观察应该是真的因为你可以看到他们技术报告里面 K1.5 他们其实是有他们是有心的在控制希望输出长度变短 DeepSync 至少从文章中他没有提到有这么一项设置但是我感觉用户其实是希望他多说一点的这样子吗

看什么回答吧 DeepSync 这次明显让我感觉到他的回答很有情商就是他是有情绪价值的哦这个挺有意思的我没有意识到对那我觉得可能就是有些时候比如说因为就是模型有的时候可能是在一个就是除了跟用户职业互动外可能也是一个 API 的形式在一些服务中在这个情况下可能就是确实是越短越好就是对我觉得就是会有一些这样子的权衡在里面理解

对然后接下来他又提了一个技巧就是就是他该怎么样就是他每次 REO 的时候就是你会问这个模你会给这些模型一些题让他做对吧然后你告诉他你做对了你做错了这大概是整个强化学习在做的事情然后在这里的话就是 k1.5 然后在这里的话有一个事情在深度求走的论文中没有提到的其实就是你该给他什么样的题很有可能他们可能就是说我现在有个题库那我就每次就随便抽点给他这应该也是最标准的做法

然后在 k 任务里面他们朝这个事情叫做就是课程学习吧或者就是说在刚开始的时候你给他简单的题然后后面他能力提升了你再给他一些难的题或者说你让他的题就是你给他的题一直是让他就是有一点能做对的空间但是又比如可能做十次能对一两次或者这样子就是说给他一些

难度适中的题然后就 K1.5 中他尝试了这样子的一个叫做 curriculum sampling 的方式给模型一直就给模型与他能力所匹配的题目让他做这样子的话模型能学得更快一些对然后这就是他另一个技巧然后我们接下来看了其实就是他这个比较关键的一点其实也就是他数据是怎么构造的

然后另一点可以值得提的性是 K1.5 其实在某种方面上做的比 DeepSeek 是要全面的因为它是个多模态模型就是它同时还能支持视觉图片的这种输入输入然后所以说在 K1.5 它这个数据构造中也就是覆盖了不过不仅是文本数据也有一些这样子的视觉数据的构造然后在这里他就说我们是怎么样在各种

方向上构造数据的然后在代码中的话其实是在代码中其实更多的例子是说就是我们可能有这样子的也就是关于问题的描述我们可能有的时候有一些范例的这些这些就是算法答案然后他们用了路股的一个就是自动生一个就是答案一个就是 test case unit test 这样子的生成器就是他能够自动生成一系列的就是小小小程序他能够然后你跑一遍你就知道你这个

你你写的算法是否符合要求这样子的一个软件然后然后来生成了一系列的 test case 然后通过这些 test case 你就可以就是在代码这个方向上获得可验证性然后在于在数学这边他们其实做的非常有意思在数学这边我们之前提到首先我们之前提到就是说如果你用了这样子的就是奖励模型的话你会有可能会遇到所谓就是 reward hacking 状态就是模型会

模型会就是模型会就是不好意思我们刚刚提到就是在在强化学习中如果说模型性能过强然后同时奖励模型过弱的话就会遇到所谓的 reward hacking 情况这样子的话模型其实不会学到我们想要的结果然后呢在这里面可以讲学他们卖出来的义务就是他们其实是用了奖励模型的方式来做了数学方面的就是奖励

在这里其实他们的 motivation 也是非常简单因为就是如果你有 Rubase 其实很多斗面你是很多方向或者很多数学题你是很难很难就是进行评估的比如说他给了你一道证明对吧你这时候你拿 Rubase 可能就很难解释说这个东西他是对是错这时候你可能还是会需要一个这样的神经网络进行评估在这里的话他们其实测试了两种方法一个是最传统的奖励模型我喝口水啊好的我我继续

在这里的话其实这些奖励模型的设置跟传统的就是 ROHF 中的奖励模型会有点区别在 ROHF 中的话奖励模型的输入只是就是问题和答案不就是问题以及模型的回复然后你告诉他模型回复好还是不好他其实不知道标准答案是什么

当然这个事情确实你在就是通用的而而学长信里面也比较难比如说你让他生成一篇文章你这时候你可能给他一个标准答案的话意义也不大也没有那么方便收集数据然后在这里面数学数学的话他们就是这个奖励模型他的输入除了问题模型的回复之外他还会有一个标准的参考答案进行输入所以说这个难度其实会降低很多因为模型已经知道一个参考答案长什么样子了

所以这是模这个模型的输入然后他输出就是这个答案对还是错在这边他尝试两种一个是就是传统的奖励模型第二个是就是这样的思维链奖励模型传统的奖励模型其实是传统的奖励模型他的构造方法是说我现在有个圆模型对吧然后我可能然后我不让他输出 token 我不让他就是输出一句话

我把它的就是输出的这样的一个激活值给他接到一个小的神经网络上可能就一两层的就是这样子的 MLP 然后我直接接一个然后我直接让他接一个 softmax 或者 softmax 预测说就是这个答案是对是错

这样子其实说你整个你让整个整个模型就把它整个直接变成了一个就是给定输入然后判断对错的这样的模型然后这些也是最传统的大部分 RHF 模型的做法然后在这样子的话他发现说他能够获得 84%的精度然后另一个是最近比较新的去年有谷歌以及斯坦福的一些研究员提出来的方法叫做思维链奖励模型

他的方他的建议是说语言模型他自己是就是为了做就是语言输出进行优化的对吧他自己一直他的本质目的是做语言输出同时我们现在他能看到他能做非常好的思维链思维链能提升他回复的质量那么为什么我们不把这个奖励模型这个任务也变成一个思维链任务呢所以这里面他的他们的做法是说我们不让他我们

就把语言模型当做语言模型用给他我们刚刚说的问题标准答案以及模型的答案作为输入然后让他自己输出一个思维链思维链中可能就会说让我来看看这个模型的答案跟标准答案比怎么样他可能这个地方差不多那是否差不多哦这地方可能有个小错那这地方是是错的这样子的话通过让模型

再就是模型奖励模型进行一定的推理他们发现这样子能够明显的提高模型的性能在这里他们构造的思维链他们训练思维量奖励奖励奖励模型的方法其实就是他们构造了 80 万个就是标注好的思维链这思维链的奖励模型的这样子的样本然后用这东西来微调 Kimi 模型

然后我们可以看到他的进步确实是非常显著的我们刚刚提到这个传统的奖励模型他的进度大概是 84.4%左右然后引用了这样子的思维链模型之后他一跃直接到了 98.5%也就是说他的错误率从 15%直接降到 1.5%这个效果是非常漂亮的我觉得这个思维链奖励模型这个技术路线应该是非常 promising 的后续应该大家都会往这个方向转向

這個是 DeepSeek 裡面沒有寫的對的 DeepSeek 裡面他們應該是只用了規則規則獎勵函數沒有用任何的獎勵模型

对然后他们后面有提到他们视觉的就是视觉的就是这样子数据是怎么构造当然提的也是比较的就是浅尝则止吧一个是因为他们知道他们在各种地方出现很多现实中国中的数据数据然后另一方面是他们自己也合成了很多数据然后合成的这些数据可能就是就是你可能在一些比如一些像 VG 我的猜测可能是说像一些

数据系里面他们有标注说这个图片上面是一个球下面是只狗或者这样的然后这样子你就可以用这些标注合成一些问题说比如上面的下面是什么或者说就是这个东西在下面是什么这样子的问题然后这样子的话你就可以合成出很多就是这种需要一系列一步步推理的这样子的空

这的数据然后另一个数据是说就是这样子的就是文本渲染的数据就是说你把那些文本的问题比如说一段代码也好或者说就是一个就是一段文本也好因为大家有些人可能会比如先以 pdf 形式或者就是一段截图的形式丢给这个模型这样子我们希望说就是不管是以文字的形式丢进去还是以这种截图图片的形式丢进去它的性能都类似所以他们在

这样这样子后缀念的时候也特意的把那些文本转成了这样子类似于截图的形式然后进行处理这样子模型也会学会说在视觉上的处理跟文本上保持一致不会掉性的然后后面他还提了一个就是他们怎么样把就是这个长思维链模型的就是输出尽量减短这个技巧我们可以就是在讲完他的架构的这个系统架构之后稍微提一下这点

对然后接下来他就花了比较多的篇幅提他的就是 RL Training 架构其实这里的 Training 架构其实是现在就是开源跟 Kimi 以及可能 DeepSig 内部架构差距较小的部分原因是因为有别的大厂已经开源了这部分就是我说的主要是指的是字节的 Volcano Engine Reinforced Learning VE RL

当然还有一些爱好者做了也叫 openrhf 的框架这两框架其实跟就是 Kimi 这里显示的这种框架架构都比较类似就是差距没有那么大包括说 VR 啊他们的内部版本应该是支撑了就是自己自己内部就是长 CV 链模型的训练所以说应该是差距较小的我们可以看就是这个架构大概长什么样子以及就是有哪些需要注意的技巧

然后我们我们之前提到过就是这里强化学习其实分为几段第一个事情是说你有一个这样子的就是策略模型 act 需要训练然后当然有可如果你有的是 ppo 而不是现在 timi 跟 grpo 用跟 deep seek grpo 用的这些就是不带 value function 你就还需要训练一个 value model 所以你可能是有一个策略一个价值两个模型需要训练

训练然后同时你的这个策略模型他会有的你会需要给定一些问题然后让他自己生成很长很长的这种思维链回复然后这个叫做 roll out 阶段然后同时你还会需要一个就是这样子的样板 reference model 然后然后有的时候测试出他的就是

它的概率有多高然后同时在训练的时候强化学习训练的时候告诉这个就是策略模型你不要偏离这样的策略模型太多所以有大概这个几方面所以我们可以看到这个地方其实是一个比较复杂的一个 workload 你有的时候需要训练有的时候需要推理这里的推理的意思其实是指就是做就是

模型的 influence serving 就是而一步步的就是 token 生成然后同时你这里会有多个模型在这里所以整个 workout 是比较复杂的大家现在的共识感觉应该是说用 range 类的方法来就是调度这些东西然后同时你在训练的时候你就用训练的你拿手的框架比如 k1 电雾里用的啊 magatron 也是比较标准的这种比较重重量级的高性能的一个训练框架

然后也有人会用 FSTP 这样子一个比较轻量级的框架这个时候你会用这样的框架进行训练然后当你在做这样子的就是 rollout 的时候你会把训练框架的参数传到这样子的推理框架上

这里的推理框架就是可能是比如说像 KeyMing 这里面用的是 VLM 当然现在也有说像 SGLogin 框架其实都大差不差然后就是你会在训练的时候用训练框架用推的时候用推理框架然后来回调度比如你训练转到推的时候你可能就会把训练时的那个非常重量的参数以及优化器的这样子的一些占用

把它挪到 CPU 上腾出显存然后再把训练时的这个模型因为训练时的模型它的切分方式很有可能是跟推理是不一样你可能会需要先收集所有的模型参数然后再把它发到你的推理服务器上进行推理然后推理完了你可能再把推理你的这个服务器给放下来然后再让训练模型训练的这个

框架继续继续作用这大概就是整个就是 rl 框架的就是他具体在干的事情当然这里面有非常多技术细节而且我相信不管是 k1.5 或者 dpc 或者说任何开源框架应该现在性能都离就是都有应该都会有挺大的提高空间比如说你说后面能够再提高 50%100%的训练效率我觉得应该不会很意外对

然后这里 Kimi 她自己提到一个比较巧妙的一个一个小小技巧大概叫做 partial rollouts 这里的意思是说我们可以想想看就是说现在这个语言模型的输出非常长对吧它有

他最长的可能有 1 万或者几万个 token 长然后最短的可能有的时候可能 100 个 token 或者 1000 个 token 就结束了对吧这样子的话如果是我们正常的就是说我们等整个模型就是比如我们现在有 1000 个问题我们的这 1000 个问题全部都回答完再进行训练的话有发现我们会在等最慢的这批码对吧就是可能大部分大部分就是回复都已经答完了但是有一个东西他要比如他可能要回答

啊 1 万个 token 那我们可就要一步步等他生成这个时候其实整个推理引擎的就是效率效率非常低因为就只 batch size 只有一就整个这样子啊对整个就是模型的就对整个训练机器用率很低

然后这个时候 Kimi 他们其实提了一个非常就是巧妙也是非常直接的一个方法就是说对于这种长的东西我们就可以中间截断就是比如我们可能设计一个 threshold 我们这一轮我们就等到什么时候为止这时候哦有些东西还没有生成完那我们就停掉它我们下一轮再继续生成这样子的话就会减少这样子的就是你可以认为它是气泡也好或者说就是这样子最慢慢

影响整个就是管线的效率也好这个东西这是算我觉得这个后面可能会成为一个非常标准的技巧对

然后此外的还有一些小技巧是说比如他们这里面就是 Ruby 的 Ruby 的包括就是他们这样子一个奖励模型也好或者奖励函数也好其实会是比较重量重量包括你不仅包括他们的就是这样子的基于思维链的奖励模型也好或者说是要就是跑 test case 这样子的 coding test 也好可能会有一定的延迟所以他们做一些一步的调步处理同时提高了这样子的就是

这样子得到奖励的吞吐量以及延迟这里有一些他没有讲得特别明白的但是有一些这样子的技术技巧在里面我觉得这可能后面大家就是一步复现的时候可能都会是非常有用的一些技巧会可以加在里面如果要拎出来一些重点的话就是核心被掩盖的那些点会是哪些比如说刚才讲的思维链奖励模型

嗯嗯我觉得就是思维链奖励模型很显然是就是他我觉得他这可能是第一个大规模发现思维链奖励模型就是非常好用效果超级好的一个就是公开工作我觉得就是大家可以后续往下发展动然后同时他有他讲到很多的就是一些就是训练的一些小揭晓要或者他们实际遇到了问题以及解决问题的方法包括我们之前说的可能大家希望就是这样子的长思维链模型仍然能够能够推的时候比较高效延迟比较短所以说他讲了一些就是

而降减小这个就思维链长度一些方式包括我们之前说就是这样子的就是训练的这样子训练架构是这样子的就是而强化学习的就是基础

基础设施该怎么样设置包括这样子就是我们说的就是这样子 partial roll out 让这样子更长这样子长的生成不成为整个模型训练的的吞吐量瓶颈包括这样子的一步的就是测试以及技术细节我觉得就是对于我觉得就是对于想要复现或者就是了解这行业就是了解这个技术路线的人说这里面就是技术细节确实都挺有意思的他这里还有一些就是消融实验我们可以稍微讲一下后面对

然后接下来我们可以讲的一个事情其实是说的就是他这样子的 long to short 他这样子 long to short 其实意思说就是我们现在有了一种长思维链模型但是可能 Kimi 他们可能主要是面向用户可能会担心用户觉得这个思维就是等的时间太长了所以不好用所以说会有一些这样子希望讲简短思维链的一些尝试他们这里其实

简单的理解可以说他们试了所有的非常直接的可行间的方法然后都试了一遍然后看看哪个好使我们这里可以稍微过一下他的方法好他这里面其实主要提到了四种方法第一个方法说的是模型融合这个方法其实之前大家后续链上用的很多简单意思是说就是你有一个有性质 A 的模型你现在有你又有个有性质 B 的模型

你把他们的参数直接 1+1=2 再除以就是求个加选平均或者就直接取个平均值你要把这两个模型融到这两个就是模型参数融到一起了这样模型它可能就会有些有意思的性质当然这个前提是他们是基于同一个 base model 训练而来的不然的话他们就要他们的就是参数空间肯定与一都不一样就没办法进行融合

但是你基于同一个就是模型同同样的一个基础模型然后你进行不一样的后驱链处理一般都可以融合就看到一些比较有意思的现象但是第一个技巧就是说模型融合就是我现在有个短四位链模型然后我现在已经通过一切的训练得了长速链模型我把它合到一起然后他们发现你直接把它合到一起确实能得到一个短四位链但是四位链较短但是推理能力比较好的模型非常有意思

然后另一个模式是说另两个比较相似的技巧是说就是说通过就是拒绝式采样我比如这个模型他输出了十字回答他可能其中有比如说可能有六四对的其中长短各一我就每次都挑出时间中间短的我再把它翻去回去这样子这模型就学会哦我其实该用一些短的还有些叫还有个 dpo 算法 dpo 算法意思是说

我现在有一堆一些好的和一些坏的例子我让然后我告诉模型你要学好的然后远离坏的在这意思可能就是说我会把就是长的东西作为这我会把短的回复作为好的把更长的回复作为差这样子模型就会慢慢的说好的那我其实该学会慢慢的倾向这种短的恢复然后最后一个技巧说的是就是他叫 long to short rl 在这个阶段其实就是

在这个阶段他们其实会他们就会他们用了我们刚刚说这样子的就是就是对于模型长度这样子的惩罚也就是说长的这样子的回复会受到一定的惩罚这样子的方式来鼓励模型有更短的回复然后在这里面其实他们实验上面就做了一系列的对比然后

首先他们的两个主要结论一个是他们仍然发现就是说确实就是说你一般来说回复越长你的就是模型性能越好其实也就是跟着 Test time scaling 你用了更多 Test time 的算这种推理式算力那你的性能越好有关他们也发现这个结果而且效果呈近似的线性

然后另一个方面是他们就是把我们刚刚说这几种其实就是其实你可以看到他们团队工作非常扎实把能想的方法都试一遍看看哪个好就用哪个对非常非常好的一个解题思路然后都试一遍他们最这些方法都非常有效然后他们最后

后的结论是这样子的 long to short 的 rl 算法是最佳的就是就是在给定一样的就是 token 的情况他们效果更好给一定的效果他们更加 token efficient 也就是你最后再做强化学习钻孔法应该是目前看的最优解这是他们在 long to short 上面的一些工作然后我们现在可以在最后还有他们的消融实验对然后这里 k1.5 也有一些非常有意思的消融实验我们可以聊一下

他们的第一个消融实验是说就是说模型的大小跟性能的能力有什么关系包括就是说你这模型思维链的长度之间是有什么关系然后这里的话就是这里的话他们的结论其实非常有意思而且其实这我觉得这对后面业绩也会有一个非常实际的影响

简单来说就是如果说大家思维链长度一致我觉得肯定不意外就是你越大的模型效果会越好但是如果说你一个短的模型可以通过生成更长的思维链的方式与大模型的性能相媲美

同时如果说你的就是如果你的就是瓶颈只是说我推理是能用多少算力那么这个时候你一个小的模型让他生成更多的思维链说不定就能跟就大的模型相相打因为大的模型你要一样的算力呢就只能生成更短的思维链这之间不一定能打赢可能就是根据你不同的设置可能会是一个开放的问题这个事情其实听起来是非常利好小模型或者说就是用户自己

布置模型对吧一个就是如果说整个故事真的能够继续延续下来呢可能有一天你会发现说我们可能手机上一个几 B 的模型但是你还生成一个超长思维链说明也能跟那种就是服务器上一个几百 B 的模型相媲美对对这是他的第一个

这是他的第一个观点然后第二个观点其实是说他除了这样子的我们刚刚说到这样他的就是他的这样的强化学习算法之外他还试了一些别的强化学习算法一个非常简单叫做 Rest 的强化学习算法我们回顾一下就是 K1.5 以及 Deep-seq 强化学习算法大概思路是说一不要离最开始的策略太远二如果做的好就鼓励他多做如果做的差就让他少做

这就是他做的所有事情了然后这里面他其实然后还有一类更简单算法叫做 rest 他也被称为 star 或者 filter bc rejection sampling fine tuning 那给他很多名字

方法很简单就是你让模型比如你设 100 次它其中有 30 次对的其实是错的你就把他那 30 次对的给揪出来然后用模型翻 Tune 在这 30 次上进行翻 Tune 然后结束然后你再进行下一个轮你在这个新的模型上再进行 VGN3 并翻 Tune 你你 sample 出 100 个比如对了 31 个你用这 31 个再进行做翻 Tune 然后我们用刚刚的思路来套它的区别是什么

其实最主要的区别我们可以看到两个一个是说就是他没有说你要离最开始的策略足够近然后另一个事情是说他没有说如果这东西不好你就如果这个东西不好你就不要往这走他只告诉你如果这个好你就学就是他少了这么一步然后我们可以看到就是他这里画了个表画了一个图就是说

简单来说你这样子的这样子的 rest 类似的算法它的效果差了相当相当多整个 test time scaling 也好或者整个强化学习也好就完全没有起来有的时候就可能只涨了一点点的就三四个点但是如果你用你用就是 k1.5 或者 r1 的强化学习算法就能涨十几二十个点就是完全是天壤之比

然后这里的话其实大家主要的这里大家猜测也好主要是说就是他没有用所谓的 negative gradient 就是说没有告诉模型不好的东西你不要学就是你要少做这个事情其实后面有之前有轮文章讨论过就是你通过告诉他哪个地方不该做你会可以让这个模型更有效的把自己就是整个策略的就是重心往那些新的就是好的策略上进行迁移没有的话整个事情会很麻烦

然后这里主要其实观点就是说一个非常一个好的优化算法还是非常重要的这是当然不清楚就是也有可能 opi 内部有一些比较有意思的算法也有可能他们内部就是 ppu 或者 g r p o 的变种都有都有可能这个地方我觉得可能得让时间给我们答案了对

然后最后一个事情就是我们之前提了说就是 K1.5 它有一些策略就是不是说我们每次随便给他一些题而是说让他提的就是难度跟就是模型的能力相对挂钩你可以给他一点点提高难度你可以给他一直就是有点难有点能做出来但是也不是完全能做出来这样子的题

然后在这里其实他们这图里面就画了一个在第 9 图 9 中就画了出来就是就画了出来说如果你用这样的 curriculum learning 方式给他与自己模型能力相适应的难的题他能学得更快而且就是学得更好这是他做到基本上所有的实验对

然后我们可能对这应该就是两个文文讲的大部分事情了我们可能可以最后再提一下就是 deep seek 他稍微提了一下他们最后的未来想往哪里发展这些我们可以稍微过一下对就 deep seek 最后他在 conclusion 说了之后就是他说了几个事情他们想在未来做可能这一回就是之后的 R2 或者更多的文章

一个事情是说就是说 R1 整个就是他这样子的手段型还是个比较粗气的他有些能力还没有特别的照顾到这里他主要提的是说就是是 function calling 就是使用外界的函数调用以及多轮的

多轮的对话多轮的调用以及复杂的就是决策扮演以及就是有格式的输出比如你看到输出 JSON 这样的形式在这些任务上可能因为 R1 没有有相对的优化所以说可能性没有相对如人意但后面可能你在上面有些相对的技术数据上的一些关照之后就可以快速的提起来

然后第二个事情是说他们发现哪怕他们做了一系列就是关于 language mixing 就是这样子会切换语言的这样子的一些惩罚之后这个模型仍然有的时候会切换语言特别说如果你用一个非中文非英文的语言那情况下他有时候还是会用英文之类的然后他们说后面希望把这些给解决到来提升用户的就是

来提升用户的体验后面其实也是现在 O1 这样模型一个常见的问题就是说这样的模型因为经过强化续接之后他的就是 prompt engineering 就你该怎么样写提示词跟之前的那种那种聊天机器人写法不太一样用户会有一些就是适应的

会有一些适应的难度比如说在这样子的模型里面你可能更好的是你直接把整个问题告诉他同时把你的就是要求一五一十写出来会比就是你写几个例子更加好用这些东西他会去就是他会跟之前有些不兼容可能一方面用户会进行牵引然后一方面模型厂商也会让这个他不会更推这种就是提示词更加的有鲁邦性就更加不再挑提示词

然后最后一个其实也跟我刚刚性比较接近的就是他说他们对于在这种就是软件工程的任务上面希望有更大的提高其实这个就是我们我之前做一些就是关于这方面的工作就是像 switch 或者这个事情大概意思是说就是这样的强化学习像在 R1 中的话他们主要还是对这种竞赛的这种题就是一个非常短的一个非常短的问题然后你可能写出一个 100 行左右的函数然后来看他对不对这样的例子上面 R1 能做得非常好

但是他们并没有对于就是所谓就是这种 software engineering task 进行优化这些的任务其实最主要的例子就是 Swaybench 或者这样子 MLE bench 具体的任务可以类似于说在 Github 上随便给你一个问一个 issue 或者一个 PR pull request 就是 Github 上一个大家开发软件时的一个任务

你的模型能不能自主的解决这个任务同时交一个 pr 这个 pr 你要求他能够过所有 test case 这大概是他的一个 setting 或者说像那个 cargo 上的一些

MLE Bench 它的设置是说开口上有竞赛题你能不能卷你能不能自己给这些数据给你一个这样子一个电脑你能不能自己卷到金牌或者卷到银牌这样的设置在这样子的设置上的话你可以想看就是整个代码互惠非常复杂同时你可能不是说输出一个 100 行代码就了事了

能政要改来改去或者说跑一会实验然后再看看他会是一个更加所谓就是 agent 或者智能体的一个设定然后在这个情况下现在而外还没有在这个情况下做强化学习然后他们后面会希望在

在这个方面进行更多的强化学习他们的目标是在上面进行要么是拒绝试采药或者说进行强化学习当然这样强化学习延迟会非常高所以他们会希望进行用易步的方式进行一些保证自己的训练效率这里插播广告的话如果大家感兴趣可以看一下我和合作者做的工作 Sweet Gym 这应该是这方面的第一篇工作而且我们有些非常漂亮的 scaling results

在哪里可以找到呀这个工作是公开的就直接搜就好了对回头我可以贴一个链接你有没有计算过 Kimi 它做的这个 1.5 花多少钱我觉得就是 Kimi 的话应该都是类似的对我觉得应该都会是类似的当然它模型大小没有告诉我们但是我觉得数量级肯定是类似因为它们效果也是类似的对应该是都是差不多的我会猜测对这就是我们这几篇报告的全部内容对吧对是的

那我们刚才就相当于是做了一下运行练接下来我们来强化学习一下我来问些问题我听下来我感觉就是这一次不管是 R1 R10 还是 Kimi 1.5 它的核心的突破因为大家都说 AI 驱动三要素是数据算力算法那这次的核心突破还是算法的突破

对我觉得是算法突破不过这个算法突破其实是数是建立在就是之前的这些积累之上就是说可能这样的实验我们可能拿更老的模型比如说可能比如你拿拉玛一或者一些更小规模的模型可能就是你做不出 r1 或者 k1.5 这样的效果你这模型在这个阶段之后我们发现哦在这阶段之后他其实现在强化学习就能行了然后我们算法就突破了对我觉得是这样的逻辑

上一次閉門會的時候他們也在聊 Deep Seek 帶來的震撼不是開源或者低成本而是不需要做 SFT 了剛才我們好像 SFT 講的不是很多有監督微調這個會帶來一個新的方式或者架構嗎我覺得

我觉得这个事情可能不一定就是我理解是这样子的首先就是说之前的 sft 或者这样就 rihf 中 hft 其实是个比较大规模的一个一个事情就你可能会需要几千就是就是一般是上万或者说在一些工业界可能是就是

100 万左右量级的这样子 sft data 然后进行训练我的理解是在这里的话不管就是不管你说是 r1 或者 k1.5 他们其实也都说其实是一些非常少量的一些就是少而精了这样子的 sft 数据他其实收集成本并没有那么高而且就算到未来可能也没有很高然后同时是说就是这里当然你少了这种 sft 的数据标注这当然是大好事儿

但是你要在这样子的斗命进行强化学习你需要收集另一种数据了这种数据就是这样子的问题答案对对吧这样子的数据可能就是也也会需要很大的人力成本进行标注而且因为这种问题现在模型这么聪明你要收集足够难的问题那可能之前

之前可能就是找一些標註人員去做現在可能就需要找各種方向的專家或者一些博士生碩士生才能夠進行相關的標註對我覺得就是大家可能就是之後標註的數據類型會慢慢地進行一些變化數據標註非常重要對吧更重要了好像是

對我覺得一定是非常重要的對對對我覺得一定是的 DeepSeq 和 KeyMete 或者 OpenAI 它們在幾句數據標註問題上有什麼不一樣嗎我覺得就是它們其實都對這個事情藏得非常深就是都沒有怎麼聊其實這也說明這其實才是它們就是可能最重視的方面之一吧對吧

然后我知道一些小游戏里就是 opensh 其实一直以来在就是以一个小时 100 到 200 刀的方法找各种就是博士生也好之类的帮他们标数据就是可能就是他们会需要这种比较难的而且就是这种专业面的这样子的数据标注而且后面可能

就是需求会越来越高这个具体的工作是怎么做的呀就是能不能描述一下比如说一个博士生让方桃标数据什么样的数据会标成是好数据呢这个东西我当然没有经验但是比如说我们可以从这报告中大概猜测一下对吧就是请问可以想想看就是什么样的数据是好数据就是首先这东西要是个非常难的推理任务对吧你告诉你问他一个就是什么一加一等于二模型就完全就就完全他都会就是没有什么用

所以一个是可能说你希望这是一个就是非常非常难的任务对模型是有就是学习难度的一个任务这样子他才能在这个上面练出东西来

然后另外一个事情是说你可能希望他覆盖了一定的专业知识对吧就是这样子的话他能够就是同时就是锻炼这些专业这些这个方向这个专业上的这些能力然后同时感觉说你希望他可能跟用户想要的那些就是能力相挂钩对吧可能我觉得会是从这几个方面然后目前来看的话可能就是应该来说是

你会需要其实说白就是也是这样子的问题就是最标准的形式可能就是问题解题思路和答案这个三元素就是理论上来说这个模型可能训练的时候只需要问题跟答案那是一般标准的时候你为了防就是可能他们为了防止

防止你乱写答案也好或者说这个解题速度本身后面也会有些别的作用也好这个也肯定还是会收这个的然后当然就是这个是我们建设这种推理模型第一步要说的数据后面可能也会出现非常非常丰富有意思的数据对吧比如说你最后要做智能体呀或者是说 multi-tune 这样子多轮多轮的工具使用也好那么你可能就会需要一些就是比如说一些比如说你是怎么样一步步

也不开发某个软件这样的数据或者说这个软件你在代码库里面你要干一个什么事情然后你怎么写个 test case 这样的数据或者说我现在要做一份行业调研报告然后你可能会说这成为我想起来行业调研报告然后你还需要用一些真的那种行业调研报告来作为 reward 来教模型什么是好调研报告这样子就是我觉得这东西后面会很丰富对

我们可以把这个数据标注人员理解成 AI 的教练 AI 的培训员

对我觉得我觉得完全可以对其实这也是现在这个技术路线的一个瓶颈就是他还没有那么 zero 对吧他这些东西他能学到这些能力其实还是依赖于人基于在对就是人先有这样的环境让他学对吧我觉得这也可能是就是 Noel Brown 其实就是 OpenAI 的一个研究员他在 O1 发布之后自己成立了一个叫做

multi agent research team 就是多智能体的一个研究这个东西其实可能我的猜测可能是他们内部有一些想法想解决这件事情就是 multi agent 这些其实是多个智能体之间互相就是就表面上

表面就是你有多個智能體然後大家可能一起看看事情或者一起競爭然後你從 RL 上來講其實說我們會覺得這樣子就是叫做 self play 就是這樣的智能體對博弈他們自己相互博弈能產生出一些非常奇妙的東西而且不依賴於額外監督這可能會是一個未來的技術路線但現在還八字沒一撇 self play 現在是實現不了的

对现在还没有看到实现但是就 open AI 在读但是而且说不定就实现了对吧对我听你们上次还在聊说 DeepSick 就是对数据标注非常重视听说梁文峰自己也会打标签这个也很有意思现在 AI 还需要 AI 培训员吗 AI 教练那慢慢的是不是 AI 可以脱离于人进行自己的独立思考

我觉得这个是我觉得应该这个是很多研究员接下来会研究的重点说白就是说我们现在特别是 R1 这里讲的事情就是它是一个非常干净的一个设置所以可以研究一些这种就是 test and scaling 这些的问题当然你的模型也很漂亮这个是个非常干净的设置就是说你人已经给他画好当教练了但是后面你想就是要真的做成通用人工智能你肯定是希望就像你说的就是能够

少接受人的监督或者说你可以说要么是自监督或者说是那种弱监督就是你可以直接把整个互联网或者这种就是离散的数据或者这种散的没有经过人为组织的数据作为你的监督信号我觉得这是大家工作的目标然后目前可以看到有些技术路线是有一定的可行性的比如我们之前说的就是这样子的自博弈也好或者说是我们之前说就是这种思维链的奖励模型也好

他们是有一定的可能性往这走的对我觉得可能就是我们可以看下技术发展对这些 AI lab 需要的数据标注人员大概需要一个多大的规模呀嗯这个事情我还真不太清楚不过我就是 K1.5 和就是 R1 里面他们其实有稍微提到一下 K1.5 里面其实他们后面 appendix 里面附录里面录就是写了一下他们就是这个就是贡献者他们其中写了大概

应该是大概 20 个人写的那个贡献式数据标注对我可能可以从这个地方进行一些了解还有人说读完 DeepSick 论文的感受是他使用了很多节约硬件开销的技术你觉得是吗这个能不能展开讲讲

我觉得 R1 的话其实他其实都没有讲那些技术细节所以我其实没有感觉能看出 R1 有什么节约硬件的技术如果要说你可以说他的 GRPO 他强化学习算法因为丢到了一个这个奖励模型所以说肯定比标准 PPO 要节约硬件一些对但你说 R1 本身的话可能别的地方没有特别体现出这点 V3 当然就是可以看出他非常非常多的那种漂亮设计就为了榨干这个模型的训练效率以及推理效率那个是确实非常极致

DeepSick 为什么它上下文的能力提升的很快它确实输出是非常长的对我觉得这个可能就是我觉得你这里可能就是相对之下可能是在说跟 K1.5 进行对比吗我觉得可能一个事情是可能就是因为 K1.5 他们其实花了相当长的篇幅在说他们该怎么样把这个思维链砍短一些 OK 这是一个选择我觉得可能跟这个有关

能够看得出来 DeepSync 的 R1 和 R10 它是在多少卡的情况下做出来的吗我觉得这个很难看出来但是应该不会很多整个训练我觉得如果你说比如在 100 到 200 卡上不过你这个 MOE 比较大有个 600 币的 MOE 可能就是我觉得就是几百卡上训出来我觉得我完全不会意外数据蒸馏现在来看是一条可行的路对吧

对我觉得就是在这个情况下包括其实 OpenAI 也提到就是 O1 Mini 或者这些的情况下就数据蒸馏一定是就是让小模型变成一个非常好的路但是就只是蒸馏可能还不够像我们刚刚就是聊这个 R1 的蒸馏中提到就是你可能蒸馏之后可能再做一点强化学习会更好对但蒸馏本身现在已经是被证明非常有效的一个提升小模型性能的路线蒸馏会带有什么样的坏处吗

比如说把智能再次压缩它会变得笨一些我觉得征流的坏处你可能说是当然就是比如你征流和征流的模型跟老师模型比肯定就是会你会肯定就它会差一些这里的前提是说一个征流的没有做强化学习的模型相比于一个正常的一个小模型比可能有更多的幻觉

这里的原因是指就是你征流之后你其实是老师说啥你就信啥对吧比如你可以想想看如果这个老师模型他既会中文跟英文你征流的时候你给一个只会中文的模型也征流了英文那这时候他肯定就学不到英文的这些技巧对吧就是那些实际的那些逻辑太复杂了那点数据根本不够他学那他可能能看到每次开头都是以比如 I 或者 U 开头更多他会模仿一些那种非常奇奇怪怪的一些这种这种非常浅层的逻辑让你实际看起来就是他这个

他会有些这种幻觉或者奇奇怪怪的输出这东西是比较常见的然后这个其实也是为什么就是说会建议说蒸馏之后再进行一轮强化学习的原因

你剛才提到就是一直在說 DeepSeek 的報告非常的乾淨非常的漂亮然後它就是一個非常好的報款的報告為什麼 DeepSeek 這個在論文層面能夠報但是 Kimi 沒有報啊對我覺得這個東西跟我們剛開始提的有關我覺得一個還是就是 DeepSeek 因為它一直以來這種開源文化在海外也好或者是國內也好有很多自來水以及就是研究人員在關注他們我覺得這個可能就是本身就是整個開局就會更好一些

然后其次就是然后他就是他们一直看着这些模型包括 R1 开源了大家都可以玩我相信如果 K1.5 这个多模态的就是推理模型开源之后大家肯定也会非常喜欢对然后此外的话就是说这个报告本身我觉得就是因为 K1.5 我们可以看是他讲了非常多的技术细节但是非常非常有用的技术细节但是比如说如果你是从就是感受这个技术的美呀或者就是说他不会给你那么大的震撼 Deep Seekers 他其实就是

隐藏所有的一些细节当然可能也是出于他们就是商业考量但是就他隐藏了很多这种技术细节但是把那些算法本身的这些就是精妙之处或者说一些就是这些美展现给你就更加的对就会更加的震撼一些

对你一开始也说你看到这个报告看完了以后觉得非常的兴奋非常的惊喜就是他让你最兴奋的一点是什么我觉得其实就是我觉得是一个是算法还有个这个范式的革命吧就是因为大家 O1 之后大家其实都大家都也非常兴奋因为发现就居然现在还有不止 pre-training 了还有所谓就是 rl training 以及 test time 的 scaling 但是大家都就是其实就是比如探索几个月没有找到所谓的这个路线

然后 R1 特别是就是 R1 这个 Zero 里面它相对是完全解灭就这样子的所谓的 training time 跟 post training 以及就是 test time scaling 路线到底怎么样你看着这个文章你就可能能想到说这个路线接下来的变革会怎么样会走向何处然后你可以做什么样的事情这个就就就你有一个新的东西可以玩了那当然会很高兴然后还有就是这个算法本身也比较干净你会在想啊然后他就这么简单当时怎么自己想多了或者什么样的还是没有很好的领悟所谓的 beat lesson 之类的对

O1 可能是因为它没有开源所以其实大家不知道怎么做的是的是的是的 L1 把它公开了

是的你自己在付現過程中你有覺得遇到了什麼困難或者是有沒有一些可能的比較 tricky 的地方?付現其實非常順利我可能就是寫了幾個小時代碼第一輪就通了然後我其實當然這個付盤來講我其實是有些原因的就我覺得就是最大的一個問題就是說就是我們付現在一個比較小規模任務上做所以這裡的結論可能不夠通用但是就我這裡就僅說我們在這個小規模上面看到一些結論吧對

一个事情是说就是你模型的性能就是模型的这基础 base model 的能力要跟这个任务相匹配比如说我的猜测是你如果拿个 7B 模型比如 DeepSeek 如果拿个 7B 模型跑这时间可能就看不到很好这样子的就是强化学习 scaling 就是这样子就 time-time scaling 这样子的 curve

但是如果你像我们来一个 3B 模型但是用个简单很多的任务可能就又能看出来就是你的这样子的强化学习能够学到新的这样子的 reasoning 这样子复杂的推理模式这形式的可能是一个涌现现象需要模型本身能力达到一定的阈值之后才能够展现出来的

不然的话可能就会像之前所有的研究员包括我去年也是其中之一一样就是试过很类似的方案但是没有观察到类似的现象它其实让整个过程变得更直观了

嗯我覺得某種程度上可以這麼說就是你現在會感覺就是當然就現在大家有些人也會對 RY0 有一些就是抱怨或者一些懷疑說它是不是因為就是預訓練的時候混了一些這樣子標註數據所以才能做到現在大家還在爭論但是如果 RY 整個報告是真的話那其實就是整個事情非常乾淨直觀對吧其實就是你模型夠好的時候你做強化學習它就能做 work 對吧所以優美的算法或者優美的技術往往是最簡單乾淨的技術是嗎

是的是的看來這事情一直都是真的你剛才說泛式革命 R1 它還是沿著 O1 的那個路線走對吧它沒有有新的轉彎或者是拐點對是的我其實說就是 R1 O1 這樣子就是後訓練的這樣子的泛式革命就是接下來可以看就是預訓練可能大家已經就是

感觉已经比较成熟了从某种方面上讲但是后续面这个地方比如 R1 这边才开了一个新坑对吧包括你可以看到 O1 到 O3 已经才几个月进展就这么大我觉得就是在开源社区或者说这几家厂商肯定也会有类似的里面又会有很多的新问题可以探索包括我们之前提到了说你怎么把它拓展到别的领域怎么让它更少的依赖人这些东西都是非常值得探索的事情而且当你解决到他时候这个模型能力会有非常大的飞跃可以做很多很有意思的事

后训练的 skilling load 现在看起来增长曲线陡峭吗我觉得就是你按照就是比如 open eye 那些研究员的路线他们觉得非常陡峭原因是因为现在后训练用的算力跟预训练比还是个毛毛雨所以说只要你算法对你就可以就是可能没几个月你就丢十倍的算力进去没几个月丢十倍的算力进去那这样子的话你就能够提高很多就是整个东西它会增长的很快然后你说 skilling load 增长是否陡峭

scaling load 进展会很快因为你的算力现在算力很少你要增长 10 倍你要在 scaling load 上往前走会很快陡不陡峭这个范式只在前现在还在很前期我觉得后面这个 scaling load 就是就所谓就是算法革新让这 scaling load 变陡这事情我觉得一定会发生而且说不定会很夸张说不定 R1 这样子的性能一两年之后就只用比如说

一个机器一个一个 djx 或者几个 djx 就能复现我觉得我也不会特别意外对我觉得就是运营训练上目前看来确实遇到了一些门槛就是在在你继续拓展的这情况下 gpt 我们我们刚开始也说了对吧就是可能已经憋了小两年了感觉该出来的好像也没出来然后今年估计会出来了吧我猜测就是但是但总的来说我们可以看就是他就是从 gpt4 开始我们没有看到下一个这种非常大的革命性的就是就是

就是突破性的一个基础模型出现

然后所以说预训练这边我们就是推进 skilling law 的这个进展因为成本太高了所以放缓那后训练这边因为现在成本还非常非常低像我们刚刚说的就是可能现在只有就是预训练的 2%或者到百分之几这种毛毛雨的水平你在网上推非常非常简单只要算法数据到位你就可以往上继续推进所以后训练应该会有非常大的突破包括我们可以看说 o1 带来的在一些那种数学推理上的那些 benchmark 上突破

我觉得是真的非常非常大的一个 jump 从 20%一下子到了 80%之类的我们刚才说就是 DPC 报告很多人关注但 KIMI 报告关注人少很多那你对 KIMI 报告它如果写法做一些改变和调整你觉得它有可能引发的关注度会更高吗就是会让你读这个报告的时候更加的提高你的 aha moment 那个值吗就是你对它的报告写法有什么建议啊

我觉得我可能就是我觉得 Kimi 谈得非常非常棒我应该也没有就是特别好的就是建议能给对我觉得这也可能唯一就是作为就是读者角度上来说的话就是因为就是 Kimi 1.5 我觉得其实他可能主要缺的也就是这个 Aha moment 这样一个爆点爆点也这也其实也是 R1 就是在报告质量上跟就 K1.5 最大的区分

当然可能就是 Kimi 里面他们就是选这样稳当稳当的战略可能也确实没有发现这样的就是 R10 这样子的现象然后 R1 能爆款我觉得很多原因跟他这个啊哈 moment 有关因为就确实看着非常有意思大家都愿意聊

我刚才跟你讲我觉得就是在用 DeepSeek 的时候我明显感觉他的情商很高因为他经常会给我发表情其他的我觉得很少发表情而且他会发很多表情然后会让你喜欢跟他互动你觉得这是怎么做到的听说 DeepSeek 找了很多北大中文系的人做标注我觉得可能跟这个有关就是这个东西其实跟后续练时你的那个奖励函数怎么调或者你的标准怎么标注这些很有关系这都是就是你可以调的价值对齐或者怎么样

用户会高兴然后 DeepSync V3 或者 R1 我自己也在玩一些就是在小红书或者这些看到那些比较有意思的那种沟通确实感觉 DeepSync R1 也好或者 V3 也好回复比较有意思而且中文理解能力很深包括你说就有这种表情这些的一些比较奇的地方这些其实都是他在后续练 ROH 或者这样的地方就乍着对齐有一些自己的一些可能有些小秘方可能就是这种标注上面有一些小的要求然后导致的

而且明顯它的輸出非常浪漫這可能說不定是梁文鋒他在某一個數據標註要求裡面加了一條說要求這個 Annotator 就是要求標註員傾向於更浪漫的回復說不定就導致了這個現象全球對 DeepSeek 來說都有一個就是破天的流量就是它用戶數據高歌猛進你覺得它對這些用戶數據對於模型進一步增強有幫助嗎

我觉得这很好的问题对其实这个也是大家其实我觉得这是从外界来说比较不清晰的一点其实从目前来看好像用户数据至少说现在阶段没有特别大的帮助你具体就可以看出比如说你像从 Athropic 和 ChessGPT 没有拉开明显差距或者说就是一些现在国内一些厂商你可以就是自己很快的建立标注团队赶上也好

好像目前来说好像说这种用户数据当然有是好但是你比如多 10 倍多 100 倍目前看来并没有转化成更好的用户体验

对这是目前这个阶段观察但是可能后续比如说当你叫用户开始像 ChadGBT 他有个叫做 live screen share 的功能比如他可以你把你的电脑投给 ChadGBT 然后 ChadGBT 可能就能收 OpenAI 就能收集很多你是怎么用电脑的你怎么操作专用软件这些数据的时候可能就会有些不一样但在现在这个阶段确实没有观察到很多的用户数据帮助了某个厂商建立了稳定的护城河这个事情

你觉得 DeepSick 会 beatOpenAI 吗我觉得梁文峰是个非常非常有意思的人而且就是你从他的这个事业以及他这种决策来看我觉得他至少在 AI 这方面我觉得他可能会是比 Dara Ahmad 也好或者 Sam Altman 也好在这方面决策更加清晰的人但是你说他 beatOpenAI 这个事情其实 OpenAI 的护城河也是很深的

我會相信他們做出更多的創新但是如果以 DPC 現在的資源投入量的話可能就是整個打垮 OpenAI 我覺得可能還會有一定的距離你覺得現在 OpenAI 的護城河有哪些第一個很明顯的事情是他們的算力非常非常充沛現在應該手上我估計就是幾十萬張 H100 應該隨便都有

然后他们现在有个星际正门然后目标是几年之内拿到几百万张就是 B100 B200 这样子量级的显卡这个东西在国内包括已经说像深度求索这样子的地方可能就已经有一到两个数量级的差距这个东西就很难很难弥补

然后可能是这地方就是算力这方面的问题当然我觉得这可能是整个国内都需要思考一定需要找得出的事情然后第二个方面其实就是 open eye 就是我们看这两个组织的话其实可以举三个例子一个深度求索一个 open eye 一个获取去 meta 的 GNI 吧就是 meta GNI 应该是大家现在比较公认的就是说因为各种组织管理的问题尽管进去的研究员可能是非常出色的研究员但是大家的创新也好或者产出也好其实是

比较糟糕了比如我们看 Lama3 其实就现在已经非常落后而且在架构上没有任何创新最近也传说了 DeepSeek 这个火了之后他们建了几个 Wallroom 在研究商讨之类的就是 Lama 或者这个团队他们其实目前看来的话会说因为他们的组织结构也好因为这种大公司一层一层的官僚体系也好或者他们这种 KPI 考核模式也好导致他们尽管有很多资源但没有发挥出来内耗非常严重没有把这些资源转化成创新或者技术

然后相反的话 DeepSeek 我觉得显然是另一个特例就是他们资源相对来说我相信应该在国内也不算是最丰富的大厂之一但是能够做出非常漂亮的工作然后同时至少在这个时间点上做出了就是最先进的模型之一这个事情是能证明很多很多事情就是他们整个组织包括组织管理包括说他们的就是这个把资源转化成创新的能力一定是非常非常突出的

那我们再看 OpenAI 呢 OpenAI 其实目前看来他们在这方面也相当出色并没有说落后很多所以在这里面没有很大的破绽像你和你的同学们毕业以后会倾向于在微股的这些 AI Lab 工作还是会有回国的打算就是 PhD 的考虑会是哪些啊

我觉得现阶段的话大家可能因为其实就是回国了之后再接触再回到硅谷其实会有一定的难度包括现在有些是地缘政就是也不是地缘就是这些政治的原因考虑所以我觉得大部分人可能就是至少从我现在师兄师姐大家考虑角度一般来说我也至少会时间去硅谷闯几年然后闯出了民生之后可以再看着办

好了,这期节目就是这样,如果你喜欢我的节目,欢迎前往小宇宙,苹果 podcast,腾讯新闻,喜马拉雅,去听音乐,订阅张小俊商业访谈录。如果你有其他想邀请的嘉宾,想听的内容,或者你有任何想探讨的话题,都欢迎各位听众朋友们在评论区里留言。那我们下集再见,拜拜。

89. 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净” 02:49:35 Share

张小珺Jùn｜商业访谈录

Deep Dive

Shownotes Transcript

89. 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”