20个问题，搞懂DeepSeek和它带来的“AI下半场”

2025/2/16

十字路口Crossing

AI Deep Dive Transcript

People

李

李乐丁

Topics

李乐丁：我认为DeepSeek R1的发布标志着AI进入了下半场。过去两年，AI在预训练方面的提升逐渐趋缓，高质量、多样性的公开数据变得稀少，Transformer模型架构也存在局限性，导致数据学习效率低。因此，大家开始关注后训练，即在已有知识基础上形成更多能力。DeepSeek R1的发布相当于给全世界揭秘了最先进的技术是如何完成的，是下半场时代的拉开。我认为上半场是为模型增加更多知识的预训练，下半场是让模型在已有知识的基础上形成更多能力。

Deep Dive

Shownotes Transcript

欢迎收听十字路口我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会十字路口是乔布斯对苹果公司的一个比喻形容它站在科技与人文的十字路口伟大的产品往往诞生在这里 AI 正在给各行各业带来改变我们寻找访谈和凝聚 AI 时代的积极行动者和他们一起探索和拥抱新变化新的可能性

我是主播科技杨远诚联合创办了街旁新石巷和唐岛我相信科技尤其是 AI 会在未来十年彻底改变社会赋能人类欢迎大家找我聊天碰撞想法链接下一个可能性我是主播荣慧目前在一家专注科技投资的风险投资机构工作之前在第一财经周刊担任驻硅谷记者

本周的十字路口我们准备了 20 个问题一起来探讨 DeepSeek 将如何改变 2025 年开始的未来 10 年

大概三周前 DeepSick 的 R1 的发布在全球掀起了鲜然大波相关的讨论铺天盖地十字路口向来都不是很擅长追逐热点我们也认为等热度稍微退去之后往往也能够更加全面和理性的来讨论一个话题而不被一时的情绪所左右因此本周我们邀请到的嘉宾李乐丁曾经是我们的主持人

曾经在百度担任了 10 年的主任高级架构师此前李老师也做客过十字路口他上次来分享的播客题为我想击碎你们对于 AI 不切实际的幻想并重建一个正确的认知

这一期播客成为了我们去年 45 期节目当中收听量最高的一期可以说好评如潮因此我们也非常荣幸能够在 DeepSick 引发的热潮渐渐平息之际再次邀请到李老师来和我们聊 AI 来探讨 DeepSick 我们准备的这 20 个关于 DeepSick 的问题涵盖了从算法、算力、数据、应用以及商业等多个方面

人的一生当中能遇到的技术大事件可以说是屈指可数而 DeepSeek 的发布无疑是其中之一我也相信每个人都值得投入时间去了解 DeepSeek 究竟是什么它又意味着什么以及它将如何改变我们每个人的未来

李老师我们的第一个问题就直接开始那第一个问题是其实网上有一个很流行的说法是 DeepSick 的发布会标志着 AI 进入了下半场你会认可这个说法吗可不可以给大家讲一讲上半场下半场分别是什么大家好

关于 AI 的其实我们上次聊过其实更多的是关于在预训链方面的事情那经过两年时间的发展其实基本上大家会发现过去两年来 AI 在预训链方面的上限的提升实际上是一个逐步趋缓的过程我们从 GPT3.5 到 GPT4 的时候看到了一个非常非常大的跨越但从 4 开始之后的

应该到现在将近两年的时间他的向上的眼睛其实是不多的逐渐的包括几个月之前美国那边也是开始有更多的讨论在说预计链是不是已经到顶了包括伊利亚给出的他自己的判断其实基本上目前大家在形成一个基本的共识就是 pre-train

已经走到了一个阶段性的顶点我们不太希望再训练更大的模型了那这方面的原因呢一方面是因为数据公开的高质量的且有足够多样性的数据呢已经基本上都被使用到了因为这里还比之前说到的一个东西就是关于多样性因为

AI 需要很多很多方向方面的知识那并不是说我在某一方面的知识我增加十倍那 AI 的能力就会变得更多而是说我们现在需要的是每一个方向其实都已经很多了我们需要一个新的方向那从这个角度来说多样性的高质量公开的数据也已经非常稀少了所以从数据的这个角度来说呢我们很难再扩得更大了而关于

合成数据这方面其实也有很多的讨论现在基本共识是如果你任意的生成合成数据然后直接未给预取联络默写拿的会导致它的崩溃在很多大学也有相关的 paper 去论证这方面的内容然后除了数据之外其实还有一个 debate 但是目前没有形成完全的共识但是也说很多人开始意识到这件事情也就是之前咱们上次就说的了昆教授其实提高了

由于 Transformer 它模型架构的限制导致 AI 今天的生成式 AI 它的数据的学习效率太低了我们向它训练了几万亿的 token 的数据然而它们仍然很难

具备像你家猫一样的智能所以这里面呢我们仍然是就会觉得可能需要有一种新的方法从这两个角度来说大家都还是觉得呢可能预训链是到头了那我们可以采取一些其他新的方向那特别是之前 OpenAI 的欧版发布之后呢大家开始逐步把更多的眼光放到了后续链部分 Post-training 让模型增加更多的

垂直方片的技能比如说 O1 会增加各种 Math Code 等等 STEM 类型的能力那么你可以在垂直方向增加一些特定的 Function 来让它变成一个金融模型变成一个法律模型变成一个医疗模型等等这些方向现在 Post-training 正在是大家主要发力的地方

所以是不是这个上半场下半场也是以 pre training 和 post training 这样来划分的对我觉得是上半场是我们为模型增加更多的知识 pre training 然后下半场是我们让模型再已有的知识的基础上形成更多的能力

所以是不是这个也可以认为欧万的发布他是下半场的一个信号只是欧万他是必然的所以他当时也没有把所有的技术细节拿出来给大家看又包括他是收费的同时他的思维链也没有公开所以其实虽然能力强但是并没有被业界也好普通用户也好那么强烈的感知到所以才让 deep seek r1 的发布就是

得到了如此的风头对我觉得经验是肯定的欧万的发布就像当年我们第一次看到 ChatGPT 一样我们首次看到能够在完全不依赖人类的情况下我们竟然能够直接去解应问题我们竟然能够直接让机器生成非常高质量的 coding 那这是非常非常惊艳的但就是 OpenAI 今天已经变成 CloseAI 它的很多方法虽然应该在一线的研究者中

是有一定的了解的但它毕竟没有发布相关的具体内容它甚至直接封锁了欧万对于思考过程中生长的 token 让大家不知道它具体是如何进行思考的所以 R1 的发布相当于是给全世界揭秘了最先进的技术是如何完成的所以从这个角度来说 R1 就相当于下半场时代的拉玛

嗯哎那我们也进到第二个问题哈就是我们来请李老师给大家科普一下吧就 deep seek 的 r1 包括在发 r1 前几个月发的 v3 他们的工作原理他们的训练方式分别是什么我们现在有一个基本的了解好的好的

DeepSeq 这次直接发了论文包括 R1 和 DeepSeq V3 除此之外大家如果想深入了解的话还可以看它之前发布的另外两篇论文怎么凑在一起看其实就能形成一个全貌前面两篇的一个是 DeepSeq 的 R 的 V2 就上一个版本的 M1 以及 DeepSeq Math 它如何将数学能力引入的那咱们先从

R1 说起吧 R1 这次直接将模型的数学和多部推理的能力带到了 O1 的级别那它怎么实现的其实是大家最关心的事这篇论文应该是我最近两年看到的让我觉得最精彩的论文那实际上 DeepSeek 在 R1 这篇论文中呢它

训练了三个模型而不是一个我觉得最有价值的是一开始的 R1-0R1-0 使用了一个非常非常优雅的想法就是我们是否有可能纯粹的依靠强化学习让模型自己去摸索的方式来实现多步骤的思考从而提升模型在数学编码等等的逻辑思维能力答案是肯定 DeepSick 在这里它引入了一个非常

不同于以往我们使用强化血液的方法那之前很多特别是美国对于强化血液的使用方法大家往往是尝试呢去 reward

中间的过程比如说我来解一道数学应用题一个直观的想法是这个应用题将由一步一步的推理完成那么对于每一步我的强化学习系统都要对这一步是否做的正确是否做的好进行一次激励通过不断的激励让系统得到反馈从而实现优化但是 DeepSeek 非常精彩的分析了这个问题

他们的结果是要去激励模型的结果而不是去干预中间的过程 RM0 最终它的奖励模型可以说是非常简单简单到它只判断两件事第一它只判断模型最终输出的结果是不是正确答案而不关心中间的思考过程对中间思考中没有任何的激励第二就是它引入了一个格式

格式系统的作用其实本质上是让后面的 reward model 能够专注于去判定输出的结果而不要去被中间过程污染它的格式实际上就是把中间的思考过程和最终的结果区分了开来明确区分这样我只看结果不管进过程那么仅仅通过这一个方法就可以让模型的效果直逼 open AI 的 O1 那这是一个非常非常优雅的方法

那在这里其实为什么我们只激励结果而不干预过程能够成功呢 DeepSick 在论文中有非常精彩的论述他这样认为的是因为我们中间过程的

内容非常难以量化和给出正确的激励结果比如说我们在文科的时候我们讨论一个偏文科的内容的时候我们都知道人的说话中上一句和下一句之间是要有关联性的是要统一被放在一起的我们有一句成语叫做断章取义这是一个贬义词那也就意味着我们将一组

我们将你的连续的绘画中任何一句话单独抽出来的时候它都不能代表你的全貌所以我们很难对其中人说的某一句话进行精确打分你说的是对还是不对高还是低这个是不能的

而对于偏理科的东西即便比如说一道数学题那我们都知道一道数学题往往它会有多个解法比如说高中的很多题我可以用代数的方法解也可以用几何的方法解我也可以用分析的方式解同样就算只局限到代数上我也可以先合并同类项目

在两边成平方也可以反过来也就是说对于一个理科的题来说它的推理过程是无限多的我们很难穷拘因此与其让模型去干预中间的过程不如直接看结果或者说我们从也就是说从这个角度来说呢就是机器的思考过程与人类是完全不同的

我们不能强求机器和人一样的想法因为他的知识可能比我们所有的人脑中的知识储备到多的多他的预计类学了几万亿的 token

那通过让它去不断地实验以一种对于机器最自然的方式进行训练的话我们是可以达到一个优秀的效果的这片是 R1-0 给我们一个最大的启示证明了强化学习直接使用是可用的这里我想补充一个问题就是你提到的它的这个创新的想法之前有没有其他的模型厂商尝试过

然后因为其实我看一些报道里面也提到 OpenAI 的研究员在比较早的时候其实做一个分享也提到过模型需要的是激励不是干预是是

这件事情做的最好的确实就是 OpenAI 当然以及还有强化学习的可以说这个宗师级选手就是 BigMind 其实这个想法在 AlphaZero 就出现过在 AlphaFold 中同样也都出现过我们更多的去关心结果 OpenAI 也有相应的讨论但是从开源方面的话 R1 是首个之

直接告诉我们可以这么做的我相信 OpenAI 和 DeepMind 的内部都会有大量相关的研究我甚至相信 O1 很有可能就走过了 R1 整篇论文中的路程最终形成了他们自己的模型所以这块应该是有很多的前沿的研究者在做的但是开源的是 R1 说的那 R1-0 是一个非常棒的创新

但是论文中也非常明确的写出了 R and Zero 它也有两个缺点这两个缺点不适合把它真作为一个日常使用的模型给大家使用这两个缺点其实很容易想到首先就是既然模型是通过它自己的方式摸索出了推理的步骤那么很可能这个步骤对人而言是难以理解的这就是他说的第一个问题

或者说网上今天现在也有很多人在形象的说就是 R1Zero 的思考过程不是人话人很难理解这是第一个问题第二个问题就是语言混合它的中间思考过程会中文英文或者其他的语言混合使用这个也很正常这是因为模型本身它学会的是所有语言它并不具选以中文它并不具选英文对模型来说所有的语言都是 token

所有的计算都是选择概率都是计算 attention 对他而言语言之间不同的语言之间没有代购没有区隔哪个词更好地表达了当前推理的方向他就会选哪个词所以就会形成 RN0 的这样的一个效果但这样的结果显然我们如果拿来日用的话是不合适的日用的情况下我还是希望看一看中间的思考过程希望人能够看懂希望他能够要么使用

中文要是英文或者是要过你预设他使用法语他就使用法语一个一致的语言这个更像人类的习惯所以要为解决这两个问题那么

DeepSeq 又增加了更多的方法来形成从 R1-0 变成了 R1 做法方面的论文里讲的非常细致首先第一步是在一个 DeepSeq V3 的基础模型上进行 SFP 微调这里会用一批的 COT 数据这里相当于给模型一个基础的回答套路比如说

它会告诉你如果碰到某一类型的题目应该先第一步是什么第二步是什么第三步是什么第四步是什么比如说要我们做一次总结陈述那第一步先应该看各种材料第二步进行对比第三步写总结它会写出类似这样的回答套路那这些套路呢经过 fantune 之后呢那会让模型在回答时候呢相对而言呢更靠近人的说法

然后呢会保证模型在回答时候呢使用一致的语言这是克服了语言一致性的问题然后在这个基础上呢再去使用强化学习相当于我只告诉你几个基本的套路让模型呢沿着这个基本套路的方式再去自行摸索对所有其他的多步骤思考的问题该如何解那经过这样训练之后呢

得到了一个中间模型那这个中间模型实际上它还是有一定的问题的虽然语言可能一致了但是由于它使用了强化学习进行大量的能力扩展那显然扩展出来的很多能力回答的方式还不完全像人话所以那怎么解决这个问题呢 DeepSick 使用了蒸馏它在这里就将这个中间模型进行了蒸馏得到一批的问答对这里问答对就包含了大量的

提和回答方式然后对这些回答方式进行筛选筛选的方式使用了一个叫做拒绝采样的机制这个算法很常见并不是什么特别的它的思想其实就是人通过举例的方式算出人在回答问题时的套路与蒸馏出来的数据在回答问题的时候套路

是不是差异太大对于那些差异特别大特别不像人画的东西呢就拒绝它我不采样这样的信息实际上这是一个剔除的筛选算法那经过这样处理之后呢 Nipsic 得到了 60 万条非常高质量的多步骤推理的问答对有了这个数据为基础然后再增加 20 万条传统的 Fantune 数据这传统的 Fantune 数据就是让模型具备比如说

语言对话然后文本创作然后阅读理解等等传统 LM 的能力这些能力使用 fantune 是最佳实践然后加在一起 80 万条数据以这 80 万条数据再去重新 fantune 它的 DeepSig V3 基础模型这时候得到的就是 R1 这样的一个模型它既具有传统大圆模型的各项能力

又具备多步骤思考的推理能力同时他的推理结果符合人类的思考习惯并且使用一致的语言这就是欧万的小观众非常精彩整个过程非常精彩哦确实听起来感觉一气呵成李老师讲的也很漂亮像跟我们讲的一个纪录片一样听起来很有意思嗯

然后正好第三个问题也是刚才李老师有提到的就关于蒸馏那其实网上有很多争议就 DeepSick 到底有没有蒸馏 OpenAI 呢那伴随着这个争议的除了这个原创与否或者侵权与否的这些先不说然后有另一个问题就是如果只是用蒸馏的话它有没有可能超越 OpenAI 超越 SOTA 模型 OK 首先我相信 DeepSick 没有使用 OpenAI 的数据我觉得没有必要

那咱们就回到这个咱们就假设咱们就假设他使用了蒸馏数据那这部蒸馏是干什么用的呢实际上我们通过前面整个论文的论述过程我们可以看到唯一使用了外部数据的是一开始从 DeepSeq V3 的 base model 做第一部 SFT 的时候使用了一批 COT 的数据

这些数据就是让模型学会基本的回答套路这部分数据就算使用了 OpenAI 的一些成果那又如何因为最后真正的能力完全是来自于后面的强化学习

如果没有使用呢没有使用也没关系 OpenDeepSeq 完全可以自己找专家进行标注这方面不是什么特别大的困难可能这里会稍微的如果没有更多没有前人的数据拿来参考的可能会稍微走一些弯路比如说

我们现在已经发现 R1 的这条道路更适合做数学题可能不太适合做文科也许他做了大量的文科 COT 然后进行蒸馏进行实验发现效果不好回过头来重新写更多的数学题仅此而已无非浪费一些时间最终他一定会摸索出一套合适的种子 COT 数据

所以没有任何必要去征流 OpenAI 也许一开始有一些参考那又如何呢全世界我们每一个人都在看好别人的工作这我觉得不是什么问题那回到第二个问题就是仅靠征流能够超越 SOTA 吗

我说绝对不能那这个不能不是说你拿出最终一个成品然后看它的 benchmark 发现我不如目前的第一名这是有可能的不可能的源于在于你拿出的这个模型如果是蒸馏的那它一开始的蒸馏数据从何而来呢这个蒸馏数据必然只能来自于强化学习的大量获写而不是蒸馏别人

如果蒸馏别人你的能力一定小于他这个是我们既定的经验传统蒸馏一定是大模型蒸到小模型这时候小模型将具备大模型可能 80% 90%这看你的蒸馏技巧吧的能力但绝不可能反向超过大模型那就左脚踩右脚上天了这是错误的所以中间一定想要让我的模型在推理方面做好中间一定要引入强化血液这时候它就超越蒸馏了

其实业界的共识还是说是 O1 它是带来了一个范式的革新吧它的原创的这种革新启发了后面的很多人不管是 DeepSick 的 R1 其实也包括 K-me 的推理模型 K1.5 那

我觉得这个整个这种知识的接力或者站在别人的肩膀上面再去做创新其实这个是一个就是最近让人感到有点感动的某种技术理想主义在推动人类不断进步的一种感受最近有一个被大家喷得很厉害的就是

Anthropic 的 CEO Dario 他之前其实还蛮受业内人士尊重的可是在 DeepSick R1 发布之后呢他跳出来写了一篇叫什么代表

某些美国观点的文章要对中国进一步的限制芯片以保护美国在大模型领域在 AI 领域的绝对领先那这是不是也是意味着也是我们的第四个问题就 DeepSeek R1 它所用的 Post-training 路线当中的 RL 和 Anthropic 一直在用的 RLHF 的路线之中 RL 已经显然胜出了所以 Anthropic 受到了威胁才会有 Darrel 的一系列的反应呢

这篇文章确实可以说火遍全网然后我觉得我们要客观去看待就是把这里面的不同的地方区分出来我觉得可能从三个层面来说吧就是首先如果从整体角度来说呢这篇文章完全就是在中国阴谋论就试图通过强化中国的威胁来掩盖

现在 Athropic 和 OpenAI 的能力已经被中国追上这样的事实所以这里面这部分内容可以说纯粹的就是阴谋论但是他文章中关于纯粹技术这部分的论述

是非常中肯的对于 DeepSeek 内部大量的技术的论述是中肯的这部分我们是可以采纳的我觉得说的也都非常好其中他确实说了一句事实就是 DeepSeek 的能力呢仍然跟他们有六个月的差距这个我们没有必要回避就是今天咱不要拿空头支票就直接上 benchmark 从这里我们一看到确实我们还是没有超越

OpenAI 也没有超越 Anthropic 比如 R1 的效果只是达到了 O1 的下限但现在 OpenAI 已经有了 O3 了这一点我们确实是有差距但当然他没说的是这 6 个月时间 Anthropic 自己的进展也不大

所以确实有差距但是也没有这么大他们前方的两个最前的人他们已经非常放缓了我们再追上来那说到技术这块呢我觉得应该保持一个开放的心态就是我们不能预设某一项技术一定是正确的或者一定是错误的

如果我们这样预测的话实际上 DeepSeq 不可能做出今天的 R1 因为在此之前最主流的正确方式是 Lama 而 Lama 的体结构跟 DeepSeq 可以说是完全不一样那中间会有巨大的差距那我非常同意就是梁文峰之前他接受采访时说的一个观点他的采访应该最近也是获遍全网吧他中间一个很重要的观点就是现在的大模型研究

也就更像是一个 research 阶段而在 research 阶段的典型方式就是我只提出一个假设然后通过实验的方式去证实它在实验给出结论之前我都不能说这个假设一定正确或者是一定错误所以我确实我无法回答

到底是纯恰化学习这条路是正确的还是 Anthropic 这条路正确的 Anthropic 认为模型的能力应该是一个连续的光谱应该是在基础模型之内就让它具备偏文科的回答能力和偏理科的多步骤思考能力同样这也是一个非常厉害的 idea 那我不知道也许它后面能够有更好的方法来实现这一点这个我觉得咱们就从

抱着一种科学的心态去关注他们看大家什么时候能证实自己的 idea 但当然另一方面就是那对于意气的方面那显然我们是不认同的美国已经没有任何能力去阻止中国研发大模型了我们已经完全具备了

关于生成是 AI 的全部的技巧可能仅仅就是硬件方面造卡还有点困难但我们国内也有卡我们中国也有自己的 AI 训练卡所以这块无论如何他们是不能阻止我们做出世界上最好的模型所以我们现在嗯

是推理卡我知道是已经有些被 r1 证明了吗就像这个规矩流动他们这一次发的 api 也是在华为的这个推理卡华为云的推理卡上做的那老师这个现在训练卡我们到什么程度呀训练卡目前我觉得目前的阶段是属于可用但确实有点难用就如果你想

三个月复现 DeepSeq 那么恐怕最佳的方案还是全套英伟达还是用 GPU 还是用它的 NVLink 最好的网络还是用它的 Infiniband 因为整套体系是非常完备的以及如果你想要探索一些完全不同的新的模型那恐怕

KUDA 为你提供的支持也是最晚倍的这个我们没必要回避但是国内的卡完全可以进行训练只不过需要一段时间的模型适配这块我之前有几个朋友其实做相关硬件方面一般来说训练的适配的时间会在三个月上下这种

但是这是前提是这是一个比较确定的固定的一个模型如果是要做自定义的算子要探索的话不把还要花的时间更长我们前面四个问题都是有点硬核的问题哈我们为了这个照顾到大家收听的节奏所以我们第五个问题呢会轻松一点也是大家都关心的就 deep seek 这一仗啊打得非常的漂亮那他这种大获全胜的这些这个因素里面啊

我们认为他有开源技术也做的好然后成本也很低然后产品体验也不错那李老师在你看来啊就这些因素谁最重要或者说他们分别占比多少能不能够来分享一下你的看法如果在我看来让我看的话我觉得是开源是最重要的我觉得勒奔教授给了一个非常好的评价就是他说与其说这是中国战胜了美国不如说这是开源战胜了必远

其实我们回过头来我们还是回过头来看 DeepSeq 的论文我们从 R1 在倒退之前看 V3V3 里面有 MLE 有 MLA 再倒退后来看前面的 V2 再回到看 DeepSeq Math 中间对于强化学习的一开始的探索其实我们能够非常明确的感受到业内的一线研究者对于这种未来的方向是有感知的他们不是不知道

所以阻碍他们的原因是什么很可能是没有足够的条件让他们去在这种创新的方式上做实验那这里我觉得呢很多时候实验是要付出代价的比如说像 DeepSeq 其中它里面做了大量的实验去论证某些方法可以某些方法不可以比如说 R1 他们也尝试了去激励过程结果是不好

在 V3 里他也去比较使用他新的 MPP 多 token 输出到底对于模型的效果改善有多少其实这就意味着要想做好一个大模型需要大量的实验因为没有人真正知道模型正确的道路是什么可以说整个生成是 AI 乃至说整个 AI 我们的

理论层面是不完备的不像 computer science 有图灵完备性完全告诉你了一切 AI 并没有很多时候该用什么方法是需要做实验的所以更重要的是要有足够的机会让研究者去做实验而不能因为这次实验迅出来的模型效果比上一版本降了 2%那就触发它那就不让它再运用资源如果这样的话那是做不出最好的模型的所以我们看

O1 的产生我认为一定背后有两方面的原因一方面是得益于 DeepSync V3 这个模型使得模型的训练成本大幅降低 V3 的整体训练只需要 550 万美元 2000 多张卡而它在它基础之上再去做推理再去做其他的强化学习那它的成本也比传统我们使用那种超大模型要低得多得多那就意味着在同等的资源投入下 DeepSync 可以做更多的实验

那另外一方面我就觉得我觉得是因为 DeepSeek 本身它有一个坚持了一个很好的初心就像梁永恒说的不去做常理化纯粹 research 那在这种情况下我可以接受模型失败我可以接受这次的效果不好甚至我可以接受在一段时间内效果不好比如说我们还是如果我们仔细看论文的话会发现它将强化于进行了 8000 步这几乎是绝无还钱的

之前没有公开的论文会把强化学系推到这么远的距离那不是因为我们的研究者想不到这一点无论中国还是美国我们都有非常优秀的研究者大家能想到问题是从 0 到 8000 步效果的提升不是线性提升

中间会下降中间会有反复那如何保证你有足够的资源在比如说到了 2000 步你的强化学习的邪律不再快速上升的时候甚至出现阶段性向下的时候还能坚持呢我觉得这一点都是需要更好的管理的支持的所以

一个偏向于 research 偏向于开源的方式才能运营出这样的先进技术看到一些分析就说到说大家其实看到的都是 deep seek 这次的一个巨大的成功其实它的成功背后其实是有非常非常多的失败的然后只是我们可能不知道

就是李老师你刚才提到这个 8000 步可以再具体的就是比如再通俗的解释一下这 8000 步意味着什么吗 OK 好的咱们可以稍微说一说就是 R1 zero 里面用的讲习这里相当于呢我们可以这样理解就是我首先让模型呢在一无所知的情况下回

回答数学题那这些数学题的源头在哪呢我们参考 DeepSeq Maths 里面的论文它使用了 8000 个种子数学题这是我专门的评测集提出的然后这里面有题和标准答案然后呢它让机器自己去生成答案那显然

大部分题应该答的是错的只有极少部分回答的是正确的而这时候强化学习系统呢会进行打分把正确的标出来把错误的

也标出来当然这里面还有一个重要非常重要的技巧就是它里面的 GRPO 的 reward model 咱们可以稍后再说那在这个过程中呢我可以将模型进行打分把好的回答选出来把差的提掉然后让模型重新用好的这些数据呢去重新翻去我的技术模型这种模型相当于它能力就

提升了一步那比如说这时候 8000 道题他可能第一步下来 8000 道题只回答 10 道那这时候我的正确率就是 8000 分之 10 然后我把这 10 道正确答案

重新翻听模型之后开始进行强化学习的第二轮我还是得把这道题继续让他回答那么大概率他会从对 10 道变成对 20 道对 30 道但是数字这个是随便说的会几十道题然后还是 reward 的模拟选出好的答案剔掉差的答案把更多好的答案重新回馈给模型好

然后再进行第三轮一次类推第四轮第五轮第六轮这时候我们是从如果粗看的话我们会看到模型每一轮生成的它的思考中间这个 token 数思考中间流程会变得越来越长这论文里也有非常好的表述这个基本上是线性变长模型说的话越来越多它也就是说意味着它思考的越来越多同时我们看到随着步数的增加整体的证券率在提升

但是有意思的是我们看这个模型会发现这个提升它不是线性增长的模型在前 4 千步的时候它的正确率提升的斜率基本上是一条斜线斜线直接向上

效果变得很好但从 4000 到 6000 步的时候开始它的血率衰减了从一个非常快的增长变成了一个相对缓慢的增长而到 6000 步之后模型的正确率甚至下降了一下到 7000 步左右的时候甚至在下降然后应该是在 7500 步之后模型的效的准确率又开始上扬那是形成这样的一条曲线

那这个中间当然可能 DeepSick 因为前面做了大量的前置工作做了很多的探索所以它的这个曲线非常漂亮那很多巧合学习的研究可能是我在 1000 步的时候我的效果提升就衰减了到 2000 步的时候就平了甚至下了掉头向下那这时候可能大家就不愿意再去花资源去做后面四五千步了

那是不是可以说他们其实是为了想要测试跟证明这个方向这个选择想要去看他能够得到什么样子的结果其实是非常的坚持对是一定是大家首先就是我觉得咱们一会插入一下关于 GRPO 的那个 reward model 其实就是当你们看当我们看这篇论文当我们觉得真的想清楚之后会发现整个 R1 的训练的思路是如此自然的时候

你一定会对它有信心你会相信这个东西一定可以成然后再加上 DeepSick 有很好的低成本训练以及有一个很好的老板我觉得大家会形成一个共同的决策那咱们来吧咱们把它拉到一个别人都没想象到的次数我们看看它到底怎么样

所以这个是成功的对所以这我想再说一下就是它的 GRPO 就是如何 reward 整个 R1 大部分的技术都来源于一些武术的想法那我们通过直觉其实就可以大面上判断说他们是 OK 的而 GRPO 是其中最为复杂的一项思路那么回到原先整个强化学习的过程我们可以简化来看就是先让系统去尝试回答

比如说 100 道题然后将其中正确的 10 道题拿回来重新去翻听模型那到下一次再训练的时候这 100 道题呢就可能有 20 道题是正确的那此时我们要不要将这 20 道题全部送给模型进行翻评呢这会存在一个问题就是这 20 道正确的题中可能有相当一部分的内容是与前面的 10 道题重复的

那么从两年前我们训练大模型的 pre-train 阶段的时候其实我们就会发现数据虽然重要但最好别重复重复使用数据来训练模型很容易造成模型的过度拟合从形象角度来说当模型在这个强化学习的过程中持续训练的时候我们更希望它多去关心那些新摸索出来的套路

而不是一遍一遍的去重复和背诵之前已经学会的技能所以 GRPO 的工作就是尝试去量化哪些新训练出来的套路更新更好

那 R1 的做法是这样的首先对于每一道题系统会让它做多个回答那这里是选了 8 个然后对这 8 个答案呢 14 评分那答对了给 1 分答错了给 0 分然后将这 8 个分呢转换成一个称之为 Z 分数的统计学数据那这个分数呢在统计学上我们是经常被使用的

它的作用是什么呢它的作用是做更好的区分度比如说这八个答案中如果绝大多数的答案都是做对的那么我们就认为模型对这个题型基本上已经学得很好了于是它的自分数就会比较低

相反如果八个答案中只有少数几个答对那么我们就认为模型学到了新的套路这少数几个答对的地方它们的 Z 分数就会非常高那恰好的是从数学角度来说 Z 分数刚好是一个落到 0 和 1 之间的小数所以它可以被直接看作是一个采样的概率

有了这样的一个分数和采用概率之后呢我们就可以将那些新学习的套路以更大的概率让模型去翻听而那些已经学会的已经掌握的旧知识呢以更低的概率交给模型去复习多关注于新知少关注于旧时这样如此网布模型就会不断的优中选优从而实现整个过程

当然,GRPO 除了在这方面思考上的优势之外,它也同样由于是我们只激励结果而不关注中间阶段,它与传统的像 PPO、DPO 等等强化结构算法相比,它在计算量、在内存的消耗量等等方面也有很大的优势,综合起来就形成了 R1 使用的这一项非常优秀的算法。

我看到那个 Lex Freeman 那个播客里面详细的解释了 DeepSig 在底层优化上做了一些事情甚至他把这个列到了就是他认为这个低成本的训练成功的关键他提了三点就是第一个就前面其实你就提了就是 MOE 这个混合专家 MLA 和因为芯片限制他不得不通过底层优化来提高效率

Venia 本身有的这个 NCCL 的这个库的这个他们没有这个东西的前提下做了很多创新这个你了解吗就是比如说他们做的是哪些创新呀

具体他们做了什么事其实论文里都写的很清楚其实就是通过一些底层的库大的优化以及他训练过程中就是不同计算和通信之间这个编排优化呢来保证他这套系统有足够的这个带宽带宽够他通信不会卡住但是

通读他这个论文下来呢我觉得 DeepSeek 手里的卡就是 H800 他既没有 H100 也没有 H20 这为什么呢就是 H800 跟 H100 主要差的就是那个 NVLink 带宽卡了半了所以就逼着他他必须得做这个优化他不做不行但另一方面 H20 他的那个通信能力和算力跟 H800 差距又特别大

按它现在那个优化方式在 H20 上跑可能不是那效果我觉得它就是 H800 但这个

现在他不说也没人知道就觉得还挺让人启发的卡住他的地方他把这个地方变成了他的创新对是但如果有 H100 的话他效果会更好我觉得这肯定的他如果 H800 确实条件是真的是太有限了 Lex 他把这三点列成最重要的你同意这个观点吗基本同意我觉得还有一点就是 RP8

但那个低精度我觉得这个是很重要的东西这些其实是其主要作用的美国人在分析技术方面基本上都是靠谱的这个说的都对但是就是观点上面这个咱们就仅供参考了我们第六个问题紧接着就是 DeepSick 的 V3 为什么可以只花 550 万美元呢而且前不久还有另一个新闻就是 LIFI 的团队用 50 美元也迅出了

据说可以媲美 DeepSick R1 和 OpenAI O1 的 AI 推理模型这又是怎么回事可不可以请李老师来分享一下咱们还是这是两个问题一个是 V3 的 550 万一个是李飞飞我觉得咱们先从李飞飞说起就是这 50 美元迅速 R1 的这确实有点标的档但是这边论文同样它非常重要要

因为它的重要性其实咱们还是要回到 R1R1 这篇论文实在是过于精彩以至于它把最后的甜点都变成了主菜刚才你还说到 R1 其实最终续了三个模型咱们前面说了两个一个是 R1-0 一个是 R1 还有第三组是什么实际上 DeepSick 尝试在回答这么一个问题

它的 R1 和 R1-0 分别都是在它的 DeepSeek V3 这个超大的模型底座上完成的就是一个 670EB 虽然是 M1E 也是一个非常大的模型上进行的训练在这个非常大的模型上训练我们证实了通过强化学习的方式和通过蒸馏的方式都能让它获得非常棒的多步骤推理能力

那么问题自然就来了我在一个没有这么大我在一个小模型上使用强化学习和使用蒸馏的方式能让它具备很好的多步轴思考能力吗 DeepSeq 做了实验它的方法就是将前面咱们说的从中间模型蒸馏出来的

80 万条非常珍贵的数据用这个数据去 funting 千问和 Lama 这两个相对小的模型他用的我看的论文应该是美基索尔的 7B 30B 用它去 funting 这三样是蒸馏用数据去蒸馏答案是 OK

在小模型上用珍贵的蒸馏数据我也可以让他具备非常棒的 Math 能力他论文里也有相应的 benchmark 成绩非常好但是论文里也告诉你如果我在小模型里面直接使用强化学习使用 R1-0 的这套思路行吗不太行

论文认为是因为小模型具备的知识还是太少了其实就像你要想自己修炼的话还是最好多有点知识完全没有的话就容易走火入魔

这块可以说这绝不是一个甜点而这是一个主菜因为这意味着你拿一个 30 币的小模型甚至 7 币的小模型都能有类似于欧万的多步骤推理能力演示这个思路咱们可以继续再想我用了小模型 80 万条数据 funtune 那 8 万条行不行

我 Fantium 也想少一点 Fantium 少一点的话对于英勇获得自己的能力也是有好处的 8 万条行不行 8 千条行不行这块就走到了李飞飞的 S1 这篇论文了在这里他最终给我们的答案是如果你想 Math 数学效果好的话 1000 条就可以那他怎么来的呢他是先从

Google 的 Gemini 2.0 Flash Thinking 也是一个非常棒非常棒的推理模型这个客观说它这个模型的效果不比 R 半差从这里蒸馏出了 59000 条高质量的回答问题然后李飞飞对这些问题他说进行精选因为他的目标就是看到底我用我可以把蒸馏数据压缩到多小让模型学会能力他中间用了三个

原则吧就是这题要够难然后题呢别重复然后覆盖面足够广最终得到了 1000 条这个论文里非常清楚的告诉你这 1000 条大概是什么就包括各种各样的数学从从相对简单的现代数为低分到比较复杂的十倍按数这个微生方程然后还有很多量子物理啊等等反正都是理科题 1000 条仅仅用它然后拿它去 fantum 千分

我可以得到匹美于 R1 的 Math 性能所以李明飞这里就告诉你如果你就是想在一个小在一个普通的模型上得到快速得到 R1 使用蒸馏的话你只需要 1000 条数据而这 1000 条数据论文里写 Fantune 只需要 16 张 H100 训练 26 分钟算下来就是 50 美元当然

50 美元这是一个非常极限的测试所以我说 50 美元比较标题的实际的话肯定会比这个多但是这也意味着如果你仅仅就是想获得垂直能力的话你的成本可以非常低

后训练的成本是非常低的咱们这再关联上 V3V3 的论文中不仅告诉你了预训练 550 万应该是 260 万 GPU hour 咱们就按 GPU 小时来说因为单价它各地不一样 260 万 GPU hour 就可以预训练出 V3 同时它告诉你它的后训练所用的算力连预训练的零头都不到

所以有时候我比较讨厌就是现在网上很多人说这个这个预训练 scaling 落结束之后后面就是后训练的 scaling 落然后算力继续无限崩上后训练确实有 scale 但是他的 scale 规模跟预训练是不能比的会差好几个数量级

然后至于 V3 的 550 万美元这个 260 万 GPU hour 如何做到那就要再回归到它的 V2 可以说就是过去很长一段时间后级爆发而来里面最重要的就是如何节省模型参数的技术技巧是在

V2 完成的就是 MOE 到 V3 做了进一步的优化那如何降低在每一次计算过程中算 attention 消耗的算力这个也是 V2 完成的就是它的 MRAattention 这个 V3 继承了得到了优化那 V3 做的是使用 FB8 训练其实这个我觉得真的美国人其实早就应该做这个因为 FB8 是

H100 卡最重要的一个卖点,美国人手里有这么多 H100,他们不去试这个东西呢,确实我觉得也是有点资源诅咒的味道了。那做它呢,其实不是什么神奇的东西,就是大量做实验,我要摸索出在整个正向和反向传播过程中,哪些是可以手 FB8 的,那这块又贡献了一部分,其实这三个加在一起贡献了绝大多数的力量,

把它们都放在一起 260 万 GPU 基本上可以完成一个训练我觉得李老师讲的太好了在没有这个视频和没有 PPT 的情况下能够把事讲的那么清楚真的挺不容易的这两天的我看了好久

确实写的非常好对对对我其实还挺想问这个问题的就是你刚才其实提了好几遍然后 HeadCloud 的那个分享里面其实他也重复了好几遍这个话就是说这个论文写的太精彩了我今天还问 ChatGPT 一般业内是怎么来衡量一个论文写的特别精彩他给了我一些维度其实我想问问你的主观判断就是你会从哪些角度觉得这个论文写的太精彩了

其实这个就是通俗来说就是干货足够多这篇论文它的干货实在是太多了就坦白说啊坦白说虽然我一直非常关注 AI 但是过去两年其实我越来越不愿意读论文是因为大部分论文给出的内容有效内容实在是不太多那这篇论文可以说它这一篇论文的就是它的硬内容的含量可能

相当于一般论文的 10 篇甚至不止就比如说像 R1 那种三个模型的事情完全可以写成三篇论文然后至于 DeepSeek V3 的那里边它如此巨多的各种各样的优化技巧虽然很多优化技巧咱们坦率说应该是 DeepSeek 还没有做的足够完善这些技巧都效果不大的比较性可能后面的 V4 V5 会逐渐做出来但是这么多

这么多事情的话如果普通来发动很可能发他五篇六篇论文也都是可以的所以确实他的内容含量实在是太薄了而且我觉得他这个方式其实也很符合开源这个世界的沟通方式就是他发一篇论文然后大家会通过社区的人会通过论文去解读其实等于帮他做了非常非常多次的二次传播是的是的是的这才是社区精神嗯

那我们就进到我们的整个第二大部分就是如何来正确看待 DeepSeek 所带来的一系列影响那也是我们的第七个问题 DeepSeek 显然是带来了我们非常强的民族的情绪尤其还要考虑到 DeepSeek 这个背后他的团队里面的每一个人都是在国内的工科高校的体系里面所培养出来的甚至前两天我听到一个投资大佬他在一个私下的聚会上

非常激动的说这认为是中国的国运如果没有国运我们很可能就进到通缩了那这个 DeepSeek 的发布甚至这个避免了中国进到类似日本的失落 30 年的这么一个境地那李老师你会怎么看待 DeepSeek 对于中国的科技行业乃至整个中国商业世界的影响这个太宏大的问题这个我确实回答不了就从我的感受来说我觉得

有一点是非常明确的就是 DeepSeek 证明了我们中国的无论说是研究人员还是我们的软件这个 AI 的这个从业人员我们掌握的知识我们的掌握能力一点不比美国差我们用完全的全部的知识然后我们可以在

几乎是完全独立的情况下做出最先进的东西这个是非常好的那至于说它对于更大层面的影响我觉得我不知道但我相信大家一定会因此而感到兴奋的然后当然还是我觉得还是还要有一点我觉得最近有一些确实我看到了很多网上的传播我觉得有一点

不太好的地方就是不要因此就觉得我们一下子完全超越美国了梁文峰在他的采访中我前面说他有两个观点非常喜欢其中第一个是前面说过第二个我觉得还是就是在他看来中国和美国的差距到底在哪

中国和美国的差距可能比如说在 AI 这个领域我们可能只能差只差一年甚至半年但与其说这是时间上的差别不如说更稳扎是原创和跟随的差别我们必须说不得不承认也必须承认或者说应该承认 AI 几乎所有的原创性的想法和 idea 依然来自于美国强化学习是谁最早

在产业中真正使用的是 DQI 对 GBT 这种 scaling 的方式增加模型参数来提升能力的方式最早从哪来的 OpenAI 都是来自于美国对所以如果我们这个阶段不能够去转换从一个跟随者变成一个原创者的话那我们与美国的差距可能永远会留在一年两年

我们可以跟随他很近我们可以学会但是我们不能超越他我有点感触感觉就是 Deep Seek 现在 Deep Seek 更像是 Illya 时代的 OpenAI 而不是 Sam 时代的 OpenAI 现在的 OpenAI 我觉得他太过于

路径依赖于它对的当然它完全的 close 就是一是它太过于沉迷于 scaling 就增加算力另外就是产品化纠缠了它太多太多的经历其实大家对我们应该最大的期望还是把 GPT-5 做出来去超越原先的东西去做这些事情才是大家希望看到的那我们正好就问到第八个问题就是为什么梁文峰能够带队 DeepSeek 做出来这样的成绩而其他国内的大厂

我们就不点名了反正也就那么几个吧大家都知道是谁为什么他们做不出来呢主观想法我觉得很多时候还是 kpi 压力太大 kpi 的压力设置可能不太合理吧因为

应该是说, 莲文芬他们团队是没有 KPI 的,就是大家还是更多的秉承着纯粹的 researcher 的态度,我们不一开始假设某一条路一定正确,我们就是大家一起讨论看看哪条路 OK,OK 的我们就投资了去做。

做不成那便做不成吧效果差可能我们再坚持坚持如果实在看出来效果差可能换一条路线等等我觉得这个是这是一个正常的进行科学探索的道路嘛对吧我们之前从小我们就我们就学爱迪生如何发明灯泡试了那么多次那

那你不失败哪来的成功呢但是恐怕在大厂工作它不是这样大厂虽然资源多得多而且大厂的人才肯定也多得多数据也多得多但是压力也大

很多时候如果你这一版模型不能把效果提升个 3%、5%可能就保不住工作了这个确实会影响大家做事的方法可能不太愿意去尝试那些目前看起来不行的东西更愿意就是消归草水前人这么做了然后我在他的基础上扩大规模再去做这样的话是

能够活下去的保证我这就是主观一点人也那其实这里又到了第九个问题就是看上去 DeepSick 的胜利是工科生的胜利是技术的胜利那问题来了 AI 时代的产品经理们要怎么办呢我觉得产品经理对于 AI 太重要了太重要是灵魂这真的是这个是灵魂做就是说这个之前我觉得就咱们也别

都说好咱们也再说点不好咱们也泼个冷水就是说实话现在的 AI 的模型的发展与 AI 应用真正的诉求是不一致的那 R1 确实非常棒 O1 O3 都非常棒但是应用需要的不是这样应用需要的是稳定可复现的能力而不是稳定可复现企业

英伦需要的是稳定可复现且可 scale 横向扩展不同领域的能力而不是在某一个 mass 这个纯粹的领域上做得很好但是又不能百分百正确这个是跟英伦的需求不一样的那比如说我们其实前面说到就是大家一个共识那除了说

Pretrain 的壮强,Post-train 的希望还有一个第三共识就是应用并不会选择最强大的模型现在应用的普遍做法是用小模型甚至非常小的模型不再追求模型有很强的推理思考等等能力把这些所有的问题交给其他交给比如说产业经理写的 Premt Engineer

交给我的 RAG 系统交给我的一个外部程序来进行换来将逻辑留给传统的地方然后只让 AI 去承担类似于传统 NLP 的工作这个是现在应用的实际用法因为从应用的反馈来看现在的模型确实达不到大家想要的质量所以我们只能退而求其次把它最好的那部分东西能用的那部分东西拿过来

但于是乎咱们这里说了那么远那产品经理的作用是什么那简直无比太重要产品经理要去定义产品中的边界要去明确哪些那些 AI 真的在现实中完成不了的事情该如何做就像我觉得咱们上次在聊的时候我就举过这样一个例子就比如说我让 AI 去定机票你无法想象两年过去了这样的产品还是没做出来为什么

哪怕有了欧万其实欧万美国人用上六个月了也没做出来也没变得更好为什么就是因为实际在做的时候他定票的不是一锤子买卖你是不能一开始就提前跟 AI 说清楚你到底要什么票的不可能跟他说你给我定一张明天北京到北京到上海

几点钟哪个航空公司的经济舱还是什么公务舱还是你要不要升舱等等我是不可能提前说出来的我一定是中间需要不断的看需要不断的想跟我的行程做对比中间有很复杂的流程那这个流程是 AI 不可能一步提升的中间如何来提升整体效率一定是产品经历所以可以说产品经历才是真正 AI 走向应用的灵魂它是决定了这里面的工作

我们完全在这个层面上没有替代到人我们可以看这样的一个例子现在比如说 RAGRAG 的大量的应用是做企业内网搜索做过 RAG 的同学其实都能想到最好的实践是什么呢是

RAG 的语料的内容是只通过你的搜索系统内部内网检索系统查出来的而你要用 RAG 里面的知识而不是让用模型自己的知识用模型自己的知识会幻觉

但是你要用模型的语言的能力完成 LM 的理解总结等等的事情这应该是一个 RAG 提供知识 LM 提供能力这样的一个好的组合但现状是真正用起来的发现它们两个边界是不能精确控制的

那经常出现的情况就是模型输入结果偶合了 RAG 的知识和模型自己的知识甚至模型自己的知识用的更多这就出现了幻觉而反过来有时候经常会出现虽然完全利用了 RAG 的知识但是 RAG 的数据又反向压制了 LM 自身的能力这些情况经常出现但是

想要改变挺难的因为你不能重新训练一个模型这就只能在你的 RAG 系统之外再加额外的方式去做所以从这个角度来说呢就是大模型用起来它也有这个问题而大模型你也不能去改它然后你的翻听成本又更高那不如用一个小模型把更多的活逻辑的工作这些稳定性的工作留给 RAG 这个很清晰嗯

好那我们进到第三部分就是 DeepSeek 发布之后对于 2C 2B 以及 2D 就 2Developer 的各种各样的影响那第十个问题呢就是 DeepSeek 的发布尤其是 R1 李老师你会认为它对 2C 的各种各样的产品带来了哪些影响我觉得它对于 2C 其实它对于整个产业都是有非常大的影响因为成本实实在在的被降低了一个数量级

那今天当然我们的 AI 应用呢很多时候并不是卡在成本上而是卡在能力上如果这部分成本降低的话我是可以将更多的

预算留下来去引入人工的那这时候我让产品经理在偏人工这部分去做更多的这种规划和设计那这样 2C 的产品可能会做得更好这是其一其二就是原先那些确实已经用 AI 的地方但是因为成本比如说基础的 NLP 理解比如说基础的规划等等这些东西都可以用起来

这块可能会带来一个阶段性的一个高潮让大家都去尝试那对 2C 的这些产品的影响呢就是比如说大家会认为现在好像模型就变成了产品它会淹没掉很多的产品这个你有这样的感受吗我不认为这是这样我就是不认为是这样在我看来就是

因为观察到就是实际上无论是 OpenAI 的 APP 还是像其他的 Gemini 或者是国内的一些 APP 它如果你看现在的数据分析的话会发现他们的用户时长都不是特别长包括我们从自己使用其实每天使用的次数都不是特别多其实这很大程度反映到是我们现在还没有准确的抓到大家的需求痛点上

可能确实是因为这个行业它技术发展的太快了还缺乏足够优秀的产品经历过来去定义什么样的东西用 AI 解决的最好以至于当这个大家的需求没有被正确的定义定位满足的时候呢大家只能去场线去看谁家的技术更好一些

所以才带来这样的影响我觉得后面整个当整个市场进入到一个更加晚辈的运转的时候有更多产品经理进来去界定的话就不会是这样除非 AGI 对我也是这么认为的好那我们第 11 个问题就是 DeepSick 的发布对于 2B 那 2B 又分为 True Enterprise 和 True Government 你会认为带来哪些对于 2B 和 2G 这两个方向我觉得影响这个可能是

很深远的就是你们观察到就是在 DeepSeek 上线之后非常短的时间 Avro 就开始支持使用 DeepSeek 了然后 AWS 很快也跟进对今天几乎所有的一线云都跟进了允许你使用 DeepSeek 作为你的推理模型那其实这会产生这样的一个问题我们在之前开源中就观察到如果一项技术

它的上限提升不再快速前进的时候那这时候对于各家商业公司来说它的生存危机就消除了因为不会再出现如果我没有立即跟进最先进的模型 6 个月之后别人出来的模型巨幅改善了效果直接革了我的名这种情况就不会出现那在这种情况下各家可能就会将它的模型研究重点

从就被竞赛卷谁能够做出一个 GPT-4 级别的模型变成更加理性我让我的研究团队转向于类似于 DeepSeek 的这种方式去探索超越 Transformer 的下一代模型这部分什么时候能做出来不着急而与此同时在产品方面直接使用开源的 DeepSeek 大家都具有同样的产品我们几乎所有的主要的

中国的互联网公司包括美国的互联网公司都大量使用开源人件大家都使用 Linux 大家都使用 MySQL 大家都使用 Reallys 开源人件使用量非常巨大无非是就是大家发现当开源真的已经是业界最好的时候不再有生存危机的时候没有道理不用所以可能整个 2B 都会产生影响尤其是中国这块我觉得会有深远影响当然美国这块呢

我觉得美国可能也会有自己的 deep seek 因为毕竟由于像 Athropica 等等由于现在美国的这个政治环境它可能对于中国还是有敌视的他们很可能不愿意看到一个来自中国的产品在美国也做大生态可能他们自己会做一个类似的东西出来吧但我觉得就是如果大模型上线不再提升的话可能将来 2B 方向大家用的都是开源模型

好那我们的第 12 个问题就是对 2D 因为 2D 也是这个大圆模型一个非常重要的方向 AI coding 那 2 developer 刘老师你会认为 Deep seek 它有带去什么样的影响吗因为我看到其实 Cursor 他们有官方出来发言说其实这个目前不管是他们自己的评测还是用户的反馈人家认为 Cloud 3.5 Sonnet 在写代码上还是一致独秀的

对,是的,我觉得对于 developer 来说可能是影响最小的因为刚好 developer 的这个方向是 Cloud,是 O3,是 R1 他们都在最擅长的方向而这个方向后面还在快速的发展所以谁能够领先呢?

不确定,可能中间之后还会用他们之间的 base 还会大量的变动而这些模型能力的好坏直接决定了就是像类似于 Cursor 这样的 to developer 的软件会使用什么样的模型但我觉得没关系

就是这样的竞争才会诞生出新的技术那也许我们确实这个阶段性的又落后于美国了那又如何呢再过一段时间我们有很好的研究我们还会超过它可能最多受益的就是开发者每个人手里都会有一个很好的 AI chatbot 帮助他去做一些写 code 写测试写文档等等这些事情

确实很精彩我其实刚才突然想再回忆就在我人生前面三十几年有什么时候有如此感觉到科技的进步就是在你的眼皮底下发生的就之前好像并没有如此强烈的感受但这个就好像第一次用 iPhone 的时候

对但是第一次用 iPhone 之后并没有出现你追我感比如说今天用了 iPhone 过了三个月发了一个微凤没有所以这个感受还蛮奇特的可能也是人生仅此一次吧我们第 13 个问题是想看一看 DeepSick 的发布对于 AI 应用的影响因为其实在 DeepSick 发之前我不知道大家是不是还记得因为现在新闻实在是太多但十字路口在那个时候是做了两期内容其实是很激动的就 Devin 的发布

会意味着它标志着 2025 年甚至是这个 AI agent 落地的一个元年但现在 DeepSeek 这么一发布会对整个应用领域又带来哪些影响呢这个李老师其实前面也提到了一些看看在这里有没有一些这个额外的补充对于应用来说我觉得其实它相当于 2B 的一个延展吧就是嗯

一个就是英伦我使用什么样的技术站这件事情我觉得就是 2B 的问题可能大家都会转向开阅模型这个情况我觉得是很有可能会发生的那另外一个就是英伦本身会不会因为 R1 的发布而大幅前进呢我对这个事情是比较 question 的

因为站在应用角度上还是那个大问题就是应用需要的能力是确实是现在的 LM 不具备的其实我们看到就是欧安出来几个月大家也没有哪个 APP 说因此我的我原先解决不了的问题就解决了然后我们会看到越来越多的应用

在尝试过所有模型之后觉得我可以不需要不必使用 GPT-4 这种超强的模型甚至我不必使用 Cloud 这种非常强大的模型我在美国看到一个特别有意思的事情就是当你去问到很多人你问到就是 Google 的 Gimini 那个 APP

怎么样的时候大部分人想说不太好这些模型有点笨没有差距也好但是如果你问他 Gemini 的 API 怎么样的时候大家都说好因为 Gemini 的 APIGemini Flash 确实又便宜又快又好

从性价比来说,Gibbonite 2.0 Flash 甚至比 DeepSeek 更高,这个我们可以看大家的实际定价,尤其是 Google 有 TPU 的支持之后,它的成本是非常低的。所以对于优荣而言,我们早就走向了一个可能跟今天 LM 研发方向不太一样的道路,

英勇大家都在用小模型都在玩 RAG 都在玩 Prompt Engine Neuron 跟这个不太一样所以我觉得从英勇前端这部分角度来说可能变化不会太多这个 Gemini Flash 它其实也是一个推理模型但是它几乎没有什么名气好像

对是的这可能是 Google 在 PR 方面这次做的不太好吧效果实际上是很好它的 Gmini 2.0 Flash 的效果也是搜查级的

就是他跟原先的那些 GP4 等等也是同等级别的但是它的成本非常非常的低廉然后同时还有一个 GMI2.0Flash Thinking 是一个带推理的思考的模型也是像我玩这李飞飞的论文就是从他里面去整理我的数据能力也很强只不过在 benchmark 上现在打榜可能

还差一点而 Google 最近也发还发了别的模型还发了它的 Flashlight 模型就进一步降成本我觉得 Google 在这方面看得很清楚因为 Google 实际上是全球最大的应用玩家最大的 AI 应用就是搜索他这边看得很清楚将 AI 的成本降低绝对是推进已有应用更大规模上 AI 的一个重要重要手段所以他一直在讲这个东西

但确实这个 Google 可能也是大公司并缠身吧他最近这个 PR 方面做的确实不太好对我觉得产品也做的很差啊就是这个 Gimli 2.0 Flash Thinking 它是藏在那个 Google AI Studio 里面而那个 Google AI Studio 那个那个界面真的不是给普通用户用的我一开始他发的时候我也用了好几次确实非常 Impressive

但是后面就这个入口太深每次使用还要再重新去想一想我要怎么点怎么点所以好几次之后我也懒得用了确实这个有点可惜好那我们到第 14 个问题啊就是 DeepSick 这一波出来之后非常快的在好几十个国家的 App Store 都上榜到榜一大哥的位置而且同时也是历史上吧好像是最快从 0 到 3000 万到 4000 万日活的这么一个用一个这个应用

但是呢另一方面我们也看到 DeepSync 它内部卡本来也不太够那应用的这个大规模流行其实影响了它的

据说影响他们的训练所以他们其实也迟迟的并没有把这个就是对应用稳定的维护好像放在第一优先级貌似他们仍然是想把这个更多的卡拿去做训练而不是拿去服务 C 端的用户那李老师你会怎么想就是 Chatbot 对 DeepSeek 重要吗他们之后你预测会如何去进一步的做他们的 Chatbot 还是这个会慢慢的觉得也不重要就不做了

这个问题会不会重重重要这个问题我回答不了这可能只有梁文峰自己来决定但我就说从我的情感角度来说我不希望他做 channel road

因为一旦做 chatbot 的话就会有大量的产品化的工作因为大量实际用户我们在真正用的时候不会天天的去问复杂的应用题不会问你多步骤思考一定考不好我们的考量点不是这样的产品化会关注更多日用性的问题而这些问题的话会做很多额外的工作以及如果你放了产品的话你会关心更多的产品的质量你的可维护性等等这些东西都会牵扯大量

的经历就像今天 OpenAI 遇到的问题一样所以从情感角度来说我觉得中国不需要 another app 中国需要一个 OpenAI 所以我希望他别做这些东西就是简单做一做让大家体验一下就可以了别把精力放在这还是继续做我们的原创技术我觉得这个是让大家最兴奋的地方

其实我们年底就大概去年 12 月吧有一期内容是和晚点的曼琪来复盘大模型这一年然后这里面呢其实有盘点各个国内的模型厂商其实当时也提到了 DeepSeek 然后在提到 DeepSeek 的时候我记得当时有一个印象非常深刻的故事就是梁文峰在一次对外的表达里面提到 DeepSeek 不在乎商业化

而且是不做商业化因为他认为任何对商业化上的尝试都会影响都会稀释都会分散掉他们在科研上的注意力和投入所以其实刚才李老师你讲的这个愿望和他不做商业化有点一脉相承就是不要做商业化甚至 2C 上面都不要做就好好做科研吧在这里可能才是最能搞出 ROI 最高的回报的地方是的是的好我们到第四部分我们来聊一聊未来

第四部分的问题当中的第一个也是我们整体的第 15 个问题就是在未来算力还重要吗这个其实是牵动着万千股民的心因为很多人都买了英伟达因为如果这个算力不重要那意味着巨头们的持续在芯片上在算力上的投资也会下降这个李老师你怎么看这个我坚持我一直以来的暴露我就我觉得

算力不要去再投资算力了就是投资算力其实还是规格到底还是去坚持 pre-trained scaling law 但这件事情我明显看出它的上限到哪然后到了其实降成本的方式有很多只是很多说大家没用啊这个既然出来了大家都会关注去降成本以及说推理这块

推理的实际运用也是大家在用更多更多的小模型所以我觉得阶段性的而言对于算力的需求一定会下降特别是如果我们吃前面那个预测就是当模型能力不带上升 2B 都开始选择走开源模型的情况下大厂不再做具备竞赛的情况下那么也就没有什么再消耗的训练算力了

而推理可能阶段性的还会下降因为大家都会用小模型直到说我们的 AI 应用迈过了产品化的门槛之后再去上升所以中间阶段性来说我觉得现在没有必要再去卷算力了应该大家把精力还是放过来去卷算法去卷那些超越 transformer 的知识我们让模型学了 1 万亿的

几万亿的 token 他还没选明为什么 3 加 5 等于 8 这是不对的

有趣那如果要是这个暴露是认为算力不重要了不要再搞芯片了不要再投资买芯片了那第 16 个问题就是你认为在未来数据还重要吗拥有独家数据的公司这还能不能构成他们的壁垒数据比算数据比算力更现实这个还是很重要的尤其是垂直方向这个还是很重要其实我们是

之前的各种各样的应用不论是搜索还是推荐还是短视频等等都证明拥有数据拥有数据的分布对于提升质量的价值有多么重大因为归根到底今天的无论是 AI 还是大数据等等这些都是统计模型所以数据越多统计的效果也就越准所以这个还是很重要的但是

不要迈过一个太高的门槛就不是说当我已经积累了几万亿 token 然后训练模型然后还继续堆数据其实那个我觉得就没有必要了但是基础性的这种数据还是一个非常重要的壁垒而垂直应用方面的数据或者说垂直数据就是垂直知识行业认知这个永远是壁垒

我们来到第 17 个问题我们来大胆的预测一下 DeepSick 的下一步或者说我们正在录播客的此时此刻梁文峰和 DeepSick 的团队他们在想着下一步要做什么他们的 To-Do list 里面包括些什么李老师你有一些大胆的预测吗我觉得如果是我的话

我会沿着 V3 现在和 R1 微镜的事业继续去做这一个事情是我们要继续探索一下 R1 zero 这条路它的上限在哪里就这个值得说我们已经走了 8000 步了那再往后走会怎么样嗯

我觉得大概率走到一万步两万步可能效果都是都都会提升但是走到什么多少步骤的时候这个编辑效应是递减这个值得去探索以及另外一个很重要的问题就是能不能通过纯强化学习的问题真的就直接解决了模型不说人话和语言混合的问题毕竟他

征流一轮这不是一个特别优雅的方式做技术我们还是要追求一些优雅性我觉得这些都值得去做以及说它的 V3 里其实

开了很多很多新的探索比如它那个 MTPMulti Token 还有它的这个新的路由算法这些路由算法在 V3 里收益都不明显它做了明确的实验是这个论文数据里都有那这些东西也是都是很 permissing 的我们完全可以有资源的话到 V4 V5 去继续做实验这个我觉得他们会去做然后我觉得还有一点其实他在论文中也写了后面去探索超越 Transformer 的

其他的新的火星就这一点是我最希望他去

做的前两天的困还在谈还在去讲就是未来如果你真的想实现 AGI 那一定不是自会规模型一定要去尝试通过概念通过这个世界知识等等方式去做我还是希望能看到我们的这些研究部门去尝试真的从大的 idea 方面去超越 open AI 去超越 deep mind 去去想一想

完全迈向 AGI 应该怎么做我觉得李老师还是对 DeepSeek 寄予厚望我觉得和大家都一样感觉如果我们真的要期待更多奇迹的话感觉 DeepSeek 确实是很有可能能够不断的带给我们这种信念感和力量感好那这个时候就第 18 个问题了除了 DeepSeek 我们还是有非常多其他牛逼的公司和主要的玩家的也想请李老师来帮我们

大胆的预测一下接下来字节腾讯阿里他们分别会做什么我觉得作为商业公司来说的话就是如果没有切身的这个生命危险就不

如果短期观察不到这个某项技术会快速发展直接颠覆自己的话那么他们的测尤其同时又观察到这项技术成本可以大幅降低又开源的时候他们的策略一定会做一些 review 做一些调整吧就是可能没必要在这个

原先那条路上继续巨额投入去烧了不如说我们也在这个开源的基础上去改去做一些更多的改进

以及说我们也去做 research 其实我觉得就是用开源做改进再加上一部分针对于自己的地方研发然后再加上一个面向未来的探索其实这个才是大厂工作的常态过去十年来这个大厂工作常态是这样的而不是说我就一定在某一项还没有

定论的技术上疯狂投入这个不正常可能他们一段时间之后都会有所调整我觉得我们第 19 个问题我们再来聊一聊美国就是美国不管是 MetaGoogle 微软亚马逊还是 OpenAI 和 Anthropic 他们下一步要做什么这个老师你会有一些信息或者有一些预测吗美国这边我觉得

美国人肯定是被吓着了这这这些是肯定的但是呢就是不同的人他下着的地方不一样吧就是如果说研究者们其实咱们客观说就是一流的 researcher 其实大家都知道前进的方向大概是什么样子的

所以在这个方面的话我觉得美国目前来说仍然会是这个原创者所以很有可能下一个小突破吧或者是或者是大幅还是有更高的概率会出现在美国大家会做另外方面的事情这个

这个就是客房看待法还是需要时间追赶的然后另外就是美国那些大公司其实也一样了就是我了解像 Meta 也在 review 自己对 Lama 的巨额投入是否是一个正确的方式

想来他们应该也会跟中国这些商业公司是一样的会去做然后我觉得美国很有可能我这不就我大的猜测美国很可能也会有一个跟 DeepSeek 对标的一个开源产品吧满足美国人自己的这个自我安全感吧

但与此同时呢对于其他的就更多这个在业界之外的人来说这个这简直太可怕了本来他们觉得世界独一无二的技术结果不光技术上被中国破解了成本上也被中国大幅压低了他们应该恐怕恐怕会做出很多行为吧但又如何呢又如何呢对不对今天我们

必须得承认今天中美就是全球唯二掌握最先进科技的国家只有这两边我们学院科技我们互联网有云计算有人工智能有新能源有自动化机器人这些中国已经有了你拦是拦不住的所以与其花那个时间去搞经贸论不如自己多努力

我看到几个分析在说这个目前看到可能受影响比较大的就是可能是偏向负面影响的就是主要是 anthropic 跟 google 和 Ovi 可能压力比较最大的可能还是 Lama 吧就毕竟以前是这个开源第一现在可能这个地位不保吧我看就是很多人都在讨论这个模型商品化然后模型商品化跟推理成本的降低给各个厂商接下来带来的比较大的影响这个我觉得

模型商品化这个东西是对的但说这个一定是 deep seek 导致的我觉得

也未必这只能说是大众终于感受到这一点了其实即使没有 DeepSeek 模型的低成本化商品化一直在进行过去一年一直在进行我们会观到模型大家日用的模型从一开始千亿模型迅速降到百亿模型降到甚至几币几十币这个下降的趋势还在继续我们要推进应用一定是要降低成本这个是不可改变的

OK 那第二十个问题就是看对 DeepSick 的一些分析的时候有

这个想到之前这个 Peter Thiel 他曾经讲过就是说他觉得一个真正的创新是要在许多不同层面的创新必须同时发生然后并且是以高度的协同的方式组合在一起如果李老师总结一下就是 DeepSeek 他在这个应该说其实是这个 R1 在低成本推理的这个方面的巨大的成功如果按照 Peter Thiel 的这个说法的话你总结下来是在哪些方面

DeepSick 它的创新其实蛮多的但是咱们坦白说其实就是

很多创新也并非 DeepSick 原创在他的论文他的引用里其实都会看到很多的想法是在一些研究者中他们率先提出的然后 DeepSick 是首先将他在开源的里面去大规模的去应用了起来就是很难说一家公司就把所有的原创都囊括了

但我觉得最重要的一点还是说能够坚持搞科学的一个基本原则就是无论是科学还是创新都是没有固定方向的是不可预知的它会有很多很多不同的方向在这些方向中你要去认真地去试验去尝试去做我觉得

去做这件事才是最重要的我们今天谢谢迪老师这也是十字路口第一次尝试用这个二十问的方式来去聊一个话题我们希望这种方式可以让我们比较全面的从各个层面去了解一个热门的议题了解一个热门的技术或者一个热门的产品

再次感谢李老师的时间也欢迎你以后再来十字路口 DeepSeek 也是一个我相信会热度持续很久很久的产品如果听到这里的朋友有什么想要分享的或者有什么想要提问的欢迎大家在评论区给我们留言我们看到都会回复谢谢大家也再谢谢李老师

如果你认为有朋友也会喜欢本期十字路口的内容请转发微信推荐给他们最后欢迎你加入十字路口的会员群我们鼓励大家在群里聊天互动交朋友寻找未来的同路人

20个问题，搞懂DeepSeek和它带来的“AI下半场” 01:29:28 Share

十字路口Crossing

Deep Dive

Shownotes Transcript

20个问题，搞懂DeepSeek和它带来的“AI下半场”