We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

中美大厂研究员深度剖析：DeepSeek大模型蒸馏与RLHF技术技术解析

2025/3/24

AI Odyssey

AI Deep Dive AI Chapters Transcript

People

主

主播

以丰富的内容和互动方式帮助学习者提高中文能力的播客主播。

奚

奚辰光

陈

陈天逸

Topics

陈天逸: 我专注于高效AI研究，包括模型压缩、蒸馏、量化和架构搜索等。DeepSeek的低训练成本源于量化技术和流式方法，它采用非传统的数据蒸馏方法，利用数字模型筛选高质量数据和响应，更有效地学习。传统数据蒸馏学习教师模型的概率分布，但DeepSeek更关注高质量响应。DeepSeek的数据蒸馏方法类似于追踪信号，而传统方法像在大海中寻找岛屿。高质量数据可从网上获取，但需要有效的筛选方法，这需要大量成本和投资。后续厂商可以利用DeepSeek的技术积累降低训练成本，不会出现赢家通吃的局面。模型压缩和蒸馏的关键在于优化搜索策略，找到更好的参数点，这取决于损失函数设计、数据匹配以及其他策略。小模型效果不如大模型，是因为使用了与大模型相同的训练策略，而忽略了为小模型设计更优的训练策略。通过更智能的训练策略设计，小模型可以达到甚至超越大模型的性能。未来算力使用会趋于动态平衡，预训练数据趋于饱和，未来可能更关注其他类型数据。预训练数据接近饱和，未来可能更关注后训练和少量高质量数据的利用。未来算力资源主要掌握在大公司手中，高校和个人难以接触到，这可能会影响科研方向。MoE类似于模型剪枝，但它保留了所有参数，通过自动选择激活部分参数来克服瓶颈。MoE有两种实现方式：一种是复制粘贴部分层并微调，另一种是在激活时选择激活部分矩阵。小模型可能在特定领域超越大模型，但在其他领域性能可能较差。未来大模型效率研究重点在于软硬件结合，降低功耗和推理成本，以及改进量化技术和高效注意力机制。量化技术可以降低模型的bit数，但需要更强的训练技术来保证性能；未来模型尺寸可能在10B左右，重点在于部署和降低推理时间。高效注意力机制可以降低计算量，但目前尚未完全取代Transformer。高效注意力机制的研究热度持续存在，但尚未取代Transformer，这可能与计算资源和研究方向有关。蒸馏、RL和SFT都是搜索策略，选择哪种策略取决于具体情况，没有绝对的好坏。当模型能力足够强时，可能不需要领域知识，前提是Agent工具足够成熟。奚辰光: DeepSeek的MoE与传统公司不同，它更稀疏，专家数量更多且粒度更细。小模型可能在特定领域超越大模型，但在其他领域性能可能较差。DeepSeek的RLHF方法证明了强化学习在特定领域提升模型性能的有效性。DeepSeek的RL方法证明了强化学习在特定领域（例如解决竞赛类算法题）的有效性，并为其他领域应用提供了指导意义。2025年可能是Agent元年，因为强化学习可以在特定领域内将模型性能提升到极致，而Agent本质上就是各种不同领域的应用。强化学习不能创造知识，但可以在特定领域内将性能提升到极致，而Logi的思考步骤提升了模型在不同领域泛化能力。DeepSeek的RL方法的核心在于大规模的纯强化学习，并通过一些手段来实现。多奖励模型在训练中可能不稳定，难以同时最大化多个目标。多奖励模型的训练需要仔细调整超参数和训练过程，没有简单的黑魔法。DeepSeek的RL方法与其他方法不同，它注重信号的准确性，并避免了过程奖励模型的复杂性。模型蒸馏可能为了提升benchmark结果而过度拟合特定领域，忽略其他方面。DeepSeek可能没有进行传统的模型蒸馏，而是利用高质量数据进行后训练和RLHF。数据蒸馏在现代模型中很常见，DeepSeek可能使用了这种方法，但没有进行传统的模型蒸馏。SFT可能限制模型的采样空间，不利于后训练的自我提升，而直接从基础模型进行RL训练可以保留模型的潜力。大模型需要scaling out来提升在各个领域的性能，但这并不意味着简单地增加模型大小就能获得更好的效果。未来大模型发展的重点在于盈利模式，降低成本，并对社会负责。大公司很难开发出覆盖所有领域的Agent，而专注于特定领域的公司更有机会成功。

Deep Dive

Chapters

本节探讨了DeepSeek降低训练成本的策略，主要包括量化技术以减少内存消耗，以及一种创新的数据蒸馏方法，使其能够更快地收敛并降低通信成本。嘉宾们还比较了DeepSeek与其他大模型在训练成本上的差异，并探讨了未来大模型的竞争格局。

DeepSeek通过量化技术和数据蒸馏方法降低训练成本，成本约为O1的二十分之一。
数据蒸馏方法比传统方法更有效，因为它可以引导模型更快地找到最优参数。
未来大模型竞争格局可能呈现多个寡头并行的局面，不存在单一赢家。

Shownotes Transcript

大家好,欢迎收听 AI Odyssey,这是一档探索人工智能的播客无论您是关注 AI 产品设计,探索前沿技术,还是专注于投资布局这里都将为您提供深度洞察与前瞻性观点感谢收听,让我们开始今天的精彩节目吧

大家好我是 Ryu 这一期我们 LLC 想要去做一期关于 DeepSig 的相关技术以及一些延伸拓展我们有幸邀请到了三位嘉宾天一陈光还有曹伟请天一和陈光一起来做一下自我介绍曹伟谢谢你们

Hello 大家好,我中文名字叫陈天逸我现在是在美国微软担任高级研究经理这个从事的 research 主要是跟 Efficient AI 相关主要有一些关于怎么样去做模型减值模型蒸馏,模型量化以及怎么样去把它跟软硬件结合做一些架构搜索这方面有一些代表作非常感谢受到这个邀请然后也希望能跟大家有一个比较好的 discussion

大家好我叫西成光我现在是在国内的一家互联网大厂也是从事大模型相关的一些工作主要做的是代码模型相关的工作就是预训练后训练和 A 站都会做一些对那好我们就先直播主题吧就第一个主题我们想请这个天一给我们简单介绍一下就下低费的 R1 这个训练它为什么可以做到一次训练的 cost 大约只有六个年年大约是 O1 的差不多是一个二十分之一所以我想请你大致给一个 high level 的一个 overview 然后之后有具体的细节我们再具体展开一下

好的,我先说一下我个人的一个理解,我觉得 DeepSync 的训练成本可以压到这么低,主要是解决两方面,第一方面是它用了量化的技术,让它可以减少预算中所需要的内存消耗,第二方面它也用了一些中流的方式,

征流的方式它可以更快的去达到或者更快的去找到一些比较好的参数的点所以这样一方面它可以减少 Memory 或者减少 Communication cost 一方面它又可以去更快的 Convergence 所以它两方面合到一起它可以让成本降下来当然我们这块可能主要是关心它为什么可以

整理得比较好这块我觉得 DeepSig 它应该用的是一种其实不是传统议程的整理是一种更相当于是用一个 Digital Model 然后用这个 Digital Model 来去 channel 一些比较好的一些 Data Set 然后用这个 Digital Modelchannel 一些比较好的 Responses

来去盖的 Suites Model 去更好的学习但我们传统意义上讲这个征流的话其实是更想去怎么样去学习 Teacher Model 它整个分布的状况就是说不光今天只是有一个高等的 U-response 还更希望比如说它在某一个 Token 上它可以去 access 到的整个概率的分布这样可以更好的把 Teacher Model 的 Suitability 给学习到但是很多情况下比如说我们如果是 followGP 这些模型的话它有的时候不会给我们去复利提供它所有的 logits

并且也有可能比如说 GP 它用的 tokenizer 跟 DeepSeq 它用的 tokenizer 是不一样的一个东西这样又会导致另外一个 disrepancy 所以有的时候其实人们发现如果只是通过数据的方式来进行蒸馏的话也可以达到一个不错的效果对但至于为什么爱用这种数据的蒸馏方式它可以更好的去收敛我觉得这有点像怎么说比如说 OpenAI 他们在训练的时候

我如果比喻的话他们相当于是在一个茫茫大海里去想找到某一个之前没有探索过的一个岛屿或者是一个什么比较好的一个藏宝的地方但是 DeepSeek 的话他们如果是用这种征流数据的方式的话那就相当于是岛屿在不断地

在不可能网络发信号这样他就可以追着这个信号就可以较容易的去找到但欧盟和欧盟 A 需要那么多的资源我觉得他应该是第一个市场就可能会难免有些账目成本的一个劣势并且还有一方面可能就是中美之间人才的一个雇佣的成本的一个问题比如欧盟 A 他们员工的话明显可以很轻松的破百万美元

当然 DVC 我相信虽然它是国内的应该是头部的量化的一个公司但我觉得这个薪水应该还有一个比较大的差距就根据这个蒸馏这个点我们可以再延展的更多一点就是说如果他们是用的这种欧万生成的数据还是用他们的模型那相对来说 OpenLight 没有所谓的 T-SERV module 生成的数据它自然会花更多的成本去做一次的一个训练因为它训练时间更长然后需要更多的数据而 DVC 的欧万呢相对来说它没用训练那么长时间也不需要那么大量的数据所以对于数据这个点我可以想请教一下就是说

为什么高级数据不能从网上获得就一定要从一个 OI 这样的一个非常牛逼的设置市场过程中获得呢

我觉得高水量的数据其实可以从网上来获得但是只不过我们缺少一个筛选什么样的数据是高水量的比较好的一个方式比较有效果的一个方式就比如网上的信息它非常大两边比如说我们自己在做训练的时候经常比如说 VGPD 或者是现在有一套比较火的叫 RedBudGiana 那里面就是好多海量的信息但是缺乏一个比较好的一个 pulver 的方式可以把那些真正有意义的这些东西给

给保留下来这是一个很花成本的一个地方所以这也是 OpenAI 他们前期在花的很多钱去做的一个相关的投资比如美国有一个 slab 叫做 ScalableAI 专门去做这个事情就做这种 Data Cleaning 的工作但是 OpenAI 它经过采这么多康之后它可以构建出一个比较好的模型然后这个比较好的模型它就可以比较 reliable 去提供一些高质量的 response 这样后面的那些那些 company 的话他们就可以去利用比较好的模型

比较 reliable 去 Gemini 一些 high quality response 这样它有一把子的充分性也就是你的意思是说我们在用高水量的数据的时候相当于是在海量的数据当中找到了一个很好的苗定然后让我喜欢训练的时候能够很快的抓住知识的 key point 然后进行学习的

对是的如果要是拉奇比比如说 Dixit 刚说是基于 O1 然后如果要是其他的玩家 Dixit 之后推出推理模型的玩家他们的训练成本有没有比这个做到更低吗所以这里面其中还有一个意思就是说因为它做软硬一体的优化然后软硬一体的优化其他玩家可能做的没太好然后在这种情况下这部分的作用是有多大的我觉得后面的

后面那个玩家应该是有机会能做的成本更低一些因为现在首先我们现在有一个叫 O3 的一个 model 这个 O3 比 O1 要强大很多所以用 O3 可能会 genre 一些更好的一些那个 beta 可以去更好的去 guide student model 去找到最优点然后其次关于这个模型的一个训练的一个优化的话这其实一直以来就是像

DeepSix 自己在做 NP4 的优化还有很多别的一些 group 也在做同样类似的事情这些东西 FS 会把技术有一个积累然后这样的话后面的小玩家他肯定会可以去把整个的一个推理变得更加 efficient

所以我是比较乐观的,之后的厂商跟着 DPC 回过之后后面会更加容易的去追上步伐所以这可能之后也会导致在大模型里面的话其实没有一个不存在一个赢者同时的一个局面相反应该是每个厂商都会有自己的一套比较成熟的一个大模型这样耐加重点然后除非是有一天比如说像 Samuel 说的 AGA 真的拿到但现在没有看到说有一个绝对的技术的壁垒所以之后应该是

应该是处在一个多个寡头并行的阶段吧

对,但违对到技术本身,比如说,其实你刚才提到过,征流无非是两种比较大的方向,你可以用一个大模型,职业模型本身去把这个 knowledge display 到小的 C-Band 模组当中,第二就是用大模型生成数据来教小模型最快速的去学习,但其实现实生活中有很多的情况是,你征流后的小模型或者是用一些高质量数据征流的模型,它的质量就是明显要比它的大模型要差,我会好奇的在你之前的一些经验当中,这个的原因大致是什么,然后你们的解决方式有哪些?

因为这其实我最顺利的 work 除了生成之外还是搞模型的简直就是传统 model compression 其实我面馆是蛮有经验的其实我觉得这是一个人们的误解因为我博士学的是优化你优化的话其实我们如果是 model training 在 A1 里面就是 model training 怎么去搞到一根好一个底其实我觉得在我看的这些 model components 都是一堆的数字就像是在整个一个目标函数当我们模型确定之后然后目标函数确定之后它会形成一个 landscape

在下来的 save 上有哪些点它可以得到更好的一个性能

但是在 Landscape 上怎么去取得或者怎么能得到一个更好的点这个取决于很多方面比如说我们怎么进行训练这个训练要包括怎么样去设计这个 loss function 然后怎么样去配这个数据以及怎么样去配套它相与时相关的其他那些策略这些综合因素加到一起其实可以把它统称为我管它叫做 Search Strategy 就是进行一个怎么样的搜索策略这个搜索的策略的话它会影响到比如说我们从某一点开始出发的话它真正会落到哪一个悬殖点

然后它落到哪个最后点就会决定这个模型最后的一个性能所以这本身我觉得首先就是不管这个 data 或者是像用这种 data 去进行整理或者比如说我们设计更好的 loss 它本身是一个比较其实二者不分家都是想去提供一个更好的一个搜索一个策略这样一个事情然后关于回到比如说为什么人们用小模型成立完之后发现小模型的效果不如大模型我觉得这个应该主要因为他们是用了

跟大模型训练同样一套这个 training wrestling 或者一个搜索策略来去训练这个小模型那这肯定是不行的嘛因为我们现在已经知道就是大模型它因为它有更多的 parameter 所以它学习的能力会比较强对吧那如果我们这时候训练小模型的时候用了一个跟大模型相同的一个策略那

小模型的学习能力它没有大模型那么强很明显它会容易去得到一些比大模型不好的 performance 所以我们在去做模型压缩的时候其实很多时候我们需要去花更多的精力来去 design 一些更 smart 更 dedicate design 的一些训练的策略然后让小模型它可以具备甚至超越大模型这个能力我在我过往比如说

接触 AI 这么多年的时候其实我们在 Lonely Bomb 没有火之前比如说在一些小模型或者是中型模型的时候包括 CVR 包括 Multimodality 那些它其实我们经常能得到比如说比大模型要小四五倍并且这个 performance 要比大模型甚至强很多很多的 use case 然后在大模型里的话其实现在也可以发现相同的一个现象

比如说最开始的时候,Meta 出了一个蓝毛一万的,或者蓝毛一二的 32B,然后很多人用了 7B 的猫头或者 8B 猫头去把它给击败了那为什么它可以用更小的模型去击败更大的模型呢?其实主要就是在于怎么样去搜索这个搜索的策略必须要有一个更 smart 的 design,不能是直接大模型用什么我们就用什么,这样就肯定不对了所以这主要还是一个算法设计的问题,跟模型本身我觉得关系不是特别大

其实谢谢天一老你讲的非常好其实就是说我们有一个我们要做这种 model compression 或者是蒸馏之类的无非就是从两个点第一个数据第二个是模型本身而你要是这么做的话从模型角度上来说有一些参数是不重要的有一些参数对你最后的影响会比较大我们的任务就是保留那些对后面影响大的那种参数

data 就像刚才也在说我们小小找一个很好的描述,找一个很好的速度算法,找到一些 key point 然后让模型进行学习所以我觉得这个方向其实对未来的像这种具体的应用场景包括一些尤其是人样应用的方向我觉得是蛮有用的对,然后从这个角度来说我们来说一个反的就是我们的 4102

我好奇的是说你会认为未来在大家在 Skill and Love 上付出的一些アファ会比之前少吗还是说从本质上来讲大家会用更多的 GPU 还是像以前用更多 GPU 去做这个 pre-training 还是说开始慢慢的想像 post-training 或者 Fantasy 这个角度上来说去使用更多的一些算力

我觉得英伟达的股价就反映一切了就是未来那个我说英伟达不是跌了不少对吧那个未来的趋势肯定是人们不会使用这么多的更多的这个算力或者或者就是这块会有一个动态的一个平衡就是因为其实主要是我觉得与其说算力不是说算力的一个成本如果假如说之后算力的一个成本非常低的时候人们自然而然他会愿意去使用更多的 GPU 但是如果想说算力成本比较高的时候人们会觉得这些 GPU 可能不需要用那么多

然后到这个时候其实人们就会倾向于使用利用现在的资源并且我觉得其实 MIR 的一脸他其实说了一个例子是很好就是现在 print training

Prentraining 其实已经搞得差不多了因为人们能想到的那些比如说那些文字那些数据基本他们早就被他们都给用过了所以可能现在有一些比如说现在可能人们更倾向于用那些比如说生成一些比如说 Multiplier 这些数据这块可能还没有复利便利到但我相信就人们可以会找到那些数据基本上已经也快文化了这样一个程度所以 Prentraining 在这个阶段我觉得它未来可能会有大量的一个变化的一个几率或者是有一个比较大的一个变化可能不会有那么

可能就不存在除此之外,因为它需要让 Lunch model 或者是 BayLunch model 掌握海量的支持所以它这个讯源的 resources 可能是一个天文数字吧对上的话,比如说一项个人其实很难去承担这些 duty 那这样必然会有一些比较大的公司他们就掌握几个机座模型这些机座模型都是在海量数据上讯源好的

这些机构模型基于他们怎么去进行 pose training 这样这块我觉得是一个未来可能会发展的趋势但这个 pose training 的话其实这块我觉得现在也是比较 tricky 的一个地方因为这些公司其实也已经把这个 model 给 pose training 好了这些 model 也都具有很强的一个 readme ability 有的时候我们反而发现比如说我们自己训练一个 funcuning model 结果反而把这个模型给搞坏了那这时候其实也是一个得不偿失的事情但是如果想去保持这个有一个比较高质量的 funcuning 的话它又需要很多这个 resources

Results 也有涉及到比如说我们到底应该是怎么去衡量这个少年体育成本来讲这可能有点好题了就是回到那个利用你的问题的话我觉得对了

未来算力应该还是掌握在公司大公司手里比如像学校还有其他的个人其实很难去接触目前如果算力成本还是这么高的话很难去接触到这么多的算力资源所以现在比如我们看到很多高校的话学生们其实因为算力的一个资源的局限只能是 narrow 他们的 scope onto 一些可能一些比较窄的领域这个其实之前没有看到过因为之前的话

我还在上大学的时候那个时候是学校来主导科研现在在亚里士正好反过来是企业来主导真正 impulse 的科研学校进行一个某种什么是一个辅助的一个作用这其实是一个不得不说是一个时代的发展的一个问题但希望未来这个算力成本的降下这样可以让普通人或者是让广大就没有在企业里真正接触这样一些比较有 talent 的开发人员都可以有这样一个市场权利的一个机会

其实这两年包括训练 AI 大模型这些公司的收益和花费的一个比例我觉得很多的一些模型和 startup 他们应该是能意识到花这么多钱在这件事情上可能没有办法给他们带来预想的 revenue 而他们又没有办法像大公司有其他的业务可以作为他们现成的派出所以我觉得不仅仅是这件事情而这两年可能多少的一些 revenue 和投资人的一些回报都会给他们浇了一些冷水这样子然后除了中流这个 part 我还想问一下关于其他的一些 efficiency 相关的技术

比如说像 DipSick 他们在 Virgin2 的时候发的比如说像 MVE 或者是 MRA 我不知道就是天一这边有些了解可以跟我们分享一下

Moe 我倒是没有那么特别的专精但我可以说一下我个人的一个理解吧因为我可以把它跟之前用的比较多的简直来进行一个类比就是我们之前在做模型 pruning 的时候我们是把一个大模型直接把它们这个容移的部分给去掉然后并且把容移部分的知识给进行一个 transfer 就像一个 knowledge transfer 这样可以保证小模型它有相比的性能 Moe 的话在我看来它是一个现代意义上的一个或者在大模型时代的一个简直的方式

M-1 没有去把每次的 influence 和融资比的部分给去掉相反融资比的部分依然是保留只不过是它选择了一个自动逻辑起火这样的话其实它可以把现在的大方形鱼简直是用到一个瓶颈它可以去克服掉至于 M-1 的话我觉得目前我知道它应该是分成两个

两个流派我讨论一下第一个流派是做这种把一些 layer 直接 copy paste 几分然后这些 layer 再做一次 tuning 然后它可以去有一个 getting function 这 getting function 会决定在做 inference 这些 layer 哪一层会被掉哪一层不会被掉

这个做法其实最开始是有那个 Mixer 他们的 7B 的模统开始活下来的他们号称自己是 7B,但其实是一个 4B 的模统只不过是 Inference 后,是 Inference7B 的一个模型然后后来的话,因为这种 M1 的话有一些招败所,就比如这个毕竟他把模型变大了好几倍嘛,但不是一个真正 7B 的模统所以后来有一种类型叫做 InplaceM1

本来它是一个比如说那个但是只不过是在激活的时候在做 influence 的时候它把那些比如说一个 matrices 一个矩阵的话它激活其中那么几行然后进行这个 influence 把其他那些行给 disable 掉那这样这种叫 inplace 的模拟它没有让这个模型变大只是在激活一个散漫的 work 那这种最近好像也有一些 work 在出来他们是用那种 activation 方式去实现的但是对 DeepSeek 来讲的话我没有特别的关注它是用的哪一种这些模拟的一个形式这块可能就需要我们之后再去看一看

从 MOU 这个角度其实也想在草尾也想可以聊一聊就是你之前有聊过一些所谓的 world model 这种它可以接收世界上所有存在的模态一起理解这些模态然后也可以同时去生成这个任务当中所需要的任何一种模态我觉得这个 MOU 的有些设计点应该挺相似的 MOU 就是我这部分的 partner 我只适合去理解这个文字这个部分只理解 video 那部分只理解 output 就是证明之前有去聊这个这方面然后跟一些科学家交流之后你有什么样的一个感想

我记得我当时呃问的一个问题是我说就是他的专家我问比较外行我就说他那个专家他实际训练的时候是能设定某些专家理解某些任务吗然后他说啊不可以就是这样不去这样做会比较好一些对这是之前聊过然后但我觉得我弄的可能现在大家的探索方向更偏向于对于三 D 的理解啊我不知道这样是否正确就是尤其是像李洁飞他们更多是说这个三 D 内容其实刚刚说这些模特里面其实他这部分没有被吸收然后可能两期的话就是比如说 XR 这些场景更长期的可能是巨声然后这对空间的理解然后包括呃

往下指引怎么去做加取怎么去做操作这层执行层的东西我觉得这个是一个探索方向我觉得我摸的在巨声里面还是蛮重要的然后 M1 这排想 Q 一下陈光老师因为之前有大家聊过我们交流的时候有大家聊到过陈光老师这边还是有什么可以分享的吗

其实我并不是 Moe 的专家,但可以补充一点,我觉得天一讲的已经挺全挺好,我理解 DeepSig 的 Moe,因为现在各大厂家做大模型基本上都是 Moe,因为它是一个 free launch,就是它在激活参数一样的时候,它可以用很多的总参数,它可以 scale 上去,所以是一种比较上限比较高的一种对推理友好的一种运送架构,但是 DeepSig 我觉得它还是有几点,

和传统公司有点不一样第一个是它比较稀疏比如说有些公司我举个例子它可能在类似 BPTIC B3 尺寸的时候它的可能总参和激活是什么 400B versus 40B 就 400B 总参 40B 激活就随便举例讲这个数字不是一种准确的数字或者是什么都是类似这种 1 比 10 左右然后但是 BPTIC 我记得它的激活参数也是这样子左右可能三四十 B 但它的总参可以到达六七百 B 这是一种非常稀疏的一种就不是特别常见另外是它的专家数会做的很 fine grained

然后专家数会非常多会做得非常细其实之前我有看过一些文章上面也在说我有一个模型就是单数没有发生大的变化然后这个模型可能只适合单一的模态另外一个模型它可以负责这种多模态但比较而言多模态在每一个模态执行任务方向它还是比专一的模态要差一些它会用最简单的通俗解释就是比如说你 input 的 token 类似比如说达到 1 万多的话你之前 1 万多都给一个模态你现在 1 万多要给三个模态肯定你在训练的时候它的学习能力是稍微会差一点我觉得这个例子也很好这个例子其实

也其实 Q 到了前面一个问题就是说到一些小模型它可能效果为什么可以做到比大模型好其实也是类似的很多时候我们看到发出来的一些通过帧流然后发出来一些小模型说是效果超越了大模型按怎么理解这个事情我个人会觉得你其实就是在一个领域去超越了一个或者说你去 offit 到一个领域了在那个领域去超越了小模型但是其实这种模型很多时候你会发现因为它的模型尺寸很小其他就叫小模型有翘翘感效应其实你在这个领域超越了

大模型的一些指标但是那它一定会在其他的方向拉垮会拉的特别垮我想再接着问一下就刚刚说到不同模态的数据就有没有可能不同模态的数据之间他们可以互相学习对对方有一些对暗示对

对我觉得肯定是可以的其实原人动物他就是他会试图把去把各个领域做如何就是如果你对这个世界有一个统一的认识理解对吧我觉得就是所有东西他在理解上应该是应该是共通的对吧在应该领域我个人会觉得是一定是有有益有帮助的理解嗯

最后一个问题关于 Efficiency 的方向,可能要问一下天一老师现在我们聊了 MLE 和正流这个业界还有几个比较重要的方向去做大模型 Efficiency 能不能请天一老师进行更多的聊聊有哪几个大的方向比如说其中一个方向就是 DC 他们用的 MLE 这个方式我觉得 Efficiency 接下来应该重点是怎么样去做软硬件的一个结合现在大模型一般都跑到 GPU 上但 GPU 面子的问题就是它的功耗特别大

比如大家其实不太关注的主要是耗电量 GPU 的 power 就非常高就导致其实为什么人们说它耗多少电然后让这个环境变得多差怎么样所以接下来一个怎么样把大模型它的 influence cost 或者把它耗电量给降低这接下来是研究的一个重点怎么样

把这个靠联电降下来的话它就涉及到芯片的一个设计芯片的设计的话它其实又涉及到比如说在做大模型做 infra 的时候这些数字这些游戏我们怎么样可以让一些不必要的给省略然后重要的给保留这里其实除了这个简直征流之外还有一个其实现在目前非常常见的比如量化这个技术在量化的话目前我看这个最新的货本应该是能达到 3bit 左右能有一个不错的效果如果再低的话就会有一个比较大的一个 performance 一个 digration

但这我觉得就像我刚才说的比如如果要是把量化这块给找好的话它需要更强的训练的技术如果模型尺寸变小那么还想让它具有很强的性能就需要有更聪明的技术所以有的时候其实训练大模型它只需要一般的技术就够了但训练小模型它需要更强的学习或者训练一个策略所以现在这块我觉得应该是一个 open problem 现在有好多 researcher 以及研究员在去从事比如说像低尺寸或者是

更低 bit 的一个 PVT 的探索所以我目前觉得未来参数量现在大家有一个共识比如说现在应该是 10B 左右 10B 左右的一个 model 应该能有一个不错的效果然后之后又是怎么样去再把这个 10Bmodel 它可以去 deploy 到不同的 hubber 上然后让这个 hubber 最终的目的是想让这个耗电量降低然后其次是让这个 inference time 降低然后让它可以更快去响应这个用户的这个 response

还有一个就是现在人们也比较关注的就是在不同领域的一个 context lance 就是它可以输入多少数据现在这块也是我觉得这也跟 Hazard 相关如果是特定芯片的话它这个 context lance 会有一个比较大的限制但如果它是一些比较通用的一些芯片可能这个 lance 会比较长所以这块我觉得也是未来的一个点但现在我看好像是 MIT 横松那边已经是有一些 work 他可以支持 infinity 的一个 context lance 那也是应该已经有一些不错的进展了

包括还有一些 Efficient Attention 的计算方式是不是也是一个很好的方向它可以保证它的一个计算的一个量然后是一个指数级的一个下降

对,这块之前 Mamba 可以让 tension 的 complex 从 square,transform 到 square 然后变成一个 linear 这样一个关系但最近好像 Mamba 的热度突然间下去了就好像没有之前那么火我目前不太清楚这是为什么可能是人们发现 Mamba-based language model 其实这个性能还稍微差一点跟 transform 比的因为其实像这个 efficient tension 我觉得研究热度其实一直都在

但这么多年下来之后其实还没有去取代 Transformer 在主流 Bag1 的一个地位这块可能是因为我觉得可能是一个比较 tricky 的事情就是提出 efficient attach 的人他可能没有找过计算资源

然后他没有掌握计算资源他就没办法把自己的这些 method 给放到更好的比如说海量数据海量这个标准去 dimension 他的价值然后掌握计算资源他可能还不是特别 care about 这 efficient 的 attention 然后他就导致他人们就觉得我就当钱包的营造了为什么要出去再迅赢这也是为什么我其实是希望未来就是让算力的成本才能降低然后真正的让 research 百家齐放不然其实话语权就掌握在谁有算力或者谁有很多钱然后他就掌握这个

其实不是一个最好的事情对这其实就是一个寄生蛋诞生机的感觉就是说有钱的人他不要 care 这个 quality 不是说他不 careefficiency 而是他需要通过 quality 来 build up 他更多的一些房顶但是没有钱的人他 care 高的 efficiency 但他没有这个钱去做这个实验对寄生蛋诞生机的问题对曹永他也想问一个问题

好我是刚刚提到南大然后我注意到其实上周周五的时候我去腾讯是发了一个他说在混元的模型上面用了混合南大的架构也是工业建设是把这种架构就是用到楼上所以我觉得可以有个小作业就是下来我们可以看一下那个

对,我和 Mamba 相当于是没有把所有的 TransformerBlock 都换成 Mamba 相当于留了一部分是 Mamba,有一部分还是 Transformer 这个架构然后业界给这个名字叫 Zamba 这个是在好像大几个月之前就有 team 已经提出来发了这个架构那可以啊,那腾讯如果把这个东西给真正能产品化那我觉得这是一个非常有益的事情

好的谢谢天一老师给我们讲解这么关于 BGC 的一些东西下一个我们想聊聊关于这个 Portraining 尤其是 IRL 相关的对我们想请这个老师光来跟我聊一聊就是 R1 它是怎么用这个 RL 去提高它们本身的性能的

对,这是一个很好问题,我觉得 R1 这个东西出现了一个原因吧我觉得从 HydraLock 上来说,它干了一件非常有益的事情就是它把 RL 这一套东西做 work 了或者说它再次证明了一件事情,什么事情就是 RL 这个东西最擅长干的就是在一个领域内,它把一件事情做到缩淡其实在 DeepSix R1 正式出来的,当然 R1 也是这么做的,但他们可能没有举入技术细节但是在那个之前我们知道

像那个 Rainforce Marine 它其实在 1718 年是活了一段时间对吧就是当时因为 AlphaGo AlphaZero 出来在围棋上击败了人类最强选手所以这是当时出拳了对然后在那个之前比如说 R 一直是用来比如说玩游戏然后游戏里可玩得特别好对但是后来呢就就其实沉寂了一段时间对然后直到其实

恰恰恰 GP 刚出来的时候其实他们在那个后续练习阶段就并没有用延续以前传统的强化学习那一套理论对然后然后 R1 出来以后他就是在其实报告里说的这套方法其实就是纯强化学习的一套方法就是他把抛弃了 RHF 那些那些比较就在恰恰 GP 出来以后欧本来提出的那种比较经典的方法他转回了纯强化学习对就是我前面说纯强化学习他最擅长的干的事情就是在一个领域内受到扫荡就像围棋击败的世界冠军选手然后其实回看就是在

O1 R1 出来之前的前几年,OPEN 还没有说把重心放在原模型上他们当时尝试各种方向,我记得有打 Dota 对吧但是当时也是说,击败了一些世界冠军队伍什么 OG 之类的然后包括 D1 也玩过新机生吧其实这种就是相当于证明过很多次 R2 就擅长干什么事情,就是领域内刷到缩大所以这一次 R1 R1 这个东西我觉得这就是它一个最大的意义就是它在大原模型这个领域证明了它可以把一个域刷到缩大这个域是在 R1 R1 上它是什么域呢?它其实就是一个

解一些竞赛类的算法题解一些数学难题然后想要用那种然后解一些推理的题就是那种大家有时候调侃了说就是 O1 那种是小真做题家对吧就是他其实就是其他东西他的体感并不一定很好但是他去解这种难题竞赛题波折类的题他特别擅长对但这个就是说他把所以这我觉得是最大的意义就是再一次让我们看到了说 Rainforce Learning 的东西又回来了然后他还是很有效他还是可以把一个域对 shout out 我觉得他是一个宏观上的

就是现实意义吧对然后并且它这个意义我觉得还在往后延伸就是那大家会直接想说既然我能在小众座提加这个领域去把这个事情做到缩大我也可以在其他域做到缩大就所以说就是比如说前两天 Sony 3.7 刚出来大家我看社区呢大家的反响都很热烈说说这个模型太强了就写代码特别强尤其是做一些前端网页的事情就大家当时就是一天就是欢呼吧然后又引入很多自来水当时可能就是又喷了一遍但是就是这个事情你从那个

一样的 RR 的角度理解,它其实也是做类似的事情就是前面 R1, R1 可能它是在刷用 Post Training 去刷一个小运作题家这个领域竞赛题的领域就是 Sony 3.7 它其实也是用 Post Training 去刷一个其他的领域就是计算软件工程能力的领域然后那个前端网页开发这个领域然后它把它刷得很强对我觉得这就是一个未来的一个指导意义就是大家意识到 RR 我可以把每个域都刷得很强那接下来就是大家都会去刷各个域就是我多说几句就包括大家现在都说 OK

R1 就是 2025 年是 Agent 元年对不对就是说今年的 Agent 其实会一定会大火就是我觉得这里的一个底层的逻辑其实就是大家从 R1 O1 这种推荐模型看到了说

前面我说的这个结论就是 RO 它在一个域内可以把东西刷到搜查所以因为 agent 它本质就是各种不同的域各种不同的 agent 应用比如 coding agent 比如说很多人做教育类做什么它其实就是在一个封闭的场景里然后有些封闭的数据然后我可以通过这种 RO 的学习方式在这个域内刷就是把这个效果做得特别特别好对我觉得这个就是它一个未来的意义对但这些就是都是比较宏观的东西我觉得还有些微观的 RO 有很多一些贡献点比如说这个 long-suit 这种因为以前别人会问我说你觉得 RO 这个东西强化学习它能不能放话

就是我的观点其实和大家会稍微有点不同我觉得他他犯法不了就是我觉得阿尔这个东西让他做无中生有是绝对不可能的我就说阿尔他在一个域内可以可以做到骚扰然后但是他换所谓的犯法就是说我在这个域内做到骚扰我能不能在另一个域内也做到也也也就是提升自己的性能我以前会觉得这个绝对是不可能因为不同的域之间他的数据完全是不一样就阿尔的本质他还是说他通过自己探索他他学出很多发现出很多这种数据他在其实本质是他核心这些数据如果这些数据没有的话或者

或者说这些数据之间没有迁移能力的话那它是不行的但是这里说的一个 R1 另一个风险就是这个狼 COT 因为它会在回答所有问题之前它先思考一遍

我会理解思考它就有点类似一张给模型一张草稿纸说 OK 我 Install 直接去回答这个问题我会去先写下来这样的话我会提高我的准确率但是这个思考的步骤就会很关键很多人会觉得说思考这个步骤是它的一个贡献点的原因在于它提升了模型能力因为我给了大模型一张草稿纸所以它的准确率更高了我会觉得它的另一个更重要的意义就是思考这个过程它提升了方法因为在各个不同领域它们数据类型是完全不一样的所以你在一个域学得好并不能在另一个域学得好但是如果所有的域之前你都先思考一下就是

人的思考的这个逻辑它其实是共同的无论我是解数学题还是解代码题或者解一个文科类的一些推理题或者什么我都会说我先从一个点出发我考虑一下这个路径这个路径如果我发现不对教研不对我会往回退一个会怎么怎么样这种人的底层逻辑都是一样的所以我会觉得说这是 LogCUT 的另一个贡献点它会让

R 在不同地域更容易反化所以大家会看到说我解这种一些 puzzle 的题我也会提升我精彩题的准确率什么什么我觉得都是这个提升所以总结一下这个问题我觉得 R1 最大的贡献就还是让人们重新对纯强化学习提升了一个信心至于大家很多人讨论说因为他那些方法就是说没有用 MCTS 没有用 PRM 我觉得这些都是一个手段他是为了实现 large scale 的纯强化学习而

而采取一些手段就这个细节我觉得就是在很多的地方大家都讨论很多我就不讨论那些细节了对当然核心就是这个 Large scale 对

我觉得陈宝老师刚才有一点说的真的挺好的就是说你这个 RHF 每一个这种角力的模型它其实只能提高你模型在某一个方向的一个能力就没有一个角力的模型它可以提高你的模型的所有的综合的能力它其实只是在一个范围之内然后强化你模型在这个范围之内的一个学习能力就说无论是 R1 还是 O1 他们其实都在用一个 multi-reward model 做一些 fighting 就做这种 force training 对那其实还有以此来延伸一个点就是在于

这是实际当中我其实作为一些实验做这种混合的奖励模型但他训练的时候其实不是很稳定所以其实这个模型会很考虑就是我到底应该把我的 attention 放在哪个流域去提高我的能力可能最终的结果就是说这方面这几个能力好像或多或少都有一点提高但提高的不是很明显相对于单一的或者是少量的 reward 吗我理解这个问题是说当我有多个 reward 信号做指导的时候我怎么样能让它的效果更好是吧对这样的一个我想提高的流域都能 maximize

对我觉得这个是一个很实际的问题对这个问题其实它咋样没有那么 fancy 就是我一个简单的话就是调我觉得对这其实一个但我的确有过一些经验我会就是一个其实最不 fancy 但是最实际的回答就是这个东西就是一个仔细调的过程而且这个调不只是说我调了一个就是比如说可能我有很多个 reward signal 我中间会有一些超参来决定每个 reward signal 的一些权重的吧就这种可能一个是要调一个是你可能是在模型就是你在比如说我做 RL 的时候我的训练整个过程当中

我觉得超强可能也不是一直不变的就这个东西其实他难我觉得他难在什么地方他的算法很简单就是所有人都懂他难难在调对我觉得就是这个是个经验经验的东西对所以当然然后往退一步说就首先 reward 的设计可能也是比较讲究的就是可能你为了达到同一个目的比如说像 RR 里面它有两种 reward 一种是 accuracy reward 我说是 R0 一种是 format reward 我希望它的准确性提高同时我希望它的格式 follow 我希望的格式比如说我一定要上来先 thinking 我再回答对所以就是

你可以想象像这种模式我们代入的 Avalanche 的情境里它可能一开始训练的时候其实 format 是比较重要的因为这时候它的 format 是乱七八糟的这时候你可能就会比较重视一点 format 但它的 format 差不多对齐了就是我永远会先思考我再回答说但这时候可能其实我的思考的内容还是很不准确的就是我只学了形我没有学神所以这时候你就会去更 focus 在它的准确性的入握但是这个东西就是一个需要调的东西就是很难说有什么就是那种黑魔法在里面对

关于这个有关于什么问题啊就说因为他们说可能因为 Ry 用了很多个 reward model 就可能以一个 low cost high efficiency 的一个方式在某些点上迅速达到 O1 的 compatible capability 这个相对于你在 projection 准备大量的数据大量的计算资源来说这个好像 Ry 更高一点那可能未来会不会就有些这个模型为了打榜然后故意在某几个点然后找专门的 reward model 然后来提高它的模型能力然后打榜成功这样子

对我觉得这里有几个问题可以一个个细聊一下一个是首先一个问题是 ROAD 一个问题是打榜我觉得 ROAD 这个事情首先 O1 里的 ROAD 它就跟其他是挺不一样或者跟其他当时 O1 刚出来以后大家都在做的 ROAD 会差别很大就是大家都当时都说 O1 刚出来的时候大家都说了 PRM 因为有些看上去很有道理的分析说是什么 O1 里的 Foundation Contributor 有 IlliaIllia 提了 S-Verify Step-by-Step 是那个 PRM 就是过程间

Process Reward Model 的概念所以大家都会去做这个然后但恰恰就是这种东西它是不成功的因为你很难去定义这个过程当中的这个 reward 的准确性对所以其实 R1 的一个其中一个说明迅速提高的一个就是一个关键点就是它没有用这种 RM 或者就在它里面它也没有叫它 RM 它叫它 Rubase 的一种就是一个绝对的 Ground-Tools 的准确性就是比如说一道题我就是

Unit test 全过了就是过了我就是但凡有些不过的可能我就是那个 robot 要打折扣或者说甚至就是我的 robot 完全完全是就恰恰是这种很简单的 robot 它能提升就是它能让效果变得很好因为就是说我就想要学习就是它这个做成有几点很关键其中当然比如说机座模型能力然后另外就很关键的就是这个数据快速的质量这个质量其中一点就包括这个信号的准确性所以其实回到这个 robot model 它的虽然简单它它就做到这点关键点就是它保证了这个信号的绝对准确就是

对对对这里嗯对大概是这样子所以所以所以我觉得就是我很重要对然后呃另外关于这个打绑我觉得对这个其实可以延伸到不止二了可以延伸到以以外哈就是我觉得嗯可以延伸到前面我们今天刚刚聊了针流我觉得我觉得这这这两个问题是是有和的对我觉得很多时候大家做针流也是我觉得也是为了打绑就是说你会发现有些呃我说啥模型就是有些模型它的 benchmark 的能力很强对它的 benchmark 上指标很高但它的实测下来它的效果非非非常大款哈就是

很多模型它就是

会做大量的针流对他就是也是回到我前面说的那点就是他很多时候他就是在 overfitoverfitting 某一个领域的东西对但是他也忽略了忽略了其他的东西对我我其实呃我觉得可能需要纠正一下今天的观点就是我当然我不知道就是呃我我感觉就是我们应该聊的时候好像默认他是针流了很多但其实我实话说我自己不知道所以呃我也不知道他到底有没有针流我我会愿意相信说呃他没有针流因为我觉得是不屑该重视的然后然后或者说退一步讲我会觉得他如果针流了

其实也这个不是个观点不是个本质就是不影响他的成功对我觉得类似 R1 的成功类似 V3 的成功就是就是 V3 里面有很多 infra 的改动有很多模型结构的改动 R1 里面提到的这套我说的纯强化学习的这套框架对我觉得这些都是都是不需要帧流不需要一些大量的 medium SFT 就是对所以所以对当然当然这个不影响我们今天讨论的关于 SFT 帧流的技术问题我觉得这些都是对就是我我觉得需要需要提出一下就是我

因为我怕大家有误会听了我们今天的讲内容会觉得说 D3 是不是大量蒸馏了对这个是我觉得需要明确一下对对就像天一说的其实他们也并没有说把模型本身去进行整理更多的还是说用了 O1 它的一些数据然后做这种蒸馏式的其实这不是一个传统意义上的一个蒸馏对他们有人也说好像是用了我看这边比如三位 Adults 他们说他们用了 O1 去生成了含有 COT 的这种高质量的数据

大约量是在 800K 左右去做了他们下一步的一些 post-training 包括一些 RHF 的一些东西其实这也算是一个知识的一个阵容只不过是一个纯数据化的一个阵容

是我同意其实这种数据帧流在现代模型里是一种更加常见的方式就是有很多包括可以看到学界很多 paper 讲一些帧流的这种帧流的方法对吧什么 Evo 之类的然后我知道很多公司其实也在干这个因为这个的确是个捷径它就是通过帧流可以让模型变得更强但是我觉得像 R1 paper 里它其实提到了一点就是它做的 R1-0 它其实没有做 SFT 它是直接直接就是在 base model 上去做纯弹化学习它最后的效果也很好它只是说它可能输出的那种格式不是有人更容易读懂的所以我会觉得就是

也许 DeepSeq 真流不真流我不知道但是它不真流它一样能达到这个效果我可以顺便再说一下为什么它绕过了 SFT 直接真流其实很多时候如果你从二维的角度看你会觉得这样其实更有利的因为很多时候你真流的话

大量的数据,因为模型都是有 bias 的首先你构造 query 可能会有 bias 第二你构造这些问题问给模型,模型回答肯定有 bias 如果你大量的训练这些 genial 的数据的话其实你的会让你的模型的 sample space 会就是它安他的这个其实是在 I/O 角度你就会很不利于你后期用我自己的 sample 去做自我飞升你可以理解为比如说我举个极端的例子假设一个模型它可能见过很多垃圾数据但它什么数据都见过这是我做 I/O 的时候,I/O 其实本来就是让它自己去想

比如说我丢给他一个很难的问题我就不断的问他让他不断的想各种答案但他因为见过所有的数据他可能也许答十次答不出来但我答一万次就答出来了但这第一万次的时候我就答出正确答案那我就学到新的东西就顿悟了嘛好猛猛对但是如果我去另一个极端是我精心的去学了一些很少量的数据我很多数据都没有见过比如说我就是真有那种数据比如说我精心的学算法题我只见过算法题我啥都没有见过这时候我去问他一个算法题以外的东西他就是在自己三迫五十万次一百万次他都不可能答出一个正确的答案

所以 SFT 为什么说 R1 它直接从 base model 阶段它直接去做 R 很多时候是因为这些 SFT 阶段的占留它会毁坏模型的 sample space 它会让模型在对后训练阶段的上限起到一个很不利的效果我们都说预训练其实它不需要去太关注你的模型到底的水平有多高它需要保留你模型的潜力然后这样才能为后训练的自我飞升任务去打下一个基础所以如果从这个角度理解的话我会觉得说 DeepSix 的人

他为了达成好坏,他是不屑做蒸馏的因为他觉得蒸馏会毁了他的 R1 阶段的顿悟这个我同意一下其实从我的角度,因为我本身是学优化的其实在我看来 SIP 区域训练或者是蒸馏或者是 RL 的话我刚才说它都是一种搜索的策略那都是相当于在广泛的参数的 Landscape 上我们怎么样能去找到一个最优的一个点所以在搜索的时候我们需要去衡量两个比较关键的因素一个是 Exploitation 另外一个 Exploitation

这个时候我们其实什么时候用中流什么时候用 RL 其实我觉得需要去一个是一个 case by case 的一个事情因为我自己的话其实也是过往用一些那个 RL 其实我发现在很多领域 RL 它其实表现结果并不好但是在有些领域呢它表现结果又很好所以这个时候我觉得其实人们更应该思考的是在什么地方选用一个什么样正确的一个搜索的一个策略然后这个搜索的策略会依赖于比如说哪一个是到底是 FSD 啊到底是有更好的 loss function 到底是有更好的 data 就我们都需要去进行一个综合的一个衡量这个时候我觉得其实没有一个绝对的就是比如说哪一个比哪一个更好而是在

哪一个领域的时候我们应该选择什么样的一个 strategy 然后这样可以达到一个最优劣的效果刚刚那个陈老师说最后一点就是如果要是有感思能力然后那其实是有望实现就类似人们思考是有望实现跨领域的方法然后我在想这个前提是不是说就是我们前几天在讨论一个更长期的问题就当机构模型的能力足够强的时候它其实是不是也没那么那么的需要这个领域现成的知识但这个前提是就是我作为 agent 相关的工具是比较成熟的就是我下轮的位置我能够搜索然后能够调用工具去解决这些问题

然后我就就 Q 到那个 Leo 就之前有跟我说过就是我看 agent 相关的东西然后我会觉得这些工具大概就作为一个主模型他们什么时候会比较成熟然后像刚刚说的那些工具搜索之后哪一些会会是现在比较大的阻碍我还会我还是会觉得首先就是就先说 agentagent 就是大家都说嘛大模型掉掉掉掉到外部世界嘛所以他会用这些工具的吧一些解释器啊一些各种的帮助就是大模型的输出以得到一些执行反馈或者什么对但是首先我还是会觉得说你要就是你的 agent 最后的效果就能足够好就是比如说我能在一些

我出来的 Agent 产品我能取代一些人帮助人首先它一定还是需要领域数据的你不在这个领域做 IRO 一定是不行的这也是为什么很多现在 Agent 公司它会慢慢形成不成合是因为我举一些例子比如说现在 Konig Agent 是最火的比较著名的 Rapid, Lavable, V0 那些他们有很多用户在他们的上面去部署一些产品所以他们有很多这种领域内数据这些数据就会很宝贵甚至我可能会有些阴谋论的想法比如说因为所有这些模型它都是调用 Sonic 然后 Sonic 现在然后这些模型又是都是一些

比较重前端开发的一些 agent 所以然后你会看 Sonic 的从 3.5 到 3.7 它又有那么强大的

就是大家前两天可能看了一个 web arena 的一个榜单就是原来是 3.5 是第一名然后 3.7 出来以后断档的领先就自己超越了自己成为了新的第一对我会觉得说为什么他无毒虽然他在代码能力上都提高很多但他在前端说提高那么多可能也是因为说所有的这些厂家都接入了他的模型所以他也许他没有用但是一个阴谋论的想法也许他用了他用了以后所以他就用这些数据他会变得更强对我觉得所以首先还是需要这些数据的就是无论你的机座能力

有多强的话就是你如果想在一个特定的领域内去变得更强你就需要在那个领域内不断的说不断的修炼啊就是通通所讲对对是这样然后那些工具的话我觉得其实就是我自己会说我会愿意把大模型跟工具这些就是切切割开就是大模型它就是我们现在传统意义的定义的大模型它就是给定的他输出呃自然语言就可以是扣的可以是什么对然后所有的其他东西我会话给说是是 agent 就是我会觉得这些东西就是如果是一个做 agent 的主要公司那这那些东西就是他该去

他该去就是呃就是就是关注的东西那就是大模型当然外部事件嘛对吧这个叫 Agent 所以 Agent 他应该关注的是这些外部环境这些事件就在我的这个产品里哪些工具是我需要用的去让这个东西变得更好更丝滑体验更好对吧就比如说啊我最近用这个 Rapid 这个产品用的用的比较多我觉得这个东西很好对他们就是我觉得就很多这种工具啊什么的都都调用的很好就比如说就是最简单你当然是他生成的模型你肯定是有执行反馈的

它最后呈现给你的基本上一定是一个可以跑的应用对吧然后它还可以有一些其他的工具什么 rollback 还有什么就是你可能到某个阶段你发现这一步生成东西它不是你想要的你会退回到前面去对我就是我会觉得就是这些东西哪些重要哪些不重要它取决于工具类的东西哪些重要哪些不重要它取决于这个具体的这个场景应用那些特定环境决定的就是很难就是通俗的讲说哪些是要的哪些是不要的嗯嗯嗯但是我看就是比如像在 VG 大家在做最后执行那一层其实好像主要是大模型多数的哦是就是现在像欧巴安你看二五年它

它的发力给你一时代 agent 很重的吧就是上来就是没有几个月已经先后发了 operator 啊那个还有那个 deep research 这些对但是我觉得所谓的 agent 就是 agent 公司还是有有自己的机会啊就是甚至你会看见我前面聊到一些很好的公司他们对这个话题也跟前面有点类似就你看他们都没有自己的大模型他们就是一个套客产品对吧就是但是他就是套基本套套套但是就是现在大家都用那个就是比如说很多一个开发者我我我开发程序的时候你会选择去用这些呃这些小公司的产品还是会去直接选择用啊

或者说你编程的时候你会用 Cursor,Windsurf 或者 Copyright 还是会去传送还是会问问题在 Cloud 或者 GPD 上我觉得还是大家会用这种集成的更好的产品因为他们提供的这种产品体验是完全不一样的它会更丝滑然后回到说大模型做的这些工具测我觉得他们一定是有优势的但是他们不见得首先大公司它很难做全因为我前面的观点是说 Agen 它是各个域这个域多如牛毛因为很难说我把每个域专精去做得很好我觉得强弱无能它也没有这个经历

举个例子你这个 operator 这个东西他当时刚出来的时候他给一些 demo 一些订餐一些其他场景什么旅游啊什么那我经常会问说我觉得这是一个伪需求你做这些没有意义或者说你真的有这个意义的话为什么说假设美国的 Yelp 或者国内的一些比如说点评美团的一些公司他如果能做出一样产品为什么我要上一个 openai.com 上去订餐对不对我觉得所以说大公司它发力的点是没有错的就是说像 D2Research 这种产品这种 agent 其实也是很有用的但是我觉得 agent

agent 这个东西它还是很吃领域的就是说这个领域比如说前面举的例子你如果是定产有些公司它天然的就有这些领域内数据的话它是有优势的好的谢谢陈光老师的分享然后我们最后一个问题就问一下陈光天一你们会认为对我今年来说大模型的 CNNOO 不是 DFC 的包括 OpenLand 和 Bunker 所以大家会从哪些方面去提高他们模型的 quality and efficiency 好请我先说两句

我觉得一个是回到前面说的就是 R1 的东西证明了大家在一个域上能做的好所以说一定大家会去刷更多的域去把它做到 sorta 对然后这个东西其实如果说大公司他想做一个通用的 AGI 的话我要在各个域上都要取得很好的表现的话我觉得 scaling out 还是需要的现在 scaling out 就成不成我不知道很多时候我可能更愿意理解为说是

大家看现在的效果不太好的说 GD4.5 前面刚出它的模型大了好多倍但这个效果的提升比较有限我会的解读是不一定是说它 scaling 到达到平均只是说大家方法可能还没有达到最优但是我会觉得不管方法对不对就是路径对不对但这个大模型是需要的对这些大公司因为如果你想做工程理解的话就一个理论的基础是说在一个足够大的模型里我各个不同的领域的数据我其实可以在某些映射的一些维度上他们是可以整交的换言之

通俗的讲就是只有当模型足够大的时候我才能在各个域内达到所在所以我会觉得说如果是像 OpenAI 这个级别的 Tubespa 它想实现永鸦家它想在各个领域达到一个超强人工智能的话就是模型还是要大就是至于这个这是从基本角度的一个考量就是当然大了以后它的体感会差大家会抱怨一下思念我试了一下就是有点慢但是这种只是一些我觉得人是会慢慢适应的或者说在 efficiency 上做的好对吧在 inference 上做的好它体感上也会好但是就是说你为了达成一件我觉得

我还是会选择相信说我们模型需要去做的天一老师有没有补充我觉得陈光老师说的都非常非常好我的理解是接来重点会放在如何让 AI 去盈利上因为资本都是主力的他不会去追求一切其实包括三毛他们自己我觉得他应该也是主要看重钱不是看重他本身其实因为我有好多朋友在 OpenAI 工作他们天天跟我说可以退休去做资账

其实没有人说真正有这个心事或者肯定会有这么一小撮人他会追求这个 EGI 但其实这部分人我觉得可能数量比较少所以对于企业来讲的话它本质上是一个主力的事情接下来可能会集中在于怎么样让这个 AI 能去盈利就比如微软的话其实 AI 盈利上做的不是特别好就包括 MindR 它其实也没有靠 AI 能给它提供多大利润还有很多这个初商公司其实也是挣扎在生死的一个边缘其实这个包括咱们做风投应该有很多内部数据对吧就不用我多说了所以

怎么样能让他那个影响并且让对这个社会负责我觉得这是怎么让能对社会负责是政府应该去管住的一个事情别到时候这个实现超级人工智能的时候所有人都失业了啊 efficiency 也跟影响相关他主要集中在这个怎么样去那个降低成本啊

所以它本质上依然是跟盈利相关的一件事情我相信这两块它现在会围绕着怎么样能让它一方面能盈利一方面能降本增强然后这样可以也能实现一个公开营业好吗不可能比较实际了好的谢谢谢谢今天三位加入我们 Worker 讨论十分感谢你们的加入我们这期就暂时到这好谢谢拜拜

感谢您收听本期 AI Odyssey 的播客如果您喜欢今天的内容请分享给您的朋友同时也欢迎您在常用的播客平台上留下宝贵的意见和反馈我们将继续为您带来更多有趣的话题和嘉宾敬请期待再次感谢您的收听我们下期节目再见

中美大厂研究员深度剖析：DeepSeek大模型蒸馏与RLHF技术技术解析 47:19 Share

AI Odyssey

Deep Dive

Shownotes Transcript

中美大厂研究员深度剖析：DeepSeek大模型蒸馏与RLHF技术技术解析