We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

91. 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”

2025/2/11

张小珺Jùn｜商业访谈录

AI Deep Dive Transcript

People

何

何俊贤

张

张小珺

活跃在人工intelligence和大模型领域的播客主持人和专家，通过《全球大模型季报》和《商业访谈录》分享行业深入分析和预测。

Topics

何俊贤: 我认为DeepSeek是一家非常独特的公司,它既开放又低调,并且在技术创新上非常务实和勇敢。从我最早关注他们开始,我就发现他们与其他公司不同,他们更像一个高校实验室,注重科学研究的严谨性,而不是盲目追求商业宣传。他们开源了高质量的论文,详细地公开了技术细节,这在当时是非常少见的。即使在竞争激烈的环境中,他们也没有随波逐流,而是坚持自己的技术路线,不断探索和创新。他们对成本控制和效率提升的追求也贯穿始终,这使得他们能够在有限的资源下取得令人瞩目的成果。总的来说,DeepSeek给我的印象是一家非常值得尊敬和学习的公司。张小珺: 我理解何老师的观点。DeepSeek确实是一家与众不同的公司,它的成功不仅仅在于技术上的突破,更在于其独特的企业文化和价值观。他们注重科学研究的严谨性,勇于探索和创新,并且始终保持低调和务实的态度。这种精神使得他们能够在激烈的市场竞争中脱颖而出,并赢得业界的尊重。同时,DeepSeek的开源精神也为整个AI社区做出了重要贡献,促进了技术的交流和发展。他们的故事告诉我们,真正的创新不仅仅是技术上的突破,更需要一种坚持和勇气,以及对科学的敬畏之心。

Deep Dive

Shownotes Transcript

让我觉得非常的尊重他们的工作其实他们的第一篇 paper 放出来就是他们的第一个成果,DeepSeek 的第一个大模型的 paperDeepSeek LLM 今天等会儿我也会讲到那篇 paper 我今天的对他们 paper 的讲解主要会分为两个方面一个方面是讲他们的基础模型的发展然后另外的一个方面我今天想讲到主要是他们在 reasoning 方面的东西

总结一下做一个概况就是我觉得从很早的时候开始 DeepSick 就有这样一种文化或者追求就不是纯粹的 follow 之前别人做的 practice 因为像 Lama,Mistro 其实这些都很权威然后我觉得 DeepSick 从一开始就有

包括最早的时候我们看到从 DeepSeek MOE 开始就开始探索比如说更多的 Expert 也不是为了创新而创新我觉得这种创新更多的是他们就真的想压低成本想让整个东西更 efficient 就很勇敢地做了这些尝试然后最后还是跟别人 diverge 所以说 DeepSeek 我觉得到后面它就跟别人越来越不一样

Hello 大家好,欢迎收听张小骏商业访谈录,我是小骏,这是一档提供一手高密度信息的商业访谈节目。2025 年这个春节,DeepSick 一举改写了全球 AGI 的大叙事,那在万般热闹之际,我们特别想沉下心来做一些基础的科普工作。

在商业访谈录第 89 期节目中,我邀请的是加州大学伯克利分校人工智能实验室的再度博士潘嘉怡,为大家对照讲解了春节前发布的 DeepSync R1-0,R1,Kimi 发布的 K1.5,以及 OpenAI 更早之前发布的 O1 的技术报告。这些模型聚焦的都是大圆模型的最新技术范式,RL 强化学习,简单来说就是 O1 的路线。

那今天这期节目呢,我邀请的是香港科技大学计算机系助理教授何俊贤他的研究方向是大模型推理,并且从很早就开始关注了 DeepSeek 的一系列研究我们会 focus 在最近引发全球 AI 界关注的 DeepSeek 上

何老师将会带领大家从 DeepSick 的第一篇论文开始,阅读经过挑选的这家公司历史上发布的九篇论文。我们希望帮助大家从一个更延续、更长期、也更技术底层的视角来理解 DeepSick,以及它所做的一系列的复现与创新工作。于是同时,也希望能让更多的人感受到技术之美。

今天这期节目邀请的是香港科技大学朱莉教授和君贤老师带领大家来做一个技术解读我们会 focus 在最近全球 AI 界关注的焦点 DeepSeek 这家公司上何老师会从 DeepSeek 的第一篇论文开始带着大家阅读并且解读 DeepSeek 关键的技术 paper 何老师先给听众朋友们打个招呼你可以介绍一下你的研究方向还有在 R1 发布之后你做的一些复现上的尝试

Hello Hello 大家好然后我是香港科技大学的助理教授何俊贤然后我自己的研究方向主要就是做大模型我最近主要在做大模型相关的推理所以说跟 DeepSeek R1 也非常的 match 然后所以说最近也做过一些相关的工作然后早期也做过大模型的 alignment 以及

评测方面的东西然后最近确实在 DBSK R1 发布之后几天然后我们有发布一个东西然后看成是他的复现但实际上那个工作我们从

可能差不多距离现在两个月之前就开始在做然后刚好跟 DeepSeek R1 做的一些就用的方法非常的类似当然我们是在更小的规模上当然后来在 DeepSeek R1 发布之后差不多五天的时间然后我们也发布了我们的工作然后相当于做可以看成是对它的一个付现整体

做下来还是比较顺利吧然后效果也不错然后我们现在目前也在对 R1 做一些更多的研究

哦我理解所以你们的工作其实是更早就已经开始了那这个整个的工作过程有没有一些积累的 knowhow 可以跟大家分享一下也不能叫复兴 R1 就是累 R1 的工作对我们的 knowhow 可能是我这里说的可能更偏技术导向就是我觉得就是最后大家收敛到了比较简单的东西上因为这个其实不光是我们我知道很多其他团队包括像 KMI 之前也发了 K1.5

然后基本上大家收敛到的最后做这个 reasoning 强化学习的方式都是同一套方式包括我们也是这里具体的 know how 就是我们之前试过很多复杂的东西其实都不是很 work 因为我们在可能半年多以前就在做这个事那个时候可能也会用

奖励模型就 reward model 之类的东西去做这个强化学习然后发现效果一直都做的不太理想然后后来也经过了很多的挫折因为这个反复的尝试其实都不是很理想然后最后发现就是最简单的东西就是你可能就不用这种奖励模型就只用 reward base reward 然后最后反而是最 work 的也就是最后 R1 的这个方式这个很有意思最后收敛到了比较简单的工作这个简单的工作怎么具体展开一下

嗯比較簡單的因為二萬在做強化學習的時候他就只用所謂的規則規則就是比如說他做數學題或者做 coding 就是你只需要檢測最後答案對不對然後 coding 可能就是有一些 unit test 去看他是不是可以 pass 這種就所謂的規則導向就是他沒有另外一個模型來幫助你判斷來給你獎勵來判斷你的生存對不對但是之前呢

在很長一段時間不光是我們就我覺得這個 community 包括 DeepSeek 自己今天也會講到相關的 paper 包括 DeepSeek 自己其實之前大家都是默認我們需要另一個模型我們俗稱獎勵模型來幫助判斷我的模型生成對不對然後用這一套來做強化學習然後這一套其實差不多有大半年整個 community 都是這麼在做但是這一套是走一些彎路對我覺得走了一些彎路當然也有可能跟

我觉得走这个弯路也跟 OpenAI 有很大的关系因为这个最早已经其实也是 OpenAI 在很早的时候发了一个 paper 就讲这个什么过程监督的奖励模型然后从那之后整个 community 相当于 follow OpenAI 这个然后就做但是 turns out 可能 OpenAI 自己最后做 one 也并不是这么在做就可能 OpenAI 这样去发这样的 paper 其实跟他们实际上做的事也不一样但是一开始大家会觉得既然 OpenAI 都发这样的 paper 说明 OpenAI 也是这么做的

所以说我觉得就也受到了一些欢哀的误导吧

那今天我们的节目形式其实是还是想请何老师来主讲 paper 和我们之前的节目第 89 期的形式一样他会带着我们读 paper 那中间我如果遇到不懂或者有疑惑的地方呢我是作为观众的视角来提问提问可能穿插在中间也可能在节目的最后那我们的主要目的是希望帮大家共同一起学习一遍 Deep Seek 最一手的最前沿的 paper 让大家能够感知到最前沿的 AI 世界到底在发生着什么

並且能從一個更延續和更長期的視角來理解 DeepSick 這家公司理解它是怎麼一步步成長並爆發成為今天的 DeepSick 與此同時也希望讓更多人能夠真正感受到技術之美

在正式開始之前我還是想做一些簡短的提問來幫助大家做一個定位何老師我知道你關注 DeepSync 非常的早並且你是 DeepSync 鐵粉你是從什麼時候開始關注這家公司的是什麼原因讓你對它格外的關注一些呢

我其实对 DeepSeek 的关注很早了可能在 22 年底的时候那个时候 DeepSeek 还没有成立然后因为 DeepSeek 它是换方下面的一家公司嘛然后那个时候我其实对换方就有一些了解然后当然原因也是我那个时候可能因为找工作的原因接触过一些就接触过一些换方的东西虽然我之前对

量化金融這個領域並不是很了解對但那個時候換方做了一個很特別的事情就那個時候換方就開始宣傳他們有 5000 張英偉達的 A100 這樣的卡然後但是也不知道具體用來幹嘛因為 5000 張在當時是很多的因為當時還沒有 CHAT GPT 大家還沒有對大陸神的這個概念然後 5000 張這樣的 A100 可能花了很多錢吧然後在當時我一直覺得這個事情很奇怪

然后焕方后来做了一个什么事呢就是那个时候也没有大模型但焕方他可能这个算力呢他自己也用不了那么多然后他最后搭了一个集群然后做了一套这样的调度软件的这样的一个系统然后开放给就免费开放给高校的这些科研工作者使用而且是免费的

对然后这个其实我一开始也没有用过因为那个时候我差不多就已经回高校了然后就接触了一下然后后来也找换方相当于合作尝试过使用这种算力然后后来我使用的感受其实非常的 impressive 因为

因為一開始可能更多的會覺得這個更多的是一種噱頭就是為什麼一個量化公司搞這麼多卡然後來幫助高校老師做科研還是免費的就感覺這個不知道這個目的具體是什麼然後那個時候對官方其實也不太了解就覺得可能更多有宣傳啊 PR 這些噱頭

然後後來我去嘗試用了他們那個算力的系統說實話覺得非常的 impressive 就是他們那個系統就整個的集群因為我知道他們集群是自己這樣去搭建維護以及自己 develop 了一套獨立的這個超算系統自己 develop 了一套比如說之間的這個算力的調度分配以及怎麼去使用這個算力他們那個時候應該中文名叫營火吧

叫營貨集群然後我後面用了一下覺得非常 impressive 因為換方本身是一個規模很小的公司他可能那個時候就 100 多人然後不像其他的互聯網大廠但是他用 5000 張卡做了一個非常成熟的我當時用起來非常非常成熟的一個超商系統我當然就覺得他們的人很厲害可能就是有一個這樣的感覺吧當然那個時候我我

隐约也知道比如说换方招人确实可能也跟比如说美国的量化公司差不多就是他们招人不多但是招人的把很高而且可能提供的这个报酬也比较的丰厚这是我对换方一开始的了解然后后来 24 年

不是 24 年 23 年上半年的時候 23 年上半年的時候我在 DeepSeek 成立之前我大概就知道換方要孵化一個這樣的公司對然後在那個時候還不叫 DeepSeek 就還沒有這個名字對然後那個但是我就可能從某些渠道就知道換方可能有打算想做這個事情

看不看不可能定位就想孵化一個像 open ai 一樣的就是去探探探索 agi 的一個公司而且就是他們想自己孵化然後那個時候說實話包括我在內很多其他人也不是很看好因為那個時候

国内其实已经有很多公司已经在做了而且不乏很多的大厂就换方的这个起步我觉得其实是有点偏晚的因为那个时候国内大家都已经开始跟进了然后换方他作为一个量化公司他跟比如说其他的互联网大厂

不一样他们可能本来就是做 AI 的就有很多的积累但换方他本身并没有太做过 AI 然后就现在突然出来说要做大模型再加上那个时候国内的大模型也是百魔大战的阶段就不管大厂小厂反正都很多人在做那个时候其实一开始包括我在内大家我觉得也没有特别的看好对然后就只是知道他们做这个事然后就反正就国内又多了一家 startup

然后后来他们反正就开始做了开始做后来第一次让人觉得非常的让我觉得非常的就是尊重他们的工作其实他们的第一份 paper 放出来就是他们的第一个成果就是 deep seek

的第一個大模型的 paper 就 deep seek llm 對今天等會兒啊我也會講到那篇 paper 然後那個 paper 呃質量很高然後又開源因為那個時候本來質量高的做開源的就不多對不管是國內在世界上其實也不是很多然後然後換方式完全開源而且也寫非常詳細的論文然後去公佈他們的技術細節

其实这个在当时世界上是很少见的因为很多大部分厂商是不会写论文的也不会开源开源的可能很多也不写论文写论文的可能其实也写得非常的敷衍可能也不太会写很多很具体的东西但是换方当时就 DeepSeek 吧当时写的论文和开源整个都做得非常的像学术界的风格

對然後他們也不太有太多鋪天蓋地的宣傳或者去做這樣宣傳流量他們也不太做這樣的事好像就是很像在高校的實驗室一樣就這樣去做了一篇 paper 然後做開源就比較的踏實從那個時候我就覺得他們很強而且很喜歡他們的這種 style 然後當然後來他們就一路都做得很好當然他們其實是直到最近

我覺得才獲得了他們值得的關注吧因為他們其實之前一直做得很好但是在國內尤其是對廣大的這個普通用戶來說大家可能並沒有太聽說過他們我覺得可能跟他們也不太喜歡宣傳有關係

而且他們產品發得非常的晚對對對他們可能不太著重 2C 去這樣做產品但是他其實在學界就在我們眼裡其實影響力一直很大對一直做得很好我覺得他們也是值得這樣的一個影響力你剛才說就是第一篇讓你尊重的 paper 就是他們的第一篇 paper 那個時候其實已經到 24 年 1 月份了對吧對已經到 24 年 1 月份了

你对 DeepSync 做了很多的 research 整体来说 DeepSync 的研究工作有没有透露出这家公司一些底层的基因和一些非常有一致性的共同的特性对有的我觉得 DeepSync 是一个非常 unique 的弹幕型公司首先它非常的开放

就是不光是开源然后就像刚刚提到的不光是开源他们其实写 paper 也非常的 honest 就是会写很多的技术细节然后去公开很多的 detail 我从这个角度我觉得是非常像一个高效实验室的其实不太像一个所谓的商业化的公司虽然他们现在也没有真的很商业化但是可能就跟一般的公司不太一样我觉得这一点他们很像是一个高效的就纯做科研的实验室

對我覺得這一點風格是非常獨特的然後第二點就是他們作為一個這樣的公司來說在公司來說在當時那樣非常激烈的百魔大戰的這個

Context 下面他們其實並沒有非常浮躁因為那個時候可能特別是在 23 年下半年到 24 年初那半年時間其實國內的大模型是非常非常浮躁的就是那個時候當然國內彼此競爭也很激烈就那個時候可能大家也會經常看到媒體的宣傳就突然又有什麼 performance 又超過 GPT 了對吧又超過 CHAT-GBT 又超過 GPT-4 就可能大家一直在超過 GPT-4 就這種感覺

對然後但是在那個時候其實非常閒又去報導 DeepSeek 的工作對然後非常非常少對就儘管他們有這樣的 paper 或者怎麼樣但是其實尤其是國內一些知名的公眾號其實非常非常少去報導 DeepSeek 雖然現在大家每天都在 DeepSeekDeepSeek 但那個時候其實非常非常少所以說我覺得這個跟他們很低調也很有關係對我覺得他們的風格就是很低調然後又很開放然後他們好像也沒有

我覺得他們好像可能也沒有太感受到就是至少從我的感官來講他們可能也沒有太多的那個高壓的那個環境就不是在一個非常高壓的環境下在做大模型因為今天我可能等會會講到 paper 也會提到我覺得他們的很多技術上的創新其實是非常勇敢的因為大模型的投入很大你可能投入很多很多錢進去

你去搞一個什麼創新如果最後失敗了這個前程那裡就白花了對我覺得這個在很多其他的團隊的模式下是不被允許的因為比如說可能投資人或者說公司的領導他給你這麼多資源其實是會有一個要求的

对就比如说我一定要三个月之后我要做出一个什么东西一定要超过谁谁谁然后不然的话就不行所以说我觉得大模型团队在那那一段时间其实大家的压力都是很大的但是 deep seek 就给人感觉好像

他們的壓力就會小一些就他們做反正做得好了他們好像也不會太鋪天蓋地的去宣傳去做什麼然後他們就是非常踏實的繼續做下一個模型就整個也一直保持一個很低調的態度我覺得這個是他們比較 unique 的地方能不能先跟我們講講你會選擇哪幾篇 Deep Seek 的 paper 進行重點的解讀

我今天的对他们 paper 的讲解主要会分为两个方面一个方面是讲他们的机座模型的发展机座模型的发展可能就主要从最早的第一篇 deep-seek llm 开始然后到后面的 moe 的模型 deep-seek moe 然后到 deep-seek v2v2 就开始是一篇很重要的 paper 因为他们就开始做更多的创新嘛然后就到因为 v2 到 v3 到 v3 基本上这个

gap 就很小了就 v3 的些很多创新主要是 v2 的时候做的所以说到 v2 然后就到 v3 v3 就是最近的这个模型其实就是 r21 这个模型的基座然后基座的这一方面我可能就会主要 follow judge paper 然后然后另外的

一個方面我今天想講的主要是他們在 reasoning 方面的東西 reasoning 方面的東西可能最早的時候是從 Deep-seek coder 開始到 Deep-seek mathDeep-seek math 其實也是一篇很重要的 paper 因為 GRPO 是這篇 paper 提出來的然後 Deep-seek math 到後面可能我會非常簡單的說一下比如說像 Deep-seek prover 就是他們做定理證明但這個可能就不是特別的重要然後到最近的 R1

对其实这也是我觉得也是 deep seek 的一条线就他们有一条基座的发展线以及有一条专注于推理的发展路线嗯

听起来他的技术路线其实是有高度的一致性和就是像线性外推的这个逻辑性和延续性的你觉得这些论文能多大程度的帮我们理解 DeepSeek 这个公司或者这个 Lab 对我觉得这个论文还是可以帮助我们理解很多的因为他们的论文写得也很详细然后我觉得比如说从论文一步一步的这个创新的来看我觉得也可以看出他们的是有一个很强很强的创新氛围的就这样一个 team

Deep Seek 被海外人士称作一股来自东方的神秘力量在你看来 Deep Seek 神秘吗其实我觉得也没有那么神秘因为可能海外的很多

很多人可能是從最近才關注他們就覺得他們怎麼突然就做出了一個很強的東西但其實作為業內人士來說他們因為他們的論文也都是公開發表的嘛其實他們還是相當於過去這一年也是踏踏實實慢慢走到了今天所以說我覺得也還行那接下來我們就把主場交給你交給何老師我們一起進入論文的學習時間

嗯行好呀好呀那个我嗯这就像刚刚说的我主要从基础模型和推理来分享一些 deep seek 的工作然后因为今天可能我主要还是觉得是科普的性质吧所以说挑一些比较重点的讲一下尽可能大家可能 high level 里可以明白然后今天我的那个讲解主要会关注在文本就只是文本模态虽然其实 deep seek 在过去一年也有几篇做多模态的论文但是

但是多摩泰其实并不是 deep seek 至少不是过去这一年 deep seek 主要发力的方向所以说今天也因为时间关系我今天就不会讲这些多摩泰的东西然后我主要讲文本这一块然后我可能会在有些 paper 我会简单 share 一下屏幕然后可能方便方便大家理解一些然后我先从第一篇 deep seek 我来 share 一下先从第一篇 deep seek

哎喂喂喂对应该可以看到我这个区别嗯可以看到 ok 嗯这个工作呢嗯简单说下的定位这个工作其实是第一篇啊 deep seek 就相当于航空出世的一个弹幕型然后也是开源的然后这个工作呢其实没有太多特别的创新因为这个工作是呃

大家可以看成这是对 Lama2 的一个复现因为那个时候 Lama2 可能刚出来就是 Meta 的 Lama2 然后 DeepSeek 他作为一个初创公司他一开始我觉得也非常合理他肯定是要先试一下比方说他们第一次做这个事情然后可以 reproduce Lama2 的 performance 然后去做这个事情所以说这个工作的大部分

绝大部分内容其实都是 follow Lama2 当然在 data 上面是不一样的比如 DeepSeq 其实是一个中阴的模型然后 data 的准备上可能也会质量更高但是整个的 model 的 architecture 包括一些 trainning 的方法这些其实都跟 Lama2 是完全一样的然后这里 highlight 一些

几个比较重点的地方吧然后这个模型主要是两个 size 一个小的一个大的 7B 和 67B 这个也也是对比 Lama2 其实也有 7B 比如说 70B 的模型然后后面

就出了两 T token 这个基本上也是和 Lamma2 align 然后后面就做 SFT DPO 这样的我们叫后训练然后到 Evaluation 其实这里说了他们其实最后超过了 Lamma2 70 币这个也很正常因为就因为 Lamma2 发布在前嘛然后后面的工作基本上去做就大家反正就是让数据的质量尽可能的变高然后就在当时其实国内有不少的模型都是超过了 Lamma2 70 币

这是大概的一个 abstract 然后我可能这个论文我会主要讲一下

他们几个我觉得体现出他们有一些非常严谨的科学态度的地方我觉得这个是我想着重讲的当然具体的 architecture 这些内容其实跟 nama2 一样这里就不细讲了它也是 transformer 然后模型 size 为了跟 nama2 相比其实也是差不多的然后这里面主要有一些比较细的地方其实他们跟 nama2 也是有区别的一个是

narrative schedule 其实在当时大家做大模型的训练一般都是 cosine narrative schedulecosine narrative schedule 就是你这个模型会发了一个 cosine 的函数然后慢慢变小

就模型的 linear rate 会 follow 一个 cosine 的函数慢慢变小但这样有一个问题就是因为你这个函数一开始指定的相当于我一开始就要指定我要存多少 token 但是很有可能在实际于训练的过程当中大家的这个训练的数据量可能是会动态变化的就相当于我先训了多少然后我可能突然准备了一份新的数据然后我可能想要加那么这个就会给这个 cosine 的这个就不太好改就相当于你在开始训之前我就把这个东西都指定好了

所以说这个东所以说这个 paper 用了一个不一样的 Linearated scheduler 就是他们叫 multi-step multistep linearatemulti-step 就是我一开始 Linearated 可能是一个常数然后迅迅迅迅到什么时候哎我突然把把它变低然后再按照一个常数就是它不是一个非常 cos 的函数然后这样的话当然这个 figure1 并不是画的他们的 Linearated scheduler 因为它都是曲线嘛然后当然他们发现这样其实最后跟

这样最后跟那个 cos 其实最后的 performance 也会就是一样的所以说他们就用了但这是一个非常非常小的改动然后第二点就是我想说的是他们这个 paper 跟 nama2 有一个很大的区别就是他们做了非常仔细的 scaling law

我简单说一下 scanning law 是什么 scanning law 大概就是说我想要有一个这样的预测函数就是我希望比如说提前知道我有多少的这个算力然后我最比如说我有多少的算力我应该称多大的模型用多大数据量的用多少的数据以及用什么样的超参数然后是最优的然后我希望预测这个事情因为大模型的实验代价非常大所以说大家

就会用 scanning load 然后在这之前有非常有名的像 Chinchina scanning load 这个是 Google 做的然后 Chinchina scanning load 本身就是说你存你有这么多算力比如说你存 70 币的模型你最后你就应该用多少这么多数据这么多大小的比如说多少 t token 的数据量然后这是 scanning load 但是这个 paper 对 scanning load 做了一个非常严谨的 study

我觉得第一个就是他们因为以前的 scaling node 更多的就是关于模型大小和数据大小的但是 paper 他先是对超参数做了一个 scaling node 超参数做 scaling node 大概就是比如说 figure3 这个图然后 figure3 这个图就是说我算力逐渐增大我的 batch size 和学习率应该怎么变然后比如说他们可能在这方面做了一些很严谨的 study 然后来 identify 他出大的模型

他的超参数到底应该怎么设置这个东西其实我觉得就是一个

怎么说呢非常严谨的一个 study 这是第一个我觉得他们某种程度还挺像高校的地方因为对于业界来说其实大家也不是很 care 这种 paper 的发表然后我可能大家比如说我如果想附身 Lama2 我可能就是 follow Lama2 的设置然后我直接稍微调一下参伪春就结束了实际上应该大部分人也是这么做的但这个 paper 不一样他在超三数就开始画这种图就开始做一些很严谨的我们叫科学事业

對然後就是他想要去知道背後的這個科學是什麼這個 science 比如這個函數形式是什麼我覺得這是一個非常非常學術風格的一個地方然後比如說這是第一個 scaling node 然後第二個他們做的很不一樣的就是這個地方

這個地方就是他們覺得首先這個超三速的 Scanino 其實之前很多 paper 並沒有做過就包括很多春大模型的人並沒有做過之前大家一般像是 China Scanino 可以何老師這種你能不能稍微給我們解釋一下

解释什么大概什么叫超参数的 scanning law 什么的 OK 因为大模型的训练会有一些所谓的超参数比如说我训练这个模型我应该用多大的学习率然后用多大的 basic size 这些 basic size 和 learning rate 简单来说它的概念就是我把这个数据往 GPU 上位然后我一次要为多少条

对差不多就这个概念然后这些所谓的参数设置会影响你的训练的效果对然后但是一般的 practice 大家就是可能有一些经验值就比如说你看之前某个 paper 用的什么你就跟他用一样的

对然后然后因为因为你这个其实是经不起大规模的实验的因为你不是说不能说你吹很多个大模型然后都去吹一遍看哪个更好对因为这个训练非常的训练非常的昂贵所以说这个是不现实的那么那么这斯基丁多的意义就是比如说我在

小模型上面比如说我现在有 1B 2B 的模型我做了很多实验我知道什么超参数好比如说我有 1B 2B 3B 然后我可不可以外推比如说外推到我存 70B 我直接就可以预测最佳的设置应该是什么然后差不多这就是所谓的 skinning law 你比如说他这里发现我的训练算力规模和我的 basic size 的设置差不多呈现一个这样的

power law 吧就就是有一个这样的函数关系函数关系那么那么我可能我实际上做实验我只有比较小的模型的这些点但是我因为有这个函数关系我就可以知道哎当我有很大的算力穿一个很大模型的时候我的这个参数应该怎么设置

对这是这是 scanning load 的意义就是外推性质因为它可以帮助大家在小模型上实验然后就可以外推大模型应该怎么设施因为大模型我们的算力可能只能够让我们虚一遍而不能尝试多次对这就是 scanning load 的意义

然后这是关于 happy parameter 然后之前的 scaling law 更多的是关于 model 的大小和 data 的大小的对就像之前的井青那包括 lama2 其实也是 follow 井青那的 scaling law 大概就是说这个 scaling law 大概就是说你如果穿 70B 的模型

你最优的配置就比如说我假设我有这个算力我这个算力到底应该用来称多大的模型和多少的数据是最优的就假设比如说我现在有一千张卡一千张卡假设我就只能用三个月三个月之后这个卡就被收回了然后这就是一个就像你的算力是固定的

那么你的算力是固定的情况下那就必然存在一个最优的配置那么这个算力情况下我应该 train 多大的模型用多少的数据能够最后得到最好的效果这是之前奇奇那斯跟尼诺要解决的一个问题然后他们理合出了一个经验公式比如说他就指定我 70 币模型我就应该配比如说 2T2 万亿这个 token 的数据

假设你的算力更多那你可能就应该穿更大的模型然后 data 也会怎么变然后差不多就会就这就是一个最优配置的一个函数关系当然这个函数关系这里我不需要细讲因为这个之前有人做过来我这里主要是要强调比如说 DeepSeq 这篇 paper 其实是某种程度去 challenge 了之前 GCNA 的函数关系对因为他们觉得之前比如说 GCNA 对于模型的 scale

的考虑因为他就考虑模型有多少个 parameter 但是他们实际上在把这个 parameter 转化成算力的时候他们可能并没有太考虑到比如说像我这里 highlight 的这句话他们并没有考虑到这个 computationoverheadoverattention 对然后然后就会他就会觉得之前的这种估计其实非常的粗糙

对就不精准然后他最后就搞了一个新的估计其实就是下面这个公式二就是之前的比如说他可能有一个公式是我这个模型有多少层每一层有多大然后去估算我这个大概是一个需要多少的所谓的 flops 就是一共需要多少次多少次这种伏点数运算

他是一个算力估测的单位但是 deep seek 这个 paper 就不一样他就觉得之前估的不准然后他就觉得我要把它腾现把这些都考虑进去他最后就搞了一个新的公式然后就是这个 m 这个公式其实跟上面的公式长的也不是其实长得也很像因为他第一项可以看到都是一样的但是他可能后面有一点不一样然后后面有一点不一样呢最后就会造成一些微小的差别然后这个微小的差别呢事实上对于

这个 skinny note 对于这个理解就会有一些区别就对于我到底应该什么样的函数我应该怎么外推嗯就会有区别所以说呃

所以说 DeepSeek 在这里其实就开始做了一点虽然这个创新并不是很大但是我觉得这是一个点可以看出 DeepSeek 的一个态度就是他们是把这个当成一个很严谨的 science 在做因为他们其实完全可以就 follow 包括 Lama2 包括当时世界上其他的公司的一些 configuration 就直接跟他们做的一样我把 data 弄好一点我其实存出来的模型也可以很好

對但是在 DeepSeek 在做這個事情的時候他就會嘗試真的去理解這背後的 Science 然後他覺得之前的工作可能有做得不太精細的地方他希望嘗試去 Fix 它

而且之前的这些工作其实都是来自于一些很权威的地方比如说像 China Scalino 其实是 Google DeepMind 做的是非常权威的一些 paper 然后包括像 Lama2 也是 Meta 做大家知道也是这个标杆但是 DeepSeq 就我觉得大家可以看到他其实很务实的他会尝试像就很像一个学者在想去 review 这背后的 science 对所以说

然后他觉得别人做的有些粗糙的还是用把它做的更精细一些啊我觉得他就不是很盲目的这种就 follow 别人然后我自己搞一个模型然后效果去调一个好的效果这样子对然后我觉得这个是一个可以看出他们底层有些不一样的地方对嗯其实他这个 paper 主要还是附现但是他修复了一些就其他人做粗糙的地方他把它调的更精细了嗯对对对可以这么理解可以这么理解然后呃

然后 scanning law 的意义其实就会体现在 figure5 其实在 gpt4 的 paper 里面画过一张非常类似的图 scanning law 什么意义大家看到 figure5 这个横坐标大家可以理解成算力 flops 就是多少次浮点输赢算比如说大家可以理解成比如说这就是 1000 张卡差不多就是从左边往右就一个月两个月三个月对大家可以这么理解然后纵坐标就是它的 performance 就是越低越好

越低越好然后然后这个灰色的点呢灰色的点呢就是我实际上自己吹过的一些点比如说灰色的点大家可以看到它是偏左的它在左边就表示哎我可能只用了小比较小的算力那比如说像我刚刚举的例可能就是比较小的模型然后吹了吹完了然后我知道他 performance 多少我就可以画了这个图上面然后这个 skinnyo 有什么意义呢它可以帮助你预测就比如说你画这个图你就拟合出了这条虚线对吧

你又说了这条虚线然后他就可以预测哎你的这个算力到很右边的时候比如说我 1000 张卡春半年我春出来的模型大概会是什么效果他就可以预测出来然后这个预测的意义其实非常非常大的因为他相当于你用很小的代价你根本就没有做训练你就预测了假设你做这个训练半年之后你的模型什么效果就被你预测出来

对然后 gpt4 嗯画过一个类似的图就是他们也展示他们是非常精准的相对精准的预测出了 gpt4 的效果就是在春之前在春期比的 4 之前然后 deep sake 这个图相当于也是相当于同等的去展示了嗯他们比如说对 skenning 的理解离合出来的东西他们也精准的预测出了他们实际上春的这个大模式

对像右边的大的五角形就是他们最后 67B 的模型小的五角形就是 7B 的模型然后左边的这些灰色的点其实都是一些只用少量算力就存出来的东西相当于他们也是展示了他们的对背后 sense 的理解他们的训练是非常正常的然后可以精准的预测大模型的效果

对然后嗯这就是关于 skinny 诺的意义然后其他的呢其他的呢然后基本上就

就做的其他的部分做的跟 nama2 差不多但这个 paper 主要的其实就是 scanning load 的理解他们写了很大的篇幅包括到这里其实我这里高量的都还是在描述他们的 scanning load 是描述 data quality 比如说会影响这个函数形式其实这些问题之前并没有被很多的讨论过然后像这些部分就是从我们看来其实是非常偏高效实验室的 style 对

然後就是他非常嚴謹的去分析這個問題到底怎麼回事而不是說我就把資源堆上去我就串一個模型然後效果不錯我就這個事情就結束了對然後我覺得他們在他這裡面有反映出什麼對 Skinlord 的洞察沒有

比可能当时其他的 labs 更深刻的一些洞察就比如说他刚刚我提到的他们觉得之前的估计太粗糙他们可能 propose 了一个新的估计然后包括像这一个洞察也是之前没有太被提到就是他们会觉得不同的 data quality 会影响 scanning 就是他觉得我的 data 质量高一点质量低一点我的这个 scanning 就最优的这个配置 model 和 data size 的配置是不一样的

对但是之前大家可能并没有太考虑这个问题大家就会觉得虽然大家知道对它 quality 很重要但是大家会觉得这个可能对最优配置的影响不会那么大或者说大家也不知道这个影响具体是怎么回事对 23 年的时候大家对于 Skinning Law 还是觉得它是一个暴力美学没有很多人去强调数据的质量但是从 DeepSeek 最新的它的产品来看的话他们的数据质量应该是从一开始就用得非常的好

嗯對的對的他們從一開始就就是很強調數據指向的然後這個 paper 我就可以看出他們其實希望去 build 這種所謂的我們叫理論模型或者說這背後的科學去更好地理解這個事而不是說把它當成一個經驗上的事情對然後我覺得這個理論模型因為 Scanning Note 本質上你可以認為是一個理論模型就是它有一個函數嘛就有一個數學的公式

對然後然後我覺得這這其實是他們風格的一個體現因為他在這個過程當中用一個很嚴謹的態度去理解這背後的很多科學其實會幫助他們未來去 develop 越來越好的東西對而不是說就是一個純經驗的就是把什麼東西搞到一起自願堆上去然後就開始就開始暴力的就這樣弄對啊我覺得我覺得這個是一個呃看得出來他們很嚴謹的地方然後嗯

然后这个 paper 后面主要 performance 这里就不说了基本上因为他们是相当于是附现 nama2 嘛然后主要就是跟 nama2 做对比然后 performance 比如说像这个表其实英文上跟 nama2 是各有千秋然后中文上肯定是好很多因为 nama2 本身并不是很强调中文然后这个从一开始就是强调中文能力所以说这个 performance 也是意料之中然后这个模型呢 67 币都是开源的所以说在当时其实这个东西开源出来已经是国内

最強的開源模型之一對儘管這個大家好像也不是很有名對但是其實他們是很強然後但是這個 paper 主要就是對拉曼圖的一個附現然後我這裡這個 paper 最後我想說的一個點是一個我當時覺得就從我們的角度來講非常的我覺得非常的 respect 的一個點就是他們這個 paper 非常開誠不公的講了刷榜的這個事情

对因为那个时候我为什么对这个事情有感触呢因为当时中文的一个这个榜单是 Evil 其实是我们做的就是 23 年 5 月份的时候这相当于是这个 CEvil 应该是大模型中文的第一个榜单对然后当时我们这个榜单做出来在很短的时间开始有非常疯狂的刷榜的情况

对在我们这个榜单上面包括 cevo 当然到现在依然是比较标准的就用的人很多然后当时我们这个做出来就大家做这种 evaluation 的目的呢是我希望帮助大家就大家包括商业能力有史中文的但我们希望帮助大家去评价大模型的表现

对就比如说你这个分数高一点你这个大模型表示能力强一点这个在刚开始的时候其实这个是非常标准的而且也是非常正确但是后来呢我们因为有了一个这个榜就开始虽然也不是我们有意的但是我们当时觉得我们就是直接或间接的加速了国内当时大模型的这个刷榜的这个行为因为当时一开始 sable 其实基本上是唯一的一个中文榜

然后大家就开始刷然后后来我们就很苦恼因为大家把这个榜单就刷得很高然后就开始出现一种现象就是所谓的高分低能的现象就很多大方星它的这个榜单很高但实际上又不太行

但是大家都有一些刷榜的行为大家也不讲就比如说各个公司可能大家宣传就会说我这个榜超过了谢谢然后可能到后面大家意识到这已经是一个比较可能大家不说的一个秘密大家其实都或多或少的有做一些刷榜的事情但是大家不会讲就没有人会讲他们刷榜也没有人会讲就算写 paper 也不会讲这个事但 DeepSick 以一种非常科学的态度

來做了對照實驗講這個事其實就是這個表然後這個表什麼意思呢就是他們發現我用因為這些榜其實基本上都是多選題嘛就比如說數學高中大學考研然後數學啊物理啊生物啊這些選擇題多選題就四選一反正你選對就分就高嘛就考試題然後 DeepSeek 他們做了一個很對照實驗就發現我如果要刷榜我只需要搞很多多選題然後去訓練

我就可以就做這一件事情我的這個榜單可以瞬間高 20 多分對你比如說這個表格就很清楚這個 Cevo 就是一個中文的這個考試題這個東西是我們做的然後就比如說本來這個模型只有 47 分但是我如果去刷一下我就可以到 71 對

可以看到這個 gap 是非常大的當時這個事情給我的感觸很大因為我覺得 DeepSeek 真的非常的誠實就是他們明明可以刷就是他明明可以把這個東西刷了就是說我們的分數就很高很高很高然後但是他們不講他們就要報他們刷之前的效果然後去講他們如果刷可以刷到這麼多然後而且去講這個刷板是可以這麼做的就是當成一個 paper 就把這個東西寫出來了在那個時候是沒有人寫這個事情

對然後我就覺得這個公司非常非常的誠實而且他們好像也不太追求說我要搞什麼宣傳他們就真的很像一個學術的人物對學術圈會這麼寫嗎一般學術圈我們會寫我們會寫就比如說我如果想專門探討刷榜這個事情我可能就會做一些變量實驗然後把我的結論寫出來對但是對於公司來說他可能不希望別人知道他是刷榜刷上去的對然後他可能就希望別人知道我的模型就是這麼強對但這個台會把這個東西寫出來

然後相當於他他是我覺得是比較早期那個時候其實還有另外一篇統計 paper 寫了一個類似的事情那兩篇 paper 我都非常的尊重然後 deep seek 是最早的這兩篇之一吧然後然後開誠布公的做對照實驗而且是一種很嚴謹的對照實驗的科學的態度講了這個事情啊這個事情我覺得是非常非常的讓我這是為什麼這個第一篇 paper 儘管當時復仙喇嘛 2 的工作有很多

但是 DeepSeek 为什么这篇 paper 就至少让我觉得我非常的 respect 可能从那个时候我就觉得 DeepSeek 这个公司非常的好我觉得就是因为这个地方因为我自己很有感触因为 Cevo 是我做的我那个时候因为那个榜单就是我们在维护所以说我对这个刷网的这个行为有非常非常多的认识和那个感触

然後包括後面我們其實在 24 年上半年有做一些新的 evaluation 然後相當於我們為了杜絕這種刷榜的行為然後去做一些新的 evaluation 去看到底哪些模型刷榜哪些模型沒有但那個 paper 我就不仔細講那個是我們的另外一個工作但那個 paper 我們比如說也去 evaluate 了國內的然後包括國外的包括 deep-seq 的這些模型然後我們其實最後是發現 deep-seq 的 release 出來的這個 base model 其實是沒有刷榜的

但是相比之下其實像國內不少的這些模型其實看起來分數很高其實是有刷榜行為這是另一個讓我覺得對 DeepSick 很 respect 的地方因為我覺得他們在國內那麼浮躁的那個半年大家都刷榜了半年但 DeepSick 他是堅持沒有去做這個事情而且他還把這個事情寫了出來

對然後就寫到了這樣一個 paper 裡去做了一個資料實驗這個表其實雖然在 paper 很靠後的地方都 21 頁了但是其實是當時我們包括其他人去理解刷榜行為一個很重要的結果就是這個表 By the way 你剛才說另一家公司也寫這個對比對照實驗的公司是哪一家是 skywork 就昆侖萬維吧對然後那個 paper 其實也很不錯他們也寫了這個事情

基本上是同期的就是这两个工作然后其他的我就没有太多要讲的这是第一篇工作对 DeepSick 的第一篇 Nama2 的复现然后在里面去公开了刷榜的行为然后而且严谨的去揭露了刷榜这个事情然后去告诉大家你如果想刷榜你应该怎么刷我觉得这个是在当时的环境下是跟别人很不一样的一个地方

然后这是 DeepSeek llm 型然后接下来我就要讲第二层工作然后我打开一下 pdf 重新下一下屏幕

對我分享了第二個 pdf 這個是 MOE 對吧對 divsic MOE 因為我的第一章還是講機座模型這是它的第二個機座對第二個機座相當於從第二個機座開始其實 divsic 就開始變成我們叫混合專家模型對中文叫混合專家模型就是 MOE 因為它的第一個模型其實是還是我們叫 dense model

Dance Model 就是稠密模型它因为还是 follow Lama 因为 Lama 一直都是做稠密的然后 DeepSick MOE 就开始做能不能给大家解释一下 Dance Model 和 MOE 它的不一样的地方对我就是正准备讲一下这个事情就是 Dance Model 它就是一个普通的 TransformerTransformer 就是我有一个 tensin 然后我过了一个然后每一层就是我个 tensin 然后过了一个比较

就是普通的这个 Feed forward network 就是普通的一个神经网络大家可以理解对就很普通然后可能我穿我这个 Lama 呢什么东西就是大一些然后 MOE 呢它的一个有一个很大的区别是什么呢我他这个 paper 应该有个图我对着这个图

对对了这个图这个 figure 2 其实这个 ABC 都是 moe 他只是说讲了一些不一样的 moe 但是这个什么意思呢就是我把这个 transformer 里面的比如说神经网络分成了好几份每一份比如说通俗一点讲都是一个专家所以说他叫混合专家就比如说像这个 figure 2a 他就是 1-n 大家可以认为就分成了 n 份

非常难分呢然后我就是混合专家然后我假设现在有 data 进来然后想要预测我可能不会经过所有的专家就比如说我可能有个专家是擅长数学的有个专家是擅长物理的有个专家是擅长文学的那我可能我过来的这道数学题我就只用第一个专家就可以了其他的专家是不需要用的

對這就是所謂的混合專家模型混合專家模型又叫吸收模型為什麼呢就像剛剛說這個概念就是因為儘管你有 N 個專家但是你可能過來的數學題你其實只用上了一個專家你其他專家都沒有發揮作用所以說它就所謂的是吸收的然後稠密模型就是你隨便進來什麼東西它所有的東西都在發揮作用所以它就是稠密的對然後這是一個比較通俗的理解然後為什麼大家要做混合專家它有什麼意義

其實 DeepSeek 做 MOE 並不是他他並不是說他第一個做因為因為在那個時候首先 MOE 很早期的時候

就有比如说很早很早的时候可能 CHAT 的 GPT 出来之前其实 Google 就有 Moe 的 model 那个时候叫 Gshard 然后后来其实在 DeepSync 做 Moe 之前其实那个时候就已经有广泛的谣言就是说 GPT-4 和 GPT-3.5 都是 Moe 的 model 所以说他们才能做到那么便宜

因為如果 GPT-4 比如說拆 GPT 真的是一個一兩百幣的模型然後在當時的那個價格下大家會覺得是不可能的對因為是太便宜的所以說大家就會覺得而且這個謠言應該也是真的後來有多方反正各種各樣的渠道都開始說這個謠言

就是说 Chad GPT 是 Moe model 所以说他们在 Inference 的时候可以把成本降低对然后所以说 DeepSeq Moe 其实 follow 这个也是很理所应当的一个事情然后为什么 Moe 很重要因为包括到后面其实从 DeepSeq Moe 开始到 V2 V3 其实都是 Moe 包括到 R1Moe 为什么很重要因为就像刚刚的这个图我觉得通俗一点理解就这样的因为他是一个混合专家

因为它是一个混合专家你在部署的时候你过来一个东西它只用到了其中少数的专家那么大家这个通俗的理解就是它没有用上所有的参数对就比如说我这个模型虽然有 100 币那么大但是我 100 币如果分成 10 个专家你只用到一个那可能你每一个数据过来你做预测你只用到了 10 币的参数

这就是所谓的激活参数用术语讲这就是所谓的激活参数你的 MOE 模特虽然很大但是你激活参数可能只是所谓参数的 1/10 那么这个就会带来极大的训练和推力成本的下降

对就相当于你本来看起来是一个 100 币的模型很大你推理本来很贵也很慢但是实际上你这 100 币因为你分成了 n 份然后你每一次只过其中的一两分然后你其他份根本就没过就是你这些相当于你过其他份的算你根本就没有就计算根本就不需要去计算所以说 moe model 非常的 promising 它是一种帮助你可以 scale up 就是你模型可以出很大但是你同时推理成本又可以很低的一个方法

對所以說它是一個非常非常適應人的一個架構就一種模式所以說 DeepSeq 從這個時候開始不光 DeepSeq 其實後來其他的很多模型其實也是開始 move 到 Moe 的架構因為推理他們是做 Moe 比較早的嗎對算是比較早的因為這個 paper 也是 24 年

1 月份吧对吧 24 年 1 月份出的对而且而且他们在这里面有做一些很不一样的东西啊啊当然我接下来会讲的对啊然后嗯然后然后这个 paper 呢这个 paper 呢其实不是一个非常的 ready 的一个一个嗯一个一个模型产品吧因为因为这个 paper 跟那个 deep seek 的刚刚讲的那篇 paper 不一样那篇 paper 是

他们比较 seriously 的把这个东西穿完了然后做出来了这个模型然后就 release 给大家

這個 paper 更像是一個 study 就 study 他們的一些算法或者策略或者說我其實是認為這個 paper 是在為 DeepSeek V2 鋪了一個路然後只是說他們把前期的一些試驗結果就寫成一篇 paper release 出來因為這個 paper 比如說他其實做實驗比如說做都是 2B 的大家可以看到就 2B 參數就是一個很小的模型然後他們可能最終寸了一個 16B 的

但 16B 的 MOE 其实是一个很小的 MOE 因为刚刚那个 paper 就算是 dense 他们都存了 67B 的他们现在做 MOE 其实只存了 16B 其实是一个很小的 scale 但是他们做这个是为了验证他们的一些观点以及想法

然后他们这个 paper 最后他们说了他们有一个 preliminary efforts 他们春了一个 145b 的这个就比较大但是他们这个 145b 其实没有春完只春了一小部分然后最后发现效果 a 还挺好但那这个 paper 就春就写出来了但是他们这个东西其实并没有做完但是后来的 deep-seek v2 其实研究这个路线就继续把 v2 做出来然后这这个 moe 呢

刚刚我就针对这个图号我觉得 Moe 大家主要需要知道的就是为什么要做 Moe 这个刚刚已经讲过了就是因为分成了多个 expert 多个 expert 多个专家他每一次他只激活其中的少数专家然后然后所以说他的训练和推理的成本都会变低但是他模型很大

相当于你把这个你把就是你模型本身还是很强因为模型比如说一两百币你把所有需要的能力和知识都存到了这所有的参数就是你参数还是很大一两百币但是因为你每一次问问题就像大家跟拆了 gpt 交互你每次问问题你其实只涉及到这个模型所有知识里面的一小部分

那相当于我不需要激活所有的这个模型里面的东西我只需要如果会有选择的激活其中的一小部分针对你的这个 query 那我的成本就可以降低对所以说所以说 moe 很重要这就是 moe 的一个 high level 的

原理吧原理那当然大家从这里可以看到包括最近很火吗 DeepSeq v3 r1 大家去说它的成本啊很低啊然后只用了多少钱啊然后就称出来嗯但是其实从这个 paper 开始大家就可以看到 DeepSeq 就开始关注 efficiency 对非常关注效率就 moe 然后然后这个这个东西呢嗯当然主要看一下这个图哈这个图 figure onefigure one 呢就画了很多的模型

重坐标就是它的效果就越高越好很做不要就是这里就是刚刚说的那个概念激活参数 activated parameters 就 dance model 它的激活参数就是它的全部对但是 moe model 呢看起来很大但激活参数可能很小就比如说像这个图这个 lama 2 7 b 激活参数在这它其实在最右边但这个 dip cmoe 它其实模型比 lama 2 还大它有 16 比但是它激活参数只有只有不到 3 b

所以说相当于他用了就相当于这个模型的推力成本跟两三 B 的模型差不多但是他 performance 跟 7B 的模型差不多对所以说这是一个很漂亮的结果嗯这是他们这个 paper 的一个主要的结果然后我这里主要嗯想讲他们做的呃一个不太一样的地方其实这个 paper 的创新点就是两点一个就是

他们叫 knowledge hybridity 就是他们用了很多的 experts 就是这个通俗讲就是以前的工作我们说以前的工作一般大家作为贸易都怎么做呢就是混合专家大家一般用的专家数量比较少比如说一般就是 8 和 16 但是这个 paper 他觉得其实这个也很好理解就是他觉得

我希望做的更细分一点就比如说你分成 8 个专家或者 16 个专家你这个分的还是太笼统了我希望比如说我分成 64 个甚至 128 个专家然后这样有个什么好处呢就是可以更细腻度就是我每次选的时候

我每次选的时候比如说我分成 128 个专家我可能就从这 128 个里面选两个因为它分的很细但是你如果本来是 8 个专家你 8 个专家你可能选也要选两个但是 8 个选两个就跟 128 选两个就不一样因为你的总的模型 size 一样的话你 8 个选两个相当于选了 1/4 我 128 个选两个只选了 64 分对所以说相当于它变得更稀疏

然后这里还有一个还有一个他解决的问题是什么呢就是以前大家是分了这个专家比较少的时候比如说 8 号 16 就会出现一个什么现象呢就是不同的专家之间区分不明显因为你的这个专家太少了然后你可能就出现我两个专家三个专家要学很多大家系列的东西要学大家很多系列的东西就是区分不明显但是我分成比如说很多很多 128 个我就非常的细腻度然后你可能每个专家就会学到很不一样的东西

这是这个 paper 在这个设置上嗯是做的跟以前工作很不一样的一个地方其实这个 paper 出来之后嗯当时掀起了一股讨论就在就在业内人士掀起了一个讨论就在讨论我做 Moe 是不是应该像 deep seek 一样啊要用很多专家来做而不是说像之前都是 8 个 16 个这是 deep seek 一个就我觉得还很创新很大的地方

对然后第二个就是他们除了这种混合专家他们也有 share 的专家就是他觉得如果你这 128 个专家彼此都不一样那我因为我有时候我可能我可能比如说这个模型基本的一些理解能力对语言的理解他其实对于所有的 query 都是 share 的那我应该也有一些 share 的专家就是我这个专家他所有的都要用然后有一些专有的专家就是他既有专有的又有那种通用的然后最后其实就是这个图

这里就开始说这个图什么意思这个图就是什么意思呢就是从左到右就是 deep seek 做的创新最左边大家可以认为就是以前的方法以前的方法就比如说我有 n 个专家这个 n 不太大然后我就是这样嗯多活化专家然后 a 到 b 呢就是 deep seek 刚刚说的第一点就是他希望专家更多对比如说他这里他就把 n 变成了 2n 相当于我专家数量扩大了一倍

然后专家就很多然后这个 B 到 C 也是 DeepSick 做的就是他有一个 shared 专家就是这个绿色的大家可以看这个图标就是他把这个蓝色的叫 RootedExpert 绿色的叫 SharedExpert 这个绿色的就什么意思呢就是我不管什么东西进来我都要过这个绿色的但是这个蓝色的就是选择过对所以说这个 DeepSickMU 主要有两点创新一点就是搞了一个 SharedExpert 第二点就是把 Expert 的数量变多

Shared Aspirate 可以理解它是有一些更通用的知识吗对对对可以理解成是通用的就比如说你不管什么东西进来这个知识都用了就比如说我对常识对就类似于常识或者说比如说我理解英语或者中文这个语言的基本理解对吧你不管什么进来它都要用

然后他希望有这个 expert 其实这个设计也比较的 intuitive 但这里我想强调一点什么呢就是虽然这个东西看起来其实没有那么难就是比如说想到这个东西其实也不是那么难想我觉得就是听起来像我刚刚说了其实可能大家也觉得比较好理解但是其实要做这个尝试还是很勇敢对因为你要在一个很大的规模上

花很大的算力比如说投入去探索这种比如说以前大家都没有这么做大家 MOE 以前有人已经做过了比如说 8 个 expert 就少量 expert 也不要 share 的做过了就效果也还行你就直接这样照着做其实最简单的也可能风险也比较低为啥非要自己去搞一些不一样的东西

对就就就这个其实是呃我觉得作为就作为一个公司来说因为学校很多时候搞不一样的东西他是为了比如说我要有创新我要发论文但是对于 DeepSick 来说他其实发论文对他来说所谓的创新也没有那么重要但是他们依然呃

就是敢于去做这样不一样的东西我觉得而且这个思路等会讲到 V2 包括 V3 就 R1 的机座也会讲到其实他们的这个思路是一脉相承的因为到 V2 V3 其实都是用了他们的这个 Fibre2C 的这个设计

这个成本如果做一个实验下来大概多高他们这个 paper 做的实验就还行就他们做的是 2 币的对吧 2 币 16 币就相当于他们在规模比较小的模型上去验证了一下发现还不错然后他们最后就搞大的搞大的就是比如说像这个就开始存 100 多币这个成本就很高了

但这里有一个很 tricky 的地方就是什么呢小的模型上你验证可能还可以但是你搞到大的模型上不一定很 work 对他不一定可以迁移

就是你 2 幣你可能很便宜做出來我還不錯你說我搞一個大的然後用很多卡然後包括像 v2 就已經 200 多幣參數了然後我去就用這一套也沒有人做過主要是這一套沒有人做過就是你做一個沒有人做過的東西它總是就有可能有風險你 follow 別人跟別人做的一樣它總是風險很低對

然后所以说你如果说你把这一套你搞到 100 多币 200b 上面很大规模去做他万一做出来比如说就这个图比如说就这个图你万一做出来可能效果不行怎么办比如说可能还没有 A 号怎么对就我觉得这种尝试当然 DeepSeek 在后面的 paper 今天会提到会有很多这样的尝试

對我覺得都是非常非常的勇敢非常非常勇敢我覺得作為公司來說投入很多來說其實是很少見的在業界對是很少見的這是 DeepSick MOE 的一個創新吧就兩點一個就是有 shared expert 一個就是 expert 數量變多了對然後當然

这个数量变多尖锐的好处就是刚刚我觉得通俗一点理解就是刚刚说的好处然后效果可以简单看一下效果他们可能跟 G2 的这些比反正比他好 G2 的就是之前的数量比较少的 expert 也没有 shared 然后他们这个东西用了多少个 expert 用了 64 个在他们这篇 paper 里当然他们后面用的更多就后面的 v2 包括 v3 的 paper

用的更多他们这个用了 64 个 expert 然后但是他 train 的模型大家可以看到其实并并不大然后就 train 的 2b 和 16b 的模型这里我们这里看一下参数就这里参数就是这里写了每一个 layer 有两个 shared 就是那个 sharedexpert 是两个 expert 然后那个专有的是 64 个以前的工作呢就是他们对比的以前的工作一般都是用 16 个或者 8 个相当于他们其实是多了不少

而且之后我们会讲的 v2 和 v3 的 paper 用的更多甚至用到一两百个 expert 对然后然后 tune 的呢其实这个 papertune 的模型并不大就一个就是 2B 16B 然后然后就是看一下结果结果呢他们跟他们自己比了他们自己就是刚刚讲的第一片 paper 就 deep-seq dense 的这个 7B 然后 16B 然后这里比较重要的是什么呢可以对标一下这个这一行就第二行激活参数

激活参数 7B 的激活参数当然就是 7B 但 6.9B 是比较准确的数字然后 16B 他们因为做的 Moe 他们激活参数只有 2.8B2.8B 大家可以看到它的效果其实跟之前的差不多对跟之前差不多那么这里总结成一句话就是这里高亮的这句话就是 with only 40%的 computation 然后 Deep-seek Moe 就达到了跟之前 7B 差不多的效果

40%是什么概念就是比如说你去部署这个模型你的这个成本就降低了 40%不是降低就是降低成原来的 40%降低到 40%对对对对对然后这是一个成本的考虑就是大家看 DeepSecPaper 会发现它从这篇 paper 开始都不停的充斥着这种成本的考虑对然后对对对然后到 V3 就可能就极大成然后就变成了一个大家可能看到的我用多少 5M 可能 500 万刀然后就存出来什么

他就是开始先是先做一些尝试然后把这个原理搞清楚并且做一定的在这个之前的付现上做一定的优化然后再考虑怎么把它的成本降低对的对的对的对的这是大概是这样的一个思路对的对的对的然后这是 MOE 这是 MOE 然后他们当然他们最后哎

这中间的大部分结果就不用讲了然后可能看一下这个图这是最后的一个图就是这个 paper 他们其实最后起了一个大的他们大的就是 100 多币的模型

就是他们叫 DeepSeq MOE 145B 这模型就很大了但这个模型其实没有存完的因为他们的 truening token 大家可以看到就这一行其实只有 200 多 Bit 的 token200 多 Bit 的 token 很小因为他们的第一个 DeepSeq paper 就这种一般都是 truen 两个 T 的 token 对就 2 万亿这里是 2000 亿小了 10 倍对所以说

所以说这个没有吹完但是他们相当于是在做验证实验比如说没有吹完我跟之前的比 A 效果比如说我 145B 我激活大家可以看激活参数激活参数它跟之前的第一线 paper 的 67B 比但是它激活的只有之前的三分之一

就 22.2B 然后效果大家可以看下面的这些 benchmark 效果基本上跟之前都是差不太多对就有些好一点有些差一点然后嗯所以说他们就觉得这条路很 promising 而且他们的设计很 promising 就是因为他们去搞了一些创新的东西就比如说增加 expert 的数量然后搞 shared expert 这些都是之前呃跟别人做的不太一样然后他们就寸出来发现效果不错我觉得这个是给了他们信心然后去做后面的 v2

对然后 v2 就是一个更大规模相当于就是沿着这条路然后就真的把 scale 做上去做了一个比较完整的寸完的一个大的 MLE 模型出来对然后就完了这就是这篇 paper 这个 paper 很有意思啊他们其实在这个 pain paper 上没有得到一个什么样的结果但是他们也把这个论文发出来了他们在小的规模上有结果对就是这个比如说 16B 有比较完整的结果对然后但是 100 多 B 那个没寸完

对但这个 paper 就是告诉大家一个事情我这样来设计 expert 然后我就效果很好然后我在可能在不太不是特别大规模情况下验证的它效果很好对然后接下来 v2 接下来我们要讲 paper 就是 v2v2 就是他们在真的大规模的情况下依然验证了它很好对 ok 这就是 deep-seq-me 然后接下来顺着这个基座的线下一个基座非常的顺利成章就变成了 deep-seq v2

我来 series 一下对这个就 DeepSeq V2 大家可以看到这个 title 好 strongeconomicalefficient 非常的经济然后非常的高效

DeepSick V2 基本上就是刚刚那个 paper 的 scalehub 但 DeepSick V2 有一个很重要的事情就是他们可能大家或者说国外的很多 community 比较关注他们提出了一个很新的进一步降低成本的东西叫 multi head latent attention 这个东西就更就相当于就又有新的创新了这个东西这是一篇非常非常重要的 paper 因为后面 DeepSick V3 也是直接用的 DeepSick V2 的架构对所以说

但是我们先看一下 Abstract 先看一下这个配置比如说 DeepSync v2 是一个 236B 的 Moe 模型对混合专家 236B 这个规模大家知道就很大然后这 236B 实际上激活参数只有 21B 相当于它在部署的时候它的这个所需要的成本和算力差不多是相当于 21B 的这个规模

对然后然后他的 Lens 很强但这个是一些基本操作就是支持 128K Lens 然后这个 paper 有一个非常非常重要的东西就是 Multi-head Latent Attention 对这个等会会讲到这个是 DeepSeq MOE 那个 paper 里面没有的这个是进一步降低它的成本

对然后然后这里可以看到 compared with deep seek 67 币主要的结论就是 67 币就是第一篇 paper 的那个 67 币他们的 performance 更好然后节约了 42.5%的训练算力

然后 kvcash 我等会会讲具体是什么他们说节约了 90%多然后然后 kvcash 带来的提升是大家可以认为 kvcash 减少带来的也是 influence 部署的成本以及速度变快对这里可以看到它的 generation throughput 就比如说我们平均每个头平均每一秒可以生成多少个 token 比之前快了 5.76 倍

对这是什么概念呢就是它的这个模型有 200 多币参数比之前的第一版的那个 67 币其实大了很多相当于是它的接近 4 倍那么大但是它的算力比之前节约了 40%它的生成速度部署的时候还比之前快了 5 倍多对就是一个这样的概念而且 performance 还比之前好对然后大家可以看这个图这个图就是跟刚刚看过的一个图类似就是 figure 1a

就是重坐标就是效果嘛对吧很坐标就是激活参数这个 DeepSick V2 五角星在这里就是它激活参数只有 20B 左右它 performance 是最高的然后它之前对标的他们自己 train 的模型 DeepSick 67B 在这儿就是这个红色的点然后

就相当于他比他快比他便宜模型比他大很多模型比他大很多带来的相应的效果也很好所以说这又是一个而且他们把这个图飞格 1b 其实就是关于他们成本的一个图就是他们就想显示我春天 cost 变小了然后 kv 开始压了 90%多然后生存速度还变快了 5 倍然后所以说大家可以看到 dip seek 其实从这个开始

我覺得他們對於成本的這種經濟的這種概念和這種 style 吧就一直貫穿在他們這些 paper 裡面然後這裡這個 paper 其實很重要會講一些具體的東西首先這個 figure two 先說上面的這部分上面的這部分就是剛剛講過的就是 shared expert 和 routed expert

就跟剛剛那個 DeepSync 一模一樣就是我有一個共享的專家有一些共享的專家然後有很多很細分的專友的專家共享專家在這裡變多了對變多了因為模型變大了等會我們會看一下具體多少共享專家和多少專友專家這裡應該是兩個共享就是這個圖畫的有點多但實際上他們做的是兩個共享專家和 160 個專友專家

像剛剛 DeepSeq MOE 他們其實是 64 個專有專家他現在把這個 64 個變成了 160 個其實這個大家可以看到他其實是先在 DeepSeq MOE 那批評估上可能在比較小的範圍內做了一些驗證實驗做了很科學的很嚴謹的 study 然後在這樣一個大規模投入比較多的情況下才敢於去做這樣的事情因為他們這個配置就已經跟之前的別人做的就很不一樣

就是他这个上面 160 个专家像之前大家做大模型都是 8 个 16 个他这里突然比别人多了 10 倍然后但是这个也不是一蹴而就的就像刚刚讲的那篇 paper 其实也是一步一步走过来对然后然后这是这部分就不细讲了因为这部分跟刚刚是一样的 paper 有一个很重要的东西是另一个东西 multi head latent attention 对

这个 Multiheader Latent Attention 其实最近在国外也很受到关注因为这个东西真的是 DeepSick 第一个提出来的然后也不是说在别人的因为如果我们说刚刚说的那个 MOE 还是在前任的工作上做了一些小的改进然后比如说我可能只是加了一个 Shared Expert 或者说我把 Expert 数量变多了但是 MOE 这个东西并不是 DeepSick 自己提出来但是这个 Multiheader Latent Attention 是 DeepSick 自己提出来的

它的中文是多頭潛在注意力對 OK 謝謝翻譯我其實不太清楚中文怎麼說對多頭潛在注意這個東西其實在最近 DeepSick 火了之後因為很多國外的朋友也開始去讀這些 paper 其實也更多的關注這個東西儘管這個東西剛出來的時候可能大家還沒有覺得那麼的 fundamental 但 DeepSick 反正他就堅持他自己這一套他就一直往後去做

然后 multi head latent attention 它的我们可以看 figure 3 我尝试简单讲一下这个东西就是普通的因为最早的 transformer 普通的是 multi headattentionmulti headattention 就是我有很多个大家知道 transformer 里面叫所谓的多头注意力然后多头注意力就是我有很多个 head 然后每个头里面都有自己的一个比如说这里是 k 和 value 然后来做 attention

因为 attention 就是三元组就是 query k value 然后你去做 attention 当然 attention 具体计算这里就不说了但是反正就是有个 query 大家可以知道有个 k 然后有个 value 然后来做 attention 然后这里为什么有很多很多列因为还有很多个头大家可以认为这里每一列就是一个头它每一个头里面都是独立的然后就是每个头里面都要做然后做 attention 有一个什么问题多推什么问题就是在 inference 就部署的时候会有一个东西叫 kvcache

就是刚刚提到的 kvcast kvcast 是个什么东西呢就是你比如说大家知道我比如说差一级别递回了 due sake 你在生成的时候比如说你问他一个问题他生成他是一个 token 一个 token 就一个词一个词往后面播往后面生成然后每他生成每一个词他都要去 altern 的去就是去跟前面的每一个词做一个 attention 对然后比如说你前面可能很长比如说你你给他输入了 2000 文章这 2000 文章加起来有 5000 个词

然后你这个时候要让他给你写一篇新的文章可能也又要写 5000 个词你新生成的这 5000 个词里面的每一个词都要跟前面这 5000 个词的每一个词去做 attention 然后这个 attention 呢就每一个头每一个词都有一个都有很多个头然后就每一个头都要这样做然后这样就会在具体实现上

大家是怎么实现的呢因为前面的这些就是我们叫历史嘛就是这些历史的这个背景历史的我们叫 history 就是前面的这些词呢它每一个词在实际上前面算的时候都会算出这个 k 和 value 嘛实际上大家肯定不想重复计算你肯定不能说我每生成一个词我都去重新算一遍这个 kvalue 因为这个 kvalue 是跟前面的词绑定的跟你现在生成的这个词无关所以说一般大家都是说我前面比如说你前面 5000 个词这 5000 个词的这个 kvalue 都是存下来的

这样的话你来一个新的词你只需要上 query 就可以把 tension 算出来就是你不需要重复计算就节约时间但节约时间你就会付出更多的空间的代价就空间换时间然后这里就会出现一个东西叫 kvcachekvcache 就是指你前面存的这些 k 和 value 的大小占了多少这里会直接占到你的 GPU 的 memory 上对就是一个就会带来一个部署的算力成本对这就是一开始 paper 的 abstract 说的

他把 kvcash 降低了 93%就是说的这个东西就 kvcash 然后这就是 multi head attention 然后后来有一些其实后来大家为了减少 kvcash 其实有一些 paper 比如说 multi query attention 这个 multi query attention 就是第二个 gqa 不是 multi querygroup query attentiongroup query attention 就是第二个 gqagq 就是说虽然我有很多个头但是我多个头之间共赏一个 k 和 value

比如说大家可以看到它这个列上面的列变少了比如说本来是 8 列变成了 4 列 4 列你大家可以认为我每两个头我这两个头共用一套它的 k 和 value 限制它一直是一样的这样的话这个图就很直接比如说这样你 kv 开始就降低了 50%对然后还有比如说 deep seek 的第一篇 paper 以及 lama2 就是用的就是 group query 的图形是 qa

对这是一个大家用的很多的东西因为为了节省这样的 kvcash 然后第三个东西就很激进他们叫 multi query attentionmulti query attention 什么就是我所有的 query 用同一个 kvvalue 就我只有一个我虽然是多头但是我所有的头都是统一的 kvvalue 相当于我的 kvcash 已经变得更少了对变得更少了这个当然就很激进但是这个会带来这里面是有 tradle off 的

这里 intuitive 的去理解有什么 tradeoff 呢就是虽然从 MH 到 GQA 到 MQA 大家看这个图就会发现这个越来越少越来越少但是他 performance 也会越来越差因为你总是这个东西更多他更灵活嘛比如说你现在说你所有的头都变成一个了那不就变成只有单头了吗对他的 performance 就会带来效果的下降

雖然說你變得更成本更低更 efficient 但是你效果也下降了所以說這裡面是需要一個平衡對然後這個 deep seek 就搞了個什麼東西搞了一個叫 multi head latent attention 這就多頭隱世注意力對這個多頭隱世注意力是什麼意思呢就是大家可以看到他這個圖哈我先對著這個圖講就是他實際上

他这个为什么这里有一个 latent 这个词叫隐世大家可以看到这个右边的这个小的这一块就是这里标的叫 compress latent kv 就是一个低维的向量就是低维的一个东西然后 deep seek 这个做法呢它是就是它的上面的这些 k 和 value 并不是就并不需要自己显示的算出来它是从这个低维的 map 到高维的

这里我用公式简单说一下简单说一下他们叫 low rank 就是这个 title 叫 low rank 就是他不光是 latent 他还是 low ranklow rank 什么意思呢就是在在在现行代数里面就比如说我本来这个 vector 是 1024 位就很高位就因为你越高位的向向量你可能计算需要的

那计算也更多嘛但是我现在 low rank 比如说变成只有 100 维就本来是 1024 维变成 100 维我在这 100 维上面算了之后我再用一个矩阵把它卖回回去对然后

然后就会变成一个这样的东西然后这样的东西呢嗯就是所谓的 low rank k value joint compression 然后比如说在这个公式里面就本来他有个 k 和 v 这个公式其实就是公式 9 公式 9 就是他 input 先算这个 cc 就是这个所谓的压缩之后的这个所谓的 latent 就是 latent 的东西然后他的 k 和 v 嗯是从 c 里面算出来的是从 c 里面成了一个矩阵就 map 回去这个 c 可能是一个 d 就比如说他是一个 d 位的这样有一个什么好处呢

这样带来的好处就 intuitively 当然这里的有一些非常深入的技术细节我尝试讲的简单一点然后这里带来一个好处就是你在部署的时候去存因为刚刚说到因为刚刚说到为什么这个东西很 matter 就是你部署的时候要存 k 和 value 就要存很多然后大家比如说之前的方法就是想存的越来越少

DeepSeq 的方法就是我依然想要这么多个头我不想把我的头的数量变少但是我想存的变少那么他这样 map 一下就存什么就只存 compress 的 latent kv 就是他只存这个 c 大家可以认为是我存的时候我就不直接存 k 和 value 了我就只存中间的 latent 的东西我就存然后我在计算的时候我在部署的时候然后我可以从它这 k 和 value 其实是可以算出来的

其实可以算出来然后我就只存 c 那么存 c 呢因为 c 是个 low rank 的就是你本来本来 k 和 y 里是 1000 位我现在 c 变成了 100 位那我这个存储空间直接就少了 10 倍直接就变成以前的不是小的所以直接就变成以前的十分之一就是你存一个 100 位的向量跟存一个 1000 位的向量直接存的东西就小了就变成以前十分之一然后你就只存这个 c 所以说你的这个 kv 开启就很小然后相对来说他部署呃需要的 memory 就少了很多

对这是 kvcash 所以说这个 paper 为什么可以压这么多大家可以看到前面的 abstract 它对 kvcash 的压缩是很大的其实这个第二个图嘛 kvcash for generation 大家可以看到它比起普通的 version 那个这个这个 kvcash 变成了以前的 1/10 就降低了 93%对然后就带来了一个巨大的成本下降其实然后就是它的那个生成啊然后成本就会下降很多

对这个 multi head latencyattention 是一个很 noble 的就是很创新的东西然后我觉得 DeepSeq 发明这个当然也是基于成本的考虑比如说他们之前用他们之前因为也是用的 GQA 嘛用的 GQA 他们可能想进一步压缩成本但是觉得你直接用 MQA 变成这种你的 performance 就效果也会受到损耗他们就想取一个折衷然后设计了一个这样的方法

然后设计我能不能多问一句就是这个多头潜在注意力他如果从一个人的角度能不能做一个形象的比喻怎么可以更形象的理解 values 和 keys 可以 case 和 values 本身可以很想象的理解就是比如说 attention 你可以认为比如说我现在要说下一个词对吧我现在要说下一个词我可能会

因为我想要因为我下一个因为我很多时候说下一个词我希望去理解他跟我之前说过的这些词之间的联系嘛比如说我到底是之前哪哪一块比如说之前的这个 context 就之前说过的这些话嗯到底是哪一块对于我现在说下一个词的影响最大

对然后就是他们之间有一个这样的呃依赖关系那么这个 k 呢就相当于你可以认为是之前的每一个词都有一个这样的 k 相当于它是一个钥匙然后你现在要说的这个词他通过这个 k 去计算他跟那个词到底有多大的那个依赖关系

然后然后这个 v 然后你通过这个 k 呢你就把这个依赖关系计算出来那么依赖关系计算出来他到底是怎么影响比如说我发现我依赖呃上面说的这个词要依赖 90%那个词我只依赖 10%这个词我可能根本就不依赖就是你有了这样一段关系然后你然后你有了这样一段关系之后这个词里面是什么样具体的含义来影响你呃说下一个词的那么他个含义你可以认为就是他的 value

就是可以帮助你去计算你们之间的依赖关系是什么 value 帮助你计算你他怎么样来影响你的生成对所以说之前的每一个词都有一个这样自己的钥匙和这样的 value 对而且这个钥匙和这个 value 是要被存下来的那么存下来就要占你的这个 GPU 的比如说这个空间对所以说所以说这个这就是所谓的 kvcash 对然后然后然后然后然后 dbsec 做了这个 mla 的这个事

你可以认为我觉得这个有可能有点难形象的表达我觉得还 intuitively 可能还是要从数学上来说你可以认为他把之前的这个代表每个词的 k 和 value 本来比如说他可能是用一个很长的向量来代表的然后我他现在把它用一个短很多的向量来代表嗯然后短很多因为你这些向量都是被存到这个比如说 GPU 上面嘛你短了很多之后你存的基本上就小了很多

所以說 KV 開始就少了很多然後

这是对 MLA 的一个通俗的理解当然这个东西本身我觉得是很 novel 的然后当然你设计这个东西本身还涉及到会去处理一些关于位置变量这里叫 Root Reposition Embedding 这里中文应该叫位置编码位置编码的一些有一些 issue 那么他们也有一些独特的方式处理它

可能这里就不展开讲了这个又涉及到关于 op 的很多非常深的 technique 的东西啊但是这里就不展开讲但是 mla 的 intuitive 的理解就刚刚那样就刚刚那样然后最终的效果呢就是这个表这个表呢当然这个公式嗯这个公式

我就 intuitively 讲一下其实就是 highlight 的这个表的 caption 的这句话就是他们提出的这个 moa 呢 kvcache 呢相当于他们之前的 gqa with 2.25 个 groupgqa 就是他们之前用的包括之前的 moe 也是用的这个嗯就是这个第二就是这个图的第二个对但是一般的 gqa 它的 group 很多比如说这里就是 4 个 group 嗯因为我打个比方你的 head 可能有 16 个 head16 个 head 大家可以认为就是 gqa 有 16 个组

然后现在大家想变得更高效怎么变呢就变成把这个组变少比如说变成四个组当你变成一个组的时候你就变成第三个图但是这个组越来越少你的效果也越来越差所以说大家很多时候并不是说这个组越少越好很多时候大家可能变成八个组就可能减少一点但是大家为了保证效果不会减少很多比如说你如果减到两个组你效果可能就很差了

但是他這個提出來的方式相當於就是說什麼呢就說他這個方式實際上的 KV 開始就相當於 GK 只用了 2.25 個組對就相當於我壓了很多但是 GK 你如果只用 2.25 個組你的效果可能就很差了就是他相當於 GK 只用 2.25 個組但是他的 performance 會比那個 2.25 個組的 GK 會好很多對會好很多然後所以說他這裡寫了一個 stronger

对就是 Moe 然后最后他这是一个之前的 paper 没有的东西 DeepSeqMoe 没有的就是 v2 第一次这样做 v2 第一次这样做然后他们往后就是对往后就是实验效果当然 Moe 里面我这里可能稍微说一点点技术细节就 Moe 里面涉及到

一些就 MV 的训练就混合专家模型的训练涉及到一些 technique 的东西就是他需要 balance 不同的专家就是因为你你不希望你训练到最后你的这个所有的 data 都依赖其中的两个专家其他专家从来没被用过那你这样相当于你这个混合专家模型就等于没有因为你其他专家从来没用过你只用两个专家那就相当于他就等于没有用上所以说一般在训练的时候需要涉及到比如说 expert 的 balance 叫平衡

然后他们比如说这里还为了来最大的保证他的这个 efficiency 他们还要搞 device 的平衡就不同的 GPU 之间平衡甚至不同的 GPU 不同的 device 之间通信的平衡就他们希望我不光我的专家要被用的比较平衡而且我不同的 GPU 也要被用的比较平衡而且我不同的 GPU 之间的通信要比较平衡因为你这样平衡你的这个 efficiency 才能被 maximize 其实其实这些细节

这里我觉得大家比较简单也可以理解我打比方就比如说因为我刚刚可能忘了说混合专家还有一个优势比起 DanceModel 什么的就是它很容易做分布式的这样的一个实现以及去 scale up 因为它天然的你有多个专家你可能比如说你就是不同的专家放到不同的 GPU 上面

它就是一个很天然的就分开了但是你本来的模式里面又这种多个专家你要用很多 GPU 去 train 这中间它分起来就没那么直接但是你有多个专家它天然的就可以这样被分到不同的 device 上然后这里面平衡为什么很重要因为你在 training 的时候打比方你如果有 2000 张卡你如果一直都在用其中的两个专家这两个专家就放到其中的比如说两张卡上面

相当于有 2000 张卡用来训这个模型你实际上只有里面只有几张卡是不停的在使用就 run 的很多其他的卡都没怎么用过相当于你的整个集群的训练效率就很低因为你这 2000 张卡都是要用来装模型的你装了之后实际上你的 2000 张卡的 utilization 就利用率就很低那么相当于对成本的一种浪费所以说这种平衡就是我怎么样可以去

设计就是从工程上来充分的利用我所有的 GPU 所有的卡然后来保证我不造成比如说金钱或者算力的浪费也是我觉得 DeepSeek 也是做的很好的地方我觉得这些东西可能听起来没有那么创新它可能更多的像是一些经验上的或者说工程上的一些优化或者实现但是这也是

我觉得对最后比如说 DeepSeq 到最后 V3 的成本就整体的 DeepSeq 的成本控制也是起到了很大的作用对然后这是关于所谓的 balance 就 MLE 里面有这样一个 balance 的问题

然后嗯但这个对成本也很重要是这样刚刚说的然后这里大家可以看一下的配置就跟刚刚说的 deep seek 嗯 moe 比然后这个 v2 呢 200 多币参数两个 shared expert160 个专业的专家模式啊 160 个专业的专家这个数字是非常非常大的大家可以想刚刚讲 deep seek moe 的时候还在说之前的工作一般都是 8 和 16 然后 deep seek 这个直接搞了 160 个

所以说他其实就跟以前的配置就很不一样而且他还用了他自己搞的 MLA 然后所以说而且 MLA 是 paper 第一次提出来之前的他们 DeepSeq MLA 也没有试验过

所以說這也是一個我覺得很 Bold 的一個就怎麼說還是一個很勇敢的一個創新因為這個訓練其實代價就很大了因為這是一個 236B 的模型然後就比如說也會用很多很多卡然後跑很多比如說他們 Train 的比如說這裡他們 Train 的 8.1T token 對 Train 的 8.1T token 然後就這已經是一個很大規模的訓練所以說

他们还是在这样大的规模下他们第一次用这样的配置用他们自己发明的一个新的腾型来做这样大规模的训练我觉得也是非常难得的对就对于很多其他的这也是这是另一个我觉得他们很 unique 的地方因为对于当下很多说实话同期吧同期吧我觉得其他的大模型公开不公开的我们不知道但公开的基本上没有人做这么大的创新在这个训练上

对然后我觉得这说明他们就 DeepSeek 对于这个 efficiency 的追求是非常非常坚定的然后他们可能也比较的 confident 然后他们也有勇气去承受可能的失败然后他们也很有勇气去做这种新的东西他们坚定这个东西会更好

对然后我觉得这个是 deep seek 比如说从 v2 其实就包括当然包括刚刚讲的 paper 就看了出来其实就还是非常 unique 的一个公司跟一般的不太一样然后当然这里 long context extension 这些就是一些常规操作别的人也会做最后他在这个长度就会到 128k 12 万的 context

在这个技术基本上也是现有的技术就当然这里就很难讲开讲的他们用了一个 efficient test 嗯延长如果是依旧旋转位置编码的一个技术这个 paper 也很有名嗯基本上很多人也这么在做这这就是发到别人做一些常规的操作对然后然后效果呢大家可以看一下就是 deep seek v2

这个 v2 呢就是嗯最右边这一列然后就是中文英文很多文字 mark 嗯还是第二行这里 highlight 的第二行很重要就是比如说他们跟签问那个时候签问 1.5 嗯 72b mix 说 mix 说也是一个 m 大家可以看哈 mix 说就是什么呢他是 8×22b 他就是 8 个专家对吧他就是 8 个专家就 mix 说大家知道是 miss 说做的而且 miss 说很有名的

但是 Mistro 在同期的时候大家可以看 Mistro 还是在做 8 个专家就跟之前的经验差不多每个专家是 22B 所以他总的模型就 100 多 B 然后但是 Mistro 就有个问题后来他那个模型开源因为 Mistro 也开源了他那个模型开源的时候大家就发现一个问题就是这 8 个专家就很像这 8 个专家并没有真的很分化

然后就没有达到 MLE 的初衷可能开始想要的目的然后 DeepSeq V2 其实涉及这种多专家 Exactly 就是为了让它更分化让这个专家就吸力度更高而且 MixTor 和 DeepSeq V2 我觉得基本上算是同期做的大家就可以看到尽管是国外这种非常 leading 的公司其实并没有勇气去做那么大的创新对然后在这样的一个同期的工作上 DeepSeq V2 其实是 160 个专家

所以说大家可以看到同样是 moe 的模型其实这两个就很不一样然后 DeepSeq v2 当然总的模型也会大比如说 DeepSeq v2 总的模型比 Mistral 的这个大了 90 币但是它的激活参数还比它少对 Mixer 的激活参数因为它只有 8 个专家它激活一个就 22 币了激活两个就是 40 币左右然后所以说它就是 39 币但 DeepSeq v2 它这么大的模型它激活参数其实就 21 币

对所以说它的推部署成本甚至比 mix 说还要小对然后它的大家看这这边的效果然后基本上反正效果这里在当时吧在当时嗯中文肯定就是最好的然后英文呢英文呢应该是跟 mix 说差不太多对然后比前文 1.5 啊也比他们之前的这个要好很多比喇嘛三呃跟喇嘛三也差不太多比喇嘛三

对其实差不太多但 nama3 的 token 好像要多很多对然后这里总结下来就是这样一句话 with only 21 币的激活参数然后 DeepSeq v2 就 achieve 了跟开源类型模型比就是比较 top 的 performance

这里有显示出他的多专家之间是怎么设置的吗就是不同的专家负责什么领域这个是自动学出来的这个并不是他们设置的对就具体什么领域他们这个 paper 没有讲太多的分析对但是那个只是大家 intuitive 的一个理解但是这个不是人为设置对然后这就是 DeepSeek V2 的 paper

然后可能他们专门讲了 turning cost 这里可以看一下比如说他们是在他们的 h800 的集群上然后每一个万一 token 然后只用 30gp hour 可能比如说只用 300k 这个可能大家没有概念但是比起来他们模型虽然有 200 多币但是他的 turning cost 比他们之前的 67 币的模型节省了 42.5%

对然后推力成本呢可以看到他比之前的那个 67B 模型快了 5.76 倍然后当然他们还做了一些额外的优化比算部署的时候嗯就会把参数变成 fp8 的 precision 相当于我表示这个小数的这个精度变低了然后他们会做很多这样额外的优化然后包括他们 kv 开始刚刚提到的也会做一些量化就相当于把它精度变低嗯然后来做这样的部署我觉得这也是为什么 deep-seq v2 其实 deep-seq v2 有一个

在當時在國內引發的現象我記得如果我沒記錯的話好像是從 DeepSeek V2 開始國內的因為它的大模型就開始有這個產品就開始有這個 chat 然後它的那個價格我記得我如果沒記錯應該是從這個 paper 開始從這個 model 開始它的價格就很低然後從此就感覺國內有一些價格也都變低對好像就是價格戰士吧對對對好像就是從這個開始

这个是几月份发的 24 年这个是 5 月吗我记得价格账好像是那个时候对这个是 5 月份这个是 5 月份那是的是的对相当因为大家可以看到 DeepSeek V2 一个巨大的模型因为 MOE 的激活参数低再加上他们自己搞的 MLA 的这样的一个多头隐士注意力机制然后他们的部署成本就被压得很低而且当时 DeepSeek 我听说还不是亏钱在做部署其实还是赚钱的

只是赚的不多但是他们比如说就跟就跟 opi 一样比如说还没我记得当时每百万 token 就就一块钱还是几块钱对然后反正就嗯就很便宜很便宜就可能比 opi 就低很多了比当时国内的其他的这种厂商就也要低好几倍可能都都都不是一个数量级然后

而且他们还不是亏钱他们就是赚钱就部署这个产品所以说后来好像就因为有这个价格战可能有一些厂商也开始跟上但是跟的厂商可能有可能是亏钱在跟也有可能因为

我記得當時很震驚啊,DVC 做了這個之後大家都聽說 DVC 的 v2 是用比較差的 GPU 然後用很便宜的價格部署一個很大的模型結果還不是虧錢,結果還有利潤其實大家可以看到從這個工作開始對,我記得當時就開始有人叫他們是大模型界的拼多多對

对然后我们这个其实帮我们理解为什么他可以这么干然后原理是什么对为什么可以这么干其实就是这个模式但是我觉得当时给我一种感觉就 DeepSick V2 包括 DeepSick 自己吧他当时可能也没有那么在乎这个产品他其实就是部署了一下然后你比如说我们可以看到 DeepSick V2 我觉得他们在后训练上并没有做很精细的

这是我一直觉得 deep seek 的模型特别是早期的这些模型在后续面上并没有做很精细的人类的那种 online 对或者说做的特别精细要比如刷榜啊或者怎么样就他们可能就做的很像一个 research work 然后他可能就稍微部署了一下然后就因为他们部署成本也很低嘛然后他们可能也不是很在乎他比别人价格

用戶啊什麼的然後給我是這種感覺所以說我覺得還是比較低調包括他們這個部署了之後我感覺他們也沒有做啥宣傳然後後來因為他們價格很低可能有一些開始有些媒體開始報道他們對這個時候有關注度開始有一些關注度了你覺得他是以一種什麼樣的目標在做剛才講的那些工作的

他自己心裡的動機可能會是什麼呢?對說實話我不是很清楚因為可能平常有時候會看到一些採訪或者說會覺得比如說他們是不是真的想就是真的是為了 AGI 在做努力比如說他這些也開源包括他們 V3 也是 MIT license 開源然後可能也不

也不什么商业化也没有做很多的那个商业化然后可能也没有说我不开源或者说我要保保留我自己商业化的这个所谓的护城河啊什么的然后他们可能这些模型搞了半天然后几百币然后他最后就是可以免费开源给大家而且别人也可以免费商用然后我觉得这个

说实话我也不太理解我也不是不理解吧就是我非常尊重他们对因为我觉得这个非常了不起对但是他们之后比如说是不是真的想商业化想赚钱或者说是不是他们真的就觉得不需要赚钱我就是做一间然后就比如说他们有换方可以赚钱就够了其他的他们也不在乎然后这个我就不是很清楚了对我可能也很难揣测他们的这个动机对

对但是他们但是但是他们做的这些工作啊就算是我们从业内学术界啊去看都是嗯包括刚刚讲的这个风格也可以看到都是极具创新性也而且也非常的嗯非常的勇敢对非常的勇敢嗯 ok 然后这 deep seek v2 然后这 paper 就讲到这里然后最后一篇嗯最后一篇在机座方面的 paper 就是最近的这一篇 deep seek v3 对

然后我第一部分要讲的最后一篇工作然后我来写了一下 ok deep sea v3 这个就是 24 年底的工作 24 年 12 月份的工作这个工作就开始关注度就很高了然后简单讲一下简单讲一下先看一下 Abstract 的一些基本的东西这个模型就很大了 671 币对这也是后面非常出名的 R1 的机座模型

然后这个大家可以看到比 v2 还大了差不多接近三倍然后 v2 只有 200 多币这个东西它大部分的东西就是 follow v2 就也有一些不一样的地方也有一些不一样的地方但是比如说 mla mla 包括他们做 deep-seq moe 的策略比如说用很多的专家然后他们用 multi head 的 laternal tension 其实都是沿用 deep-seq v2 了然后但是他们的规模很大 671 币穿了 14.8 trillion 的 token

然后 DipCV2 好像只是 8 吹亮的 token 然后最后用了 2.788 兆 H800 然后当然他们这里说了他们的钱然后这个可能也很引发大家关注因为大家觉得他成本很低

然后最后一个其实也很 impressive 的地方就是他们说他们专门在佳耀里面说了这句话就是一次 train process 就是他们的 train 非常的稳定就是整个 train 他们都没有经历任何的 loss spike 就是简单解释一下就是春泽春泽你的 loss 突然出现一个奸起就突然变得很大

這就是一些春天不正常這個在過去的預訓練是非常非常常見的因為過去的預訓練就會出現很多的問題然後你比如說你這個 GPU 這個機器可能又出現故障了然後可能因爲什麼不可知的原因

你的这个 loss 又出现 spike 了然后你就要停下来然后重新 rollback 然后重新 twin 嗯但是他们就说哎他们的 twin 力很稳定然后整个一 twin 就相当于一次就 twin 完了然后也没有做任何的 rollback 这个其实是很了不起的这个背后肯定是有他们很好的工程的优化以及工程的团队所以说 deepseek v3 其实有大量的篇幅在写他们的工程

在下面的工程时间这个跟之前的 paper 风格不一样之前的 paper 其实没有那么大篇幅来写这个事情对我觉得这个也是我觉得相当于瘦一下肌肉就是大家发现 DeepSick 的 infra 做得特别特别的好对然后这是摘要然后这个 paper 比较受关注的 table1 就是说这个

花了多少钱然后他们 H800 呢两这个 DeepSick V3 趁这个只用了 2000 张卡 2000 张 H800 其实并不是很多特别是对于一个 600 多币的模型大家今天也知道不管是国内国外的卡超过上万张卡的公司都有好多家对特别是像国外可能都是数 10 万甚至更多张 H100 的卡甚至更好的卡然后国内肯定也有不少的大厂卡都是远远多于这个数字

然后因为 DeepSeq 其实在早期的时候它什么 5000 张 10000 张 100 那个时候在国内还算一个体量很大的但是其实到后来 DeepSeq 的卡我觉得并不算很多对就是在跟一些跟很多公司比起来

然後然後這個 paper 他們也也是開誠布公的講了他們就是 2000 張 H800 吋的然後最後等價的這個價格呢就是 5.57MUSD 對 500 多萬美金這個這個作為這個在當時是很讓人震驚的因為在當時我記得大家對比過像 nama

3.1400 币的那个模型 400 币的那个模型春泥应该是花了 3000 万美金对呃差不多是有 6 倍的差距吧哎是 3000 万美金对哎可能还不止 3000 万美金应该不止 3000 万美金对不止 3000 万美金然后但这个就让人很震惊然后后来也也引起开始我觉得也开始引起美国很多公司的关注因为大家发现他训练成本为什么这么低然后这个 v3 模型又很强对然后这个

我觉得也是开始从我觉得也是从 V3 开始大家真的越来越多的人开始 seriously 关注 DeepSeek MOE 和 DeepSeek V2 的一些他们自己 invent 的技术就比如说 DeepSeek MOE 刚刚提到开始做尝试去搞很多的专家然后 DeepSeek V2 发明了 MLA 就是那个多头影视注意力机制但是其实在那个时候可能

特别是对于国外的开发人员主要的大模型团队的时候可能也并没有那么主流吧然后 V3 开始大家发现这个 V3 很强成本又很低大家就开始好奇怎么做的然后可能才会 traceback 去 deep seek 之前的一些 paper

对但但从今天讲讲刚刚讲的这配合来看大家也看得出来其实过去这一年嗯他们也是一步一步走到了 V3 其实这种也不是突然出来的对然后因为 V3 其实也就是 V2 嗯直接的一个 scale up 然后然后这里主要说一说一些不一样的地方他们的他们的这个这个图呢画的都跟 V2 是一样的然后就是上面就是反正多专家然后专家很多然后还有 share 的专家然后下面就是他们有自己的这个

有自己的 latent 隐世注意力这些跟刚刚是一样的说一点不一样的

他們在搞這個 balance 的時候當然這個地方不是一個很特別主要的地方就是剛剛提到就多個 GPU 啊多個專家之間要平衡嘛他們之前大家平衡一般都是搞了一個新的 loss 就新的一個目標函數然後在訓練的時候一起訓會平衡然後他這裡呢就搞了一個他們叫 loss free 的 balancingloss free 的 balancing 呢就是

他会搞一个常数然后他这个专家他会去监控这个专家到底有被使用比如说多少次然后如果使用的很频繁他可能就会去改这个常数让他未来大家少使用这个专家一点类似于这种非常符合直觉 heuristic 的方式就不需要显示训练这个可能比较简单但这个是一个比较小的地方比较主要的地方是有一个这样的东西 multi token prediction

这个也是被大家讨论比较多的这是第一次在 deep seek 出现这个东西然后当然这个东西不是 deep seek v3 自己提出来的这是来源于一个 paper 这个 paper 大家看到也是一个很新的 paper 他提出了一个 multitoken prediction 的 loss 这个 loss 干什么呢就是我在预测的时候就是我在训练的时候因为大家知道 language model 语言模型就是我预测下一个词

但是他这个就是我训练的预设的时候我不止预测下一个词我一次预测下面三个词或者更多的词

他把这个作为一个训练目标就是我训练的时候我给这个 context 然后我要同时希望他预测下面三个词这样有一个很直观的好处就是你的这个 trainign 的 signal 更 dense 就更密集的就是或者说你给了他一个新的任务因为他本来只需要预测一个词你现在让他预测不光预测第一个词还要预测后面两个词那么他就希望这个模型可能就会学到怎么样更好的去

预测更远的地方就比如说他这里也提到了他这个就可能会以内部 model 去提前计划好我怎么样更好的预测未来的更多的 token

这个听起来也很直觉但是这个东西的尝试我觉得依然是一个很勇敢的行为因为因为这个东西虽然被这个 paper 提出来但是其实没有人真的在很大规模上用过对比如说这个 paper 他可能只是在一个不太大的规模上验证了一下发现还不错但是你要真的在这么大的一个规模上去用一个新的东西其实我觉得还是有风险的还是有风险的

或者說我覺得一般的團隊可能也不太有這個氛圍去做這個事因為你說不定去弄這個東西就讓訓練不穩定啊或者出現很多的 unexpected issue 整個東西就變了對因為本來你用的這個 paper 也不是一個特別有名的 paper 對吧對也不是特別有名對但是也還可以就正常的一個 paper 對正常的一個 paper 然後我 sorry 應該是這個太長了稍等我回到本幫那邊對

对他引用这个 paper 也不是那么有名就是一个正常的还不错的 paper 可能也不是说那种特别特别有名的那种但就是这个技术并没有人真的在这么大规模上真的就用过

然后包括 DeepSig 自己他 v2 也没用过他完全可以 follow v2 比如说他就照着做他就做 v3 他为什么还又要搞一个新的东西我觉得这个又是 DeepSig 很 unique 的地方对就明明 follow v2 他成本也很低他就把 scale up 然后 mla 也是 v2 做出来的但为什么这里又要搞一个新的东西加进去我觉得

我觉得也是 DeepSeek 他们自己的文化的一些体现就是他不停的会希望去尝试新的东西他们也很勇敢的去这样尝试比如说场下可能觉得有可能会 work 他就会真的去把它做进去对他们从一开始我觉得就有这个氛围所以说这是我对他们的也是我为什么觉得他们很好的很 respect 他们的一个地方

对然后当然这个东西 intuition 就是我刚刚说那个就是我训练的时候不光一次下一个 token 我还要一次多个 token 然后他们最后做了 ablation 就 incorporate 这个东西确实会让效果变好对当后面我会说一下这个结果这个还有一个什么好处呢这个 MTP 这里写的就是因为你训练的时候你都可以一次预测多个 token 那意味着你这个模型天然训练之后它就可以一次预测多个 token

就是他不需要一个 token 一个 token 的预测他可能一次性比如说就把后面三个 token 全面预测出来对那么这个就那么这个有个好处他这里也说了就是呃 we can read 就是他们可能做这个事情嗯在这个 paper 里面主要体现的还是哎我这样训了之后可能效果会更好啊什么的

因为你这样训练之后你可能实际上做推理做部署你还是可以选择一个 token 一个 token 做你比如说他可能一次可以预测三个但是你后面两个反正你也不要你也不要他预测反正我就还是让你一次一次预测一个就跟以前一样对但是这个技术这样做了之后给了他们一种选择就是我可以选择一次预测多个

对一测一测多个然后这个好处就是他们就说了 we can repurpose this MNTP module for speculative decodingto further improve generation latencyspeculative decoding 就相当于我这个模型可以一次拆三个或者说我一次我后面拆 5 个 token 然后我可能另一个模型就可以来选比如说我可以选择拒绝或者接受这 5 个 token 对这个是

这个是之前这个是一个很 unique 的东西因为你一次预测 5 个 token 因为 language model 之所以部署比较慢就预测比较慢就是因为它是 water regressive 的就是你必须要一个 token 出来了之后你才能够出来下一个 token 就你不能一起出来对这个是本身它的 nature 就决定了还是不行对但是它这个东西它就意味着它这个模型它未来比如说三个 token 可以一起出来它不需要先出第一个再出第二个对

這是不是讓我們在用到 DeepSync 產品的時候它輸出的比其他產品更長更快是因為這個嗎他們具體部署到底有沒有真的這樣做我不是很清楚對但是這個 V3 讓他們可以這樣做

因為這個可能你具體這樣做雖然是有這個可能但是你可能還是需要嚴謹的 study 去研究這種方式是不是會影響它的效果呀什麼的對然後這裡這是一個 MTP 這是他們 V3 over V2 新加的一個東西然後說一下它的算力 2048 張卡對這裡已經說了然後

而且是 2048 张 H800 还不是 H100DeepSeg 的说实话 V3 用的算力 2000 张这个规模对于这个模式来说并不大而且他们用的卡也不是那种最好的卡然后所以说但是他们做了非常极致的我觉得工程的优化然后来让训练很快然后成本很低所以说从 3.2 开始他们就开始写他们的

infra 我就不细讲了其实也不是我的专业领域然后我就也不细讲这个也比较的深入就是讲具体的工程 infra 的实现然后这里而且写了好几页这个是之前的 paper 大家他们也不会写这些然后这几页一直都在写然后这里说一个比较特别的东西就在这里面他们用了一个 fp8 training

就是他们这个东西是一个 low precision training 就就是我在春天的时候比如说我很多中间的向量啊我都不用啊比如说 32 位 32 位精度的伏点数或者 16 位去表述我可能用更小的嗯这个显然就会让整个春天变得很快变得

变得很 efficient 的但这里有一个问题就是他同时就是你这样其实会有很大的 challenge 因为你这样去做你的 tuning 可能就不 work 比如说他 tuning 可能就不稳定或者说效果就没有以前好因为你整所有的这个小数的表示就没有以前精确了对所以说所以说他们这里写了一句这样的话就是虽然之前在部署的时候很多人做这种量化做这种

低精度去估计然后来让部署变快但是几乎没有人在真的大规模上训练上做过比较成功的做过这个实际对相当于 DeepSync v3 也是最早的至少是公开的我觉得是非常非常可能是第一个或者说最早的之一真的在大规模的 language modeltuning 上验证的而且是成功的做了这个 mixed 就是混合精度的训练而且这叫做 FP8tuning

对然后这个也对成本降低有很大的好处这我觉得这也是虽然这不是一个所谓算算法上的创新但是这也是一个我觉得也是一个很多我的东西就是就是我们看比如说 dipsyc v3 其实是 v3 的 paper 包括刚刚的 multitokenprediction 到 fp8 的春林其实依然有很多他们依然在勇敢的做很多新的东西

对然后来降低成本然后说白了就是降本增效降本增效然后他们觉得这个呃他们觉得这个很重要对于降低成本他们应该攻克他们真的付出了很大的努力比如说专门这里专门去讨论呢哎我在混合进度的情况下应该怎么样哎来来让训练稳定然后比如说这里写的嘛就是他们说哎虽然我用 fp 吧但是我们 after careful investigation 他们可能做了很仔细的对照实验发现哎有一些

中间的变量我还是应该用原来的这个精度然后这样的话春天才能行如果不然的话春天就不行了对然后他们做了做了很精细的这种的 study 以及做了很多的努力来让这个事情就最后真的做了成功了然后确实收获了很低的成本对嗯然后这是嗯又一个很 unique 的地方因为因为之前大家也不是这么干的对然后然后这基本上就是当然他们这几页写了好多的这个

infra 包括通信啊这个精度怎么解决啊就是这个 V3 的 paper 跟 Zenpaper 真的不太一样可能有十来页都是在写这个然后当然这个是工程上的实现今天就不细讲了我们可能主要进入实验部分看一下他们的设置吧比如说这里就是他们大家可以看到他们这里有他们的 Moe 每一个只有一个 share 的专家和 256 个专有专家

这个跟 v2 又不一样因为 v2 大家还记得 v2 是两个 share 专家和 160 个专有专家因为他们这个模型变大了所以说专家数量变多也是想了一件然后但是他们就用了 256 个所以说他们的他们相当于大家可以看到从 deep seek moe 到 deep seek v2 到 deep seek v3 他们其实一直是坚持他们一开始的这个想法就是我的专家数量要多

对其实这个跟别人做的不一样就是做不一样然后又用回了一个 shared expert 对他们就一个 shared 他们之前 v2 用了两个 shared 对然后他们可能觉得两个 shared 没必要他们可能又用了一个 shared 对然后其他的基本上就跟 v2 一样然后比如说 non-context extension 这些都是一样的然后可能主要的结果就是这里

这里比如说就在跟 nama3.1 的 405B 就是 nama3 的模型大家可以看 nama3 的模型其实非常昂贵的就即使大家这里就可以看到技术路线的不一样 DeepSeq 做 Moe 做了很早 DeepSeq 即使是从 DeepSeq Moe

就开始做 MOE 了换句话说 DeepSeq 除了第一版大模型不是 MOE 其他全是 MOE 就从 DeepSeq MOE 开始到 V2 到 V3 早就在做 MOE 但 Lama3 从 Lama1 做到 Lama2 做到 Lama3 而且 Lama3 他们存这么大的 Dense Model 就 400B 的 Dense Model 他们依然还不是 MOE 的模型

对所以说这个就会造成 Lama3 的春令成本特别高 Lama3 的激活参数特别多比如说激活参数有 400BDeepSick v3 的激活参数只有 30B 这什么概念这意味着你部署成本 DeepSick v3 就比 Lama3 的 400B 的模型要少 10 倍多对少 10 倍多就是部署成本

对而且这而且这个效果大家可以看到这个效果其实 dbsec 还比 lama3 在英文上跟 lama3 可能就是各有千秋在在 reasoning 比如说 code 和 math 上包括中文上其实都是大幅超过 lama3 对大幅超过 lama3 的 400bit 的 base400bit 的 base 然后

因为因为因为这就是部署成本这就是部署成本而且部署成本比如说像签当时的签文 2.572bbase 当然也是一个很好的模型啊现在也是大家用的最多的模型之一其实也是 dance modelnandivsic 他一直坚持做这样的 moe 模型对然后他的部署成本其实很低就作为他自己去部署这个作为产品来说对就会有嗯

这就是他的结果结果然后结果很好然后春令只花了 500 万美金然后他部署成本又低所以说我觉得这是 V3 在当时引起了很大的反响当然这里有些 ablation study 比如说他们也会做一些说实话这种 ablation study 看起来就很像学术这些 paper 会做的事情就是我 design 一个东西我要去验证一下这个东西是不是真的有用然后他们就在小规模上

也不是小规模他们后面 large moe 也有 200 币了比如说验证了一下我加这个多个 token 预测和不加发现多个 token 预测确实要好一些对就说明他们这个多个 token 预测是有用的对当然我相信 DeepSick 自己用这个的时候肯定也是在小规模上先验证了一下比如说做了这样的表然后发现确实有用他们才敢把这个东西用到他们最后那个上面对

但我觉得这反正这也是一种创新因为他们也是第一个真的把这个东西用到他们的大规模的训练上面去的就用了大规模训练上面的一个 team 然后 deep seek v3 我最后想说的就是他的后训练因为刚刚讲这些基础其实主要我是着重在讲基础没有太讲后训练因为后训练可能没有太多值得讲的但 deep seek v3 可能值得讲一下他们其实没有做很多的后训练

对比如说他们的 sft 只做了 1.5 兆就 150 万这个数据量非常的小我觉得最对于这个 scale 来说这个数据量是非常小的对我记得像喇嘛三后续链 sft 都是 2000 万 2000 万还是 1000 万我记得好像是 20 兆还是 10 兆对但是大家可以看到 deep seek v3 其实 sft 只用了 1.5 兆这个数据量对于 600 币的模式来说是很小的然后比较有意思的是他们 resonant data 用了 deep seek r1

去徵流但這個時候 R1 這個 paper 呢並沒有出來他們相當於是 internal 的 R1 然後相當於徵流了一下這個我覺得這個事情也很神奇就是他們是基於 deep seek v3 的基座 develop 了 R1 R1 反過來又徵流他這個基座 develop 了 deep seek v3 的 chat 差不多這個路子

对然后啊这 R1 其实在那个时候在内部就已经有了那个时候已经有了但是那个时候 PayPal 还没出来然后然后当然后面让 ResoluteData 是用 2.52.5 当然这里没有说 2.52.5 大家可以认为是二就是刚刚讲的 DeepSync v2 大家可以认为 DeepSync v2.5 是 DeepSync v2 几乎一模一样的东西然后可能在 Data 或者一些方面

春的更多然后然后做了一些优化然后 2.5 会比 21 好一些对他们去 2.5 做了一个也是做了蒸馏生成那个 data 然后然后当然还没做了强化学习这里强化学习呢也有一些值得说的就是这个强化学习呢

嗯这个因为我等会会会讲一下 reasoning 讲一下 reasoning 呢嗯就大家可以看出区别就比如说这里嗯这就是刚刚一开始我们今天说到的所谓的规则的 reward model 就比如说在 v3 他们做的时候他们就发现他们大家可以看到我等会大家也会观察到这个 deep seek 策略的变化比如说他们对于做数学和 coding 这种可 verify 的问题他们就是用规则去给 feedback 规则就是你做对做没做对他就没有一个 reward model 没有一个讲定模式

對然後它的獎勵模型只對於那種比如說開放式問答有個獎勵模型然後這個其實跟 DeepSeek 之前是不一樣的 DeepSeek 之前等會可能大家會看到很多 paper 它不是規則的獎勵模型它都是會用 model based reward 但是大家可以看到從這個時候開始它就已經拋棄了這個它就開始用規則當然這個時候因為 221 也出來了可能 221 他們就已經發現用規則的才是更好的

对所以说所以说他们为三其实这个是也就是在用规则对然后然后 jrpo 这个等会会提到这个会单独讲这个是为什么你的问题然后然后后来就 dbc 个 v3 但这里我想他们效果就放因为刚刚我说的那个表示被什么的基座这个是最后的所谓的部署的这个产品对但这里我想我想说的对这个就是这个就是看他们真理我反正挣了 2 万挣了之后确实变好了

这 DeepSick V3 差不多讲到这里讲完了然后最后我想说的一点就是 DeepSick V3 我觉得我对 DeepSick 的感觉他们写这些 paper 包括写 postertuning 他们其实没有做太多的针对刷榜的那种他们做 postertuning 其实做的很浅

对就比如说他嗯他刚刚说他 sft 对他也少然后做二 a o 就感觉他们 poster 春令嗯包括对就是他们对刷榜这方面做的很浅但是相比之下其实我知道很多就是很多公开的公开的比如说论文啊也好其实国内很多公司啊包括国包括国外的很多公司大家做大模型大家其实对刷榜是很执着的

对是很执着的就是就像 deep seek 最早的第一篇 paper 就开始揭露刷榜的行为以及怎么刷这个事情之后其实到今天为止很多人还是会比如说刻意优化榜单的数据比如说甚至加到机座模式里面去然后来让机座模型的分数看起来尽可能的高但 deep seek v3 据我所知这方面做的其实没有那么极端对没有那么极端

对当然这个也不是很好说我也不是百分百知道对但是至少从 paper 的这个态度上其实看起来是非常好像对这方面并不是很执着对并不是很执着

然后我觉得这可能也是我觉得可能也跟他们可能短期没有那么太在乎产品的那种所谓的使用有关系因为当然 R1 到现在大家用的很多了 R1 是另外一个东西对但是这个就 DeepScape V3 然后这就是我今天要分享的第一部分然后接下来可能

接近一個小時我講一下 Resonate 好的對然後第一個部分剛剛就是從基座嘛從第一個大模型到 MLE 到 V2 到 V3 然後這個是 DeepSync 的整個的基座的發展路線然後接下來我要講的另一條線因為 R1 最近很受關注就 DeepSync 其實有另外一條很重要的線是 Focus 在 Resonate 上面也是從很早的時候就開始了然後到最近可能 R1 出來之後

引起大家很多的关注然后这里我先简单过两个简单过两个 paper 对这个我就 share 一个就可以了这个其实可能不是有特别多需要讲的最早的 reasoning24 年初对这个也是 24 年 1 月份 24 年 1 月份 24 年初最早的 deep seek 开始 reasoning 就是 deep seek coder

对 dbc 的 coder 呢嗯他是一个相当于是专有代码的一个模型这个也很常见像 mistro 呃 lama 嗯其实都有 code 的版本包括像千问对其实都有其实基本上大家做大模型的都会有 code 的版本因为 coding 模型可以帮助大家写代码然后其实本身是一个很有用的专有模型但 coding 也是 resonate 的一部分所以说

这是我觉得最早的 DeepSick 开始弄 coding 的一个东西那 DeepSick Coder 本身没有太多需要讲的因为它就是一个普通的比如说 DeepSick Coder 这第一版第一版它是一个稠密模型然后基本上就跟 DeepSick 第一版的大模型一模一样然后跟 Lama2 差不多只不过它的训练数据是代码数据

就并不是文本就并不是那种重文本数据就基本上都是代码然后他们就 1.3B 到 33B 全部都是开源的然后就做春了一个这样的 coder 模型这 deep-seqcoder 第一版但他们后面还有一个还有一个 deep-seqcoder v1.51.5 的区别这里可以说一下就是 continue prediction

这里简单解释一下 continue pre-training 是什么他们这里叫 additional pre-training 他把他本来之前的比如说 deep-seq llm 7b 就是通用的机座在基础上继续 train 两 ttoken 比如说继续 train code 对这个叫 continue pre-training 然后普通的 pre-training 就是我 from scratch 就是我从头 train 一个 coding 模式

对这就是两个的区别然后他从头出那个他们叫 dipseccoder 他在 continue production 就是从他自己的这个第一版的这个基础上继续啊拿两 tcode 对他春的叫啊也不是这两 t 也不是纯 code 的这两 t 下面有一个表这两 t 是啊 70%是 code 的然后下面有一些其他的比例然后然后这两做出来叫 v1.5 对然后这两版都开源了然后这是 dipseccoder 它本身是重名模式

然后这是这个其实没有太多讲的但是 DeepSick Coder 呢是 DeepSick 一个很重要的系列因为我觉得 DeepSick 在早期的时候被尤其是在国外有自己的知名度其实很大程度是源于这个 Coder 模型因为 DeepSick LLM

Dance model 有很多平体因为比如说它可能跟 nama2 差不多还有很多中文但是可能国外大家也不是很 care 中文然后大家英文可能也有很多平体比如说 Mistro 也做得很好所以说 DeepSeek 的普通的英文模型并没有真的被广泛使用

使用然后 deep-seq moe 呢嗯比如说 v2 又搞又搞得很大比如说那个 v2 一上来就是 200 币那 v3 又是 600 币那个 v2 虽然我们刚刚看 paper 效果很好激活参数部署成本很低但是但是你 200 币的模型一般人是部署不动的对就是你其实是需要很好的 infra 这个 200 币模型搞过来比如说如果像开发者大家要做训练啊做自己的训练 200 币模型这个很难搞得懂对所以说

所以说大家就倾向于还是搞 7B 的比如说还是喜欢用 7B 的 10B 左右的模型但是 DeepSync 从第一版之后就没有 7B10B 左右的模型对然后就没有这种 scale 模型所以说所以说后面的 DeepSync v2 其实虽然做得也很好但是实际上并没有说很多开发者去用因为模型太大了然后但是 DeepSync Coder 因为它是有从一点几 B 比如说到

我记得好像是有一点几比对是从一点几比一直到比如说小的中规模的一直到 30B 都有然后它的效果也很好所以说 DeepSync Coder 包括 DeepSync Coder 其实一直被用的很多所以说我之前一直感觉特别是国外的人对 DeepSync 的感觉就 DeepSync Coding 很强嗯

對,這代碼模式做得很好但其他的可能大家沒有太多的感覺我問你一個問題啊因為這個時候它就已經開始做 reasoning 了其實這是 24 年初但是國內其實對 reasoning 討論比較多的時候已經到了 24 年的 Q3 了就是那時候開始做 reasoning 是一個比較 unique 的事情嗎還是大家其實都在一條引線都在做這事我覺得那個時候沒有很 unique 我覺得沒有很 unique

因为我记得我看一下其实是个时间线我可能因为那个时候有一些开源我打个比方比如说那个时候已经有 code 的喇嘛了 code 的喇嘛就是喇嘛 team 已经有官方的 code 模型了然后开源的 community 已经有 starcode 了

然后国内也有一些开始做专业的 coding 模型我觉得不是很稀奇对不是很稀奇但 DepthCoder 因为它的效果可能确实做得比较好所以说大家用的也很多大模型在 coding 领域能够应用的比较好是因为 coding 相对来说它比较容易设置规则所以这是一个大模型落地的一个非常早期的领域是这个逻辑吗我觉得那个时候主要是大家觉得 coding 可以帮助开发人员

我觉得一个是就是他跟比如说 coding 就不一样你如果做一个数学模型他可能只能帮助很少的人做题对吧做题然后但是他但是做题比如说你可能帮一些中小学生做作业然后但这个不是一个非常广泛的那种需求我感觉就是他的市场因为 coding 模型当然我可能也不太清楚这个市场但我觉得 coding model 我觉得大家 generally

觉得应用更广因为它可以帮助各种各样的比如说程序员然后开发人员写写代码而且而且我觉得 coding 是早期大模型大模型真的落地提高生产力的一个很典型的应用现在很多程序员其实在写代码的时候都已经离不开大模型的辅助

对它是一个我觉得是一个比较成功的一个典型吧嗯而且在那个时候你可能像 chat model 你更多时候就是一些 chat 不放可能并没有真的去落到实际上的东西上去工作效率没有提升对对对他可能只是好玩可能聊聊天像最早的 chat gpt 就这样

对嗯然后但 coding 模型我觉得一直很关注包括到今天也是然后 db-seq 而且 db-seq-coder 大家当时还有一个理论就是说我用很多代码模型我的这个模型可能就算是作为通用来说可能代码模型对于提高它比较通用的这种 reasoning 也会有很多帮助对然后再 db-seq-coder 然后后来然后后来沿着讲吧就这两篇 paper 我不会讲很多然后就是 db-seq-coder v2 就是这个

然后刚刚说的是 v1 v1.5 然后这个就是 v2 这个 v2 它就开始 moe 了对 moe 也很正常因为这个 v2 就是基于 deep seek 自己的他们这里说了 deep seek code v2 is further pretrained 他们是从 deep seek v2 的就通用的他们自己的 moe 模型刚刚已经讲过了中间 checkpoint 继续 train 了 6T 的 token

做出来的 coder 所以说可以认为这个 deepsec coder v2 基本上就是用的 deepsec v2 当的基座然后相当于这个 deepsec coder v2 就是一个 moe 了对它就是一个 moe 模型然后然后这个呃这个也也很理所当然因为他们就是基于他们自己的基座但这里呢有一个我想唯一一个我想讲的东西呃其他的没什么特别的因为它就是 continue push 量扣的

唯一我想讲的东西就是这个 reward model 因为等会要讲到 R1 包括这些 reward model 刚刚讲到规则的 reward 大家可以看到 DeepSeq v2 他们在做 coding 在做 reward model 的时候他们依然就在这个时候其实还是要用 reward model 的

比如说他这里会说 reward model 很重要然后就是说虽然我们有 ground truth 或者说 code 有 01 feedback 这种规则但是他们会觉得说一些 code parameter 可能 unit test 不够然后 01 的不太准或者不太行太 noisy 了他们就会说 we still decide to train a reward model

尽管后来比如说 R1 大家知道就已经放弃这个路线了对这是一个弯路对但是这个时候因为那个时候整个 Community 都是这么在做对大家都这么做那个时候比如说 DeepSick 做 Coding 还是在做这个然后而且他们还做了一个对照实验就发现确实这样做更好就比如说这个重坐标大家认为就是可以认为就是那个 Performance 越高越好很坐标就是 Turning Steps 就是从左往右就穿的越来越长

这个绿色的线就是不做强化学习就 sft 蓝色的线就是规则比如说可以看到它好像不太稳定但是橙色的线它就是搞了他们 reward model 发现很好然后他们还画了一个这样的图对然后但是这里面虽然这个图虽然这个实验看起来虽然是橙色的线刚好

但是我这里我觉得有只有两个因素一个因素是像他们这里说的他这个 unit test 因为就是因为你 code 是需要很多 test case 去去测他对不对吗那么你需要 coverage 很全比如说你这个 code 本来写错了但但是你可能给了他一个 test case 他这个 test case 碰巧过了你就认为他是对的那么这种就是所谓的这个 feedback 非常的 noisy 就非常的就不太准了不太准嗯然后不太准呢所以说

所以说我觉得这是一个原因导致他们这个图里面只用这个 rule 不太行但是实际上这个不太准是有办法解决的就比如说你可以想办法搞更多的 unit test

他可能就准了但是这个他们没试过然后还没试过然后我觉得这个是关关解决而且我觉得可能这个也没有做的特别 scale up 就是你如果 scale up 的时候 reward model 就会有自己的弊端这个等会会讲到如果 base reward 是非常的 robust 我们说比如说你有很多 data 你就算 scale up 你用这种规则显示它永远都是准的

但是你如果用一个额外的模型它可能就会有很多的问题比如说它可能你 data 多了它对有时 data 效果好有时 data 效果不好那这个东西就不是很好所以说在这个 paper 里面他们依然是或者说在当时整个 community 大家都是依然用的大家都觉得要用 reward model

對然後這是這個 paper 這是比較早的吧我覺得是比較早的 reasoning 然後就 Deep Seeker Coder 和 Deep Seeker Coder V2 然後接下來我要講到 Math 就是有幾篇很重要的 paper 就是一個是這個 Math Shifred ok

這個 Messenger 的 paper 其實也是 DeepSeek 但是並不太常被大家提到我覺得就是因為這個 paper 它很像一個學術的小 paper 它不像剛剛說的那些 paper 一來就搞一個大模型一來搞一個大模型然後開源那些 paper 可能就很有名但是這個 paper 更像是一個為什麼連著在 24 年 1 月 2 月發這麼多 paper

这个应该是更早的这个是 V3 的这个应该也是 24 年初我也很难追溯这个时间线的我也不再当这个时间线我可能也没有捋的特别清楚对不对但但但麦斯西弗的嗯是确实也是 24 年初的工作应该是对然后这个但是但是这个工作呢他嗯他更像是一个学术的 paper 对因为他后面我记得后面做的实验是 DVC 的事

我先从前面讲的就这个 paper 它其实不太被大家经常提到因为它不是那种纯单模型然后就出来然后 releasing 模型它更像是一个很非常像学校做的 paper 然后就做一些对照实验可能规模也没那么大然后但是会很重要因为这个 paper 是当时公开的第一篇 follow openAI 的那篇 paperopenAI 当时发了一个 paper 叫 let's verify step by step

然后就是那一篇 paper 我觉得引导大家走上了 reward model 这条路对然后从 open AI 发的那个之后开始这个什么基于过程监督的 reward model 就变得很火然后就很多人做然后 max shifr 的就是公开的我觉得第一篇发了 open AI 那个相当于用不用人类标注差不多浮现的那一套流程的一个工作对然后然后这个工作主要

这个工作主要讲一个这个工作主要讲一个主要就讲一个东西就是这个据过程监督这个会不会做一个什么事情

当时 OpenAI 放的 paper 之后就是 let's verify step by step 然后 OpenAI 反正就有一个结论就是说我们要用奖励模型我们要用过程监督的奖励模型然后对于我 de-coding 的时候有帮助然后大家就信这个但是 OpenAI 的奖励模型过程监督奖励模型说一下什么意思比如说我数学有一个多步的推理

数学有一个多步的推理过程然后它就有很多步骤嘛然后大家就希望有一个模型可以来告诉我这个步骤对不对就每一步对不对这个就是所谓的过程监督比起结果监督因为结果监督你只监督结果对不对但过程监督我还希望他监督每一步对不对就是我希望有一个模型能做到对不对然后但是 OpenAI 怎么做的这个事情呢它是找人标的

对这个就有一个很有名的数据集 Openeye 可能找了一些真的是数学专业的很人花了大价钱然后比如说标了 80 万条数据而且那个数据还开源的那个数据到今天其实还是很多人在用那个数据叫 PCRM800K 就是有 80 万条数据就 Openeye 真的找人标了有 80 就是有数学题然后去标每一步对不对每一步对不对然后他标了对不对他就可以训练一个这样的模型就相当于去预测每一步对不对

DeepSeq 做了个什么事情 DeepSeq 就说我不要人标我要自己自动的构建这一部对不对的 label 然后来迅一个这样的基于过程监督的 reward model 对这个奖励模型然后 intuitively 怎么理解其实就是这个图我这里 intuitively 说一下假设你数学比如说过程解题步骤生成到了第二步

现在我要怎么知道第二步对不对呢我就让一个模型基于这个第二步往下面 complete 就继续然后我可能继续有很多条对吧有很多条比如说我基于第二步第二步固定不动那么我第二步给你你继续往后面写比如说你这个模型不停的 sample 它可以写出很多不同的子路形然后假设假设我发现这个第二步很多时候可以引导出正确的答案我就认为这个第二步是对的

假设第二步你继续往后面写你不管怎么写比如说你最后都是错的你得不到最后正确的答案我就认为第二步这个步骤是错的可能就是一个这样的一个 high level 的这样的一个 intuition 然后基于这个思路去 design 了一个方法然后相当于我通过这种让模型自己往后面完成然后来看最后结果对不对来反过来推我这一步对不对所以说他们这样相当于就不依赖人类标注的情况下

就完全不需要人去表然後就構建了可以構建出這樣的數據集就是對於這個數學解題過程每一步可以知道對不對

然后接下来他们做的事情就是跟 OpenAI 一样的事情就是我有了这个数据集我就可以训练一个这样的基于过程的这个奖励模型可以判断我们一步对不对但是它跟 OpenAI 唯一不一样的地方就是 OpenAI 是用人标的但 DeepSync 没有用人标而且 DeepSync 它后面还做了对照实验他就发现用人标和我和用我们这个不用人标其实就效果差不多就用人标好像也没有好很多对就这是这个 paper 跟 OpenAI paper 唯一的区别但这个 paper 他做了之后我可以给大家看一个图就是比如说

这个就是这个图是什么呢就是横坐标就是呃就是我在部署的时候比如说我要每一个问题我要 sample 呃多少个 solution 然后 sample 都是个 solution 你 reward model 有个什么好处呢就是你有一个奖励模型去判断它对不对你就可以从里面选就是我部署的时候我一次不生成一个我一次生成 64 个那我 64 个假设我这个

reward model 奖励模型可以从里面选哪个你觉得比较对我把那个觉得最对的给用户那个错的就不要了那么这样的话它可能准确率就会高对吧但这里有一个有一个问题呢就是它肯定成本也变高了嘛就是你因为你一次本来只需要生成一个你现在生成了 64 个你让一个还让一个奖励模型选那你这样的话你肯定生成成本也就高了

那么你升成成本高了反正它就变得更昂贵但这个图就是这个图基本上 OpenAI 是画过的就比如说 SC 红色的这条线就是 self consistency 就是我没有奖励模型我自己生成 64 个我选投票就比如说我 64 个答案其中有 32 个答案都是 1 有 20 个答案是 2 我就认为最终答案是 1 就是 majority voting 就是大多数投票

然后 ORM 就是结果监督的奖励模型就是不是过程监督然后 Shiford 就是他们这篇 paper 的名字叫牧羊犬就 Mass Shiford 这个绿色的线就是过程监督模型大家可以看到我让这三种方法 sample 很多然后就发现绿色的是最高的这个图很像什么呢这个图就是早期的 test time scaling 对吧就是部署阶段 comput 增加效果变好这就是早期的 test time scaling 的图

对这个图可能到今天大家觉得很常见像 O1 R1 都会画这样的图就是我随着测试的时候算力增加我这个 performance 越来越好但是早期的时候在没有 long COT 的时候就没有长四位链的时候这就是早期的 test time screening 就是这个图对

而且這個 paper 非常的早對非常的早然後所以說而且而且這個 paper 其實在學界地位還不錯因為就在這個方向上其實還是一個 milestone 因為 Mass Shepard 他們自己搞了這個方法他們自己這個模型開源的所以說後面很多學界的人做 research 去 follow 他們都是會直接用 deep seek 的這個 Mass Shepard 的這個獎勵模型

因为在那个时候这是唯一一个公开的基于过程监督的数学教育模式因为 open eye 虽然也做了但 open eye 它也没开源所以说这个也是开源的然后这个方法后面其实也有很多人 follow 因为大家很多时候做都没有人类都没有成本去让人标 data 其实都是在用 dip seek 类似的方法就是用这篇 paper 类似的方法然后这是一个

Mass Shepard 但 Mass Shepard 呢之后我要讲讲讲一篇更重要的 paper 就 Deep Seek Mass 对这个必须点顺序讲因为 Deep Seek Mass 用到了 Mass Shepard 就 Deep Seek Mass 这篇 paper 就很重要这篇 paper 很重要因为因为著名的那个 GRPO 这个方法就是这篇 paper 提出来对然后

当然 paper 可能也没有太被大家经常提到因为它也不是那种标准的像刚刚讲机座那种很大一个模型然后 train 了然后发表出来这也是一个专有的 mass 模型这个东西做的很简单因为它就是一个 7B 的模型它 7B 的模型它就是 continue pre-train 其实在这里大家看到它在 deepsec coder base v1.5 7B 上 continue pre-train120 billion 的 mass token 得到了 deepsec mass 7B

DeepSync code base v1.5 我们刚刚已经讲过了这就是一个在第一版的 DeepSync 大模型上面做 code continue pre-train 得到的模型然后他又在那个模型上继续做 max continue pre-train 但这里做的不多只做了 120B 而且他只做了 7B 这里也没有做更大的模型然后得到了一个 max 的专用模型就叫 DeepSync max

然后 deep-seq math 7B 大家可以看这个图然后在当时因为当时就有很多人在刷这种 math 做这种 accuracy 在当时其实是 sota 就是很长一段时间 deep-seq math 7B 都是最好的开源的数学模型数学基座模型数学基座模型就很长一段时间这都是最好的 7B 这个 scale 的数学基座对 deep-seq math 7B 然后

然后这个 paper 呢当然他训练的策略其实没什么很稀奇就是这个 pretraining 就是 deepseccoder 用 120b 他们自己从互联网上找了 120b 的 token 然后做 continue pretraining 得到了这个 deepsecmesscb 然后呃然后这就是全部的事情了然后他们这个效果也很好因为之前的这些呃之前的这些 data 呢反正

这是 data 的数量他们的 data 也很多当然他们这个 data 也没开源他们主要就是开源了他们的模型对然后模型效果也很好然后比如说这里就比较了一下这个 table2 就比较了一下模型的效果然后他们这个基座反正可以看到比之前的数学专用比 Mistro 或者之前数学专用像 nema 之类的甚至比 34b 的 nema 都要好不少

对然后这些都是常规操作然后大家会不会有一个很重要的事情为什么非常值得拿出来讲呢是他们发明了这个东西就是 GRPO 就这个 paper 其实很值得看的一个地方是他们讲强化学习的这部分对因为我们知道到今天其实从这个 paper 开始后面所有的 DeepSick 的 post-tuning 做强化学习的 DeepSick v2 到 v3

到 R1 对吧其实全是用的 GaPoGaPo 其实是从这个 paper 出来的对因为这又涉及到一个什么东西就是降本增效就是本来 PPO 其实 PPO 本身并没有什么问题就是 PPO 是 OpenAI 最早弄的嘛然后 PPO 这个东西也很经典就 PPO 作为一个经典的强化学习方法其他本身并没有什么问题它唯一的问题呢就是 DeepSeq 觉得它成本太高然后嗯觉得它跑起来可能占的资源比较多

当然具体的公式可能我就不太说但是 DeepSeq 但是 PPU 大家可以这么想就 intuitively 理解比如说公式里面有个 A 就是它需要算一个当前 sample 出来的 data.advantage 但这个 advantage 的计算需要一个额外的 value model 这里提到

需要一个外的 value function 然后所以说在 ppo 里面比如说 ppo 里面其实这个图就很清晰就 ppo 里面有四个 model 这一个是 policy model 就是我在存的这个 model 一个是奖励模型 reward model 一个还有一个 reference model 这个是用来算那个 ko penalty 的这个也不是很重要然后另一个就是 value model

所以说这个 PPU 而且这每一个 model 都很大就比如说这个 policymodelrewardmodelvaluemodel 基本上都是跟 policymodel 一样打就是你 policymodel 如果是 100 币你基本上后面这个也是 100 币然后你在 tuning 的时候你这些东西都是要放到你的那个机器上然后然后整个东西占的资源就很大所以说 PPU 的 tuning 就比一般的什么 SFT 就要就要就要昂贵不少对然后但是这个东西但是他们就觉得

他们可能觉得这个东西太昂贵这里又体现在 deep seek 非常的想要把成本压下去的一个地方他们又开始做一些降本增销的事情他们就搞了一个新的东西叫 GRPO 这个 GRPO 它就没有这个 value model 了对它就没有这个 value model 没有这个 value model 它怎么算 advantage 它就是一次 sample 很多然后每个都打一个 reward 打一个奖励然后最后用它的平均作为它的一个 base 然后去算每一个相对它的 advantage

对然后当时这个细节啊 high level 里我觉得差不多就是说他就把这个 value model 拿走了 value model 拿走了之后这个 GRF 需要相当于他存的时候就少了一个模型而且这个模型可能很大比如说这个模型可能是一个 100 币的模型然后相当于他在训练的时候他就嗯他空出来的这些 memory 就可以用来做其他的事情他整个训练的效率就会更高

这就是 GFCO 一直被他沿用包括到后面 R1 其实都在用包括到今天 GFCO 其实也被广泛的实现在了比如说各种开源的 RU 的框架下因为因为 DeepSeq R1 把他带火了因为 DeepSeq R1 其实 GFCO 提出来之后包括到后面

做 v2 做 v3 用的人也不多比如说大家还可能还是用 ppy 或者用一些其他的比较多但是现在 deepsync r1 火了之后可能很多用的人就开始变多了然后但是 deepsync 他们自己一直是在用这个对这个是这篇 paper 搞出来的然后我觉得他们的出发点也是为了降本增效对就也是为了降本增效然后就让可能训练变得更有效性然后怎么样但这个 paper 里面有一些很有意思的

实验这个 paper 是我自己很喜欢一篇 paper 就是因为我很早就开始关注强化学习我觉得这个是在 Math 里面做强化学习里面非常有 insight 的一篇 paper 因为那个时候我觉得这个时候 deep seek 是做的有点超前的因为因为因为在在这里面做这种 online 的强化学习在那个时候啊这个 community 并没有广泛的这么做这个 community 广泛的还是在做蒸馏对

还在做蒸馏做 SFT 做这种因为强化学习不是一种蒸馏强化学习是一种更像一种自我提升对你可以叫他自我蒸馏但是他更像一种自我提升但那个时候 community 觉得我觉得我做 SFT 做蒸馏我可能效果就已经很好了然后那个时候并没有形成包括 DeepSick Math 出来之后其实很好几个月的时间强化学习依然没有成为至少在开源的 community 里面或者说学界里面依然没有成为主流

对因为我觉得一个是训练代价还是有点大需要的卡稍微有一点多然后大家做 sft 效果也不错然后所以说一直呃好几个月这个 paper 其实是应该是 24 年中旬就有了对然后

然后好几个月其实都没有成为主流但是这个 paper 就做强化学习做了很多的实验因为很多公司虽然我知道很多公司可能有在做这些但是其他的公司大家也不会公开就是他也不会说他做这个做那个他也不会发表也不会去说他的结论但 DeepSickMath 这个 paper 就说了很多我觉得在当时看起来非常 unique 的结论我这里主要针对强化学习

来讲一下然后这里说一下他这个潜伐学习呢他还是 reward model 这就是可以看出来 DeepSec 在这个时候他还是没有采用最近的那个子聚规则的 reward 就他做 math 大家可以看到他 construct training setreward modelfollowing 什么 following 这个这个就是刚刚的 png papermath shepherd

对卖的西佛这次他们自己的配置就刚刚讲的那一篇相当于他们用同样的方式搞了那个训练数据集然后他们就去春奖励模型去这种春这种基于过程监督的奖励模型然后用这个奖励模型来做他们这个 jrp 就是可以看出来在很长一段时间其实大家的思路都是要做奖励模型的对然后然后但是这个配置做了一些很有意思的实验然后我主要跳了强化学习其实就是这个图

这个图他比较了什么呢比较了比如说 RFT RFT 其实是很长一段时间即使 paper 出来之后还很长一段时间管领域在做的事情就是

rejection 反突領我們叫拒絕中文中文不知道怎麼說就是 rejection 反突領 rejection 反突領呢其實包括你拉瑪三就拉瑪三的 paper 其實就包括拉瑪做到拉瑪三其實他們的後續念做 mass 和 coding 做推理還是基本上都在做 RFT

对在做 rejection patony 什么意思呢就是我这个模型自己生成了很多数据然后我去看他答案对不对答案答案错了就答案错了就扔掉答案对的留下来那答案对留下来这些数据呃拿回来继续让我模型做 sft 对嗯但这里面但这里面有一个什么问题呢就是有一个 online 和 offline 的问题这个问题就显得很重要就是呃在很长一段时间这个 community 做 reasoning 都是做 offline 对 online 什么意思呢就是

就是我因为做 RU 的时候我的模型的数据是自己生成的然后你做 online 的话就是我不提因为我一边我生成数据的模型又在变因为你在 tune 它比如说我现在模型自己生成数据 tune 了 tune 了之后我模型就变了变了之后我要生成新的数据继续去对就 online 而且频率非常的高但 offline 什么意思 offline 就是我用现在的模型生成一个很大的数据集然后拿回来 tune 一把然后就结束

对然后这是 offline 就是你的这个数据并没有跟着模型更新而更新这就是为什么他一个叫在线的一个叫离线对然后当然这个 community 很多时候大家都在做 offline 或者大家做一些所谓的 iterative 就迭代式的迭代式就有点像介于 online 和 offline 中间就是我搞一个大的数据集我吹了吹一遍但是我为了让他

这个数据可以更新了我可以再继续做再做一代就是我用新的模型因为我用现在的模型搞了一个大的数据集然后存了之后这个模型变好了我用这个变好的模型再搞一个大的数据集然后又回来再存它自己它可能又会变好我就这样做几代但是一般大家可能就做三代做五代这个东西就做不下去了然后或者是就收敛了

但是这个不是完全的 online 因为完全的像最早的 ppo 的 online 它是需要做很多很多代的比如说像现在大家做二万嗯做二万或者说像我们之前比如说春的那种类二万的我们可能都是要做一两百代对这个这个就跟

之前不太一样因为现在要么做一代要么做三代做五代没有人做什么十几二十代的我根本有人出什么做一两百代所以说做 online RIO 的人很少在瑞典里面就大家还是做 SFT 做 RFT 包括喇嘛三都主要在做 RFT 然后就主要是 focus on 这个在做

即便这个 paper 很早就指出来 online 更好对就比如说像 paper 他们就发现 jrpo+ps 就是蓝色的线 jrpo+psps 就是 process 就基于过程监督的模式奖励模式 os 就是基于结果监督的奖励模式然后 rft 就是刚刚说那种 online rft 就是把刚刚说那种变成 online 的我比如说 500 条数据我生成了训练自己我就马上更新然后再去下面 500 条再生成下面 500 条

然后这个 paper 其实很早就发现比如说绿色的线比紫色的线高就 online 比 offline 好然后他们当然他们这个做出来还是觉得 process 比 outcome 好就是他们还是觉得我要坚持基于过程间多的奖励模式但这个 paper 其实没有对比什么呢没有对比规则的

他们没有对比基于规则的奖励我就是他们就只对比了基于过程的和基于结果的反正基于过程的好一点然后再是 online 就即便可以看到这个 deep-seq 很早就开始做 online 但是实际上到最后大家还是做什么的做什么 DPO 对吧 DPO 当然也可以做上 online 的但 DPO 大家更多时候就做 offline 然后就做理线的做 rejection 这种拒绝的 sampling 就是这个东西没有成为主流我觉得某种程度跟这个东西不太稳定不太好调以及

比较昂贵有关系因为你去做这种 online 的比如说不管是 ppo 还是 grpo 你需要的卡会更多需要的资产资源会更多然后它相对来说没那么稳定特别是你搞了这个 reward mode 进去奖励模型进去包括我们之前做也发现特别的难调就是你各种参数啊然后很难 work 但是你如果做普通的这种 sft rft 你你随便一吹它就效果就不错对我觉得这也是这两方面的原因

再加上还有第三方面的原因可能也是开源的 community 没有太成熟的在那个时候没有太成熟的 infra 的 codebasecodebase 通俗理解就是有没有这样一套代码我们可以直接去用可以做的很 efficient 比如说 DeepSeek 有 codebase 他们有自己的 codebase 有自己的 infra 但 DeepSeek 它也不开源就 DeepSeek 它不会开源它自己的训练代码

然后其他的很多公司可能也有自己的都有自己的这样一套训练代码但大家都不会开源所以说对于开源的或者学界来说在当时可用的比较 efficient 可以做 online RIO 的 code base 很少对而且也很难调可能也没有人广泛的验证过对所以说我觉得种种原因吧导致在公开的 community 尽管 divsic math paper 出来很早也非常零星的有一些工作做过这种 RIO 但是这种东西并没有成为主流

对在好几个月的时间里面都没成为主人我们其实在刚刚最开始提到我们是在半年之前超过半年之前就试过这个 online 的 cpu 做做那个结合这个过程监督奖励模型做强化学习就做 online 的但是我们就觉得很难做 work

就非常难以做出理想的效果对呃就然后最后就是失败了然后我觉得可能可能很多其他的同学也试过可能也没有成功对就导致并没有成为主流这个东西然后呃然后这里嗯这这就是这就是这个这个他们这个的背景然后这个这个这个 dip sigma s 还有一个非常

我很喜欢的章节就是最后这个章节 5.2.2 他们就说为什么或者说 5.2.3 吧为什么 RL work 和 how to achieve more effective RL 我觉得这个东西跟后面的 R1 的 develop 就有很直接的关联这说明我觉得这也说明 DeepSick 的 team 很早就开始思考这个问题对这这已经是超过半年以前的东西了然后因为什么呢因为当时有这个图这个 figure7 呢其实是大家看的很多的一个图这个 figure7 什么意思呢就是

就是这个很重要什么的就 K 他们画的其实是比如说这个绿线和蓝线其实是 pass K 那下面这两条线我们可以不用看 majority K 也不是很重要这里大家 refer 比较多的主要是 pass Kpass K 是什么意思呢就是我 sample 比如说 K 个 sample 8 个或者 16 个 response 这里面有没有对的就是有多少比例这里面是有对的

就比如说对于我这个 query 假设我我假设我这个到了 90%就意味着我对所有的 queryquestion sample 比如说 16 个 response 然后这里面有 90%的 query 里面都包含正确答案就认出对的这个指标为什么很重要因为这个指标衡量到你这个模型有没有能力 sample 出正确答案就是因为我们知道做 RU 模型可能要自己探索嘛这个这个能力本质上标注着模型有没有能力去探索出正确的答案

对因为很多时候可以认为假设你模式没有能力探索中学答案就可以认为你做强化学习可能就没什么帮助然后这个 paper 它其实我觉得当时是给了一个 negative 的信号就是告诉大家我可能没有想象中那么 work 因为这里面有一个非常 content intuitive 的事情就是虽然你看榜单上的结果比如说 pass k

rl 就蓝色的线和 pass k instruct 就是没有做 rl 做 rl 之前绿色的线在 k 等于 1 的时候 k 等于 1 就是大家平常报的榜单就是我 decode 的最有可能的那一个看对的多不多对然后大家可以看 k 等于 1 的时候其实蓝线高很多高了好几个点看起来就看起来 rl 很 work 但是当 k 增大的时候就是你 sample 多个

好像比如说在 gsm8k 上一个简单的数学数学级上甚至绿色的线到后面还要高一点就说明你做这个 RL 做了半天好像你模型的探索能力 sample8 个 16 个它好像反而下降了就这种感觉而包括在 Math 上也是类似的到后面它两个线就重合了但是这个跟大家想的不一样大家想的就是我 RL 我应该要

就像大家现在说二万一样就是我这个强化学习我应该要可规模化然后自我迭代然后让模型呃自我提升提升越来越多然后可以提升很多但是这个图就给了一个 negative 的信号包括他们自己也说他们就觉得 it seems 就是他们加自己加粗的这句话 the improvement is attributed to boosting the correct response 就是

本来你可能只是让本来这个模型已经有能力生成正确答案你只是把正确答案 rank 到就排序排到更前面去了而不是说 enhancement 就是 rather than enhancement of fundamental ability 就是你并没有好像看起来并没有真的 fundamental 提高模型的能力对这是一个很有意思的观察因为当时没有人做这个观察而且我觉得大家也可以看到 DeepSick 其实写 paper 很诚实

因为他明明是自己做的他自己报的结果又好很多他反过来还给自己泼一盆冷水对还要写在后面对就这个事情我觉得非常的严谨对非常的严谨就是他也不是说半天就开始宣传我这个很好很好怎么怎么对他反过来还研究这个到底是不是真的 work 他反过来观察到这种现象他还汇报给大家说这个可能不是真的在 work

对然后不是真的 work 他们比方他们就会想第二个问题就是

如果这个看起来不是真的 work 那我们要怎么实现真的很 work 对吧怎么实现 more effective RIO 对他们就开始探讨当然他们没有做这个实验但他们就开始说一些假设比如说我的这个 data 要更好然后 inference 怎么更好这里面有一些很重要包括 agreement 但 agreement 我觉得并没那么重要比如说他们用 grpo 可能 ppo 可能也差的不多但是这里提到一个很有意思的东西就是

reward function 因为他们这里还是用了 reward model 对还是用了奖励模型他们这里提到第一个点就是怎么样提高奖励模型的放缓能力对这个就对于让它实现 effective error and it turns out 我觉得到今天来看我们来看这个结论当然这是两个 separate 的东西就是你当然可以关注更好的方式去 train 奖励模型让它提高它的放缓能力让这个东西更 work 但是另一个方式从今天来看就是不要这个奖励模型

不要這個獎勵模型你只用規則它就最繁華對它就最繁華然後 Ry 為什麼不用獎勵模型用規則會更繁華因為規則符合直覺嗎符合直覺因為你比如說像 Math 你認為最終答案對你認為這個基本上就是對的對吧這樣一個規則它是普適的

对吧就不管你是什么麦斯提不管你是高中的小学的初中的大学的你最后有个标准答案你标准答案做对了我都认为你这个 response generally 我就觉得基本上应该是对的或者问题不大对就尽管不总是这样比如说你可能碰巧答案对了答案过程错了也有可能但是这个规则它普世它不会认为你是小学的大学的研究生的博士的这个规则就好像很不一样

但是 reward model 不一样 reward model 比如说你如果是在小学和初中上的数据上训练的奖励模型你判断小学初中的数学题做没做对判断的很准但是我突然给你大学的数学题你可能就判断的不准这就是所谓的放话能就是模型它总是很敏感但是规则它就很 robust 那除了 coding 和 math 这个领域其他都还是需要 reward model 奖励模型对吧

對有很多開放式的領域還是需要講靈活性因為你很難設計規則來判斷正確和錯誤或者說很多大概在理工科的領域好像都是規則去弄

對很多理工科可以其實也有一些 reasoning 其實不光是 master coding 其實有一些 domain 都是可能可以設計規則去判斷最後的證物的對但是對於有一些不行而且對於有一些問題可能就沒有證物的概念比如說像開放式的寫作對吧開放式的問題它不存在所謂的正確和錯誤對它可能只有那像自動駕駛這個領域呢自動駕駛我覺得也我想一下

对自动驾驶是有可能可以设计出一些规则的比如说你可能认为我如果撞到人撞到什么东西了它就是错的对吧然后没撞到然后我如果在两条线上就在我道里面然后我没有闯红绿灯可能这些就是正确的就是依然可以有很多这样的规则

对但是规则的奖励可能利用到自动驾驶这么很复杂的领域的话也会有自己的问题因为规则的奖励有一个缺点可能在 Massacoli 上面有体现就是它的这个奖励特别的稀疏就相当于比如说自动驾驶或者说一些领域你可能要生成一大堆东西做很多动作你可能可以得到一个奖励正确错误对但是很多时候大家希望有更密集的奖励就是你可以告诉我下一步就这一步做没做得

對但是很多時候你可能只對最終的結果有一個規則其實 Math 也是一樣的 Math 和 Coding 只對結果有規則它對過程有沒有做對是沒有規則對但是基於現在因為現在的過程獎勵

模型還不完美或者說很難做到那麼好所以說規則獎勵在現在包括在 R1 促進了 R1 的成功但是未來如果過程獎勵模型可以做得很好其實上限應該還是更高但只是這個很難對只是這個很難但是這裡反而是就可以看到 DeepSeqMath 其實還是在用獎勵模型對而且他們發現他們也說到了獎勵模型的放話是一個很大的問題對於 RL 的真正的有效性

对然后对然后差不多可能就只剩 R1 我可能再简单对我简单简单过一个中间的工作在讲最后 R1 之前 R1 其实不用讲很多因为 R1 比较简单然后我这里过两个 divsig 在中间你还差了两个工作可能

可能也不太很多人知道就 DeepSig 其实还做了一些定理证明 DeepSig Prover 对这个 DeepSig Prover 还有两个版本一个是 DeepSig Prover 一个是 DeepSig Prover v1.5 对然后这个也很有意思这个 Prover 是什么意思呢就是我觉得跟后面他们做 R1 Risening 都很相关因为做这个 Prover 它本质上它就是

他就有规就是我打个比方比如说这是第一个第一个地方然后第一个地方呢第一个地方这个地方还没有强化学习这个地方他们就是做自我提升但 Dipthick Prover 我说一下 Proven 这个概念这是一个数学定理证明的人物

这个数学定理证明任务跟一般的数学或者说跟一般的这个有什么不一样呢就是它有一个额外的引擎叫定理证明的 verifier 这个东西叫令它是一个可以认为是一个定理证明的引擎的一个推理工具我打个比方就比如说假设你有一套形式化的数学语言然后这些 statement 你把它给这个

给这个令就比如说还有点像一个拍生的比如说执行器然后你给他令他就可以告诉你这个正不正的出来对就会给你一个很标准的反馈对这个就很像数学就形式化语言可验证对可验证但是这在 deep-seqprover 做什么事情的就是为了把非形式化的这种比如说 natural language 然后 informal 的这种 math problem 变成形式化的

对变成形式化的语言他其实就做这么个事但这个但这个事有有个什么很 unique 的地方呢就是你变成形式化语言你可以给外面的一个工具比如说令来告诉你这个变得对不对

对而且这个工具就是他没有他不依赖有一个奖励模型对这里又扯到刚刚那个问题就是就这个事情很像一个规则化的东西就是他因为比如说我们刚刚说规则是人定义的就是我们 s 最终答案对不对然后 coding 就是这个 unit test pump pass 但现在我们依然是规则化的但这个规则不是人定义的这个规则是来源于一个额外的一个定理证明的一个一个引擎定义的

就是我把这个定理证明给这个令然后他就可以告诉我对不对就是他依然是一个位置他不依赖于一个额外的什么神经网了做奖励模式对所以说他是以外向上但这个地方没有做二维他是在做迭代式就是我刚刚说的那种迭代式的自我更新就是我生成数据我用这个令看一下对不对错的我就扔掉对的留下来然后回来继续反吞自己然后再再生成新的数据然后就一些个这样迭代过程

这迭代过程刚刚我们已经提到了嘛就是对于 DeepSeek Maths 来说已经发现一定要做 online 的要更在线的迭代的其实没有在线的好所以说这个也很自然然后也很自然就马上有了 DeepSeek Prover v1.5 这个就是 24 年 8 月份的工作对这个基本上跟刚刚那个比起来就是

就是开始做强化学习了就是强化学习就是我不是用迭代式做自我更新的我直接做非常 online 的强化学习他们也是用 GRPO 但是这里就有一些改变就有些改变就这个地方可以看到这个又开始讨论 reward 就是奖励模型奖励模型他们就是说

当春这个想强化学习的时候有如果有一个奖励模型一般还说会更好他们就觉得 typically provides 他们就说 in contrast 比如说他们这个定理证明虽然有 01 的这个但是他们觉得这个非常 sparse 非常 sparse 所以说呢他们他们这个后面还是做 chart show 所以说他们还是

我试了在 China while this binary is accurate to those bars 然后他们但是他们这里可以看出他们这个就与转变他们就没有再吹一个奖励模型没有再顺一个奖励模型他们就是说这个 binary reward signal 虽然它 sparse 但是他们就不是通过吹奖励模型来改变它而是说而是说把那些比如说特别难的特别难的判断不出来的不是判断不出来特别难的就可能你生成不出来正确的他就把那些东西就

就就 remove 掉了他们选择的时候就选可能可以要 chip 的就相当于这个发展就相当于从 deep-seqprover 开始他们好像就开始尝试不做奖励模式

對因為這個還就可以提供 01 的反饋 01 的反饋它相當於有那個彎路繞回來了對對對就有點這種感覺到這裡有點這種感覺就有點開始不做這個了不做這個但是他們後面 Inference 就是他們這個模型出完了後面去部署的時候他們也嘗試了一些在當時大家討論 Razor 很火的東西 MSTX 這種就像那種有一個樹然後我往下我不是一步一步生成我生成一步我往下展開多步然後又去

再往下展开然后这样去搞一个书搞得很复杂搞得很复杂然后然后所以说最后他们比如说报结果的时候也有就是什么 deep seekprover v1.5 加他们这个他们这个 rmxts 就是一种他们发明的一个 mctsvariant 其实这个也非常的有意思因为因为曾经有一度包括特别是在 o1 出来之后大家也也讨论比如说 mcts 是不是

OpenAI 就是这么做的或者说是不是 achieveo1 的一种很重要的技术因为 MCT 很复杂它需要你在生成的时候去搞一个像一个树一样的 decoding 但是实际上到最后我们今天看到像 r1 也是大刀之剑其实这些东西什么都没要然后做 r1 然后这就是一个

这两个工作其实比较的小众因为他是专门做电影声明但是因为我觉得他比较特别因为他也是专门挑着这种可 verify 就是规则可 verify 的场景在做然后最后就对今天最后最后最后分享的一个就是二万对就是二万然后我来试一下

对这个这个之前我看因为上上面两期应该呃有朋友已经讲过了对但是这个东西很简单其实本身并没有太多嗯太多需要讲的其实主要就看这里因为在今天讲的刚刚的那些前置工作之后我觉得这个也比较好理解大家可以看到 deep sea r1 就是大道至简就是所有的东西前面不管是走的弯路也好走的机器的探索也好然后全部都汇集到了就是这样的一个 pipeline 嗯就是他的 reward 是什么呢

它的 reward 就是两个 accuracy reward 就是比较对不对 format reward 就是看你这个模型的输出有没有 file 我想要你输出的 format 这个的原因主要是因为你做 RAL 你做强化学习你没有那种 explicit 的 sig 的就是你模型万一不按照你格式自己就跑得越来越偏他可能想模型你至少按照我格式生成比如说你最你要先 think 然后有这个 think token 然后后面再输出答案可能有这样的一些 format

就这两个东西这两个都是规则的就没有就没有奖励模型对就没奖励模型这个大家可以看到就跟最早的时候 MathShaffer 的 DeepSigCoder v2 其实都做了奖励模型包括到 DeepSigMath 还是用奖励模型可能 DeepSigProver 开始不用奖励模型然后到 DeepSigR1 其实奖励模型就没有了然后这是一个非常简单的规则就直接看最后的那个对不对然后对 Litcode 对吧但我们可以看到这里是其实是跟前面结果都矛盾 DeepSigCoder v2 的时候

他们还有结果在说对于 code 他用 reward model 还更好对吧我们看过那个图说 compiler 更差但是他这里你看他 lidcode 他就只用 compiler 他就不用 reward model 其实跟他们 divsync code v2 的那个图其实本身都是矛盾的对然后这个就很简单很简单然后这个 zero 我觉得是一个让大家

非常 impressive 的东西因为这个 zero 它之所以叫 zero 就是因为它前面没有做潜质的 sft 它这个 base model 机座拿过来直接做 rl 然后但是这个跟大家一般做法是不一样的包括像不管是 lama 还是 deep seek 自己之前自己做还是之前所有的工作做其实都是要先做 sft

对都是要先做 SFT 比如说大家就是这是一个创新点嗯对这是一个嗯对这是一个创新点或者说之前其实这个东西吃起来也很简单但是之前我觉得可能没有很多人这样去尝试可能大家天然就觉得没必要或者说我大家就会觉得我做了 SFT 效果会更好会让二流很简单我为什么不做或者说我做这个东西大家觉得没必要可能也不会尝试大家他们就从这儿开始做而且而且因为这个时候有所谓的 Long CoT 的概念就是有 O1 的概念

那个时候 o1 已经出来了所以说大家也开始去监控 tuning 的时候这个模型生成的长度然后这里面就有一些还非常 impressive 的结果就是他尽管只用 zero 就没有 sft 直接开始做比如说像 aime 这种很难的 math 这个效果就一直在涨而且而且他也没有就是这里面也没有蒸馏

就是他也不是说从一个更强的模型蒸馏因为他就是靠自己在数据级上做了长话学习他也没有什么也没有额外的强奖励模型他就这样做他 AME 比如说从前面的 0.2 0.3 这个就往后涨就涨到 0.8 就 0.7 0.8 然后而且这里还有一个很神奇的就是他的 Lens 也是一直在涨

因为我觉得这里基本上就盖棺定论就是什么呢就是 O1 的一系列的 replication 的工作就盖棺定论就是而且后来而且后来 O1 的那个不是 O1 就是 openAI 的他们的嗯技术人员其实后来发推特也承认说 A deep seek 可能嗯用的技术跟他们 O1 用的差不多对吧因为因为 O1 出来之后很多人浮现 O1 很多人想浮现 O1 有人做蒸馏有人做 mcts 然后有人做做这样做那样做反正做的也比较复杂

但但就没有人这么做对就 figure 3 就是他们就发现哎他就这样做他也没有 mcts 的那种很复杂的 decoling 也没有奖励模型也没有正流他就很简单然后他就从这儿开始做他就自己就把自己的呃思维链吹成了一个长思维对然后然后这是一个我觉得基本上嗯基本上我觉得基本上 o1 也就是这么做的对这就之前大家做所谓的

不像我可能都不是我玩真正的思路对然后当然他们也提到一些啊哈 moment 呀就是说哎模型开始自我反思啊但是这个自我反思嗯最近也有些争议也有人觉得前面的贝斯莫的可能就有这个能力了然后啊可能只是把激发出来但这个还还在更多的研究中间对然后然后他们做地步性的 20 和地步性的 21 地步性的 21 呢

对当然他们 DeepSky R1 并不是说只用了数学数据他们也有其他的 data 其他的 data 他们就呃我就是就是他们叫 reinforced learning for all scenario 就是对于其他的 data 呢他们就还是呃可能就没有弱了可能就没有弱了那么对于没有弱呢他们这里说了他们还是要用奖励模型的就是刚刚我们讨论那个问题就是你这种 general 的你没有规则了你还是要用奖励模型这个是避不开的然后 R1 反正这些也加进去呃然后

对我记得对 deep seek r1 刚刚说的是 deep seek r10 然后 deep seek r1 就是前面就跟之前的人做的一样就是前面我要做一个 sft

对他们叫 code start 就是我要做一个长序列的所谓的有点像蒸馏然后这样训练一下然后这个数据是他们自己来的然后他们没有具体写怎么来的然后但规模也不大做了一下然后再做二游反正最后效果会更好今天大家用的 deep seek r1 就是这样的一个模型反正效果就很好这个大家也看到了但是 paper 其实是我觉得是刚刚讲的这么多 paper 里面是其实是 deep seek 写的最简单的一篇 paper 就 deep seek r1

但是為什麼要變簡單了

因为它是因为我说它的路径都变简单了还是因为我觉得就是我觉得就是路径变简单啊嗯因为因为它因为它 reward 因为它既然因为比如说它这个 paper 用它它的基座是 V3V3 是它自己前面已经弄出来的 V3 本身当然不是很简单有比如说我们刚刚提到从 V2 V3 有 MLA 有影视那个多头影视注意力有什么呃很多专家还有西洋专家然后有很多这样的东西

但是这些东西前面 paper 已经写了所以说 R1 就基于 V3 开始做他做 R2 以后他做什么呢他做 GRPUGRPU 也是 DeepSeqMath paper 已经也是他们自己弄出来的

对也不需要怎么写然后那个因为那个 paper 也是半年之前就有然后然后他们 reward 也嗯他们抛弃了之前很复杂的各种东西 mcts 奖励模型他们也没有什么奖励模型然后就用规则然后就这样做然后然后就效果就很好对然后就 scale up 然后效果就很好然后就就就突然就火了对然后但是这篇 paper 但是这篇 paper 其实我感觉是今天讲的这么多 paper 里面最简单的一篇 paper

因为他也没有太多的技术细节呀或者什么的去讲然后反正效果也很好然后我觉得主要是结果确实可以让大家觉得很 impressive 男的工作前面可能都做完了对对对然后前面男的工作积极的就像刚刚说的 V3 这种都是积极的加 RPU 这这个都用到了然后走的弯路前面也走过了

对然后这些然后这一篇我觉得其实在我们看来其实我当然在我看来还是比较 surprising 的结果因为 Zero 的训练我之前也没有想到可以 work 这么好然后但是他今天讲这么多工作也可以看出来他也不是凭空出现的对结果他其实也是都是集大成都集他们之前不管是成功的还是失败的一些经历

然后最后得到 DFCR1 我今天差不多就讲这些然后就讲完了我觉得我还有一些问题他的论文发布时间基本上都是到 24 年初到 25 年初集中在 24 年吧这个发论文的频率是不是对于学术界也非常高对可以这么说可以这么说对对于学术界当然是很高但是他们是一个公司我觉得还行因为他们资源多人也多他们也不是只有一个实验室那么多人

像 DeepSick 这样子就是它以公司形式存在但它其实做了很多 science 的工作对学术界冲击大吗对你们科研有影响吗影响当然是有但是我觉得还是帮助大于影响吧因为我觉得像很多公司的发模型它可能很多 science 也不讲然后但 DeepSick 我觉得像很多工作其实帮助我们还是帮助我们理解了很多东西对就有点像学术界发文文一样

Deep Seek 这次它的产品其实让人非常 impressive 的还不是 math 或者 coding 而是它的生成文本方面真的像人一样而且文字非常的优美有很多很感性的表达这个是为什么呢因为其实回顾它的论文它其实做了更多的还是理工课的工作对吧但是它出来的文本又非常的文科生

对我觉得这里我觉得大家主要有两个猜测这个问题之前我也跟别人讨论过我觉得就有两个猜测一个猜测是 DeepSeq 因为它的基座是 V3 那个 V3 在前面的 data 包括 R1 其实 R1 我们看到它做强化学习也不只做了 Math 和 Coding 其实也做了 General 的就通用的然后通用的他们也有数据包括也有相应的奖励模型

但是他们这个 data 的来源呢这些东西并没有说得很详细然后我觉得他们在文科就先文的这个

data 上面可能有比较好的积累对包括我之前也有传闻嘛 deep seek 也有呃什么中文系的学生对吧然后呃这些可能有有我看有一些传闻也是这样然后呃然后我觉得可能他们有这样的人然后帮助他们也有一些这样的标注然后来让他们的文学功底更强不管是基座还是在 r1 online 的时候我觉得这是第一个猜想猜想当然也不知道实际上是不是这个造成了很主要的效果然后第二个猜想就是呃

二万的训练呢就是对于推理长推理的训练呢可能对文科会有一些放话的帮助就比如说虽然是做 maths 做题和 coding 但是你让这个模型的各种推理变得很有逻辑然后也懂得不停的去反思也好然后进行一个很长的推理也好然后这个一定能力可能是一定的一定程度迁移到了其他的任务上就包括文科的比如说让文科的这个

相当于还有更多的思考然后可能会有更多的提升这个假设具体这两个到底哪一个 contribute 作用更大我觉得实际上我们也不是很清楚对但是这我觉得这是两个可能大家平常会讨论到的假设

在你們看來你覺得魔性已經有意識了嗎說實話對本身一個嚴謹的科學態度我們一般不說這樣的 statement 我們一般不覺得魔性有意識或者說我們也不會討論這個問題我覺得應該沒有吧為什麼呀為什麼一般你們不討論這個問題

当然是这这这对意识的定义其实是有关系的对对我觉得这个可能跟意识的定义有关系就是你可能有些人觉得你跟这个模型聊天你可能觉得哎他就像一个人一样你可能就觉得他有意识啊但是有些人可能会觉得哎你这个模型不过是啊

不过就是你的训练数据拿出来怎么样排列组合排列组合了一下然后就觉得这个本身还是一个机器的事情并不像人的大脑真的是那种那种意识但是实际上模型是不是真的拿训练数据在排列组合其实我们也不是很清楚因为可以看到它很多时候在很多场景下肯定也不是简单的对训练数据排列组合尤其是今天这样长的模型对所以说但是它这个背后呢到底这个犯话到底是比如说还是很机械的

像一个程序式的生成的这样的东西来说真的像人一样好像有这种所谓的智能当然这个对智能的定义也不一样我觉得很难去验证我觉得我们不讨论我觉得可能也是因为理工科的同学大家不太喜欢讨论这种什么是意识什么是智能这样的感觉有点哲学的问题然后我觉得可能大家平常其实我们不太就业内的人我觉得大家不太会讨论这种问题

我听你讲完我感觉 Deep Seek 在过去一年走的相对还是挺顺的感觉就是基本原理搞懂了以后后面的复现或者是做一些创新都还比较顺畅

從 Paper 發表看起來我覺得是的至於他們背後我覺得他們背後肯定也會有不少失敗的嘗試只是說失敗了他們也不會寫出來對然後可能發表出來的都是比較成功的但是相對來說確實也是比較順的就像他們一年多時間內也發表了很多都基本上在大模型最後也都很成功能不能看得出來他們一共花了多少錢和卡

这个多少钱我觉得可能要仔细的算一算我没有算过但是卡的资源

卡的资源从公开的信息来看我觉得其实没有很多卡公开的信息其实这个也不是什么秘密就 DeepSick 自己也说过公开的信息就是他们有一万张比较老的 A100 那个那个 A100 好像比较老都不是那种后来比较新的那种一万张比较老的 A100 那个是很早就有了然后就是新的就是比如说 V3 的训练就是 2000 张这种 H800 好像也就这么多我理解对

能不能总结一下就是刚才讲这么多总结一下为什么 DeepSea 可以追得这么快以及为什么它的成本可以这么低我理解成本低跟它的很多通常优化有关比如说 MOE MLA GRPO 等等如果总结一下做一个概况

总结一下做一个概况就是我觉得从很早的时候开始 DeepSeek 就有这样一种文化或者追求就不是纯粹的 follow 之前别人做的 practice 对因为像 Lama Mistral 其实这些都很权威你如果去 follow 他们做可能也很难完全的超过他们你可能跟他们做的不一样然后我觉得 DeepSeek 从一开始就有

包括最早的时候我们看到从 DBSK MOE 开始就开始探索比如说更多的 expert 就开始就开始探索很多创新的东西但他这种创新也不是也不是为了创新而创新我觉得这种创新更多的是他们就真的想压低成本想让整个东西更 efficient

然后所以说他们就很勇敢的做了这些尝试然后最后他就跟别人 diverge 所以说 DeepSick 我觉得到后面他就跟别人越来越不一样他自己就有一套比如说 GRPCO 其实别人也没用就是也没有人用 GRPCO 在出名之前但是 DeepSick 他自己他就一直用他自己发明的 GRPCO

对然后他就他就他就跟他就跟别人越来越不一样然后他就自己有自己的一套逻辑和他们自己发明的东西包括像 mla 可能到现在他们火了越来越多人会用但是之前他们 mla 发明出来之后后面很多人当然也没有用对所以说就嗯就他们自己有自己一套东西而且他们很坚信他们自己的东西比如说我真的很好然后降降低了成本啊

所以說到後來我們就會覺得 DeepSeq 是一個好像很有創新精神的公司因為他們其實創新也是一點一點積累到後面比如說我們今天看 R1 看 V3 的時候就會發現 V3 有很多東西都跟別的模型不一樣但是他們其實每一個階段可能每次都只有一個小東西跟別人不一樣然後我覺得這樣就會讓他們到今天比如說我覺得到今天大家並不是覺得包括像美國並不是覺得 DeepSeq

因為你如果只是 follow 他們做你做的跟他們一樣好大家不會覺得你很創新對我覺得到今天大家是真的認識到 DeepSick 是真的做了很多創新所以說還是很 respect 他們如果說純原創的話一個是 MLA 一個是 GRPO 還有別的嗎你如果說從算法上的純原創我覺得

主要是这两个吧对那当然很多很多东西我我我倾向于也认为算成我我倾向于认为也是创新比如说他们第一次在 moe 里面去尝试做

Expert 很多 Expert 然后去加加这种 shared expert 的机制对可能他这个相对创新你可以认为没有 JRCO 或者 MLA 那么那么的明显但是这也依然是很新的然后包括像他们在 V3 里面去第一次把 multitoken prediction 这个虽然这个 paper 是别人发的也不是他们原创的但是他第一次大规模把这个东西

做进去而且做成功包括他们第一次在比如说 FP8 的春林也是为了降本增上然后做到这样大规模而且做成功虽然这个东西也不是他们发明的但是之前也没有人真的成功在大规模训练里面做过对但是他们把它做成功了而且把这经验可能一定程度告诉大家其实这些我觉得也是挺创新的

你觉得他们是这种纯原创的成分多还是组合式创新多一系列的小创新比较多我觉得也不能叫小创新对我觉得就因为当然你可以认为你不用 Transformer 你做一个完全不一样的价格叫大创新但是我觉得你这样看可能 OpenAI 也没有这么大的创新比如说 OpenAI 的 model 应该还是基于 Transformer 的

就因為這些很基本的東西你很難改就比如說 language model 預訓鏈大家是 scanning 然後用 predict next token 這些都是既定的東西對這些東西你很難說你完全去革命它然後那麼你在這個框架下我覺得你能夠做的創新可能也就是其實也更多時候也就是說這一些或者是叫工程化創新的這麼的總結嗎

对有很多工程化创新但是我觉得 GRPU 和 MLA 也不算工程化创新 GRPU 和 MLA 我觉得也算是一种算法创新就是有两个原创的算法创新和很多的工程化创新对可以这么说七座模型现在是走到 V3 了你觉得再往后走智能水平提升的空间还有多大还需要迅更大的模型吗

我觉得 SkinnyNord 应该还是有的当然现在机制模型还是稍微有一点饱和吧比起之前因为大家用的 token 越来越多模型越来越大然后这个数据就是高质量的数据本身可能很难有那么多这个也是之前大家讨论的问题可能数据已经有点饱和了

那么数据有点饱和或者说互联网上比如说你拿到互联网数据当然很多了但可能大部分数据或者说很多数据都没有那么好没有那么 clean 那么你能够拿到高质量数据可能也很难多特别多然后这个时候你的模型再变得更大就我觉得机座模型的

还是相对有一点修炼的这个伊利亚之前在 newreps 也讲过嘛他就觉得啊 data 可能已经到了一个逐渐开始走到极限那么我们可能要哎怎么 scale data 然后然后比如说 synthetic data 合成数据或者怎么样可能是一条路

对但机座模型的发展我觉得现在确实有我觉得我觉得肯定还有空间就不是说现在没有空间对肯定还有空间比如说你做更大再用更多的数据肯定还是会更好对但只是说他相比一年之前肯定这个趋势会要饱和很多了对然后然后然后现在可能大家比如说很多关注点在

怎么样把这个机动模型在一些关键能力上有大幅提升比如说像 DeepSickR1 就是一个例子他们是 scalable 强化学习那么 scalable 强化学习就是就相对是另一个 scaling law 就之前大家 scaling law 是 scaleup 预训练的那个算力现在大家讨论其他维度的 scaling 是什么比如说有人说是

测试时间 test time 的 scaling 然后现在也有人觉得说是强化学习的 scaling 强化学习我是不是可以继续 scale 下去然后相当于可以给模型带来更多的提升我觉得是接下来的一些比较热门的 topic 你是从什么时候开始研究强化学习因为我其实知道它是去年 Q3 就是 O1 发之前我才知道的我不知道在学界强化学习是不是一直是一个非常主流的分支啊

强化学是有自己的主流分支但是在呃原模型这边就是自然远处理这边其实一直不是太主流因为呃因为在过去很长一段时间特别是在大模型出来之前就有很多人呃在自然远处理里面做强化学习但是都没有特别的 work 对

都没特别的 work 就是强化学习一直给人一种感觉就是它很难有效就或者说在自然语言处理任务里面很难有效所以说所以说有很多传统的就包括我自己早期吧就包括很多在过去几年自然语言或者说在大模型出来之前就在做自然语言处理的人有很多人是不信强化学习的

对有很多人不信强化学习所以说强化学习一直在自然语言处理里面都不是主流对强化学习在自然语言处理里面开始逐渐成为主流或者更多的关注其实是从 openai 做 instruct gpt 开始因为 openai 做那个人类反馈强化学习对吧

就从人类反馈强化学习那个时候开始因为大家知道拆了 GBT 是这样做的就开始有越来越多的人研究怎么样在大模型里面做强化学习去 align 这种人类的价值观之类的问题对我觉得那个是一个分界点在那个之前其实强化学习在赠源处理里面一直是不太受待见或者说一直不太受很多这个方向的科研人员的待见因为有很多人都有很多失败的尝试

对然后然后然后但是但是 openeye 呢就开始宣传那个因为他们就是做人类反馈强化学习嘛然后这个东西也很火然后所以说后来我觉得就开始成为一个主流的方向吧在就有很多人用强化学习做价值对齐但那个时候强化学习还是主要做价值对齐其实并不太用来主要做 raising

对但是做 reasoning 大家还是可能还是没有发现他很 work 还是做价值对齐啊做呃社会价值观啊然后这些反正做了很多然后呃真正做 reasoning 呢呃一直也没有很主流长话写习没有很主流当然讲过了我自己是从比如说我自己在二三年底那个那个时候最早做长话写习那个时候我也是做价值对齐就做 alignment 那个但是那个时候我们就做 dp 哦

对就 DPU 就是那种离线的离线的 DPU 也很火嘛那个时候大家都做 DPU 因为 DPU 很简单算力要求也不高然后跑起来也容易你你去做 PPU 这种呃在线的也很复杂很难挑做 DPUDPU 确实效果也很好然后就在那种 alignment 就是和 user 和用户对齐的方面确实效果也很好所以很多人也用

但后来做 reasoning 我们第一次尝试做强化型 reasoning 刚刚也提到过可能是大半年之前那个时候开始就用就有点像 deepsick math 就是用

过程监督的奖励模型比如说那个时候我们甚至是直接用的 DeepSeq Math 不是 MathShifters 的就 DeepSeq 他们公开的开源的那个奖励模型对过程监督抢定模型我们就用那个奖励模型拿过来就开始做 online 的 PPO 那个时候就是做不 work 对就是最后就是失败失败高中对失败高中然后就是发现在数学上

弄这个奖励模型做 PPO 怎么做怎么做不 work 对我们做了很长时间可能调了两三个月都都都效果都不是很好对然后所以说后来后来后来我们就放弃那个强化学习了但我们后来就做我刚刚说过的那种 iterative 的那种自我进化

对就是迭代式自我进化但那个挺 work 的所以说那个我们其实那个项目最后也做完了然后但那个什么做完之后我们后来觉得不行还是要做还是要做在线的所以说我们后来又开始做 PPO 对又开始做 PPO 就已经是去年底了对就已经是 24 年底了然后然后因为相对我们一开始失败了搞了两三个月失败了然后就开始做做了一个更容易 work 简单也是当时 community 主要做的就做那种刚刚有点像 rejection 反 tuning

就是拒絕那種拒絕採樣的那種 SFT 吧然後做了那個項目最後也做得比較順利然後做出來做出來我們覺得在自我進化這條路上還是應該做 online 的才比較有前途或者說是未來的方向所以說我們去年底又開始做 PPO 但去年底我們就開始就做 work 了做 work 了跟之前的區別就是我們就不用講理模式對

就不用讲定模型其实跟大家修炼的路线我觉得也是一样的大家用讲定模型发现可能做起来有点困难然后大家后来就不用讲定模型像 Deep City R1Kimi 最后都是修炼到这个地方然后发现不用讲定模型之后这个东西就很容易就 work 了整体你怎么看 Deep City 这些 paper style 它有自己的 style 吗我觉得有自己 style 我觉得他们的 paper 很像学校的

很像学校的配布他们资源当然很多了学校一般做不了这么大的模式但是他们就是拿着公司业界的这种 level 的资源呢写的这些东西呢包括他们整个的风格又很低调又不太那种很浮夸到处宣传那种就是我觉得他们整个的风格这些东西都很像

高超的 style 我觉得跟其他的业界是很不一样的我觉得这个当然他们的这个团队模式可能也天然比较 unique 因为他们是自己孵化的可能也有这方面的原因决定了他们天然就是一个有点特别的一个团队

好了,这期节目就是这样,如果你喜欢我的节目,欢迎前往小宇宙,苹果 podcast,腾讯新闻,喜马拉雅,QQ 音乐,订阅张小俊商业访谈录。如果你有其他想邀请的嘉宾,想听的内容,或者你有任何想探讨的话题,都欢迎各位听众朋友们在评论区里留言。那我们下集再见,拜拜。

91. 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏” 03:20:52 Share

张小珺Jùn｜商业访谈录

Deep Dive

Shownotes Transcript

91. 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”