Deep Seek 把这些东西都放出来这个意义是什么呀我有一个感受就是放出来又怎么了放出来你也跟不上我秀了一把肌肉吧以前说 AI 没有护城河最后发现护城河是规模然后你有了规模你就有了场景然后你再公开出来的话反正它就有一个良性循环嘛
比如我一个公司比如语术他们说他有丁丁我要去线下比如说去门店去看一圈我就可以派一个机器人我的 AI 是丁丁里的一个 agent 我下了一个指令他就出门坐个地铁加一加电看一下了还能帮你数一下人头数完就回来了然后在丁丁上告诉你然后你这个 agent 再想一想分析一下 Deep Seeker Thinking 一下说我应该调研哪个品位完了失业了
欢迎大家来到 AI 练金术那么今天是把那个熊号要拽上来其实是因为 DeepSeek 然后有一个开源周然后开源周发布了很多奇奇怪怪的东西然后我看不懂所以得找专家问一下说每一个到底是什么意思我也看不懂呵呵好了
然后听众们默默的开始关掉了这一期播客说两个看不懂的人然后等你来聊这个我觉得他大概是讲什么其实还是比较容易理解的如果就是你去做模型训练或者你去大概了解过这些底层的这些分布式模型训练的这些框架什么 APP TPEP 这些东西对吧但是他怎么做到的就是
你直观感受是说你觉得肯定有很大优化空间但是呢如果你像我们这种没有深入研究过这个东西就会觉得哎呀这个肯定有很大的优化空间但肯定需要很多厉害的人花很多时间对吧但是别人就说啊我们开源一下
而且从他们开源的代码量来说估计也没有花很多人很多时间那就那个大家就放心对因为我们也没有深入看代码所以不会讲到特别的那个晦涩啊如果你也只是半同学或者也水不多的话你也很容易听懂那这样子的话就相当于我们大家一起相互讨论了 OK 那那那我先问你吧就是从第一天开始讲起那个 flash mla 是干嘛的 flash mla 就是
是这样的嘛就是 DeepThink 的模型结构其实跟我们大部分人用的模型结构其实不太一样的这个是他们最早的论文里就讲了他们用的一个叫 MLA 嘛动作就是我们现在用的都是 Transformer 模型这个大家都理解大家都知道
对吧然后里面有个东西叫做 attention 对不对大家也都能知道对吧 attention 你可以直观理解说我接下来预测下一个 token 我去整体的看前面的整个窗口的所有 token 对吧然后有个注意力机制你可以认为你简单简就是每一次你都去看加权平均你觉得哪些前面的哪些 token
跟我们后面有关系对吧这个就叫 attention 的机制实际上的在模型里 attention 是有很多层也有很多头的所以你可以认为不同的头代表不同的方向那算 attention 其实是一个成本很高的事情你可以认为是其实是整个模型当中最消耗算力的部分那之前其实就为了优化这部分呃有有在模型结构上有什么什么叫 gqa 呀就是把一些头组成
一个组对吧就是可以少做一些计算然后计算优化上也有东西叫做这个 flash attention 就是这个 flash attention 你可以认为是说他巧妙的利用了一些数学的代换方式啊
使得我每次计算的时候我计算出来的结果是不变的但是因为我这个计算顺序的差异使得我读取显存的次数减少了因为 GPU 芯片上也是说一级缓存和二级缓存里的数据算才比较快如果要读到主显存的话它会比较慢大概是这么一个原理
我先确证一下我有没有理解就是第一个我们讲 transformer 它有 attention 其实就是说我接下来说的话跟我们前面聊的哪些事相关对吧就比如说你前面也说了很多话对你可以直观这样理解我现在要说的话应该跟我们
上下文是相关的那上下文相关我们刚刚已经可能说了一千多个字了那可能我下面说的每个字就得去看说它受到了前面哪些字的影响然后这个影响到底是大是小往左影响还是往右影响那这个时候其实就是 attention 比如说我要把前面一千个字都过一下的话呢就是很费劲然后算起来尤其是你一万个字十万个字那倒不是就是一万个字啊是过一遍是不费劲的就是说 attention 本身的好处它就是容易并行计算嘛
对,因为 attention 的机制跟传统的这种什么 L 跟在之前的叫 sequence to sequence 就是序列到序列的模型比它的好处是它能并行计算比如我算一个 token 我不是前面一个个读的我是一起读的你可以认为那它就站在一层嘛它如果不费劲的话对,因为但实际它又很费劲我说为什么很费劲因为实际上模型的主要算力就耗在这个
算这些 attention 上你可以认为同时呢大家不要觉得说我算 attention 就是一个看不是的你可以认为他有很多个头就是他从不同的维度去看这个东西他从不同的维度看比如说这个 attention 头这个是用来看说前后的比如说数学原理上有没有关系那个是看比方说文字顺序上有没有关系后面是看语气风格上有没有关系当然这个是我拍脑袋举例子其实这个是打比方容易理解实际原理上实际鬼知道他在看什么是吧
对对对鬼知道他在看什么东西对第二个呢是但这个算的这个过程呢你会发现因为要算的东西很多嘛其实所以在算 attention 的时候之前的瓶颈其实是不在计算上
就是你算 attention 它其实不是 GPU 跑不动了所以你每次算你每次或者换一个头或者算你需要把很多数据挪来挪去 GPU 跟 CPU 其实是一样的它有什么一级缓存二级缓存主内存对吧一级缓存就用比较贵的这种 sd ram 的这种芯片
主内存就是我们现在 HBM 的芯片你会发现它的瓶颈其实在这些数据的换入换出上所以优化的方向就不是说让你算的更快而是说我提前做好规划让你搬东西搬的更少应该这样理解就是说我宁愿多算一点也少搬一点
如果我可以多算一点代替少搬一点我就多算一点代替少搬一点 OK 那这是那个 flash 的 flash attention 你可以认为这样理解这 flash MLA 本质上也是类似的就是说因为第一个是说 MLA 是是那个 DeepSeek 他自己提出的他其实没有用标准的大家这些看到了 Lama
或者说看到这些主流开源模型用的这些 attention 机制他用了一个叫做他的全称叫做 multi-head latent attentionmulti-head 这个大家都是一样大家所有的现在的机制都是多头注意力机制
第二个所有的人的机制都是 attention 机制这个都没有问题对吧那之前大家用的一些叫什么就是什么 group attention 对吧就是说做个头但是算比方说全众是共享的那他的做法呢是说我能不能把它叫 latent attentionlatent 呢就是这个我觉得是在很多机器学习论文里都会有的一个思路嘛叫做隐空间就是我能不能把一个
你的真实空间放到一个影空间里去我可以把它理解成一个比如说有一个数据一个矩阵太大了我把它压缩成一个维度往下降压缩一下让它好放一点对 Latent 你可以认为就是基本上就是这个思路你得理解就是说我们学到的这些权重对吧它的那个实际的空间是非常非常大的
比如说你有一个 2048 位的空间它其实这个空间是无穷大的你号称学出来有那么多的参数它如果把它变成一个个矩阵其实那些矩变成一个个向量那总的向量在这个空间中是非常稀疏的本质上是能不能通过一个更小的维度同样能表示出这么大空间中的信息
对吧这个是常见的我们叫 Latent 的这个思路所以那 MLA 其实我没有仔细看过他的推理跟论文但是他我理解他本质上是说他是对这个矩阵的 QKV 这些项链做了一个低质的压缩就是你可以认为他压缩到一个更低质的这个空间当中去了那么压到更低质的空间当中去这个就是 MLA 对吧就是 Multi-Latent
attention 就是我原来的那些高的矩阵我变成一个更更小空间更小空间内就能表达出来的东西 flashML 呢其实我你可以认为跟 flashattention 本质上思路还是一样的那就是我在 ML 这个结构下因为我模型结构跟别人长得不一样对不对
因为它不是标准的 multi-head attention 它不是一个标准的或者说之前大家用的这种 groups attention 的这种机制它做的事情是说那我能不能写个库我让我这个的计算也能够通过这个计算换存储计算换贷款它不能叫存储它不是说存储它的情景不是存不下
而是每次去读内存他觉得太慢我觉得核心思路是说用计算换带宽这件事情其实是现在 GPU 计算的中国人比较需要是吧大家都需要因为你今天的模型你还是会你真的带很多场景应用你得觉得它的延时太长就是有另外一个公司有一段时间也很火也叫 Grok 我不知道大家听说过没有
加 OQ 就是那个超级快的那个 Inference 那个东西对超级那块的他们的做法就是说那我就把这种比较贵的 SRAM 的芯片贴多一点 HBM 的这个内存换进来换出来太快那我就都给你贴 SRAM 这 SRAM 多贴一点就贵一点嘛
你可以认为本质上是那么个思路但是这个 DeepSeek 我觉得做两个事情一个是 MLA 就他觉得你其实传统的 attention 机制里其实还是挺浪费的对不对我用一个更小计算量我就能好那更小计算量我实际要去推理优化的时候我还是一样要去做通过各种工程优化使得我的内存访问我的计算不要成为瓶颈那是
我可不可以这样理解首先它因为自己用的是 MLAMLA 我就理解成比如说上海上海是一个 3D 的空间但是我们看地图就把它变成一个二维的地图最多你就在地图上标注一下这栋楼有多高这样子其实这张地图你大概靠猜也大概能想象上海什么样子如果有一个张地图还告诉你每个点有多高的话
那这样子就省事了他在那个矩阵变换的时候有一个大矩阵就至少降了点维度你刚说降质什么的然后的话他首先就省了一些地方然后的话你就说 flash 就是让他在计算的时候除了省了一层意外的话又把他比如说想办法说那你多算一点然后少占我点带宽因为带宽太有限了你宁可在这边
浪费点计算也节约一些贷款不要搬来搬去的每次就把一整个大个矩阵漏进来漏出去
主要就这两件事情对这个就是 flash attention 然后到 flash MW 因为代码我没有看过但我理解本质上其实是一样的就是它本质上是我的模型结构就是这样特殊的我到底去把所有的推理过程是怎么去切就是我切成是说我能够通过计算换存储的时候就计算换存储我能够通过通信换计算的时候就通信换计算你可以认为在玩一个魔方
就是魔方有标准还原套路去拿一个魔方的手册有一个标准还原套路但是这个可能要转很多下你可能一个普通人你也能背出来这个就是标准我去 attention 计算它的做法是它在不同的环节你可以这里转一下那里转一下可以少转很多步我就能把它转出来我判断具体情况我可以有具体的更优化的小策略但是这样子你可能要多背 20 个策略对你可以这样认为了解那这个东西跟
之前他们不是早几天发了一个 NSA 吗跟 NSA 的关系的话就是 NSA 又是说我在 attention 的时候更分块 attention 然后更粗粗的 attention 一下再细细 attention
我觉得是这样的 NSA 呢我觉得是又是另一个领域了就是说它又另外一种 NSA 为了解决的是长上下文嘛 NSA 是说因为你今天用 attention 你今天不管是用 MLA 也好还是用其他的 attention 标准的 attention 也好你都会面临一个问题就是我读一个 token 要读前面的所有 token 这个所有的 token 的长度始终还是有限的对不对而且长度越长我的计算量越大理论上讲我也可以训练无限或者说特别特别长的上下文
但是应训肯定是个不经济的方法 NSA 本账是去解一个长条下文的问题的你可以认为是那它的解法的话我粗略因为我看到它稀疏它的解法本账还是一个模型结构层面的解法就我大概读了一下看来 summary 我理解它还是一个模型结构层面的解法而不是它不是个推理优化层面的解法
当然这个模型结构的结合未来你也可以去做新一步的推理文化对吧所以它其实不是 attention 这个不对它是推理所以你说的是它是前面的事情不是后面的事情你现在解决一个原理问题就是
attention 是说我一个 token 要读前面所有的 token 对不对那理论上讲我要做的事情就是我要硬算前面所有的 token 我训练的时候也得这么做推理的时候也得这么做我如果希望前面的 token 很长但是我又能训出来又能算出来你先得在原理上证明这个事情是有一个办法的你先不是靠推理优化吗因为推理优化它计算量就是这么大你再怎么优化你也得算这么多
你先得从模型结构的层面去做有些比如说这个长上下文这些有很多 paper 比方说分块去算 attention 然后再聚合起来那你先得你不是说这个算法是不是有效你有很多优化我不算不就行了吗对不对我少放几个头不就行了吗但是你先得证你先得做一件证明说我这个模型结构用了这个方式之后我的效果得不下降
这个是所有的这些长向下纹或者其他方式的 attention 或者这种混合的线性加 attention 混合的方式先要解决的问题你用那些方式它一定速度会变快对不对但是光快不对是没有用的你就说我算的快不快吧
对那没有用嘛对不对你说的不对那没有用嘛他现在证明说我这样算他是算出来是对的或者说他即使不是精确对他近似对他的误差很小那也是个说法就包括量化就是说我告诉你我这样算出来误差很小然后我效果上
测下来这个影响也很小理解那我如果从一个文科的角度来理解这事是不是它有点像那个《红楼梦》比如说我要判断 56 章第几个字怎么写的时候本来我就要把前 56 章全看一遍现在我大概知道说我这一章主要跟第四章和第八章相关我先判断这件事就分了块然后我就然后只把第四章和第八章打开我再复习一下然后再去判断我下一个字可不可以这样子就是就是
是这个意思吗我觉得打比方没有问题对吧然后精确的回答我那篇论文我也没有仔细读过 OK
比方上大概是这样因为我想直观的理解一下到底在干嘛直观上大家在想那个论文的 title 叫什么 sparse attention 机制 sparse attention 机制就是说肯定是我没法都看我得挑一些我觉得重要的东西看然后我怎么就尽可能的跟这个现有的 GPU 硬件结合然后我这个东西无论是训练还是推理都能比较快我觉得它是个综合的论文它不是一个纯理论论文它也不是个纯推理优化论文
对吧就这个我觉得也是 DeepSeek 这家公司比较厉害的一点就是他他说他们不是个象牙塔就是说思考问题的出发点很多时候不完全是一个纯学术角度创新我举一个例子最近或者说纯学术角度把一个东西弄或者说纯想说我印象一个新结构要 work
然后他更多的是说我这个他能高度跟对这个 GPU 的硬件结合起来说哎我觉得这个方法呢他理论上可能是 work 的那我们来证明一下然后呢但是用这个方法他对跟有一个好处他跟硬件高度合适的硬件的性能能发挥的更好
那么它理论上可能我又能证明它是 work 的它就特别有用就是比方说你找纯工程出发的人会想我们就简单粗暴我不需要理论上证明它 work 我就这样裁剪一下然后我训出来或者我这样用起来效果也还凑合
这也是一种路子吧所以说还有种就是学术上我会觉得说我能够想出一个学术上很精密但是我先不去想啥它在 GPU 上用起来好不好使了解了 OK 所以我们先就简单一点下面那个 Flash MLA 大概就是比如说可以用计算然后因为瓶颈假设是在传输的话就用计算换一点传输对吧就多算一点少搬一点 OK
OK 这个理解了然后他们第二天发的是那个 deep 一批是吧是干嘛的是那个多多专家之间的通讯机制让让专家好配合还是干嘛他就是个通信库嘛他是个叫 expert parallel 对吧就是专家定型我们现在解释一下
大家先来理解一下什么叫专家并行就是专家并行我觉得是特别容易大家听到一个名字之后容易被混淆第一个就是说大家都知道应该都听说过 Deep Seek 用的叫做一个 MOE 模型叫做混合专家模型对然后混合专家模型大家很容易有一个误解是混合专家是说我问了这个问题
应该是这个专家来处理我问的问题应该是那个专家来处理对对对一般的科普都是这么讲的说有一个调度员哎呀你是眼科我就给你一个眼科大夫这句话既有道理又没有道理但是去调度给哪个专家不是在你整个问题级别的它是在每个 token 级别的哦 token 级别的我不能理解这个问题什么叫 token 级别调度专家你说一下你不能把它当成是个先分类问题然后比如说它有很多组参数对不对
你不能把它当成是一个分类问题说好这个问题进来我分考累了
都往那个专家送吧它不是这样的它是每一个 token 的时候都要决定往哪个专家送你可以这样理解吗我明白了有点像我们人的脑子其实我现在比如说我脑子里面有处理音频的模块视觉模块其实它也是每一个毫秒就有信息它其实每一个毫秒的信息都已经散在我的那个各个模块也都参与它会挑一个比如说我听你的声音可能就什么怎么样我大概理解了是应该是这样的
你能理解这个就能理解你第二个要理解就是说很多时候就是我第一个我需要能够决定这在很多计算的时候其实它也不只是有一个专家参与计算这个也能理解吧能理解我听你说话的时候我的思考也在转我的听觉也在转我的视觉也在看着你反正各种很多我的大脑反正肯定有一些地方激活了一些地方没激活但是不是每次只激活了一小坨不是固定一小坨
对,然后 DeepSeek 的那个模型的专家数量特别特别多,这个也能理解吧?能理解,脑子大。所以那正常来讲呢,但是你可以认为一般来说一个专家内的计算是高度紧密有合的,对吧?就是它是一组 attention,我们就先这样说吧。那你还,所以在实际在推理的过程中就面临是说,因为…
这些模型都很大它其实是分布在很多不同的卡上甚至不同的机器上 DeepSeq 的模型是 600 多币所以你需要解决的一个问题就是说专家跟专家之间是要通信的一方面我要路由对吧我有一个人去决定到底分给谁第二个是说
很多时候我去做这个无论是训练还是计算的时候我需要把这个计算的中间结果传来传去还是回到那个这一轮大模型跟 GPU 遇到了很多挑战它的瓶颈又不在计算上了它的瓶颈也可能是在通信上其实比较奇妙的事情是说它跟我们的 CPU 还不太一样 CPU 你可以认为说通信跟计算其实跟 CPU 只管计算它其实不管通信的你今天你的电脑
你的电脑是这样通信是靠网卡然后我们有什么 Direct Member Sense 你可以认为就是虽然你把那个网络流量打高它也会占 CPU 但是 GPU 的计算单元那些计算单元叫什么 SM32 那些东西它既要负责通信也要负责计算它叫 Streaming Multiprocessor 对吧叫做流逝多处理器所以它干的这个事情呢
就是说你这些计算单元在我的这个场景下我第一个怎么能够做到怎么边做计算跟边做通信怎么去动态分配它是最高效的反正就是要压榨到死
对所以它其实是个很底层的你可以认为是一个性能优化库 OK 我的理解我现在就完全按照自己的大脑在理解我就想我大脑当中比如说脑细胞假设分散到了比如说分布式在 1000 个容器里面假设我大脑变大了
这个时候其实那些比如说跟你聊天的时候可能我的那个学习的模块什么的然后我也要听声音模块反正很多模块就会被调动但是一次可能调动三五个他们之间还得配合比如说我要听懂了你的我才能够讲但是如果比如说你是个大美女的话可能我的视觉模块就会再被调动的多一点那其实要调动的不一样的就是专家或者说那个求偶模块可能就会调动的多一点对它比较厉害的你可以认为它就是一个动态的对它就会不停的变嘛
对对对对对然后他那这里面就怎么调度和怎么协同对它是个 adaptive routing 嘛
对吧就动态路由嘛所以所以这个事情呢我觉得很简单就是大部分人跟你没关系这件事情这件事情就是你说啊科技进步了你想说他的成果哎我觉得还是挺好的我知道一下因为我我之前就知道我脑子里面关于那个那个模型那个我的那个心理印象是不对的我知道不是那样的但是我也没有知道他到底是什么样的今天听你讲我大概知道是什么样了就更进一步了吧对
对对我有解决因为如果不是 token level 的那其实跟我去很多小模型然后前面有个分类本身没区别对吧以及说这个事情也没有那么复杂了就是科技的确在进步所以大家有时候你也跟不太上就是有时候你从觉得从学习的角度你有时候觉得自己也跟不太上就是你会发现啊就每件事情呢就大概跟你讲一讲你觉得有道理然后呢一看细节以后呀我这什么玩意儿哈哈哈哈
对了解了 OK 那那个为了规避我们搞的对我觉得还是有意义的因为其实大部分科普的话不会到这里了他科普到这里就会把听众都吓走为了让听众不被我们吓走的话我中间插一个问题就是他 DeepSeek 把这些东西都放出来
你觉得这个意义是什么呀就是他自己偷偷搞的不行吗还是说他反正已经占了市场的这个先机了他先放出来把自己在自己才是真正的 OpenAI 这个技术品牌先坐实对他的好处是什么我觉得有几个就是说其实就从 Karen 的角度呢我觉得他肯定有很多内部的决策或者想法其实是说我们是不知道的
我从一个外人的角度啊去看他们放出来呢我有一个感受就是放出来又怎么了放出来你也跟不上我学术界那些什么菲尔兹奖或者什么就是论文都是公开的嘛论文公开就显得我很厉害但是你看了你虽然也能进步但你还是没有我厉害我觉得所以第一个时候我觉得像他现在放出来的这些东西我觉得还是比较秀了一把肌肉吧
其实没有带来太大的坏处那比如说我现在要做东西不能学他吗可以学没问题你可以学但是他肯定内部也在做新的东西对不对今天还是一个技术快速快速变化发展的时期这个时候我把我去年的因为今天发的这些东西都不是今天做的就比方说他发的这些东西大概率都是
DeepSeek V3 的时候它肯定都已经有了那 V3 是去年 12 月份发表的
那从你正常从一个模型我训练完有效果整理完发表怎么也得个几个礼拜到个把月你之前的所有的前置工作要再往前就是他今天发的至少是半年以前他已经成熟使用的东西 DeepSeek 这次发的东西其实是如果你算力很充足你不一定需要就是他的方向是那种就是我们还是重补我们要逼性能的方向
我这样举个例子比如说 Grok 手上肯定 Grok 人很少他肯定没干这事就 SAI 他搞了十万卡集群 OpenAI 大概率也有一个大几万卡的集群第一个我觉得他大概率我觉得也许有也许没有我不知道但是我觉得他不是一定要有的但是从这个角度上来讲的话他把这块哪怕只是他半年前的
别人不一定要有的那现在它公开出来是不是那个 Grakko 还有那个 OpenAI 什么的他们把这一坨加上的话其实对他们帮助会有很大的帮助就省钱了嘛但是富贵人家也要省钱这周发了很多东西嘛咱们发了其实发了六天嘛还有个 One More Thing 对吧
那发了六天我觉得这当中有几个就有些东西可能对大家是有用的比如 DeepEP 跟那个 DeepGMMDeepGAM 这两个东西可能是对所有人都比较有用的这第一个但是比如 FleshMLA 我觉得就不一定为什么啊就我解释一下比如说他们用了 MLA 这个架构 MLA 这个架构他们也证明是挺好用的但是别的公司可能有别的架构对不对
但别的公司的架构路线跟你不一样他要把它过去历史累积的经验参数这个东西推导重来用你的 MLV 训一遍吗对吧是不是不一定所以给你就 FlashMA 我其实 FlashMLV 这个东西是最容易猜到的因为这个东西开源对 DeepSeq 是只有好处没有坏处它能更快的让 DeepSeq 的模型在更多的
地方被用起来对我听他们内部的人讲说就是非常希望把用户都到别的地方去我们不会改良我们的用户体验赶紧去别的地方吧我们要用我们的卡做训练然后就觉得说天哪别人花那么多钱搞的人你们都不要
对啊但像 DPP、GMM 其实都有这个好处就是说开放给大家任何人想要去 host 一个 DeepSeek 的推理服务都能变快而且这个意味着有更多的人有可能会去用 DeepSeek 的模型对吧而不是用一个真流的前问更多的人用我的模型我的生态会更大嘛我的生态会更大我下一版模型出来也会有更多人用有一天我出个官方的应用大家又会分用而来用了解所以这里面的话就是
第一个秀肌肉第二个的话呢其实我分享出来的一些东西那个可以让我的生态比如说他们服务成本降低然后速度变快这样子我的生态可以涨起来对对对我们在讲这个东西差一点这种文科的讨论这样子比较大家怀疑怀怀怀对我觉得你也很难判断他的对错因为本质上竞争不是在比如说迪皮克跟我们这种公司竞争对吧其实真正能拿去用的这些公司的人也都挺厉害的
那你就想说欧布尼艾格洛克这些人肯定都很厉害看看了你这个东西
肯定也是说如果完全从竞争的角度去考虑比如 DPEP 那有一个前提是说你如果用 MOE 模型它的价值会比较大如果你还是个 Dense 的模型它的价值可能就没有那么大但是大家也都传闻说各家其实现在都在 MOE 上模型跑通了因为 MOE 模型还是有个好处它的每次推理需要的激活参数小是说如果考虑激活参数的话它同等比例下的激活参数
还是比那个 Dance 的这种密集参数的模型的要划得来或者效果更好嘛那所以其实各家肯定都在训练 MOE 模型但是是不是训练很好或者到什么阶段这个其实不知道对吧
刚刚讲说它其实比如说对于要提供这个服务的厂商是收益的那是不是云是收益的呢云肯定是收益的我觉得对整个产业其实是收益的因为一开始大家说云收益的我就我成本降低了我能去更赚钱了但立刻我相信这个云
这个云的价格也会打下来因为大家会竞争对不对所以我们用 token 的人是不是 token 也便宜了所以你应用其实也收益了对对对我们现在就发现说这个用 token 就是可以很随便用了很爽就我觉得对所有人其实都收益的嘛就我觉得压力最大的是头对头的竞队就是国内的六小龙对吧这个压力最大就是别人告诉你我我比你强十倍那么你们这些公司还要不要融资太惨了
你刚讲六小龙的话我刚想到另外一个我自己的段子我之前的判断是中国人还是我们还是挺牛的所以我觉得中国一定可以出一家公司的话可以追上或者超过 openAI 只要路是明确的探路这件事老美还真的是有蛮多奇奇怪怪的想法
但只要路是明确的我们总有一天会赶上去的我个人其实你也很难个人投进去我当时就看到阿里巴巴几乎投了每一家然后我当时看到他几乎投了每一家之后我就买了一点阿里的股票然后现在已经涨了很多我当时买的心态就是我就相当于买中国 AI 的 ETF 然后发现果然是顺利
但是在当时我们在不够成投资建议小直跟大家分享一个段子理解换句话说是这样的就是因为阿里最近股价也大涨如果你去看阿里手上的产品他当然有一大块核心又是电商但是他其实第二大板块就是
就是 2B 的这些业务嘛对吧有云有阿里云有丁丁对吧这丁丁可能是今天是国内第一大办公应用里面也加了这个这些 AI 的功能对吧就是我看了因为我们做业务是所有的 IM 都要用的所以我也装了丁丁就是你要跟很多人去沟通嘛你要跟不同的人沟通你要去不管你是甲方还是别人是甲方你基本上把市面上所有的 IM 都要装一遍
就是以前做海外业务也是的海外所有的 IM 要装一遍一开电脑就是卡的不行你刚刚讲你要装所有的我就想到你刚刚讲的就是它对于整个生态是利好但是整个生态的话就比如说假设是 IM 这个领域那假设是对整个生态利好那其实这个利好就像下雨嘛那其实就是看谁的那个谁的面积大
谁接的雨就多嘛谁的市场占有率比如说丁丁的市场占有率阿里云的市场占有率他的市占最大然后的话呢雨就降到他身上降到最多然后他身上长出来的长他就他身上就更容易长出场景出来然后他根据这个场景去服务的话然后 token 变便宜了的话大家就觉得是其实可能是千万比如说下一版进步了但是大家就会都是丁丁牛啊然后也可能是阿里云比如说用到了 deep stick 某个某个
就是框架然后变便宜了大家就觉得阿里云牛我以后要一定要终身用阿里云其实谁的市场份额大其实谁可能就在这次的竞争当中会站到前面谁占用户场景我是这样的而且 IAM 是个天然的入口今天大家可能说大家用海外都会去开一个什么 chatgptcloud 的入口对吧但是的确你会觉得说
国内就是这件事情对大家来讲我们就发现还是挺大的障碍而且像很多公司还有合规要求但是比方说你假设你今天办公用的是丁丁丁丁其实在我看了一下他在一级入口就留了这个 AI 的入口了他现在在一级入口就留这个入口了这就意味着什么那意味着其实其实如果你想要用一下比如说天问
对吧你其实也不需要再去找别的地方你在那个入口就能干这个事了你就直接去去问他他就能回答你的问题你你不需要去说我再去另外开个窗口什么我再打开某一个别的什么 AI 的入口或者怎么样对吧理论上来讲就是说阿里可以把所有的反正我有云嘛对不对我这个云上我一边
你可以私有化部署我们 API 我挪一部分这个 API 所有的开源模型我都可以接过来你想用都能用它其实是一个办公场景的入口然后我的办公场景渗透的用户用途够多
这样子的话其实不管是模型变得更厉害了还是比如说我们的效率性价比提高了这个时候最先被吃到红利的其实就是掌握这种企业级场景的比如说其实我要的是个 OKR
然后我要的是一个算 KPI 的工具我要的是一个比如说帮我做会议引导员这个时候的话我其实额外装一个工具就很麻烦了但是丁丁里面的话其实就可以用 AI 把这些模块一个一个的套进来我觉得 all in one 把它给搞定了搞定了之后的话然后我就会觉得是丁丁
其实有可能是背后的模型好或者背后的 info 好 info 提高了然后但是因为只要 80%的人比如说人本用的是哪个 IM 他就继续在这个 IM 上面这样子就谁的面积大谁天降甘霖就爽对我觉得这就是你刚才讲的什么中国 AI ETF 逻辑对吧你想当初 OpenAI 上的时候谁的股价或谁收益短期内收益最大其实当时收益最大是微软因为 OpenAI 是个币源模型
所以说微软我独家对吧你要不要用 OAI 的你一旦要在企业用他最牛你就用我的就好了而且微软又是微软本质上就是跟阿里很像嘛就是他是最大的云之一对吧海外也比较竞争也比较激烈嘛第二个是说他是最大的办公场景你这几乎一模一样啊几乎一模一样只是大家的入手不一样就是海外他是 office 国内你可能今天是最大的办公场景是是中小企业的话是丁丁对吧对
如果往这边再推演一步的话就会因为其实除了火以外的话最近不是还火了语术吗都跑杭州的这批公司什么语术还有深脑带个圈圈在头上强脑强脑对很神的一个公司对我之前还在练冥想的时候还想过要买一个圈圈来着但是觉得实在是有点贵觉得是不是智商学杭州七小龙听说有 4 家都在用丁丁就是
可能因为都在杭州然后所有公司感觉丁丁都是第一选择然后语树春节年华晚会上跳舞的
那个机器人他们好像也都在用丁丁听说一个场景就是他们那个公司里面用丁丁的话比如说我们用丁丁的话最多也就是跟人聊个天然后开个会计录嘛然后听说语术那边是可以直接用丁丁指挥那个机器人去干活的就给机器人同事发个丁丁让他去把会议室的桌子插一下我觉得这个合理啊这个其实非常合理啊这个就把 AI 跟巨声智能串起来了嘛你的机器人同事嘛
你去帮我订个会议室订个会议室不光是在软件上订了个会议室对还是你把会议室订好之后还帮我桌子擦了把白板给擦了
看起来语书那个他既然可以丢手之外的话擦个白板也能擦吗我觉得这个其实还不就是如果是这样想象的话他的价值其实还不是在办公室内部啊而是机器人你其实可以派出去的对吧就李如晗讲语书这个机器人的作用不是在办公室内部帮你擦一下桌子而是语书这个机器人可以跑到这个跑到户外去对吧我帮你把甚至我办公室在上海我可以操作他在北京干个事
是对做一些我不想做的就是擦个办公室啊什么的他其实做个 demo 其实特别好但是我举个例子就是我觉得短期内其实最大的价值可能还是在那些风险系数比较高的场地嘛所以我让他去野外去帮我排个雷吗这当然是一种了对吧这个就不一定是气人了那个就可以是机器狗了对吧
或者机器鸟了比如说一只机器狗我看的那个真的非常酷炫这样的话你就说我一个公司比如语术他们说他用丁丁我在办公室里我随便打比方我不知道我要去线下比如说去门店去看一圈巡查一圈我要去大街上统计这里新开了多少餐馆我就可以派一个机器人我的 AI 是丁丁里的一个 agent 我下了一个指令
然后他就让语术他就操作这个机器人去看了他说跑到这个对吧他也联网吧我们国家 5G 也很发达随时随地都能联网他就出门坐个地铁跑到这个万达广场从地下一楼一家一家地下看下来还能帮你数一下人头数完就回来了然后在地链上告诉你然后你这个 agent 再想一想分析一下对吧 deep seek thinking 一下说我应该调研哪个品位
再派他出去在那干个活然后再走一圈回来对吧你也不用这完了失业了你说的对你这个场景比较科幻我想说语术他们用的话感觉突然想到说他们好像用地面比较因为做实业的我们造机器的
就感觉说这方面的高科技如果是做实业的话感觉确实是在丁丁的这个场景下就比较合然后刚刚我们讲说他如果底层的科技进步了的话那他们的面积最大用户场景最多可能收到的好处也就最多红利接的盘最大这样也挺好的我觉得是的客观来讲就是这件事情这个就跟疫情的时候丁丁受益最大是一样的其实它其实取决于说我今天有足够多的中小企业的市场占有率
然后说而且这个事情接入它又非常自然因为你今天的所有的模型还是以对话形式就 ChatGP 其实告诉了我们说 AI 的
当前 AI 从智能的角度最有效的形式还是对话这个形式所以最后你会发现说以前以前说那个 AI 没有护城河最后发现护城河是规模然后你有了规模你就有了场景有了场景你就练更多的把更多的市场的红利益像开源什么的都可以都可以弄出去进去然后自己还签问签问也很有然后再把这一套东西再转起来再
再赚起来之后的话它就或者像 DeepSeekDeepSeek 的话现在也是有一个飞轮已经起来了因为我牛然后我就成为了全村的希望全村的希望大家都希望着你成然后所有的资源向你聚集然后你再公开出来的话反正它就有一个良性循环嘛
我都不需要市场费用,我就可以做到比如说 DAU 第一,然后因为有了 DAU 第一,因为有了这么多用户的话,钱方面人才的品牌又出来又不缺,所以感觉都是一个良性的循环。刚刚中场休息过去的话,我们再来讲第三个,怕直接全部讲技术就晕过去了。Deep Jam 是干嘛的?Deep Jam 就是个计算库。
就是算举证成法算的更快八位进度算举证成法算的更快这有啥它是一个标准的东西吗这还能优化吗我以为举证成法就是一个相当于它是一个整体叫做举证成法
这个东西本身还有优化空间为什么呀这不是个数学吗第一个是如果其实传统的商业计算库本来就很贵是这样的数学是一个本账是个无限空间但是你一旦用计算机来算它其实有精度问题的我不知道能不能解释啊哦知道了理解了
计算机其实我们无论是浮点数还是整数比如说我今天用浮点数它其实是有个精度问题精度问题就是说我只能表示到小数点后多少位然后比方说我用无穷个 0.0001 一直往上加加到后来你会发现再往上加 0.0001 它那个值不变对吧这个就是精度问题这个是计算库带来的精度问题在那个深度神经网络里其实这个问题就是你一直是要面对的就是你弄得不好就会有
就会你发现其实算的是精度不准就带来效果就是差的这个也很容易理解对吧你明明应该是其实加了 100 万次它其实加到第 10 万次后面后面时候 90 万次每次去加的时候等于没加就会出问题这个很容易理解吧嗯理解这个时候你可能合适的加法是说这 1 万个加在你应该把它分成 100 组每个 1 万组加完加完那个结果再去哪加它加出来就不会错这个是精度问题如果我们只能表示小数点后三位
就是我只能有三位进度对吧我只能表示 1.00 或者 0.01 或者 0.001 因为 0 我都可以去掉用指数为表示那 0.01100 个 0.01 加到一起一直能加到 0.99 再加 0.1 的时候它就一直 0.99 不变它表示不出来了
为什么表示不出来它又不是加在后面它是变成 1 了不是这个是它表示出来还是 0.99 我知道你是说它表示不出来其实就是在电脑里面应该这样讲你没法拿一个大数跟小数在浮点数计算机里你拿一个超大的数跟一个超小的数相加它最后保留下的精度是有限的所以它还得有超大数你是说在表示上面就比如说它有多少位来表示
是你说的对对他就就是比如说就假设我只能只能显示两个数字就是当 0.99 跟 0.001 相加的时候他还是 0.99 然后计算结果你存下来是 0.99 那个 1 其实被扔掉了但是 0.99 加 0.99 他就会变成 2 就能表示下来好我假装你是对的这个是伏点数计算的问题就是这样的
就是你这个你要相信我我也想起很久以前你在搞那个广告的时候然后有一天你在加班我去问你在加什么班然后你在说你们的卡运行了多少亿次之后累积了一个浮点数命算的错误然后我当时就崩溃了在想你还要考虑浮点数命算错误你应该这样理解就是这个在计算机和数学领域叫数据计算嘛
它是一个专门的领域叫数值计算我书架里还有本巨厚的叫矩阵计算这么厚一本矩阵计算就是告诉你你如果就是用浮点数在精度有限的情况下去各种矩阵计算它怎么才能准你可以去看我计算机组成原理里原来专门讲过有一个 section 就是专门讲这个 bug 的
对对对徐光涛老师还讲过技能与运力我也学过但是全部都还给老师了对大家不要小看所以大家有个精度问题那第一个精度问题大家又回到那个东西就是我们的显存是有限的所以无论是现在的很多优化都说我训练是用伏点数
最简单的是我用 FP32 叫 32 位伏点数那它的表示的空间也比较大但它占的显存也比较大它算起来也比较慢你容不容易理解我就假设你理解了为了训练模型然后对吧就我硬件扩展是有限的那我软件技巧上能不能优化呢所以就有了叫 FP16 就 16 位伏点数对吧然后又有了叫 BF16 叫做混合精度的 16 位伏点数就是有时候呢
我用一种方式来表达有时候呢我用另外一种方式表达它能让我这个数能够表示的空间能够大一点叫 BF16 那后来呢发现 BF16 不够所以要 FP8 我用一个 FP 叫 float point 就浮点嘛用八位浮点数来表达但是我需要占的空间是不是更小了所以现在的所有的模型训练都是一个混合的比如说我权重一个模型的权重通常都是 FP8 来表示的
因为一般来讲我们都会把数据去做皈依化中心化就是你训练一个模型那不是更短了吗不是不是就是尽量让这个东西在比如说在零附近或者在一附近都在负一到一的区间之间离得很远就没关系但是你比如说在一些计算 loss 或者梯度累加的时候你是拿大量的训练级你现在也加在一起
然后再去算一个方向或者怎么样那那个值会很大那你就用 FP32 或者 BF16 之类的东西来表示所以他就是说你可以认为整个模型里虽然有很多参数但不同的参数是用不同的精度来表示的其实大家都在做这个事情包括英伟大家在做一个事情就是
对吧就英伟达你看他发了很多吹牛皮的东西说哎我的一块新显卡这个速度是原来的好几倍他那个好几倍说的不是 FP30FP16 这种他传统的精度他说他在 FP8 上 FP4 上
它的计算速度是原来的 5 倍 10 倍它其实在 FP16 上可能是原来的 1.5 倍那但是呢大家都想要干一个事情就是英伟达这个 FP8 它的确算的快了很多嘛那我能不能尽可能的多用 FP8 但是多用 FP8 就是第一个是你得算的对对吧我们极端点讲说你先得算的对你别精度丢着丢着它算错了那就没意义
所以你现在得保证它精度准确那精度准确就是然后第二个你得保证它的确它精微达收算的快但你是不是真的能算的快所以 DeepStream 它其实就是一个 FP 的计算库
然后他为了能够去解决这个问题他就是要解决就是说 f1%因为你表示的位数很小你如果有海量的累加的话它精度就会丢失精度丢失就有一些因为他其实也有计算库叫 Cutlass 如果你大家在传统 CPU 上计算过做过机器学习我以前跟你说的比如我们用 Blast 这种库他也有去解决这种精度计算的问题基本 CPU 告诉你说官方的库不好
官方的库太慢了官方的库太慢了我来给你写一个我花三百行代码来写一写他不要依赖那些科特拉斯这些其他的三方库那些三方库搞了一堆新加加模板什么的太慢了我来给你写一个这么写我们去读一下英伟达的官方的文档
我们这样写一下他就快了大概就是这么个意思大家能理解吧 300 行 Python 代码对吧所以其实不是说因为比如说 7×18 这是个数学但是怎么让他在最先进的 GPU 上因为他不是 7×18 他是一个巨大的矩阵乘矩阵这个时候的话怎么让他的表示和他的运算是能够最大化的用好他的最高性能比如说你刚说
FP8 是最快的怎么把这个给用上但是又把那些比如说连续累加的精度损失给补上来就有一些精妙的想法但是 300 行代码就实现了就比伊维达自己出的还好
对你可以这么讲好的大概理解了没有我之前经常跟外面那个说我现在已经不懂技术了大家都觉得我谦虚听完这期播客之后大家可以对我多了一些信任好的那第四个 DualPipe 是干嘛的 DualPipe 和 EPLBDualPipe 其实跟 DPP 我觉得其实挺像的
其实就是大的他宏观领域很像的就是 DPEP 是叫专家并行就是我提升专家并行的性能 DPLB 吧 EPLB 对对就是第四天他其实发了三个东西对吧就 DUPEIP EPLB 对吧但这两个东西我觉得跟前面的那个 DPEP 的价值其实是类似的是类似价值是类似的内容肯定不一样他本质上还是说我从因为我还是一个多基多卡的训练跟推理的过程
我通过什么技术手段能够让这个效率尽量高我解释一下 Dupuip 在干一个什么事情呢 Dupuip 在干一个事情叫做刚才讲的叫专家并行对吧就是我们这里要再科普一下有个东西叫做流水线并行哎呀什么
什么叫流水线并行呢就是这个跟 CPU 的流水线并行也是一样的或者说 CPU 的指令流水线也是很像的今天我们去训练一个模型是模型也很大所以我没办法放在一张卡上放在很多张卡上流水线并行我们也说过就是说这个深度神经网络它其实有很多层那它的做法是说那我能不能把这一层计算这一层放在这张卡上算完的结果传到另外一张卡上然后另外一张卡上来算下一层
我们先这样解释这个也很容易理解对不对但是呢光这样做其实卡是用不满的因为我那张卡在等我这里算的时候它其实不能跑它得等你把算的结果传给我它最好的方式是说我算了这批卡传给你再算下一批的时候呢我这张卡已经在算下一批了这个叫流水线流水线但是流水线你是没有办法完全跑满的你没办法是非常精确的预测到说
神经网络训练的时候比如说它有反向传播要算梯度你总得算完一个 batch 再算下一层所以我们会把它切成很小的很小的这个一小批一小批的数据嘛对不对但它中间总是会有一些空隙说这些卡这段时间它是空着的这个空着呢在这个我们叫它气泡那气泡
就是气泡越少意味着我对卡的利用率越高 Deep Seek 说呢那我能不能这样算我让气泡尽量少的方式是不是只算一个方向就是说一般来讲这个气泡我是推理我先是正向做 forward 的计算算完再反向算梯度嘛我能不能在 forward 的计算跟 backward 的计算的时候是同时进行它的这个气泡就会少因为 forward 的计算和反向这个 backward 的计算这两个计算之间互相之间是没什么依赖的
他怎么可以同时进行呢同时进行是他拿的是不同的数据在做不同的事情我们这样讲还是说比如说我有一百张卡我看哪些显着的比如说我在做不是会为他什么同时进行我觉得没有完全讲清楚我刚才应该没有完全就是流水线这件事情我们现在想清楚流水线的逻辑是说
就模型计算是做很多这种矩阵的计算嘛就矩阵计算它是我们刚才先讲了它得拆成流水线就是说拆成流水线的角度就是当中有很多个矩阵算很多个 attention 上一层的 attention 得得下一层的 attention 算完对不对上一层的 attention 在算的是呃就是
而第二个呢我的数据是有很多个批次就是比如我训练的时候现在一个 batch 都很大比如说有一百万条数据它其实是比如说那我五千条五千条数据去算可不可以那五千条数据在这个这一个卡上算的时候另外一张卡再算呃算完了它传到了下一张卡下一张卡算这五千条数据的第二层 attention 的这个值呃
我们假设这样去算后面那张卡就可以算同 batch 里的另外 5000 条数据这个我们叫 microbatch 或者叫 minibatch
这所有这些东西全都算完之后会累加才会去做一次 T 度下降但是这个当中就是像就是会做很多优化嘛就第一个是我流水线这个 batch size 是多少然后这个我怎么去切模型怎么去分配这些计算单元的通信跟计算的配比对吧使得我这个钱卡尽量能被用满但是通常呢我们优化只考虑比如说我只考虑反向传播这一路
或者我只考虑正向计算这一路但其实是模型推理的过程你可以认为是说它其实是一个先正向再反向的过程所有的模型计算都是我当前的权重我把这个数据输入进来去算算完这个结果跟我预期的结果对比
算一个差距然后反向算梯度再反向回来对不对所以正常人的想法是说哎呀我优化一路嘛我真向传播我怎么还算算满我反向传播怎么算算满那么他们想法是说
我能不能同时算算满这个在逻辑上怎么做到呢还是我这一次的正向和上一次的反向一起逻辑上能做到逻辑上的挑战是你其实不太好调度反向传播的时候是我一边算一边去更新参数正向传播我只做计算但是正向传播跟反向传播之间是可以同时做到的因为你卡的计算单元你可以有时候调配给正向传播有时候调配给反向传播
有时候给调配给为正向传播往后传的数据的通信有时候调配给反向传播往后传的数据但它肯定是更难的假设我的这些模型的某一系列的权重会计算放在某一块卡上你让他有时候正向计算他肯定是更难的他其实是这个就是 Dupyp 在干的事
OK,了解了,他就把正反向的活拼起来,让工人累死,让生产线没有任何空档。对,你在这边做通信的时候,那边做计算,你在这边那边做计算的时候,这边做通信,这本质还是个尽量把卡运用完的逻辑。Dupyp,我觉得就是说为什么那天我在朋友圈发,我觉得他们发了几个东西就特别像 Google,特别像早年的 Google,就是你我手上反正硬件不太行,
我想了一些技术上很牛逼的方法对 Google 之前也是这样 Google 之前拼大规模的服务器对就是中国的 GFDN 对吧它本质上就特别像 Google 我的设备其实最好的设备没有那么多我可能也没那么多有钱因为它也不是融资烧钱的它自有资金自有资金大家就会花的就会比较谨慎那我想想
哎,道理上这个事情是可以这么干的,对吧?就是你觉得理论上这个事情可干的,我觉得事实上这个事情就是可干的,我们就花点时间把它干出来,也不用很久。哎,这也有点心酸啊,是不是还是因为没有卡?有卡的话,他们会逼到这么狠吗?就是我觉得有卡可能不一定,有卡你的打法思路可能也会有差别。我觉得就如果你有卡,你手上有很多卡,是不是一定会这样?我觉得真的会打一个问号,对吧?就假设他跟 OpenAI 手上一样,什么融了一千亿美金,
或者像 Grok 一样融了五六百亿美金手上有十万张卡你说他会不会干这个事情真不一定他们现在都不缺钱就缺卡然后问他要钱吗不要你不能搞卡吗
那 EPLB 是类似的一个东西吗?EPLB 其实我就没怎么看了,但是我看它的简单说明,我没有仔细看,但是我看这个名字跟大概的描述,我觉得其实是比较容易理解的,就是我刚才跟你解释过,我们说了 MOE 模型,它的专家是你可以认为是在每算一个 token 的时候就要平衡的,
所以实际在计算的时候每个专家的就是这个世界上对专家的需求是不平衡的今天世界上比方说对于 AI 的专家的需求在暴涨对于 iOS 开发的专家的需求在减少对于植物学专家的需求没有那么旺盛所以在你迅模型的时候和你推理模型的时候其实你是不知道
到底哪个专家负载会重哪个专家算的比较多哪个专家算的比较少的实际在训练的时候它跟密集模型有个区别你不是说我全中简单分一分就完事了如果这个专家在推理跟训练的时候要用的比较多我应该多 copy 几份放在我这整个的网络结构里然后呢那我算的时候呢
就是 GPU 又能用用满了就是算的少的专家你就算的少的专家你就少放一点你就只放一份
算到专家你可以放多的专家可以放 100 分那他其实就是干这个事的叫做专家的负载均衡他的负载均衡不只是不只是说负载放在那里我去路由而是说根据这个一个分层的策略甚至是说推理的动态的压力的策略去复制一个专家然后放到不同的 GPU 上就是负载多的专家就会用的比较多负载少的专家就会用的比较少 OK 好那我们进入到了第五天 3FS 干嘛的
3FS 就是又是一个穷人特别重视的事情这个事情我就特别感兴趣就是因为我们也很穷就是模型训练我们讲过模型训练其实很多时候呢它的瓶颈跟这个其实就很像 Google 我觉得又很像 Google
又很像 Google 发 Bigtable 跟发那种的感觉,就是说我们很穷,我们不可能像 Grok 一样,我买很多 SRAM,我很有钱,我像 Grok 一样,我买很多 SRAM,SRAM 比内存贵十倍,对不对?我自己做个芯片,我都贴在里面。那第二个是说,那我差一点我就用好的显卡,然后我用那个 Infinity Band,然后我用这个东西把所有的东西都存到这个内存里了。
那不就更快吗我们更好的网卡那实际上呢他们干了个什么事他们觉得说对的在模型训练啊模型推理啊这个特别是模型很多时候要去做数据处理就是你如果今天去训练一个模型你有海量的数据有一种方式是说今天我想把数据的配比改一下
对不对有一种方式是说我把数据用一个计算集群重新按照配比计算一遍存下来然后就用这个东西加载进来做训练存下来这个东西我可以放在一个高性能的存储上之前大家比如说用 NFS 或者用现在大家都用 WAS 的存储更有钱的就是我搞个真正有钱的公司我猜像 Growth 这种公司说没关系我们有钱我们为了追进度我给你搞一个内存集群
这个东西专门用来放数据用内存当这个数据 cache 那么他们呢就说哎我们要做个我们搞个分布式文件系统用 SSD 硬盘用这个网卡使得我能够比较快的去第一个可能我不需要说每次预计算我完全可能是说我这个数据配比原始数据就是这些我就都加载进来
然后我动态的通过计算节点去改配比然后我再给下游管道去用然后我就用普通的 SSD 我就用普通的 Server 我用高性能的网卡串起来我不需要用更贵的存储设备我也不需要用内存来去做各种缓存无论是数据还是说我们计算中的 KBcache 这样能够带来的一个结果就是说我用更廉价的存储能够
跟你们有差不多的性能或者性能比你差一点没关系但我 ROI 高所以它是用相当于用 SSD 就可以达到比较好的一个并行的比如说 tune2 数据的一个方案可以这样理解对然后它把它封装成一个文件系统这个事情我觉得特别像第一次看 Bigtable 那种论文的时候
大家都知道比如说我顺序读写快传统机械硬盘顺序读写快随机读写慢然后呢同时我又想做一个文件系统然后呢我要对外部要透明你不能说调用的人我得知道这个这块数据存在哪块盘上同时呢我就只能买得起廉价的这些盘我又得高可用他们相当于说哎我根据我的应用场景下而且他这个 3FS 其实不是他最近写的
是他们在做换方的时候写的它是一个三四年前他们其实就发过那个 3FS 的技术报告现在开源了对吧就是换句话说就是这个团队的技术积累也很强他也不是说我今年临时凑了一拨人又干了这么一个干了这么一个事我一直是觉得这样的就是你今天去看模型的所有的人的这些推理优化你觉得从理论之上肯定有大量的优化空间
我觉得大部分团队面对的第一个问题都是说哎呀那我们为了赶时间我们先不管这些事情我先花点钱就跟就跟存储大家开始都有很贵的 NFS 对吧可能要 1TB 你现在在云上租个 NFS 其实给你打个折可能是 200 美金 1TB 的存储你搞这种多模态数据你搞了几百 TB 的存储或者上 1PB 的存储
就是一个月就 20 万美金就走掉了那所以你得省钱对吧就大家就就像我们也省钱就是我们也要省钱我们找一些方案市场上也有一些方案说我怎么把更廉价的对象存储包装成个文件存储就是就有各种各样的方式就我们也用了很多省钱的方式去优化这个事情
但我们肯定不会想说我们自己来写个文件系统我们自己搞一堆 ACCD 盘对吧因为大部分人第一个反应是搞这个东西他很不确定你搞不搞得出来很不确定或者你确定他一定能搞出来但是什么时候能搞出来你不确定大家都会挑 low hand fruits 嘛
我们也去做了一些优化都是一些 low-hands rules 找一些商业上的一些方案或者怎么样怎么组合一下觉得一个月就能搞出来我已经省了 70%的钱老板你不得夸不夸我但人家不是这么想的人家说你们这些东西也都不太行要不我自己搞一个我觉得这个事情我觉得一个是能力上可能有差别第二个 mindset 上也有差别而且这个 mindset 有些是来自他的积累我相信 3FS 这个事情
也是他们比较强而且就 3FS 这个事情因为他应该是很多年前他们就发过技术报告的所以呢这个肯定不是最近在干的最近才干的那最后一个虽然说是说五个嘛最后不是有个 one more thing 吗
文工信那个你是干嘛的文工信我觉得是个技术报告嘛文工信就是说我们把我们所有这些高科技组合起来我告诉你啊大概你的成本应该是多少你们要好好干对之前就是外网确实有人在说他们每天在狂亏啊什么的嘛他现在就直接拍出来说那个我觉得是纯属不会算我大概也估了一下我觉得呢就是大家可能是微亏就大家一开始可能是亏钱的
或者为了快生活但是不会亏那么多钱的就没有理由就你也得理解那些做推理啊做平台的人也不傻就是说让他亏点钱是 OK 的让他海亏是没人干这个事谁也拍不了这个板而且你对比一下就知道嘛他那个因为 V3 跟 R1 模型尺寸是一样的呀
他阿姨卖的很贵他 V3 卖的并不贵而且 V3600 是一个 MOE 你去想一想比如说 Lama405B 这种密集的模型他卖的也没多贵我当时的心态是说 DPC 之前不是有人出来说过吗说我们不亏钱的但是我们威力我们稍微赚点钱当时大家的我的假设说哎呀肯定会发一些这种推理诱惑
肯定会是告诉你他肯定是能挣钱的但是呢你没有想到他的威力是说他现在告诉你他说我现在稍微赚钱是因为什么网页 APP 免费给你们用的这个成本我们也都算进去我们也是稍微赚点钱的哎这帮做料化的真的是太强了他们在他们那边是不是塞了很多 IOI 金牌他们有四个 IOI 金牌
四个 IOI 金牌就是大家听说过的就是说有就现在市场上有两个人也是 IOI 金牌大家都听说我第一个人叫王小川对吧应该但是百川应该他只有他一个 IOI 金牌对吧而且他肯定现在也不写代码对吧他肯定不干这个事对而且你得理解就是那个时代的 IOI 竞争没有现在的 IOI 竞争激烈就特别在中国对啊
那个时候你肯定是最聪明的你能拿 L1 金牌应该这样讲中国的集训队可能出去四个人都是 L1 金牌所以现在国籍不是说不是那个之前看谁也是好像也是个 L1 金牌在说就他爆料嘛说换方有四个 L1 金牌就意味着其实他们可以拿十几块 L1 金牌
因为现在是这样的你拿过 L1 金牌对吧就你下次集训队或者比赛你就不用参加了你去干别的吧留点机会给其他人所以明年会有另外一个高一或者高二的小朋友再拿个 L1 金牌一个是王小川是 L1 金牌第二个是那个现在拼多多的 CEO 陈磊是 L1 金牌
对就我已经说了这个事情是这样的就是说是个智商碾压我在想我是不是应该去我高中应该有很多快进盘我应该去高中的高中奥赛群我好歹也混在那个群里了
从来不冒泡最近应该过去多跟大家哈喇的每个人的微信加上然后说你最近要创业吗你需要钱吗还是得挖最牛最聪明的这些小朋友我觉得你看干什么吧你要干我觉得你要干量化跟基础模型训练这两件事情呢就特别是你提不提告诉大家说基础训练模型训练它我觉得基础模型训练今天其实有一个特点啊一个是说方向其实是不明确的
就是你的经验其实有效性是有限的你的经验半年一年也就是个半年一年的有效经验第二个是你如果为了把这个事情挖掘到极致特别是因为你的算力的投入非常大基本上基础模型训练的团队人均 300 块 H100 其实是国内这些团队基本上人均 300 块 H100300 块 H100 是啥概念呢 300 块 H100 大概一个月的成本我来算一下
一块 H100 大概一个月的成本是 1500 美金 300 块 H100 大概就是 50 万美金一个月所以你会发现小天才们的工资虽然高但跟卡的成本比起来其实也还好是跟卡比起来也没有那么贵了
我之前聊另外一个朋友他就说他们现在挖人都是直接出并购一家公司的钱这夸张换句话说如果你不是干这个事你其实也没有必要找这些人这些人也未必挖得来这个问题是面我觉得这个问题很多时候是这样的就是说你到底在打什么仗你今天如果是打一个说我要做个应用莫妮卡做得很好他连 NOI 比赛都不需要打对不对
但是里面现在也有一个小天才哦 Pick 记忆超现在我上周刚跟他在那个那个混沌我们一起搞了场直播记忆超现在在莫妮卡呀对吧这这这也是少年天才哦是吧 OK 就是哪怕是你觉得他们不需要小天才的他们现在也在疯狂的搞小天才嗯那我觉得那就不一样了那莫妮卡肯定要想搞点大事了哎那那你觉得说那个除了 deep seek 之外的话还有没有什么其他开源世界值得关注的事情啊
就比如说我看到那个千问一职也是开源的嘛然后另外的话呢最近不是放了那个万象吗同意万象对对对同意万象然后我自己没有部署啊然后看了一下别人搞的效果真的是非常吓人而且很多人在私有化部署他觉得可以做很多偷偷摸摸的想要好玩的事情
觉得这整个开源生态是被 DeepSeek 一下子又带起来了还是本来就是这样的切瓮好像本来就一直开源
我觉得是一下子带起来了为什么就是说我觉得第一个是说那个你看连 Kimi 都开源了一个 MOE 的那个 Muang 那个优化器其实 Kimi 也有很多厉害的人这个也就比方说 Rope 的作者那个苏建林就一直在 Kimi 对吧只是 Kimi 之前的策略是他做他不开源他想打 2C 对吧但是我觉得这一次绝对被
一棒子打乱了阵脚他们好像有两篇论文都跟 DeepSeek 发在差不多的时间然后其实也是很高质量的
就 K1.5 和后面发了一个啥好像跟 NSA 又撞的对的一个长窗下门的这个问题就回到那个问题就是这种竞争你要不要参与你要参与也有可能是说你虽然很牛你拿了 IOI 银牌就很尴尬你知道吧像我这种就比较不尴尬我在高中奥赛的时候在我们的黄金时期我们彻底被学校放弃了因为我们在高二作为主力的时候高一有两个天才然后初一有一个天才
初一的和灵小朋友是跟我们一起参加高中的比赛然后他的成绩比我们好我们这一届就被说你们也就在省里面拿个一等奖你们肯定闭着眼睛也能拿个一等奖但是你们要去进校队是没有可能的因为校队也等于国家队我觉得 Kimi 其实还是很强的就 Kimi 无论发的 paper 他们的团队包括这也是个战略决策如果 Kimi 很早就开源比如说这些东西更早开源或者说也许也更容易吸引人才我们极端一点讲
minimax 那个创始人就讲了这个他觉得就要做技术品牌他就觉得 DeepSeek 做得很好他在 DeepSeek 火之前好像接受采访说的他说虽然不见得对于吸引用户有用但是对于吸引技术人才可能一两个人就改变很多
那最后回到商业上你觉得如果开原生态爆发的话对我们做应用或者你可能还做一点模型啥的对做应用做模型来讲的话会有什么样的就是格局会有什么变化会有什么机会吗除了我们刚刚可能已经聊过的就是比如说像阿里啊丁丁啊这种旅营啊这种其实掌握用户场景的他就会是第一波受益者吗
比如说杭州的那些公司都用丁丁他们以后丁丁好用了然后加各种各样的 AI 能力的话当然丁丁就是最大的受益者但是还有没有什么其他的机会吗第一个我的结论是说我觉得两拨人其实还是都有大机会第一拨还是说我们就 talk 就做应用不管是你说我们讲回到比如丁丁在 2B 内
我相信我的假设是说像丁丁啊像这些大概率还会进一步去挖掘应用内深入嵌入 AI 的能力他们有场景继续找对第一个有场景第二个也能进一步去拓展用户就换句话说就是你长期投入是会有回报的这个跟 DeepSeek 是一样的就是 3FS
他不是今天我干的其实是我很久之前就干的他去聚拢这些最 top 的人才也不光是靠 DPT 可是他之前做幻光亮化的时候其实已经该干这个事了其实还是会有很多积累的你刚刚我想到其实像我们去年不是尝试孵化一个视频方面的应用然后当时就结果找到最好的是就是
我们想找一些开源的拼结果看到开源的没有开源那开了论文的最好的就是阿里出的 MIMO 然后我当时在有各种关系联络阿里内部的人说这个东西能不能借我们用一下但是他们内部的积累其实还蛮多的内部有积累外面也有开源的然后
阿里云又可以把它塞进来丁丁又可以塞进来然后又有应用场景其实在这种情况下的话那个就是水涨调高嘛那比如说我们现在你刚刚说那个我们路波客我们路波客现在同时也在开着 Riverside 嘛这个软件每个月我们要交几十美金呢
对然后那交了这个钱的话如果大模型或者说语音识别或者各方面它的进步那其实我们会以为是 Riverside 的进步然后我们就愿意给 Riverside 更多的钱因为它控了我们这个场景有可能是后台的那个模型进步了可能是自研的可能是开源的那这个时候的话其实谁占用户场景好像就变得更重要了
第一个我觉得就是说其实还是说围绕用户场景我我我称之为一家套壳嘛就是用还是有很多壳的场景你用开源模型开模型大家就套壳套的更安心了第二个是说如果说 deep seek 比如下一个版本仍然是开源的话那我觉得我觉得第一个我认为鸡模公司的价值其实在大幅度下降就是 deep seek 其实干了一个事儿本身上是掀桌子的事儿对吧就他就告诉你你不值那么多钱第二个是很多占了场景的公司比如海外像比如 cursor 这种编程工具
我觉得 Cursor 一直是一直我其实觉得说在没有 DeepSeek 这个级别的开源模型之前 Cursor 其实一直有一个问题比如 Cloud 有一天说我自己来做一个你 Cursor 就没得活了 3.7 里面好像还专门做了一点什么就是说这种事情对而且现在其实有人开始我觉得 DeepSeek 也给整个社区一个信息有人开始组织说我能不能真正的做到全链路开源就从训练数据到训练代码
到这个最后的模型权重全开源这个可能会接下来我觉得是甚至有可能这件事情我觉得会是未来的一个趋势因为我觉得有一个特点就是说至少文本模型现在的一个第一个结论是大家的 token 数反正也就用到这点了 20 个 trillion 的 token 对吧特别是 gpt4.5 出来之后
大家就说我是这么个破玩意儿对我这几天体验也是毫无感觉对吧大家就觉得是这么个破玩意儿你为什么要开个发布会你是嫌自己太值钱了吗是吧那就意味着说全链路开源是有可能的那意味着所有做应用的人都是利好我也不用去做开源有人会做的社区会做或者有一些公司会做然后我就去做好我的应用我套好壳我觉得机会会变大特别是国内的机会都会变大因为国内之前其实是一直缺一个
一线的模型嘛就是最好的是当时最好的是其实是千问那千问多少有给大家一种就是离一线就差那么一点点的这种感觉它是最好的开源模型但是大家一定会打上开源最好的开源模型就是一定要打上开源两个字才能加最好今天 DeepSync 告诉它是最好的模型之一给人你这种感觉
DableSeq 开源了之后会不会就是其实马上不管是签问也好 Keyme 也好其实马上因为可以学习的也马上就可以吸收进来是不是其实理论上来讲比如说 4 月份的时候我们就可以看到说新的 Keyme 新的签问其实也会达到世界一流水平就自己也在进步然后也可以对吧拿来一点我觉得会的而且 Keyme 不已经在搞了吗好像已经在内测 Keyme 1.6 了 OK
挺好的中国终于大家都熊起了对然后千问我觉得大概率会不断的继续投入来做这个现在是 2.5 嘛诶据说在哪里看到不是大家说那个千问之前最大的模型是不开源的千问其实都开的都是只开到 72B 嘛他们之前一直有那个千问 2.5MAX 也是个 MOE 的超大尺寸模型
然后其实之前一直没有说过要开源最近传可能也要开源而且那个是个多模态模型又能补上 DeepSeek 没做多模态的差别
所以我觉得做应用创业的同学们就是都跟我一样就是我们得提前判断一下就模型会在哪些方面有重大进步然后我们可以提前到那边去占个位置去占应用场景就在那边做做一堆比如说工程上的事情产品上的事情把那个应用场景给占下来哪怕效果不那么好对吧然后我们在那边干嘛呢就可以等着模型成熟等模型成熟
一旦成熟我们就吃到了最大口的红利就好像做 AI 编程的 Cursor 之前是不温不火直到 Cloud 3.5 代码能力一下子到位了 Cursor 火了然后直接收了 1 亿美金收入前面我们提到阿里的股票涨了好像也是类似的情况阿里云丁丁在 2B 的场景里面占绝对优势 AI 能力提高他们就一下子吃到了最大口的一口红利
所以我觉得这种策略可能是更广泛适用的一个策略因为真的能做模型能用上 DeepSeq 这些开源代码的朋友们应该很少我刚刚听完也就是大概了解有个大概是吧但是我们都可以预判一下未来一年 AI 能力可以在哪些方面有巨大提升我们可以提前找到应用场景
先降个位置然后等水涨等船高这是我们可以用的策略最后今天我们不是聊了好多 KM 行吗我估计已经忘掉了你能不能再帮大家梳理一下到底涨了些啥哪个到底是用来干嘛的好呀其实我觉得 GPSEQ 其实它做了 6 天的发布有 3 天第一天第二天第三天
第四天都是围绕着他自己的 MOE 模型跟他自己的 MLA 的架构开源了各个小的计算或者通讯的优化组件第一天的 Flash MLA 呢其实是优化了他的那个叫做 Multi-Head Latent Attention 就是叫做潜在注意力的这么一个模型架构下的快速推理他其实把推理性能给提升了
第二天呢,他开源了一个东西叫做 DeepEP,他其实呢是把专家之间的通讯性能,通讯库给开源了,让 MOE 模型的训练跟推理能够更快。第三天呢,他开源了一个叫 DeepGAM,就是 GMM,GM 的全称叫做 General Matrix Multiplication 嘛,就是通用的。
举证计算的库举证惩罚的一个库他其实是把 FP8 就是八位辅点数的举证计算的库重写了一下会让计算会加快了第四天他是开源了 DUPE 跟 EPRB
跟一个分析计算通信 overlap 的一个小工具它其实是它解决的是 GPU 计算的时候我们叫流水线币形形下尽可能让通讯跟计算能够有交叉让 GPU 尽量被用满
EPRB 呢其实是在专家专家病情的情况下怎么去调度专家让负载重的专家去复制更多的专家头然后让这个也是其实本账让 GPU 计算更慢前四天开完的机构是比较硬核的
其实很大一部分是只要你运 moe 模型就能用只有第一天的 mmla 是你如果用 mmla 架构才能用后面几天你基本上可以认为你只要去 mmoe 模型运超大模型对你就有用那么这 4 个比较硬核的计算库第 5 天它开源了一个文件系统
文件系统换句话说也是一个降成本的事儿吧它其实是能够说比如说 KBcache 就是说传统的都是说要么缓存在 GPU 里要么再差一点缓存在内存里它能够缓存到这些 SSD 的盘上对吧第二个是说它用这些 SSD 的这些盘通过 RDMA 的网络就是能够更快的去读写数据
相当于他能用更廉价的硬件设备达到跟你差不多的效果第六天他其实是把他写了技术报告你可以认为综合了一下我们有给你的这些技术硬实力我帮你算一算按道理来讲呢
你按我的价格卖 GPU 你有 80%的利润一块钱你成本应该只有两毛没有两毛你自己回去反省扎扎实实秀了一把肌肉大概就是告诉大家你看我还是比你厉害对不对我给你看看我比你厉害在哪里你好好用用接下来我会有更厉害的东西的牛真的就有的时候看到这种你还是会很真的是心生惊讶
真的是完全靠硬实利益还是很感动的因为像你说打黑熊号悟空啥的你看到这个真的是好东西它是靠好东西赢的希望这样的公司中国越多越好吧好我们今天先来到这边欢迎大家继续关注 AR 链金术对的各大平台都有然后点赞转发如果你觉得你的朋友可能对什么 DeepSeek 感兴趣的话这一期的话是可以发给他的
对吧你已经听到这里了能听这么长时间对吧然后这边的话就是会一个稍微小白一点的然后就去问问题的话就可以有助于大家听头欢迎大家转发推荐给朋友们给我们长点粉丝谢谢好那就先这样好谢谢拜拜拜拜拜拜
i know how it feels when the levee breaks hold your breath take my hand don't you know you're not alonecause i'll lose you in the waterwhen the river floodsit floodsno i'll lose you in the waterwhen the river floodsoh oh oh