We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

104: 3700次预训练寻找非共识，MiniMax-01开发者讲述4年线性注意力之旅

2025/3/3

晚点聊 LateTalk

AI Deep Dive AI Chapters Transcript

People

曼

曼琪

钟

钟怡然

Topics

曼琪: 本期节目讨论了MiniMax-01模型中使用的线性注意力机制Lightning Attention，以及其研发过程中的挑战和突破。我们邀请了该项目负责人钟怡然，分享了他们团队从2021年开始探索线性注意力架构的历程，以及在面对质疑和挑战时如何坚持技术判断并最终取得成功的经验。钟怡然: 我在2021年开始探索线性注意力机制，当时它还只是一个‘美好的泡泡’，不被很多人看好。但我们团队坚持研究，并最终在2024年将线性注意力应用于参数量达4560亿的MiniMax-01模型。在训练MiniMax-01之前，我们进行了3700次预训练测试，以验证新架构的可扩展性。虽然线性注意力在计算效率上具有显著优势，尤其是在长序列情况下，但它在召回能力上存在缺陷。为了解决这个问题，我们采用了混合架构，即每7层线性注意力后加入1层Softmax注意力。这种混合架构在百万token序列长度下实现了2700倍的加速，同时模型效果也优于纯Transformer。闫俊杰: 作为MiniMax的创始人，我对线性注意力应用于大型模型的成功率只有50%的把握，但最终还是决定投入公司超过80%的研发资源。这个决定并非一时冲动，而是基于团队的长期研究和充分的实验验证。钟怡然: MiniMax选择MiniMax-01作为第一个开源项目，是为了向公众展示我们新一代架构的效果和潜力，吸引更多人才。开源后，社区反馈主要集中在推理效率和多模态支持方面。为了更好地支持社区，我们将推理优化贡献到了开源框架vLLM中。我们团队从2021年开始探索线性注意力，最初的目标是解决Transformer架构中计算复杂度的问题。我们尝试了各种线性注意力方法，并最终在2023年中期，在小规模模型上实现了与最先进的Transformer架构相当的效果。然而，在将模型规模扩大到4560亿参数后，我们发现纯线性注意力在召回能力上存在缺陷。为了解决这个问题，我们采用了混合架构，将Softmax注意力与线性注意力结合。 3700次预训练实验对于验证架构的可扩展性至关重要。我们测试了各种参数规模的模型，并最终确定了最佳的混合比例。这个过程耗费了大量资源，但确保了我们最终模型的可靠性和性能。我们相信线性注意力是一种‘无损优化’，混合架构的效果甚至优于传统的Transformer。虽然目前业界对线性注意力的有效性仍存在争议，但我们相信，随着模型规模的进一步扩大，线性注意力的优势将更加明显。

Deep Dive

Chapters

MiniMax 选择 MiniMax-01 作为首个开源项目，旨在展示其在非 Transformer 架构上的创新，并吸引更多人才加入。开源后，社区反馈集中在推理效率和多模态支持上，MiniMax 积极回应，将推理优化贡献到开源框架 vLLM 中。

MiniMax-01 是 MiniMax 首个开源项目
开源原因：展示架构创新，吸引人才
社区反馈：推理效率和多模态支持
将推理优化贡献到 vLLM

Shownotes Transcript

欢迎收听晚点聊本期的主播是曼琪这期继续来聊注意力上一期我们与清华的两位博士生肖朝军和傅天宇聊了吸收注意力机制的改进也以注意力为线索串起了大模型的优化史 DeepSeek 和 Kimi 最近发布的新工作都属于吸收注意力的大范畴这期我们来聊注意力机制的另一大改进方向线性注意力

中国大模型公司 MiniMax 在今年 1 月发布了参数为 4560 亿的开源大模型 MiniMax0101 就用到了他们开发的线性注意力机制 Lightning Attention 本期节目我邀请了这个项目的负责人 MiniMax 高级研究总监负责 01 模型网络架构的钟怡然来与我们一起聊线性注意力的研发过程钟怡然曾担任上海人工智能实验室青年科学家是新架构探索组的 PI 也就是项目负责人

他在澳洲国立大学获得了博士学位是从李洪东教授和 Richard Hartley 院士我原本的设想是了解更多技术知识和趋势但其实我得到了一些故事周毅然自己的故事是在一个方向不被看好时愿意压住时间去追求自己相信的技术判断的故事在 2021 年线性注意力还是一个看起来很美好的泡泡毅然和他的团队就开始探索线性架构的实现到 2023 年下半年

他认为探索已经相对成熟并判断到 2024 年年底一定会出现线性架构的大模型我当时想法是很简单就是我觉得我当时是我的判断就是 2024 年底大模型已经出来我们已经做了三年了我们为什么不让它诞生在我们自己手上而让它们诞生在别人手上因为当时我们是作为最懂 Linear Attention 的这边

另一个故事是 minimax 创始人严俊杰的故事他之前曾说过我选的技术路线都是上限最高最激进的这次我得到了一个具体的例子把线性注意力用到几千亿参数这么大的模型上之前没有人做过忠然说自己在训练之前其实有 90%以上的把握线性架构可以 scale up

但他觉得当时严俊杰心理对这件事情可能只有 50%的把握而他最后拍板投了公司超过 80%的研发资源当然训练模型不是一个戏剧性的梭哈子过程在训练 01 的大参数版本之前 MiniMax 团队做了 Scaling Load 测试这是通过各种实验去预测一种架构在更大参数的模型上是否也有好的表现最后他们训了 3700 个模型做了 3700 次测试当然这其中有很多都是小规模的实验

这期节目中我们也完整的聊了这个过程到现在为止线性注意力能否超越原本的 Transformer 架构仍然没有共识在上限上从计算方法推导当序列非常长线性注意力在计算效率上的优势会越来越大于系数注意力但从效果上也就是线性注意力的模型能否和 Transformer 模型一样聪明甚至更聪明现在还没有谁能给出有绝对说服力的答案这也是之后 minimax 的技术进展可能会揭晓的悬念最后说一些声音上的注视

在本期节目中怡然有时会说 linear attention 这也是指线性注意力在提及 full attention 就是标准 transformer 里的 attention 时他有时也会说 softmax attention 如果听过上期节目听友肯定会知道什么是 softmax 在我们聊天的语境里可以简单理解为他就是在说 full attention 以及这期后面聊到研发和训练过程时怡然提了几次 IO 他指的是严俊杰

还是和上期一样我会在 show notes 的末尾贴上一些本期提到的术语的简单解释从本期开始我会在每期节目的末尾不定期的录一个小模块是一些连点成性的小总结我会讲讲这期节目让我想到了过往的哪些节目它们之间的哪些事实或者观点产生了共鸣和呼应下面我们就正式进入本期吧

那这一次我们也是邀请到了在 MiniMax 来做这个项目的研发负责人钟怡然她是 MiniMax 的高级研究总监来和我们聊一聊 MiniMax 在探索注意力机制改进的工程中间的一些过程和思考怡然你可以先和我们的听友打个招呼可以简单自我介绍一下

大家好我叫钟毅然目前是 minimax 的高级研究总监主要是负责模型结构设计和多模态理解大模型比如说 minimax vl01 我是主导设计了 minimax01 的新一代的网络结构在之前我在上海人工智能实验室做青年科学家新架构探索组的 PI 负责新一代非 transformer 架构的研究和一些视听语言多模态的融合

然后我们的研究其实从 2021 年就开始了然后在一些提帕米这些顶级的会议和期刊上发表了 20 多篇关于新架构探索的相关的论文然后这些论文研究全面覆盖了当前的先进的非 transformer 架构

比如线性注意力机制长卷级和线性循环网络就是 Ninia RNN 我们同时也在新架构的工程上进行了研究相当于新架构的一些并行策略然后我们也推出了异步优化器它是针对这种国产的集群通信的效率较低的现状推出了异步的优化器然后我们在计算机视觉和自然语言处理上

都验证了它的有效性这个我们后面也可以展开讲一讲我们可以从现行注意力机制讲到更多你们在模型架构上的一些探索和创新然后正式聊 minimax01 的现行注意力机制之前其实我也想聊一下开源的变化因为 minimax01 应该也是 minimax 第一个开源的模型

然后当时也是有去跟严俊杰就是 IO 去聊他说他也认识到说开源是一个很重要的可以去更极致的加速技术进步然后在这个社区里建立技术影响力的方式可以先聊聊就是为什么你们第一个开源的项目就是选了 minimax01 这个项目我们其实很早就在考虑要不要开源像那个俊杰在去年

六七月份的时候也考虑过这个形式然后后面我们坚持开源的原因是因为首先 minimax01 它是一个非 transformer 架构在真正的商业大模型上的一个亮相我们认为这个是会影响未来大模型结构设计的一个开创性的工作

作为第一家吃新加坡螃蟹的公司我们向公众展示了这新一代架构的效果和潜力然后我们在这些长文上的突破可以让大家更关注长文应用的发展从我们的主营业务上来说的话 minimax 离开不开源其实它都不太影响公司的主营业务

然后开源的好处是我们可以对外展示我们是一家关注技术更愿意尝试新技术的公司这样来说对我们去吸引一些有创造力的人才的话是有益的你刚才说是去年六七月的时候就考虑在开源是从那个时候就开始准备吗还是说到什么时间他有一个密集准备的过程其实还在考虑

还在犹豫因为如果要开源的话起码你需要有一个能拿得出手的东西然后 minimax01 它的模型训练其实在那个时候还在训练过程当中还没有真正的训练完成所以那个时候只是第一次我们才考虑这样一件事情然后后面等到 minimax 其实在

在 10 月份的 11 月份的时候就已经训练训练完毕了那么我们就写了一篇完整的 report 然后也补充了一些对应的这些实验可以让他这个结论更加的充分论证会更加充分一点然后第二呢其实开源社区对新架构的支持是很少的啊

我们为了就是把这个新架构运行起来我们自己改造了很多轮子所以为了让大家也能够自己部署这个模型的话我们也开源了部分的轮子就比如说这个新架构的一些推理优化因为我们得到的反馈是像 GitHub 的 Issue 上他们反馈是说他们用 HagenFace 的这个 Inference 的话它的效率是非常低的那是因为

毕竟是新架构他们是没法做一个非常友好的支持所以为了让大家感受到这个新架构的优势我们把我们的这些推理的优化已经合并到了这个 VRM 上这样大家就可以自己部署的时候可以感受我们让 VRM 去支持我们的这个新架构然后开源后的反馈除了你刚才说的就是你们把一些优化的东西开源之外还有什么别的反馈吗比如说有没有人去

自己去尝试部署这个东西包括自己去测试它得到什么效果之类的会有人尝试部署但是他们的部署就会导致他们的没有优化的时候他们速度是很慢的所以我们之前是觉得不一定需要自己来部署你可以在海罗因为它跟海罗用的是同款模型所以你可以直接在海罗上或者是自己的 API 上或者是用我们的 API 直接来测试但是我们现在因为把推理优化已经合并到了 VLM 上所以

开发者也是可以来自己来进行部署然后社区内的别的反馈大概就是反馈一些模型的一般性的一些问题一般性的问题是指什么就比如说有没有哪些问题总会出一些比如说

混合图一些词或者是能不能支持多图他们就会有些这些疑问然后我们会在这个 issue 里面进行回答你们现在就是来电你的 tension 它是可以处理多么太多对吧就是我视频图像语言混合输入也是可以的

对对对它是可以支持的那我们接下来就可以就是详细讲讲就是你们这个做线性助理机制的这样一个结果成果和一个思考过程我觉得你可以先简单的解释一下就是为什么就你们要去做这个助理机制的改进而且这不光是你们的选择

因为刚才我也在开头的时候提到像 nsa 像 moba 就是很多公司都在做这个方向的进展然后学界也有很多这个方向的进展嗯就大家呃特别想去优化这一类机制主要是为什么嗯其实因为 transformer 架构它有一个最大的 bug 就是它的这个 complexity 它的这个计算复杂度是对序列长度

它是一个二次的计算复杂度然后 flash attention 不是得到了很大的关注吗但 flash attention 它其实解决的是它的一个显存占用的二次复杂度所以 flash attention 它的

对显存占用是一个线性的但是还没法解决它的计算复杂度的问题那么我们为了解决它计算复杂度的问题学术界提出了很多种其实最早提出的就是系数注意力因为 Transformer 提的很早所以它的二次复杂度是学术界一直在关注的一个问题因为学术界他会想你这二次复杂度那肯定受不了我要处理非常长的这种情况下

它这二次负大度并且你考虑在那个时候其实最常见的是 V100 但是实际上为什么后面学术界不太在意这个二次负大度的问题呢其实是因为从 V100 到 A100 到 H100 它的算力的提升是非常大的其实它进一步的已经遮掩住了这个对于 Transformer 二次计算负大度的一个进步

就是由于它的算力的增长的加速它对这个阿尔茨伏达度的解决这个问题的紧迫性其实并不是很高所以可以看到现在其实很多的这些大模型其实采用的仍然是 Transformer 架构然后因为它的这个算力的增加

它的这个序列长度其实也可以做到一定的扩增比如说现在的 128K256K 在这种长度下这个 Transformer 的这二次复杂度还是可以接受的也可以跟听友解释一下二次复杂度就是平方增长的意思就是随着你的序列的增长它的计算复杂度是平方增长

对所以在那个时候我们就一直在想解决这个阿兹弗达多的问题然后我们当时觉得觉得一个问题是稀疏注意力呢这个呃

因为它是一个有损的一个逼近也就是说 attention matrix 它是一个完整的一个 n 乘 n 的一个矩阵那么系数注意力的意思就是我在里面只算有限个 attention 的 score 然后因为你算 attention score 不是一个 n 乘 n 的矩阵了那么自然而然它的算力就会需要的算力就会减少

这样子的话很明显我们认为这是一个有损的逼近因为你本身需要算 N 乘 N 的这个 attention score 你现在只在里面截取了一部分来算这个 attention score 我们认为这个算法在未来不算是一个比较优雅的方式所以我们那个时候我们就取向了当时还是研究比较初期的 linear attention 大概是在 2021 年左右

然后关于 linear attention 它其实方法是非常简单的标准的 sorff max attention 的话它是先 Q 乘以 K 的转制过一边 sorff max 再乘一个 V 因为这个本质上其实就是首先我们要算的乘法就是 Q 乘 K 乘 V 那么如果你直接左乘左乘的意思就是我先乘

QK 再乘 V 的话它的这段复杂度就是二次复杂度如果我先乘 K 跟 V 再乘 Q 的话它的这段复杂度就是一次复杂就是线性复杂度那么整个的这 linear attention 其实就是把左乘变成右乘的形式我们先乘 K 跟 V 因为不是所有的听友都是对这些技术比较熟悉可能也要解释一下就是在注意力机制里面 QKV 它是什么

QKV 把它看成就是三个 metrics 三个矩阵对对对然后这三个矩阵相乘呢就会得到这个 attention score 注意力的分数然后这个分数其实是个相关性对对对改变这个他们的这个顺序关系我们就可以从二次复杂度变成一次复杂度

是它的最核心的一个思想那我们可以到这里总结一下就是到 2021 年你们开始探索线性注意力之前的一个注意力机制改进的大概的过程最开始是在 2017 年有了 Transformer 这个架构最初标准的是 Full Attention 或者也可以叫 Soft Max Attention 差不多同期有了你提到的 Flash Attention 的这个优化它解决的是 Full Attention 的显存开销的问题然后大家开始去

探索稀疏注意力它是想进一步解决最开始的 full attention 的计算复杂度的问题然后是你们到 21 年开始去想做这个现行注意力机制对对对我们其实认为这个 linear attention 技术成熟的时间其实是在 23 年的啊

中期就七八月份的时候我们认为它已经从效率和效果上已经我们在小规模上已经比肩了这个最先进的 Transformer 架构那你们当时有试过吸收注意力的方向吗我们在 21 年的时候其实试过吸收注意力的方向我们就发现它的效果也不太行然后运行的效率也不行

它其实碰到的问题是跟这个 lightning 就是我们的这 linear attention 是同样的问题就是他们那时候的效果比不上 some mass attention 然后它的速度呢顶多也就比它快了一丢丢我们认为这个得不偿失因为我们当时是认为它的上限是一个比较低的一个

所以我们就转向了这个 linear attention 那 NSA 和 MOVA 包括最近微软量力院 Zero Attention 这些新的成果我理解他们都是属于这个吸收注意力的大方向就他们所展现的一些效果和效率上的表现你怎么看就是它会跟你之前的认知有一些不一样吗

具体我们其实还在做进一步的一些实验因为从我们的现在的实验上来说的话 lightning attention 是我们当前测试的方案当中随着模型越大它的增益越明显的一个

优化的方向模型越大指的是参数的这个越大的意思是吗对对对一般来说的话像 MLA 因为我们测试过 MLA 也测试过这个 TPITPI 是像清华那边提的一个就是 KVCache 压缩的一些方法我们发现的是那些方法随着模型的增大它的优势就会变得比较小了

也就是说它的压缩方式是对于模型的大小是有要求的但是 Lightning Attention 就是 Linear Attention 它不太一样的点是在于它的模型越大它展现出来的优势是更加明显的并且包括现在它放出来的 NSAMobile Steer Attention

它还没有真正的做工业级的这个 scale up 不过它 MOVA 不是也放了工程代码吗都在线上跑了一年了那它得开源让我们真正来看一下它在几百币的这种 level 上它是否真正的和这个 transformer 是有一个比较好的一个对比它们的大小其实最多也在只在 7 币规模上我们验证过了

7B 这个规模就相当于我们之前 23 年中期的中期差不多也就验到了 7B 这个就是你刚才说到的这个吸收注意力和心性注意力它在不同大小的模型上的这个效果的差异是在几 B 之后会表明怎样就规模超过几 B 之后它会拉开在 7B 以上的话 7B 以上

基本上你可以看到他们的性能差异的这个趋势最后你们这个 minimax01 的模型的参数做到了多大 4561 它是一个 MOU 架构的所以就是它的激活大概是多少它的激活大概是 45.9B 就差不多十分之一的样子对总体来说现在在学界或者工业界是系数注意力做的人多还是线性注意力做的人多这个有明显的差异吗还是两个方向其实尝试的人都挺多的

这两个方向其实长盛争都比较多然后自从 23 年以后其实线性注意力是比较火的

因为 Mamba 那时候大火嘛在 23 年的时候它其实带火了这个方向就整体从对本来 Transformer 的这个 Full Attention 的改进程度上来说是不是西苏的改掉相对少一些就架构上然后线性的可能会改多一些对西苏它本质上还是一个 Transformer 它只是对于 Attention Score 的计算方式做了一些改进那如果说线性它本质上就不是 Transformer 了那它是什么了

这个名字有很多你可以把它叫成线性注意力也可以把它叫做线性 Transformer 因为它这里面关系到的是你怎么样去定义这个东西因为对于 Transformer 来说它最关键的一点就是里面的 Softmax Attention 就是它里面的 KV 我需要相乘然后过一遍 Softmax

在线性的线性 attention 里面这也不是没有的就是它是没有 supermass attention 你可以既把它叫做非 transformer 也可以把它叫做 linear transformer 学术界对它的叫法是多种多样的对我刚才还有一个比较好奇的问题这个其实我们在开始正式开始前我们有稍微聊了一下线性注意力和循环和 RN 神经网络的这个关系

它本质上是一个东西所以可以说就是大家去往线性助力机制方面去优化它也是把以前的 RNN 这个东西我再用到大圆模型里面的这样一种尝试是吗

以前的 RNN 最大的问题是它没法并行化所以就出现了 Ninia RNN 就让它能够做大规模的并行化刚才是聊了你们为什么在注意力机制的改进中是选了对 Transformer 原来的架构改动更大的线性注意力的大的方向那接下来我们可以具体来聊一下 MiniMax01 里最后用的这个 Latin Attention 在线性注意力上它具体是一个什么样的结构以及为什么它是这样带来了一些什么效果

我们其实很早比如说在 23 年底的时候我们就觉得这个东西已经 ready 了因为我们当时其实用有实验室有限的资源我们是训过一版 15B 的模型的其实效果上是跟 Transformer 已经差不多的它是一个纯线性的方案

但是后来我们把它 scale up 上去以后我们发现这个 lightning attention 包括线性系统线性的这个方法有个最大的问题就是它的 retravel 能力是比较差的这个是我们把这模型迅出来了以后我们才观测到的一个现象就是我们对它跑大海捞针的时候我们发现它的这个跟我们想象中的结果并不一样

那么为了解决这个问题比如说你要把它真正的 scale up 上去的话我们就选择了一个比较折中的方案就是叫做 Hybrid 的这个方案你看到的我们会每隔七层往里面再放一层这个 Soap Max Detention 把它变成一个混合的架构然后我们做了一个 scaling load 的一些实验结果发现这个混合架构它的效果

比我们想象中的要更好特别是在这个 retrieval 的这个方向上它比全部都是 summasstention 的架构会更好我们得到这个结论是我们也是比较惊讶的也就是相当于

你用一个在这方面比较有缺的一个方法和一个这个这方向上正常的方法你反而得到了一个远超于这个送 mass attention 的一个方法

我们当时是比较惊讶的得到的这个结论可以给我们的听友也解释一下就是 retrieval 是一个什么样的能力吗以及注意力机制改进的论文里面都会去测的大海捞针的人物是个什么样的人物 retrieval 就是一个召回的能力就是你就比如说大海捞针大海捞针人物就是给你一篇长文但是长文里面呢它里面有一段话可能显得跟有一句话可能跟别的话是格格不入的

然后我应该怎么把这句话把它给找出来这就会体现这个模型它去定点召回的这个能力然后大海捞针它就会把这个格格不入的这句话放在一篇很长的文章中的各个部分我们来看它能不能把这句话把它检索回来这个其实是一项基础能力基础能力就是大模型的这个 in context 的基础能力就是它必须能够复述上文的所有的内容

然后我们发现线性注意力呢它是做这个能力它有一个先天的弱势这个也很正常很正常的点是在于线性注意力它的这个 kvcache 它是一个恒定的值也就是说无论你的输入有多长它都会被压缩到一个恒定大小的 kvcache 里面那么很明显这会有个悖论那么你的 kvcache 的这个大小是一个固定容量的但是你的 input 可以是任意容量的你

你的 input 可以是任意大小的那很明显的就会有个压缩的过程它就会有个信息压缩的过程那么这个信息压缩的过程就会导致它做 retrieve 的能力会比较差

这是从原理上的一个解释 high level 的解释那也可以再解释一下就是 Transformer 里的 Softmax 的 Tension 它本来的一个计算流程是怎样的包括它里面的这个 KVcache 缓存的部分是一个什么样的机制我觉得这个就是对比来讲的话可能听友会更容易理解

海拉伯上来讲这个问题就是对于标准的 attention 来说的话就是它每输出一个 token 的时候它都会去回溯前面的所有的 token 我们把这个过程把它叫做一个翻书的一个过程就是 attention 你在生成下一个 token 的时候它会把前面从第一个 token 到 n-1 的 token 它全部再看一遍

来得到输出的第 N 个 token 那么对于 MiniAttention 来说的话它只看前一个 token 也就是说它输出第 N 个 token 的时候它只会看第 N-1 个 token

然后再通过它里面有个缓存的机制它从它的缓存和这个 n-1 它就会得到 dn 个 token 可以看到从这个上面来说的话 Transformer 就是有一个二次计算复杂度的一个关系了因为它每输出一个 token 它都会看前面所有的 token 用通数的话怎么理解呢就是你回答的内容你前面是你依靠的是前一个人的回答

打一个比方你在做一个游戏什么游戏呢就是传话的游戏对于 Transformer 来说的话他会去听前面所有人的传话得到他自己的结果但是对于 Ninja 来说的话他只会听前一个人的传话

来得到他当前的结果那就那就意味着如果前面出现了任何的问题他会他这个错误会一直累积起来但 transformal 里面实际上他并他并不会因为他会每次都会重复的去过前面的所有的内容所以你们最后发现的就是去改善纯线性的注意力机制召回能力比较差的这个方式就是你们现在在论文里写的我一层 full attention 后面这七个线性 attention

对其实是每 7 个里面放一个我们第一层还是 Ninja Tension 其实 Hybrid 是一个很折中的方案我们只是为了去解决这个 retrieval 的问题所以我们做了一个这种混合的架构但我们也尝试过比如说每隔 7 层混一个模型或者是每隔 14 层混一个模型或者每隔 16 层混一个这个

So mass attention 我们混合过不同的比例然后从我们的结果上来说的话其实影响最大的其实是 retrieval 的能力

但是在语言建模上它其实能力差别并不是很大这个具体在做的过程中间你怎么去混合就是你到底选什么比例它是有什么前面的技术社区里的其他人的研究可以做参考吗我们是自己试出来当然我们也参考了这个 Jamba 的 Jamba 的它的混合层数其实也是一个 1 比 8 1 比 7 的这种模式

这个试的过程它有任何的理论指引或者解释比如说能帮你提前去判断一下这个效果会怎么样吗这个没有这个就是试并且我们试过最极端的一层的其实效果也还可以只不过我们选择这种方式的原因其实还是我们不太

我们已经很激很激进的去换了解换了架构了但是我们担心他会有一定程度上的损失他最他最终的 performance 所以我们就选了一个较为保守的一比七的这个比例

这其实是一个很保守的比例你刚说最激进的一种是只有一层这是指什么结构就只有一层 Full Attention 比如说现在 80 层的话你们可能只有 10 层的 Full Attention 那么极端情况下我们就把 10 层变成一层我理解了就是说你们整个大模型可能是大几十层然后中间只有一层是 Full Attention 然后其他全都是线性的 Tension 对对对

那你们最开始是怎么想到要去混合的这种方式了这个其实是非常符合直觉的一种尝试吧然后再加上前面也有 Jamba 的出现你们这个新的混合的线性注意力的结构它最后带来的实际的效率提升是怎样的就是你的血场都是 EM 的情况下它比 Full Attention 要快 2700 倍

你这个 2700 倍它是在什么环节的 2700 倍啊就是它是 de-coding 就是生成的这个环节还是它前面一些环节就你算 N2N 的这个规模会是 2700 倍的加速或者你就算 Attention 这一步吧在 EM 的长度下那 EM 就是 100 万 token 确实非常长而且 2700 倍我觉得听起来也是个比较惊人的数字其实按照现实的 Attention 的原理它就是序列越长效率优势越明显对吧就是我只相比于吸收注意力

对越长它的倍数越多那当你们去找到这个具体结构的过程时你们是怎么一步一步去验证你们对注意力机制做的这个改进它是有效的呀因为模型其实最初我们需要对它进行 scanning load 的一些实验 scanning load 的一些实验基本上在 24 年初的时候就开始了所以 scanning load 的实验它其实是发生在正式训练 minimax01 这个模型之前

首先我们要把它 scanning up 是一个这个决策你需要去说服老板的

对然后呢这个东西你不可能去想我花了几千万然后去训练一个大模型出来发现它失败了对吧那么对我们来说的话前期特别是这种吃螃蟹的事情我们需要把前期的工作要做得非常的 solid 就是我们的参数应该要怎么样选择

然后我们应该是用 Linear Tension 还是用 HGNR 还是用 Mamba 还是用各种各样的这些 Linear Tension 的算法我们都需要对它进行一定的 Benchmark 的

就是我们最终选择的就是速度效果上的一个均衡所以我们觉得一个完整的严格的 scanning law 的对比实验是必须的但是如果只是拍脑袋拍脑袋决策的话当然可以省下这部分的成本那你会增加之后的失败的概率

我们大概训了 3700 个模型才跑出来的一篇文章 3700 次模型是全部从头训练是 3700 次预训练的意思吗全部都是从头训的

不同的大小不同的参数所以跑 scanning law 是一个成本很高的一个实验工业界和业界做注意力机制优化的时候跑 scanning law 测试这个做法常见吗就是有多少公司会这么做了跑 scanning law 的公司其实并不多谷歌就是谷歌谷歌是跑过跑过的就他们产出那篇论文的 scanning law 那篇论文的时候他们也跑过 openai

也跑过 Scanilow 的一些实验这是因为我们还是希望我们的选择是 solid 所以我们会选择把这件事做得非常极致的扎实

就是我们每一个选择都是有实验来支撑的你们居然试了几千次 3700 次这个还挺有意思的也让我有点意外我觉得我们可以从更开始来聊一聊就是你们在最开始 21 年开始做这个先行注意力的探索到今天这样一步一步是怎么样的一个过程

从 21 年开始其实我们最早提出的就是 CosformerCosformer 这个项目其实是从 21 年 7 月份开始的这是我们第一次接触到这个 Linear Attention 然后我们就推出了这个 CosformerCosformer 现在在 Linear Attention 上的知名度其实还可以然后这篇文章其实是发表在了当年的这个 ICR 上然后从此呢我们发现这个方向上看起来大有可为

当时我们的想法其实很简单第一做 transformal 已经很多人了然后你继续做 transformal 你做到极致也是跟着人家屁股后面来后面来走了但是 lightning 作为这个 linear attention 作为一个新的方向上它的人数其实是比较小众的那么与其跟着人家屁股后面走的话不如选取一个我们的新的方向上来看一看未来呢

我们是不是可以在这上面做出一点东西出来这是我们当时的心理然后我们其实产出最多的就是 21 年到 22 年我们基本上探索了很多方法包括现在的 linear attentionlinear RNN 还有我们把它叫做 long convolution 这个方法我们其实探索了现有的

几乎所有的 linear 的这些方案我们最先开始其实是在解决 linear tension 效果的问题就是像 linear tension 其实也很早它的最早论文出来的也很早其实跟 transformer 差不多同时但是它的效果不好速度又慢所以就导致大家对它的大家觉得它是一个美好的泡泡

就是看起来很好但是实际用起来不行所以在 21 年到 23 年的时候我们解决的问题就是我们把它的效果真正做到跟 transformer 差不多我们做到这一步差不多到 22 年底的时候我们已经能我们做出来的这些方法已经能做到跟这个 transformer 效果上是差不多的了

就语言建模方面当时你们是去测哪些 benchmark 就是你们怎么去判断说你们当时的线性注意力的架构已经和 transform 差不多了基本上有些学术上的一些数据集当时走的都是学术上的数据集比如说我们会看它的困惑度 PPL 然后我们也会去看一下它在一些常见的大模型的数据榜单上面

在相同的数据下我们看一下它的这些结果然后我们还会测一些像 long-end arena 就是一个属于长文的一个 benchmark 当时推出了一个长文的一个 benchmark 我们对比过这个 transformer 当时我们最主要其实对比的就是它的建模精度

困惑度然后我们第一步先是去解决它的建模进度的问题然后第二步才是去解决它的速度的问题就是 Liniere Attention 很 tricky 的一个点就是在于它虽然理论复杂都是线性但它实际上跑起来它是很慢的

它是很慢的原因是因为你右承的时候它会牵涉到一系列的循环操作你知道循环操作对 GPU 是相当不友好的所以它里面就会导致你的实际的运行效率是远低于它的理论复杂度的为了解决这个问题所以我们在 23 年的时候就推出了 TNL

和 lightening attention 就是 23 年的时候我们我们推出的这个 lightening attention 真正把它的效率让它的实际效率符合它的理论的计算复杂复杂度所以当年在上上这段实验室的时候其实已经我们已经觉得它是一个工程就 scale up ready 的一个状态了

我们当时自己认为的是我们解决了它的精度问题也解决了它的推理效率问题所以我们当时觉得它是一个 scale up ready 的一个状态你们当时做到这个你认为 scale up ready 的这个状态你们是在多大的模型上做了 scale up 的测试啊

我们最大是迅到了 15B 的模型 15B 的一个 Dense 的模型你们当时没有继续往下做更大规模的 scanning load 测试是因为在实验室里会有一些资源的限制是吗上上春是没有这么多卡来支持这个工作的

所以当时对我来说的话我们就是一个找金主的一个过程因为我们需要把它真正要做到 scale up 因为当时对我来说我的判断是最迟在 24 年底 linear attention 的大模型是肯定会出来的就是基于 linear attention 的

这种大模型是一定会出来的因为不是我们做出来就是谷歌做出来就是 OpenAI 做出来它终归会有一家把它给做出来的对当时来说的话我是比较着急的这也相当于一个找投资人的一个过程我需要去找一个人他愿意来投资这个方法并且把它 skill up 上去

你说找金主你最后找到的金主就是 minimax 这个其实是双向的其实是当年因为我之前就在俊杰的下面在上汤的时候然后后面我记得是在二三年底的时候俊杰正好找我找我吃了个饭然后就正好聊到了这个 linear attention 的问题因为在二三年底的时候我其实在找投资人找的最多的就是二三年下半年的时候

那你自己也是想过自己创业是吗一个是自己创业但是自己创业其实我后面想了想是很难的原因是你改基础架构你需要的投资金额是非常高的并且我们其实只有算法上的优势在数据上的优势是比不上顶尖的这些一流的公司的因为在那个时候你必须的积累的这个运行的数据基本上是实体往上走了在二三年底的时候

就你需要进第一梯队你就必须要有这么多的数据并且这里面很 tricky 的东西就是在于你要证明这个模型的有效性你就得进第一梯队所以这是一个诞生机寄生诞的问题对对这种话来说因为大模型它其实很复杂一个是你的架构要好

你的训练数据要好你的训练方式也得要对所以这三环是缺一不可的你任何一个地方掉了链子都会没法证明你想要证明的东西所以对我来说能选这个也很 tricky 首先我得保证这家公司它是能够做出来一流的预训练模型的包括这一点上其实已经砍掉很多公司了

那你当时视野之中你看到的能做一流育训练的公司都有谁啊大小公司呢算上的我觉得第一个是字节第二个是 minimax 然后其实已经没了 Kimi 不是算吗就 Kimi 关于他的这个我得到的消息是比较少的所以当时其实在我眼里的话我只有两个选择

要不然就是寻求海外了那你当时见过的一些投资人他们的反馈是什么他们的反馈很简单就是你的应用方向是什么他们会想一大堆你的应用方向你怎么去变现大公司你也见过吗腾讯那边见过阿里也见过吧嗯

VC 你见过的反馈是什么 VC 也见过也见过一些一些 VC 但是呢就感觉他们比较喜欢聊的是你的应用方向是什么就是你的变现渠道是什么

你将来怎么样去盈利对就是刚好我今天也是和一位投资人聊他也提到说就是在 2023 年 2024 年的时候大家还是比较看重应用但那个时候你就让一个模型应用要去产生比较大的商业收益这有点像让一个高中生还没有完全训练好的情况下他就出去赚钱所以在那个时间点你想去找人 skill up 一个

线性和弹线的这种比较新的架构确实可能会有点难这其实对我们来说的话我当时想法是很简单就是我觉得我当时是我的判断就是 20 年底大模型已经出来我们已经做了三年了我们为什么不让它诞生在我们自己手上而让它们诞生在别人手上呢

因为当时我们是作为最懂 linear attention 的这批人你说最懂 linear attention 的人是全球范围内的意思吗基本上是因为当时包括现在比较活跃的松林杨松林他们他之前也是我们组的组员我们当时其实就是这个想法所以我们就去比较积极的去找谁能够把它 scale up

MiniMax 之外你和字节聊的话是什么反馈我聊到了那个时候有德国的一家他们的实验室也来找过我们就是聊这个事情当然我们当时也跟他们有一些合作然后字节那边是在于我感觉他们的性质度不是很高并且字节作为一家大公司的话它虽然它有数据

也有人但是你让他们真正做转型去那么大的这个经历去做一个未知的方向是件比较 tricky 的事情你是 2023 年什么时候和紫杰聊的八九月份吧那回到 23 年下半年就是你和颜俊杰聊的话他的一些具体的反馈是什么俊杰来找我的话我首先跟俊杰是很熟悉的 2011 年的时候我已经跟他非常熟非常熟悉的一个状态

然后我们聊我们聊下来我们对这个东西他是很愿意去尝试的他也是愿意绝大部分公司的精力来做这样一件事情的就是这个因为这个模型是一个主模型就是他是要需要花公司可能 80% 90%的力量来做这样一件事情包括牵涉到数据团队工程团队算法团队需要很多人去一起来把这个东西做出来

严俊杰他比较认可你是因为他们之前在这个线性助力上有一些探索还是因为一些什么原因之前他们对于 linear attention 其实做的是并不多的但是呢他们也当时是处于下一代模型的技术选型的一个阶段俊杰可能认为比如说我做的工作是比较 solid 的他是对这个工作是比较

信任的当然对于俊杰来说的话他看这件事情跟我看这件事情不一样我认为这件事情 99%能成功那么对他来说的话他可能有个 50%和百和 50%的纪录因为他对这块领域他并不是从二一年就一直开始往下做并且做很深入的研究但对我们来说的话我们是对他很多 tricky 都是比较了解的我们是很相信他能够他能够 scale up 的

那他有 50%的把握他就赶上 80%的资源他这个赌性是不是有点大这确实是要赌的但是我们的 scan load 实际上其实是给了他就是他花这件事情他不是一开始就 all in 把这个全部弄起来肯定是我们需要一步步的去说服他我们包括我们也是先是做了一个小的模型在一个成本可控的范围内训了一个小的模型然后我们再训一个大的模型

那在你们去就是一步一步去验证这个想法的过程中间你们后面又看到了一些什么东西然后在这段时间里面我们跟他说的是我们有一些结论有一些结论基本上都是因为因为所有的东西是公开发表的他们内部可以去做一些做一些复现的然后我们是在 minimax 的内部呢是做了一个就我去了 minimax 以后才把混合架构往上推的

我们是在 24 年初的时候才发现有这个比较 tricky 的我才发现这个 lightning attention 有缺陷的所以导致我们必须采用这个混合的架构采用混合架构和做 scanning load 基本上是同时的然后当时有个我的前组员去了 minmax 然后他来做这样一件事情跑了这个 scanning load 这些实验

你之前说有 90%的把握这是你们在发现就是你刚才说的这个缺陷它在 retrieval 的能力上有些缺陷之前还是之后它有发现之前但是我们当时认为只要我们只需要混合架构这个问题是可以解决的那你当时的心态可以分享一下吗就是因为你之前已经做了两三年的这个线性的改进然后你当时也本来有一个很大的把握但当你去做到更大规模上的时候你发现它在召回的这样的基础能力上会有一些

缺陷这会非常压力善大吗还是说你大概心里是有底的我们有个备选方案就是 hybrid 就是混送 max 这是一个保底方案我们是有保底方案的但是我们当时觉得这个方案确实不好看就是不够优雅就是它就不会是一个标标准准的纯线性的一个方案了

那可以再往下聊啊就是你们发现了这个缺陷然后解决了这个缺陷然后做这个 scale up 的过程是怎样的去 scaling law 的这个实验其实是首先是去论证这个技术方向到底有没有问题 hypo 的实验也在 scaling law 实验里面对我们是要同时做这个 scaling law 的一个实验的

所以你们当时这个 scaling load 测试就是你们测了非常多不同类型的架构是吗对对对并且我们测试的 linear 的方案也很多除了 lightning 还有 HGN2 包括 Mamba 其实我们也测过

你们要训练多少次这件事情就是你们最开始的预测是多少你们怎么去定我最开始要给多少资源这个我们最早就有预估的最早就有预估的就是我们我们把他需要的卡数和他需要的资源数其实其实要训的模型数我们是有一个 Excel 表的然后我们就根据这个根据根据这些表去训出来就行那

那你最开始设计的就是要迅速 3700 次吗还是说最后它其实超出了你的预期就一样的就是一样的对对对你怎么跟严俊杰说要迅速 3700 次他是什么反应因为我们最高其实只 scale up 到了 7B 的这个模型其实很多有份是小模型它需要的资源并不是很多

OK 所以它总的资源是相对可控对对对那你们在实验阶段其实你们只 scale up 到了 7B 这样一个规模那你怎么知道它往更大的规模上去做的时候它的效果也是可以保证的首先我们假设 scaling loss 是

已有的一个可实现的一个就是我们认为 scaling law 是存在的那么对我们来说的话我们只需要把这个趋势给画出来就可以了 7B 以上的话我们是去是走预测就好就是在迅 minimax01 因为这是一个很大的模型就正式开始迅这个模型的时候它用到你们这个新的架构它是一个怎么样的过程就是它进一步扩大它会顺利吗

我们先训练一个比较小的比较小的模型可能就只有一个 9B 激活的一个模型你看 9B 跟 7B 其实差异并并差异并不是很大然后这里面其实会牵涉到一个问题就是我们的 Scanning Law 是在 Dense 下做的就是 Dense 模型下做的我们真正的业务场景的模型都是 MOE 架构 OK 那从 Dense 就是筹密的模型到 MOE 混合专家的这种架构这个里面它

有什么难点然后这时候就有另外一拨人去接手把它放到 MOE 架构上去做进一步的什么像调餐呀训练啊这个什么时间的时候 23 年年中的时候大概六七月份的时候他就不需要我了就我们的这个方案就是已经 deliver 的一个状态了就我们只是算法部门嘛

它直接牵上去就可以了其实训小模型训的很快可能一个月就训完了然后接下来就开始用 2000 卡左右去训一个 minimax01 了在 2000 卡的过程中间去训的时候整个公司你们又做了哪些优化以及它需要多少资源

这是算力的这么多成本过来但是实际上在之前你工程优化需要很多的工程能力的就像我说的这里面你是有很多轮子要自己去造的因为我们之前只是一个科研小组科研小组首先我们并不我们虽然很关心它的训练的效率但是我们并不关心它的 influence 的效率的

并且最早我们其实做的规模也是比较小的最多到 15B15B 的时候你是不牵涉到什么更高阶的这种序列并行这些方案所以他们需要做很多的工程优化才能让它真正的在大规模上迅起来

所以整个后面去训 01 正式版就是这个大的版本的过程其实比较顺利的是吗对后面把它 scale up 上去都是比较顺利的因为我们前期其实因为跑了 scannor 以后大家对它都是比较有信心的再加上训了个小模型出来也没有什么问题那么大模型的话大家都是比较有信心的你们有看到什么其他的类似你们现在做的这种架构的成果吗

现在用它做大规模型去采用线性注意力的应该是全球第一个 MIMEX01 应该是第一个因为其实你们的这个改进你们是从训练阶段就开始做线性注意力的架构就引入了线性注意力那整个业界的话有没有一些就是在推理阶段去做这件事的一些成果有他们有方法就是想把已经训好的模型比如说 NAMA 把它帧流到一个线性的

模型里面去确实有类似的方案就是为什么你们敢做一个就在我看来还是一个比较激进的方案而且还投入这么多资源就为什么要做这个决策对我们第一是展现技术实力表示我们是一个敢于创新的一家公司就我们敢于压住这个就是敢压敢压住这个新的这个技术然后并且我们把序列长度已经提升到了 4M 嘛

其实我们愿意的话我们可以提到 10M 也是可以承受得住的一个序列长度但只不过对于我们来说的话我们现在是考虑 10M 的数据怎么构造这其实会牵涉到很多的

数据方面的问题以及我们把它做了 10M 以后这 10M 到底能干什么毕竟我们现在还是先想把在 1M 以内的这些东西把它做到极致然后我们再把它往外面推 4M 就是 400 万的话这么长的序列它可以干什么了比如说你想想把四大名注直接放到这个里面然后让它去归纳总结一些东西可以把一本喉咙梦往里面放 OK

OK 你刚才提到其实你们也可以做 4M 就是 400 万 token 的这么长的一个序列那我们更早的时候也讲到说你们这样一个改进之后它在整个效率提升上你今天说是 2700 倍对吧也是个很惊人的数字但是

但另一方面就是大家可能也会在想线性助力这种架构它怎么去保证效果比如说在 MiniMax01 还有 K1.5 还有 DeepSeek 的 R1 发了之后我也是在朋友的电脑上看过它实际的测试它当时的这个场景是一个大概两万字左右的英文文章这个文章是比较详细的去讲述了

海外的这些社交媒体大家是怎么去用它的就涉及里面的很多功能然后最后提问的时候就问了一个具体的点就是说大家是怎么去使用这些社交媒体上的短视频的功能的回答的问题就会发现 MiniMax 它的回答里其实有一些它没有直接在回答我的这个提问它不是在讲这些人怎么用短视频而是后面讲到比如说年轻人是怎么用一个社交媒体的就它讲了一些跟问题本身不相关的东西

其实 R1 也有这个问题照测的那一次是这样然后当时 K1.5 的表现是比较好的这个它是什么导致的我们有专门的 benchmark 比如说大海捞针或者是 runar 这些标准的 benchmark 去来测试它的这个常温等我们会看到它的一些基础能力但是你所提到的这个能力它其实会跟训练数据会严格相关就是我们只能保证的是这个模型它以

它有这个能力的潜力但是它具体要具有这个能力的话它其实跟训练数据也是强相关的你所提到的这个问题这是我们下一代模型需要去解决的问题就是我们真正把长文做得更好很 tricky 就是我们现在这个确实很尴尬的一个点就是我们现在这一版模型的真正的长文上的应用并没有做得特别的

极致就它没有充分来挖掘这个模型的能力但是它并不是这个架构导致的是吗它可能是一些别的环节加起来导致的这个我们认为是数据导致的训练数据的缺乏导致的因为我们做过非常严格的这个 Apple to Apple 的一个对比就我们这个架构在相同的数据下是没有劣势

就是我们其实也看到现在 minimax01 它不是一个推理模型对对对然后像 R1 O1 还有 1.5 它是推理模型那你们现在这个架构它去做推理就是去结合强化学习它的潜力或者说它的方法是怎样的这块我就我倒用一下接月那边的结论是其实他们认为 linear 架构在推理上会更强一点为什么呢

他们的 clam 的点是压缩产生智能那么 linear 模型它干的活就是把信息做了一轮的压缩所以他们通过这个理论他们就会觉得 linear 的效果会在这种深度推理下它是比较有优势的并且我从我有跟他们的技术人员也聊过他们的意思是说他们在

linear 模型上面做过这种深度推理的一些实验表现上是 linear 的是比较有优势的那你们自己看到的是什么这个我们正在做所以现在还不方便透露是吗就我们因为我们其实最开始并没有选择去做 O1 就 O1 刚刚出来的时候因为国内有一大批的跟随跟随者嘛

我们当时的想法其实还是先把基础能力做扎实当然这里也有个研判是我们觉得这些推理的能力只会让他的

某一方面比如说 Indomaniac 这块能力变得更强但是 RE 出来以后它改变的事情是什么呢它是发现它的这个加了这些推理能力的话它的 generalization 能力会变得更好就它的外推能力它能够把这个能力去延展到它没有见过的没有见过的方向的这些内容里去

就是它的泛化能力会更好吗可以这么理解吗对就是它的泛化能力会更好这就导致为什么我们现在要去做深度推理模型

那你刚才说你们当时研判要把技术的基础先做得更扎实这些指的是什么呀本质上来说就是我们有一批内部的榜单我们希望这个模型能在内部榜单上跟 4 欧差不多或者跟世界顶尖模型差不多为什么要对标 4 欧因为当时的话 4 欧是目前最先进的模型

在那个时候就是你们会比较去追求多模态吗因为 4O 其实它是一个混合模态的模型因为我后面就接手了多模态理解大模型但当时我们其中也是有两条路的第一个是原生多模态还有一个就是这种 adapter 这种形式的多模态

在这一块上我当时的判断是我们还是做 adapt 的形式第一是当时原生多么它还是没有走通的因为当时的是像 Gmini 2.0 是还没有发布的我们会选择一个较为保守的方案就是 adapt 这个方案

这个方案的好处就是第一我们可以很快的去验我们的数据有没有问题第二它的效果是立竿见影的我们只需要一个较小的成本我们就能得到一个比较好的模型

然后从我们发布的这个 VL01 来说的话我们的 Bunchmark 结果其实还是不错的对它不是一个原生多模态模型但我们现在正在做的是一个原生多模态的模型所以 VL01 它还不是一个原生的多模态它是一个 Adapter 的这种形式对就是说我能混合输入多模态混合输出多模态它也有可能内部的结构并不是一个原生多模态而是通过 Adapter 给它拼起来的什么也有可能是这样对对对

所以可以理解为 MiniMax 01 其实是 MiniMax 主线模型上还挺大的一个转型或者说升级的就是从以前他们 ABAB 的那个系列我理解应该是 Transformer 架构的

对吧然后到现在 01 它是一个线性的架构的对对对其实这段的模型更迭很快因为 ABB 上代的模型就是 6.5 放出来的这个 6.5 它其实迅完是 24 年 6 月份对然后马不停蹄的就开始迅 minimax 01 所以就是上 2000 卡去迅 01 这是 24 年 6 月之后的时候吗

对对对以后的事情那之后就是会沿着这个线性的架构一直去迭代一段时间是吗包括你们推理你刚才也说也会在这个上面去做我的预测是我们这个模型应该会用到今年六月份起码会用到今年六月份然后今年六月份以后的话我们这边还会有新的架构出来推理之后你们想探索什么呀就更新模型啊

那或者说就是大家看到的下一个趋势是什么就是我们的模型会变得更加的高效更加的高效以及就是推理能力也更强对吧数学编程这些首先它的数据量会高很多然后模型结构也会有更新的我觉得我们会从头再训一版因为从 OE 之后就是把强化学吸引入到 Transformer 整个流程因为之前之前

也用了强化学习可能主要是在后面这个微调的部分就是这样一个变化之后你觉得下一个大的变化可能会是什么就 AI 界有看到一些苗头吗嗯

现在还没有现在其实还是在做深度推理就是这波其实刚刚起来包括我们现在还处于一个跟随的状态但我们其实认为未来长文还是一个趋势的我们其实比较高兴看到像 VMess Kimia 他们都推出他们各自的长文优化的模型架构

那就意味着他们跟我们是上了同一个赛道了就是长文的赛道在长文赛赛道上 linear attention 是我个人觉得很难碰到对手的当 scale up 到一定程度的时候所以一方面大家都上了长文赛道另一方面你对你们现在选的这个方向线性这个大的方向你是更有信心的对对对嗯

那你怎么去看 NSA 就它现在因为 DeepSeek 本身很火所以像 NSA 包括近期的像 MOBA 这种成果可能也跟着大家的关注度比较高实际上你觉得 DeepSeek 在注意力改进上的进度是怎样的这块他们主要的创新其实是我们当时

就是我们 21 年说的就是这个系数注意力速度很慢他们这篇工作其实就是把它的速度真正的提上来的他做了一个工程化的一个极致的一个优化但是它的上限是很低的就是我并不认为 DeepSync 会走这条道路这个上限主要是反映在当模型的参数变大的时候它的提升效果就会没有这么明显了是吗

就不如现行因为他们肯定他们想要 scan up 他们一定会做 scanning load 的实验除了就是 minimax01 这个主线之外现在 minimax 它其他的模型或者说算法上的投入有收缩到一些几个比较主要的方向吗还是说还是像之前一样其实像视频生成之前你们也会投入比较多在做

视频生成现在主要还是在做效果然后关于视频生成的 linear 架构其实我们也是有的它只是还没训完我们都是有新架构的他们只是还没有采用而已就是技术储备已经有了所以线性也可以去做视频生成就是我们的这个线性其实

有很强的技术储备只是还没用而已那可以说是你们的各个方向的模型都会转到这个线性的结构上理论上是可以的只是他们现在的研判是还不需要就还不需要把它转化成线性就他还没有遇到那个序列长度过长导致他的训练效率低下的问题线性上限很高而且这件事是可以 work 的

就实际上它可以 work 你觉得像现在在行业里这是一个共识还是属于非共识这是个非共识包括现在大家其实还对 linear attention 有 concern 即使 minimax01 都已经发出来他们还是觉得 linear attention 可能 scale up 上去不太行 concern 的展开说了 scale up 上去为什么不行它是原理上哪有问题吗让大家会有这样一个疑虑第一可能是 minimax01 的宣传度不够

他们还没看到他们现在很多人的一个共识他们是觉得 mini attention 也是一个有损的优化很多人是有这个共识的他们说一个二次的我现在用一个一次去逼近那它当然是一个有损的一个优化了但是事实上是有没有一种可能是这个二次计算复杂度本身就是冗余的呢

就是你认为它其实是无损的或者说它有可能是无损的我们就认为它是一个无损架构它是一个无损油化特别是变成混合架构以后它就是一个无损油化甚至还有增强还有增强你是指比纯负 attention 还有增强是吗对对对比纯负 attention 还是有增强吸疏和油损这件事情是对等的吗吸疏就是一定是油损的呀

吸收一定有损其实 attention 固然就它固有的特性之一就是它是吸收的你的你最终 attention 会算出一个 attention mask 这个 mask 它本身是一个 dense 的就它每一个元素都是有值的

吸收的话就是我只计算里面部分位置的值那么它本质上就是个有损的那吸收的话就是我现在让它变成一个固定的 pattern 而已我不去计算它们每个值了

如果说西数的这个 pattern 是可以学到的这也是 NSAMOBA 包括 serial attention 在讲的一个事情就是我可能到底在这个权的这个职理我选哪些这件事本身是可以被学习到的话那它能解决这个有损的问题吗

这个方法其实在 20 年已经有了,已经有方法,就是叫做可学的吸书啊,这个也不是一个新的东西,但是呢,他们做的好处是当时的可学吸书速度很慢,他们现在可以把它速度做得很快,采用不同的方式,他们把它做得很快。

但是我们认为这个就属于叫什么技术方面的道心之争就我们认为它是有损你刚说叫什么之争道心之争那这个道心肯定也是来自于以前的一些积累对吧比如说这是大家的一些数学上的理解不一样还是什么东西不一样学术理念的不一样就比如说我们从 20 年开始我们就一直我们为什么那么长时间一直在做

linear attention 其实当时跟我们一起做 linear attention 的有些人已经不接着往下做了这属于叛道了信念感我们觉得他一定是能 work 的他们认为西书一定是能 work 的这也可以但是西书跟我们是正交的怎么讲正交的意思就是他们的方法我们也可以用我们可以直接拿过来用你们的方法他们也可以用

我们的方法他们用就比较麻烦了因为他们要改他们的底层架构其实我今天早上聊的时候他们也讲到说可能理论上来说线性注意力的机制的上限是更高的

其实我们已经证明了只是他们选择选择他们相不相信而已那说回来就是为什么 minimax01 的技术社区的影响力可能他就是没有那么让大家认知到这件事情对对我们宣传比较少其实还是因为 IO 的风格属于做五分做十分宣传五分这个

这个东西它到底是靠宣传还是靠技术社区的人自己去发现还是说靠你们比如说开源更好的工具让他们能更好的来自己体验这件事情他们体验不了你现在你个人也部署不了这个 600 多币的这个 400 多币的模型你们当然可以去检验一些用 API 的测试嘛

那有很多人去复现 R1 他们是在怎么做呀当然 R1 也开了一些小的小规模上做对对对 R1 是它是开了大的也开了小的你们为什么在开源的时候不去放不同尺寸的出来因为一些小尺寸确实可能对学界对这种个人开发者对小机构是更友好有更多人能参与这个事情这个我们需要去说服 IO 我们是有小尺寸的

我们有我们有小城但是 IO 觉得觉得我们就是要效果好他希望能把效果的上限先提上去然后再考虑小模型开源的事情

因为我觉得如果按他自己说的就是技术影响力是当然可能我想简单了就我觉得如果技术影响力是目标的话其实你让更多人参与也是很重要的一个点对吧你一个特别大模型大家都搞不了的话那对吧那讨论度不就变低了吗对我觉得他的点是在于他希望更专注开源的东西会更加专注一点你开源两个模型就说明我要去维护两个模型可是你不同尺寸的它其实还是一个模型吧训练的东西不一样训练的

数据其实是不一样的我们最近训练的那批小模型的训练数据其实跟大的不是太一样那你们不能像 R1 那样我直接用我自己的大的模型蒸馏出几个小的现在没人干这事这需要人力的对这个其实也是我最开始的时候我问你说开源额外需要做什么吗就是如果你可能想让它在社区有一个非常好的效果可能你就得额外多干这事了

我个人觉得 PR 是要强的因为现在已经不是一个酒香不怕巷子深的一个时代了因为有太多太多的这些宣传出来你真的东西是容易被瞒没的是容易被瞒没的

而且我刚才说的开源更多小的模型它还不是一个直接的宣传就是它并不会让很多人认为这是一种宣传其实我觉得那种效果是好的就你去硬说我特别特别好我发一堆稿什么的这种可能也现在效果也已经非常的衰减了其实还有一个点因为我们做这个东西包括 IO 其实也比较清楚就是我们打的是一个长线就是我们在短期内

一定是在效果上会落后的我们做了新架构在相同的算力和人工的情况下我们是没有太多的人力去做深度推理的就会导致我们跟随深度推理的脚步会慢一点

但是好处就是当我们转型去做深度推理的时候开源已经把这部分已经做的差不多了就我们复现起来的难度会降的很低就我们赶上去的话会很快赶上的步伐会很快

所以我们在这场跑步当中我们跑的其实是下半场我们赌的就是未来长文的需求据你所知的话像 OpenAge 国外的一些 AI 公司他们有在去尝试线性架构的优化吗他们的架构很可能是基于 sliding window attention 的滑动窗口对滑动窗口注意力滑动窗口也是一种吸收注意力是吗对滑动窗口是一个比较基础的

稀疏注意力机制他们也是他们采用的方法大概率大概率是滑动窗口加 Foretention 所以其实你们这个方向是很原创的并不是说美国那几个最强的公司比如说 AnswerPick 或者 OpenAI 谷歌 Meta 这些有很大的迹象说要往这个方向转是你们自己很相信相信这个方向的潜力很大对对对并且我们的我们这个也是真正把论文转化成产品的

就说明我们的技术是比较先进的因为这篇论文是 24 年初的论文 24 年底的产品你刚才也讲到就是说认可现行注意力的上限很大而且这件事能 work 在业界是一个非共识那你们现在介意去讲这个非共识吗我们希望能宣传这个这样子的话首先他们就得花一部分精力来跑这个 Ninja Attention 的赛道了

然后呢同时他们也会开发出更多的长文的应用所以其实你们是希望更多人也来做这个线性的 attention 对对对因为开源其实选择的就是知名度嘛总体来说的话你们对 Midnight01 这次开源的目前的反馈你们满意吗

包括影响力啊综合的反馈啊我听到的是包括群里面的反馈是说这个报告写得很好这个工作比较 solid 但是不知道为什么没有很多人知道就是你们外部的一些反馈 minimized 之外的人的反馈

对明白就好像比如说我看了一个特别好电视剧或者一个小说我觉得特别好我跟人安利但是没有什么人看或者说你发现自然在看的人比较少我觉得这个现状其实就是要也要加强宣传然后一方面我们下版模型也会做得比较好吧大概再等一个月吧

整体上你觉得外界对 MiniMax 的技术实力有什么印象和误解之前他们应该会觉得 MiniMax 是一个比较低调的公司吧会是一家 2C 的产品化的一家公司因为它的技术是不公布的你也没看过有 MiniMax 有发布相关的论文嗯

你觉得在 01 之后这个印象是在变化的是吗 01 之后我觉得外界他就会突然发现这是一家真正做技术的公司或者说他是一家有技术信仰的公司他愿意花钱花真金白银去实现一个新技术的公司

你感受到了内部分位在 DeepSeek 春节这个大大大出圈之后你们的内部分位有什么变化吗研发团队研发团队都在加班都在加班但是是因为本来就要加班还是因为 DeepSeek 没让我们过年

就是相当于你们在加快你们去做推理模型的节奏可以这么说吗对所以就有很多的紧迫性因为对我们来说的话比如说我们过一个月再发出一个跟 RE 差不多的就显然不够的我们得做出的东西一定要比 RE 要好甚至要跟 OE 差不多的一个水平的一个东西 OE 或者 O3 差不多的水平的一个东西出来

这个评判标准还是用那些常规的 benchmark 去看是吗包括数学的 outside 的编程的 SWE 然后 AME 这些对会有一些标准的 benchmark 然后我们自己也有一些内部的榜单我们会做得更加激进一点就是原来多姆泰的模型就是你可以看到现在基本上所有的 benchmark 你就可以看到现在所有的模型都是视觉理解模型

和文本模型是分开的但是在这一版上我们已经没有文本模型我们就只有一个模型就是多么泰尼这个大模型这里面最 tricky 的点就是我应该怎么去平衡这个文本能力和视觉理解能力让它两个榜单都不掉你们做的过程中就觉得难吗发现这个事儿

难在哪还在尝试还在尝试但是目前的实验实验结论还可以这其实是一个比较激进的方案吧然后会是一个深度推理的多模态模型啊

所以它是一个用了新的线性架构的原生多模态深度推理模型对的那你们这确实一下子做了就好几个改进在一起对被迫的那你觉得这件事有多少把握了你刚才说你们最开始做线性的架构你可能觉得你有 90%多的把握这个是可以 work 的

你们现在这个新的东西你有多大把握它是可以 work 从现在的进度上来说的话大概七八成吧然后你们这一次又是把可能超过 80%左右的资源放在这个新的这一个模型上是吗这个优先级是最高优先级就绝大部分算法包括工程优化的这些研发的人头都是在你们接下来这个大模型上都在大模型上你们今年就会推出来对不对下个月这么快

大概 4 月份吧不超过 5 月你说的是 4 月份能发出来的意思吗对 4 月份能发出来那这个发出来也是指开源的意思是吗发出来应该就开源那这个速度还真的是挺快的你刚才讲的有一些点我还是比较吃惊的比如说你们做这个 Skinload 测试然后预训了这么多次以及你们可能在一个比较新的架构上就花了 80%的精力和资源在做这个事我们现在的主要东西还是看怎么样去

提高模型的上限现在所有的精力都是在提高模型上限上我们现在其实是认为模型上限提高比去维护产品更加重要那你会羡慕就是 DeepSeq 那种我完全不做产品吗当然他们有一个 2C 的产品但他们其实没怎么维护我觉得就你当机就当机了那其实没有是这样子的我为什么来 MIMAX 也是出于这个考虑第一

我们当时想宣传 Linear Attention 确实也借助了一些 lab 的资源去做宣传但是我发现当时我跟所有人聊的时候我都发现很难去说服他们因为他们会有一个点说你这个模型只在小规模上验证过在大规模上的效果并不确定

我会用这一点来说不买你的账那我当时我就想那我应该怎么办那我就只能去找一个愿意来的这个人那宣传最好最好宣传新技术的方式是什么呢把它放到产品里然后让所有人都用到这就是证明这项技术最好的方式你现在还是这样想的是吗对啊这是为什么我来了这个 minimax 去把这个模型真正的放到了产品里面

那你怎么看像 DeepSeek 它其实也没有一个产品或者说它没有一个好用的产品但它的影响力会特别爆炸在一段时间里就这件事它是一个偶然的因素导致的还说它有可能会持续了就大家可能最大的焦点都是在于模型能力本身的提升而不见得是这个模型能力提升之后本身这个公司自己做了什么产品它可能是生态里其他的人在做

我个人觉得其实它那个 R1 的出圈其实是偏偶然的第一个是当然模型效果确实不错这是它能够出圈的一个但是它也跟很多别的情况也相关对我们来说的话我其实你没法去想这样一个偶发事件对吧那么我有一个新技术我想让很多人都知道它那能怎么做呢那就是把它变成一个产品

这其实是 ChatGPT 实现的事情

就当时 OpenAI ChatGPT 有一些无心插柳的成分它确实是通过一个产品有了这样一个 ChatGPT 时刻而且在那之后 OpenAI 是马上和微软有一个更深的绑定它积累了更多的算力资源它相当于把这个关注它转化成自己的用户然后积累到现在然后我觉得 DeepSeek 的前半段的事跟这个是比较类似的但是后面不一样的地方就是在于它其实自己没有怎么去做这个产品现在出现的一个局面就是包括像腾讯的元宝

阿里然后百度就还有很多其他什么车企各种公司就这些其他的公司在接 DeepSeek 就它好像这个故事的后面的一部分不太一样这个不所谓因为首先它的这个模型效果确实好但是在大模型其实很少有很大的领先的基本上你的所有的领先都会在三个月以内被抹平的

所以你还是觉得那个逻辑是对的就是说实际上你只靠技术本身就如果一个正常的商业公司就我们 DVC 可能有些特殊情况一个正常的商业公司只靠技术领先其实你是没有办法长时间有一个正向的反馈和壁垒的对我觉得这个分享也挺好的也许它会是一个更长期的趋势

也许 DeepSeek 是一个短期的极致性的事件它可能改变了一些人的想法原因其实是因为虽然大家都说深度推理但是真正让大家第一次能够切身实际的感知到深度推理的每一步的其实就是 RE 对因为之前 OE 它并没有完全开放思维链而 RE 是把思维链透明给用户的

还有一个点就是 OpenAI 比较贵然后对中国的或者说对全世界其他很多地方的人来说要用 OE 的成本和门槛是比较高的另外其实还有一个点 RE 不是个通用模型就是你可以去问他一些通用的东西就比如说谁是谁这种

通用的时间它的回复往往不会很好但是它解一些难题或者在专业的任务上它其实效果会比较好我的定义是它并不像一个通用模型

其实你经历过上一代的计算机视觉为主要技术的 AI 公司然后上上海人工智能实验室这样的一个 Live 然后还有 Midimax 这样新的一批大模型的创业公司就你自己感觉在这些不同类型的机构里面来做 AI 来做 AGI 它的区别是什么这里面其实最重要的是决策

因为 21 年 3 月份的时候我在商汤做的就是文本大模型在那个时候首先 ChadGBT 是 22 年 11 月份开始的在那个时候只有 GBT3 发布了所以在那个时候其实商汤做大模型是非常着的然后后面经了很多事情你自己在 AI 上的追求是什么

你个人我是真我一直想做的我一直想做的一个模型他们叫 AGI 但是我想做的时候那个时候还不叫 AGI 我觉得我想看我想做的东西是一个真正能够自我学习自我进步的一个模型它能干的活是什么呢就是你给它的输入是

人看到的人听到的所有东西输入进去然后他能够去自发的去学习不同的模态之间的关系和里面的比如说怎么样去处理文本文本也是通过自监督学出来的然后通过这种方法我们就能够得到一个真正的一个初步的一个

能够自发学习的一个大模型出来了当时还没有大模型这个概念但是我现在觉得这一部他们这里面其实会牵涉到很多别的模型比如说世界模型它其实也属于这里面的一块吧

那么我想做这样一件事情的话第一我需要文本模型第二我需要多模多模态模型然后慢慢的第三步就是看怎么让他自发的把这不同的模态的直接的关系把它学出来就跟人跟人一样因为人也是这么学到人从婴儿开始也是这么学怎么也是这么学出来的

你说的这个它涉及到就是我不需要一版一版的去预训练这件事情吗要跳过这个步骤吗你或者把这叫做可叫做持续学持续学习就是他一直在预训练但这个好像在现在目前的学界其实大家并没有这是一个很模糊的方向对不对就他并没有收敛到一个具体我怎么能实现到这个目标上

它虽然没有具体实现到这个方向但是你可以发现大家都是在往这个方向走第一你会发现现在有几个方向比较火的第一个是大模型方向第二是巨声智能方向然后第三是空间智能方向

你会发现为什么他们会走这三个方向第一大模型现在碰到了一个问题是不是你看大家都说训练数据即将耗尽当你的训练数据耗尽的情况下你大模型应该怎么办这时候巨神智能就出来了因为巨神智能的定义是什么它通过跟环境的交互来获得智能你看机器人跟环境的交互它在所有的这些交互范围内它是不是可以产生无穷无尽的数据

它是不是直接就可以解决大模型的训练数据问题那么空间智能在这里面有什么用因为你巨神智能你是要跟环境做交互的你跟环境做交互你就自然而然你需要有空间理解能力那么空间智能也会要进来所以你会发现所有的虽然大家对这观念是比较模糊的但是他们每个走的小方向都是一步步往这块走的你觉得强化学习深度推理这个方向能走到自己持续学习的模型吗

还是中间会有一些比较大的 gap 强化学习它其实是一种学习方式走通了这一步以后它可能会未来我们真正要走到 AGI 它可能是可以依靠这种方法去进行自发的学习的强化学习它这一块其实非常像巨神智能里面的强化学习对巨神智能现在也用强化学习去做很多运动控制的它其实很像

对我来说的话我觉得像这 R1 更像是一个偶发就是偶然发现那个东西他们就把在机器人领域比较火的这 RL 我们就直接拿过来我们来训一训你指的是 OE 吧 OE 或者 R1 嗯

但这个方向应该算就最开始是 OE 对对对我感觉就像他们直接拿过来训练结果发现效果居然特别好应该是一个偶然的发现而且有可能 OpenAI 也是有做类似的动作但因为 OpenAI 它并没有对对对就对外说很多细节就你也不知道它是怎么做的所以你个人想追求的一个东西就是你想看到某一种你想象中的 AI 它会实现以及你是去推动这个过程

对我来说的话现在反正是一步一步往上走但是进入了大模型这个领域你其实发现你的驱动已经是外界来给你驱动了已经很多情况下已经身不由己了

就是竞争驱动的已经是竞争驱动了如果抛开所有的限制你觉得实际上现在应该做什么还是要把这模型能力基础能力先往上提的对我是指具体了如果提基础能力具体他最该做的事是什么我其实觉得 RL 是个很好的方向

首先是我们解决了基础架构的问题让它的计算复杂度往下降了那么架构问题就意味着我们有一个比较好的一个基础了好的基础了以后那么我在上面再尝试不同的算法了解所以至少在目前这个阶段外部竞争驱动你去做的这个方向和你觉得本身应该做的事它也是契合的对

对我觉得今天这个交流很好本来我是想跟你聊先行注意力的但我听下来之后其实有一个更广的一个话题而且你比较详细的回溯了你们怎么去做先行注意力的这个探索这样一个过程中间我觉得有很多心路历程也是让我觉得很有启发然后也对你们团队包括对 MiniMax 的一些决策我觉得也是有一些新的认识吧那今天非常感谢依然来做客我们的晚点聊谢谢好嘞那我们可以最后跟听友打个招呼大家拜拜好拜拜

本期的连点呈现我有三个联想第一个是这期和上期有很多联动因为我们都是在聊 attention 依然提了一个问题就是他认为大部分人觉得 scientific attention 是有损的这呼应了我们上一期聊到的目前学界的一些探索表明纯线性的注意力它的效果是可能无法比肩 transformer 的

但依然也说有没有另一种可能就是原创和 Tension 中的二次计算复杂度本身是冗余的第二个联想是我们最后讨论到他想做什么样的 AI 时他设想了一个可以连续学习的 AI 系统而不需要人类去一代一代的预训练去给他升级其实上期曹军也聊到了类似的未来设想

还有更早时在晚点聊的第 71 期节目香港大学计算机系主任马毅也谈到了这个话题马老师认为现在的 Transformer 并不是真的高级智能我们混淆了智能和知识大模型和一个婴儿谁更有知识谁更智能他认为是婴儿更有智能婴儿有可能成为下一个爱因斯坦因为他可以自主学习那么系统如何自主学习了马老师认为关键是闭环训练反馈和纠错机制等以及他提出智能的原则是简约和自洽更详细的

如果大家感兴趣可以去听 71 期节目那一期我们也聊了很多历史虽然 AI 每天有很多新鲜的事情但是马老师的一个想法是年轻的学生应该更多的去关注 AI 的历史我们当时聊了从上世纪 40 年代的控制论信息论再到 56 年的达特茅斯会议还有明斯基他们最开始去提 Artificial Intelligence 这个词实到底是在指什么

最后一个联想是关于语言和多模态对智能的意义钟毅然在描述自己想做什么样的 AI 时提到了语言巨声智能空间智能和世界模型的相互促进比如说以 RL 强化学习为例在 OE RE 类模型中很重要的强化学习也是近几年大家在机器人上去做运动控制的时候会用的比较多的一种方法那之前我们在第 101 期节目和王小川聊的那期节目中

他非常鲜明的表达了另一个观点就是他认为语言才是智能的主轴而多莫泰比如说世界模型他认为是跑偏了因为语言才凝结了人对世界的认知而从科学时代到智能时代要从解构物理世界到解构人这背后可能是现在不同的人对智能对 AGI 本身有不同的理解现在的大语言模型更像是一个虚拟世界中的刚中之脑

再往下能在物理世界活动并改变物理世界这件事本身对智能的产生和发展到底有什么意义不同人现在有不同的答案你觉得完全虚拟的刚中智脑成立吗它未来会产生类似好奇心厌恶喜好等机制吗我想我们之后的节目里可能还会反复回应类似的议题

下期再见

104: 3700次预训练寻找非共识，MiniMax-01开发者讲述4年线性注意力之旅 01:26:50 Share

晚点聊 LateTalk

Deep Dive

Shownotes Transcript

104: 3700次预训练寻找非共识，MiniMax-01开发者讲述4年线性注意力之旅