We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”

94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”

2025/2/23
logo of podcast 张小珺Jùn|商业访谈录

张小珺Jùn|商业访谈录

AI Deep Dive Transcript
People
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
松琳
Topics
松琳:我目前的研究方向是硬件高效的序列建模,主要集中在高效的注意力机制,例如线性注意力。本次解读的三篇论文都集中在改进注意力机制以处理长文本任务上,DeepSeek 和 Kimi 使用动态稀疏注意力机制,MiniMax 使用混合模型(线性注意力和 softmax 注意力结合)。DeepSeek 坚持架构创新,这在很多只关注数据堆砌的公司中较为少见。动态稀疏注意力的核心思想是稀疏性由查询动态决定,与之前的静态稀疏注意力(如 BigBird)不同。MiniMax 使用线性注意力,其空间和时间复杂度都是常数级别,总推理复杂度为线性级别。 DeepSeek 的 Native Sparse Attention (NSA) 旨在在硬件上原生训练稀疏注意力,这是开创性的工作,首次将动态稀疏注意力用于大规模预训练。NSA 基于 Quest 的思想,并进行了硬件对齐的设计,旨在平衡推理时间和训练友好性。NSA 的核心思想是让每个 query 动态地选择 key 和 value 块,并使用门控机制来控制不同分支对最终输出的贡献。NSA 的稀疏性体现在只对 Top N 个注意力最高的块进行细粒度注意力计算。NSA 利用 Flash Attention 的策略,将连续的块加载到 SRAM 中,并通过对所有 head 的注意力分数求和来保证组内 head 选择相同的块,从而减少了 KV cache 的读取量,提高了效率。 Kimi 的 Mixture of Block Attention (MoBA) 与 DeepSeek 的工作非常像,都基于 Quest 的框架,并用于预训练。MoBA 的设计更加简洁,只保留了 Quest 中的中间分支,并相信 SGD 的力量可以找到合适的 Top K Block。然而,MoBA 在 SFT 过程中存在梯度稀疏的问题,因此使用了混合方法,将最后三层切换到 Full Attention。 MiniMax 的 MiniMax-01 使用混合架构,结合了线性注意力和 softmax 注意力,并通过 trunkwise 算法来提高训练效率。MiniMax-01 的设计目标是高效地处理长文本,并达到 GPT-4 的性能水平。MiniMax-01 利用了 trunkwise 算法,该算法可以将序列分成若干个块,并行计算每个块的 last hidden state,从而提高训练效率。 张小珺:本期节目邀请 MIT 计算机科学与人工智能实验室的在读博士松琳,来给大家解读 DeepSeek、Kimi 和 MiniMax 三篇关于注意力机制的论文。这三篇论文都集中在改进注意力机制以处理长文本任务上,体现了大模型公司在技术上的竞争。DeepSeek 的 Native Sparse Attention (NSA) 在长文本基准测试和推理能力方面优于 Full Attention,展现了其在硬件效率和性能上的优势。Kimi 的 Mixture of Block Attention (MoBA) 则在简洁性方面有所体现,但其在 SFT 过程中的梯度稀疏性问题值得关注。MiniMax 的 MiniMax-01 则展示了混合架构在处理长文本任务上的有效性,并成功将其扩展到大型模型。 通过对这三篇论文的解读,我们可以看到大模型公司在注意力机制改进上的不同技术路线和设计哲学,DeepSeek 更加注重硬件效率和架构创新,Kimi 则追求简洁优雅的算法设计,MiniMax 则选择了混合架构的稳妥方案。这三篇论文都为长文本处理和模型效率提升提供了新的思路和方向。

Deep Dive

Shownotes Transcript

今天这集节目延续我们的论文系列。我邀请MIT计算机科学与人工智能实验室的在读博士松琳,来给大家解读上个星期DeepSeek和Kimi发布的全新技术报告

DeepSeek和Kimi又一次技术对垒。在同一天发布论文,两篇集中在改进注意力机制以处理长文本任务上。而春节前,MiniMax也发布了一篇注意力机制相关的论文

松琳将带领大家阅读这3篇注意力机制有关的文章,解析不同模型公司的技术哲学和路线选择。

我们希望能让更多人领略AI科技平权,体验技术之美。

2025,我们和AI共同进步! (如果如果,你觉得光听还不够刺激,觉得一定要坐在电脑前看着投屏、拿起纸笔学习更有沉浸感…如果你实在是真心想要找虐的话…请前往:含投屏的视频版本)。预祝你学习顺利啦!)我们的播客节目在腾讯新闻首发),大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)02:30 讲解开始前,先提问几个小问题15:36 DeepSeek最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》讲解 论文中文名:《原生稀疏注意力:硬件对齐且原生可训练的稀疏注意力》

路线:稀疏注意力机制

本篇工作最大亮点:Native Sparse Attention 全线压制 Full Attention 01:19:14 Kimi最新论文《MoBA: Mixture of Block Attention for Long-Context LLMs》讲解 论文中文名:《MoBA:面向长文本上下文的块注意力混合架构》

路线:稀疏注意力机制 01:44:42 MiniMax春节前的论文《MiniMax-01: Scaling Foundation Models with Lightning Attention》讲解 论文中文名:《MiniMax-01:利用闪电注意力扩展基础模型》

路线:线性注意力机制 02:30:07 最后强化学习一下 【技术之美】系列:

逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”)

逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”)

【更多信息】

联络我们:微博@张小珺-Benita),小红书@张小珺)

更多信息欢迎关注公众号:张小珺