We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

103: 用Attention串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进

2025/2/26

晚点聊 LateTalk

AI Deep Dive AI Chapters Transcript

People

傅

傅天予

曼

曼琪

肖

肖朝军

Topics

曼琪：优化注意力机制能有效解决AI领域的长文本处理难题，包括一次性输入长文本、生成长思维链和提升模型记忆能力等。肖朝军：我的研究方向是大模型高效架构，致力于通过改进注意力机制，提升大模型处理长文本的效率。InfLLM项目旨在通过稀疏注意力机制处理更长文本（128K甚至1000K）。NSA等新方法进一步将稀疏注意力应用于预训练阶段，并通过精细的硬件设计，在预训练阶段就充分利用动态稀疏注意力，实现了显著的性能提升。傅天予：我的研究方向是神经网络模型高效性，致力于通过改进注意力机制，提升大模型处理长文本的效率。MOA项目关注点在于分析不同注意力头的特性，有针对性地保留关键注意力头，从而提升模型利用长上下文的能力，不仅保证流畅输出，还能真正利用到很长上下文的内容。MoBA等新方法同样关注预训练阶段的稀疏化，并采用动态与静态混合策略，块状稀疏设计适配硬件特性，在保证模型性能的同时提升效率。

Deep Dive

Chapters

本节介绍Attention机制的起源、核心思想和作用原理，解释Attention机制如何通过建立词与上下文的动态关联来解决传统RNN模型在处理长文本时存在的遗忘问题。同时，比较了Full Attention的优缺点，引出对Attention机制改进的需求。

Attention机制是解决长文本处理问题的关键
Attention机制通过计算每个词与上下文的关系来加权信息，克服RNN遗忘问题
Full Attention存在存储和计算复杂度瓶颈

Shownotes Transcript

欢迎收听本期的晚点聊今天的主播是曼琪上周 DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果分别是 NSA、MOBA 他们都举行了

他们都聚焦到了对大模型中的注意力机制的改进注意力机制是当前大语言模型的核心机制回到 2017 年 6 月那篇开启了大语言模型革命的 Transformer 八字论文标题就是 Attention is all you need 注意力就是你所需要的一切而优化 Attention 的计算效率和效果又能帮助解决 AI 学界和工业界都非常关心的一个问题就是长文本 Non-context 不管

不管是要一次输入一整本书让模型能帮我们提炼和理解还是在现在用强化学习来提升推理能力的范式转型后需要生成很长的思维链又或者是我们未来希望模型有越来越长的记忆甚至是像人一样有一生的记忆这都需要有长文本能力的支持这期节目中我们就邀请了两位也做过 Attention 直指改进的 AI 研究者

他们之前的成果都和 NSA MOBA 一样属于大的吸收注意力方向的改进一位是清华计算机系自然语言处理实验室的博士肖朝军他是应付 LLM 注意力机制改进的一座导师是清华计算机系的刘志远

另一位是清华大学 NICS EFC 实验室的博士傅天宇他是 MOA 注意力机制改进的共同一座他的导师是清华电子工程系的主任汪玉汪玉老师的实验室也做了很多与硬件层结合的优化工作两位刚好有一些可以相互补充的视角

注意力机制确实是一个会涉及较多技术细节的话题所以我在修罗斯的末尾也贴了一些术语和过往注意力优化成果的简单解释希望可以帮大家更好的理解上期我们在和美国西北大学的博士王子涵聊过后有听有反应术语有些太多

听不太懂其实我自己最近密集聊了一些 AI 研究者有一种逐渐连点呈现的奇妙的感受比如这次我和曹军还有天宇聊 NSA MOBA 这些改进时他们也聊到了自己做研究的探索过程和一些反思中间有不少点与我们上一期节目也有呼应比如两次我们都聊到了 Flash Attention 上次是在聊 DeepSeek 最新开源的 Flash MLA 时聊到了当年的 Flash Attention 它也是一个从系统层去做优化的很经典的例子

那这次聊 Attention 本身肯定也绕不开 Flash Attention 它是一个早期的对付 Attention 的重要的改进两次节目我们也都聊到了在工程上去做更底层的算子优化的重要性它是帮你真的把一个 Good Idea 去落下去的方法如果你虽然不是一个 AI 从业者但又因为兴趣好奇或工作需要非常希望由浅入深的了解更具体的技术机制和进展那欢迎多听我们的节目这次我也在修罗词里贴了一些 AI 大神用相对通俗的方式去讲解 AI 的视频节目的地址

让我们一起学习起来今天的晚点聊很高兴地邀请到了两位 AI 研究者来和我们聊一聊最近引起了很多关注的对大模型的 attention 也就是注意力机制的改进包括 Moonshot 发的 MOBA 还有 DeepSync 发的 NSA 两位可以先和我们的听友打一个招呼也简单自我介绍一下

大家好我是来自清华大学计算机系的博士生肖少军然后一直专注于做大模型高效架构层面的研究大家好我是来自清华大学电子系的博士生傅天宇然后我们也一直是关注神经网络模型高效性这一块朝军和天宇也可以讲讲就是你们之前以往的工作和注意力机制改进的一些关系嗯

2024 年的时候我们发布了一篇文章叫 infolm 然后也是做大模型注意力机制的改进那么当时的出发点呢也同样的是认为说大模型在处理长文本的时候需要很多的计算资源和存储资源同时大模型当时一年以前大家可以关注到的是大模型当时开源模型最多也就处理啊

8K 就是 8000 左右的文本长度我们当时就想要去说能不能无需心愿的然后用吸收注意力的机制使得他能够处理更长的 128K 甚至是 1000K 的文本然后就提出了这么一篇文章那么他整体的 attention 的这么一个改进的思路其实和现在被受大家关注的 DeepSeek 的 NSA 在 attention 部分其实是比较类似的

那么 NSA 的话其实是进一步的把它做到了预训练阶段然后且写了非常丰富的这么一个算子然后做了非常精细的画的设计使得它能够在预训练阶段就能够去很好的利用这种动态的系数 attention 那么其实它是一个非常大的一个进步对然后我这边的话也是在 24 年左右然后我们有挂出一篇名字也和我今天聊的这个 MOBA 非常像叫 MOA 我们是 mixture of attention 然后它是 mixture of block

大家可能跟刚刚赵军介绍的也是一样就是大家的目标都是希望能够大模型能够高效的去处理一个特别长的文本我们这篇文章更加关注的重点是我们发现之前的一些吸收注意力的文章它虽然能让模型可能记住很长的上下文

或者说可以让模型在很长的上下文上能流畅的输出内容但是其实模型并没有记住或者说能够使用很久以前的上下文的内容我们这篇文章就是希望能够去分析不同的注意力头它各自的特性来找到究竟哪些注意力头是对模型能够真正去利用上下文非常关键的

然后来针对性的去更多的保留这部分注意力头的注意力来让模型不仅能够顺畅的这样说话还能够真正的去利用到很长上下文的这个内容然后在正式聊这个 NSA 和 MOBA 的一些具体的改进之前我们先聊一聊关于 Attention 也就是注意力机制的一些基础性的问题我也是想请两位和我还有听友都科普一下

那其实在 2017 年就是提出现在大语言模型主流架构的 Transformer 的那篇论文它的标题就是 Attention is all you need 可见 Attention 应该是 LM 中非常核心的一个模块那两位也可以帮我们介绍一下就 Attention 它是什么它大概是来做什么的

就我觉得这样要说清楚 attention 是什么可能我们要知道一个大模型它输入和输出是什么那对于大模型来说其实它的输入就是一系列的 token 我们其实叫词源或者我们简单理解就是一个词吧一系列的词那 attention 的作用是这样就是说对于每一个词它单独本身是有一个含义的但有一些词的含义必须要联合上下文才能表达比如说一些代词 it

它,那究竟它是什么所以 attention 机制引入的核心思想就是希望输入的每一个词能够和之前的词产生关系在现在的大模型的 attention 机制中输入的每一个词都会和前面输入的所有词产生关系

它会计算自己和之前所有词的关系并且去根据这个关系的强弱来加权之前词的信息这样就能够帮助大模型不仅很好的理解这个词还能理解它的语境那我可以补充一下为什么在聊 attention 之前其实可能大家需要了解一个概念就是再往前神经网络是怎么处理序列的那么当时我们会认为叫一个循环神经网络循环是什么意思呢

它循环的一个词语一个词语的去理解然后动态的维护一个记忆然后每一次去理解一个词语的时候就判断这个词语和记忆到底有什么样的关系那么在这样一个过程里面可以预想的就是这个记忆就是会有遗忘这个在这个技术上会有很多的这个训练上什么梯度消失然后梯度爆炸等问题那么

这个 Transformer 这篇文章提出叫 Attention is all you need 那他就认为说传统的这种循环神经网络这么一个机制然后它是具有天然的缺陷然后所以他就提出来这个 Attention 那 Attention 其实叫注意力嘛那其实就可以和这个人的注意力机制去产生一定的关联那么可以认为就是它还是一个 token 一个 token 的去处理然后但是呢可以思考的一个问题是说那之前这个 token 它是需要和记忆去做相关性的计算然后去提取重要的

那么 attention 就是说这个记忆我不要给它固定大小那我就是把记忆拓展为全部的过往词源那它就可以处理当前这个词源的时候当前这个词语的时候它也可以和之前的所有词语去做逐一的去匹配认为哪个最跟它有关系它就把它的相关信息提取出来

所以他就可以认为是说能够去改进以前的循环神经网络在这种处理比较长的序列的时候会存在的遗忘的问题对可以就是大概是这么个理解循环神经网络就是 RNN 吗对对对那在循环神经网络中的那个记忆是什么样记忆的话它就是一堆树就是一堆矩阵它是把什么东西变成了这堆矩阵就是过往的次元就是它是一个一个词比如说我们假设这个神经网络需要处理一个句子叫

我是萧朝军然后那他就得先处理我再处理是再处理萧那就是循环神经网络就会把每处理一步他就会把当前的输入变成记忆比如在处理萧的时候他就已经把我是这两个词变成了记忆那么在这样一个过程里面循环神经网络他的记忆大小是固定的

就是它是只有一个固定大小的记忆那在这样的过程假设当前我们刚才说的处理的我是肖朝军那么他可能只有五个字这个遗忘现象不严重那假设就像我们今天这个播客我在最开始的时候说我叫肖朝军但是在后面我只会说我

我字到底代表什么意思需要模型就能够把我和我在最开始提到的我是肖朝军肖朝军这个字他们两个之间去建立关联但是当我输入长度特别长的时候我的记忆大小就有限比如说我们播客录了两个小时之后他可能整个模型就已经忘记了最开始肖朝军这三个字但是这是循环神经网络的缺陷

但是对于 transformer 而言他会把过往所有的词他都存着然后过往所有词的这个我们叫表示其实就是一个一个的向量他都存储下来那在这个在两个小时之后我再次提到我他这个我会和过往所有的词语去做一次相关性的计算然后那他就能够很快的计算到萧朝君和我这个词语它其实是一个高度的关系那他就能理解这个两个小时之后我说的这个我字其实就是萧朝君所以

在最开始从 RNN 到 Attention 的这样一个改进它本身就是为了去解决当这个输入很长的时候我怎么更有效的去理解这个非常长的一个上下文对吧对当时的长可能都没有很长就是几百个 token 就当时就认为是很长的了对当时再往前倒的话就是这个可能再往前聊就是会比较深了就是说希硕的 Tencent 最开始提出的时候是解决 Bert 那个最早的预设源模型它只能处理 512token

512 个词语的这么一个限制然后希苏特特选出来之后让模型能够处理 4K 就是 4000 个 token 这已经是 1918 年的时候大家认为已经非常长的一个长度了当然到现在动辄长文本大家可以看到是 128K 或者甚至是 1 兆就是 100 万的长度

所以这整个发展是很快的所以当时 Transformer 提出来确实是能够去解决常温本但是这个常和我们今天的常概念还不太一样明白就是从常温本到常常常常常温本对吧好那我们可以继续聊这个 AttentionAttention 它是在训练阶段和推理阶段它都会发挥作用是吗对对

然后现在我看大家的很多改进去对比效果的时候都会去对比这个 Full AttentionFull Attention 是不是就是以前标准 Transformer 里的那个版本以及就是为什么后来大家觉得这个 Full Attention 它不够用了它什么地方有问题对就是 Full Attention 就是传统的这个就是最早的 Transformer 里面的那个 Attention 为什么它不够用了呢其实就刚才提到的这个 Transformer 会把所有的词语的表示都存下来

那就比如我们聊了两个小时可能就已经聊了有上百万的词语了但是大家可以去算一个数字就是在 Transformer 里面一个词语它是会表示成一个项量一个项量就是一串的数字然后这一串数字存下来当然这个又要讲到更深的就是比如说一个数字它在计算机里面可能是两个字节假设是当然这个有量化不一定就我们假设是两个字节

基本上一个数字现在一个词语它就要几千个数字一层就要几千个数字然后再更多层但是要更多的数字然后假设我们已经有几百万个词语的话它可能存下来的量就已经是要好几百 G 对吧

那既然好几百 G 的话可以想象大家的电脑存储是远不够的这是存储上的问题第二个的话是 attention 提到了就是我在处理任何一个 token 的时候我需要和前面的所有 token 都来做一遍的计算那就是随着我们聊的时间越来越长我们聊了两个小时他就需要跟两个小时的词语去做相关性计算但假设我们聊了四个小时聊了一天那他就要跟一天的词语去做相关性计算那整个的计算的时间是越来越高越来越高

所以在处理常文本的时候可以看到我们会说 attention 是 n 方复杂度它 n 方 n 其实就是长度随着长度它时间和存储的开销都会变得非常大所以大家就会觉得需要去解决掉它要不然的话我们就没有办法去处理一个常文本因为现在的显卡它的显存可能就几十 G 的存储

那我稍微补充一点就是关于刚刚提到就是训练和推理期间有没有什么区别其实我们之前看到很多的这个吸收注意力的工作他做的都是一个稠密训练的 attention 然后但是在推理的阶段把它变成吸收的那为什么可以这样做其实是有一个契机

就是我们发现 Attention 本身它就含有吸入性即使你是稠密的训练为什么会这样呢一般可能有两个主要的原因第一个原因是说 Attention 里面有一个叫 Softmax 机制你可以简单理解它是一个更软版本的 Max 就是它是一个更软版本的取最大值的过程

就对于最大值来说就是最大的那个人是 1 其他人全部都是 0 那 softmax 就是最大的那个人可能是 0.9 第二大的人是 0.09 然后第三大的人是 0.009 但总的它是一个会有一个最大值的过程那这就导致在这么多数字里面只有很少的数很大那这就是为稀疏性提供了一个潜在的数学保证

这个值是相关性是吗对这个值就是我们刚刚说的相关性我们一般叫 attention score 或者叫 attention weights 然后第二个点就是说从我们语言学的角度来说虽然说比如说我们今天这个播客可能有两个小时但是朝君这个和我之间产生关联是非常非常稀疏的就是说我可能和这前面的两个小时可能有一百万个词种只和朝君这一个词是有关系的所以你可以看它这个关联本身就是很稀疏的

而且就是从人脑的角度来说大家也发现就是人脑的这个神经元它也不是所有的神经元都和所有的神经元连接它的连接本身也是非常稀疏并且可能随着人年龄的增大它会变得越来越稀疏所以就是从无论是从数学上还是说从语言学上还是说从一些神经科学上的一些启发大家就觉得稀疏耳滩神本身是存在并且是可以被利用来提高效率的请我总结一下就是一个是它存储上会带来很大的存储的需求

然后另外一个就是它的计算复杂度会随着文本变长然后它是一个因为你说是 N 方嘛所以它是平方爆炸的一个过程然后就导致大家想要寻找各种办法去优化它的计算效率那我们可以来讲讲就是大家其实现在比较主流的一些改进的思路是什么因为其实你们刚才提到的像这个 NSA 和 MOBA 还有你们做的这个 MOA 其实都是在这个吸收注意力的大方向想就它如果总体来说的话有哪些分类

我认为其实现在主流分类就是系数注意力和刚才提到的 RNN 就是 RNN 又复活了以 Member 为例的这些模型我们假如统称为 RNN 模型的话其实现在最主流的方向就是 Transformer 的改进就是系数 Attention 然后以及 RNN 就是把 Attention 直接给取代就是再替换回原来那种计算程度上比较高效但是带有一望机制的这么一个

所以从大方向来说我认为是这两个对我个人觉得就是说总之现在大家不喜欢说自己是 RNN 就是大家会说自己是一个现行注意力这个可能就是有一些我觉得有一些工作确实还是以一个循环的方式在进行然后可能也会有少部分的一些工作它的

它虽然也是存在一个把很长的序列压缩到记忆的过程但是这种压缩不是逐个词进行的而是说我给了这么长一个输入之后我一次性把它压缩变小那这部分可能也会被归为到现行注意力这一层对但我觉得总体来说是分为一个吸输的方法和一个现行注意力的方法

西数的线性的然后其中线性的话可能就是有一部分它是和 RNN 的思路是类似的可以说西数注意力是更主流吗因为我看到很多成果都是和西数注意力相关的我应该说在 Mamba 之前它更主流但 Mamba 之后其实以 Mamba 为例的这种 linear attentionlinear 注意力机制的改进也非常的多所以其实很难讲哪个是主流对我个人感觉 Mamba

Mamba 是不是就是那个 Trey Dow 和 Albert Gould 他们合作做的一个论文对吧一个配份他们之前也是那个 Flash Attention 的作者对吧对对 Trey Dow 是 Flash Attention 它也是它是属于刚才我们说的那种了

它是一个底层它其实就是相当于它不涉及模型的改进它其实就是一个底层算子的精进就是它和模型是割裂开的就是 Flush Attention 本质上跟 Fore Attention 在计算层面是完全一致的它只是让 Fore Attention 算得更快然后另外一个我想问的就是说除了 Attention 机制的改进之外还有哪些努力可以去改进强文本的计算效率的这个问题

我觉得 attention 机制的改进其实都处在一个我们叫一个算法层其实对于一个用户来说他其实用一个大模型大概率会有接触到三个层次算法系统和硬件硬件层很好理解就是你用一个更快的卡

更快的 GPU 当然可以变快了系统层可能稍微难理解一点就是说就像刚刚提到的 Flush Attention 它就是一个系统层的改进它的好处就是说虽然 GPU 它的峰值算力和峰值显存是固定的但是你可以说这个代码写的好不好就决定了这么多算力你能用到百分之多少那系统存的工作就是说我希望能够让算力的利用能达到百分之百或者是显存带宽的利用能达到百分之百

那这部分其实也是能提供一个很大的优化比如说 Flash Attention 的提出其实是让 Attention 的计算量已经上了一大个台阶然后显存量可以说是降了至少有一个量级的降低所以系统层是有一些工作然后再上面就是我们说的算法层那算法层可能再往下细分又是分为一个模型层和说我们更 general 就是更普遍以上的算法

模型层就是说我们只考虑模型本身比如说系数注意力就是或者之后可能会提到一些比如说混合专家系统 Mixer of Expert ME 也是模型层的改进更普遍的算法层的改进是模型已经固定之后我们去看它整个生成的范式比如说现在大模型是一个词一个词往外蹦大家看像打字机一样对吧

但是就会有人想那我能不能两个词两个词往外蹦呢或者是我能不能一段话一段话往外蹦呢或者说我能不能分十个大模型一人写一段这样的话我最终写十段需要的总时间就会变少这些就是不同层次的改进

因为你是在汪玉老师的团队然后电子系本来可能做硬件系统的会多一点这个方面你们有什么经验可以分享吗我觉得系统层现在其实很多人也会关注到然后可以看到市面上会有很多大模型推理的系统比如说 VLM

然后 flush tension 也算有不同的优化方向有的可能是去专注于优化大模型中的某个组件还有一些比较新的方向可能是针对一个大模型要去服务很多用户的场景我们去怎么样让这些用户他们的延时都不太大并且我整体系统的吞吐量能够比较高就是会有面向不同场景的不同的系统的优化目标和最终的结果也会不太一样

其实这个可以再举个例子当然这个算法层很多改进了因为长文本问题很多不仅仅就有计算和存储上的问题其实可以认为你在场景不一样你的优化方向也会不一样你可以看到 DeepSeek 在这一篇文章里面他用的是 C-Source Attention 再往前的话大家其实应该假设了解技术的人比较多的话

MLA 就是他们提出来的那套新的这么一个注意力机的一个算法他这个是在 v2 的时候 DeepSync v2 的时候提的对对对那他在解决一个什么问题呢其实就是说刚才我们提到的就是 Transformer 他需要把所有的词源都存下来但他会认为这个存储量有点太大了

然后存储量大了之后我每次去访问它的时间会很长我需要一个一个把它读出来其实可以直观的理解就是你从电脑上去读一个实际的文件和电脑上读一个依照的文件肯定速度上是有差异的所以就想的是把它维度给它压低了刚才提到一个词语它可能需要几千个数字来存

他就比如说我就能不能把它压成 500 个数字对他就做了这一个方面的改进所以其实就是说改进方向会很多但就是可能就是看大家具体场景是什么你们了解之前 Kimi 做的这个 Move and Kick 吗了解 Move and Kick 它是一个什么方向上的改进我理解它可能整体上也是服务长文本的它更多应该是在系统层的改进就是它其实还是在这个算法上没就是它其实还利用的比较多的是 Full Attention 的机制不过待在系统上去做的比较多的这种优化

那接下来我们就可以以这个 NSA 和 MOBA 这两个近期比较受关注的新的注意力机制的改进作为例子我们可以更详细的展开聊一下注意力机制的一些变化以及正式聊这个之前我有一个比较好奇的小问题就是我看这次 DeepSeek 的 NSA 它是先发了运营本平台但是它还没有去发这个 Gayhub 的库然后

Moonshot 的 MOBA 它是先在 GitHub 的这个主页上就已经有这个项目页了而且它把这个工程代码也放出来了就是大家一般去向技术社区释放这种成果的时候我是先直接发个论文还是说我先发 GitHub 就有什么区别吗这个其实是这个开源层次上是有区别的你就比如说吧就是大家会说 DeepSeek 开源那当然它最近可能也要进一步开源了就是说当然 DeepSeek 开源它开源的是那个模型

对吧它开用的是模型的参数但其实假设我们业界想要去复刻它那一套训练的过程复刻它那一套推理的过程就是比较低成本的训练我们还需要的代码是它的和硬件适配的代码

这个那这样的话这个代码本身它不会是一个 archive 论文它就是一份代码那就可能就放在 github 当然他现在还没有放那他可能过过段时间的话因为他那个已经说了嘛他要有五天的发布那他会类似应该是会放这个部署的代码对对对他对他会有部署的代码那所以说其实就是放 github 那就是为了把代码开出去当然放了 github 也可以不开代码了我可以只把模型放在上面

对所以其实就可能论文它更多的是一种技术上的佳要精要就是告诉你我这个东西怎么做的但具体这个每一个细节还是得用代码来呈现所以其实这是两个层次的问题但 Mushot 的 MOBA 它是在 GitHub 上做了但没看我没仔细看它有没有把那个训练代码和底层代码开源对那我们接下来来具体看一下这个 NSA 和 MOBA 的一些改进吧

然后这次我也是看了两个 paper 包括你们之前就是 infllm 和这个 moa 的 paper 其实这些技术论文呢它的大致结构是相似的就是前面的 introduction 和最后的 conclusion 的部分会去总结的来讲一讲就是这一个论文里对注意力机制改进

带来的核心的特点还有一些性能和效率的提升然后中间这个 method 的部分是讲具体怎么改的一些设计架构然后是我觉得也挺重要的可能之前讨论比较少就是这个实验的部分到底是用哪些 benchmark 来测它改进的效果如何我们可以就是按照这些部分来做一个比较和展开啊可以先从这个 introduction 和最后 conclusion 的部分来聊起就是两位看到 NSA 和 MOBA 这个成果之后你们会觉得就是他在他最开始的介绍

和它整体的这个结论里面你们觉得比较重点和亮点的东西有意思的东西是什么我这边我觉得看到最有意思的是他们都做了一个吸书的预训练这个确实是我们在之前的文章里看的很少因为就像我刚刚说的之前大部分文章是做稠密训练只有在推理时才吸书虽然说稠密训练

我们刚刚说确实稠密训练的记录力本身会有一定的稀疏性但是如果你的训练和推理是有些地方不一致的话它不可避免的会引入一些误差所以说其实业界也非常或者说学术界也非常好奇的一个点就是如果我在训练中甚至是在早期的预训练阶段就引入稀疏性的话会对模型最终效果有一个什么影响

我个人觉得之前之所以没有这样的探索可能一方面是大家更多的早期大家更多的是追求说这个模型要足够的聪明我要把点打上我要这个数学题做的好对吧但是至于效率问题呢是放到后面再来解决所以说大部分人还是说更愿意选择一个更保险的一个呃

稠密训练的稠密注意力的这么一个方法来确保模型的性能上限不影响但可能到现在这个时间节点大家会逐渐觉得就是模型的效率这件事情也变得非常非常重要尤其是我要去服务这么大批的用户的情况下所以说就是可以在业界看到一些关于吸收注意力投入更多资源的尝试

所以这其实也是解答一个之前大家非常关心的问题就是吸收注意力的训练经过充分的训练之后能不能达到和稠密注意力一样的性能上限我觉得这个是大家一直会很关注的关于这个问题至少 NSA 的这个论文里看起来呈现的效果是说是可以达到的甚至在某些情形下是可以超过稠密注意力的

我觉得这个是一个我觉得非常有意思的观点然后也是相当于是给西枢注意力这个领域打上了一针强心剂吧就是因为之前很多的审稿人他可能会质疑就是说虽然当然你这个变笨了一点但是变快了很多那变笨这么一点我是不是能接受的如果我就是要一个很聪明的模型怎么办那有这个西枢训练的工作就是告诉大家你可以聪明的同时也很快

你刚说这个特点挺好的这也解释了我的一个疑惑因为我看 SA 论文的时候其实它是引用了你们之前的 INF LLM 的那个成果的它引用的那个地方就是它在比较说我和那些之前主要是在推理阶段来做系数注意力的一些成果的一个比较所以它确实有一个区别就是它是在预训练阶段就引入了这个

这个事情其实虽然看起来可能会觉得大家会觉得是说一个推理阶段一个预训阶段其实这个 gap 其实还是挺大的就是说这可以天然的是因为这是硬件上的原因就是 GPU 本身它是不太适合去做系数计算

GPU 本身它其实是很适合的去做这种非常密集的宠密计算但是假设我们要把它吸收这种机制引入到预训练阶段的话其实是它就是我们当然可以做但有可能是我们根本没有办法去实现加速就在预训练阶段去做的话

其实整个过程会比较困难然后其实为什么在训练阶段去做加速或者说为什么吸收注意力可训一件事情现在变得越来越重要了其实核心还是一个原因所以大家还是觉得要去思考的问题是 DeepSeek 的发展路径到现在为止它为什么会突然关注到吸收注意力但其实是跟 RE 的出现是密切相关的

因为 R1 大家可以看到的是它会有很长的思维链就是说把这种思维链变得非常长已经成为一个必然的趋势已经成为一个必然就是让模型变得越来越聪明的一个趋势那么在之前的长文本大家可能关注的就是更多的是输入很长而不是输出很长那么输入很长我们叫 pre-filling 这个是 mushot 这篇文章关注的核心的点也是之前 Kimi 他在做他的产品的时候一个很重要的特性就是我能输入很长

就把一篇小说一个很长的长篇小说输进去我也能很快的处理但当前 DeepSeek 他可能更关注的问题当然他的 NSA 在输入很长的时候也能加速了但我觉得他这篇文章里面最重要的点是在输出很长的时候他也能够做到非常好的加速

而且这件事情为什么要 trainable 其实可以看到 RL 阶段它是需要去这种迭代的去训练的它需要去输出很多很长的东西然后让模型再去用 RL 去给它做更新在这个阶段的话可以看到 R1 里面有一张图就是随着 RL training stable 的增长然后它整个输出的长度会变得越来越长可以预想的就是假设我的 R1 想要继续不断的往前迅我的长度就一定会继续突破

在这个场景下的话把这个吸收的注意力机制引入到训练阶段尤其是 RAL 的训练但这个事情他没有在 NIC 的论文里面去做了但我觉得它一定是一个未来趋势所以就是可以看到他们两个两篇文章他其实虽然说都是吸收注意力乃至说我们之前做很多文章也是吸收注意力但是到今天这个时间点已经发生了变化

这个长思维链已经成为一个非常重要的问题然后是大家之前相对来说是忽视了一个问题所以长思维链我可以理解成也是长文本中间的一种

而且它是现在可能就是相比于我一个很长的输入很长的输出给它处理好也变得很重要就和推理模型的这个范式的变化是有关的然后我看这一次他们这个论文的 introduction 的部分对也都强调了你刚才说的那个可训练的你也用了那个词是 trainable 就讲到了这个事的重要性这个 trainable 的意思就是说我可以在训练阶段用还是指说这个吸出性是可以学到的吸出性它一定是天然的

但是它有两个好处就是说假设我训练阶段就是吸出的可以认为我训练时的注意力机制的使用模式和我测试的时候或者部署的时候这个时候它们今天是没有 gap 的它们是没有区别的这样的话它一定是效果更好的这是第一个第二个就是 Chainable

这个系数的话它能对训练本身是可以反哺作用的就是能够把训练速度给做上去那这个也是这个一个很关键的一个点我看这个 NSA 和 MOBA 也都强调了他们是动态的系数注意力这个两位可以这样开讲讲吗就是那肯定也之前有一个静态的相对应啊就是他这个区别可能是什么

从大的角度来说一般静态它就意味着效率更高但是效果会稍微差一点动态就意味着效率会稍微差一点但是效果会好一点为什么这样呢这就可能要说到大模型还是回到大模型怎么处理一个文本其实这个文本进来的时候是有两个东西进来了一个是你说的每一个词是什么第二个是这些词的位置是什么比如说你第一个词说了什么第二个词说了什么

那位置这件事情是静态的对吧所以其实如果说这个注意力是跟位置强绑定比如说某一个某一个助理他总是关注一个句子开头几个词或者因为开头几个词很可能是一些重要的一些用户的一些指示或者是一些系统的一些设置那这样的话这个头可能他就是表现出的注意力模式就是一个偏静态

那如果说这个注意力头它更多的是跟你输入具体的这个词的内容相关那它可能更多的是表现出一个动态性因为你无法预知我输入的内容会是什么样那如果是一个静态的注意力机制的话它其实很大程度上是能够保留跟位置相关的那些注意力的但是如果说这个注意力真的和输入的内容非常相关的话那它不可避免的会有一些损失动态的注意力机制它其实是两者都可以保留的

所以说在效果上我们可能一般认为动态的会稍微好一些但是它也带来一个什么问题呢就是我在进入这个就是我在输入拿到我的输入的具体内容之前我是不知道我要看哪里的我是不知道我要关注哪里的这就给 GPU 运行带来一个非常大的控制的开销就得了它效率会比较低所以这两个我觉得是某种意义上是一个权衡吧

其实可以补充一个静态的例子就是那个那个 LSA 里面其实有个就是就是滑动窗口嘛那滑动窗口其实就是一种静态的注意力机制那静态的吸收注意力机制就是说那它为什么是静态就是因为我已经预设好了你到底要跟哪些的这个就是每处理一个词语的时候他要跟哪些词语做相关性计算就是滑动窗口就是说就只给你前面的 K 个就是说 512 个 token 去做注意力机制的计算

但它我就不需要动态的去决定哪些 token 哪些词源是跟我相关的我只需要知道我往前看 512 个就行了但这样的话就是一种静态的但是这种静态其实可以想象的就是刚才我还是举的那个例子我说的我我是肖兆军这个事情它就得动态因为静态的话

还划不到哪就已经划不到哪了已经划不到哪了但是这样的话就很快嘛每次我都不需要知道你当前这个词语是什么我就能够提前的把我前面 512 个词语拿出来准备好最后给你计算对吧这就很快但是呢假设是动态的我就必须知道你这个词语是什么然后还得知道你跟哪个词语相关动态的去决定那整个过程就是会比较的复杂然后再加上刚才提到 GPU 的特性就是这种动态的就是系数的东西

它本来就是一个计算上不是很友好的一个操作所以就是动态的就效果好但是慢静态的就是快但是效果不好我想再补充一点就是 MOBA 其实也有静态的部分就是可以看到它是固定选择了它会固定的选择当前这个次元所在的 block 的腾讯

也其实就是某种意义上就是在选择我临近的一个比如说 512 长度的这么多 token 必须要腾讯其实也是有静态的部分在所以其实更准确说他们都是动态和静态的思路是混合的对刚才也想到了就是说比如说我选择这个动态的注意力机制可能它对 GPU 的计算特性

是要去做一些优化或者适配的然后这一次 NSA 它不管是从标题还是从它 introduction 的部分它也特别强调了说它是一个 hardware aligned 就是我和硬件是有一些联动优化我是这么理解的这样的一个注意力机制这个可以解释一下吗

就是我觉得想要解释这个问题我们可能要先说一下 GPU 到底是怎么在算一个东西的那 GPU 它的一个特性就是 Single Instruction Multiple Data 就是说我给你一条指令你这一个相同的指令在不同的数据上做同样的操作比如说我现在让你第一个数字的第一个位置去乘第二个数字的第一个位置但是这个数字比如它本身是一个矩阵那如果是一个矩阵那 GPU 可能做起来会比较慢

但如果这里有 20 个矩阵大家都在做同样的事情那 GPU 因为它并行度很高它可以 20 个事情一起做那它的效率就会非常高它的速度会很快所以说并行度有多高一定程度上决定了对 GPU 来说有多友好这是计算方面第二个方面是内存访问方面就是说我们知道内存它存在计算机的时候都是连续的一些数字存起来的

那如果你需要访问的数字也是连续的那对于 GPU 来说就非常友好因为它直接顺序访问就可以了这个速度是非常快的但如果说你需要访问的数据是碎片化的因为 GPU 访问的力度是一个它一次性就会取一大块数进来如果你取了一大块数只有一小块是你要的那效率就很低如果你取了一大块数都是你要的那效率就很高所以说连续的内存访问对 GPU 来说是友好的

那知道这两件事情之后我们再来看 NSANSA 它做了一个可以说 GPU 非常友好的错误就是它是 block 的可能又进到了 MOBA 的标题里对 MOBA 的标题里那个 B 就是 block 的意思对它是 block 的也就是说它虽然说是一个吸输的注意力但是它的力度是一块一块要不然就是这一块我都要要不然就是这一块我都不要那你看这样的话就满足了我们刚刚的两个期待一个是说它的内存访问是一块一块进行的

第二个点是说它计算的话是这一块都在做一样的计算所以说对 GPU 的效率也是会比较高这是我看到他们这里对硬件做了主要是做了这些优化就是 block 的这件事情打个广告 24 年 2 月份 infom 其实核心就是提出来一点 attention 的吸收性就得在 block level 去做才能有比较好的硬件的友好性

对这是我那篇文章的一个核心的观点所以 NS 和 MOBA 其实都是在 block 的层面在做系数对 OK 那 DeepSeek 之前给我的解读不对

因为我也之前问我也直接去问了 DeepSeek 就是 NSA 和 MOBA 的一些区别就它的一个输出是说它会说 MOBA 是更在 block 层面的然后 NSA 可能有一些更细的一些这种应该 NSA 也是在 block level 做的但它可能在文章里面没有那么强调它因为它更多的还是即使你做了 block 但它要真的能够做到硬件上比较好的优化还是需要非常多的操作所以它这个更多强调的是它在后面做的那些硬件优化

那个是很关键的它这个硬件优化是靠一些什么样的代码具体来实现了或者说什么样的因为我听下来它还是个软件的工作它还是靠一个软件工作实现的对吧对它就是写软件写算子就是系统层的一些软件就是写算子实现的对

然后算子就是大家平时如果是用英伟达就是用 CUDA 或者用它跟底层的他们用的是叫 Treaton 这个 Treaton 是 OpenAI 开源的面向 CUDA 往上再抽向了一层的一些接口就具体到 NSA 这个里面他们是用 Treaton 学的

我就想补充一个非常有意思的事情就是 Triton 应该做出来是也是 GBT 是二还是三那会儿出来的就坊间有传闻吧就是说这个不靠谱的坊间传闻是说可能 GBT

某一个版本最开始是有尝试想使用系数注意力来训练所以他们也会有一部分人来去尝试去适配这个系统层的适配这就有了一个 Triton 然后你可以看 Triton 不管这个访研传言是不是真的 Triton 其实确实非常适合做快状的系数的计算不管 OpenAI 最后虽然可能没有用这个 Triton 但是确实现在 Triton 已经成为学术界如果你想做一个快状系数计算一个大家都会非常愿意选择的一个工具

所以这是 OpenAI 还 open 的时候给社区带来的一些贡献是吗对但其实真的要再进去技术往下做可能我觉得 DeepSeek 可能就是 Chaitan 这个事情它只是用户就是编写代码的人优化但它要真的再进一步的快它有可能还会深入到 CUDA 去进一步的去做优化

当然其实我其实可能想补充一个点就是我觉得 OpenAI 它有没有做习数注意力我不知道但它一定在长文本上一定做了新的工作因为你可以看到的就是以最近的一些它的发出来的一些工作就是想要 deep research 等等它在长文本上可以想象它能力一定是很强的

对但不过他可能没有去强调也没有去提但我个人认为他我倾向于认为他内部其实是做过一些优化的但是他具体用的什么技术我们其实不太清楚对然后说到 introduction 的最后的一个总结就是因为在这个部分大家都会放一些我具体提升了多少就是关于他们具体的效果上 NSA 和 Moba 你们觉得比较有亮点的是什么

我个人觉得 NSA 比较亮的还是推理就是 de-coding 的加速就是因为这个我还是比较就是认为说现在长 COT 是一个最关键的一个未来那么基于这个未来我们要真的能够在训练阶段也好然后在 RL 阶段也好然后或者是直接在推理阶段也好能够做到它的加速其实是非常关键的那接下来我们就可以就进入到就是它这个具体的新的注意力机制的设计上

就在这部分两位看到的重点是什么呀刚才其实我们也提到了一下就是他们都是一个快状的然后都是静态和动态有一些混合的其实我个人看来其实注意力 Python 就是那个注意力层到底应该怎么去跟过往的 token 去算相关性这件事情在我认为在这个阶段可能已经变得没那么重要了

因为本身它本来就只要是 learnable 的可能在效果上的差异就不会有特别明显所以我还是比较注重效率上的提升就是它真的能在训练阶段加速然后能够在 decoling 阶段有很明显的加速所以其实我个人认为在算法层面他们的创新当然肯定是有创新的但我个人认为可能没有那么的

我个人还是觉得效率已经成为现阶段 Transformer 要去做 IL scaling 就是我要去要不断的去把 IL 运的越来越久运的越来越过越来越多数据它在这个常温本上的效率才是比较重要的问题然后所以说真的呢就是传统我们一直在讲这个推理阶段的这个效率但其实我们会我现在认为是推理阶段的效率已经没有那么的关键

尤其是我们之前测很多去测推理效率但它其实会有一个区别就是我们传统以往的论文去测推理效率都是一条数据一条数据去测对在这个过程和现在的我们要在训练阶段去做加速它可能是一个 batch 就是我一次要处理好多条数据

它的加速本质上是不太一样的所以我个人对我自己的工作的批判就是它的加速落不下去就是我当时只能做到一些推理加速而且我没有在算子层面受到优化所以 NSA 出来之后给我最大的冲击就是因为我当时也想把它塑造训练阶段当然我当时想做到训练阶段没有现在的认知就是长 COD 很重要我就觉得可能是不是一训练还是开枪很大的事情我想

把开销降下来但其实我现在感觉更多的就是要在 RL 这个阶段把长的问题给解决掉才是未来大模型它能够把 RL 持续下去一个比较关键的点所以我还现在关注的就是这个理论加速比它真的能不能落到实地然后他们两个都做的比较好就是理论加速比真的就在圈顶阶段 de-coding 阶段都理论和实际都做的很

很接近那我们之前就是硬回 M 当时可能理论加速比会比较高但是真的实际加速比做的还是不够好那接下来大家要去验证就是这两个论文里提出的理论加速比是否能落到实际就是去搭一下这个架构然后去试去测对吧大家会自己去测你们已经有开始类似的工作吗我看猪扑上有人回答 NSA 已经有人附现了

对我看已经有人手很快已经把那个底层的那个那个算子也已经搭过一遍了其实我也想补充问一下就是你们当时没有把它做到这个训练阶段和你们的资源就是卡的数量这些有关系吗是不是从训练阶段就加入系数注意力的改进它对你的就是投入的要求也会比较多

对肯定是的就是这个事情其实有两方面一方面是资源的投入就是我们学界要去搞预训练本身其实是开交很大这是一方面当然我觉得这只是只是很小的一方面更多的一方面是当然这是我个人的原因就是我一直在搞算法但我可能不懂不懂 infra 不懂底层算子

所以我当时想把它落到训练阶段的时候我当时也想了也跟别人讨论过但我就会觉得西数这个东西天然的不适合 GPU 然后最终这个想法就作罢了但是看到 NSA 之后我会觉得其实还是自己认知的局限就是我不懂硬件不懂底层所以这个想法到那里时候就结束了但是他们就真的能够把它推进下去那你当时没有和王宇老师的实验室来讨论这个是因为在当时就是我 24 年 2 月份

论文出来所以做的时候已经才 23 年当时长文本还没有那么受大家关注当时其实可能少部分就是当时国内就当时就最简单的一个例子就是开源的模型这个长度基本上当时还在 8K 比较长的就是 Metal 到 32K 但你可以看到现在的开源模型 128K 一照就已经完全打不住了所以当时长文本这件事情还没有那么多关注所以也没有那么多同行

可以聊然后当时我也不太认识天悦要不然就可以聊一聊对补充一下就是我觉得从我角度来说其实学术界还有一个问题是学术界没有树如果我们要做一个训练的习书并且我们要向大家证明这个是好用的最需要的一个点就是说我要把它

变得跟稠密的模型一样强但问题是稠密的模型变那么强所用的数据学术界可能没有然后包括训练的一些经验一些小的 trick 学术界可能也不知道那你当然可以说我再重新训一个稍微用一样的训练方法一样的数据训一个笨一点的稠密的和一个笨一点的吸输的但是这两个里面吸输的可能稍微聪明点

这样好像也能说明问题但是其实在工业界的认可度可能相对来说就没有那么高并且验证他所需要投入的验证成本也会非常高所以可能我们当时做我们那篇工作的时候我们最大的出发点就是说我就不要训练我一定不要训练因为其实虽然我们预训练可能说有很多算力问题但是如果我们要做一个微调还是能做得起的但我们就是说我们一定不要微调

我们就希望这个方法是一个即插即用的任何人训练一个稠密的注意力之后都能拿我们这方法直接插上就用还有一个就是说我希望我们这个方法对这个原来的模型的一些偏好不会有什么改动比如说因为你一旦训练你可能会改变模型回答到一个偏好比如说他可能本来很礼貌对吧你训练他突然变得很机灵了这就

我们不希望这样所以说其实在我们做那个工作的时候我们是故意的拿掉了训练的部分对我当时也是就是我们当时最后那篇论文呈现出来在标题上就有一个非常明显的词叫 training free 就不要训对就是我们当时就是还是受限于认知就是我们会当时没有考虑到的一个问题就是在这个训练阶段去引入长文本就是在系数性它的关键点是因为当时还是

还没有长 COT 的到来当时的话会认为说模型本身训场模型本来也就分两个阶段第一个阶段是短的第二个阶段才会用比较少量的数据把它训场这个阶段的话其实它开销好像也没有那么大我们可能我就还是训练在测试阶段把它的能力性能再打上去那是不是一个更关键的问题但现在来看的话

可能还是受限于当时的一个认知只是现在在训练阶段去引入的话从效果上来说会更好另外一个现在也是真的需要那具体到这个 NSA 和 MOBA 他们的这个注意力机制到底是怎么工作的上面这个可以讲一讲吗就比如他们的区别我看 NSA 好像是我简单理解就是他有三个方法对吧然后 MOBA 好像是一个方法我觉得共同的部分有两个大点是有点像的吧

先说第一个大点就是他们都是我先从更高层次的去选一块我需要关注的过去的这个信息或者上下文吧过去的上下文它这个所谓一块就是一个 block level 就我们刚刚提到很多嘛这种选法可能两者有点细微的差别但总之我是一定要先选我要关注哪一块然后再把这一块的内容拿进来去关注这一块内部所有的细节

这是他们第一个可能是共同的一个想法第二个想法就是大家都要关注离我当前这个生成的词最近的这些词这个也是非常自然的因为无论是说一个沉迷的注意力天然就会表现出对于自己临近的词很关注第二个就是说你从语言学的角度来说

对吧对我当前这个词到底要说什么话可能影响最大的就是我刚刚十分钟前或者十分钟以内说的话一个小时之前我干了什么可能没有那么重要了还有一个共同的特点是他输入的每一个 query 的话他选到的 kva 的 block 是不一样的也就是说他是针对你当前在 decode 的哪一个词他会给你选不同的上下文其实或者直观理解呢就是说啊

我先把文本向上门切块切块了之后每个块做一次相关性计算然后把最相关的那些块拿出来之后再去做 C6 的腾讯其实整理思路就是这样对但如果可能具体的怎么选然后会有一些区别对

或者是那个块的表示就是怎么跟这个项文这个块怎么去做相关性计算那就可能要有一个块的表示这个表示可能会有点细微的差距所以其实整体上思路就是思想上我觉得已经算是比较固定包括这些学界然后包括我自己的那个 infM 其实思想都是这样但就是这个还是我刚才提到的那个点思想很一致但是他们

它们能落下去这件事情很关键就是把这个加速笔给落到实处落到真实的系统里面这个很关键因为我看 NLC 它是有三个筛选的机制然后 MOBA 是一个筛选的机制就是可以说一个会更简单会更好吗还是没有推到 NLC 应该也是两个吧就是它看它画了三个图了但它画了那三个图其实就是两个一个是刚才提到的滑动窗口还有一个就是选块选远距离的块

就是哪个块跟它相关其实就是这两个 MOBA 的话也是这两个吧我理解对我记得是其实应该差不太多只不过他们可能画图的呈现上是有点区别的对那接下来我们可以讨论一下就是这个实验的部分就是因为你做这种改进肯定都是要实验的嘛然后这次正好也可以从 SA 和 MOBA 他们选择去测什么 benchmark 我们可以来讲讲就是说我们怎么来评判这些注意力的改进他到底做的好不好

你们比较就是关注他们做的这些评测里的哪些评测的效果我个人最关注的是 NSA 在长推理的那个数学题上的一个效果我最关注的一个小表其实反而是当然这个 pre-filling 然后大海捞针等等这些常用测试机的话其实可预见的应该都不会差现在我个人更关注的是他们的训练曲线的

下降情况就是 NSA 的这个 figure 4 然后 MOBA 应该是 figure 3 我个人感觉是这样就是说推理时候的能力就像刚刚潮军说的就是总是能上去的或者说如果上不去的话我把吸收度再降一降

让他更偏向稠密的话总是能够跟稠密逐渐靠近的嘛他实际上本质上是一个权衡的过程或者说我们如果要考虑他的性能和效率的权衡我们其实会关注他叫一个帕里托他是不是在一个帕里托前沿上也就是说跟我一样快的模型我是不是最聪明的那跟我一样聪明的模型我是不是最快的那那

至于你如果我只看聪明这个维度你总是可以往左靠一点或者你总是可以在效率维度上往左靠或者往右靠所以说这个我们倒没有那么在意但是我觉得 training curve 这个事情是会告诉大家就是吸收注意力训练这件事情到底靠不靠谱到底我投入足够多的资源之后能不能变得和沉迷注意力一样聪明这件事情是我们之前不知道的然后这两天工作确实都给了一些

比较积极的答案吧就是大概率是能够这种趋向一致甚至是说系数会更好所以我总结一下就是其实你们两个都更关注的是他对效率上的一些测试而不是他那些性能上的一些测试对吧因为性能上其实大家学界可能都能想到就是他是可以到一个就是你刚刚说的性能我可以让他更聪明一点了

应该这么说性能的话其实跟 full attention 的话它可能拉不开差距就能跟它 comparable 就已经就是达到目标了所以其实就是在基本上就是说我在不损失性能的前提下我能做的有多快你们自己在做实验的时候就是你们接下来你们可能会比较重点的去关注什么呀因为我感觉这个核心还是看你改进了些啥

对其实就是假设你就比如说你的 attention 的改进是改进仿存其实你可能就要跟 MLA 来比对吧然后就是会在一些比较通用的生成也好这个 pre-filling 阶段也好都要去比你假设还是做系数 attention 你不自然的现在来说肯定就要跟 NSA 去比

但是你说 benchmark 的话个人还是坚持着那个观点长 COT 生成对在这个点上的效果和速度对我想问一下就是长 COT 生成有什么比较好的 benchmark 现在其实假设你只是就是不关注长 COT 本身质量

你就只关注它能不能给模型带来增益的话其实就还是之前 Razer 那些本质码就可以了只关心质量不关心是否给模型带来增益这个是指什么就只关心质量我大概能理解就是它最后的能力其实最简单的例子就是 I0 对吧它不是论文里面也提到吗 I0 它的自卫链是不可读的甚至会有很多 mix language 然后我们的吸收注意力有可能会改变它的 pattern 比如说可能让它变得更不可读

当然这有可能就不一定在这个过程当中就是看你关注些什么假设你还是希望长思维链是可读的然后有可能这个事情就是可能你的 benchmark 就得改一改假设你只是认为长思维链只是一个过程可能我们就还是测最终你给人的输出它的效果是怎么样的就可以了

当长思维链不可图的时候你怎么看一个长思维链的好和坏就是我意思就是希若特线它会不会影响可图性就是当然现在这个是一个未知数了就看你关不关注假设你关注的话你可能就得测测它的这个对可图性的影响但是你要不关注的话其实就无所谓所以现在还没有一个这样的 benchmark 就可能如果你要测的话就你得自己去

你说可读性的也是对对对需要自己构造一个这样的 benchmark 对就可读性现在应该叫没有这个指标就可能一个 benchmark 它是由数据和评测指标两部分构成可能现在有这个数据但是没这个指标对对那我就是 Falloff 这个问题就是关于看什么样的 benchmark 的点

就是我感觉就是特别是在长文本领域吧大家做的不同阶段其实关注的东西是不太一样我们自己就是我自己喜欢就是说模型的能力我们就说一个是说能不能说人话第二个是说能不能说真话说人话的意思就是你模型别给我说一些比如说不同语言给我交加在一起了或者说你甚至输出一些奇怪的字符都不是一个完整的句子这叫说人话

这个事情是 StreamyLM 那批工作是最早期的大模型的系数注意力工作尝试解决的问题就是说当我的输入长度超出了模型训练时候看过的长度的时候我怎么能保证模型还能够顺畅的说人话那对于这种问题我们就会比较常看的指标就是 Perplexity 或者就是所谓的 Training Loss 一般也是 Perplexity 就是说看模型说的这个话呢跟人类写的这些东西它的这个 match 程度是怎么样的

那这里其实有一个潜在的问题就是说你如果不匹配不代表你说的不对对吧有可能模型比人说的还好呢但是你这样的话如果一旦不匹配你的分数其实是下降的那所以针对这个问题或者说进入第二阶段的需求就是说要模型说真话比如说你问一个你给了一个很长的上下文爸爸的爸爸是爷爷对吧然后你现在爸爸的你告诉你 A 的爸爸是 BB 的爸爸是 CC 的爸爸是 D 现在你问 A 的

这个是曾祖父了是吧是谁大概这个意思吧看这个模型能不能打对这就是说真话那对于这种评测的话我们指标就换一换了对吧就会变成说不管你以什么形式把他的名字说出来了你大写你说了名还是说了姓说了大写还是小写我不管你只要能把这个人找对就行了

所以这方面的话就是比如说是一个准确率的指标看你能不能说真话这对应的发展阶段就是在上一个阶段肯定是首先你要能说人话你才能说真话嘛所以在上一个阶段之后现在比如说我们可能 MOA 那篇文章关注或者说现在大家都更关注的就是模型实际的能力怎么样然后再下一阶段可能就是朝俊刚刚说的这个思维链能力就是说不是你说的所有话都有用对吧

你想的那个部分我随便你怎么想你只要能给我想对就行了我看的是你最终想完之后你说出来这个结果对不对

那这个可能又是下一个阶段大家会关注的我有一个小的问题就是比如说在这个 NSA 和 MOBA 里面 MOBA 是做了那个消融实验我放了些消融实验的结果然后 NSA 可能没有做这个就做消融实验一般是为了什么呀是为了一个一个去试中间某一个部分哪最有效什么对对对就是消融实验就是你看的会有很多个机制然后一个一个把它去掉之后效果会怎么样那注意力机制一般需要做这个吗就常规来说去验证的时候

就看实验思路一般来说就是看假设你的机制很复杂对吧那可能就得一个一个扒了试一试再假设你的机制很简单那其实就无就没有必要了就是可能你把他那个机制一拿掉他就是变成复合腾神了就是而且其实可以这个认为其实你看 NSA 它的核心其实就是一个是底层算子加速嘛或者还有一个是这种吸收的腾神那就是吸收的腾神其实只要比效果

就是科克福尔特电去比效果然后这个底层算子加速的话可能就是比速度那其实他就是会分成两张来分两张来写就不会以效用实验的这种形式去做呈现我看那个 NIC 里面还写了很多他们核心设计的一些东西就是

这个算是写的比较详细了吗就可以让社区大家可以对对其实写的我觉得还是挺详细的就整个算法流程然后就是设计思路还是写的比较多的所以你说手快的人已经浮现出来了对我看租屋上有人浮现出来了就大家还是挺

这个挺活跃的你的意思是之后上复现出来的不一定是真的复现了是这个意思吗也不是就是复现肯定就是到底效果怎么样还得验嘛所以就是现在不管是任何一个人包括 DeepSeek 其实 Funtral NSA 那它能不能就是这个在我们实际使用的过程当中落下来我们也都得做实际的验证

不可盲信最后我们可以总结一下注意力机制的一些更多尝试再往下的话你们觉得注意力机制有哪些比较值得关注的探索方向其实刚才也讲到了一些比如说长思维链相关的一些注意力机制的优化其实我觉得可能还有一个点是吸收注意力机制的话它的存储复杂度其实是没有改变的它还是需要把所有东西都存下来这件事情的话

其实可以再进一步的去做思考就是说我们人脑它的存储效率其实可能还是比较高效的就是说我也不需要把过往两个小时每一字一句都存下来那就是这种存储效率是不是也

再改进一下当然这个改进到极致可能就是 RN 了就是 OE 就是固定大小的存储但这种固定大小的存储是不是又可行呢那就相当于是现在就处于两头系数注意力的存储就是属于全存然后 RN 就只有只存固定大小的然后 RN 就可能会有能力上的问题这个系数的特性就迟早会有一天可能会面临存储上的问题对吧那在这样两个极端上的话有没有可能有一个缓和

迟早有一天面临存储的问题就是因为文本还会上下文还会继续变长对对对或者可以实用的一个问题就是假设现在这个模型它可能长 CT 它只需要解决解决一个数学题对吧就已经是达到大家的预期但是大模型未来这种思维方式那肯定是这个要运用到实际那假设这个这个这个按照这个 open AI 的规划下一步就是要做创新那就作为一个科学家

或者进一步的就是假设他就是这个大梦醒未来就要成为一个博士生就是做科研那我们做科研的过程当中就是从做选题到做实验到最后这个写 paper 整个过程会历时好几个月甚至是上年过年一两年的时间那这一两年的时间那这个存储都存下来那肯定有问题嘛对吧

所以其实现阶段来说可能一万两万的能存肯定也能存但是未来这个过程肯定是需要被解决了这个也可以请天鱼补充一下就是存储这件事情它可以从硬件上去做一些什么优化吗这个其实是非常难的就是我们看就是计算和存储发展的速度来说计算这件事情发展的速度其实非常快尤其是 NVIDIA 把它推得非常快每年可能这个算力可能会有一个比如说翻倍甚至是

它这个速度其实基本上能够满足大模型的需要但是存储就是显存这件事情其实发展是非常非常慢的可以看到从可能 NVIDIA 几年前的芯片到它迭代了这么长时间可能算力可能已经成了十倍了存储可能不知道还有没有成两倍呢所以说存储这件事情在硬件上本质上是会有一点发展上是比较慢的它这个是显存和计算的本身的物理结构就是它承载的半导体的那个物理结构的差异导致

对因为快速的存储是非常占芯片的面积的就现在的芯片可能很多很大的面积都是用来做快速存储了你如果要进一步增大的话你就需要芯片面积再增大但是芯片面积再增大就意味着它的良率是会衰减的非常快它的成本就会变得非常高这样的话大家可能是觉得不太能接受的

而且刚才曹军说的这个就是显存的限制就它也并不涉及这个存储和计算之间的通信和搬数据它不是这个限制是吧就跟这没关系就是这当然肯定也是就是会影响速度嘛但是我刚才讨论是上限的问题就是本身它存多少东西的那个限制对对对但当然可能存储算是比较便宜就是可能我不一定用显存我可以再利用上计算机内存或者是进一步的直接用上硬盘但是可能是可行的但是可能这个又会有速度上的问题

所以就是这个问题未来怎么解决可能是值得思考的因为或者是说就是直接直观一点就是人也不需要那么多的存储就是我们脑子里面可能对一件事情可能不会超过 100G 的存储或者是不会超过 40G 的存储有没有可能再进一步的像人这个机制再靠近一点就是我什么时候东西该存什么东西不该存然后它是有一个动态的决策的

这个其实可能是下一步的一个点就是吸附注意力还是只是解决了计算上的问题我计算可以吸附的但是我的存储没改但这个我觉得可能未来是一个比较重要的点因为我觉得 AGI 的实现未来一定要做科研一定要去探索知识的边界以这个问题为例的话我们现在做一篇研究就是得好几个月上一年的时间现在的模型显然做不了这件事情它怎么能做

对我觉得这个也得改对就关于这个点我也可以再补充一下就是说我觉得这个提的非常好就是说未来一定是一定会有大量的这个文本来进来但是它是不是一定在注意力机制这个层面做改动我觉得倒是不一定的举个最简单的例子就是假设我们还以这个做科研为例吧可能我会读 100 篇 paper 那 100 篇 paper 加起来上下文已经超级长了那现在的注意力机制可能解决不了但是我可以怎么样我读一篇 paper 我给你写一个 20 个字的总结

读一篇评论我写个 24 篇总结那 100 篇也没多长 2000 个字而已我去看这些总结对吧我再决定我到底要去读哪个 paper 的工作这种就属于是在注意力机制上更上一层可能是在就是通用算法层或者说生存范式上的改动这些其实和注意力机制都在解决长文本的问题只不过你放在哪个阶段去做我们现在说的这个长文本它是

目前这段看法还是语言为主啊他未来是不是也会就变成个多模态的那我感觉必然吧必然趋势 4 欧那他就是一个实时的流逝模型那这种流逝假设啊假设他的记忆非常的有限他就只能记 10 秒钟的内容那这个流逝可能就没什么用了那可能他就不需要这种流逝的输入但他假设能记一天一年的内容那他可能就能成为我们一个很好的一个助手

对其实记忆本身就他们的记忆存储这个提升其实可能会带来一些比较质的改变我个人感觉其实我们自己现在就正在手头上正在探索一些关于多模态注意力的这个特点我刚才想问就是说如果多模态的话注意力可能需要怎么去优化我感觉主要是两个点吧第一个点就是你模态变多的时候其实它对上下纹的长度是一个非常大的增长

比如说我们之前看过一个数据比如说如果说纯文本的话你说那个序列长度是吧对序列长度这个其实大家可以估一下就是一个就是一张图片它大概可能就得 100 多个 token 就看你那个分辨率假如你分辨率越高这个 token 数量就会越多那你一秒钟假设就是以极端的场景一秒钟 24 帧的话

那你一秒钟要一针 100 个 token 那你就是得一秒就是 2400 那你 10 秒钟就是 24000 对吧那你至少得要一分钟一小时吧那这个量就一下上去了当然现在的做法是更多的是抽针就是一秒钟就一针或者 10 秒钟就一针那这个过程就是你抽针抽出来效果就很差嘛对吧就是我 10 秒钟只能看到

一个图片的内容那就没有这种视频的这种连续的流失信息了我们就对标人类嘛比如说人类的话他一个小时大概能读 18K 这么多文本但是人类一个小时的音频我听一个小时音频如果转化成模型的输入的话就有 90K 了如果我看一个小时的视频即使我是一帧每秒的看的话转化成模型的输入就有 100 万了

所以说你看这个模态本身的信息比较丰富的时候同样对标人类一个小时所需要的量对吧模型需要处理的量是越来越大的所以说动模态本身其实是带来一个长度的进一步增长而且我再举个更形象的例子比如说一个小时的视频在我们看来就是半部电影其实不算很长对吧但它对应的这个 token 量就是 100 万 100 万的文本是什么概念哈利波特

全集加起来就一二三四五六七十加起来好像也差不多也就 100 所以说你可以看差别是非常非常大的第二个点就是除了输入更长不同的模态它带来其实是注意力的那个吸收模式可能会有点变化

比如说对文本来说最常见的吸出模式就是说所有的文本都是看上一个词或者说看临近的几个词但是比如说对一个图片来说对一个视频来说吧它会比如说我可能会需要关注不同帧的相同位置

对吧我要看比如说某个球随时间是怎么动的那我是不是要看不同针的一个差不多相同的位置那这种注意力的模式就不是总是看相邻的模式而是它是会跳比如说每隔 220 个 token 会看一下每隔 220 个 token 看一下那这种不同的模式其实对你注意力的设计也是有不同的影响的那它可能对计算的特性需求也不一样对吧

这个现在学术界或者工业界有些什么新的成果吗有吧一些什么应该比较早就有人研究了什么 KBV compressionKBV eviction 就是和多摩泰的注意力相关的对就是比如说图片就是可能会有一些特性吧

比如说图片相邻间基本上内容差不多就一些微小的改变那就可能有一些就是他可能一些 token 的合并甚至一些 token 可以丢掉对我们最近刚开源了一个对刚开源了一个叫 framefusion 他虽然不是处理注意力但他也是希望处理长 contact 下的视频理解的问题然后他那个里面就是分析了一些

就是从因为现在注意力丢掉我们更多的是从重要性的角度来丢就是说我觉得不重要的地方我可以丢掉对吧但视频里他不是这样视频里是说有些东西虽然很重要但他每一整理都出现你不需要看这么多次对所以说我们这个工作更多从种植性出发我们去把一些我们只会留下重要且独特的部分重复的部分和不重要的部分都丢掉就是所以最近做了一个这方面的工作

除了刚才我们提到的就是这个长思维链带来的注意力机制的改进还有多模态之外你们觉得还有什么方向注意力优化的方向或者趋势刚才说到存储压缩对刚才也说了存储压缩还有的话其实可能还就是你要说很多小的点其实应该还是会有比较多就比如说这种西服可以可能这个在硬件层面可能还能再继续优化

对吧或者是说刚才提到的这个这个更多的利用计算机的内存就是做一些这种 offloading 就是卸载就是这个线存和内存的这么一个交换对吧就是然后以及可以进一步的就是这种系数的 tension 那未来会不会跟更多的推理加速的算法比如说图级采样的这些结合在一起但我觉得可能都是一些小的工程点了

其实可能还是思考方式我觉得可能还是面向 AGI 的未来我们有什么本质的问题需要再去改变我觉得可能但这个问题可能就不会很多了就 AGI 的大问题已经不会很多了就是在光说注意力这个问题上的话

他可能就更多的还是刚才提到存储上的问题我个人感觉就是单纯做思想上的实验上来说的话就让他去做科研的话他已经有很强的这种思考能力了他有很强的逻辑推理能力当然他这个还会有更多的一些新的能力要做了就单纯从注意力机制上来说感觉好像其实就是这种存储其实或者说叫记忆它其实比较关键

但这个东西具体该怎么做可能就是一个比较大的问题了你觉得离我们就我们现在已经看到比如像 NSA MOBA 这些 Seer Attention 到我们理想中的注意力其实还有多大差距我觉得我们理想总是非常理想的其实我感觉就是吸收注意力这整个大方向来说其实对注意力的改动相对来说还是比较可以说没有那么激进的就是相比于线性注意力那一分支来说它的改动其实比较小的

然后跟现有的很多方法其实也都是直接能搭得上的那其实但是可能现行注意力的话大家就是可能描绘了一个更美好的蓝图就是说从 scanning 就是从输入 scanning law 的角度来说吸收注意力它其实是减掉了一个它除了一个常数的比例

但是总有一天它越来越长的时候它还是会爆掉但是现行注意力它描绘的蓝图是说我的增长速度是比你慢的可能比如说我在 500 多个 token 比较少的时候对吧我比你慢一点但是当你无限的增长的时候你的速度一定会超过我或者我的增长速度也会比你慢这个是现行注意力给我描绘的蓝图

所以说可能理想还是线性注意力那种甚至是能不能比线性更少对吧但是现在看来可能大家用的比较多的还是尝试比较多的还是吸收住就可能现在很多学术界的探索还是证明就是说纯线性的还是效果上不太行就是你需要还是需要混合一些或者我觉得这个问题注意力机制的更多尝试我觉得还是可能再往上一层就是长文本或者是长序列记忆这方面的更多的尝试

注意力本身需不需要改我觉得可能还是围绕着记忆本身对就是还是得从能力出发去思考这些问题就可能本身这个机制本身可能没啥太多要改的了记忆和长文本它的区别是什么样因为它相关性好像是比较明显的对吧这记忆我觉得认为可能还是一种新的就是从架构层面的一个新的改进和尝试就是说长文本是输入就是我要去处理很长的时间

很长的序列然后注意力机制是这个东西输进来之后我怎么做处理那么记忆可能更多的就是说比如很长的序列输入进来然后我这个模型需要不断的去处理接受新的输入那么接受新的输入我就要选择哪些东西要记住哪些东西不要记住然后把要记住的东西和我当前的输入一起输给注意力机制也好输给传输处理也好

他就做处理所以感觉上可能确实就是注意力一些更多就是记忆和输入来了我怎么去处理然后记忆本身更关注哪些东西要记哪些东西不记然后长序列就是输入整个的输入我理解应该是这样一个关系可能

对,我感觉我们,就是汪宇老师特别喜欢说的一个例子就是 y=fx,就是说神经网络就是一个 y=fxx 就是输入,y 就是输出,f 就是这个网络现在的趋势就是 x 越编越长,这是多么太可能会带来的还有一个趋势是 y 越编越长,这是四维链会带来的,f 要干嘛

F 就是说 X 变长 Y 变长的时候一个我怎么算的快第二个我怎么在这么长的情况下我也能正确的输入这个 X 正确的输出你要的 Y 所以这就是大家努力的总体目标至于这个 F 怎么实现这两点就是注意力改进肯定是其中的方法之一但是也有其他的方法能够达到方的目的他这个解释挺好的还比较简单就是中学数学也能听懂

那你们觉得当这个记忆能力也可能也算上跟它相关的这个常文本推理这些它解决的比较好之后又会解锁一些什么新的研发方向或者应用方向其实我觉得记忆本身是架构式层面的概念

架构层面还是要服务于实际的能力的需求就跟我们现在为什么在这里讨论系数 attention 可能还是因为长 COT 未来一定会越来越长所以长分母件是你一定得解决然后所以我们会去讨论架构层面的这种效率上的问题记忆也是一样的就假设给我一个无限长的就是无限大显存然后仿存也没有任何时间然后无限大算力的一个 GPU 那我就不考虑记忆了我就全存这位

对吧所以其实效率我觉得这个架构层面的问题一定是解决效率问题但效率上的问题一定是服务于功能上的问题那就是说未来它这个功能就是比如说我们真的想要去将这个模型去做科研那这个记忆问题肯定要被解决掉

其实让他去做科研现在长 COT 是不是就已经够了显然也不够所以其实这就可能是两个层面的就是架构层面解决效率然后在未来学习机制层面我们要去解决他各种各样的这种认知上的能力的改变因为我博士开题的题目其实就是跟长序列相关所以当时我们其实也整理了一些就是说长序列真的能支持之后可能带来什么好的点

我们当时整理的就是说模态知识情感和能力模态就是我们刚才其实聊了很多了是我能够去处理各种各样丰富的需要更长的输入的模态情感就是我们希望模型能够像人一样你能有一生的记忆这样的话我跟你聊天的时候你始终知道我们很久很久以前发生了什么事情

知识就是说它可能可以类似于代替像搜索引擎的角色就是你有整个互联网的记忆那我无论问你什么问题对吧你都能给我准确的最新的最相关的个性化的回答然后能力就是刚刚朝军说的就是说长 COT 的能力我能够去深入的去思考然后给你一个可能更加合理的答案

我觉得这四个方面都是需要依托长文本能力长序列能力吧就是长序列应该是这些东西的组成部分之一但是为了实现它还需要模型能力上还是要有一些精进对所以就单纯依赖长文本的事情可能想象空间没有那么的大

那就接下来就可能就让他一直思考就思考很长很深那就可能数学体能解的越来越难对吧但可能真实的应用场景里面还是需要他有一些新能力的提升所以总结来说就是为什么大家现在都在看起来都在卷 attention 大家的注意力都交汇到注意力上对是因为就是有几个事儿叠加对吧就一个是我们需要越来越多的

处理长文本的能力包括多模态其实你转化到序列里它也是一个很长的东西然后另一方面就是因为推理模型的这个范式出现之后要去处理更长的思维链这个也需要一个更好的效率更高的一个注意力机制第三个可能就是再往后的一些一些新的东西的架构的变化或者能力的变化也都是要以这个为一个比较重要的模块去改进我觉得这个能力应该是属于已经是属于 AGI 终极能力了我觉得

其实可能想象一个问题是说科研能力本身其实是一个非常综合的 AGI 我们现在就只讨论智能能力就是智能本身可能比如说像情商比如说你坐在我的对面我能感受到你的情绪我觉得可能不包含在智力的范畴这可能是一种情商的范畴单纯讨论智力这件事情来说做科研和新知识的发现它一定是智力的最终追求我理解我不知道大家同不同意这个观念反正这是我的理解

当然可能就是说 AGI 在最终形态上是需要做到这件事情的因为有了科研能力或者说是有了这种就是探索新知识的能力他能做些什么的比如说他能做到一件事情就是 AI 它能够去拓展人类知识的边界然后 AI 它能够充分的去现在 AI 拥有的知识还是人类的知识

人类已经总结好的语言制都放在一圈一条里面他学到了但是他未来他要突破新的反式因为他要去探索新的人类的探索新的

这个宇宙的奥秘对吧那他就得要有这种科研的能力那在科研能力他掌握科研能力之后他就代表着他会有很多这种认知能力比如说像这个思考能力对吧那就是这个节节数学题节节这个高中题那这个肯定就很简单了那就是这个或者是说我的记忆能力对吧在科研里面一定要体现那么进一步的比如说我的这种高校的学习能力对吧那他也是要有体现的

所以我认为就是科研本身可能可以认为是 AGI 发展到比较高端水平的时候它了一个集中的体现反正在 OpenAI 的这个 roadmap 里它是第四个阶段它是在 Agent 之后的一个阶段是创新者然后再后面一个阶段是 Organization 对但我其实觉得 Organization 和创新本身并不一定 Organization 是要在创新之后的对吧其实 Organization 有可能在之前因为就是说

创新这件事情或者可以认为说 organization 它是不是一个非常高智能水平才能做的事情那比如说蚂蚁之间也能够有 organization 对吧他们之间也能写作那这个能力其实可能并不需要依托一个非常高的智能所以这个观点我倒不一定认同 openAI 就是说 organization 是 AGI 最后一步所以我觉得创新这件事情就是颠覆范式是范式颠覆性的支持探索能力其实可能反而我觉得就是一定是最高智能

就是从我们人类来看最高智能的生物才具备的对我觉得可能是两个有点像是两个发展方向一个是单体智能越来越强一个是从单体智能向多体的合作来发展所以谁先发展其实不一定然后而且我也非常赞同刚刚朝君说的这个科研能力我觉得它其实意味着一个 AI 可以自我改进的一个情况

但现在这种情况我们是没有看到的就是说举个例子就是大家会说我能不能让 AI 让大模型自己生成一些文本然后再自己训练自己它是不是越训练就越聪明越训练就越聪明现在发现不行这样训练完的大模型直接就会崩溃掉

但如果你真的能做科研的话其实是有希望能够实现说他能够自己迭代自己升级那这样的话其实就是有可能会出现超越人类智能的自己迭代就是他自己想到一些新的比如说一些计算机制然后他自己写代码去实现这现在有看到现在没有现在没看到但我觉得是 AGI 未来吧就应该是说

就比如说 AGI 其实最简单的就是那比如说这个我们的工作全都被他取代掉了之后那他这个总会发现自己的缺陷嘛那他就得改自己啊那为什么会有这个动机了这个动机那这个就是 AGI 的这个未来这个你得想一个问题那这个 AGI 到底他的真实动机会是什么他这个就是深植于 AI 他的脑子里面的动机会是什么其实现在大家

不清楚我觉得他现在肯定没有动机他现在是没有动机的动机是人给他的一些指令对吧对那他什么情况下他才会有就一个系统才会有动机人可以给他这样的动机现在的 AI 就是从 RE 那个范式之前的 AI 他的动机就是学人说话

他叫 next token prediction 下一个次预测他最大的动机就是学人说话那其实是一个人给他的优化目标对一个学习目标但是 RE 给了一个新的目标就说你把我这个题做对我不管你想法是不是跟人一样你做题步骤是不是跟人一样你反正把我这个题做对那这不是 OE 给的吗对对对 OE 都是一个对对对就是 OE 先给的对对然后那你觉得 RE0 给了什么新的目标这就是 RE0 的目标

就是 i0 和 O1 应该可以认为是等价的产品 R1 和 O1 对在这方面是类似的只不过可能 R1 就是那个 Zero 它对学生说话这个点要求更低了就是 R1 它是先给了一些人怎么思考的

例子来让他训练而 E0 是完全没有给这样的例子直接就让你你随便想吧所以说他想的过程跟人差了就更远但是结果上都能给你刚说之后会可能会是什么之后的话就是看人类想怎么样了比如说人类就是想说你要能自我迭代那我当然也可以设计一个损失告诉模型你的目标就是自我迭代你现在越聪明越好那这个想起来也有点复杂因为什么叫聪明好像还是这人得给他定义一下当然了

其实很难讲因为人怎么定义自己的智能呢我觉得它是有共识然后每个人可能想的又不太一样其实智能本身的定义到现在的时候对也是有分歧的包括人就是别说智能就是人工智能的定义到现在都很有分歧就比如说这只话筒它能够帮我把声音录进去那它能帮我完成这个 task 那它是不是有智能那好像在一般人的理解里就不是智能

对啊但是你再往前走智能手机你看我们强调智能手机它能实现什么智能的功能呢在最开始的 iPhoneiPhone 那个里面它不就是能帮我去这个做出很多 app 上面有很多 app 嘛对吧然后它这个相比于之前的手机它的智能点在哪呢那我觉得是翻译的问题是不是因为手机不是 smart 智能手机是 smartphone 对

但是 smart 和 intelligence 这个在英文里它可能不是一个意思中文是这样翻译的那或者再举个例子人脸识别大家肯定认为它是人工智能的应用那为什么它是智能它也只能帮我识别人脸跟这个话筒一样只能帮我完成一个任务为什么话筒不是智能人脸识别是智能

对吧其实人类到现在为止对智能的定义本身都不够不够完善所以其实在这件事情上我倾向于认为就是说当我们给 AGI 创造足够多的能力的时候未来 AGI 的目标不是我们人来定的是他自己定的你想象不出来这是一个怎么样的未来而且他定的这个目标是人想要的目标吗不一定啊对包括他对人是有好处有坏处或者说好处跟大家还是坏处跟大家这都好像都很难想象啊

对这样来想想所以我个人认为其实我挺像去认为未来可能 AGI 还是一种自组绝对形式这可能会变成跟人一样就是说我们可能 AGI 的初步是取代了一拨人的工作但是未来随着可能比如说技能点非常高的那拨人的离岗

AGI 可能会成为新的这一波他成为在这个工作上最专业的那波人之后可能就是 AGI 带 AGI 了就是一堆 AGI 带一堆工作可能我们现在能想到的初步可能是说有一些基本上的就初步的这种能力会被 AGI 取代但是一些比较可能人还是有经验还是可能会比 AGI 那种更多的经验所以还是会有一个人机协同

但这个过程肯定会被逐渐的取代掉然后未来就是一堆的机器人在一起工作在一起工作之后可能跟人一样人就会有分工完之后老板会跟大家喝大饼老板会给大家定目标未来可能也是这么一个过程 AGI 自行的定义目标

但他这个目标会是什么样的会不会是说这个服务于人类社会对吧那就是这个事情其实是一个未知的问题对我觉得这个讨论反正非常有意思我自己是觉得就是很多时候效果上很惊艳的东西它在技术上未必是复杂的或者有些东西在效果上有了一个飞跃它在技术上我觉得未必是真的有什么就可能在技术上看来是很自然的事情就比如说有的假设这个 OE 模型对吧它某一它这个思考过程突然开始胡言乱语

RE0 在思考过程突然开始胡言乱语这个从效果上来看大家觉得怎么这样但其实从技术上来看我们觉得非常合理对吧只要你能因为你的目标就是让你把最后的答案搞出来无论你是说人话也好还是说什么奇怪的语言也好说中文也好说英文也好这都无所谓这在技术上看来很自然这再延展下去就是说

就是我们人类总是觉得自己的智能好像高人一等对吧就是我们这个大脑这个秘密真是难以难以琢磨但可能其实你说你这个智能又比别的智能是本质上在机理上是不是就是比他机理要高级呢这个我们可能也诸不明白对吧或者说什么样的机理是最合适最好的这个可能有的时候我们可能也不能这么

这么怎么说自傲就是觉得好像越像人类就是越好可能也不是这样其实一开始我们在聊系数注意力的时候你们就提到应该是天宇提到的就是说在这个神经科学或者对人脑的一些研究上也研究出这个神经突出它不是都是相互连接神经元之间也是有系数性的

所以我觉得好像现在下意识大家还是会把这个 AI 的系统去类比就是你生物人的生物上的一些特点但是但有可能他可能最后那个智能形态也许也和大脑很不一样我觉得人就是提供了一个可行解而且他一定是一个较优的解但是我们不能保证他是最优解

所以说在当大家都不相信这个东西能行的时候你提供一个可行解或者说教育解是能够让大家觉得这个事情是能做成但是当大家质疑的是这件事情怎么样做到最好的时候你只提供一个可行解是不够的不过人脑的效率挺高对对就肯定很多地方它其实是比现在 AIU 嘛对人脑效率高肯定是高的因为其实你从人类进化的角度上来说它的能源就是有限的嘛

我每天只能吃那么多而且我的食物获取效率也比较低当然现在可能就是说我想吃任何东西好买再往前走的话其实这个获取食物生存下就是大家人的本能所以就是说控制人的能耗本身是一个可能认为应该是认为是生物发展一个最关键的一个限制但是对于 AI 来说可能不一定

我们现在能够假如他的智能水平能足够高我们就能够给他提供足够的算力那真的吗地球的能源不也是有限的吗你这是要可控核聚变了吗那就可以未来叫 AGI 研究就让 AGI 研究可控核聚变然后再去用这个可控核聚变的能源再来发挥哦

好像对吧也可以合理其实说白了还是刚才回答那个问题我还是为什么会认为科研它本身是一个最重要的问题就是说现在所有的 AI 它的所有的知识所有的监督信号还是来源于人但它在未来的话它假设能够实现科研代表它能够自己去找到知识突破的边界代表着它其实是有了自己自我监督的一个能力我个人是这么一个理解所以我认为那个一定是就是

比较高级的一种形态所以我倾向于认为说假设我们在做科研的过程当中我们的发挥我们认知能力需要些什么我认为这种能力可能在未来 EGX 身上也是非常必要的今天非常感谢两位做客晚点聊我们从注意力居之

后面聊到了 AGI 当然这也是一个很自然的延伸最后总结一下注意力机制是 Transformer 架构里的一个核心的机制但是它的工作原理就导致了最初的 Full Attention 它一直有显存和计算复杂度的问题

那当我们要处理的序列或者说文本变得非常常识存储和计算就会跟不上学界后来做的很多注意力机制的改进都是为了在保证效果的同时去提升注意力机制的存储和计算的效率那我自己很有印象的一个点是不同于以往大家主要是在模型的推理阶段引入了系数注意力的机制这次两位也都提到 NSA 和 MOBA 的一个亮点他们是在模型的训练阶段就引入了系数注意力那现在的强化学习就是 RL 的方法

是需要在训练时生成和处理很长的思维链的在这个背景下把吸收注意力放到训练阶段也是更加有必要的以及未来我们要做更多的多模态理解也需要注意力机制的改进因为多模态本身也会带来超长的序列我们今天主要讲了两种改进注意力机制思路中的吸收注意力机制

拜拜

本期节目就到这里欢迎收听如果你对今天聊的话题有观察好奇或疑问欢迎在评论区分享想法这也会成为我们节目的一部分让整个讨论更完整你也可以把我们的节目分享给对这个话题感兴趣的朋友欢迎推荐更多你想听的主题和嘉宾你可以从小宇宙苹果 podcast 等渠道关注晚点聊 Late Talk 也欢迎关注我们的公众号晚点 Late Post 下期再见

103: 用Attention串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进 01:28:15 Share

晚点聊 LateTalk

Deep Dive

Shownotes Transcript

103: 用Attention串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进