听众朋友们大家好欢迎收听最新一期的太快报我是主持人小爱大家好我是小 T 很高兴又回来大家太快报见面了最近 AI 领域可谓是精彩分成各种新研究新技术层出不穷为了让大家快速了解 AI 前沿动态
我们太快报栏目又来啦今天我们要带给大家哪些新鲜资讯呢今天我们精选了五篇非常有趣且有代表性的 AI 论文涵盖了计算语言学和机器学习两大方向主题包括模型加速持续学习可解释推理以及不平衡数据处理等等
相信一定能让大家耳目一新听起来内容相当丰富那我们就赶紧进入今天的 AI 前言快报吧首先是第一篇关于模型加速的我看到关键词是吸收注意力这个听起来就很高大上没错 第一篇论文来自 DeepSeek AI 团队题目是 Native Sparse Attention, Hardware-Aligned, and Natively Trainable Sparse Attention 直译过来就是原生吸收注意力
命键对齐且原生可训练的吸收注意力机制吸收注意力听起来好像比注意力机制更厉害可以这么说注意力机制是目前大型语言模型比如大家熟悉的 CHATGPT 这类模型的核心技术但它有个缺点就是计算量非常大尤其处理长文本时效率很低吸收注意力就像是注意力机制的升级版它的核心技术
核心思想是让模型在处理信息时不必关注所有内容而是只关注重要的部分忽略不重要的部分从而减少计算量提高效率有点像我们人类阅读文章扫验标题和重点段落就能盖得到文章大意不用逐字逐句精读这个比喻很形象
这篇论文提出了原生吸收注意力 NSA 机制就更进一步它不仅让模型学会挑重点还特别针对硬件进行了优化让吸收注意力机制在实际运行时更快更省资源更厉害的是这种吸收方式是原生可训练的就是说可以和模型一起端到端训练效果更好听起来好像真的能大幅提升模型速度效果怎么样呢
实验结果非常亮眼在处理长达 64K 的文本序列时 NSA 在解码前向传播和反向传播等各个阶段都比传统的完整注意力机制快了很多倍而且更让人惊喜的是在各种评测基准上性能还和完整注意力模型不相上下甚至更好
这确实有点反直觉吸输了反而更好了这太厉害了感觉就像给 AI 模型装上了涡轮增压发动机这项技术如果应用到实际产品中是不是能让 AI 应用跑得更快更流畅完全可以期待尤其对于需要处理长文本的应用比如长文档总结长对话机器人等等
NSA 技术能显著提升效率降低成本,而且他们还开源了相关的代码实现,相信会加速这项技术的普及和应用真是个好消息,接下来我们看第二篇论文,题目是 Continue learning should move beyond incremental classification,持续学习应超越增量分类,这个题目听起来就很有挑战性,感觉是在挑战现有研究范式
没错,这篇论文的核心观点就是,当前持续学习领域的研究过度关注增量分类任务,这限制了持续学习的理论发展和实际应用。持续学习和增量分类都是什么意思呢?感觉有点专业。我来解释一下持续学习,英文是 continue learning,也叫终身学习,指的是让 AI 模型像人一样不断学习新的知识和技能,同时不忘记之前学过的东西。
这在 AI 应用中非常重要因为现实世界是不断变化的模型需要不断适应新环境新任务就像我们人类学习新技能一样要温故而知新那增量分类呢增量分类是持续学习领域最经典也是研究最多的任务它的目标是让模型在不断增加新的类别的情况下持续学习分类并且记住之前学过的类别比如说先让模型学习识别猫和狗然后再让它学习识别鸟
最后还要记住猫狗和鸟都会识别听起来好像挺合理的呀那这篇文章为什么要说应超越增量分类呢论文作者认为仅仅关注增量分类会限制我们对持续学习本质的理解也会让持续学习方法在更广泛的真实世界问题中表现不佳他们举了很多例子
比如多目标分类 像人脸表情识别 要同时识别多种表情机器人控制任务 需要在不同约束条件下完成任务连续任务领域 比如玩推箱子游戏 任务是连续变化的 以及抽象概念记忆等等在这些更复杂 更真实的场景下 那些在增量分类任务上表现很好的持续学习方法 往往就失灵了原来如此
感觉就像我们学英语光会做选择题是不够的还要会听说读写才能真正掌握英语
是的,道理类似。所以这篇论文提出了持续学习未来研究的三个核心挑战,包括连续性的本质空间与度量,以及学习目标,并且针对每个挑战都给出了具体的建议,比如要研究更连续的任务空间,要考虑密度估计和生成式目标等等。感觉这篇文章是在呼吁大家要把持续学习的研究视野放得更宽广,
去解决更复杂更实际的问题而不是指定着分类任务总结的很到位这篇文章虽然没有提出新的算法但他提出了一个更宏大的持续学习研究框架为未来的研究指明了方向很有启发意义嗯感觉 AI 研究也需要不断突破思维定势才能取得更大进展接下来我们看第三篇论文 Token Theory
这个题目里有个很火的概念 chain of thought 就是思维链我最近经常听到是的思维链 chain of thought 简称 COT 是提升大型语言模型推理能力的一个关键技术简单来说就是让模型在给出答案之前先像人一样一步一步的展示他的思考过程
我明白了就像我们做数学题要写出解题步骤一样这样模型就能更好的理解问题给出更准确的答案没错但是 COT 也有个缺点就是推理过程会产生很长的文本序列导致计算量和延迟增加影响用户体验
这篇论文就提出了一种叫做 token skip 的新方法来压缩 COT 的长度提高推理效率 token skip 听起来好像是跳过 token 的意思是的 token skip 的核心思想是 COT 输出中的不同 token 对于推理的贡献是不一样的有些 token 比较重要有些 token 可能没那么重要甚至是冗余的 token skip 就让模型学会识别哪些 token 不重要
然后在生成 COT 的过程中选择性的跳过这些不重要的 token 从而压缩 COT 的长度这能行吗跳过 token 不会影响推理效果吗这就是 token skip 的厉害之处实验表明在大幅压缩 COT 长度的情况下比如压缩 40%性能下降却非常小甚至可以忽略不计有时候在限定计算资源的情况下
压缩后的 COT 推理性能反而比原始的 COT 还要好这也太神奇了吧感觉就像给 COT 做了一次瘦身减肥成功身体还更好了可以这么理解而且 TokenSkip 还允许用户控制压缩率可以根据实际需求灵活平衡效率和性能更棒的是 TokenSkip 的训练成本很低
推理速度很快非常实用这项技术感觉很有应用前景能让 COT 推理更快更省资源以后我们用 AI 解决复杂问题响应速度就能更快了
是的 TokenSkip 为 COT 的效率优化提供了一个非常好的思路接下来我们看第四篇论文 Neurointerpretable Reasoning 神经可解释推理关键词是可解释性这也是最近 AI 领域非常热门的方向可解释性我也经常听到感觉 AI 模型越来越强大但同时也像个黑盒子我们不知道它是怎么思考
这让人有点不放心你说的很对可解释性就是指让 AI 模型的决策过程变得透明可理解让我们知道模型为什么做出这样的判断依据是什么这对于建立人们对 AI 的信任以及发现和纠正
模型错误都非常重要那这篇论文提出的神经可解释推理有什么特别之处呢这篇文章提出了一个全新的可解释性建模框架叫做神经可解释推理 Neural Interpretable Reasoning 简称 NIR 它的核心思想是把可解释性定义为推理等变性推理等变性听起来好抽象
我来解释一下等变性简单来说就是先翻译再查询和先查询再翻译结果一样放到可解释性这里就是说如果一个 AI 系统是可解释的那么它用人类能理解的方式推理和用机器自己的方式推理得到的结果应该是一致的好像有点明白了就是说如果一个 AI 系统真的理解了问题那它就应该能用人类也能理解的方式把它的思考过程表达出来是的
但这篇论文也指出直接验证推理等变性是非常困难的计算量会随着问题复杂程度指数级增长所以他们提出了一个更巧妙的方法就是把可解释性看作是具有马尔可夫性质的马尔可夫性质又是什么感觉今天新概念有点多
别担心马尔可夫性质其实也很简单他指的是未来只取决于现在与过去无关放到可解释性这里就是说用户只需要理解 AI 系统在某个抽象层次上的推理过程就能信任和使用他不必理解所有底层的细节就像我们用电脑只需要知道怎么操作软件不用了解 CPU 是怎么工作的
非常形象基于这个思想论文作者提出了一种神经生成与可解释执行的新范式简单来说就是用神经网络来生成可解释的模型组件比如概念和规则然后用这些组件进行符号化的推理和执行这样就能让模型既有深度学习的强大表达能力又具有符号推理的可解释性听起来好像融合了神经网络和符号推理的优点感觉是个很有前景的方向
是的 而且这篇文章还提出了一个很有意思的可解释性的图灵测试他们认为如果用户能够与一个 AI 系统交互并且能够准确预测系统的输出那么这个系统对于用户来说就是可解释的可解释性的图灵测试这个想法真有意思感觉把可解释性这个有点抽象的概念变得更具体更可衡量了
没错 这篇文章为可解释性研究提供了一个新的视角和方法论 很有启发意义最后我们来看今天的第五篇论文 A Statistical Theory of Overfitting for Imbalanced Classification 不平衡分类过拟合的统计理论关键词是不平衡分类和过拟合不平衡分类 我好像听说过是指数据集理不同类别的样本数量差距很大
是的 不平衡分类在现实世界中非常 比如医疗诊断中患病的人总是少数金融风控中欺诈交易也是少数在这种情况下 如果用传统的经济学习方法模型很容易过拟合也就是模型在训练级上表现很好 但在测试级上表现很差尤其少数类别的识别精度会大幅下降那这篇文章是研究怎么解决不平衡分类的过拟合问题吗
这篇文章更侧重于从理论上分析不平衡分类中过拟核的成因和机制作者通过研究支持向量机 SEM 和逻辑回归等经典模型揭示了在高维不平衡数据中维度本身会导致 logit 分布发生截断或倾斜这是少数类过拟核的根源 logit 分布又是什么感觉今天的信息量有点大
Logic 分布是逻辑回归模型输出的一种代理分布这里我们可以简单理解为模型对样本属于某个类别的质性度论文发现在高维数据中训练级上的 Logic 分布和测试级上的 Logic 分布会变得不一样
训练级上的 logit 分布会被截断或扭曲尤其是对于少数类样本这种现象更明显这就导致模型在训练级上对少数类过于自信但在测试级上就露馅了出现过拟合原来如此感觉就像是模型学偏了
只记住了训练级上的特殊情况,没学到真正的普遍规律。是的,论文还强调了边际再平衡的重要性。边际再平衡简单来说就是在损失函数中考虑类别样本数量的差异,给少数类样本更高的权重,让模型更重视少数类的学习实验表明。
编辑再平衡能有效缓解少数类精度下降的问题感觉这篇文章从理论上深入分析了不平衡分类过拟合的本质为我们更好的理解和解决这个问题提供了新的思路是的 这篇文章的理论分析非常深入也很有实践指导意义听完小 T 的解读感觉这五篇论文真的是干货满满每一篇都很有创新性和启发性
感觉 AI 技术真的是在飞速发展每天都有新突破新进展没错 AI 领域的研究一直都在不断进步不断突破瓶颈我们太快报也会持续关注 AI 前沿动态为大家带来更多精彩的解读和分享感谢小 T 今天的精彩分享
听众朋友们如果您对今天的节目有任何想法或建议欢迎在评论区留言也欢迎大家关注我们的太快报栏目获取更多 AI 前沿资讯感谢大家的收听我们下期再见下期见拜拜