听众朋友们大家好欢迎收听最新鲜最硬核的 AI 科技播报节目太快报我是小爱大家好我是小 T 很高兴再次和大家在太快报相聚感觉最近 AI 领域又迎来了一波史诗级更新各种新技术新模型
从层出不穷 简直让人眼花缭乱确实最近涌现的这些研究成果每一项都瞄准了大型语言模型也就是我们常说的大模型的关键瓶颈并且都取得了非常亮眼的突破听起来就很激动人心那今天就请带我们好好解读一下都有哪些值得关注的
好 期待我们先从哪一篇开始超进化之旅呢
我们先从第一篇开始吧这篇论文简直是给大模型装上了超长记忆题目就非常震撼叫做 Infinite Heap 在单个 GPU 上将语言模型上下文扩展至 300 万 Token300 万 Token 就是什么概念感觉像天文数字
你可以简单理解为 token 是语言模型处理文本的基本单位 300 万 token 相当于三本书的信息量以前的大模型受限于显存和计算能力能处理的上下文长度非常有限可能只能记住几千个 token 就像鲸鱼的记忆一样短暂那这个 infinitib 是怎么做到让模型拥有超长记忆的呢 infinitib
是的 非常形象
而且他们还巧妙地调整了位置编码方法,让模型能够更好地泛化到超长上下文,即使是处理远超训练长度的文本,也能游刃有余。更厉害的是,他们还把模型的记忆存储器,也就是 KV 缓存,卸载到主机内存,进一步减轻了 GPU 显存的压力。
卸载到主机内存就像把电脑里不常用的程序暂时放到硬盘里释放内存空间没错思路很像通过这一系列组合权 Infinity 成功的在单张 GPU 上将大模型的上下文处理能力扩展到了惊人的 300 万 Token
而且推理速度还提升了近 19 倍哇这简直是内存和速度的双重突破感觉以后 AI 可以一口气读完哈利波特全集了可以期待一下 AI 一口气读完三本书的时代了接下来我们聊聊第二篇论文题目也很有意思叫做 copy spec 在不影响质量的前提下利用投机复制粘贴加速 LLM 名字里居然出现了复制粘贴复制粘贴这不是我们平时用电脑
是的 你猜对了这篇论文的核心思想就是让 AI 在生成文本的时候学会复制粘贴当然这里的复制粘贴不是简单的 G 加 C single 加 V 而是更智能更高效的投机性复制粘贴投机性复制粘贴听起来有点偷懒的感觉靠谱
这可不是偷懒而是巧妙地利用了语言的冗余性作者发现在很多场景下比如多轮对话自我纠正等等 AI 生成的文本中其实有很多重复的片段与其让 AI 一遍遍地重复计算不如直接把之前生成过的片段复制粘贴过来
这样就能大大加速推理速度嗯 有点像我们平时说话经常会重复一些常用的短语和句子如果能直接复制粘贴这些常用语确实能节省不少时间是的 Cobyspace 的厉害之处在于它采用了一种非常高效的滚动哈希机制可以快速的识别和匹配上下文中的重复 token 序列几乎不增加额外的计算开销实验结果表明 Cobyspace 在多个数据集上都取得了显著的加速效果
最高提升了三倍以上而且完全不影响生成质量加速三倍还不影响质量这简直是免费的性能提升感觉以后 AI 聊天可以像闪电侠一样快了可以期待一下 AI 妙语连珠出口成章的未来了接下来我们看看第三篇论文 Self-sight 大型语言模型中上下文归因的自监督对齐这篇论文关注的是大模型的引用问题引用问题
难道 AI 也要像写论文一样给自己的画标出处吗是的 你理解的非常到位随着大模型越来越广泛的应用于信息检索内容创作等领域生成内容的可信度和可追溯性变得至关重要如果 AI 生成的内容没有出处我们就很难判断它是否可靠
所以这篇论文就提出了一个名为 self-sight 的自监督框架让大模型学会像写论文一样给自己的画生成高质量的引用让 AI 自己给标出处这听起来就很有挑战性他们是怎么做到的呢
Self-Fight 的核心思想是自监督学习就是说不需要人工标注数据而是让模型自己从上下文中学习引用的规律他们巧妙的利用了上下文消融技术来生成奖励信号上下文消融和奖励信号这又是什么黑科技上下文消融你可以理解为移除上下文信息他们的想法是如果某个引用是必要的那么当把引用的上下文信息移除后模型就应该很难生成原来的回复
反之 如果引用是充分的 那么只保留引用的上下文信息 模型也应该能够生成高质量的回复通过这种方式 他们定义了必要性评分和充分性评分作为奖励信号来引导模型学习生成更好的引用感觉有点像逆向工程 通过破坏上下文来判断引用的重要性
是的,思路非常巧妙,实验结果表明 Self-Fight 框架显著提升了引用生成的质量,甚至可以媲美商业级的 API。太棒了,感觉以后 AI 生成的内容会越来越靠谱了,我们可以更放心地使用 AI 获取信息了。接下来我们看看第四篇论文,Square。
用于增强大型语言模型思维链的序列问答推理引进这篇论文的名字里提到了思维链感觉和提升大模型的思考能力有关是的思维链 chain of thought call 是目前提升大模型推理能力的一种非常有效的方法
但这篇论文认为传统的 CELT 方法还不够智能,于是提出了一个新的提示技术叫做 SQUARE,也就是序列问答推理引擎。序列问答推理引擎,听起来就很高大上,它和传统的思维链有什么不同呢?传统的思维链就像让模型一步一步地思考。
自我审问感觉就像让 AI 自己跟自己对话通过不断的提问回答来深入思考问题
是的你可以把 Square 理解为一种增强版的思维链它让模型像一个优秀的侦探一样不是直接给出答案而是先从不同的角度盘问自己探索问题的各个方面从而更全面更深入的理解问题最终给出更准确的答案感觉 AI 变得更主动了不再是被动的接受指令而是会主动思考主动探索是的
Square 赋予了模型更强的主动思考能力,实验结果表明,Square 在多个知识密集型问答数据集上都显著优于传统的 COT 方法,特别是对于较小的模型性能提升更加明显。感觉就像给 AI 装上了一个更强大的推理引擎,让他们在面对复杂问题时也能游刃有余。
接下来我们聊聊第五篇论文,I-Educate Learning,解决灾难性遗忘的高效可行方案。这篇论文关注的是 AI 的记忆力问题,提到了一个很专业的词汇叫做灾难性遗忘。灾难性遗忘,Catastrophic Forgetting 是持续学习领域一个常常存在的难题。你可以想象一下,如果一个 AI 模型学会了新知识后就忘记了旧知识,那就太糟糕了。
就像我们人类如果学会了骑自行车就忘了怎么走路那肯定不行是 那不就变成狗熊掰棒子了吗学一个忘一个那这个 Idealic Learning 是怎么解决灾难性遗忘问题的呢 Azure Cazarding 提出了一种名为 Ethedad 的网络架构它的核心机制是迭代减脂和神经元回收你可以把它想象成给模型的大脑建立了一个模块化管理系统模块化管理系统
听起来有点像乐高积木可以自由组装和拆卸是的思路很像 Adaptive Learning 的做法是对于每个新学习的任务都只启用一部分神经元并把之前任务中不重要的神经元回收过来重新利用这样一来不同任务的知识就被隔离开来避免了相互干扰
从而有效防止了灾难性遗忘感觉就像给每个任务都分配了专属的房间互不干扰各司其职是的 通过这种精细化管理神经元的方式 Electronic Learning 在理论上被证明可以彻底解决灾难性遗忘问题而且无需重放或排练之前的任务数据非常高效
更厉害的是,ElectricNet 在推理时还能自动将新样本录由到正确的任务分类器无需人工指定任务 ID 非常智能感觉 AI 的记忆力终于变得靠谱了以后可以放心的让 AI 持续学习新知识了最后我们再来看看第六篇论文《逃离坍缩弱数据,在大型语言模型训练中的功效》这篇论文关注的是大模型训练数据的质量问题
提到了一个词汇叫做模型坍缩模型坍缩 model collapse 是指在使用合成数据迭代训练的模型时模型性能反而下降的现象你可以想象一下如果我们一直让 AI 从自己生成的数据中学习就像左脚踩右脚可能会越学越跑偏最终坍缩嗯
有点像闭门造车越学越脱离实际那这篇论文是怎么逃离坍缩的呢这篇论文的核心观点是即使是弱数据也能有效防止模型坍缩弱数据你可以理解为少量的人工标注数据或者质量不太高的数据作者借鉴了 boosting 算法的思想提出了一个新的迭代训练程序 boosting 算法听
最具有挑战性的 prompt
是指模型最容易出错的那些问题吗?是的,boosting 算法的精髓就是关注难力。实验结果表明,即使只使用少量的弱数据,也能有效防止模型坍缩并持续提升模型性能。感觉就像给 AI 训练加了一个纠偏系统,即使在合成数据的海洋中,也能保持航向不迷失方向。是的。
这篇文章告诉我们,在训练大模型时,不要过度依赖合成数据,适当地引入弱数据反而能取得更好的效果。听完这六篇论文的解读,感觉 AI 技术真的是在突飞猛进,不仅记忆更强了,速度更快了,思考能力也更智能了,甚至还学会了引用和持续学习简直是超进化了。
是的,这六篇论文都代表了 AI 领域最新的研究方向和技术突破,预示着 AI 技术正在朝着更高效、更智能、更可靠的方向发展。我们可以期待未来 AI 将在更多领域发挥更大的作用,更好的服务于人类社会。非常感谢今天的精彩解读,让我们对 AI 的超进化有了更深入的了解,也感谢各位听众朋友们的收听,我们下期太快报再见。下期见,拜拜。