听众朋友们欢迎收听最新一期的太快报我是主持人小爱大家好我是小 T 很高兴又和大家见面了小 T 最近 AI 领域又有哪些值得关注的新鲜事吗感觉每天都有新诺文出来真是目不暇接没错最近涌现出一批非常有趣的研究涵盖了 AI 安全效率可解释性等多个关键方向
今天我们就来一起解读几篇太前沿论文看看 AI 技术又取得了哪些新进展听起来就很棒那我们先从哪篇论文开始呢要不我们先聊聊 AI 安全方面的一个新突破吧第一篇论文是 Dugard A2 Player
它的主题是关于多语言大型语言模型的安全防护多语言安全防护现在的大模型不是都挺注意安全性的吗是的
但主要是针对英语其他语言的安全数据相对匮乏导致多语言模型的安全防护能力参差不齐这篇论文就提出了一个叫做 Dougard 的新框架专门解决这个问题听名字就感觉很厉害它是怎么做的呢 Dougard 的核心思想是毛语顿的对抗他采用了双方的强化学习框架里面有两个角色一个是生成器负责生成各种可能有害的内容就像是毛
另一个是分类器也就是防护模型本身它要努力识别和拦截这些有害内容就像是盾听起来有点像游戏里的攻防演练一场形象生成器和分类器不断地对抗和学习生成器会想方设法创造出能突破分类器防御的内容
而分类器则会不断提升自己的防御能力通过这种对抗训练就能让防护模型变得更强大尤其是在面对不同语言的有害内容时这个思路挺巧妙的那效果怎么样呢实验结果非常亮眼 Dugard 框架下训练出来的小模型 0.5B 参数在多语言安全基准测试中竟然超越了像 Aloh Amagard
38B 参数和 12 芝麻 2B 参数这样的大模型而且它的推理速度还快了 4.5 倍哇 小模型打败大模型这有点颠覆认知是 这说明数据质量有时候比模型大小更重要 DualShieldGuard 通过生成高质量的合成数据弥补了多语言安全数据不足的缺陷从而实现了更好的性能
而且它还能解决不同语言之间数据不平衡的问题提升低资源语言的安全防护能力听起来 DUGARD 在多语言安全领域很有潜力那它有什么局限性吗任何技术都不是完美的 DUGARD 的性能比较依赖生成器的质量如果生成器不够强大可能就无法充分提升防护模型的性能
另外合成数据也可能引入一些偏差需要注意而且这种对抗性技术本身也存在一些伦理风险需要谨慎使用防止被滥用明白了看来 AI 安全防护技术还在不断进步中接下来我们聊点轻松的看看有没有提升 AI 效率的研究当然有第二篇论文 Training Language Models to Reason Efficiently 就是关于训练语言模型进行高效推理的高效推理
现在的大模型推理速度不是挺慢的吗是的尤其是在处理复杂推理任务时大模型往往需要生成很长的思考链计算量非常大成本也很高这篇论文就提出了一种新的强化学习方法让模型学会偷懒
在保证准确率的前提下尽可能减少不必要的计算偷懒这个说法很有意思怎么让模型学会偷懒呢关键在于奖励函数的设计传统的强化学习方法只奖励模型回答正确但这篇文章在奖励函数中加入了长度惩罚也就是如果模型使用了过长的推理链即使答案正确也会受到惩罚就像是告诉模型能用简单方法解决的就别用复杂方法可以这么理解
通过这种方式模型就会被激励去寻找更简洁更高效的推理路径论文还引入了一个超参数可以灵活调节效率和准确率之间的平衡听起来很实用那效果怎么样呢模型真的能偷懒吗实验证明效果显著在一些太原推理模型上使用这种方法训练后推理成本大幅降低例如在 BAC 8K 数据集上减少高达 50%的 token
而在 MASS 和 AIME 数据集上分别减少 30%和 16%更令人惊讶的是准确率几乎没有下降甚至在某些情况下还有略微提升这真是个反直觉的发现难道说现在的大模型平时都在过度思考吗很有可能这篇论文也暗示了目前的推理模型可能存在过度思考的现象很多时候并不需要那么长的思考链就能解决问题
通过训练模型进行高效推理可以在不牺牲性能的前提下大幅降低计算成本那这项技术有什么局限性吗强化学习的训练过程相对复杂需要更多调参经验而且虽然可以通过超参数调节效率但目前还不能精确控制 token 长度另外论文主要是在数学推理任务上验证的在其他类型推理任务上的效果还需要进一步研究
明白了,看来提升 AI 效率也是一个重要的研究方向,接下来我们再换个话题,聊聊 AI 的可解释性。好的,第三篇论文,Spars Autoencoders for Hypothesis Generation,就是关于利用西数字编码器生成可解释的假设的。假设生成,AI 还能自动生成假设,听起来好科幻。
是的,这篇论文提出了一种名为 Hypothesis 的新框架,它可以从文本数据中自动生成可解释的假设,用于预测目标变量,例如它可以分析新闻标题,然后自动生成假设,预测哪些标题更吸引用户点击。这怎么实现的呢?感觉有点复杂。
哈德加西框架主要分为三步第一步他使用稀疏字编码器 ECE 从文本数据中学习可解释的特征稀疏字编码器的一个特点是稀疏性这使得他学到的神经元更容易与人类可理解的概念对齐稀疏性能解释得更通俗一点吗
你可以把西书字编码器想象成一个特征提取器它会从文本中提取很多特征但只有少数几个特征是活跃的也就是西书的这些活跃的特征往往就对应着一些人类可以理解的概念例如惊讶震惊等情绪有点明白了
那第二步和第三步呢第二步预测性特征选择他会选择那些对预测目标变量有用的 SEE 群晶圆也就是找出哪些特征是真正重要的第三步基于大型语言模型的特征解释他会利用 LLM
为选定的神经元生成自然语言解释把神经元激活转化为人类可读的假设所以整个过程就是先用西数字编码器提取可解释特征然后用大语言模型把这些特征翻译成人类能理解的假设吗是的可以这么理解 Hepathesis 框架的创新之处在于将西数字编码器和大语言模型结合起来实现了高效且可解释的假设生成听起来很厉害那效果怎么样呢
实验表明,Hypothesis 框架在性能和效率上都超越了之前的基线方法它不仅能发现更多显著且新的假设,而且计算效率也提高了 1 到 2 个数量级效率提升这么多,那它有什么局限性吗?Hypothesis 依赖于 LM 进行特征解释,所以解释的质量可能会受到大语言模型本身能力的限制
另外,吸收字边马迹的条优也比较重要,而且生成的假设最终还需要领域专家进行验证,才能确定其科学意义。AI 只是辅助工具,最终还是需要人来判断。接下来我们聊点什么呢?我们再来聊聊数字水印的一个研究吧。第四篇论文《On the Difficulty of Constructing a Robust and Publicly Detectable Watermark》,
探讨了构建鲁棒且可公开检测水印的难度数字水印这个技术好像是为了防止 AI 生成内容被滥用是的 数字水印可以用于内容溯源证明某个图像或文本是由特定模型生成的这篇文章关注的是一种特殊的水印它需要同时满足三个条件鲁棒性抵抗图像变换公开可检测性任何人都能检测密码学上的不可伪造性防止恶意篡改
听起来要求很高那能实现吗论文从理论上证明了这种水印方案是存在的它结合了密码学签名后置水印和鲁邦嵌入等技术理论上存在那实际实际构建却非常困难论文指出最大的障碍在于当前图像嵌入模型的脆弱性这些模型容易受到白河对抗攻击攻击者可以轻易制造碰撞破坏水印的不可伪造性白河对抗攻击听起来很专业
简单来说就是攻击者完全了解水印检测算法的细节然后利用这些信息精心构造对抗样本绕过检测由于水印需要公开可检测就意味着检测算法也必须公开这就给白河攻击留下了可乘之机原来如此那论文有什么应对方法吗论文没有提出直接的解决方案而是指出了当前技术的局限性并强调了提高图像嵌入模型对抗鲁邦性的重要性
他們還觀察到一個有趣的現象模型在乾淨數據上的性能與對抗攻擊的抵抗力之間存在微弱的正相關性正相關 這說明什麼呢這暗示了未來更符合人類視覺的模型可能也會更魯莽但這只是一個初步觀察還需要更多研究來驗證
明白了,看来构建安全可靠的水印技术还有很长的路要走,最后我们再来聊聊哪篇论文呢?最后一篇论文是 Scaling Up Test Time, Compute with Latent Reasoning, a Recurrent Depth Approach,它提出了一种扩展测试时计算量的新方法,来提升语言模型的推理能力。扩展测试时计算量,这又是什么新概念?
我们都知道提升模型性能通常有两种方法一是扩大模型规模增加参数量二是使用更长的思考链但这两种方法都有局限性这篇文章提出了一个新思路在不增加模型参数或长上下纹窗口长度的情况下通过扩展测试时的计算量来提升模型推理能力听起来有点像深度思考可以这么理解
論文提出了一個叫做 Hagen 的循環深度語言模型架構,它的核心思想是循環疊帶模型在連續的潛在空間中進行推理,而不是像思考鏈那樣把所有中間步驟都口頭話。潛在空間推理,感覺更抽象了。你可以把潛在空間想像成一個模型內部的思考空間,模型在這個空間裡反覆疊帶和調整,逐步逼近答案。
通过增加循环迭代次数就可以扩展测试时的计算量让模型进行更深入的推理那这种方法有什么优势呢首先性能提升显著通过增加测试时计算量哈定模型在推理任务上的性能可以媲美参数规模更大的传统 Transformer 模型其次效率更高循环深度模型每参数的计算效率更高而且天然支持多种效率优化技术例如自适应计算 KV 缓存共享等
听起来既高效又强大那有什么不足之处吗可解释性可能更具挑战由于推理过程发生在潜在空间中不像思考链那样直观所以理解模型的推理过程会更困难另外循环深度模型的训练和优化也可能更复杂明白了看来每种技术都有优缺点今天聊了这么多太前研究感觉收获满满
是今天的这几篇论文分别在 AI 安全效率和可解释性等关键方向上都取得了非常有意义的进展为我们展现了 AI 技术未来发展的更多可能性非常感谢小 T 深入浅出的解读相信听众朋友们也对 AI 的最新进展有了更清晰的了解不用客气希望这些信息对大家有所启发好的感谢大家收听本期太快报我们下期再见下期见拜拜