We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：大语言模型高效推理与假设生成

2025/2/11

AI可可AI生活

AI Deep Dive Transcript

People

小

小T

Topics

小T：我关注到几篇AI前沿论文，分别在AI安全、效率、可解释性等方面取得重要进展。首先，DuoGuard框架通过对抗生成合成数据，有效提升多语言LLM的防护能力，小模型性能甚至超越大模型，推理速度提升显著。这表明数据质量对模型性能的影响至关重要，为解决多语言安全数据稀缺问题提供了新思路。然而，该方法的性能依赖于生成器的质量，合成数据也可能引入偏差，需要谨慎使用。其次，Training Language Models to Reason Efficiently这篇论文提出了一种基于强化学习的高效推理方法，通过长度惩罚机制引导模型减少不必要的计算，在保证准确率的前提下显著降低推理成本。实验结果表明，该方法在数学推理任务上取得了显著成效，这暗示了当前大型推理模型可能存在过度思考的现象。但该方法的训练过程相对复杂，且目前还不能精确控制token长度，需要进一步研究。此外，Sparse Autoencoders for Hypothesis Generation这篇论文提出了HYPOTHESES框架，结合稀疏自编码器和大型语言模型，能够自动生成可解释的假设，计算效率比现有方法提高了1-2个数量级。该框架通过稀疏自编码器提取可解释特征，再利用大型语言模型生成自然语言解释，实现了高效且可解释的假设生成。但该方法的解释质量依赖于大型语言模型的能力，生成的假设也需要领域专家进行验证。最后，On the Difficulty of Constructing a Robust and Publicly Detectable Watermark这篇论文探讨了构建鲁棒且公开可检测水印的难度。论文指出，当前图像嵌入模型在白盒对抗攻击下脆弱性是主要瓶颈，提升深度学习模型的对抗鲁棒性是实现安全可信内容溯源的关键。 Scaling Up Test-Time Compute with Latent Reasoning这篇论文提出了一种名为Huginn的循环深度语言模型，通过循环迭代在潜在空间中进行推理，扩展测试时计算量，在推理任务上性能媲美更大规模模型，并具有更高的计算效率和灵活性。但其可解释性可能更具挑战。

Deep Dive

Shownotes Transcript

听众朋友们欢迎收听最新一期的太快报我是主持人小爱大家好我是小 T 很高兴又和大家见面了小 T 最近 AI 领域又有哪些值得关注的新鲜事吗感觉每天都有新诺文出来真是目不暇接没错最近涌现出一批非常有趣的研究涵盖了 AI 安全效率可解释性等多个关键方向

今天我们就来一起解读几篇太前沿论文看看 AI 技术又取得了哪些新进展听起来就很棒那我们先从哪篇论文开始呢要不我们先聊聊 AI 安全方面的一个新突破吧第一篇论文是 Dugard A2 Player

它的主题是关于多语言大型语言模型的安全防护多语言安全防护现在的大模型不是都挺注意安全性的吗是的

但主要是针对英语其他语言的安全数据相对匮乏导致多语言模型的安全防护能力参差不齐这篇论文就提出了一个叫做 Dougard 的新框架专门解决这个问题听名字就感觉很厉害它是怎么做的呢 Dougard 的核心思想是毛语顿的对抗他采用了双方的强化学习框架里面有两个角色一个是生成器负责生成各种可能有害的内容就像是毛

另一个是分类器也就是防护模型本身它要努力识别和拦截这些有害内容就像是盾听起来有点像游戏里的攻防演练一场形象生成器和分类器不断地对抗和学习生成器会想方设法创造出能突破分类器防御的内容

而分类器则会不断提升自己的防御能力通过这种对抗训练就能让防护模型变得更强大尤其是在面对不同语言的有害内容时这个思路挺巧妙的那效果怎么样呢实验结果非常亮眼 Dugard 框架下训练出来的小模型 0.5B 参数在多语言安全基准测试中竟然超越了像 Aloh Amagard

38B 参数和 12 芝麻 2B 参数这样的大模型而且它的推理速度还快了 4.5 倍哇小模型打败大模型这有点颠覆认知是这说明数据质量有时候比模型大小更重要 DualShieldGuard 通过生成高质量的合成数据弥补了多语言安全数据不足的缺陷从而实现了更好的性能

而且它还能解决不同语言之间数据不平衡的问题提升低资源语言的安全防护能力听起来 DUGARD 在多语言安全领域很有潜力那它有什么局限性吗任何技术都不是完美的 DUGARD 的性能比较依赖生成器的质量如果生成器不够强大可能就无法充分提升防护模型的性能

另外合成数据也可能引入一些偏差需要注意而且这种对抗性技术本身也存在一些伦理风险需要谨慎使用防止被滥用明白了看来 AI 安全防护技术还在不断进步中接下来我们聊点轻松的看看有没有提升 AI 效率的研究当然有第二篇论文 Training Language Models to Reason Efficiently 就是关于训练语言模型进行高效推理的高效推理

现在的大模型推理速度不是挺慢的吗是的尤其是在处理复杂推理任务时大模型往往需要生成很长的思考链计算量非常大成本也很高这篇论文就提出了一种新的强化学习方法让模型学会偷懒

在保证准确率的前提下尽可能减少不必要的计算偷懒这个说法很有意思怎么让模型学会偷懒呢关键在于奖励函数的设计传统的强化学习方法只奖励模型回答正确但这篇文章在奖励函数中加入了长度惩罚也就是如果模型使用了过长的推理链即使答案正确也会受到惩罚就像是告诉模型能用简单方法解决的就别用复杂方法可以这么理解

通过这种方式模型就会被激励去寻找更简洁更高效的推理路径论文还引入了一个超参数可以灵活调节效率和准确率之间的平衡听起来很实用那效果怎么样呢模型真的能偷懒吗实验证明效果显著在一些太原推理模型上使用这种方法训练后推理成本大幅降低例如在 BAC 8K 数据集上减少高达 50%的 token

而在 MASS 和 AIME 数据集上分别减少 30%和 16%更令人惊讶的是准确率几乎没有下降甚至在某些情况下还有略微提升这真是个反直觉的发现难道说现在的大模型平时都在过度思考吗很有可能这篇论文也暗示了目前的推理模型可能存在过度思考的现象很多时候并不需要那么长的思考链就能解决问题

通过训练模型进行高效推理可以在不牺牲性能的前提下大幅降低计算成本那这项技术有什么局限性吗强化学习的训练过程相对复杂需要更多调参经验而且虽然可以通过超参数调节效率但目前还不能精确控制 token 长度另外论文主要是在数学推理任务上验证的在其他类型推理任务上的效果还需要进一步研究

明白了,看来提升 AI 效率也是一个重要的研究方向,接下来我们再换个话题,聊聊 AI 的可解释性。好的,第三篇论文,Spars Autoencoders for Hypothesis Generation,就是关于利用西数字编码器生成可解释的假设的。假设生成,AI 还能自动生成假设,听起来好科幻。

是的,这篇论文提出了一种名为 Hypothesis 的新框架,它可以从文本数据中自动生成可解释的假设,用于预测目标变量,例如它可以分析新闻标题,然后自动生成假设,预测哪些标题更吸引用户点击。这怎么实现的呢?感觉有点复杂。

哈德加西框架主要分为三步第一步他使用稀疏字编码器 ECE 从文本数据中学习可解释的特征稀疏字编码器的一个特点是稀疏性这使得他学到的神经元更容易与人类可理解的概念对齐稀疏性能解释得更通俗一点吗

你可以把西书字编码器想象成一个特征提取器它会从文本中提取很多特征但只有少数几个特征是活跃的也就是西书的这些活跃的特征往往就对应着一些人类可以理解的概念例如惊讶震惊等情绪有点明白了

那第二步和第三步呢第二步预测性特征选择他会选择那些对预测目标变量有用的 SEE 群晶圆也就是找出哪些特征是真正重要的第三步基于大型语言模型的特征解释他会利用 LLM

为选定的神经元生成自然语言解释把神经元激活转化为人类可读的假设所以整个过程就是先用西数字编码器提取可解释特征然后用大语言模型把这些特征翻译成人类能理解的假设吗是的可以这么理解 Hepathesis 框架的创新之处在于将西数字编码器和大语言模型结合起来实现了高效且可解释的假设生成听起来很厉害那效果怎么样呢

实验表明,Hypothesis 框架在性能和效率上都超越了之前的基线方法它不仅能发现更多显著且新的假设,而且计算效率也提高了 1 到 2 个数量级效率提升这么多,那它有什么局限性吗?Hypothesis 依赖于 LM 进行特征解释,所以解释的质量可能会受到大语言模型本身能力的限制

另外,吸收字边马迹的条优也比较重要,而且生成的假设最终还需要领域专家进行验证,才能确定其科学意义。AI 只是辅助工具,最终还是需要人来判断。接下来我们聊点什么呢?我们再来聊聊数字水印的一个研究吧。第四篇论文《On the Difficulty of Constructing a Robust and Publicly Detectable Watermark》,

探讨了构建鲁棒且可公开检测水印的难度数字水印这个技术好像是为了防止 AI 生成内容被滥用是的数字水印可以用于内容溯源证明某个图像或文本是由特定模型生成的这篇文章关注的是一种特殊的水印它需要同时满足三个条件鲁棒性抵抗图像变换公开可检测性任何人都能检测密码学上的不可伪造性防止恶意篡改

听起来要求很高那能实现吗论文从理论上证明了这种水印方案是存在的它结合了密码学签名后置水印和鲁邦嵌入等技术理论上存在那实际实际构建却非常困难论文指出最大的障碍在于当前图像嵌入模型的脆弱性这些模型容易受到白河对抗攻击攻击者可以轻易制造碰撞破坏水印的不可伪造性白河对抗攻击听起来很专业

简单来说就是攻击者完全了解水印检测算法的细节然后利用这些信息精心构造对抗样本绕过检测由于水印需要公开可检测就意味着检测算法也必须公开这就给白河攻击留下了可乘之机原来如此那论文有什么应对方法吗论文没有提出直接的解决方案而是指出了当前技术的局限性并强调了提高图像嵌入模型对抗鲁邦性的重要性

他們還觀察到一個有趣的現象模型在乾淨數據上的性能與對抗攻擊的抵抗力之間存在微弱的正相關性正相關這說明什麼呢這暗示了未來更符合人類視覺的模型可能也會更魯莽但這只是一個初步觀察還需要更多研究來驗證

明白了,看来构建安全可靠的水印技术还有很长的路要走,最后我们再来聊聊哪篇论文呢?最后一篇论文是 Scaling Up Test Time, Compute with Latent Reasoning, a Recurrent Depth Approach,它提出了一种扩展测试时计算量的新方法,来提升语言模型的推理能力。扩展测试时计算量,这又是什么新概念?

我们都知道提升模型性能通常有两种方法一是扩大模型规模增加参数量二是使用更长的思考链但这两种方法都有局限性这篇文章提出了一个新思路在不增加模型参数或长上下纹窗口长度的情况下通过扩展测试时的计算量来提升模型推理能力听起来有点像深度思考可以这么理解

論文提出了一個叫做 Hagen 的循環深度語言模型架構,它的核心思想是循環疊帶模型在連續的潛在空間中進行推理,而不是像思考鏈那樣把所有中間步驟都口頭話。潛在空間推理,感覺更抽象了。你可以把潛在空間想像成一個模型內部的思考空間,模型在這個空間裡反覆疊帶和調整,逐步逼近答案。

通过增加循环迭代次数就可以扩展测试时的计算量让模型进行更深入的推理那这种方法有什么优势呢首先性能提升显著通过增加测试时计算量哈定模型在推理任务上的性能可以媲美参数规模更大的传统 Transformer 模型其次效率更高循环深度模型每参数的计算效率更高而且天然支持多种效率优化技术例如自适应计算 KV 缓存共享等

听起来既高效又强大那有什么不足之处吗可解释性可能更具挑战由于推理过程发生在潜在空间中不像思考链那样直观所以理解模型的推理过程会更困难另外循环深度模型的训练和优化也可能更复杂明白了看来每种技术都有优缺点今天聊了这么多太前研究感觉收获满满

是今天的这几篇论文分别在 AI 安全效率和可解释性等关键方向上都取得了非常有意义的进展为我们展现了 AI 技术未来发展的更多可能性非常感谢小 T 深入浅出的解读相信听众朋友们也对 AI 的最新进展有了更清晰的了解不用客气希望这些信息对大家有所启发好的感谢大家收听本期太快报我们下期再见下期见拜拜

AI前沿：大语言模型高效推理与假设生成 12:19 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：大语言模型高效推理与假设生成