We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：随机Transformer可解释，大模型竞技场有漏洞

2025/2/3

AI可可AI生活

小爱/小T:稀疏自编码器(SAE)在解释随机初始化的Transformer模型时,其可解释性评分与训练好的模型相当,这引发了对SAE有效性的质疑,并强调了在可解释性研究中引入更严格的基准测试,例如随机模型,以避免过度解读结果。我们需要更精细的工具和更严格的实验设计,才能真正揭示AI的黑箱秘密。小爱/小T:O1类大语言模型在复杂推理中存在“欠思考”现象,表现为频繁切换思路但缺乏深入探索,导致效率低下和错误率高。模型在给出错误答案时,生成的文本更长,使用的token数量更多,思路切换次数也更多,这说明模型在错误答案上浪费了大量的计算资源。在很多错误答案中,模型早期其实已经出现了一些正确的思路,但可惜的是模型没有坚持下去,而是过早地放弃了正确的方向。为了解决这个问题,我们提出了“思路切换惩罚(TIP)”解码策略,在模型生成文本时,如果模型要切换思路,就给它一个小小的惩罚,鼓励它在当前思路上多思考一会儿,不要轻易跳到别的方向。实验表明,应用TIP策略后,模型的解题准确率得到了显著提升,而且不用重新训练模型。小爱/小T:Chatbot Arena平台存在投票作弊漏洞,“普遍存在的作弊”策略只需少量选票即可操纵模型排名。ELO评分系统本身没问题,但开放的众包平台使得任何人都可以投票,这就给作弊留下了空间。两种作弊策略:目标导向作弊和普遍存在的作弊。普遍存在的作弊策略更有效率,只需几百张作弊选票就能显著提高模型的排名。即使Chatbot Arena隐藏了模型身份,也能通过分类器识别出来,让作弊更具可行性。我们需要开发更鲁棒的评估方法和更安全的平台机制,才能保证AI评测的公正性和可靠性。小爱/小T:MR.Q算法是一种模型无关的强化学习算法,它在模型无关的框架下融入模型相关的表征学习,实现了跨多种基准测试的通用性和高性能,推动了通用强化学习算法的发展。它不是直接学习环境模型,而是学习一种价值函数的表征,这种表征能够近似线性化价值函数,让价值函数变得更简单、更平滑、更容易学习和泛化。MR.Q在多个基准测试中都取得了和领域特定算法相媲美的性能,甚至超过了一些通用的模型相关算法,而且参数更少,训练更快。小爱/小T:LLM-AutoDiff框架将自动微分应用于提示工程,通过将大语言模型应用视为计算图,并利用大语言模型生成文本反馈作为梯度,实现了对复杂LLM工作流的自动化提示优化,显著提升了优化效率和应用性能。它能够处理复杂多组件的问题,甚至循环的LLM工作流。对于功能节点,它设计了传递梯度机制;对于循环结构,它引入了时间序列梯度。LLM-AutoDiff在各种任务上都超越了现有的文本梯度基线方法,尤其在复杂的RAC、检索、增强生成和Agentic管道上性能提升更明显,而且它还提高了训练效率,降低了计算成本。

Deep Dive

Shownotes Transcript

大家好欢迎收听这一期的太快报我是主持人小爱大家好我是小 T 很高兴又和大家见面一起聊聊 AI 领域的最新动态这周的 AI 圈感觉就像一个小型炸弹工厂各种前沿研究砰砰砰

你是不是也感觉有点应接不暇了?确实这周值得关注的论文还真不少,从 Transformer 的可解释性到大模型的思考方式,再到 AI 评测平台的安全漏洞,以及通用强化学习和自动化提示工程,简直是涵盖了 AI 研究的方方面面。

听起来就让人兴奋,那我们今天就来好好拆解一下这些炸弹,看看里面都藏着哪些宝藏和惊雷。没问题,咱们先从一个有点反直觉的研究开始吧,题目就够劲爆,吸收字编码器和解释,随机初始化 Transformer。随机初始化的 Transformer,这 Transformer 不是训练才能用吗?随机的也能被解释,这

这怎么理解是这样的我们通常认为像 transformer 这样的大模型只有经过大量数据训练才能学到有意义的知识和能力而可解释性研究就是想弄清楚模型内部到底学到了什么是怎么工作的对吧对就像给 AI 做 CT 扫描看看他的大脑里都在干嘛

没错,西书字编码器 SAE 就是一种长的 CT 扫描工具研究人员用 SAE 来分析 Transformer 内部的激活状态希望能找到一些可解释的特征比如模型是不是学会了识别猫咪的图片或者理解了某个词语的意思这个我懂,那随机初始化 Transformer 是怎么回事呢?关键就在这里这篇论文的作者突发奇想

他们不用训练好的 transformer 而是用一个完全随机初始化的 transformer 就是说模型的参数都是随便设的根本没见过任何数据然后他们竟然也能用 SAE 从中提取出看似可解释的特征随机的模型也能解释这不就等于说我们用 SAE 扫描了一堆乱码结果发现里面竟然有意义这也太奇怪了吗是这是这个研究最让人震惊的地方更

更夸张的是,他们还用一种叫 Fathom 的方法来自动评估这些特征的可解释性,结果发现随机 Transformer 的可解释性评分竟然和训练好的 Transformer 差不多,甚至都比随机输入的模型要好。

我的天,这简直颠覆认知那这说明什么?难道我们之前用 SAE 做的可解释性研究其实都在自欺欺人?倒也不至于这么悲观但这个研究确实提出了一个非常深刻的问题我们现在用的可解释性方法比如 SAE 可能并没有真正抓住模型学习到的智能而只是反映了数据本身的一些统计规律或者是模型结构的一些固有属性

你的意思是 SAE 可能只是在英武学者表面上看起来解释了但实际上并没有深入到模型的思考本质可以这么理解作者提出了一个很有意思的假设叫做数据叠加现象

他们认为也许我们输入给模型的数据本身就存在一些隐藏的结构而随机网络恰好保留或放大了这些结构 SAE 提取到的可解释特征可能只是这些数据结构的反应而不是模型真正学到的东西听起来有点绕但感觉很有道理那这个研究对我们有什么启发呢?我觉得最大的启发就是我们在做可解释性研究的时候一定要更加严谨要引入更强的基准对比

不能只看 SAE 提取出了什么特征,更要看这些特征是不是真的和模型的学习过程有关,是不是真的能帮助我们理解模型的智能。就像做实验要设置对照组一样,随机模型就是可解释性研究的对照组,看看哪些可解释的现象是训练带来的,哪些是随机的。

完全正确这个研究提醒我们要重新审视可解释性的内涵要更批判性地看待现有的可解释性方法避免过度解读结果未来的可解释性研究可能需要更精细的工具更严格的实验设计才能真正揭示 AI 的黑箱秘密明白了这个研究真是脑洞大开也让人警醒接下来我们再看看下一篇是关于大语言模型欠思考的欠思考大语言模型还会欠思考

我以为他们都是思考过度呢你这个思考过度也很有意思我们经常会觉得大模型一本正经的胡说八道好像想太多了反而犯错但这篇论文说的欠思考角度不太一样怎么个不一样法他们研究发现像 OpenAI 的 OE

也就是类似 GPT3.5 的模型这样的大语言模型在解决一些复杂推理问题时经常会出现一种欠思考的现象就是说模型在推理过程中思路跳来跳去频繁切换想法但每个想法都没有深入探索就匆匆放弃了思路跳来跳去

就像我们平时做数学题刚想到一个方法觉得好像不对马上又换另一个结果哪个都没做出来非常形象论文作者发现当模型给出错误答案时往往会表现出更频繁的思路切换这听起来可能有点反直觉我们一般认为思考的多是好事

但研究表明对于这类模型思考太多反而可能是无效推理的标志那欠思考会带来什么问题呢最直接的问题就是效率低下问问发现模型给出错误答案时生成的文本会明显更长使用的 token 数量会多出好几

思路切换的次数也更多这说明模型在错误答案上浪费了大量的计算资源做了很多无用功错误答案反而更啰嗦这确实挺低效的更让人惊讶的是他们分析发现在很多错误答案中模型早期其实已经出现了一些正确的思路但可惜的是模型没有坚持下去而是过早地放弃了正确的方向转去探索其他不太靠谱的想法了

这感觉就像一个很有潜力的学生明明一开始思路是对的但自己没信心瞎改一通反而做错了是的有点聪明反被聪明误的感觉为了量化这种欠思考现象作者还提出了一个指标叫做欠思考分数

用来衡量错误答案中 token 的效率分数越高说明欠思考越严重那他们有没有想办法解决这个问题呢当然他们提出了一种叫做思路切换惩罚 TIP 的解码策略简单来说就是在模型生成文本的时候如果模型要切换思路就给它一个小小的惩罚鼓励它在当前思路上多思考一会儿不要轻易跳到别的方向惩罚思路切换这方法听起来挺有意思

效果怎么样呢?效果还真不错。实验表明,在一些高难度的数学和科学数据集上,应用 TIP 策略后,模型的解题准确率得到了显著提升。

而且还不用重新训练模型只是在解码阶段做一些调整哇这真是个四两拨千斤的好方法那这个研究对我们有什么启发呢我觉得这个研究告诉我们对于大语言模型深度思考和效率之间需要平衡不能一味追求思考的多更要关注思考的质量和思考的方向有效的思考应该是既能探索多种思路又能聚焦于有潜力的方向深入挖掘就像我们平时学习也要讲究方法

不能眉毛胡子一把抓,要学会抓住重点,深入思考。是的,这个欠思考的研究也提醒我们要更深入地理解大模型的推理机制,找到模型推理效率低下的根源,才能更好地提升模型的智能水平。明白了,感觉今天的信息密度有点高,不过真过瘾。接下来我们轻松一下聊聊 Chad Bull 的 Arena 的投票作弊。Chad Bull Arena

我经常用感觉挺靠谱的没想到还能作弊是这篇论文就揭示了 Chessboard Arena 这个平台的漏洞证明了模型的排名是可以通过策略性投票来操纵的策略性投票怎么操作难道是雇水军去刷票

可以这么理解,但更高级一些。Chatbot 的 River 是一个重包评估平台,用户可以对两个匿名模型的回复进行投票,选出哪个更好。平台会根据用户的投票结果,用 ELO 评分系统来给模型排名。ELO 评分系统,我知道很多游戏里都用这个来给玩家排名,挺权威的。

ELO 评分系统本身没问题,但问题在于 Chatbot Arena 是一个开放的重包平台,任何人都可以投票,这就给作弊留下了空间。怎么作弊呢?论文作者提出了两种作弊策略,一种叫目标导向作弊,就是只关注涉及到目标模型的对战,想办法识别出哪个回复是目标模型的,然后只投目标模型的票。嗯。

这个好理解就像专门给自己的偶像刷票一样但这种方法效率比较低因为 Chatterbot Arena 上模型很多平均下来涉及到目标模型的对战比例很小所以作者又提出了一种更阴险的策略叫做普遍存在的作弊普遍存在的作弊听起来就很可怕

這種策略更厲害的地方在於它不止關注目標模型的對戰而是操縱所有新的投票就是說無論看到哪個對戰都按照預設的策略去投票

即使对战双方跟目标模型完全无关不投目标模型的票也能影响它的排名这怎么可能这就是 ELO 评分系统的精妙之处 ELO 系统是一个相对排名系统任何一场对战的结果都会影响到所有相关模型的排名即使你不直接给目标模型投票但你操纵了其他模型的排名间接的也会影响到目标模型的排名哇这感觉像

蝴蝶效应一样牵一发而动全身是的研究表明普遍存在的作弊策略非常高效只需要几百张作弊选票就能显著提高模型的排名几百张这么少那岂不是很容易就被操纵了是这就是这个研究最让人担忧的地方

更可怕的是作者还用一个分类器来去匿名化模型即使 Chatterbot Arena 隐藏了模型身份也能识别出来让作弊更具可行性那 Chatterbot Arena 平台有没有什么防御措施呢论文也评估了一些防御机制但发现简单的防御措施很容易被绕过即使是更复杂的防御措施也很难完全消除作弊效果那我们以后还能相信 Chatterbot Arena 的排名吗

这个研究并不是要否定 Chatbot Arena 的价值,而是要提醒我们,任何重包评估平台都可能存在安全漏洞,不能完全依赖用户投票来评估模型的优劣。我们需要开发更鲁棒的评估方法,更安全的平台机制,才能保证 AI 评测的公正性和可靠性。就像考试一样,也要防止作弊,才能真实反映学生的水平。那接下来我们再聊聊通用强化学习。

听起来就很厉害通用强化学习这是要让 AI 学会一招先吃遍天吗可以这么理解我们知道强化学习 RL 是一种让 AI 通过试错来学习策略的方法就像训练小狗做动作一样做对了就给奖励做错了

就成法我知道 hotel 就是用强化学习训练出来的对但现在的强化学习算法往往是定制化的针对特定的任务和环境需要精心调整参数和算法结构才能取得好的效果换句话说一个在游戏中表现很好的 RL 算法可能在机器人控制或者自动驾驶领域就水土不服了就像树叶有专攻每个算法都有自己的舒适区

是的,但我们希望未来的 AI 能够更通用,能够像人类一样快速适应各种不同的任务和环境,这就是通用强化学习的目标。听起来好难,那这篇论文提出了什么新方法吗?他们提出了一个新的模型无关强化学习算法,

叫做 MRQ,這個算法的厲害之處在於它試圖在各種不同的強化學習基準測試中都取得優秀的表現,而且只用一套固定的超參數一套參數就能打遍天下這麼神奇是,這正是 MRQ 的創新之處

他在模型无关的框架下借鉴了模型相关的表征学习方法模型无关模型相关又来了感觉概念有点多别急我解释一下模型无关的强化学习算法就像盲人摸象只根据当前的观察和奖励来学习策略不预先建立环境的模型模型相关的算法则会先学习一个环境模型预测未来会发生什么再根据模型来规划策略

模型相关的算法就像有地图一样知道前面有什么可以提前规划路线是的模型相关的算法通常在样本效率和泛化能力上更有优势但计算复杂度也更高训练更慢模型无关的算法则更简洁更容易实现但可能需要更多的数据才能学好那 MRQ 是属于哪一种呢 MRQ 是模型无关的但它借鉴了模型相关的表征学习方法

这听起来有点矛盾但其实很巧妙它不是直接学习环境模型而是学习一种价值函数的表征这种表征能够近似线性化价值函数价值函数线性化感觉更晕了简单来说价值函数就是评估一个状态好坏的函数线性化价值函数就是让价值函数变得更简单更平滑更容易学习和泛化 MRQ 通过学习模型相关的目标来学习这种线性化的价值函数表征所以

Mr.Q 既有模型无关的简洁高效又借鉴了模型相关的优势实现了通用性可以这么理解实验表明 MRQ 在 Gym DMC Atari 等多个基准测试中都取得了和领域特定算法相媲美的性能甚至超过了一些通用的模型相关算法而且参数更少训练更快

哇,听起来 MRQ 真的是一个全能选手,那这个研究对强化学习领域有什么意义呢?我觉得最大的意义在于它推动了通用强化学习算法的发展,

让我们看到即使是模型无关的方法也能通过巧妙的设计实现很好的通用性这为未来的强化学习研究提供了一个新的方向就是关注如何学习更有效的表征而不是一味的追求更复杂的模型或算法就像学习一样掌握了学习方法比刷题更重要最后我们再来看看 LM AutoDiff 这是要让大语言模型也自动为分吗 LM AutoDiff

自动微分这感觉是两个完全不搭的概念听起来是有点奇怪但其实很巧妙我们知道自动微分是深度学习的核心技术之一它可以自动计算神经网络的梯度用于优化模型参数我知道有了自动微分训练神经网络就方便多了

那提示工程呢?我们之前也聊过提示工程就是设计好的提示词来引导大语言模型完成任务对,好的提示词能让大语言模型事半功倍但提示工程一直是一个很人工很费力的过程需要大量的试错和经验

这篇论文就提出了一个新框架叫做 LLM AutoDiff 想把自动微分的思想应用到提示工程中实现提示的自动优化提示也能自动微分这怎么操作提示词不是文本吗

关键就在于他们把文本剔度的概念引入进来了他们把大圆模型应用看作一个计算图图中的节点可以是大圆模型本身也可以是一些功能操作比如检索数据格式化等每个文本输入比如提示词都被视为可训练的参数把提示词当参数有点意思

然后他们用一个反向引擎大圆模型来生成文本反馈这个反馈就相当于深度学习中的梯度用来指导提示词的迭代更新用大圆模型来生成梯度这感觉是以魔法对抗魔法

可以这么说,但思路很巧妙他们用大语言模型来理解任务目标和模型输出之间的差距然后用自然语言的方式给出提示、改进的建议那这个文本梯度怎么传递呢?如果大语言模型应用很复杂有很多组件梯度怎么传到每个提示词上呢?这就是 LLM AutoDiff 框架的厉害之处它能够处理复杂多组件的问题

甚至循环的 LLM 工作流对于功能节点它设计了传递梯度机制让梯度能够穿透功能节点优化所有导致错误的组件对于循环结构它引入了时间序列梯度保证梯度反馈的顺序正确听起来好复杂但感觉很强大效果怎么样呢实验表明 LEM AutoDIF 在各种任务上都超越了现有的文本梯度基线方法

尤其在复杂的 RAC、检索、增强生成和 Agentic 管道上性能提升更明显而且它还提高了训练效率降低了计算成本哇,这真是提示工程的自动化神器那这个研究对大语言模型应用开发有什么意义呢?我觉得最大的意义在于它极大的降低了提示工程的门槛让开发者可以更专注于大语言模型应用的逻辑和功能而不用花费大量精力在繁琐的提示微调上

LM AutoDiff 有望推动自动化大语言模型应用优化 ALAO 的发展让 AI 应用开发更高效更智能感觉就像有了自动驾驶开车就更轻松了今天的 AI 快报信息量真的太大了感觉脑子要爆炸了是这周的 AI 研究确实很精彩我们今天聊了五个方向从可解释性到效率再到安全和自动化每个方向都充满了挑战和机遇

是感觉 A 的未来充满了无限可能感谢小 T 今天的精彩解读也感谢大家的收听我们下期太快报再见下期见拜拜

AI前沿：随机Transformer可解释，大模型竞技场有漏洞 17:53 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：随机Transformer可解释，大模型竞技场有漏洞