We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:随机Transformer可解释,大模型竞技场有漏洞

AI前沿:随机Transformer可解释,大模型竞技场有漏洞

2025/2/3
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive Transcript
Topics
小爱/小T:稀疏自编码器(SAE)在解释随机初始化的Transformer模型时,其可解释性评分与训练好的模型相当,这引发了对SAE有效性的质疑,并强调了在可解释性研究中引入更严格的基准测试,例如随机模型,以避免过度解读结果。我们需要更精细的工具和更严格的实验设计,才能真正揭示AI的黑箱秘密。 小爱/小T:O1类大语言模型在复杂推理中存在“欠思考”现象,表现为频繁切换思路但缺乏深入探索,导致效率低下和错误率高。模型在给出错误答案时,生成的文本更长,使用的token数量更多,思路切换次数也更多,这说明模型在错误答案上浪费了大量的计算资源。在很多错误答案中,模型早期其实已经出现了一些正确的思路,但可惜的是模型没有坚持下去,而是过早地放弃了正确的方向。为了解决这个问题,我们提出了“思路切换惩罚(TIP)”解码策略,在模型生成文本时,如果模型要切换思路,就给它一个小小的惩罚,鼓励它在当前思路上多思考一会儿,不要轻易跳到别的方向。实验表明,应用TIP策略后,模型的解题准确率得到了显著提升,而且不用重新训练模型。 小爱/小T:Chatbot Arena平台存在投票作弊漏洞,“普遍存在的作弊”策略只需少量选票即可操纵模型排名。ELO评分系统本身没问题,但开放的众包平台使得任何人都可以投票,这就给作弊留下了空间。两种作弊策略:目标导向作弊和普遍存在的作弊。普遍存在的作弊策略更有效率,只需几百张作弊选票就能显著提高模型的排名。即使Chatbot Arena隐藏了模型身份,也能通过分类器识别出来,让作弊更具可行性。我们需要开发更鲁棒的评估方法和更安全的平台机制,才能保证AI评测的公正性和可靠性。 小爱/小T:MR.Q算法是一种模型无关的强化学习算法,它在模型无关的框架下融入模型相关的表征学习,实现了跨多种基准测试的通用性和高性能,推动了通用强化学习算法的发展。它不是直接学习环境模型,而是学习一种价值函数的表征,这种表征能够近似线性化价值函数,让价值函数变得更简单、更平滑、更容易学习和泛化。MR.Q在多个基准测试中都取得了和领域特定算法相媲美的性能,甚至超过了一些通用的模型相关算法,而且参数更少,训练更快。 小爱/小T:LLM-AutoDiff框架将自动微分应用于提示工程,通过将大语言模型应用视为计算图,并利用大语言模型生成文本反馈作为梯度,实现了对复杂LLM工作流的自动化提示优化,显著提升了优化效率和应用性能。它能够处理复杂多组件的问题,甚至循环的LLM工作流。对于功能节点,它设计了传递梯度机制;对于循环结构,它引入了时间序列梯度。LLM-AutoDiff在各种任务上都超越了现有的文本梯度基线方法,尤其在复杂的RAC、检索、增强生成和Agentic管道上性能提升更明显,而且它还提高了训练效率,降低了计算成本。

Deep Dive

Shownotes Transcript

本期内容要点:

  • 稀疏自编码器 (SAE) 与随机Transformer:  研究发现SAE也能“解释”随机初始化的Transformer,质疑了SAE作为机制可解释性工具的有效性,强调零模型基准测试的重要性。
  • o1类LLM的“欠思考”现象:  揭示了o1类LLM在复杂推理中存在的“欠思考”问题,即频繁切换思路但缺乏深入探索,并提出“思路切换惩罚 (TIP)”解码策略有效提升推理准确率。
  • Chatbot Arena投票作弊:  论证了Chatbot Arena平台存在投票作弊漏洞,“普遍存在的作弊”策略只需少量选票即可操纵模型排名,凸显众包评估平台的安全风险。
  • 通用模型无关强化学习 (MR.Q):  提出了MR.Q算法,在模型无关框架内融入模型相关的表征学习,实现了跨多种基准测试的通用性和高性能,推动了通用强化学习算法的发展。
  • LLM-AutoDiff框架:  提出了LLM-AutoDiff框架,将自动微分应用于提示工程,实现了对复杂LLM工作流的自动化提示优化,显著提升了优化效率和应用性能。

完整推介:https://mp.weixin.qq.com/s/sHdDsARFgt04IsV5xeOvxA