We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:AI解题拿金牌、模型可解释新招

AI前沿:AI解题拿金牌、模型可解释新招

2025/2/9
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
People
小T
小爱
Topics
小爱:我认为当前AI领域涌现了很多有趣的研究成果,我们需要关注AI的最新进展以及潜在的问题。 小T:我认为当前大型语言模型的基准测试可能存在问题,无法全面、深入地评估和提升AI的能力。现有的基准测试题目可能存在错误或歧义,导致评估结果不准确。我们需要构建像“白金基准”一样高质量的测试,减少题目中的错误和歧义,确保测试结果能真正反映AI的可靠性。即使使用高质量的基准测试,AI在简单任务上仍然可能出错,这表明我们不能只关注AI在复杂任务上的表现,也要关注其在简单任务上的可靠性。此外,AI在处理时间顺序和数字属性方面可能存在一些意想不到的偏差。总之,评估AI不仅要看能力,更要重视可靠性,高质量的基准测试至关重要。

Deep Dive

Chapters
本期节目首先探讨了评估大型语言模型可靠性的难题。研究人员发现,现有的基准测试可能无法有效评估模型的可靠性,因为题目本身可能存在错误或歧义。因此,研究人员提出了“白金基准”的概念,强调高质量基准测试的重要性。研究还发现了一些新的模型缺陷模式,例如“首事件偏差”和“素数向上取整错误”,这说明即使是最先进的模型在简单任务上仍然存在不可靠性问题。
  • 现有大语言模型基准测试可能无法有效评估模型可靠性
  • 提出了“白金基准”的概念,强调高质量基准测试的重要性
  • 发现了“首事件偏差”和“素数向上取整错误”等新的模型缺陷模式

Shownotes Transcript

听众朋友们大家好,欢迎收听最新一期的太快报,我是小爱。大家好,我是小 T,很高兴又和大家见面了。最近 AI 领域又涌现出不少有趣的研究成果,我们这期就来聊聊几篇最新的论文,看看 AI 又有哪些新进展,又有哪些值得我们关注的新坑。没问题,这几篇论文我仔细拜读了一下确实都挺有意思,而且都指向一个核心问题——

如何更全面更深入的评估和提升 AI 的能力特别是大型语言模型听起来就很有深度那我们先从哪篇开始呢我们先聊到第一篇吧题目就很有意思叫大语言模型基准测试是否可靠

基准测试我理解就是给 AI 模型做考试对吧看看他们在某些任务上表现怎么样没错就像我们平时考试一样现在有很多评估大型语言模型的考试也就是基准测试但这篇文章的作者却提出了一个质疑这些考试真的能测出 AI 的真本事吗还是只是花架子这是怎么回事难道 AI

考试也有作弊的可能作弊倒不至于但问题出在考题本身作者发现很多现在流行的 AI 基准测试题目里其实有不少错误题目都错了那这考试还有什么意义是你想想如果考试题目本身就有歧义或者答案标错了那即使 AI 答错了也可能不是 AI 本身的问题而是题目挖坑了

这样一来我们就没法准确判断 AI 到底是真不会还是被题目给误导了这就像用一把不准的尺子量身高量出来的数据肯定也不靠谱非常形象所以作者就提出了一个概念叫白金基准意思就是我们要打造像白金一样高质量高纯度的基准测试最大限度的减少题目中的错误和歧义确保我们

我们测出来的结果真正反映 AI 的可靠性白金基准听起来就很厉害那他们是怎么做的呢他们花了很大力气把一些现有的基准测试题目重新审核了一遍就像考古一样仔细检查每一道题纠正错误消除歧义结果发现即使是用这种白金基准来考最先进的大型原模型

他们在一些看似简单的任务上,比如小学难度的数学题、逻辑推理题,仍然会出错。不会吧,现在 AI 都这么厉害了,还会做错小学生题目吗?是这说明什么?说明我们不能光看 AI 在一些复杂任务上表现多经验,也要关注它们在简单任务上的可靠性。作者还发现了一些有趣的翻车模式。

比如他们发现 AI 在处理时间顺序问题时常会犯手事件偏差的错误就是明明知道事件发生的先后顺序但还是会错误的认为是先发生的那个事件是说先入为主的感觉吗有点这个意思还有一个更奇怪的错误叫素数向上取整错误就是 AI 在做除法题时如果正确答案是素数或者除数比较小的时候就容易错误的把结果向上取整

太奇怪了吧,难道 AI 还歧视素数吗?这当然不是歧视,而是说明 AI 在数字属性方面可能存在一些我们意想不到的敏感性总之,这篇文章提醒我们,评估 AI 不能只看能力更要重视可靠性,高质量的基准测试至关重要感觉 AI 考试也需要反作弊和提高试卷质量那接下来我们聊聊第二篇论文吧题目是取样审查和扩展

通过扩展验证进行有效的推理时搜索这个题目听起来就有点技术范这篇论文研究的是如何让 AI 在推理的时候更聪明一点他们提出了一种方法叫做基于采样的搜索你可以把它想象成广撒网精挑细选广撒网精挑细选吗 怎么理解呢就是说当 AI 遇到一个问题时先不要急着给出一个答案而是先生成很多个可能的答案

就像广撒网一样然后再对这些答案进行仔细的审查和验证从中选出最好的那个听起来有点像我们做选择题先猜几个选项然后再仔细分析哪个更靠谱是的思路有点像这篇文章最有趣的发现是他们发现了一个影视扩展现象就是说当他们增加 AI 生成的答案数量时验证的准确性反而提高了答案生成越多验证反而更准这不符合直觉

是听起来有点反直觉,但作者解释说这是因为答案越多,就越有可能包含高质量更容易验证的答案,就像大海捞针捞的次数越多,捞到金针的可能性就越大。原来如此,那他们还提出了什么提高验证效果的秘诀吗?

他們總結了兩個原則第一個原則是比較多個候選答案利用分歧來定位錯誤意思就是說當 AI 生存多個答案時我們可以對比這些答案之間的差異如果答案之間差別很大就說明可能存在錯誤需要仔細檢查就像集思廣益人多力量大嗎

可以这么理解。第二个原则是调整输出风格,思维链适合生成,正式风格更适合验证。意思是说在生成答案时,我们可以让 AI 采用思维链的方式,一步一步的推理,这样更容易生成高质量的答案。而在验证答案时,则可以采用更正式,更严谨的风格,这样更容易发现答案中的错误。感觉就像文风要根据不同场合切换一样。

是的,不同任务需要不同的文风作者还专门设计了一个新的基准测试来评估 AI 的开箱即用验证能力他们发现现在最先进的 AI 模型虽然能力很强但开箱即用的验证能力其实还比较弱还需要进一步提升开箱即用验证能力弱是什么意思是指不用

特别训练模型自己本身的验证能力吗对 就是模型在没有经过专门训练的情况下自己本身的验证能力这篇文章告诉我们即使是很简单的方法只要充分利用计算资源扩展验证规模也能显著提升 AI 的推理能力感觉有点大道至简的意思有时候简单的方法也能发挥大作用接下来我们看看第三篇用 Alpha Gametry

二姐奥林匹克几何问题取得金牌表现听起来就很高大上奥林匹克几何题那可是相当难的没错奥林匹克几何题是出了名的难能解决这类问题确实非常了不起这篇文章介绍的是谷歌 DeepMind 团队开发的 AlphaLinux AGR 系统

它是之前 Alphagametry 的升级版专门用来解决奥林匹克几何题 Alphagametry 听起来就很厉害的名字那这个 Alphagametry2 有什么特别之处呢 Alphagametry2 可以说是 Alphagametry 的全面升级版

首先它扩展了领域语言让他可以处理更复杂的问题比如轨迹问题几何量之间的线性方程等等这样一来他能解决到奥林匹克几何体类型就更多了领域语言是什么意思呢是专门为几何问题设计的语言吗是的你可以理解为一种专门用来描述几何图形和几何关系的行画其次 AGR 采用了更强大更快速的符号引擎

就像 AI 的大脑升级了一样推理速度更快更高效他们还设计了一种新的搜索算法叫做 SCAST 可以更有效的在海量的解题步骤中找到正确的答案听起来就像给 AI 配了一个更强大的大脑和更高效的搜索引擎是的可以这么理解

而且 AJR 还使用了更强大的语言模型就像给 AI 配了一个更厉害的老师可以更好地指导 AI 的解题过程他们还尝试让 AJR 自动进行问题形式化和图表生成

朝着完全自动化又迈进了一步自动形式化和图表生成是不是指 AI 可以自己把文字描述的几何体转换成数学公式和图形是的 这样就更方便 AI 进行推理和求解

最厉害的是 Alpha Chemistry 2 在过去 25 年内的所有国际数学奥林匹克几何题上解题成功率达到了 84%超过了人类金牌选手的平均水平哇 这真是太厉害了 AI 居然能在奥数几何题上超过人类金牌选手简直是学霸中的学霸

确实很惊艳而且作者还发现一个有趣的现象就是词原话器和领域特定语言的选择对 AGR 的性能影响不大词原话器和领域特定语言又是什么意思词原话器你可以简单理解为把句子拆分成词语的工具领域特定语言我们前面也提到了就是专门为特定领域设计的语言作者发现用不用专门为几何问题定制的词原话器和领域语言对 AGR 的解题能力影响

这说明现在的大型语言模型在处理数学问题时已经非常强大和灵活了感觉 AI 真的是越来越聪明了不仅会做题还能做的比人类还好接下来我们聊聊第四篇论文用谐波损失训练可解读人工智能模型这篇论文的名字里提到了可解读感觉和我们之前聊的可解释性 AI 挺相关的是的

可解釋性 AI 現在越來越受到重視這篇文章提出了一種新的損失函數叫做斜波損失損失函數你可以理解為訓練 AI 模型的指揮棒告訴模型學習的方向損失函數還能影響 AI 的可解釋性

这听起来有点神奇是的 传统的交叉伤损失函数虽然效果很好但有一个缺点就是训练出来的模型往往像一个黑箱子我们很难理解模型内部的工作原理而这篇文章提出的谐波损失旨在提升模型的可解释性那这个谐波损失有什么特别之处呢谐波损失有两个主要特点第一个特点是尺度不变性第二个特点是有限的收敛点

这两个特点都有助于提升模型的可解释性尺度不变性和有限的收敛点这听起来有点抽象能解释的更通俗一点吗尺度不变性你可以理解为模型对输入数据的大小不敏感更关注数据的方向和关系有限的收敛点你可以理解为模型学习到的参数会稳定在一个有限的范围内

不会发散到无穷大这两个特点怎么就能提升可解释性呢?因为尺度不变性可以让模型学习到更本质、更鲁邦的特征而有限的收敛点可以让模型的权重更集中、更易于理解作者通过实验证明用谐波损失训练的模型确实在可解释性方面表现更好

比如在图像识别任务中用谐波损失训练的模型学到的权重可以直接对应到图像的类别中心更容易理解听起来就像给 AI 模型装了一个透明化的插件让我们可以更好地看清它的内心世界是的 谐波损失可以看作是一种提升模型可解释性的秘密武器而且作者还发现用谐波损失训练的模型在数据效率方面也更有优势可以用更少的数据达到更好的性能

另外,斜波损失还能减少 Groking 现象。Groking 现象又是什么新名词呢?Groking 现象是指模型在训练初期测试及精度提升很慢,但训练到一定程度后,测试及精度突然爆发是提升的现象,斜波损失可以有效地减少这种现象,让模型的训练过程更平稳。

感觉这个谐波损失还真是个好东西既能提升可解释性又能提高数据效率还能让训练更稳定最后我们再来看看第五篇论文通用西枢自编码器可解释跨模态概念对齐

這篇論文的名字裡提到了跨模態感覺和多模態 AI 有關是的 多模態 AI 也是現在很熱門的方向這篇文章介紹了一種新的框架叫做通用吸收自編碼器 簡稱 UIC 他的目標是發現和對齊

多个预训练深度神经网络之间共享的可解释的概念跨模态概念对齐是什么意思听起来有点绕能解释得更简单一点吗你可以想象一下现在有很多不同的 AI 模型比如有的擅长处理图像有的擅长处理文本有的擅长处理音频

这些模型虽然技能不同但他们在思考问题的时候可能会用到一些共通的概念比如对于猫这个概念图像模型可能会关注猫的外形特征文本模型可能会关注猫的文字描述但他们本质上都在理解猫这个概念嗯

我有点明白了就像不同的人用不同的语言描述同一个事物但表达的都是同一个意思是的 USAE 的目标就是找到这些不同模型之间共享的概念并把它们对齐起来让我们能够更好的理解不同模型是如何思考的

以及它们之间有什么共通之处那这个 USAE 是怎么做到概念对齐的呢 USAE 的核心思想是联合学习一个共享的概念空间就是说它同时从多个模型的激活值中学习训练一个通用的稀疏自编码器这个自编码器可以把来自任何模型的激活值都转换到同一个概念空间中概念空间

听起来有点像一个翻译器把不同模型的语言翻译成同一种通用语言是的

可以这么理解通过这种方式 USAE 就内在的实现了跨模型的概念对齐作者发现 USAE 确实在不同的视觉模型中发现了予以连贯且重要的通用概念这些概念既包括低级特征比如颜色、纹理也包括高级结构比如物体部件甚至物体类别感觉就像刨丁解牛把 AI 模型的思想分解成一个个可解释的概念

是的 USAE 可以帮助我们更深入的理解 AI 模型的内部运作机制作者还提出了一个很有意思的应用叫做协同激活最大化协同激活最大化是什么又是一个新名词这个方法可以可视化同一个通用概念在不同模型中是如何体现的比如我们可以用这个方法看看圆形这个概念在不同的图像模型中会激活哪些不同的神经元呈现出什么样的视觉特征

感覺就像給概念拍了一張 X 光片,讓我們能看到它在不同模型中的骨骼和肌肉。非常形象,總之 USAE 提供了一個強大的新工具,可以幫助我們跨模型的分析和理解 AI 系統,讓我們更好地了解不同模型之間的共性和差異,為構建更通用、更強大的多模態 AI 系統打下基礎。

听完这五篇论文的介绍感觉 AI 领域的研究真是日新月异每天都有新进展新发现从评估 AI 的可靠性到提升 AI 的推理能力再到增强 AI 的可解释性感觉 AI 正在变得越来越聪明也越来越透明是的这几篇论文都代表了 AI 研究的一些重要方向感觉今天的太快报信息量满满收获很大感谢各位听众的收听我们下期再见下期见拜拜