We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:排行榜幻象与AI推理的突破

AI前沿:排行榜幻象与AI推理的突破

2025/5/1
logo of podcast AI可可AI生活

AI可可AI生活

Transcript

Shownotes Transcript

大家好,欢迎收听太快报,我是小爱。大家好,我是小 T,很高兴我们又见面了。那咱们先从第一个话题开始,AI 排行榜听起来就像给 AI 排个成绩单,但好像没那么简单,对吧?没错,第一篇论文叫 The Leaderboard Illusion,直译是排行榜幻象。

他研究了一個很火的 AI 排行榜叫 Chatbot Arena 這個排行榜通過讓不同 AI 模型互相 PK 根據用戶投票來決定誰更強但論文發現這個排行榜其實有點像鏡中花水中月表面公平實則漏洞百出哇聽起來有點像選秀節目被爆黑幕具體有哪些問題確實有點像論文揭露了幾個大問題

首先有些大公司比如 MetaGoogle 可以在排行榜公开测试前偷偷测试一大堆模型变体比如 Meta 在发布莱玛斯之前测试了 27 个版本然后他们只挑最好的那个成绩上报这就像考试前偷偷做了 27 套卷子只交最好的一份成绩单这也太不公平了吧那其他模型怎么办尤其是开源模型资源少根本玩不起这种刷分游戏

乐文还发现大公司模型的出场率更高每天能被用户测试更多次积累的数据量是开院模型的几倍这就像有的选手能上台唱十首歌有的只能唱一首数据多自然更容易优化这不就是富的更富穷的更穷那排行榜还有啥意义乐文的观点就是排行榜现在更多反映了谁有资源谁会玩规则

而不是谁的模型真正更聪明他们还发现用排行榜的数据优化模型能让模型在排行榜任务上表现超好但在其他任务上几乎没进步这就像学生只备考试题库出了题库就懵了太形象了那他们有什么解决办法吗

他们提出了五个建议比如禁止偷偷撤回分数限制测试变体数量公开所有测试数据和规则这些建议就像给选秀节目装上透明机票箱让大家都能看到谁在干什么听起来很需要这个研究让我觉得 AI 的成绩单背后还有这么多门道接下来咱们聊点更硬核的 AI 怎么学会推理好 接下来是第二篇论文 Reinforcement Learning for Reasoning in Large Language Models with One Training Example

这篇研究让我特别兴奋因为它挑战了一个常识让 AI 学会推理需要海量数据结果呢他们发现只用一个例子就能让 AI 的数学推理能力飞跃一个例子真的假的那是怎么做到的

他們用了一種叫強化學習結合可驗證獎勵的方法簡稱 RLLVR 簡單說就是給 AI 一個數學問題比如一道幾何題然後告訴他正確答案和解題步驟 AI 通過反覆嘗試學會怎麼推理神奇的是他們用一個例子訓練後 AI 在數學測試中的準確率從 36%飆到 73.6%甚至跟用幾千個例子訓練的效果差不多

太夸张了吧就像教小孩做题只给一道例题他就能举一反三对他们还发现了一个有趣的现象叫饱和后泛化意思是 AI 在那个例题上练到几乎百分之百正确后测试成绩还在涨这说明 AI 不是死机硬背而是真的在误触推理的套路

哇这不就像武侠小说里顿悟一样那这个方法有没有啥局限有他们主要在数学推理上测试了其他领域像代码生成还没试而且为啥一个例子这么厉害背后的原理还没完全搞清楚不过这个研究让我觉得 AI 的潜力可能比我们想的更大

也許他腦子裡已經藏了很多本事就差一個鑰匙來解鎖太有意思了這讓我想到未來我們是不是只需要給 AI 一個靈感他就能自己學會很多東西接下來咱們聊聊 AI 怎麼找資料吧

好的 第三篇论文是 reason our training retrievers for reasoning task 他解决了一个很实际的问题 现在的 AI 检索器比如帮 AI 找资料的工具 特别擅长找简单事实比如地球有多大 但如果问题需要推理 比如怎么用几何证明一个定理 他们就抓瞎了 好 我懂了

就像我在网上搜菜谱简单菜谱一堆但想学复杂的分子料理就找不到靠谱教程太贴切了这篇论文提出了一个新检索器叫 reasonir8b 专门为推理任务设计他们还开发了一个数据合成器能自动生成复杂的推理问题和相关资料比如他会从一篇几何教程里生成一个需要推理的问题再配上看起来相关但没用的干扰资料训练 AI 分辨真假

这不就像考试时老师故意放几个陷阱选项的效果怎么样?效果很棒,ReasonIR 在推理任务的检索准确率比现有工具高了一大截,还能帮 AI 回答更难的问题,比如科学推理题,准确率提升了 22.6%,更厉害的是它用很少的计算资源就超过了其他更重的模型,效率高到吓人。

这感觉就像一个超级聪明的图书管理员能一下找到最有用的书那它有什么不足吗?合成数据需要很强的 AI 模型支持成本不低而且目前只是了英文别的语言还没验证不过这个研究让我觉得 AI 未来可能真能变成我们的推理助手

帮我们快速找到解决复杂问题的资料太期待了 接下来咱们聊聊 AI 怎么自我反省第四篇论文是 Toward Evaluate Thinking: Meta-Policy Optimization with Evolving Reward Model 它研究了怎么让 AI 在学习时不被忽悠现在很多 AI 通过奖励机制学习但如果奖励设计有漏洞 AI 可能会钻空子表面得分高 实际没学到真本事

这不就像学生为了高分纸背答案那他们怎么解决他们提出了一个叫原策略优化的框架简称 MPO 想象一下 AI 是个学生普通奖励模型是评分老师原奖励模型是个超级老师专门盯着评分老师看他的评分标准有没有问题如果发现漏洞超级老师就改标准让评分更严格这听起来像给 AI 装入的监考官效果如何

很不错 他们在写作 伦理 推理 数学等任务上测试 MPO 训练的 AI 表现比普通方法好 还能避免钻空子而且这个方法不用人工反复调整 评分标准省了很多功夫这不就是让 AI 自己反省吗 太聪明了 有什么缺点吗缺点是超级老师本身得够聪明 不然改标准也可能出错

还有数学推理的提升没其他任务那么明显可能因为数学太依赖逻辑细节不过这个研究让我觉得 AI 如果能学会反思自己的思考可能会更像人类哇这感觉离真正智能又近了一步最后一个话题是什么

最后一篇是 Local Prompt Optimization 研究怎么让 AI 的提示更高效提示就像我们给 AI 的指令但设计一个好提示特别难传统的自动优化方法会把整个提示翻来覆去改效率很低哦

写个 type 改来改去反而越改越乱对他们提出了局部提示优化简称 LPO 核心是先找出提示里最关键的几个词只改这些词比如提示里有句话请详细解释可能只改详细这个词换成深入或简洁其他部分不动这就像给提示做微调性指动关键部位效果咋样很厉害 LPO 在数学推理复杂任务

甚至真实世界的生产提示上准确率提升了 1.5%到 6%而且优化速度更快更重要的是用户可以控制哪些部分能改哪些不能改非常实用这感觉像给 AI 提示装了个准确导航有什么不足吗

目前主要在英文上测试其他语言还没验证而且优化时可能过分追求高分忽略了一些简单问题不过这个方法让我觉得 AI 的优化可以像外科手术一样准确未来可能会让 AI 用起来更省心太棒了今天的五个话题让我觉得 AI 研究真是既硬核又有趣感谢大家的收听我们下期节目再见下期见拜拜