大家好 欢迎收听本期开快报 我是小爱大家好 我是小 T 很高兴和大家一起聊聊 AI 的最新进展咱们先从一篇关于 AI 推理能力的论文聊起标题是 The Illusion of Thinking 这篇研究似乎在质疑 AI 是否真的会思考能不能给我们简单讲讲这是怎么回事当然可以
这篇研究主要探讨的是当前一些最先进的 AI 推理模型也就是那些能生成详细思考过程的模型它们的真实能力到底如何研究者用了一些经典谜题比如汉诺塔和过河问题来测试这些模型他们发现当问题复杂到一定程度时即使模型有足够的时间和资源去思考它们的准确率也会完全崩塌更有意思的是在简单问题上这些模型有时候还会想太多明明早就找到答案
听起来挺有意思,但为什么会这样呢?他们不是号称很聪明吗?这就是研究的核心洞见,他们认为,这些模型可能并不是在真正推理,而更多是在模仿训练数据中的模式。打个比方,就像一个学生背了很多解题套路,但在面对新颖问题时就傻眼了。
而且研究还发现这些模型在面对明确给出的解题步骤时也很难正确执行这说明他们在精确逻辑和算法执行上的能力其实很有限
那这对我们理解 AI 有什么启发呢是不是说 AI 的思考只是个假象可以这么说研究提醒我们 AI 看似聪明但它的思考可能只是表面上的文字游戏背后缺乏人类那样的逻辑深度这也告诉我们不能盲目相信 AI 尤其是在关键决策领域
同时研究还提出了一个新方法用可控的谜题环境来测试 AI 能力而不是依赖可能被污染的标准测试题库这种方式能更真实的反应模型的强项和短板就是发人深信接下来我们聊聊另一篇研究 Beyond the 80-20 Rule 这篇论文好像找到了一种更高效的方法来提升 AI 的推理能力给我们揭秘一下吧好
好,这篇研究聚焦于如何通过强化学习来提升 AI 语言模型的推理能力他们发现在 AI 生成推理过程的文字中只有大约 20%的关键词语是真正决定推理方向的就像路上的岔路口选对了就能通向正确答案而其他大部分文字只是填充内容作用没那么大
基于这个发现他们提出只针对这 20%的关键点进行优化就能达到甚至超过对所有内容都优化的效果这听起来就像是抓住了问题的核心省时省力那实际效果如何呢效果非常惊人在一些数学推理测试中
这种方法让大模型的得分提高了 10 分以上而且这种策略在模型规模越大时效果越好显示出很强的扩展潜力简单来说就是用更少的计算资源换来了更大的能力提升这确实是个突破那有没有什么局限性呢有研究主要在数学推理领域测试是否适用于其他类型的任务还需要进一步验证而且如何动态确定哪些是内关键的 20%也是一个挑战
但这个思路无疑为未来的 AI 训练提供了一个更聪明更高效的方向好我们再来看一篇很有趣的研究 Self-Challenging Language Model Agent 这篇论文提出了一个让 AI 自己给自己出题的框架
这听起来怎么有点像自学成才确实很像这个框架叫自我挑战智能体核心想法是让 AI 扮演两个角色一个是出题者通过与环境互动生成任务另一个是解题者在这些自创任务上通过强化学习提升能力举个例子
想象一个 AI 在模拟商店环境中他可能会自己设计一个任务比如帮顾客找到特定商品然后自己尝试解决并从结果中学习这真是太有创意了那他自己出的题质量怎么样会不会太简单或者太难为了保证任务质量研究者设计了一种叫代码级任务的形式
每个任务都包含指令验证方法和视力解法确保任务既可行又有挑战性实验结果也很亮眼在一些工具使用任务中 AI 的成功率翻了一倍以上尤其是在零售和网页浏览这种复杂环境中表现突出那这种方法有没有什么不足呢
當然有,比如 AI 自己生成的題目有時還是會有問題,可能指令不夠清晰,導致任務無法完成。而且這種方法目前對特定環境有效跨領域的通用能力還有待提升。但總的來說,這種自學模式為 AI 擺脫對人工標註數據的依賴打開了一扇新窗戶,真是讓人眼前一亮。
接下来我们聊聊 Rewarding the Unlikely 这篇论文标题听起来像是奖励不可能这是在说什么这篇研究关注的是如何通过强化学习提升 AI 的推理能力尤其是在数学定理证明这种需要逻辑严谨的领域他们发现传统的强化学习方法有一个问题就是倾向于强化 AI 已经擅长的事情而忽略那些他觉得不太可能但实际上正确的答案
打个比方就像一个学生总是重复练习自己会的题目而不去挑战新领域结果整体进步很有限那他们怎么解决这个问题呢他们提出了一个叫非相似性奖励的方法专门鼓励 AI 去尝试那些他认为不太可能但正确的解法结果非常好
在多次尝试的测试中 AI 的成功率显著提高尤其是在需要多样化解决方案的场景中这就像告诉学生别老走老路试试新思路往往会有惊喜这听起来很实用有没有可能用到其他领域呢理论上是可以的但目前研究主要在定理证明领域测试因为这里有完美的验证机制如果换到奖励不那么明确的领域比如创意写作这个方法的表现还需进一步探索
不过这种鼓励反直觉探索的思路对 AI 学习多样性解决方案有很大启发最后我们来聊聊机器人领域的创新研究 SMOVLA 这篇论文提出了一种小型高效的视觉语言动作模型能不能给我们讲讲这是什么
简单来说,这是一个专为机器人设计的 AI 模型,目标是让机器人在普通硬件上也能高效工作,它结合了视觉语言和动作能力,比如能看懂图像,理解指令,然后执行任务,关键创新在于它体积小成本低。
可以在消费级电脑上运行而且是用社区收集的数据训练的数据量比传统方法少很多但效果却能媲美大模型这听起来很接地气具体有哪些应用场景呢比如在真实世界中它可以控制机器人完成取放物品堆叠物体或者分类任务成功率达到 78%以上
比一些大模型还高更厉害的是他们设计了一种一步处理方式机器人一边执行当前任务一边思考下一步动作大大提高了效率想象一个机器人服务员他能一边端盘子一边计划下一桌的订单效率翻倍这对普通人来说意味着什么呢是不是离家用机器人更近了确实是这样 Small VLA 降低了机器人 AI 的成本和技术门槛
未来可能让家用机器人或者小型工业机器人变得更普及不过它目前在复杂长任务上的表现还有待提升比如需要多步规划的家务活可能还需要更多训练但这种小而美的设计理念绝对是机器人领域的一大进步今天的讨论真是信息量满满希望大家通过今天的节目对 AI 的前沿动态有了更多了解也能对它的潜力和挑战有更深的思考
我们下期再见下期见拜拜