We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：从控制思考长度到大模型的贝叶斯化

2025/3/8

AI可可AI生活

AI Deep Dive AI Chapters Transcript

People

小

小爱

Topics

小爱：我总结了五篇最新的AI前沿研究论文。首先，关于如何控制AI思考时间的论文，研究者提出了一种名为长度控制策略优化（LCPO）的方法，训练了一个名为LE的AI模型，该模型可以根据给定的时间限制调整其思考长度，甚至在短思考时间内超越大型模型如GPT-4。这表明AI可以在思考成本和准确性之间取得灵活的平衡，对节省计算资源具有重要意义。其次，关于AI评分的TRACT模型，它通过两阶段训练法，结合思维链推理，能够更精准地进行评分并解释评分原因，优于之前的模型，并且在算力较低的情况下也能保持稳定。这在自动评分、评估对话质量等方面具有广泛的应用前景。第三，一篇关于超越缩放率的研究，分析了92个开源AI模型，发现除了模型大小和数据量，模型的设计细节，例如训练数据组成和模型内部结构，也会深刻影响AI的性能。例如，训练数据中代码的比例会影响AI在编程和语言任务上的表现。第四，混合似然变分高斯过程的研究，探索了如何利用人类反馈和信心水平来提升AI学习效率，这在人机合作场景，例如VR体验设计和机器人步态优化方面具有显著的优势。最后，一篇关于贝叶斯推理的研究表明，AI可以通过上下文学习模仿贝叶斯推理，并根据新信息更新其概率估计。这种能力不完全依赖于模型大小，更多地取决于训练数据的数量和质量，对未来AI进行预测具有重要意义。总而言之，这五篇论文共同探索了如何使AI更加灵活、高效、并贴近人类需求，更好地服务于现实世界。

Deep Dive

Shownotes Transcript

大家好欢迎收听太快报我是小爱今天我们要聊一些特别有趣的 AI 研究主题是 AI 如何思考和做决策今天我们会聊五篇最新的 AI 研究论文主题从如何控制 AI 的思考时间到让 AI 像数学家一样推理甚至模仿人类的决策过程这些研究不仅技术含量高还能让我们看到 AI 未来的潜力听起来真酷那我们先从哪里开始

先从一篇很有意思的研究聊起吧标题是用强化学习控制推理模型的思考时间想象一下如果 AI 是个学生你能告诉他这次考试你只能想 10 秒钟他还能给出正确答案这可能吗哇这有点像考试时盯着钟表的紧张感

AI 能做到吗?能研究者们提出了一种方法叫长度控制策略优化,简称 LCPO。用这个方法他们训练了一个叫 LE 的 AI 模型,可以根据你给的时间限制调整自己的思考长度。比如你说用 50 个字解决问题,他就尽量在 50 个字内给出答案。

更厉害的是这个 L1 模型在数学推理上比之前的方法强了 100 个百分点甚至在短思考时间下还能超过像 GPT-4O 这样的大模型等等短时间思考还能打败大模型这怎么可能这确实是个意外发现

研究者发现如果 AI 学会了长时间思考的策略反而能在短时间内更高效地抓住重点就像一个人平时练习长跑突然跑短跑也能爆发力惊人 AI 模型还能根据任务难度自己调整策略比如时间多就多检查几遍时间少就直奔答这让我想着平时我们用手机 AI 助手时有时想要快点回答有时想让他多解释几句这种技术是不是能让 AI 更灵活

完全正确,LE 的意义就在于它让 AI 的思考成本和准确性可以灵活平衡未来你的 AI 助手可能会问老板我有 10 秒还是 1 分钟来回答这对节省计算资源也很重要尤其在手机或小型设备上

真希望我的手机 AI 快点学会这个接下来呢第二篇研究叫 TRACT 全称是回归感知微调与思维链推理这是关于如何让 AI 当评委的想象一下 AI 要被作文打分它不仅要说出分数还得解释为什么

这不就是老师批作业吗 AI 能学会这种细致活对研究者设计了一个两阶段训练法第一阶段 AI 先学会一步步推理比如这个句子结构好分数加二分第二阶段他用自己生成的推理再去微调自己这种方法让 AI 评分更准比之前的最强模型 Promiseus2 还要好关键是他用了一种回归感知的方式让 AI 明白评分是个数字问题不只是随便说好或坏

有点像让 AI 即当裁判又写判决书这有什么实际用处非常多比如自动评分考试评估客服对话质量甚至审查代码 Track 让 AI 不仅能打分还能解释原因这样我们就能信任他的判断而且他在算力少的时候也能保持稳定

特别适合实际应用听着真靠谱那第三篇是什么第三篇叫超越缩放率研究者想弄清楚除了让 AI 模型更大数据更多还有什么能影响它的表现他们分析了 92 个开源 AI 模型发现设计细节也很关键设计细节比如什么比如训练数据里有多少代码

如果代码占 15%到 25%AI 在编程任务上表现最好但如果太多语言任务就受影响还有模型内部的结构比如怎么处理单词的位置也会影响结果他们甚至通过让 AI 随便说话猜出他训练使用了什么数据这有点像侦探工作那这对造 AI 有什么启发

原来 AI 也有饮食搭配的学问

第四篇是《混合自然辨分》高斯过程听起来复杂但其实很有趣它研究怎么让 AI 从人类的反馈里学东西比如你在 VR 里找东西 AI 能猜你看到了什么还能根据你有多自信来调整自己的判断自信

自信这 AI 还能读心了不是读心而是用了一种叫 like tutor 尺度的方法你知道那种调查问卷比如非常同意到完全不同意 AI 用这个来理解你的信心比如你说我很确定这个表面很粗糙 AI 就更相信你的反馈这种方法在视觉触觉和机器人步态优化上都提高了效率这让我想着机器人以后是不是能更快学会人类的喜好

對極了它特別適合人機合作場景比如設計更舒服的 VR 體驗或者讓機器人走路更自然關鍵是它把人類的知識和信心都融進去了最後一篇呢最後一篇是投幣足夠多次能讓 AI 表現像貝耶斯研究者讓 AI 猜硬幣正反面發現他一開始有點偏心喜歡猜正面但只要給他看夠多例子他就能像數學家那樣算概率更新自己的猜測

这不就是统计学里的贝耶斯方法吗 AI 也能学会是的他通过上下文学系做到这一点你给他看几次投币结果他就调整自己的想法更神奇的是他还更重视最近的例子有点像我们寄心先试更清楚这说明 AI 有潜力做更复杂的决策不只是鹦鹉模式所以 AI 也能像人一样边学边改差不多而且研究发现这种能力不完全靠模型大小而是靠你给他的例子够不够多

这对未来 AI 做预测比如天气预报或股票分析可能都有帮助太有趣了这五篇研究让我觉得 AI 不仅在变聪明还在学着更向人思考小 T 你觉得这些研究的共通点是什么好问题他们都在探索怎么让 AI 更灵活更高效更贴近人类的需求无论是控制思考时间评分推理还是从反馈和数据里学习都是为了让 AI 更好的服务现实世界说得好

看来 AI 的未来不只是技术突破还有更多人性化的可能好了今天的太快报到这里大家下期再见下期见拜拜

AI前沿：从控制思考长度到大模型的贝叶斯化 06:32 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：从控制思考长度到大模型的贝叶斯化