大家好欢迎收听太快报我是小爱今天我们要聊一些特别有趣的 AI 研究主题是 AI 如何思考和做决策今天我们会聊五篇最新的 AI 研究论文主题从如何控制 AI 的思考时间到让 AI 像数学家一样推理甚至模仿人类的决策过程这些研究不仅技术含量高还能让我们看到 AI 未来的潜力听起来真酷那我们先从哪里开始
先从一篇很有意思的研究聊起吧标题是用强化学习控制推理模型的思考时间想象一下如果 AI 是个学生你能告诉他这次考试你只能想 10 秒钟他还能给出正确答案这可能吗哇 这有点像考试时盯着钟表的紧张感
AI 能做到吗?能研究者们提出了一种方法叫长度控制策略优化,简称 LCPO。用这个方法他们训练了一个叫 LE 的 AI 模型,可以根据你给的时间限制调整自己的思考长度。比如你说用 50 个字解决问题,他就尽量在 50 个字内给出答案。
更厉害的是这个 L1 模型在数学推理上比之前的方法强了 100 个百分点甚至在短思考时间下还能超过像 GPT-4O 这样的大模型等等 短时间思考还能打败大模型这怎么可能这确实是个意外发现
研究者发现如果 AI 学会了长时间思考的策略反而能在短时间内更高效地抓住重点就像一个人平时练习长跑突然跑短跑也能爆发力惊人 AI 模型还能根据任务难度自己调整策略比如时间多就多检查几遍时间少就直奔答这让我想着平时我们用手机 AI 助手时有时想要快点回答有时想让他多解释几句这种技术是不是能让 AI 更灵活
完全正确,LE 的意义就在于它让 AI 的思考成本和准确性可以灵活平衡未来你的 AI 助手可能会问老板我有 10 秒还是 1 分钟来回答这对节省计算资源也很重要尤其在手机或小型设备上
真希望我的手机 AI 快点学会这个接下来呢第二篇研究叫 TRACT 全称是回归感知微调与思维链推理这是关于如何让 AI 当评委的想象一下 AI 要被作文打分它不仅要说出分数还得解释为什么
这不就是老师批作业吗 AI 能学会这种细致活对研究者设计了一个两阶段训练法第一阶段 AI 先学会一步步推理比如这个句子结构好分数加二分第二阶段他用自己生成的推理再去微调自己这种方法让 AI 评分更准比之前的最强模型 Promiseus2 还要好关键是他用了一种回归感知的方式让 AI 明白评分是个数字问题不只是随便说好或坏
有点像让 AI 即当裁判又写判决书这有什么实际用处非常多比如自动评分考试评估客服对话质量甚至审查代码 Track 让 AI 不仅能打分还能解释原因这样我们就能信任他的判断而且他在算力少的时候也能保持稳定
特别适合实际应用听着真靠谱那第三篇是什么第三篇叫超越缩放率研究者想弄清楚除了让 AI 模型更大数据更多还有什么能影响它的表现他们分析了 92 个开源 AI 模型发现设计细节也很关键设计细节比如什么比如训练数据里有多少代码
如果代码占 15%到 25%AI 在编程任务上表现最好但如果太多语言任务就受影响还有模型内部的结构比如怎么处理单词的位置也会影响结果他们甚至通过让 AI 随便说话猜出他训练使用了什么数据这有点像侦探工作那这对造 AI 有什么启发
原来 AI 也有饮食搭配的学问
第四篇是《混合自然辨分》高斯过程听起来复杂但其实很有趣它研究怎么让 AI 从人类的反馈里学东西比如你在 VR 里找东西 AI 能猜你看到了什么还能根据你有多自信来调整自己的判断自信
自信这 AI 还能读心了不是读心而是用了一种叫 like tutor 尺度的方法你知道那种调查问卷比如非常同意到完全不同意 AI 用这个来理解你的信心比如你说我很确定这个表面很粗糙 AI 就更相信你的反馈这种方法在视觉触觉和机器人步态优化上都提高了效率这让我想着机器人以后是不是能更快学会人类的喜好
對極了它特別適合人機合作場景比如設計更舒服的 VR 體驗或者讓機器人走路更自然關鍵是它把人類的知識和信心都融進去了最後一篇呢最後一篇是投幣足夠多次能讓 AI 表現像貝耶斯研究者讓 AI 猜硬幣正反面發現他一開始有點偏心喜歡猜正面但只要給他看夠多例子他就能像數學家那樣算概率更新自己的猜測
这不就是统计学里的贝耶斯方法吗 AI 也能学会是的他通过上下文学系做到这一点你给他看几次投币结果他就调整自己的想法更神奇的是他还更重视最近的例子有点像我们寄心先试更清楚这说明 AI 有潜力做更复杂的决策不只是鹦鹉模式所以 AI 也能像人一样边学边改差不多而且研究发现这种能力不完全靠模型大小而是靠你给他的例子够不够多
这对未来 AI 做预测比如天气预报或股票分析可能都有帮助太有趣了这五篇研究让我觉得 AI 不仅在变聪明还在学着更向人思考小 T 你觉得这些研究的共通点是什么好问题他们都在探索怎么让 AI 更灵活更高效更贴近人类的需求无论是控制思考时间评分推理还是从反馈和数据里学习都是为了让 AI 更好的服务现实世界说得好
看来 AI 的未来不只是技术突破还有更多人性化的可能好了今天的太快报到这里大家下期再见下期见拜拜