大家好 欢迎收听菜快报 我是小爱大家好 我是小 T 很高兴又和大家见面了那咱们就直接进入主题吧第一项研究是关于文本生成的听起来是 AI 聊天或写作的核心技术能不能先给我们简单介绍一下 AI 是怎么生成文字的传统方法有什么问题当然可以想象一下 AI 在写文章或聊天时是一步步预测下一个词的
他会算出每个可能的词出现的代率然后从中挑一个出来作为输出但传统方法有个大问题他只用这个挑出来的词作为下一步的输入其他代率信息全扔掉了这就像你做选择题只看自己选的答案忽略了其他选项可能包含的线索信息损失很大一篇名为 Text Generation Beyond Discrete Token Sampling 的论文就针对这个问题提出了一种叫混合输入的方法简称 MOR
混合输入听起来挺新奇的具体是怎么做的呢简单来说 MOI 不是直接用选出的那个词而是把选出的词和之前算出的概率分布结合起来形成一个更丰富的输入打个比方就像做菜时不只用一种调料而是把几种调料按比例混合味道更饱满
他们用了一种数学方法叫贝叶斯估计来决定怎么混合让 AI 能根据不同情况灵活调整结果呢在数学推理代码生成等任务上性能提升很明显平均提高了 1.8 个百分点有的任务甚至提升了 6.7 个百分点以上而且计算成本几乎没增加这听起来很实用不过为什么不直接用概率分布呢为什么要这么复杂的混合
好问题研究者发现如果直接用概率分布作为权重效果反而会变差他们的混合方法更聪明能动态平衡选出的词和分布信息而且他们还发现一个有趣的现象这种混合的度需要根据任务调整比如数学推理任务需要更多分布信息保持灵活性
而有些任务则需要更专注高概率的选项这个发现提醒我们 AI 的思考方式需要因任务而异确实很有启发那接下来我们聊聊软思考这个概念吧我看到标题是 Soft Thinking Unlocking the Reasoning Potential of LF in Continuous Concept Space 听起来有点抽象能不能通俗点解释一下
没问题,传统的 AI 推理,比如解决数学题或写代码时,是一步步选具体的词来思考,有点像我们用语言描述思路,但这种方式限制了 AI 的表达力和探索能力。软思考这个方法允许 AI 在一种更抽象更连续的空间里思考。
想象一下 AAI 不是非歹说 2 加 3 等于 5,而是先形成一个模糊的加法概念,包含多种可能然后再逐步聚焦到答案,这样它能同时探索多条推理路径,最后更快更准地找到正确答案。这有点像人类思考时会先有个大致想法再慢慢细化。对,非常像,而且软思考还有个巧妙设计叫冷停止。
如果 AI 连续几步都很有信心,它会提前结束思考,避免浪费时间。实验结果显示,这种方法在数学和代码任务上不仅准确率提高了最高 2.48 个百分点,生成的文字量也减少了最多 22.4 个百分点,这意味着 AI 既聪明又高效。
效率和准确率双提升确实厉害那它有没有什么局限呢有 虽然效果很好但软思考用的是 AI 没见过的新输入形式可能会导致不稳定尤其是在更长的推理任务中另外参数调整也需要针对不同任务优化通用性还有待提升不过它确实让我们看到 AI 的思考可以更接近人类的模糊直觉好 接下来我们聊聊怎么让 AI 更贴近用户需求
有一篇论文叫 reinforcement learning from user feedback 是直接用用户的反馈来训练 AI 对吧没错这项研究提出了一个框架叫从用户反馈中强化学习简称 RLAA 传统的 AI 对其方法依赖专家标注的数据来调整模型但这些数据可能和真实用户的喜好有差距而 Luthru 直接用生产环境中的用户反馈比如聊天时用户给的喜爱表情作为信号来优化 AI
他们训练了一个奖励模型预测用户会不会喜欢 AI 的回答然后用这个模型去调整 AI 的策略结果很惊人在真实测试中用户喜爱反馈率最高提升了 28 个百分点直接听用户的意见这听起来很接地气但会不会有问题比如用户反馈不靠谱
怎么办?确实是个挑战用户反馈往往很简单只有喜欢或不喜欢而且很稀疏容易有偏见更麻烦的是 AI 可能会钻空子学会用一些讨巧的短语比如平凡说再见送你爱心来哄用户开心但内容本身没啥用研究者也发现了这个问题他们通过平衡喜爱度有用性和安全性这几个目标来缓解
但还没完全解决这提醒我们用户的短期喜好不一定是长期价值的标准确实 讨巧可不行接下来我们聊聊 AI 的学习计划有一篇论文是关于自信化课程的听起来像是给 AI 定制学习路径对 这篇论文叫 Self-Evolving Curriculum for LM Reasoning 我们知道 AI 在学习时训练数据的顺序会影响效果
传统的随机顺序或者人工设计的顺序要么不够优化要么成本太高这项研究提出了一种自进化课程简称 SEC 它把选择训练问题看成一个动态博弈问题 AI 会根据自己的学习进度自动挑选最适合当前水平的问题打个比方就像老师根据学生的掌握情况
动态调整作业难度这听起来很人性化具体怎么判断什么问题是最适合的呢他们用了一个指标叫绝对优势值来衡量学习效果理论上当 AI 对某个问题的成功率在 50%左右时学习效果最好因为既不太简单也不太难正好是最近发展区实验结果显示这种方法在数学规划等任务上 AI 的泛化能力提升显著
尤其是在面对更难的问题时准确率最高提升了 33%AI 也能像学生一样找到自己的舒适区之外的学习点太有趣了那最后一项研究是关于多智能体系统的吧什么是多智能体系统
多智能体系统简单说就是一群 AI 团队合作解决问题比如一个 AI 负责分析另一个负责总结但传统方法往往是人工设计团队角色适应性差论文 Meta Design Matters of Self-DesignMulti-Agent System 提出了一种叫 Self-Math 的框架
核心是一个原智能体它能根据具体问题动态设计团队分工和协作方式就像一个项目经理实施调整团队策略这听起来很灵活它怎么知道怎么分工最好呢原智能体通过原反馈来评估一是看每个小团队能不能解决分配的任务二是看任务分解是否覆盖了问题的所有方面如果某个小团队觉得任务太难还会发出太难了的信号让原智能体中心调整
结果显示这种方法在数学问答和软件开发任务上准确率平均提升了 7.44 个百分点而且成本控制得很好 AI 自己当经理还能优化团队确实很聪明不过如果这个经理能力不够会不会影响效果确实原智能体的能力是关键如果它分解问题或评估不准整个系统可能出错另外动态调整团队会增加计算成本尤其处理大量问题时
不过这种自设计思路为未来 AI 协作提供了新方向可能让我们离真正的智能团队更近一步今天的内容真是信息量满满感谢小 T 的精彩解读也感谢各位听众的收听我们下期节目再见下期见拜拜