大家好 欢迎收听太快吧 我是主持人小爱大家好 我是小 T 很高兴我们又见面了好的 我们先聊聊第一篇研究标题听起来有点拗口 叫做分布接近核实 意味着表示相似简单来说就是在探讨两个 AI 模型如果输出结果很相似是不是意味着他们的思维方式也差不多
没错,这个问题其实非常核心想象一下两个学生考试成绩差不多你可能会觉得他们的解题思路也差不多,对吧?但这篇研究告诉我们,在 AI 模型里,事情没那么简单研究者发现,即使两个模型的输出结果几乎一模一样他们的内部思维方式,也就是他们处理数据的中间步骤可能完全不同这有点反直觉
为什么会这样呢?这是因为模型的输出相似性,通常用一种叫 KL 散度的指标来衡量它,只看结果的概率,分布有多接近,却不关心模型内部是怎么得出这个结果的。研究者通过理论证明和实验发现,模型可以通过一些计量,比如调整内部参数的规模或者排列方式,让输出看起来一样,但内部处理数据的模式完全不一样。打个比方,
就像两个厨师做出来的蛋糕味道一样但一个用的是传统烤箱另一个可能用微波炉步骤和工具完全不同原来如此那这对我们有什么影响呢如果只是内部不同但结果一样好像也没什么问题吧
其实影响很大比如在模型优化或者知识转移的时候我们常假设输出相似内部也相似但如果这个假设不成立我们的优化方向可能就错了研究者还提出了两个新的衡量工具一个是用来更精确的比较输出差异
另一個是用來評估內部思維方式的相似度他們證明用新工具判斷輸出相似時才能更有把握的說明內部也相似這對未來設計更可信的模型比較方法有重要啟發聽起來確實是打開了新思路
那未来如果我们能更精准的了解模型的思维,是不是也能设计出更聪明更可控的 AI 呢?绝对有可能,这也提醒我们,AI 的研究不只是追求结果好,还要搞清楚为什么好,这才能真正推动技术进步。接下来我们聊聊强化学习,这篇研究说的是缩短时间视野提升强化学习的可扩展。
听起来像是让 AI 更快学会复杂任务正是如此强化学习是让 AI 通过试错来学习的方法比如让一个机器人学会走路或者玩游戏但问题在于如果任务很复杂需要很长时间才能完成一个目标 AI 就会遇到一个叫时间诅咒的问题简单来说就是任务时间越长 AI 犯错的机会越多错误积累起来就很难学到正确的策略
就像教孩子学骑车如果让他一次骑很远的路摔几次就放弃了但如果先学短距离慢慢加长可能就容易多了对 非常贴切的比喻研究者发现传统的强化学习方法在面对超长时间任务时
即使给再多数据和计算资源效果也不好他们提出了一个解决方案就是缩短时间视野把长任务拆成多个短任务来学比如让 AI 不是一次学会走一公里而是先学会走十米再逐步加长距离
他们还设计了一个新方法叫 SASA 把任务拆解成高层目标和低层动作效果非常显著在一些复杂机器人任务上取得了突破这听起来很实用那是不是意味着未来 AI 可以更快的学会像人类一样处理复杂问题比如自动驾驶或者家务机器人确实有这个潜力嗯
不过研究也提到即使缩短了时间视野有些任务还是没法完全解决说明强化学习的扩展性还有很多非挑战但这种分而治之的思路已经为我们指明了方向好 接下来我们聊一个特别有意思的话题 AI 自己学写代码这篇研究提出了一个叫 Cure 的框架让 AI 同时进化出写代码和测试代码的能力这怎么实现的
小矮这个框架的核心思想很巧妙,叫做协同进化想象一下两个学生,一个负责写作业,另一个负责检查作业写作业的学生会犯错,检查的学生从错误中学习怎么分辨好坏而检查的学生越准,写作业的学生就越能改进这两个角色都在一个 AI 模型里通过互相较量来进步最重要的是,不需要老师提供标准答案
哇,这就像 AI 自己玩猫捉老鼠的游戏互相促进那效果怎么样?效果非常不错研究者用这个框架训练的模型在写代码的准确率上提高了 5%以上在选择最佳代码的测试中提高了 9%
更厉害的是它还能生成高质量的测试用力甚至可以用来帮助其他 AI 模型改进这意味着未来我们可能不需要大量人工标注的代码数据就能训练出很强的编程 AI 这对程序员来说可是大新闻以后 AI 会不会取代程序员呢
这个话题确实有争议一方面 AI 能自动写代码和测试会大大提高开发效率尤其是一些重复性的工作另一方面复杂的创意性编程和系统设计可能还是需要人类的洞察力我觉得 AI 更可能是程序员的得力助手而不是完全替代听众朋友们你们怎么看呢
接下来我们聊聊生成模型,这篇研究提出了一个叫 FOLA 的方法,用来训练一种叫硅胰化硫的模型。生成模型是干嘛的?能简单说说吗?当然,生成模型是用来创造数据的 AI,比如生成逼真的图片,声音,甚至是分子结构。
规划流是一种特别的生成模型优点是生成速度快而且能精确计算数据的可能性但在训练是有个大问题计算成本非常高因为要处理一些复杂的数学变换 Ford 这个方法就像给训练过程开了个快车道完全绕过了最耗时的计算步骤用一种更简单的方式让模型学习如何生成数据听起来像是简化了流程
那效果有没有打折扣呢没有反而更好研究者在分子结构生成的任务上测试了 FORCE 发现它生成的样本质量比传统方法更高还能捕捉到更多细节而且这个方法让一些之前很难训练的模型结构变得可行
未来可能在药物设计、材料科学等领域大放异彩这太酷了如果能快速生成新分子结构说不定能加速新药研发造福很多人呢?确实如此 Ford 的创新在于它证明了有时候换个角度看问题避开技术瓶颈就能找到更高效的路这对 AI 在科学领域的应用是个很大的启发
最后我们聊聊大语言模型的微调技术这篇研究提出了一个叫 LIFT 的方法说是可以更高效的提升 AI 的推理能力具体是怎么回事小爱大语言模型就像一个超级聪明的学生知识很广但要让他在特定任务上表现好比如数学推理就需要微调也就针对性训练
也就是指訓練關鍵部位,其他地方保持原樣。
没错,结果是 LIFT 不仅节省了大量计算资源,效果还比调整全部参数更好,尤其是在推理任务上,比如解决数学题或者逻辑问题。更重要的是它还能保留更多原来的知识,不容易忘事。这就像是给模型做了一次精准的脑部手术,只强化关键区域。太有意思了,那这对我们普通人有什么好处呢?
好处在于未来我们可以用更少的资源训练出更聪明更专注的 AI 助手比如手机上的语音助手可能不需要云端支持就能快速适应你的需求解答问题这对隐私保护和节能都有帮助今天的五篇研究真是让我大开眼界感谢小 T 的精彩讲解也感谢大家的收听下期节目再见下期见拜拜