欢迎收听新一期的太快报,我是小爱。大家好,我是小 T,很高兴能和大家分享最新的研究进展。听起来很有趣,那我们先从第一篇论文开始,它的名字是 Supposedly Equivalent Facts Starring Autistic Frequency in Pre-training Induces Asymmetry in TLM。这个标题听起来有点复杂,能不能简单解释一下它在研究什么?
当然可以,这篇论文的核心问题是大型语言模型我们平时用来生成文本的那些智能系统在判断一些看似逻辑等价的事实时其实会有偏见比如说猫喜欢吃鱼和鱼被猫喜欢这两个说法在逻辑上是一样的
但模型更擅长识别其中一个,这是因为模型在训练时接触到的数据中有些词出现的频率更高,比如猫比鱼更常见,这种频率差异让模型在处理信息时产生了偏心。哇,这听起来有点像人类也会犯的错误,那研究是怎么发现这个问题的呢?
研究团队用了一个很巧妙的方法他们利用了一个完全开源的语言模型 OliFL 和他的训练数据 DOMA 分析了里面各种实体比如猫或鱼出现的频率他们还设计了一个特殊的测试集从知识库 WeData 中抽取事实对
比如猫喜欢吃鱼和它的逆向鱼被猫喜欢然后看模型的表现结果发现如果一个事实的主语比如猫在数据里出现的很频繁而兵语比如鱼出现的少模型就更容易正确识别这个事实反过来就不太行这说明模型的记忆其实很大程度上依赖于它见过的次数而不是逻辑的绝对正确性这真是个有趣的发现
这种偏见对我们日常使用 AI 会有什么影响呢?这确实是个值得思考的问题,比如当我们问 AI 一些不常见的事实时,它可能会给出错误或不完整的答案,甚至胡编乱造。研究还发现这种偏见在币源模型,比如一些大公司的商业模型中也很普遍。
这提示我们未来在训练 AI 时需要更注意数据平衡,确保各种实体都有足够的曝光率。同时这也为我们反推那些不公开数据的模型提供了思路,通过观察它们的输出,我们可以猜测它们的训练数据可能是什么样的。
听起来像是在解谜那我们再来看第二篇 Exploding Mixture of ExpertsRedundancy Unlocks Multimodal Generative Abilities 这个标题听起来更像是在说魔法能不能用一个生活中的例子解释一下好注意想象你有一个万能工具箱里面有各种工具比如锤子 螺丝刀但有些工具你很少用基本就占地方这篇
太酷了,那他們是怎麼做到的?
他们设计了一种叫 plora 的方法只对新任务比如生成图片的相关部分做小幅调整而不是全盘改动这样既保留了模型原来的文字生成能力又让他学会了新技能他们还用了一种数学上的初始化技巧
类似给工具箱里的新工具上好油确保它们能快速上手实验证明这种方法用很少的额外资源就能让模型同时生成高质量的文字和图片效率非常高这让我想到多功能手机从打电话到拍照一机多用那这种技术未来能应用在哪里呢应用前景很广
比如未来我们可以用一个模型同时写文章和设计封面图或者在教育中让 AI 既讲解知识又展示相关图片或视频更重要的是这种方法成本低 扩展性长可能让更多公司和小团队也能开发多模态 AI
而不是只靠打场真让人期待那第三篇 think before recommendunleashing the latent reasoning powerfor sequential recommendation 听起来像是推荐系统里的深思熟虑没错这篇论文挑战了传统推荐系统的思路平时我们用视频网站或电商平台时推荐系统会根据你之前的浏览记录直接猜你下一个想看或买什么但研究发现这种直接下结论的方式有时不够聪明
尤其对一些冷门物品或新用户效果不好论文提出了一种叫 realic 的新框架让推荐系统在推荐之前多想几步类似人类在做决定前会回顾和推理这有点像我们在购物前会问自己这个东西我真的需要吗没错 real 通过让模型反复自问自答加深对用户需求的理解比如他会看你之前的浏览历史反复推敲哪些模式更重要然后再给建议
实验证明这种方法能让推荐更准确尤其是对那些很少被关注的常味物品比如小众书或独立品牌的产品效果提升了 7%多而速度影响很小只有 3%左右的延迟这对电商和内容平台来说真是福音那第四篇和第五篇呢他们又带来了什么新东西
第四篇 Is best of one, the best of them 研究的是语言模型在推理时的对齐问题简单来说当 AI 生成回答时我们希望它跟我们的预期越接近越好传统方法叫 Best of N 就是从多个候选答案中挑最好的
但论文发现这种方法有时会聪明反被聪明误因为奖励机制可能被钻空子导致答案质量下降他们提出了一种新算法 Inference Time Pessimism 通过更谨慎的选择避免这种问题效果更好第五篇 Shoppy Ratio Guided Active Learning for Preference Optimization in RLHF 则解决了一个实际难题训练 AI 需要大量人类反馈但人工标注很贵
他们用了一个金融理的概念下谱比率来挑选最值得标注的数据相当于投资时挑风险和收益最平衡的股票结果证明这种方法用更少的数据就能让 AI 学得更好成本降低了性能还提升了听起来这些研究都在解决 AI 的痛点效率准确性和成本对普通人来说这些进步意味着什么呢对普通人来说
在普通人来说,这些进步意味着 AI 会变得更聪明,更实用,比如聊天机器人会少出错,推荐系统会发现更多你真正喜欢的东西,图片和文字结合的工具会更方便生活和工作。同时,这些研究也提醒我们,AI 的背后有很多细节需要优化,比如数据质量和算法设计,未来我们可能会看到更多这样的突破,让 AI 真正成为我们的好帮手。
太棒了今天的内容真是让人大开眼界感谢小 T 的精彩讲解也感谢大家的收听我们下期太快报再见下期见拜拜