欢迎来到太快报,我是小爱。大家好,我是小 T,很高兴和大家见面了。那咱们赶紧开始吧,第一篇是什么?第一篇论文标题是 Reasoning to Learn from Latent Thoughts,翻译过来就是从潜在思维中推理学习。研究者们提出了一种新思路,让 AI 在学习语言时不只是盯着文本表面,而是试着猜出文字背后人类的思考过程。
听起来有点玄乎哎呀还能猜我们的想法其实没那么神秘想象一下你写数学作业时答案可能是 42 但你脑子里其实经历了一堆计算和推理传统 AI 训练就像只看答案 42 然后拼命记下来
但这篇研究说,如果 AI 能模拟你脑子里的计算步骤,也就是那些潜在思维,它就能学得更聪明、更省力。有点像老师教我们解题时说要写出过程而不是只给个答案。对极了,他们设计了一个叫引导潜在思维的方法,简称 BOT,用一个厉害的老师模型,比如 GPT-4 or MINI,先生成这些思维过程。
然后让 AI 一边学这些过程一边自己改进结果呢在数学问题上 AI 用更少的数据就达到了更高的准确率比如从 5.7%跳到 25.4%哇这效率提升也太夸张了吧
那它是怎么做到的?核心是个循环改进的过程 AI 先猜一个思维过程学着用它解决问题然后再根据结果调整自己的猜测越来越接近人类解题的逻辑打个比方就像你学骑自行车开始歪歪扭扭但摔几次后就找到平衡了
这让我想到未来 AI 会不会像人一样举一反三?完全有可能,论文里提到这种方法让 AI 在数学之外的领域也有潜力,比如它能从无关的数据里悟出推理能力,这不就是我们人类擅长的吗?从生活经验里摸索规律。真厉害,不过有没有什么短板?
由他们的实验主要在数学领域用的还是个 11 亿参数的小模型如果换成更大的模型或者更复杂的任务会不会还这么有效还能再试试而且这个猜思维的过程有时候也会猜偏影响效果
明白了 AI 模仿人类思维这条路还挺长接下来呢第二篇论文是 Generative AI for Validating Physics Laws 研究团队用生成式 AI 验证了一个经典物理定律斯特帆布尔兹曼定律这个定律说恒星的温度越高它发出的光就越亮这不就是科学课本里的东西吗 AI 还能
還能玩出什麼新花樣你說得對這個定律本身不新但現實世界很複雜恆星不是完美的黑體溫度也不均勻還有大氣干擾傳統方法驗證起來總有點誤差這次他們用 AI 模擬了如果恆星溫度變高或變低
光亮会怎样的场景准确的填补了真实数据里看不到的空白有点像给恒星做虚拟实验没错他们用深度神经网络分析了盖亚 IBR3 数据库里的恒星数据发现温度对光亮的影响确实跟定律预测一致
而且还挖出新东西恒星越大温度的影响越明显但月亮的恒星对温度变化反而更敏感这让我想到 AI 是不是能帮科学家发现更多宇宙秘密绝对有潜力这种方法不只限于恒星还能验证其他物理定律比如研究行星轨道黑洞行为只要有数据 AI 就能模拟出各种如果它就像个超级实验助手能试人类做不到的实验听起来很酷有什么不足吗
当然有模型很复杂训练需要大量算力而且它依赖数据质量如果数据不准结果也会打折扣不过这已经是个大突破了 AI 和物理学的结合未来可能真会改写教科书
期待那一天下一个话题是什么?第三篇是 Bees in Teaching Enables Probabilistic Reasoning in Large Language Models 研究者们发现现在的语言模型在概率推理上有点笨拙比如推荐航班时不能很好的根据用户反馈调整建议概率推理是什么意思?听起来好高深简单说就是根据新信息更新自己的判断比如
你挑航班第一次我说这个最便宜你说太晚了我就猜你更想要早点的航班这需要一种叫贝叶斯推理的能力可惜很多 AI 不太行那他们怎么解决的他们提出了贝叶斯教学让 AI 模仿一个完美的贝叶斯助手这个助手会根据概率算出最佳推荐 AI 就跟着学结果呢在航班推荐任务上 AI 的表现大幅提升还能把这本领
用到酒店推荐网购上这不就是学以致用吗太聪明了对而且有个意外发现让 AI 学一个有点小错的老师反而比学完美答案更有效可能是因为真实世界本来就充满不确定性 AI 的学会适应这让我想到 AI 会不会有一天能像人一样随机应变好
很有可能这种方法证明 AI 能通过模仿学会推理策略未来它可能在克服医疗建议上大放异彩不过现在它跟完美还有点距离复杂场景下还得再练练看来 AI 也在成长下一个呢第四篇是 Efficient Knowledge Distillation via Curriculum Extraction 讲的是知识蒸馏也就是让小模型从大模型那偷师偷师听起来像武侠小说里的情节
差不多大模型很聰明但太笨重小模型輕便但能力弱傳統方法是讓小模型直接模仿大模型的答案但效果一般這篇研究提出課程提取讓小模型一步步學大模型的思考層次怎麼個一步步法
他们把大模型的每一层知识拆开用一种叫随机投影的技术逐步教给小模型先学简单的再学复杂的最后再看答案结果在语言任务和数学问题上小模型学得又快又好
这不就像我们小时候学数学先学加减再学乘除吗完全正确这种方法模拟了人类的渐进学习而且它不用存大模型的中间状态特别省资源未来可能用在手机车载 AI 上让小设备也能变聪明太实用了有什么缺点吗目前实验集中在特定任务上像图像文本处理能不能用到更广的领域还在试试而且怎么调参数也有点讲究调不好效果会打折
看来偷师也有技巧最后一篇呢最后一篇是 language models may verbatim complete textthey were not explicitly trained on 研究者们发现 AI 有时能一字不差地说出没见过的话这不就跟作弊似的吗怎么回事其实不是作弊是 AI 太聪明了
传统上我们认为 AI 只会复述训练数据里的东西用 Ngram 来检查它记了什么但这篇研究说即使把训练数据里的句子拆散改动 AI 还是能拼回来那它是怎么做到的研究者用对抗性数据测试比如把句子打乱删词 AI 照样能补全他们觉得 AI 不是简单记住了句子而是学会了模式和规律
比如你听过天黑了 下雨了 没听过天晴了 刮风了 但能猜出来这样我有点担心它会不会泄露隐私确实是个问题 论文说现在检查 AI 记没记的方法太简单挡不住这种能力 未来可能的设计更严格的测试或者干脆限制 AI 的记忆力 不然版权隐私都可能有风险
看来 AI 的聪明也是一把双刃剑世界提醒我们 AI 越强管理它就越重要技术进步快但安全地跟上今天的太快报真是让我打开眼界感谢小 T 的精彩讲解也谢谢大家的收听我们下期再见一起继续探索 AI 的奇妙世界下期见拜拜