大家好欢迎收听太快报我是小爱大家好我是小 T 很高兴我们又见面了那我们先从第一篇开始吧标题是 Tina Tiny Wizarding Model's Dear Laura 听起来是个小不点模型但好像很厉害能聊聊它是怎么回事吗当然听起来很厉害
听了是个让人眼前一亮的成果传统上大家觉得要让 AI 有强大的推理能力比如解决数学题或逻辑难题必须用超大模型动辄几十亿参数训练成本高的吓人但听了挑战的这个观念它基于一个只有 15 亿参数的小模型通过一种叫 Lora 的技术你可以把它想象成给模型换个轻量大脑用极低的成本让他学会了复杂的推理
15 亿参数听起来已经很多了但你说它在 AI 界算小的那 Tina 具体是怎么做到的对在 AI 界 15 亿参数确实算迷你 Tina 的秘诀是用 Lora 结合强化学习 Lora 就像是给模型加了个高效的插件只调整一小部分参数就能让模型学会新的技能研究团队发现 Tina 能快速适应推理任务需要的输出格式比如一步步推导答案的思维链它
他们在数学和逻辑数据集上测试 Tina 的表现竟然能媲美那些用全参数训练的大模型而且成本只有 9 美元 9 美元这也太便宜了吧相当于请朋友吃顿便饭的钱就能训练一个会推理的 AI 那它有什么特别的魔法
确实很划算研究者提出了一个快速推理格式适应假说意思是 Laura 的高效在于她能让模型迅速学会推理的套路比如如何组织答案而不用重新学习所有知识他们还发现训练过程中有个相变现象模型在某个点突然开窍学会了正确的格式
如果過度優化格式反而可能影響準確性這就像教學生解題先學會答題框架再精進細節過度死磕框架反而可能跑偏這聽起來像在教 AI 考試技巧那 Tina 能用在哪些地方會不會改變我們對 AI 的看法完全有可能 Tina 證明了小模型也能有大本事特別適合資源有限的場景
比如在手机或边缘设备上跑 AI,它低成本和高效率还能让更多研究者和小公司参与 AI 开发打破大模型的垄断未来我们可能看到更多轻量级 AI 在教育、医疗等领域大放异彩太棒了,从小不点 Tina 开始,我们看到了 AI 的平民化潜力接下来是第二篇 Physics Informed Features in Supervised Machine Learning
这个听起来有点硬核跟物理有关能简单讲讲吗没问题这篇论文解决了一个科学领域的痛点传统机器学习模型通常把数据当数字处理忽略它们的物理意义比如重量速度的单位这会导致模型预测不准还不好解释研究者提出了一种物理信息特征
PIF 的思路,通过结合物理定律和量纲分析,把原始数据变成有物理意义的特征,比如预测流体运动时不是直接用速度和压力,而是把它们组合成符合物理规律的特征。听起来像给数据穿上物理外衣,那这样做有什么好处?
好處可大了,首先模型預測更準。他們在流體動力學、磁耗散等實驗中發現,用 PIF 的模型比傳統方法誤差低,分類準確率也更高。其次,模型更可解釋,因為特徵有物理意義,科學家能看懂模型在想什麼。最有趣的是,他們在預測太陽要斑時用 PIF,找到一個跟磁螺旋度相關的特徵,
这可是太阳物理研究的重要线索,相当于 AI 帮科学家发现了潜在的物理规律。AI 还能帮科学家挖宝,那这个方法有没有局限性?有,当物理规律不太清楚时,PF 的效果会打折扣,因为构建这些特征需要一些领域知识,而且目前生成 PF 的过程有点依赖人工,未来如果能自动化就更好了。
但总体来说这篇论文提醒我们 AI 和科学结合的关键是懂行把领域知识融入模型能让 AI 不只是预测工具还能成为科学发现的助手太酷了从物理到 AI 感觉像在探索宇宙的秘密
第三篇是 Tour for whatever rewards our tool learning needs 这个跟工具有关 AI 要当工具人吗?差不多 Tour 是关于让 AI 学会用外部工具比如搜索引擎计算器来解决复杂问题
传统方法是用监督微调 SFT 教 AI 用工具但效果一般 AI 在陌生场景下容易懵这篇论文用强化学习 RL 特别是设计了一种精细的奖励系统让 AI 学会更聪明的用工具奖励系统听起来像训练宠物给它临时让它听
很形象这里的奖励系统就像给 AI 评分不仅看答案对不对还看他用工具的姿势对不对比如突然会奖励 AI 选对工具填对参数而且奖励很细致分工具名参数名参数值三个部分他们发现这种精细奖励让 AI 学得更快表现更好
在工具使用测试中比传统方法高出 15%到 17%那它具体能做什么比如我问 AI 一道数学题它会怎么用工具比如你问 2025 年某天是星期几 AI 可能会调用日历工具
2L 能让 AI 精准选择工具输入正确日期,还能避免乱用无关工具。他们测试了 AI 在编程、搜索等任务中的表现,发现它不仅准确,还能在没见过的场景下灵活应对,甚至展现出主动性,比如主动澄清问题。这 AI 也太聪明了,那有什么特别发现?有个反直觉的发现,让 AI 想得更长不一定更好。
他们试着奖励 AI 写更长的推理过程,结果发现这反而可能降低性能。这说明 AI 用工具的关键是高效而不是啰嗦。未来这种技术可能让 AI 助手更省资源,帮我们更快解决问题。从啰嗦到高效,AI 越来越像个好帮手。
第四篇是 OTC,Optimal Tool Calls via Reinforcement Learning,跟 2L 有点像,有什么不一样?对,OTC 也是关于工具使用的,但它更聚焦效率。2L 让 AI 学会用工具,OTC。
B 则是让 AI 用最少的工具调用解决问题研究者发现很多 AI 会过度依赖工具比如查个简单问题也调用搜索引擎浪费资源 OTC 设计了一个奖励函数既看答案正确性又奖励少用工具就像教 AI 能自己算就别查 AI 也要学会勤俭持家那它效果怎么样
效果驚人,他們在問答任務中測試 OTC 減少了高達 73%的工具調用同時答案準確率不降反升他們還發現大模型更容易偷懶過度依賴工具 OTC 能有效糾正這種認知卸載這個實際應用很關鍵比如降低雲服務的計算成本
或者让 AI 在手机上跑得更省电这让我想到 AI 如果能精打细算我们用起来也更省心最后一篇是 Lore Personalizing LMAVLoring Reward Modeling 听起来跟个性化有关能让 AI 更懂我吗没错 Lore 解决了一个大问题现在的 AI 通常按平均用户
用户设计很难适应每个人的独特偏好比如你喜欢简洁的回答我喜欢详细的传统 AI 很难两全 Lore 用了一种低质建模的方法把用户偏好分解成一组基础偏好每个人的偏好是这些基础的组合 AI 只需要少量数据就能快速学会你的喜好这有点像调咖啡基础口味有了加点糖或奶就能调出我的专属味道
太贴切了,Lore 的厉害之处是少样本适应他们在测试中发现,哪怕只给 AI 几个你的偏好例子它也能预测你对新问题的喜好,比传统方法准得多这对个性化推荐聊天机器人都有大用比如让你的 AI 助手更懂你的幽默感感觉 AI 要变成我的灵魂伴侣了,那它有什么挑战?挑战是基础偏好的设计,还有点靠经验未来需要更自动化的方法
但 Lore 的核心思路用低质结构简化复杂偏好非常优雅可能影响未来的个性化技术想象一下你的手机 AI 能根据几次对话自动调整成最适合你的风格多省心这期节目真实 新鲜量爆棚感谢小 T 的精彩讲解我们下期再见下期见 拜拜