大家好,欢迎收听太快报,我是小爱。大家好,我是小 T,欢迎回来。我们这就开始第一篇,这篇论文叫 Agentic Reasoning and Tool Integration for LMS via Reinforcement Learning,听起来像是让 AI 变得更会动脑筋。能不能先给我们讲讲这篇研究到底在解决什么问题?
当然想象一下现在的语言模型,比如那些能写文章答问题的 AI,他们的脑子里装了一堆知识,但遇到需要查资料、调问工具或者多部推理的复杂任务时,就有点像个只会背书的学霸缺乏灵活应变的能力。这篇论文提出了一种叫 Artist 的框架,想让 AI 不仅会背书,还能像个聪明的助手。
主动决定什么时候掏出计算器或搜索引擎来解决问题哇听起来像是给 AI 装了个超级大脑那这个 Artist 是怎么做到的他具体干了啥简单来说 Artist 用了一种叫强化学习的训练方法强化学习有点像训练小狗你给他一个任务比如解数学题他试着去做做好了给个骨头奖励做错了就引导他调整
Artist 让 AI 自己摸索什么时候该思考什么时候该调用外部工具比如运行一段代码或者查个数据更厉害的是它不需要人类一步步交先干这个再干那个而是只看最终结果对不对 AI 自己就能学出最佳策略这也太聪明了吧它真的能自己学会用工具有没有什么具体的例子有比如在数学竞赛题上 Artist 能让一个中等
规模的语言模型比如 CoreInk 2.5 性能提升 22%甚至超过了 GPT-4O 这样的大块头他会先自己推理几步发现需要计算时就调用 Python 代码算完再接着推理最后给出答案整个过程就像一个老练的解题高手既会动脑又会动手那这个对我们普通人有什么用呢比如我用 AI 写文章或者查资料能不能也变得更聪明
绝对可以想象你问 AI 一个复杂问题比如帮我规划一次旅行 Artist 能自己查天气比价计票推荐景点还能根据你的预算调整方案这种主动思考加工具调用的能力会让 AI 助手变得更像一个贴心的生活管家
而不是只会回答简单问题的机器听起来未来感满满不过有没有什么不足的地方强化学习听起来挺费劲的吧确实强化学习需要大量计算资源而且 Artist 目前主要在数学和编程任务上测试过能不能适应更多场景比如处理模糊的生活问题还需要进一步验证不过他已经指明了一个方向让 AI 学会思考加行动的闭环
未来可能会有更多突破好 第一个话题就先聊到这儿接下来是第二篇 LM-based text simplificationand its effect on user comprehensionand cognitive law 这个听起来跟我们普通人更相关讲的是让复杂信息变简单什么是文本简化为什么要做这个你
你有没有试过读医学论文或者法律文件感觉像在看天书很多网络上的信息比如科学文章文字太复杂普通人读起来费劲这篇论文用大型语言模型比如 Gemini 来把这些天书简化成大白话目标是让大家读得懂
还不觉得累这太有用了那他们是怎么简化的 AI 会不会把内容改得面目全非他们开发了一个资金链系统 AI 先把复杂文本改简单然后用另一个 AI 检查一是看改完后是不是还保留了原意二是看文字是不是更容易读研究还做了个大实验找了 4500 多人测试了医学法律金融等领域的文本
结果发现读简化版的人答题正确率提高了 3.9%在医学领域甚至高了 14.6%而且大家读完后觉得更轻松信心也更足哇医学文本简化后正确率提升这么多那对我们有什么实际帮助比如我查健康信息能不能用上这个完全可以比如你查一种病的治疗方法 AI 能把灰色的医学文献简化成这种药
每天吃两次可能会让你失睡之类的描述这样你不仅更容易懂还能更快做决定
比如要不要去醫院更廣一點這種技術還能用在教育法律諮詢甚至讓政策文件更通俗匯集更多人聽起來特別貼心不過簡化會不會丟掉重要信息或者 AI 自己腦補了些不準確的東西這是個好問題論文裡提到他們盡量最小化信息損失但確實可能有些細微信息被簡化掉了或者 AI 偶爾會稍微改動意思
他们用 AI 自动检查忠实度但这部分还有改进空间另外实验室在特定平台上做的参与者的动机可能跟现实中主动查资料的人不太一样
效果可能会有点偏差明白了,简化是个好方向,但小心别过头接下来是第三篇 Contextual Representation from Context 这个听起来有点抽象能不能用大白话解释一下这篇在讲啥这篇确实有点理论味,但很有意思它在研究 AI 模型为啥能学到有用的东西比如 AI 看了一堆图片或文字后能认识猫翻译句子这背后它到底学到了什么
有人提出了一个叫 contextual 的理论说 AI 学的其实是输入和上下文之间的关系比如图片是输入标签猫是上下文或者一句英文是输入翻译成中文是上下文 AI 通过这些关系学会了最核心的规律感觉像是在找 AI 学习的秘诀那这个理论有什么特别的地方
他最大的贡献是把很多 AI 训练方法,比如监督学习、自监督学习甚至图学习都统一到一个框架下,说他们本质上都在学同一个东西输入和上下文的最佳关联,更反直觉的是他说模型越大,学到的主要是这些关联中最重要的一部分,规模再大收益就递减了。
未来要想 AI 更强的设计更好的上下文而不是一味堆模型大小哇这有点颠覆我的认知原来不是越大越好那更好的上下文是什么意思举个例子呗比如训练翻译模型上下文可以是准确的译文但如果我们加点文化背景或者语气提示作为上下文 AI 可能学得更细腻就像教小孩学英语
光给他单字表不够的话,就告诉他什么时候用,Please 会更礼貌这种上下文扩展能让 AI 学到更丰富、更实用的知识明白了,那这个理论对实际开发家有什么帮助?他给 AI 研究者指了条心路,与其一味造更大的模型不如花心思设计更聪明的训练任务和上下文比如论文还提出了一个指标,可以评估上下文的好坏
帮助开发者挑出最有用的训练数据这对节省资源提升 AI 效率很有意义好 理论部分先告一段落第四篇是 Toward Safer Pre-trainingAnalyzing and Filtering Harmful Contentin Web-scale DatasetsFor Responsible LN
这个跟 AI 安全有关听起来很重要 AI 怎么会有有害内容你说的对这是个大问题现在的语言模型都是用网络数据训练的比如网页论坛但这些数据里常混杂着仇恨言论虚假信息之类的东西
如果不清理 AI 可能会学到这些坏习惯比如生成歧视性内容这篇论文分析了几个常用数据集发现有害内容占 2%到 4%不算多但影响很大他们提出了一个新方法把内容分成安全话题相关和有毒三类帮 AI 过滤掉真正有害的东西话题相关是什么意思跟有毒有什么区别
好问题有毒是明确有害的比如这样暴力话题相关是指讨论敏感话题但没恶意比如新闻报道暴力事件或者医学文章讲自残的危害这些内容对 AI 理解世界很有用不能随便删他们还开发了工具比如一个叫 Harmformer 的模型能准确区分这些内容准确率高达 85%这听起来很聪明他对我们用 AI 有什么想比如我用聊天机器人会不会更安全
对,如果 AI 在更干净的数据上训练,它生成有害内容的概率会大大降低。比如你问一个敏感问题,AI 不会随便输出偏见或给出冒犯性的回答,而是会更中立更理性。这对社交媒体、客服机器人这些场景特别重要,能减少误导或争议。这让我对 AI 更有信心了,不过清理数据听起来挺复杂的。
有没有什么难点?难点确实有比如不同文化对有害的定义不一样过滤时可能会误伤一些无害内容还有 AI 本身做判断时也可能出错比如把新闻报道当有害内容删了他们还在改进工具和方法但已经迈出了一大步
接下来 AI 安全是个长期任务最后一篇是 Twist 听起来像个很酷的机器人确实很酷 Twist 是个遥控人性机器人系统能模仿人类的全身动作比如你跳舞 扳箱子 踢球它都能跟着做动作还特别流畅关键是它用一个神经网络控制所有动作不像以前的机器人那样分开控制手脚它通过捕捉人类动作再用 AI 把这些动作翻译到机器人身上简直像个活生生的替身
感觉像科幻电影那它是怎么做到这么灵活的他们用了一种巧妙的训练方法先让 AI 偷看未来几秒的动作学会更平滑的动作规划然后再教他只看当前动作也能模仿的好还加了点真实世界的动作数据
虽然数据量少但特别贴近实际场景效果提升很大结果就是机器人不仅动作自然还能在搬重物踢球这些需要力气的任务里稳稳当当太厉害了那这种机器人能干嘛以后会不会走进我们生活
前例巨大比如在工厂他能代替人干危险或重复的工作在医疗领域可以帮医生做精细操作甚至远程手术长远看如果成本降下来交易可能也有这种机器人帮你搬家具做家务
不过现在他还依赖专业设备延迟也有点高比普及还有段路我已经开始幻想有个机器人帮我洗碗了不过听起来技术上还有挑战吧对比如他需要运动捕捉设备不太便携还有机器人硬件比如电机容易过热他们还在优化延迟和硬件希望未来能更实用好 T 的今天的五篇论文真是脑洞大开好了今天的太快报就到这里感谢小 T 的精彩讲解
也感谢大家的收听咱们下期再见下期见拜拜