大家好,欢迎收听派快报,我是小爱。大家好,我是小 T,很高兴我们又见面了,咱们直接从第一篇论文开始吧。第一篇论文的标题是 Reasoning Models Can Be Effective Without Thinking,听起来有点颠覆常识,这论文到底在说什么?A.I.
不思考也能推理這個標題確實抓眼球這篇論文挑戰了一個 AI 領域的傳統觀念大型語言模型在解決複雜問題時必須通過顯示的思考過程比如一步步寫出思維鏈
Chain of Thought 他们提出了一种叫 No Thinking 的方法简单来说就是通过一个小技巧绕过显示的推理步骤直接让模型输出答案等等不思考直接给答案这听起来像是在蒙答案真的靠谱
你这个问题很尖锐其实不是蒙而是利用模型在训练时已经学到的隐性推理能力想象一下你在考试时看到一道熟悉的数学题可能不用写出每一步推导心理已经知道答案了 No Thinking 有点像让模型直接跳到答案环节他们在数学编程定理证明等七个数据集上测试发现 No Thinking 的性能竟然跟显示推理差不多
甚至在某些场景下更好哇 这有点神奇能举个例子说明 no thinking 是怎么工作的吗当然假设你问模型一道数学题比如 2 加 2 乘 3 等于多少通常模型会先写出推理步骤先算 2 乘 3 等于 6 再加 2 得到
得到 8 但 No Thinking 会直接给模型一个提示比如答案是然后模型直接输出 8 问问里他们通过预填充一些虚拟的思考块来引导模型让它跳过显示推理结果呢在数学竞赛题数据集上 No Thinking 在限制算力时正确率高达 5%1.3%而传统方法只有 28.9%这也太高效了吧那为什么 No Thinking 能这么厉害
關鍵在於大模型的訓練過程,他們在海量數據上學習時已經內化了很多推理模式,no thinking,就像是直接調用這些潛意識知識。而且論文還發現如果用並行計算生成多個答案,再從中挑最好的 no thinking 的效率和準確率還能進一步提升,延遲最高能降低 9 倍。聽起來像是給 AI 裝了個加速器。
那这项研究对现实世界有什么影响?影响可大了,比如在实时克服自动编程或在线教育这些需要快速响应的场景,No Thinking 可以让模型用更少的算力,更短的时间给出高质量答案,这不仅能降低成本,还能让 AI 应用更普及。不过论文也提到 No Thinking 在某些任务上表现不如传统方法,比如编程任务,说明它不是万能的。
有点像快思考和慢思考的权衡那你觉得这项研究的启发是什么它让我们重新思考 AI 的推理机制显示推理可能只是模型的一种表演真正的推理能力可能早就嵌在模型的参数里了
未来我们或许能设计更轻量更高效的推理方法而不是一味追求复杂的推理链这也提醒我们有时候简单的方法反而能带来惊喜说得好从无需思考到下一个话题咱们聊聊长文本处理第二篇论文 Long Context in Context CompressionBy Getting to the Gist ofGisting 标题有点绕口讲的是什么
标题确实有点学术味,这篇论文研究的是大模型如何处理超长文本,比如几十页的文档或长篇对话。长文本处理是个大挑战,因为模型的注意力机制会随着文本变长而变得低效。这篇论文聚焦一种叫 Jisting 的压缩方法,试图把长文本浓缩成关键信息,同时提出了一种改进版叫 Jist。
Gesting 听起来像是抓住要点的意思,能具体解释一下吗?你说的没错,Gesting 就是一种提炼精华的方法想象你读了一本厚厚的书,想跟朋友分享你不会把整本书背下来,而是挑出核心情节或观点 Gesting 会让模型把长文本压缩成几个关键的 Gest token 这些 token 就像文本的精华摘要但论文发现,原始的 Gesting 在超长文本上效果不好
甚至稍微压缩一点性能就掉的厉害那 Gistpool 是怎么解决这个问题的 Gistpool 对 Justin 做了三项改进第一把这些 Gist token 均匀分布在文本中而不是只放在开头或结尾第二
给 GistToken 分配专门的参数让他们更聪明地捕捉信息第三 在处理时把 GistToken 的激活信号稍微下移一层增强信息传递结果呢 GistPool 在长文本任务上比 Gisting 和简单的平均池化方法都表现更好
压缩率高时还能保持接近无损的性能听起来像给门本装了个智能压缩机那这个有什么实际用途用途可多了比如法律工作者需要分析长篇合同 GISTPUG 可以快速提炼关键条款
或者在客服系统中模型可以总结用户长篇投诉快速给出解决方案它还能用在智能助手自动文献综述等领域帮我们从海量信息中抓重点太实用了不过论文有没有提到什么局限性
有 GIS pool 虽然厉害,但它引入了额外的参数,可能会增加模型的存储需求。而且它的性能有点依赖训练数据,如果换到完全不同的领域,可能需要重新调优。还有论文的理论分析,虽然解释了为什么 GIS pool 有效,但对更复杂的长文本场景还需要更多研究。
从压缩文本到涌现结构,咱们来看下一论文,From Tokens to Lattices,Emergent Lattice Structures in Language Models,这个网格结构听起来很神秘,到底是什么?这篇论文研究的是语言模型如何理解概念之间的关系,他们发现模型在预训练时会自动形成一种叫概念格的结构,
就像一个知识网络里面记录了事物和属性的关系比如猫这个概念可能跟会喵叫有四条腿这些属性连在一起形成一个层次化的网格哇 这有点像大脑里的知识图谱他们是怎么发现这个的他们用了一种数学工具叫形式概念分析 5CL 简单来说就是通过弯形填空式的测试探查模型对事物和属性的理解比如说模型猫会做什么
看它能不能填出喵叫或抓老鼠然后他们把这些答案整理成一个概率化的语境再用 FCA 构建出概念格实验在三个数据集上验证比如动物行为 疾病 症状发现模型确实能重建出这样的知识网络
这太酷了 那这个网格有什么用用处可大了 首先它能帮我们理解模型到底学到了什么甚至发现一些人类没定义过的潜在概念比如模型可能发现某些疾病的症状组合是医学上还没命名的模式其次 这个网格可以用来改进知识图谱或者做概念分类任务比如自动判断一种动物是不是哺乳动物听起来像给模型开了个知识宝库
有没有什么不足有 FCA 虽然强大但它有点简化了概念的复杂性自然语言里的概念往往更动态多益而且构建网格的质量很依赖测试使用的模式如果模式选的不好网格可能不准确未来还需要更自动化的方法来优化这个过程嗯
确实是个挑战最后咱们聊聊下一篇论文 Beyond MemorizationMapping the Originality Quality Frontier of Language Models 这个讲的是 AI 的创造力标题很吸引人对这篇研究的是大模型在创造性任务上的表现比如写故事 作诗
他们提出了一个新指标叫新颖性综合衡量文本的原创性没见过的词组比例和质量任务相关的评分结果发现模型生成的文本比人类创作的少了一些新意但更大的模型和经过微调的模型会表现更好
AI 写诗写故事听起来好有趣能举个例子吗比如他们让模型续写一个故事开头模型可能会写出很流畅的段落但很多句子会跟训练数据里的模式很像
原创性不够高他们发现如果增大模型规模或者通过指令微调 post training 模型会生成更独特的内容比如一个微调后的模型可能写出更意想不到的是个异象而不是老套的月亮像银盘那怎么才能让 AI 更有创造力论文发现模型规模和微调是关键更大的模型有更强的语言能力能脑洞更大
微调能让模型学会更灵活的组合语言不过他们也试了推理时的技巧比如调整随机性 temperature 但效果有限还可能牺牲质量这说明想让 AI 更有创造力靠临时抱负脚不如从根子上优化模型嗯 创造力果然不是一蹴而就的这项研究对我们有什么启发
他提醒我们 AI 的创造力还有很大提升空间未来我们可能需要设计专门的训练方法比如让模型接触更多样化的数据或者教它跳出框框思考这也让我们思考人类的创造力到底是什么 AI 能走多远好深奥的问题
今天聊了这么多从无需思考的推理到创造性输出真是脑洞大开感谢小 T 的精彩讲解也谢谢听众朋友的陪伴咱们下期太快报再见下期见拜拜