We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:AI推理的“思考”迷思与长文本处理的突破

AI前沿:AI推理的“思考”迷思与长文本处理的突破

2025/4/16
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
People
小T
小爱
Topics
小T:大型语言模型无需显式推理也能有效解决问题,"No Thinking"方法通过利用模型已学习的隐性推理能力,直接输出答案,在某些情况下性能甚至优于显式推理。结合并行计算,能显著提高效率和准确率,降低延迟,在降低成本和提高AI应用普及率方面具有重要意义,但并非万能的。 小爱:这项研究启示我们重新思考AI的推理机制,简单的推理方法可能比复杂的推理链更有效。 小T:Gisting方法用于长文本压缩,但原始方法在超长文本上的效果不好。GistPool通过改进Gisting方法,提升了长文本压缩性能,在压缩率高时仍能保持接近无损的性能,在法律分析、客服总结等场景具有实际应用价值,但存在一些局限性,如需要额外参数和依赖训练数据。 语言模型会自动构建概念网格,这能帮助我们理解模型的学习内容,并用于改进知识图谱或概念分类。概念网格可以帮助我们发现模型中潜在的、人类未定义的概念,并用于改进知识图谱和概念分类任务。构建概念网格的方法存在局限性,例如对概念复杂性的简化以及对测试模式的依赖。 大型语言模型在创造性任务上的表现存在原创性不足的问题,但更大的模型和经过微调的模型会表现更好。模型规模和微调是提升AI创造力的关键因素。提升AI创造力需要从根本上优化模型,而非仅仅依靠一些技巧。这项研究表明AI的创造力还有很大的提升空间,未来需要设计更有效的训练方法。

Deep Dive

Chapters
本篇论文探讨了NoThinking方法,该方法通过绕过显式推理步骤,直接利用模型已学习的隐性推理能力来解决问题,在数学、编程等任务上取得了与显式推理方法相近甚至更好的效果,并大幅降低了延迟。该方法为低成本、高效的AI推理开辟了新路径,但在某些任务上仍存在局限性。
  • NoThinking方法挑战了显式推理的必要性
  • 该方法利用模型已学习的隐性推理能力
  • 在多个数据集上取得了与显式推理方法相近甚至更好的效果
  • 大幅降低了延迟,最高可达9倍
  • 在某些任务上表现不如传统方法

Shownotes Transcript

大家好,欢迎收听派快报,我是小爱。大家好,我是小 T,很高兴我们又见面了,咱们直接从第一篇论文开始吧。第一篇论文的标题是 Reasoning Models Can Be Effective Without Thinking,听起来有点颠覆常识,这论文到底在说什么?A.I.

不思考也能推理這個標題確實抓眼球這篇論文挑戰了一個 AI 領域的傳統觀念大型語言模型在解決複雜問題時必須通過顯示的思考過程比如一步步寫出思維鏈

Chain of Thought 他们提出了一种叫 No Thinking 的方法简单来说就是通过一个小技巧绕过显示的推理步骤直接让模型输出答案等等不思考直接给答案这听起来像是在蒙答案真的靠谱

你这个问题很尖锐其实不是蒙而是利用模型在训练时已经学到的隐性推理能力想象一下你在考试时看到一道熟悉的数学题可能不用写出每一步推导心理已经知道答案了 No Thinking 有点像让模型直接跳到答案环节他们在数学编程定理证明等七个数据集上测试发现 No Thinking 的性能竟然跟显示推理差不多

甚至在某些场景下更好哇 这有点神奇能举个例子说明 no thinking 是怎么工作的吗当然假设你问模型一道数学题比如 2 加 2 乘 3 等于多少通常模型会先写出推理步骤先算 2 乘 3 等于 6 再加 2 得到

得到 8 但 No Thinking 会直接给模型一个提示比如答案是然后模型直接输出 8 问问里他们通过预填充一些虚拟的思考块来引导模型让它跳过显示推理结果呢在数学竞赛题数据集上 No Thinking 在限制算力时正确率高达 5%1.3%而传统方法只有 28.9%这也太高效了吧那为什么 No Thinking 能这么厉害

關鍵在於大模型的訓練過程,他們在海量數據上學習時已經內化了很多推理模式,no thinking,就像是直接調用這些潛意識知識。而且論文還發現如果用並行計算生成多個答案,再從中挑最好的 no thinking 的效率和準確率還能進一步提升,延遲最高能降低 9 倍。聽起來像是給 AI 裝了個加速器。

那这项研究对现实世界有什么影响?影响可大了,比如在实时克服自动编程或在线教育这些需要快速响应的场景,No Thinking 可以让模型用更少的算力,更短的时间给出高质量答案,这不仅能降低成本,还能让 AI 应用更普及。不过论文也提到 No Thinking 在某些任务上表现不如传统方法,比如编程任务,说明它不是万能的。

有点像快思考和慢思考的权衡那你觉得这项研究的启发是什么它让我们重新思考 AI 的推理机制显示推理可能只是模型的一种表演真正的推理能力可能早就嵌在模型的参数里了

未来我们或许能设计更轻量更高效的推理方法而不是一味追求复杂的推理链这也提醒我们有时候简单的方法反而能带来惊喜说得好从无需思考到下一个话题咱们聊聊长文本处理第二篇论文 Long Context in Context CompressionBy Getting to the Gist ofGisting 标题有点绕口讲的是什么

标题确实有点学术味,这篇论文研究的是大模型如何处理超长文本,比如几十页的文档或长篇对话。长文本处理是个大挑战,因为模型的注意力机制会随着文本变长而变得低效。这篇论文聚焦一种叫 Jisting 的压缩方法,试图把长文本浓缩成关键信息,同时提出了一种改进版叫 Jist。

Gesting 听起来像是抓住要点的意思,能具体解释一下吗?你说的没错,Gesting 就是一种提炼精华的方法想象你读了一本厚厚的书,想跟朋友分享你不会把整本书背下来,而是挑出核心情节或观点 Gesting 会让模型把长文本压缩成几个关键的 Gest token 这些 token 就像文本的精华摘要但论文发现,原始的 Gesting 在超长文本上效果不好

甚至稍微压缩一点性能就掉的厉害那 Gistpool 是怎么解决这个问题的 Gistpool 对 Justin 做了三项改进第一把这些 Gist token 均匀分布在文本中而不是只放在开头或结尾第二

给 GistToken 分配专门的参数让他们更聪明地捕捉信息第三 在处理时把 GistToken 的激活信号稍微下移一层增强信息传递结果呢 GistPool 在长文本任务上比 Gisting 和简单的平均池化方法都表现更好

压缩率高时还能保持接近无损的性能听起来像给门本装了个智能压缩机那这个有什么实际用途用途可多了比如法律工作者需要分析长篇合同 GISTPUG 可以快速提炼关键条款

或者在客服系统中模型可以总结用户长篇投诉快速给出解决方案它还能用在智能助手自动文献综述等领域帮我们从海量信息中抓重点太实用了不过论文有没有提到什么局限性

有 GIS pool 虽然厉害,但它引入了额外的参数,可能会增加模型的存储需求。而且它的性能有点依赖训练数据,如果换到完全不同的领域,可能需要重新调优。还有论文的理论分析,虽然解释了为什么 GIS pool 有效,但对更复杂的长文本场景还需要更多研究。

从压缩文本到涌现结构,咱们来看下一论文,From Tokens to Lattices,Emergent Lattice Structures in Language Models,这个网格结构听起来很神秘,到底是什么?这篇论文研究的是语言模型如何理解概念之间的关系,他们发现模型在预训练时会自动形成一种叫概念格的结构,

就像一个知识网络里面记录了事物和属性的关系比如猫这个概念可能跟会喵叫有四条腿这些属性连在一起形成一个层次化的网格哇 这有点像大脑里的知识图谱他们是怎么发现这个的他们用了一种数学工具叫形式概念分析 5CL 简单来说就是通过弯形填空式的测试探查模型对事物和属性的理解比如说模型猫会做什么

看它能不能填出喵叫或抓老鼠然后他们把这些答案整理成一个概率化的语境再用 FCA 构建出概念格实验在三个数据集上验证比如动物行为 疾病 症状发现模型确实能重建出这样的知识网络

这太酷了 那这个网格有什么用用处可大了 首先它能帮我们理解模型到底学到了什么甚至发现一些人类没定义过的潜在概念比如模型可能发现某些疾病的症状组合是医学上还没命名的模式其次 这个网格可以用来改进知识图谱或者做概念分类任务比如自动判断一种动物是不是哺乳动物听起来像给模型开了个知识宝库

有没有什么不足有 FCA 虽然强大但它有点简化了概念的复杂性自然语言里的概念往往更动态多益而且构建网格的质量很依赖测试使用的模式如果模式选的不好网格可能不准确未来还需要更自动化的方法来优化这个过程嗯

确实是个挑战最后咱们聊聊下一篇论文 Beyond MemorizationMapping the Originality Quality Frontier of Language Models 这个讲的是 AI 的创造力标题很吸引人对这篇研究的是大模型在创造性任务上的表现比如写故事 作诗

他们提出了一个新指标叫新颖性综合衡量文本的原创性没见过的词组比例和质量任务相关的评分结果发现模型生成的文本比人类创作的少了一些新意但更大的模型和经过微调的模型会表现更好

AI 写诗写故事听起来好有趣能举个例子吗比如他们让模型续写一个故事开头模型可能会写出很流畅的段落但很多句子会跟训练数据里的模式很像

原创性不够高他们发现如果增大模型规模或者通过指令微调 post training 模型会生成更独特的内容比如一个微调后的模型可能写出更意想不到的是个异象而不是老套的月亮像银盘那怎么才能让 AI 更有创造力论文发现模型规模和微调是关键更大的模型有更强的语言能力能脑洞更大

微调能让模型学会更灵活的组合语言不过他们也试了推理时的技巧比如调整随机性 temperature 但效果有限还可能牺牲质量这说明想让 AI 更有创造力靠临时抱负脚不如从根子上优化模型嗯 创造力果然不是一蹴而就的这项研究对我们有什么启发

他提醒我们 AI 的创造力还有很大提升空间未来我们可能需要设计专门的训练方法比如让模型接触更多样化的数据或者教它跳出框框思考这也让我们思考人类的创造力到底是什么 AI 能走多远好深奥的问题

今天聊了这么多从无需思考的推理到创造性输出真是脑洞大开感谢小 T 的精彩讲解也谢谢听众朋友的陪伴咱们下期太快报再见下期见拜拜