We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

不止是强大，更是聪明：AI如何学会思考、复盘与好奇？

2025/7/3

AI可可AI生活

AI Deep Dive AI Chapters Transcript

People

晨

晨光

Topics

晨光：我认为AI模型存在偏科现象，就像某些学生数学很好但在其他方面表现平平。研究表明，通过题海战术（监督式微调）训练AI数学能力，可能会导致其在通用能力上出现灾难性遗忘，使其思维模式变得过于数学化，从而影响处理非数学问题的能力。然而，通过强化学习训练AI，就像一个甩手掌柜式的老师，让AI在试错中反思和改进，不仅能提升数学能力，还能保留甚至提升原有的通用能力。这种方法更像是在AI原有的知识体系上精准地安装了一个推理模块，而没有破坏其他部分的功能。因此，我认为我们应该追求理解事物底层的规律和原则，而非快速掌握特定问题的标准答案，培养能举一反三的思考者，而不仅仅是只会应付考试的机器。

Deep Dive

Chapters

本部分探討AI模型的偏科现象，并以论文“数学推理能否提升通用大语言模型能力？理解大语言模型推理的可迁移性”为例，分析了两种不同的AI训练方法（监督式微调和强化学习）对AI模型能力的影响。研究发现，强化学习方法能更好地提升AI的通用能力，避免灾难性遗忘。

监督式微调可能导致AI模型出现偏科现象，在特定领域能力提升的同时，通用能力下降
强化学习能更好地提升AI的通用能力，避免灾难性遗忘
知其然并求其所以然的方式可能才是通往真正通用能力的道路

Shownotes Transcript

Hello 各位听众朋友欢迎收听全新一期的人人能懂的 AI 前言我是带你拨开技术迷雾看见未来的晨光我们好像已经习惯了每隔几个月就会被一个新的更强大的 AI 模型刷屏参数量越来越大能力越来越强但你有没有想过一个问题 AI 的强大和我们人类所说的聪明是一回事吗一个能在一秒钟内写出万字报告的 AI

和一个懂得反思自己错误并且知错能改的 AI 哪一个让你觉得更智能

一个能背诵全世界所有知识的 AI 和一个拥有强烈好奇心会主动去探索未知的 AI 哪一个更接近我们对智慧的想象今天我们不聊那些遥不可及的参数竞赛我们想往深处走一步聊聊 AI 新智的进化我们将一口气拆解五篇来自全球顶尖实验室的前沿论文它们就像五块拼图拼凑出了 AI 在学习方式思考模式语言理解甚至是科学精神上正在发生的深刻变革这趟旅程

我们将看到 AI 如何像人一样偏科又如何学会复盘我们将探讨语言在 AI 的世界里究竟是僵硬的积木还是柔软的橡皮泥我们甚至会发现 AI 已经开始拥有了科学探索中最重要的品质对意外的追寻准备好了吗?

让我们一起潜入 AI 的思想深处看看真正的智能是如何被一步步设计和塑造出来的先来看第一篇 AI 的偏科难题学好数理化走遍天下真的不怕吗我们身边可能都有过这样的同学他数学特别好奥赛金牌但你要是让他组织个班级活动或者写一篇春游作文他可能就有点抓瞎我们管这个叫偏科这其实是个挺普遍的现象一个人在一个领域钻得越深就越容易在其他方面显得生疏

那么问题来了我们今天热议的人工智能大模型会不会也犯这个偏科的毛病最近就有一篇很有意思的研究论文它的题目叫做数学推理能否提升通用大语言模型能力理解大语言模型推理的可牵一性它探讨的就是这个问题说白了就是我们花大力气把一个 AI 模型训练成数学高手它在其他方面比如跟你聊天写邮件做尝试问答这些事情上是会变得更聪明

还是会变成一个只会解题的书呆子呢过去我们总觉得数学是科学的皇后是衡量逻辑推理能力的黄金标准一个模型数学好了那肯定就更聪明了但事实真的如此吗这篇研究考察了 20 多个在数学上表现出色的 AI 模型结果发现了一个有趣的现象这些模型的能力出现了严重分化有些模型确实成了通才数学能力提升的同时其他能力也水涨船高

但还有相当一部分模型成了前面说的那种偏科生数学题做得飞快但在一些基础的对话和指令理解任务上表现甚至还不如训练之前这是为什么呢?关键就在于怎么教研究者发现训练 AI 当数学高手主要有两条路第一条路可以叫提海战术在专业上叫监督式微调 SFT 这就像我们上学时把一本厚厚的习题册连同标准答案一起交给一个学生让他照着答案的解题步骤以

一遍遍地模仿、背诵用这种方法训练 AI 它的数学成绩确实能快速提高但代价是什么呢代价是它可能把其他本事给忘了研究发现这种训练方式很容易导致 AI 在通用能力上的灾难性遗忘它的大脑里塞满了数学公式和解题套路以至于在处理非数学问题时也习惯性地调用这套数学思维结果自然是驴唇不对马嘴但还有第二条路叫强化学习 RL 这个方法就高明多了它不像是手把手教的家教

更像一个只看结果的甩手掌柜老师老师给学生一道题不给解题过程只等学生交上答案然后告诉他对还是错答对了给个小奖励答错了你自己回去反思错在哪怎么改进你猜怎么着用这种方法训练出来的 AI 效果出奇的好它不仅数学能力变强了而且原有的聊天写作等通用能力也得到了很好的保留甚至还有所提升

这篇研究还通过一些技术手段深入到 AI 的大脑内部去一探究竟他们发现提海战术 SFT 会剧烈地改变模型内部的知识结构和输出习惯让它的整个思维模式都变得数学化了而甩手掌柜式的强化学习 RL 则像一个高明的外科医生他在 AI 原有的知识体系上

非常精准地安装了一个推理模块而没有破坏其他部分的功能它让 AI 学会的不是某个具体问题的答案而是解决问题背后那个更通用的思考方法你看这事儿给我们的启发已经超出了 AI 的范畴它其实在回答一个非常根本的问题我们到底应该如何学习和成长是追求快速掌握特定问题的标准答案还是应该通过一次次的试错和反思去领悟更底层的规律和原则这篇论文用严谨的实验告诉我们后者

也就是那种知其然并求所其所以然的方式可能才是通往真正通用能力的道路它培养的不是一个只会应付考试的机器而是一个能举一反三的思考者这对于我们个人的职业发展甚至对于我们如何教育下一代是不是都有一些深刻的启发呢所以下次再看到一个在某个领域特别厉害的专家无论是人还是 AI 我们或许都可以多问一句除了这个

你还会点别的吗接下来看第二篇 AI 也会复盘聊聊如何让机器像高手一样思考咱们每个人上学的时候都做过数学题吧你有没有过这样的经历一道难题你埋头苦算写了满满一草稿纸算到一半突然发现哎呀不对某个地方想错了这时候你会怎么办高手不会把纸撕了重来他会退回到算错的那一步滑掉然后换个思路继续往下走

这个发现错误退回修正的过程其实是一种非常重要的思维能力过去我们觉得人工智能 AI 很厉害但它有点像个偏科生你给他一个问题他能很快给你一个答案但如果答案错了他自己是不知道的更别提像人一样反思和纠正了他给你的感觉就像一个学生考试只写最终答案不写解题步骤对错全凭运气但最近一篇名为

Astro Teaching Language Models to ReasonBy Reflecting and Backtracking in Context 的论文就给我们带来了一个全新的思路这篇论文的核心就是教 AI 学会咱们刚才说的那种高手思维在解决问题的过程中进行自我反思和回溯修正它是怎么做到的呢这个方法叫 Astro 我们可以把它理解成一个 AI 思维特训营总共分三步第一步

制作一本高手解题笔记研究人员先找来一个非常厉害的助教 AI 让他去解决各种复杂的数学难题但关键点在于他们不只记录正确的解题步骤而是把助教 AI 探索所有可能性的全过程都记录下来这就像一个高手解题的录像里面不仅有他最终走向正确答案的光明大道也包括他走过的所有死胡同和弯路然后

他们把这个乱糟糟的探索过程整理成一个条理清晰的解题故事这个故事读起来就像一个人的内心独白嗯我先试试这个方法等一下这里好像不对劲我检查一下

果然错了没关系我退回到上一步换个角度试试这条路看起来有希望我顺着它往下走太好了最终答案出来了第二步让学员 AI 大量学习这本笔记他们把成千上万份这样的高手解题笔记交给需要训练的 AI 模型比如 Lama 三系列模型让他反复阅读和模仿这就像我们学习书法不只是看最终写好的字更是反复观摩书法家每一笔的起承转合顿挫回风通过这种方式

AI 学到的不仅仅是知识点更是一种如何思考的原能力他学会了在输出内容时模仿高手的样子自己跟自己对话进行反思和回溯第三步进行实战强化学会了基本功之后就要上考场了研究人员让 AI 去解决海量的真实难题如果他通过自我反思和修正最终做对了就给他奖励如果做错了就给他惩罚在这种不断的正向激励下

AI 的这种高级推理能力变得越来越强结果怎么样呢效果非常显著一个经过 Astra 方法训练的 AI 模型在解决高难度的数学竞赛题时表现甚至超过了那些比它更先进的兄弟模型它生成的答案不再是一个冷冰冰的结果而是一段丰富的包含自我纠错过程的思考轨迹我们甚至可以把它的思考过程画成一张清晰的路线图这件事给我们普通人有什么启发呢首先

过程的价值可能比结果更重要这个研究告诉我们教 AI 学会如何思考远比单纯的未给它正确答案要强大得多这对我们教育孩子或者自我学习都很有启发我们是不是有时候太执着于那个唯一的标准答案而忽略了在探索过程中犯错反思修正这个宝贵的过程真正拉开人与人之间差距的往往不是谁知道的正确答案更多而是谁更擅长处理复杂和不确定的问题谁更懂得如何从错误中学习其次

让 AI 的内心变得更透明过去我们总说 AI 是个黑箱我们不知道它是怎么想的而 ASTRO 方法训练出的 AI 会把它的心路历程展示给你看这不仅让我们更容易理解和信任它也为我们改进它提供了清晰的线索总而言之这篇论文为我们描绘了一种可能未来的 AI 或许不再仅仅是一个无所不知的知识库更可能是一个懂得反思懂得纠错懂得如何像高手一样思考的智慧伙伴它让我们看到

提升智慧不只有变得更强这一条路还有变得更聪明这条更值得探索的路好接下来是第三篇语言的橡皮泥我们如何捏出更智能的 AI 我们平时跟 AI 聊天或者让他写文章感觉他很神奇一个字一个字的往外蹦就能形成一篇通顺的报告你有没有想过这个过程像什么它很像我们小时候玩的乐高积木一个积木块就是一个字或一个词 AI 的任务就是按照语法和逻辑一块一块的按照语法

按照固定的顺序比如从左到右把积木搭起来建成一座巨子的城堡这个方法很成功我们今天看到的大多数语言模型都是这么干的但你再琢磨一下这个搭积木的方式是不是也有点死板比如你搭到一半发现中间有块积木颜色不对想换掉它那就得把后面搭好的部分全拆了再重新一块块搭它只能一条道走到黑缺乏灵活性那么有没有可能换一种玩法呢最近

有一篇技术论文标题很长叫 Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows 基于 Transformer 自回归流的连续空间中的灵活语言建模他就提出了一个非常有启发性的想法这篇论文说我们为什么非要把语言看作一块块独立的硬邦邦的积木呢我们能不能把它看作一团柔软可塑的橡皮泥你听听积木和橡皮泥这感觉就完全不一样了积木是离散的一块就是一块橡皮泥

橡皮泥是连续的你可以随意拉伸挤压揉捏让它变成任何形状这篇论文的核心就是要把语言从积木世界带到橡皮泥世界怎么做到的呢首先它得有个转换机把每个汉字每个单词从一个孤立的符号变成橡皮泥世界里的一个空间坐标比如猫这个字不再是那个方块字而是这个虚拟空间里的一个点狗是另一个点一句话就变成了一串在空间里排布的点

然后最关键的一步来了模型要做的不再是预测下一个积木块而是在这个连续的空间里对这团由点组成的橡皮泥进行雕塑他用了一套非常精巧的叫做流 Flows 的数学工具像一双双无形的手一层一层地不断地调整优化这团橡皮泥的形状想象一下一开始可能是一团杂乱无章的点第一双手过来把它大致捏成一个长条第二双手过来在长条的一头捏出个细节

第三双手再从另一个方向把它整体顺一下经过层层雕琢这团橡皮泥最终就形成了一个稳定优美有意义的形态把它再通过转换机翻译回来就是一句通顺连贯的话你可能会问费这么大劲从搭积木变成捏橡皮泥到底有什么好处这篇论文告诉我们好处非常大它带来了前所未有的灵活性第一种灵活性是全局视野搭积木的时候你只能看到已经搭好的部分

而捏橡皮泥时你的目光是扫视着整个作品的这个新模型就是这样它的雕塑过程可以一会儿从左往右看一会儿又从右往左看这样一来它就能更好地理解上下文比如我今天吃的苹果真甜它在处理苹果这个词的时候不仅知道前面有我吃的还能看到后面的真甜理解就更到位了第二种灵活性是成块生成搭积木一次只能放一块

但捏橡皮泥你可以直接揪下一大块按上去这个模型也一样它可以不再是一个字一个字的生成而是一次生成一小段比如两三个词作为一个补丁同时生成这可能更接近我们人类思考的方式我们说话写字脑子里想的往往是词组或短语而不是单个的字第三种灵活性也是最让我觉得有启发的一点是过程可见即可修改积木成宝我们只能看到最终的成品但橡皮泥的雕塑过程

我们可以随时暂停看看它捏到哪一步了这个模型就允许我们解码出它在任何一个中间雕塑阶段的文本你会看到一句话从一个模糊的粗糙的草稿被一步步打磨修正最终变得精致这就为未来的人机写作打开了巨大的想象空间也许以后我们写文章不是让 AI 直接给个结果而是让它生成一个草稿然后我们像个艺术总监一样对这个橡皮泥指指点点让它在这里调整一下在那里润色一下

共同完成创作所以你看这篇论文的价值不仅仅是提出了一种新的技术更是提供了一种新的思维范式它挑战了语言模型必须在离散世界里搭积木的根本假设它给我们的启发是很多时候要想获得突破我们需要的不是把现有工具打磨得更锋利而是要尝试换一种全新的材料把我们工作中那些像积木一样僵硬固定的流程或者思维想一想有没有可能把它们变成更柔软更有弹性的橡皮泥呢

这或许是这篇充满技术细节的论文能带给每个普通人最宝贵的思考好再来看第四篇 AI 科学家的新玩法他不猜答案专找意外我们都知道科学家的工作是发现世界的真相但你想过没有在发现真相之前科学家是怎么决定要研究哪个问题的面对无穷无尽的可能性他们是怎么找到那个值得投入时间和精力的好问题的这其实是科学研究里最难也最关键的一步过去

我们让 AI 帮忙搞科研通常是这样的我们人类给 AI 一个明确的任务比如你帮我看看喝咖啡和心脏病到底有没有关系 AI 就像一个超级勤奋的实习生接收指令然后吭哧吭哧地去分析数据最后给出一个报告这很厉害但主动权始终在我们人类手里 AI 是被动执行的但今天我们要聊的这篇论文题目叫 Open-ended scientific discovery via Bayesian surprise 通过贝叶斯意外进行开放式科学发现

他提出了一种全新的玩法他想让 AI 自己去寻找研究方向做一个能自主探索的科学家那么问题来了 AI 凭什么去探索呢他总得有个标准来判断什么问题值得研究吧这个标准就是论文的关键词贝叶斯意外 Base in surprise 这个词听着有点唬人但道理很简单你可以把这个 AI 想象成一个读万卷书的学者他对世界上很多事情都有一个先入为主的看法或者说信念比如你问他

飓风的名字越女性化造成的经济损失越大吗 AI 可能会根据它看过的所有资料在心里估摸一下这听起来有点不靠谱可能性不大我猜只有 20%的可能是真的这 20%就是它的鲜艳信念 prior belief 然后你给它一份包含几十年数据的真实飓风数据集让它自己去分析验证 AI 一通计算结果大吃一惊发现数据强烈支持这个说法可能性居然飙升到了 80%你看

这个信念从 20%到 80%的巨大转变对 AI 来说就是一次接接实实的意外这篇论文的核心就是训练 AI 去主动寻找甚至创造这种能颠覆自己三观的意外时刻它探索的动力不再是请证明 A 而是请去找到能让我最惊讶的 B 为了高效地寻找意外研究者用上了一种叫做蒙特卡洛数搜索 MCTS 的策略这名字你不用记你只要知道

他就像一个下棋高手不会把每一步棋的后续所有可能性都算一遍那会把 CPU 烧干的他会聪明地选择几个最有潜力的方向深入探索这叫利用同时也不忘偶尔走几步闲棋看看会不会有意外之喜这叫探索在这个 AI 的棋局里每找到一个意外就算得了一分他的唯一目标就是在有限的精力里尽可能多得分那效果怎么样呢研究人员在生物学经济学

行为科学等领域的 21 个真实世界的数据集上对这个系统进行了测试结果发现这个意外驱动的 AI 比其他几种搜索方法多找到了 5%到 29%的意外发现最有意思的是他们把 AI 找到的这些意外拿给人类的领域专家看结果专家们也觉得其中三分之二的发现确实让他们感到惊讶这说明什么说明 AI 不只是在玩数字游戏它找到的东西对人类科学家来说也同样具有启发性

是那种我怎么没想到的发现所以这篇论文给了我们什么启发呢它告诉我们未来最高级的 AI 可能不是一个什么都懂永远正确的神而是一个拥有强烈好奇心不断被事实颠覆不断推翻自己认知的探索者科学的进步很多时候不是源于对已有知识的确认而是源于对意外的拥抱这个 AI 系统本质上是在模拟科学史上最激动人心的那个部分当一个出乎意料的实验结果出现时

一个全新的世界就在你面前打开了它让我们看到 AI 不仅能成为我们强大的工具未来甚至可能成为我们激发灵感拓展认知边界的伙伴好接下来今天的最后一篇 AI 长篇阅读的秘密如何让机器像螺旋一样思考我们都知道现在的 AI 越来越厉害能写文章能画画能编程但你有没有发现一个趋势我们对 AI 的要求越来越高希望它能处理的文本越来越长以前你可能问它一个简单问题

现在你可能扔给他一本几百页的 PDF 让他帮你总结这种处理超长信息的能力我们称之为长序列处理能力但是这对 AI 来说是个巨大的挑战为什么呢因为 AI 模型里有一个核心部件叫做注意力机制 Attention

你可以把它想象成 AI 在阅读时为了理解一句话的意思需要回头看这句话里的每一个词甚至每一段里的每一句话搞清楚它们之间的相互关系当文章变得超级长比如从一篇文章变成一整本书这个回头看的计算量不是线性增加而是指数级爆炸这就好比你读一本书每读一个字都要把前面读过的所有字再看一遍想想它们的关系这得多累所以

训练这种能读长篇巨著的 AI 计算量和内存消耗都大得惊人一台超级计算机都扛不住怎么办呢?工程师们想了个办法叫流水线并行就像工厂的流水线把一个大任务拆分成很多道工序分给不同的机器也就是 GPU 来做第一台机器做完工序一传给第二台做工序二以此类推这个办法很好但有个致命缺陷叫流水线气泡你想想流水线刚启动的时候

后面的机器是不是都闲着在等第一台机器的产出流水线快结束的时候前面的机器是不是又闲下来了这些大家都没活干的时间就是气泡是巨大的效率浪费尤其是在处理常温本时那个最耗时的注意力工序会让这个气泡变得特别大严重拖慢了整体速度同时流水线上的机器还面临内存不均的问题排在前面的机器需要记住也就是存储的东西特别多内存早就爆了而后面的机器内存还空着大半

面对这个难题一篇名为"Helix Pipe Efficient Distributed Training of Long-Sequence Transformers with Attention-Parallel Pipeline Parallelism"Helix Pipe 通过注意力并行、流水线并行实现长序列 Transformer 的高效分布式训练的论文提出了一个非常巧妙的解决方案它的核心思想简单说就两招第一招叫注意力并行分区既然注意力这个工序最耗时是流水线上的瓶颈那我们干嘛非要让它在一台机器上死磕呢?Helix Pipe 的做法是

把这个最难的活儿给打散它不再把模型按完整的层来切分而是把每一层都拆成三部分注意力前注意力注意力后然后它用一种螺旋式 Helix 的方式把不同小任务也就是微批次的注意力计算巧妙地分配到不同的机器上去并行处理这就像什么呢就像流水线上有一个超级复杂的质检工序老办法是一个产品过来一个质检员从头到尾检查一遍后面的产品得排长队

新办法是我们有好几个质检员第一个产品的 A 部分一完成 1 号质检员马上拿去检 B 部分一完成 2 号质检员拿去检它们同时开工把最耗时的质检环节给并行化了这样一来那个巨大的流水线气泡就被大大压缩了第二招叫双重先进后出 Filo 调度

这是为了解决内存不均和通信延迟的问题所谓先进后出就是说第一个进入流水线的小任务它的收尾工作反而是最后一个完成的这能让每台机器在任何时候需要记住的东西都差不多内存占用就平衡了那双重是什么意思

就是让机器在处理一个任务的同时利用空闲能力去准备下一个任务把机器之间传递数据的时间给隐藏在计算时间里了这就好比一个熟练的厨师在这个锅炖着菜的时候已经开始洗下一个要下锅的菜了一点时间都不浪费最终效果如何?论文的数据显示这个叫 Helix Pipe 的方法在训练一个 70 亿参数的模型处理长达 12.8 万的序列时笔线有最好的方法快了 26%这是一个非常显著的提升所以

这篇论文给了我们什么启发呢它告诉我们面对复杂的工程难题有时候真正的突破不在于用更猛的算力去硬扛而在于对流程的重新设计 Helix Pipe 没有发明一个全新的注意力算法它只是把现有的流程用一种更聪明更优雅的方式重新组织了起来那个螺旋式的调度方法本身就是一种美妙的秩序这就像我们生活中遇到的很多瓶颈问题一样很多时候我们觉得是资源不够

但实际上可能是我们的工作流我们的协作方式出了问题换个思路把瓶颈环节识别出来打散它并行化处理用巧妙的调度去运评时间上的浪费效率的提升可能会超乎你的想象这背后是一种对效率的深刻理解一种系统化的思考方式好了五篇论文五扇窗户让我们窥见了 AI 智能进化的五个迷人侧面

我们从 AI 的偏科聊起探讨了如何学的智慧我们见证了 AI 学会了复盘懂得了如何思考我们把语言从积木变成了橡皮泥重塑了如何表达我们甚至赋予了 AI 好奇心让它开始探索研究什么最后我们用螺旋式的工程美学解决了如何实现的瓶颈把这五块拼图合在一起你会发现

一幅清晰的图景未来的 AI 不再仅仅是比拼算力的庞然大物它正在变得更精巧更透明更懂得协作也更富有灵性它正在从一个无所不知的知识库进化成一个懂得反思懂得创造懂得探索的智慧伙伴而这背后真正闪耀的始终是人类对于智能与成长本身的深刻洞察我们交给 AI 的又何尝不是我们希望自己能拥有的品质呢感谢收听本期的《人人能懂得 AI 前言》

如果你喜欢我们的节目别忘了分享给更多的朋友我是陈光我们下期再见

不止是强大，更是聪明：AI如何学会思考、复盘与好奇？ 23:24 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

不止是强大，更是聪明：AI如何学会思考、复盘与好奇？