We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI的“顿悟”时刻：从玩游戏到省大钱，揭秘智能进化的新路径

2025/7/2

AI可可AI生活

AI Deep Dive AI Chapters Transcript

People

陈

陈光

Topics

陈光: 过去我们认为提升AI智能需要海量数据和题库，但实际上，通过游戏也能让AI学会思考。就像我们小时候通过玩游戏学会合作、竞争和思考一样，AI也可以通过玩游戏来提升智能。我发现，让AI玩简单的纸牌游戏，它竟然能学会解数学题。这是因为它在游戏中被迫悟出了分情况讨论、算计期望值和系统性分解等底层思维模式。不同的游戏还能锻炼不同的思维肌肉，同时玩多种游戏能让AI成为通才。所以，通往高级智能的道路不完全依赖于知识灌输，更重要的是创造一个好的竞争环境，让AI在博弈中自己生发智慧。

Deep Dive

Chapters

本期节目探讨了AI通过游戏学习提升能力的最新研究。研究人员发现，让AI玩简单的纸牌游戏，可以提升其解决数学和推理问题的能力。这表明，创造良好的竞争环境，激发AI的潜能，可能比灌输知识更有效。

AI通过玩零和游戏（如纸牌游戏）学习推理能力
游戏环境促使AI发展出底层思维模式，如分情况讨论、计算期望值和系统性分解
不同游戏锻炼不同思维能力，多游戏训练提升AI解决新问题的综合能力

Shownotes Transcript

大家好欢迎收听新一期的人人能懂得 AI 前言我是主持人陈光提到 AI 变强你是不是只想到了更大的模型更多的数据这就像以为力气大就等于武功高但今天我们要聊点更高级的 AI 的顿悟时刻我们将揭秘五条让 AI 变得更聪明的奇妙路径从在游戏中悟道到学会看情况办事甚至懂得如何花小钱办大事准备好一起见证 AI 智慧的进化先来看第一篇《高手过招》

AI 是如何在游戏中悟到的我们总觉得人要想变聪明得读书上学刷题让老师专家把知识一点点灌输给我们那人工智能呢过去我们也是这么想的想让他会解数学题就给他海量的题库和答案去学习这法子管用但有点像在培养一个只会背题的学霸换个新题型就可能蒙圈而且准备这些教材又费时又费力有没有一种可能智慧的产生还有另一条更根本的路

你想想我们自己尤其是小时候很多本事不是靠上课而是靠玩学会的跟小伙伴们玩游戏你来我往为了赢你得动脑筋得想策略得猜对方心思在这个过程中你不知不觉就学会了合作竞争和思考最近就有一篇很有启发的论文叫 Spiro's Self-Play on Zero-Sum GamesIncentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning 他讲的就是这么一个事

这标题听着复杂咱们把它翻译成大白话通过玩你输我赢的游戏让 AI 自己跟自己下棋就能逼着他学会思考这篇研究干了件特别绝的事他们让一个 AI 模型啥也不干就只玩一个极其简单的纸牌游戏酷温扑克酷温 Poker 这个游戏总共就三张牌规则简单得很关键是在整个训练过程中这个 AI 没见过任何一道数学题没读过任何一篇科学文章结果你猜怎么着

当他们拿学术界公认的数学和推理能力测试题去考这个玩牌的 AI 时发现它的解题分数竟然大幅提高了一个只会打牌的玩家摇身一变成了解题高手这就奇怪了它是怎么做到的难道是打通了人都二脉研究人员深入分析后发现秘密就藏在游戏本身为了在游戏中战胜自己因为它的对手是另一个不断进化的自己 AI 被迫悟出了几种非常底层的可以跨领域通用的思维模式第一种

叫分情况讨论,case by case analysis 玩牌的时候你得想啊如果对手是这张牌,我该怎么办如果他是另一张牌,我又该怎么办这种把复杂问题拆解成几种可能性然后逐一分析应对的本事不正是我们解决很多逻辑题和数学题的核心思路吗第二种,叫算计期望值 Expected Value Calculation 你会盘算,我这把跟注赢的概率多大输的风险多高,综合来看划不划算

这种基于概率权衡利弊的思维是高级决策能力的基础第三种叫系统性分解 Systematic Decomposition 面对一个局面先干什么再干什么一步步把问题拆开这是一种结构化的思考习惯你看游戏就像一个思维健身房它不直接教你知识而是通过竞争压力把你最原始最核心的思考肌肉给锻炼出来了一旦这些底层能力形成了你把它从牌桌上拎到考场里

它照样能用更有意思的是研究还发现不同的游戏能锻炼出不同的思维肌肉比如玩井字棋 Tic-Tac-Toe 能锻炼 AI 的空间规划和模式识别能力玩扑克能锻炼它的概率推理和心理博弈能力玩一个简单的谈判游戏则能锻炼它的策略优化能力当一个 AI 同时玩着好几种游戏时它就成了一个通才比只玩一种游戏的专才更会解决没见过的新问题这就像一个人既会下棋又会打球还会辩论

他的综合头脑一定更灵活所以这篇研究给了我们什么启发它告诉我们通往高级智能的道路可能不完全依赖于海量知识的灌输也许更重要的方式是创造一个好的竞争环境就像一个好的教练不是把所有技巧都塞给你而是设计出能激发你潜能的训练赛

在这个自己挑战自己的螺旋式上升过程中 AI 不再是一个被动的知识接收者而是一个主动的悟道者他为了赢这个最朴素的目标自己摸索出了思考这门最复杂的艺术这或许预示着一种未来我们想让 AI 变得更聪明要做的可能不是给他更多的标准答案而是为他设计出更多更好的游戏场让智慧在竞争与合作的动态博弈中自己生发出来好关于字意的这篇论文我们就介绍完了

接下来是第二篇造图的曼顿与快炒 AI 绘画的新思路我们现在都玩过 AI 画画给他一句话他刷的一下就给你生成一张精美的图片这背后其实有两大主流门派就像武林里的少林和武当一个门派好比是曼顿派他拿到一张纯粹的像电视雪花点一样的噪声图然后一步一步非常耐心地把噪声抹掉让画面的细节慢慢浮现出来最后炖成一幅精美的画这个过程很稳效果也好

但缺点是有点慢需要很多步骤另一个门派可以叫连载派它更像我们写文章或者说话一个词一个词地往外蹦它把一张图片拆成很多小块然后一块一块地画出来后一块怎么画取决于前面画了什么这个方法跟我们现在用的大圆模型思路很像理论上能把写文章和画画统一起来但之前在画画的效果上总是感觉比曼顿派差那么一口气那么问题来了

有没有可能我们既想要曼顿派的精致出品又想要连载派的逻辑和潜力甚至还想让整个过程更快一点呢最近一篇名为 Transition Matching Scalable and Flexible Generative Modeling 的论文就给了我们一个特别有意思的启发它没有纠结于两个门派谁更强而是跳出来想我们能不能给 AI 一个更聪明的猜谱这篇论文的核心思想叫做 Transition Matching 我们可以通俗地理解为渡口匹配

想象一下 AI 画画的过程就像从一片混沌的噪声之海出发要渡河到对岸清晰的图像大陆过去的曼顿派像是给 AI 修了一条铁轨规定了非常精确的路线让它一步一步开过去这条路很安全但也很死板而渡口匹配这个新思路是说我们不用修一条固定的铁轨我们可以在河中间设置好几个渡口也就是中间状态 AI 从一个渡口到下一个渡口时我们不给它规定死的路线而是告诉它

到下一个渡口大概是往那个方向走你可以根据情况稍微自由发挥一下这种匹配不是匹配一个僵硬的动作而是匹配一个充满可能性的概率转换你看这个小小的改变一下子就把思路打开了基于这个渡口匹配的思想论文提出了几个特别实用的新方法第一个叫 DTMDifference Transition Matching 我们可以叫它快炒派这个方法非常巧妙它不再让 AI 只盯着下一步该怎么走

而是让 AI 在每一步都去思考一个更宏大的问题从我现在的状态到最终那张完美的图片整体上还差了些什么它预测的不是下一步的微小动作而是从起点到终点的总差值这就像一个高明的厨师炒菜它不是严格按照菜谱上写的加盐 5 克而是在整个过程中不断感知这道菜最终要达到的味道然后动态地大刀阔斧地调整结果怎么样呢效果惊人

用这个方法 AI 画画的质量更高对我们给出的文字提示理解得更准最关键的是速度大大提升原来可能需要上百步才能慢顿好的画现在几十步甚至十几步快炒一下就出锅了而且色香味俱全第二个 FHTMFull History Transition Matching 我们可以称之为"全知画家"这个方法就是要把连载派的潜力发挥到极致它让 AI 在画画时拥有完整的记忆当它画下一块内容时

他能看到之前所有已经画好的部分甚至能回顾整个从噪声到图像的演变历史这有什么好处呢?这意味着 AI 画画的逻辑和我们熟悉的大语言模型写文章的逻辑可以完全统一了它就是一个既能逐字吐出文章又能逐笔画出图像的全知创作者更了不起的是这篇论文证明了这种全知画家模型在画质和效果上第一次能够追平甚至超过顶尖的曼顿派模型这为未来打造那种

这种无缝的边说边画边写边图的超级多模态 AI 铺平了道路所以你看这篇论文带给我们的启发是什么它告诉我们很多时候取得突破靠的不是把现有方法推到极致而是换一个思考框架从固定的路径切换到灵活的渡口转换看似一小步实则打开了一个全新的充满可能性的设计空间

它还向我们展示了统一的力量无论是慢顿还是快炒无论是画画还是写作其底层可能存在着更一般性的生成规律找到这个规律我们就能创造出更强大更通用的 AI 这就像我们生活中的很多事当你觉得一条路走到头的时候不妨退后一步看看是不是还有别的渡口能让你更快更好的到达彼岸好了这篇论文我们就介绍到这接下来看第三篇 AI 也懂看情况办事了我们平时都说一个人聪不聪明

很关键的一点就看他是不是懂得看情况办事比如你推一扇门门开了于是你得出结论推导致门开这是一个因果关系但如果下一次你再去推这扇门他却闻思不动这时候你会怎么办一个只会死记因为的孩子可能会懵掉他会觉得推门这个规则时灵时不灵太奇怪了但一个成年人会怎么想他会立刻意识到情况变了他会去检查是不是门被锁上了哦原来是这样所以

推门会开这条规则只在门没锁这个前提下才成立你看我们脑子里不仅有一条条的因果规则更重要的是我们还有一个规则的规则知道在什么情况下哪条规则会生效过去的人工智能在很多时候就像那个只会死寂应备的孩子他能从海量数据里发现推门和门开这两件事经常一起发生但当环境稍微一变比如门被锁上了他就傻眼了他建立的那个世界模型太脆弱了一变就失灵那么

我们能不能教会 AI 像成年人一样思考不仅知道因果规则还知道这些规则背后的开关是什么呢最近一篇名为《Curious Causality Seeking Agents Learn Meta-Causal World》的论文就给我们带来了非常大的启发它提出了一种让 AI 主动去探索和理解这个世界规则之规则的全新方法这篇论文的核心可以概括为两个关键词一个是原因果图 Meta-Causal Graph 另一个是

好奇的因果探寻智能体 Curious Causality Seeking Agent 我们先说第一个原因果图这个词听起来有点玄但道理很简单它就像我们前面说的那个规则的规则它不是一张单一的放之四海而接准的因果地图而是一本活地图集这本地图集里有好几张不同的因果地图比如地图 A 上画着推门开地图 B 上这条线就断了而决定到底该用哪张地图的是一个叫原状态的东西在这个例子里

门锁的状态锁着或没锁就是那个原状态所以一个完整的世界模型不应该只有一张地图而应该是这本包含了多张地图以及地图切换说明的地图集这就是原因果图的本质一个能够描述因果关系如何随环境状态而变化的统一结构好那问题来了这么高级的地图集 AI 要怎么学会呢这就引出了第二个关键词好奇的因果探寻智能体这个智能体不

不像以前那些被动接收数据的乖学生他是一个主动的充满好奇心的小科学家他面对一个未知的世界不是光看不练而是撸起袖子亲自下场做实验他是怎么做的呢首先他会主动去干预 intervention 面对那扇时开时不开的门他不会只是一遍遍地推他会想会不会是那个锁头的问题然后他就去主动地干预那个锁把它拧一下再去推门试试你看通过这种主动的有目的的干预他会

他就能非常高效地验证自己的猜想搞清楚锁的状态才是决定推门是否会开的关键其次他的探索是由好奇心驱动的什么是好奇心在这篇论文里好奇心被定义为一种内在的奖励当智能体对某个因果关系最不确定的时候比如他搞不清楚按下一个按钮到底会引发什么后果时他就会产生强烈的好奇心驱动自己去按一下试试

这种机制会引导他优先去探索那些最未知最模糊的地带从而最高效地补全自己的知识地图所以整个过程就像这样一个好奇的 AI 在一个新环境里通过主动干预来做实验验证各种因果关系当他发现某些因果关系在不同场景下会变化时他就意识到这里存在一个原状态于是就在他的原因果图里为这个原状态创建一张新的因果地图通过这样不断地探索验证和迭代

它就能逐步构建出一个越来越完整越来越准确的世界地图机实验结果也证明了这一点在一些模拟环境里比如一个需要机械臂操作的复杂任务中这种好奇的智能体比那些只会观察不会主动干预的 AI 能更准确地预测未来也就能更出色地完成任务尤其是在环境发生变化的时候它的优势就更加明显这篇论文给我们的启发是什么呢它告诉我们

真正的智能可能不完全在于处理数据的能力有多强更在于一种主动探索世界构建因果模型的能力我们人类之所以能够适应如此复杂多变的世界正是因为我们每个人都是一个天生的因果探寻智能体我们从小就在不断地试错干预构建和修正我们脑海中的那本世界地图集而这篇论文正是把这种属于人类的更深层次的学习能力赋予了 AI

它让 AI 从一个只会知其然的模仿者向一个试图知其所以然的探索者迈出了重要的一步好了这篇论文我们就介绍到这儿接下来看第四篇用对锤子 AI 工具的正确使用说明书最近 AI 圈里有个工具叫吸疏自动编码器听着很复杂我们后面会说到它关于这个工具评价可是两极分化一边一些顶尖的研究团队说我们试过了效果好像一般不打算在这上面花大力气了

可另一边呢又有很多人对它充满热情觉得它能帮我们搞出大事情发现新大陆这就奇怪了同一个东西怎么评价能差这么多它到底是潜力股还是被高估了要理解这事我们得先搞明白这个工具到底是干嘛的你别被它高大上的名字吓到可以把它想象成一个超级整理师专门给 AI 的大脑做整理我们知道现在的人工智能模型比如我们常用的聊天机器人它的大脑里装了海量的知识但这些知识是混沌的

交织在一起的一个神经元可能同时代表了几十上百种意思乱成一团而这个吸收自动编码器 SAE 的作用就像是请来一位高手把这一团乱麻给梳理开变成一本巨大的条目清晰的概念词典比如一个词条专门负责和猫有关的一切另一个词条专门负责科学论文里的引用格式还有一个词条可能专门负责听起来像莎士比亚风格的句子每一个词条都只管一件事非常纯粹

这样一来我们就能更清楚地看到 AI 在处理信息时到底调用了哪些概念好了解了它是个整理师之后我们再回到那个争议为什么有人说它好有人说它不行呢这时候一篇论文站出来说大家都别争了问题可能出在用法上这篇论文的题目一语道破了天机它叫 Use Bars Autoencoders to Discover Unknown ConceptsNot to Act Unknown Concepts 翻译过来就是

你应该用西数自动编码器去发现未知的概念而不是去操作已知的概念这句话是什么意思呢我们先看什么是操作已知的概念也就是论文作者认为的错误用法比如你已经知道金门大桥这个概念了你想让 AI 写一段包含金门大桥的话于是你跟这个整理师说喂去 AI 大脑里找到代表金门大桥的那个词条把它调到最强你以为这样 AI 就能出口成章了但研究发现这么干的效果

还不如你直接跟 AI 说请在你的回答里加上金门大桥来得简单直接这就好比你手里有一张极其精准的地图你却非要用它来当扇子扇风那效果肯定不如专门的扇子好对于那些我们已经知道并且能用语言清晰描述出来的任务直接指挥 AI 去做往往是最高效的想用 SAE 这种工具绕个弯去控制它反而吃力不讨好那么

什么才是他的正确用法发现未知的概念呢这才是他真正厉害的地方是他的超能力举个例子假设你是一个新闻网站的编辑你面前有几百万条新闻标题和他们的点击量数据你想搞明白到底什么样的标题更吸引人你心里没谱可能是标题里有问号还是有情绪词你不知道该从何查起这时候 SAE 就派上用场了你把所有标题都喂给他让他去分析和整理过了一会儿

他告诉你我发现了一个规律一个我整理出来的编号为 888 的词条只要它被激活标题的点击量就特别高你一看这个 888 号词条对应的概念是描述两种对立事物冲突的标题你看这个规律是你之前完全没想到的是 SAE 帮你发现的再举个例子研究人员想知道 AI 是怎么做数学题 36 加 59 的

通过 SAE 这个显微镜他们发现 AI 在计算时大脑里有好几个词条被激活了一个代表着个位数是 5 另一个代表着一个 40 左右的数加上一个 50 左右的数他通过这种方式一步步拼凑出了答案这种 AI 内部的思考路径如果我们不借助工具是根本无法得知的所以你看这篇论文给我们的启发是什么它不仅仅是在评价一个 AI 工具它在说一个更普遍的道理任何一个工具的价值

都取决于我们用它来解决什么问题你得找到它独特的不可替代的那个应用场景一把手术刀你拿去砍柴肯定不如斧子但你要做精细的外科手术斧子就完全派不上用场这个叫 SAE 的工具它不是一把万能的斧子而是一把精准的手术刀或者说是一个高倍显微镜它的核心价值不在于控制 AI 去执行我们已知的命令而

而在于理解 AI 的内心世界帮助我们发现那些隐藏在海量数据之下的我们未知的规律和知识未来我们不仅要创造更强大的工具更要学会如何正确地使用它们去发现那些我们甚至还不知道自己不知道的东西这可能才是这个时代给我们带来的更深远的机会好了这篇论文我们就介绍到这接下来看最后一篇 AI 点餐的智慧如何花小钱办大事我们现在用各种 AI 感觉就像天天在点餐有时候

你只想问个简单问题比如今天天气怎么样结果 AI 后台给你启动了一个米其林三星大厨来回答那叫一个铺张浪费但有时候你问一个特别复杂的问题他又给你派了个路边快餐店的小工回答得乱七八糟这背后其实是个大问题 AI 服务尤其是那些最顶尖的模型比如 GPT-4O 用一次的成本可不低怎么才能做到好缸用在刀刃上既能保证回答质量又能省钱呢

过去大家想了一些办法比如搞一个分整台简单的任务交给便宜的小模型复杂的任务才去麻烦昂贵的大模型听起来很美但实际操作起来发现大部分任务小模型还是搞不定最后几乎所有问题还是得去找那个米其林大厨钱没省下来多少还有一种办法像个流水线一个问题先进到最便宜的模型那里如果他觉得自己不行再传给下一个直到最贵的模型出手

但这也有问题一个问题可能要被好几个模型过手一来一回时间也耽误了就在大家觉得这事儿挺难办的时候一篇论文提出了一个特别聪明的思路它的标题叫 Best RouteAdaptive LLM Routing with Test Time Optimal Compute 咱们把它翻译得通俗一点就是最佳路径一种能在用的时候自动找到最划算计算方案的 AI 路由方法它的核心思想一说你就懂而且会觉得

哎呀我怎么没想到这个思路是这样的一个便宜的小模型你让它回答一次可能回答的不好但是你能不能让它一口气生成 5 个甚至 10 个不同的答案然后我们从这 10 个里面挑一个最好的出来呢你可能会说这不还是增加了工作量吗关键就在这儿了让一个便宜的小模型生成 10 个答案的总成本可能仍然比让一个顶级大模型生成一个答案要便宜得多这就好比

你不想花 500 块去吃一份米其林牛排但你可以花 50 块去一家还不错的快餐店跟老板说给我做 10 个汉堡我尝尝哪个最好吃最后你可能真的挑出一个味道惊艳的汉堡而成本只有米其林的十分之一这就是这篇论文的第一个绝妙之处通过以量取胜的策略让小模型的潜力得到了极大的提升那么问题又来了什么时候该让小模型生成三个答案什么时候该生成十个什么时候

又必须得请米其林大厨出马呢这就引出了他的第二个绝妙设计一个极其聪明的智能调度员也就是他的路由系统这个调度员拿到一个问题后他不只是简单地决定去 A 餐厅还是 B 餐厅他会进行一个飞快的沙盘推演在心里盘算第一如果我把这个问题交给 Lama3.18b 这个小模型让它生成三个答案那么最终选出来的最佳答案能达到 GPT4O 水平的概率有多大成本是多少第二

如果让它生成 5 个答案呢概率和成本又是多少第三再看看 Fy3 mini 这个更小的模型让它生成 10 个答案概率和成本又如何它会把所有小模型加不同答案数量的组合都评估一遍然后找出那个最划算性价比最高的方案比如它发现让 Lelum 3.18b 生成 3 个答案这个方案有 95%的把握能媲美 GPT-4O 而且成本最低好就这么定了只有一种情况

就是这个调度员把所有便宜的方案都算了一遍发现没有一个能达到我们设定的质量要求时他才会认命把这个问题恭恭敬敬地交给最贵的那个顶级模型你看整个过程就变得非常灵活和智能了最后的结果怎么样呢研究表明用这种方法可以在回答质量值下降不到 1%的情况下把 AI 的使用成本降低高达 60%这可是一个非常了不起的成就所以这篇论文给我们的启发是什么它告诉我们

创新不一定总是要造出更大更强的发动机有时候真正的智慧在于设计一个更聪明的变速箱和调度系统我们手里的资源不管是强的还是弱的贵的还是便宜的关键不在于他们各自的能力而在于我们如何把他们动态的智慧的组合起来去应对每一个具体的问题这就像一个高明的指挥官他手下有骑兵有步兵有弓箭手他的胜利不取决于单一部队的勇猛

而取决于在每一次战役中他都能做出最恰当的兵力组合未来我们和 AI 打交道可能拼的不仅仅是谁拥有最强的 AI 更是谁拥有最聪明的 AI 使用策略这才是花小钱办大事的真正智慧好这就是今天的五篇最新 AI 论文我们看到了 AI 智慧进化的五条新路径无论是从游戏中悟到还是像科学家一样探索甚至学会了精打细算这告诉我们真正的智能突破

往往来自更聪明的方法论而不只是算力的堆砌感谢收听本期人人能懂的 AI 前言我们下期节目再见

AI的“顿悟”时刻：从玩游戏到省大钱，揭秘智能进化的新路径 22:50 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI的“顿悟”时刻：从玩游戏到省大钱，揭秘智能进化的新路径