你发现没有我们身边总有那么一类人学什么都特别快干什么都像个高手你让他解一道难题他不仅能给出答案还能把整个解题思路给你讲得明明白白告诉你哪一步是关键哪一步容易掉坑我们自己呢坑之别渡半天好不容易蒙对一个答案下次遇到类似的题还是抓瞎
人和人的差距往往不在于智商而在于会不会学习或者说会不会复盘自己的思考过程过去我们训练人工智能就像是在带一个很努力但是有点笨的学生我们给他一大堆题让他做做完只告诉他答案对不对
对了给他一个小奖励错了就让他重来这种方法 AI 可能要试成千上万次才能碰巧找到一条通往正确答案的路但他真的理解了这条路为什么对吗他知道自己在哪个岔路口选对了吗他不知道他只是在进行结果导向的暴力试错
这效率太低了而且培养不出真正的思考能力最近一篇名为 TreeRL LLMReinforcement Learning with On-Policy Tree Search 的文章给了我们一个全新的启发它提出了一种方法让 AI 不再是那个只会蒙答案的笨学生而是变成了一个懂得深度复盘的思考高手
这个方法精妙在哪呢它做了两件大事第一件大事是从瞎闯到精准探索想象一下你走在一个迷宫里前面出现了三个岔路口你完全不知道该走哪条怎么办过去的 AI 可能会随便选一条或者干脆每条路都派个分身去走一遍而这篇论文里面的新方法叫做 EPT 他聪明多了他会让 AI 在做题的过程中
时刻自我审视当 AI 算到某一步感觉特别没把握不确定的时候比如它觉得用公式 A 和公式 B 好像都行拿不准主意机会就来了这个方法会立刻抓住这个最不确定的点把它标记为
关键差路口然后从这个点开始像大树长出新枝叉一样分裂出不同的思考路径分别探索如果用 A 公式会怎么样如果用 B 公式会怎么样你看这不是盲目的探索而是把宝贵的计算资源用在最关键最纠结的决策点上这就像一个棋手他不会去想每一种可能的走法而是会聚焦于那几个最可能影响战局的胜负手这是一个高效的有重点的思考方式
第二件大事是从结果讲成到过程激励找到了关键插路口并探索了不同路径这还只是第一步更厉害的在后面当这棵思维树生长完毕有些树枝走到了正确的答案有些则走进了死胡同现在 AI 要开始复盘了它会顺着树枝往回看给路径上的每一步打分如果一个步骤它下面的分枝最终通往正确答案的比例很高那这个步骤就是一个好棋会得到一个大大的奖励
反之如果一个步骤之后大概率会走向错误那他就会被标记为臭棋得到一个惩罚更妙的是他不光看全局还看局部什么意思呢比如某一步棋虽然从全局看不是最佳的但相比于他的上一步他确实让局面变好了那么他也能得到一个进步奖通过这种方式 AI 不再是等到最后才知道自己对错他的每一步思考每一个决策都得到了即时的精细的反馈
他清楚地知道自己在哪一步走对了哪一步走偏了哪一步是神来之笔哪一步是致命错误这就是所谓的过程监督它让 AI 的学习从一个黑箱变成了一个完全透明可分析可优化的过程那么这篇文章带给我们普通人什么样的启发呢这篇论文虽然讲的是高深的 AI 技术但它背后蕴含的智慧对我们每个人都极具价值
首先是过程的力量我们常常过于关注结果考试要看分数工作要看 KPI 但真正的高手都痴迷于打磨过程把一件大事拆解成无数个小步骤然后不断优化每一个步骤的动作结果自然不会差这个 AI 的学习方法就是对过程主义的最好诠释其次拥抱不确定性
那个让 AI 长出新分支的地方恰恰是它最没把握的地方这告诉我们生活和工作中那些让我们感到犹豫纠结不确定的时刻往往不是麻烦而是成长的最佳契机正是这些地方我们最需要停下来多想几种可能多做几种尝试
每一次对不确定性的探索都会让我们对整个事情的理解加深一层所以你看最前沿的科技往往会回归到最朴素的道理想要变得更聪明无论是对机器人还是对人秘诀或许都是一样的放弃对最终结果的执念转而按上对过程的每一次复盘和思考