今天我认为没有一个特别好的数学模型去刻画思考或思维这件事情因为你回到最后其实还是 poken by token 生成常序列你现在明明是在借用你原模型来实现一个不应该归他来做的事情我觉得最终应该是有这样的一个数学模型这个数学模型可以刻画整个推理过程我们会不会因为没有见过或者没有理解它而认为它是幻觉某种意义上讲人就是活在幻觉中只要自洽就可以为什么大家还是去接受
他要做饭话
欢迎来到会友标局这是一档蚂蚁集团出品的播客栏目我们会和各位心疼老友分享关于蚂蚁的一切和你一起探索科技与商业的未来世界
Hello 大家好,我是有红今天我们聊一聊推理范式这个话题我个人非常的感兴趣因为非常有想象空间特别是 DeepSick 阿旺出来之后呢让普通人也看到了推理的能量当常思维恋者在对话框里的时候我们觉得,诶,大模型有思维了更像人了,甚至比人更厉害了
在学术圈技术圈长思维链也是研究基础模型推理能力的一个热门的方向与此同时呢基于长思维链的这种推理之上也有一些新的建树和研究在催生比如说长思考和慢思考是否能融合再比如说用更新的推理范式来补充现在的这种长思维链的这种推理模式甚至呢也有神经科学家认为说这种高能量的长思维链不会是通往通用智能的一个正确路径因为它消耗太高了
围绕这些问题呢本期节目我们请到了蚂蚁技术研究院自然语言处理的负责人伍威伍威的本科与博士均别于北京大学的数学科学学院 2011 年他获得微软学者后 2012 年加入了微软亚洲研究院任主管研究员
微软小兵首席科学家 23 年加入蚂蚁技术研究院我发现在聊的很多的技术人和科学家里我发现一个非常有意思的规律一些很优秀的技术人他都有很好的哲学思维我觉得五威就是这样一位一位很好的聊天对象所以今天让我们期待这一期对谈吧我们欢迎一下五威也跟听众朋友打个招呼吧
谢谢主持人非常高兴能够参与到这样的一个谈话中来分享一些我们最近一两年的一些思想非常荣幸其实在非基础权了解推理应该是在 DeepSeek Anwong 出来之后大家看到了 Anwong 这款模型出来之后长思维链被广泛的认知你怎么评价 Anwong 这款模型呢以及它背后的这个能力
其实可能技术圈和非技术圈不同的人站在不同的立场可能有不同的看法那我应该说是站在一个技术圈的这样一个角度来看这件事情我认为 R1 有两个非常重要的贡献第一个贡献就是说它实现了一个在 OpenAI O1 发布之后就很快复现了 O1 这样的一个效果而且以非常低的成本复现了 O1 这样的一个效果
这个我觉得是第一个贡献第二个贡献就是他把他的很多的技术细节公开了这样的话整个行业就可以在他的工作基础之上继续去研发继续去开发更好的模型我觉得这一点是非常重要的实际上在 2024 年 9 月份 OE 出来之后大家看到了它的效果但是其实因为 OpenAI 没有公布任何的技术细节所以大家也不知道它怎么做的大家都在猜它大概可能是怎么做的
所以 R1 出来之后它公布了一些技术细节之后大家才开始意识到原来这样通过强化学习这么去做强化学习这么去设定这个奖励函数我们就可以实现这个长思维链我觉得不太严格的来讲的话可能是 R1 之后整个大模型的研究
或者大模型的领域大模型圈才进入了这个长思维链或长推理链这样的一个时代其实 OE 可能做出来了但它没有发布所以大家不知道怎么回事而 R1 做出来之后又发布之后大家知道了而且可以去在上面进行一些尝试了那么整个行业才被推动起来所以我觉得这个是一个非常大的贡献它其实是引领了整个行业的一个研究的范式啊
阿里我们看到的他展示出来这种常思维的逻辑它是一种什么样的原理它也是像那个预训练一样 talking by talking 那种方式吗还是一种崭新的这种逻辑的带着模型的思考就对普通人来怎么去看他们的不同
嗯 我觉得是这样这个我觉得分两重一重是说我们从结果上来看或者从现象上来看它确实好像似乎是有一些这个思考的能力的因为首先你要说到思考对吧那什么是思考这件事情其实挺
值得讨论我相信可能在哲学领域在心理学领域包括人工智能领域都应该有不同的一些定义那么我自己当然对这个思考研究也不是非常深刻但是我最近比如说我们去看大家
经常去讲的这本书叫思维快与慢 thinking fast and slow 这本书里面他讲思考其实这是一个心理学家写的一本书那他讲思考他说思考有两个模式快思考慢思考这个大家都已经很熟知了那么慢思考特别他里面讲这个 system2 就是系统 2 这个慢思考他其实讲的怎么说不是非常简练的如果把他的英文翻译过来的话他说是要把注意力分配给那些需要认知努力的一些心理活动上的这样的一种系统叫做系统 2
而且因为他是要把认知努力要把一些注意力分配给这个需要认知努力的心理活动所以它是一种有意识的这样的一种思维活动是需要消耗很多能量的那么从这个角度看我们看这个长思维链或者 RE 或者 OE 所展现出来的这种解题的过程那么它确实符合因为它要生成很长很长的文本它需要消耗很多的计算资源那么这是对的那么第二点他说
人的这两种思维方式或者说思考方式系统一其实它是没有消耗能量的而且它会很快地产生大量的思考品它叫 idea pattern 我们可能翻译成中文叫做想法的这种模板只有系统二能够将想法模板或者想法模板组合起来来去
解决一些比较复杂的问题那么从这个地方来看的话我们现在所谓的这个长推理念所展现出这个行为也是符合的对它也确实是将很多的这种知识很多的简单的步骤组合在一块能够去解决一些比较复杂的问题它可以去演绎可以去反思可以去归纳等等所以从这个角度来看的话它也符合《心听 Fast and Slow》里面对这个思考的这样一个描述
我觉得如果你从这个角度看从现象来看的话它是但是如果我们说从一个专业的这种从业者来看他怎么实践的这一点来看的话那他还是 token by token 就跟传统的这种圆模型的生成方式没有任何区别但这种传统的可能能追溯到五年前
甚至更早语言模型来生成这个文本的这样一个方式那这一点上没有任何的改变你刚才说到系统一系统二从心理学的角度它如果是对应到我们模型训练中是不是系统一类似于预训练它是一个很自然很快的一种呈现的方式系统二就像是我们现在往往呈现出来这种常思考的状态嗯
我们以 OpenAI 的模型序列来类比系统一基本就是它的 4 系列 OpenAI 有 4,有 4 欧,有 4.1,有 4.5 这些都可以认为是系统一当然对机器来讲这个快和慢其实跟人的快和慢可能现在还不太好类比因为机器的快和慢它受限于你的硬件的水平以及你
是否在上面做了足够好的优化跟人脑可能还不太容易去类比因为当然人脑的运作机制到底是一个什么样子的其实到今天也没有一个特别清楚的或者特别完整的这样一个研究至少以我的认知范围来看是这样的那么系统 R 基本上你可以认为就是 DPT 的 O 系列它的 O1 O3 O4 等等都是如果你对应到 DeepSeq 来讲的话那应该系统一就是它的 V 系列 V2 V3 系统二就是 R 系列当然它现在只有一个 R1
对我们不好说这个到底是预训练还是怎么样因为基本上每一个模型它都会经历预训练经历后训练而一也是这样这个我觉得是一种训练方式我们单纯从它的这个模型所呈现出来的这个结果来看的话可能这样分层比较合适
推理模型出来之后像 OpenAI 的 O 系列还有 DeepSeq 的 R 系列他们出来之后类似于对 OpenAI 的 4 系列还有 DeepSeq 的 V 系列这种预训练的模型它有一个什么样的影响和作用因为去年 I1 出来之后呢大家会觉得因为去年会有一个言论说 scanning loss 是不是见底了因为预训练的结果似乎是出现了瓶颈但是推理模型出来之后强化学习进来之后
他的智能上限一下又拉高了你怎么看他们两个之间的关系包括说现在快慢思考的融合预心恋和推理的融合阿里千万三其实也是把快慢思考融合在一起的一款模型就它是一种趋势你认为这个趋势它的影响是什么
我觉得你刚才提到这个话题里面其实包含了很多问题一个一个我们来讨论讨论我觉得首先第一个就是说刚才你提到的智能上线和 skilling law 的瓶颈问题大家我觉得之所以觉得 skilling law 的瓶颈就在于说
因为我们能获得的数据其实和我们模型训练的速度或者我们模型迭代的速度和我们数据生产的速度比似乎模型的迭代速度更快了一些所以大家觉得 Scanning Law 会不会到头因为我们能用的数据基本都用完了
那如果没有新的数据产生是不是模型的能力上限就不会有很明显的提升了所以在去年之后又有一股新的思潮说我们可能不光是要关注这个训练时候的这个叫 scaling law 我们还要关注这个叫 test 就是说推理或者说这个叫测试的时候的 scaling law 其实模型呢如果我们从一个技术的角度来看这个问题的话就是说你不管是什么样的一个模型架构它其实本质上都是一个概率模型
那么它把所有的这个数据中的知识进行压缩进行编码存储到自己的参数之后那它实际上在生成的这个过程在呈现的这个过程之中呢它是一种从一种概率分布中去抽样的方式把这种知识表现出来那么这种抽样就具有一定的随机性
对 所以所谓的 test time scaling 就是说我希望在生成的这个过程中我能把一些非常好的结果把它的概率拉高把一些不太好的结果我不想要的结果或错的结果把它的概率压低通过这个来去做前者是说好 我先把源源不断地把东西压到我的这个模型里面来那么后面就是说我怎么把这个我所压到的知识释放出来
对 再举一个例子来讲的话前者可能是说比如说我要建一个宫殿建一个宫殿的话第一步我要去收集各种各样的材料包括我的木材包括我的钉子这些工具等等我先把它能收集的我先都收集起来第二步就是我资料都收集我材料都收集好了我要建这个宫殿的时候我怎么建这里面变数可能很多你的柱子应该摆在哪柱子应该多高多粗你的房梁应该怎么放屋脊应该怎么建
对那这里面其实有很大的变数可能每一个地方稍微做一些改变的话就可能会导致你的供电有非常大的变化当然我不是这个建筑学家可能表述的也不是很准确甚至可能有错误但大体上就是这样的一种感觉所以
后来从去年开始特别是年底开始大家所谓的 test time scaling 模型到这个生成的时候已经变成一个超高位的一个分布了那怎么在这个超高位的分布上做文章从而把一些好的知识给诱导出来那这里面还是大有可为的嗯
对类比刚才我说供电那件事情你虽然有你的材料齐了对吧我可能也找不到新的材料了但没有关系我通过把这个材料的材料的各种组合我依然可以组合出各种各样的这个造型来嗯变化仍然非常非常多之前大家都是说我怎么能尽可能多的把材料收集起来那后面就是说我怎么尽可能的把好的组合做出来
这是第一第二就是你说刚才提到这个快慢思维这件事情或者说系统一系统二的结合这件事情其实今天大家去谈这个 Thinking Fast and Slow 这本书的时候大家往往更多的去谈它的系统一和系统二系统一是什么系统二是什么我们今天的什么模型可能对应系统一我们什么模型可能对应系统二其实在这本书里面作者
对系统一系统二当然他有描述但他更多的是去描述说人脑是怎么去协调或人的这个思维活动是怎么去协调系统一和系统二的他认为系统一和系统二其实在这个精神活动中或者这个思维活动中其实系统一是主导的因为系统一消耗的能量比较低对所以或者说几乎不耗能量他是主导的而系统二只有在非常必要的情况下才会被激活他是这样的一种协作方式
所以我们今天回看我们的模型的话那么其实系统一和系统二我认为现在还没有一个非常好的方式去结合在一块其实整个行业大家已经意识到我需要把系统一和系统二结合在一起了只是说现在这种结合方式我认为还是相对一些尝试吧就还是缺乏一个优雅的数学模型去刻画系统一和系统二的这个结合虽然我也不是生物学家也不是心理学家也不是神经学家但是我觉得
我认为人脑应该有一种非常完善的机制去将二者非常自然地组合在一起的这个基本上也是 Thinking Fast and Slow 那本书的作者的一个观点它要实现一种认知上的自洽所以从今天看系统一和系统二我觉得它最终会有一个非常好的结合但目前来讲我认为这种结合缺乏模型当然更不要提这种模型背后的理论
你刚才的分析我脑海里有两个画面一个画面就是你其实在解释一个什么是推理的本质就像你刚才举的那个例子就用一种逻辑的方式把新的东西重新组合这个过程是不是就叫推理你怎么认识它我们认为它实现了一次推理
这是一个画面然后第二画面你讲的时候我就想到了两种方式的融合下你刚才说目前还没有一个很好的模型去看到他们融合的这种机制包括说目前市面上出来的模型有的也会讲自己实现了长思维链和短思维链这种快慢思考的融合实际上你认为他还没有实现一种真正融合的机制如果有这个机制他们融合后是一个什么样的状态嗯
刚才你提到第一个是什么是推理推理这个概念其实也是解释非常多的就像刚才我提到思考那个概念一样在心理学在人工智能在哲学里面大家对推理的认知都不太一样说法各有不同对于我来讲其实我也是一个学习的过程我在这个学习的过程中看文章比较早的时候我觉得可能能追溯到 2011 年就 Boto 他写了一篇文章
它叫 From Machine Learning to Machine Reasoning 至少以我的这个去看到的文献来讲应该是算比较早的了 2011 年那也就是大概在 14 年前的一个工作对它里面描述推理如果翻译成中文的话就是代数的组合已有知识去解决新问题嗯它这里面有几个比较重要的概念第一是代数第二是组合知识第三是解决新问题所以其实代数的组合知识我理解实际上是对我们所谓的逻辑的一种形式化
那什么是逻辑对吧 逻辑就是代数组合 对 那代数组合的话就需要满足一些性质比如说某种代数结构的性质 那什么是一个推理系统 我认为第一应该有一个代数空间第二就是说任何一个问题都可以对应代数空间中的一个组合当然他那篇文章里面没有太多的这个公式 但我认为基本上已经把推理这件事情也做了一个比较好的形式化了
所以我觉得如果我们把这个东西再往前追溯可能能追溯到大概上世纪八十年代在这个明斯基明斯基应该是人工智能的一位先驱了他在这个 The Society of Mind 就是叫做思维社会在这本书里面他当时都不叫推理他叫智能他说什么叫真正的智能
他说人的头脑中应该是有非常非常多的这种小的这种程序当有一个问题来了之后呢这些一部分程序就会被集合然后以某种方式组合在一起他在那本书里他管这个小的程序叫做 agent 可能跟我们今天说的 agent 还不太一样然后他说当一个复杂问题来了之后这些 agent 就会以某种一部分 agent 就会被激活并且以某种方式组合在一起形成对
这个问题的一个求解方案他说这个时候真正的智能就出现了那么如果我们从这么来看的话其实 Boto 的这个描述我个人感觉更像是对明斯基这个论述的一个比较好的形式化因为明斯基在他的书中其实没有对他的这些说法做任何的形式化因此也有人我跟很多同行的老师们交流的时候有的老师也觉得说明斯基的这个论述实在太经验性了对如果我们去这么去追溯来看的话我倒是觉得他的这个
论述在 1986 年他那本书我印象中出版的时候所以在那个时候其实已经把这件事情说得很清楚了而且也很有道理了我们今天说做推理它会有各种各样的人各种各样的同行们有各种各样的说法但如果你问我们在做的是一个什么推理我觉得就是用逻辑去组合知识简单来讲就是这么一回事那么逻辑是什么逻辑如果行事化来讲可能就是 Boto 所说的这样一个代复空间代复空间其实是我们所谓的知识也好
或者说我们能力也好的一种组合的范式一个约束就我们给他一个逻辑他来发现新的知识或者组成知识
这也是为什么我觉得我比较喜欢明思基那套东西虽然他大家说的经验性我觉得非常有道理他是一个从小到大的过程从一些简单的知识逐渐地组合成一个复杂的知识就有点像我们做计算题我们可能先是做二元的计算包括了两个输入两个数字然后中间是加减乘除可能一开始是最简单的加和减上面有乘和除
对然后我再把这种二元的计算经过复杂的组合我就可以变成一个非常非常长的算式那么一个非常长的算式可能就对应一个非常复杂的问题所以我觉得这是一个从简单到复杂也是一个非常符合直觉的这样的一个方式吧那其实
假设一下就今天其实依靠推理是能够帮助人类发现新知识的我认为大家对新的认知可能也不一样因为我自己是数学的我觉得什么是新其实我们有一种对同样的一个问题我们有一个新的解法这个就可以叫新比如说对数学来讲至少以我的认知来看其实很多时候它没有那么多新问题
但是对一个旧问题一个经典的问题如果我们能提出一个不同的解法来讲的话对数学来说也是非常大的贡献因为你在这个不同的解法里面可能诱导出很多新的这个数学的研究领域那么在这个所谓的新的解法呢很可能是说我对已有的这些定理或公理的作为一个重新的一个组合或重新的挖掘当然这个其实放在数学里已经不太严谨了那没关系我就先这么说
从这个角度讲它也是叫新所以我觉得你说它发掘什么叫对大模型来讲或者大模型推理来讲什么叫发掘的新知识我认为我们把已有知识做一个全新的组合然后去解决一个我们已有的问题我认为这也可以叫新所以从这个角度讲我记得 OAI OpenAI 它曾经说他们的人工智能有四个阶段第四个阶段它叫 InnovationInnovation 这个阶段就是说模型可以去优化它的解题过程
所以我觉得其实去优化这个解决过程就是模型同一个问题有很多的解决过程但它能从中找到一个最优的方案这个方案可能比人原来处理这个方案处理的更好但不代表说这个方案里的每一个步骤都是新的可能每一个步骤都是旧的但是这么处理是新的我们再类比一下比如说夏威夷的时候比如阿华购夏威夷他会下出一些人之前没有发现的套路那这些套路对人来讲也非常有价值也是新的
那你如果单纯看把这个套路拆解开来每一步那都没有什么反正你都是在期盼着落子
会不会有一种情况就是我们在讨论新知识的时候现在其实就是说一种是信息上的这种心另外一种我理解是一种逻辑上的心那这两种心呢有没有一种情况就是我们很多知识并未见过很多逻辑呢可能也没有去看到过或者理解过当推理能够把这些新的东西展现在人类面前的时候我们会不会因为没有见过或者没有理解它而认为它是幻觉
对我觉得这里面其实我想分享一个比较有趣的故事就是也是数学界的一个故事非常经典的一个故事数学界里面有一个非常非常有名的数学家叫 Galois 法国数学家我们可能很多中文翻译成 Galois
卡罗瓦非常有天分在 20 岁左右的时候他解决的问题是这个五次方程没有求根公式用白话来讲就是当时的在数学界里面是非常非常难的一个问题大概在 17 世纪那么卡罗瓦他就发展了一套理论把这个问题做出来了
送出来之后呢他就把他的这个东西整理成了一个稿子投给了当时的法国数学学院当时的法国数学学院他先给了科西如果对数学很熟悉的人应该不会不知道这个名字因为科西基本上就是为现在的微积分的形式化奠定了非常好的基础虽然很多人认为微积分是牛顿莱姆尼斯发明但牛顿莱姆尼斯其实没有形式化
但戈西是真正把这个东西形制化了戈西看了这个稿子之后可能是因为太深奥了或怎么样他也不以为让他扔到一边去了以至于最后这个稿子就丢掉了丢掉了之后然后卡罗瓦又把他这个稿子投给了这个弗利叶弗利叶是确实是他觉得看不太懂后来弗利叶就去世了等于他这套东西又没有发表出来又没有被整个数学界所认知然后后来这个卡罗瓦又把他的东西投给了霍松
我们今天说的普瓦松普瓦松说我这回一定会帮你审一定会看但看了半天普瓦松说实在对不起你这个东西我看不懂我不知道他是对还是错也不知道是什么所以这件事情就放下了后来卡罗瓦就去跟他的情敌去决斗决斗完了就死了
死了之后这件事情似乎就结束了没想到在卡罗瓦提出他这样的东西的十年之后法国有一位数学家叫柳威尔柳威尔经过了大概三年的一个研究整理之后他终于发现卡罗瓦这套理论是对的他能够解决五四方程以上没有求根公式的数学问题第二他发现卡罗瓦建立了一套新的理论这套理论叫卡罗瓦群
由此在数学里面产生了一个新的研究领域叫抽象代数那么从这个理论的提出到真正这个理论被形成一套我们所谓的完整的知识可能需要十年甚至更长的一个时间
那么在这个过程中你说之前的那些人包括像戈希包括像弗里耶包括像普瓦松他们都是非常非常了不起的数学家那他们为什么没有认识到呢他们是因为幻觉吗就像刚才你提到的我不知道这个东西是对是错我也不知道它是不是新的所以我没有办法认为它是某种知识
如果真的有一天大光星的事物能做出这样的一个东西来讲那我觉得整个人物智能对人类社会的贡献将会非常非常大但我不太确定的是这件事情出现了的话会不会有一个叫柳维尔的人真的能把这个东西整理出来嗯
听起来我们当下对推理结果是有接受度的这个接受度就是人的认知如果我认知上没有达到他能实现的这个新的知识新的逻辑我其实就觉得他是幻觉这里面还有两个事情我觉得第一个事情是说我们今天大模型推理可能还没有到那个程度因为我们今天看到的说大模型的这些推理他只是说我把思维链变长了思维链变长的过程实际上是我把这个
实际上法国级别复杂了这样一个过程可能以前是几个简单的组合就是我几条知识直接串在一起直接并行在一起串行在一起那么就结束了那么现在可能有更复杂的一些比如说回溯有一些知识的嵌套简单的嵌套可能变得更复杂了当然这个复杂程度也还没有我们提到现在看到的数学里面那些复杂的推理比还是比不了的
这是第一第二就是说现在大模型的推理过程很多地方还有错误而且这个错误是被人都识别的还不是说人因为有幻觉或怎么样他识别不了他能识别他确实错了比如说举个例子讲前一小段时间去用 O3 包括 O4O4 mini 我们去测试比如 2 的 N 字方等于 15N 等于 4 这个是人明显地看出有错误的
这是一点就是大模型今天的推力能力虽然已经得到了长足的进步但还没有那么强第二就是什么是幻觉这个问题这个问题其实也是一个比较大的问题
因为我一开始在做研究的时候对幻觉这些其实并没有特别特别的重视因为我不太重视的原因在于我觉得人也有幻觉而且经常有幻觉幻觉甚至是灵感的来源某种角度上也可以这么说但是其实 Thinking Fast and Slow 那本书里面对幻觉也做了非常好的一个诠释某种意义上讲人就是活在幻觉中只要自洽就可以他取了很多的例子比如说
我们今天看到的一些我们对一些事物的判断其实这个判断没有任何的根据而往往也是错的但没关系只要你自己能自圆其说就可以对而且你这个自圆其说也会被他人接受当被越来越多人接受之后这件事情就变成了一个普世的一个事情所以最后他的结论就是你只要自洽就可以那么今天的模型他只要自洽就可以
只是说我觉得我们强调说幻觉这个东西可能有问题是在于我们认为模型是一个工具我们用模型去解决一些问题的时候我们希望它不要出现错误那这个时候确实我们应该把这个所谓的错误问题错误率降低那这个是有道理的所以幻觉这个事情我觉得如果你放在一个限定的领域限定的领域或限定的场景下我认为有道理但如果推而获之只是泛泛的谈幻觉那么
我认为可能价值就没有那么大即便是幻觉也不是时刻不适合他也有他存在的自洽的理由是的我觉得可能稍微谨慎一些的说就像刚才我说的是如果你犯战人论的话我认为价值不大但是如果我们现在限定到一个具体的领域里面来讲比如说我就是让模型根据股票的
行情来生成一个报表这里面我觉得还是有价值不能胡编乱造但是推理广之我们半半是谈我认为幻觉很难谈清楚甚至可能没有价值明白推理的过程我们现在也看到很多模型包括 DeepSick R1 它在推理可能结果是正确的但是过程是错的是不是说到目前为止我们对推理的过程的理解还是不那么明白还是处于相对黑盒的状态
我觉得可以这么说,因为如果你把这个东西把它深入进去去看它底层的机制的话,它还是一个 token by token 这样的一个概率模型,它还有很大的那种随机性。所以你从这个角度讲的话,它是一个黑盒,而且你刚才提到的有错误可能也是因为它的随机性导致它会有错误。那你说为什么有错,我觉得一个概率模型它有错可能是一个很正常的事情。
然后你说是不是黑格我觉得也是黑格比如说为什么他会产生反思为什么他最后零零过程错了答案还是对的这些东西很多时候还需要大家去研究所以今天我们很有意思的是大家提到所谓的涌现能力讲起来可能会令人很兴奋但是如果你细想一下的话又觉得这件事情很玄幻什么叫涌现反正它出现了这样的一个现象但是我也解释不了
那好那我解释不了怎么办我就看看能不能复现那么复现的结果就是我可能在一些配置上复现了在一些配置上复现不了
對 那麼復現不了怎麼辦復現不了就復現不了因為我也不知道它到底怎麼湧現的因為如果我們用科學的角度來講科學是要能復現的我能說清楚什麼時候就我有一條科學原理不管你是在數學裡面在物理裡面在化學裡面都是這樣的自然科學都是這樣你有一條原理之後你一定要說清楚這條原理什麼時候生效什麼時候不生效在這個條件它一定能生效的時候不會出現例外不生效的時候它也確實
你把条件说清楚它就不会生效那么这个是清楚的我们知道怎么去运用这条原理但是大光星的很多涌现能力是没有这个的你说不清楚它什么时候会生效什么时候不会生效或者我认为这还不是科学我这个观点我有听到过几次就今天的人工智能它还不是科学它还无法实现刚才我们说的各种环节的自洽的解释它可能实现了自洽但我们也不知道它到底如何自洽的
但科学可能得讲清楚里面它的关系层层到底是如何实现的是的我觉得如果你成为科学的话你就必须说清楚一件事情什么时候对的什么时候错的
严格的说清楚所以当然这件事情我觉得整个人工智能界大家很多时候也比较乐观我记得在大概在两年前的时候我听黄铁军教授的一次报告黄铁军教授就说莱特兄弟造出飞机的时候其实他一开始可能也解释不清楚说这个飞机为什么能这么去运转但是反正它能飞起来可以先飞起来后面再有很多人去研究再去说清楚它为什么能飞起来以及什么时候飞不起来
大家可以先接受这样一个事实我们可以先往前推但我觉得最终最终这件事情还是要说清楚的因为要成为科学它总要有研究主体研究对象我们先要把这个对象做出来对而且就像我刚才说的就是科学一定要严谨严谨就是说我的论断是在什么情况下一定会发生没有例外如果有例外就说明你那个条件有问题需要完善
牛顿的第一定律牛顿的第二定律牛顿的第三定律都说得非常清楚在什么情况下我在满足什么条件下我的结果会发生明白
我觉得好像现在我们对模型的这种涌现的程度的实现在用推理实现但还没有去完成它那个规划就像是小婴儿三岁之前没有学知识但是他对世界已经理解了他有这个理解的框架我们暂且理解为一种规划可能三岁之后上小学之后才开始学习在学习中然后去理解去学到逻辑学到知识那大模型好像直接到了学习
直接到了 talking by talking 直接到了预测但是对于规划这层我听起来更像一个科学的输入但目前我们是没有给他大模型来到这个世界首先就是学习学到的逻辑学到的知识学到的语料再去呈现一个新的组合但是他没有规划我感觉像是说跟人的智能相比大模型今天缺一环
这一点我也非常同意我总跟同行们一起聊天的时候总举个例子比如说我让你写一个报告最简单的写一个团建的计划你不可能说比如我几百个团队要去团建我不可能说一个字一个字开始写不太可能简单的任务可以这么去完成但稍微复杂一点的任务是不太可能的
那你要写这个计划你肯定要写我要做这个团建规划的话我可能要做几个方面这几个方面可能最后具象出来的话就是几个标题那每一个标题我在想我怎么展开标题之间的逻辑应该是怎么怎么咬合在一起的
可能是这样,你可能头脑中先有个草稿,然后我再基于这个草稿再去看怎么展开。可能人在解决复杂问题的时候,我感觉这样是一个比较自然的流程。比如说我们去解决一个数学问题,不是说上来我就开始写证明了,不是的。我应该是先,其实真正去解数学问题的时候,应该是大概这个问题应该怎么去做,分几步。
然后我每一步再去看我怎么去做怎么去证如果这一步感觉证不过去的话我可能还要对这一步进行再进一步拆解它可能是这样的一个过程它是一个层次性的过程
如果把这个做一个画面感描述下来它是你对于未来推理模型的理想状态的一种描述吗我不好说说未来的推理模型就一定长这个样子但是我自己觉得这样是一个比较理想的状态其实这个东西还是源于林斯基那本这个思维社会的所在的那本书里面其实就是我认为你应该有一些非常基层的这样的一些
能力单元或者知识单元那么当一个复杂问题来了之后我应该去决定所有的这些能力单元里面我应该取哪些能力单元以及我应该去决定这些能力单元应该怎么组合对然后再去解决这个复杂问题可能是这样的一个过程今天的推理走到什么阶段了
我觉得在这个 OE 或 RE 出来之前呢也有很多人尝试过这方面的一些探索但是我觉得有可能因为规模不到或者规模没有做大或者因为数据问题或因为其他的一些原因这个效果还没有做得特别好那么 RE 我觉得就是说那你出来之后它确实效果很好那么在效果很好的情况下可能大家先说那我先把效果先做上去我觉得这也是合理的只是说它在效果做上去的时候它其实可能
不是一个最优的方案来做到了这个效果我觉得如果稍微有一点画面感的话比如说就像一个物质我形成这个物质的话我应该用什么样的原子构成一个什么样的分子结构对应该是遵循一个道理的比如说能量最低比如说势能最低在化学里面它叫势能最低我形成这样一个物质结构那这个势能最低是说我不能形成这样一个结构我可以其实再多几个成分或多几个原子也没关系
比如说我讲完 CH4 如果我再多一点别的可以不可以可能也不是不行但是再多一点的话你可能能量就不够低了结构就会被破坏破坏之后最后它又会回到这样的一个稳定结构上去所以我觉得推理未来这样的方式是一个比较理想的它应该是一种恰如其分的这样的一个结构来诱导出了最终的结果
而不像今天的推理结构推理模型有非常多的浪费
所以其实今天整个行业也在考虑整个推理模型的冗余问题大家现在管大家 over thinking 就是过度思考你解决了 2+3 对吧你也出现了几千次几万次的这样一个思维链感觉这个很奇怪对最开始的时候大家看到长思维链觉得好神但是后面发现很简单的问题他也很长一段就觉得太浪费了其实整个行业里面大家也在朝方向努力但是我觉得
还没有达到一个比较好的状态在于它没有一个模型对我怎么去实现最优的推理结构对所以我觉得现在更多的是说我在长次位链基础上做一些修整对但是你如果这些修补的话可能很多的优化就不太好做我觉得最终应该是有这样的一个数学模型这个数学模型可以刻画整个推理过程它可以提供两方面的价值一方面是说可以去优化
第二个方面是可以去进行一些理论上的研究去说清楚推理就回到我们刚才讨论你要说清楚什么时候这件事情是对的什么时候这件事情是不对的如果你有一个数学模型的话你就有可能做到这件事情今天我认为没有一个特别好的数学模型去刻画思考或思维这件事情
因为你回到最后其实还是 poken by token 生成长序列对我认为这个不是一个思考模型它还是一个语言模型只是你用语言模型在形式上实现了一个思考过程但不能说你的语言模型就是你的思维模型就是你的思考模型对我觉得这个可能是不等价的只是说我觉得大家还没有找到一个很好的思考模型所以我先用语言模型先把效果做出来这个我觉得也非常好也很有价值
这件事情你在做了吗可以分享一些进展吗
我们也在做一些探索比如说刚才我提到一些层次化的一些结构但是现在还没有一个特别特别完善的进展最早我刚刚来蚂蚁技术研究院的时候刚一开始就想做这件事情但是我们当时也
也不太会做,那好,那我们既然通用的不会做的话,我们就从一个限定领域开始,再想看看特殊怎么一般,这个其实也是遵循了很早我们去做数学,去解决数学问题的时候的一个方法,就是通用的问题不会做的时候,我们先加一些条件,变成一个特殊的问题,如果特殊的问题解决了之后,再看看我们能不能把条件去掉,从而变成一个一般的问题,所以我们当时做一个给定知识库的一个推理,
那么给知识库的一个推理的话就变成一个 agent 变成一个 agent 之后呢把一些鲜艳知识加进去然后我们去设计每一个模块去设计模块之间的这种组合这个就变成了一个像 workflow 这样的一个东西
其实当时做 workflow 更多的是想说我们去探索一下怎么去实现一个比较好的推理结构对所以这个工作做完之后我们后面又做了一个比如说我们怎么用代表去实现我们推理结构的这样一个过程但这个过程我们在做的过程中发现也没有那么容易所以这件事情也在继续探索
所以可能我今天没有办法说我们已经做出了什么样的一个具体的成果然后跟大家马上去分享或者说我们对这个大的终极的目标我们一个推理的模型对吧应该是一个什么样子的我们做出了什么成果马上去跟大家分享但是我觉得大家可以去关注一下我们后续的工作后面会有一些的工作出来展示一下我们在这个方向的一些探索也非常希望能跟整个业界的同行大家一起朝这个方向探索
概括的可能不够准确我听上去是你在探索一种更符合数学模型的这种底层的开始就有逻辑有这种思考推理方式或者我觉得简单来讲就是我们希望去追求一个思考的数学模型这个数学模型不是语言模型就回到我刚才的论述就是今天我们实际上是借用语言模型来实现了这个思考就是实现了某种意义上的思考过程但是我觉得我们想去看我们想去看一个
思考模型而不是语言模型
我觉得你这个方向很多技术大咖也都提到了一下其实我就像杨丽坤他们还有星盾他们提到的一些方向上这个跟你提的这个思路挺吻合的尽管路径大家还没有设计很清楚但是已经看到了目前语言模型的一个瓶颈以及大家觉得应该是要朝着另外一个方向去走这个方向你提的路径可能是要做一个用数学模型来实现它的推理思考
如果我说的再具体点我觉得这个数学模型应该是一个结构化的模型就它开始就是个白盒它不是黑盒或者说不完全是黑盒吧就像回到我刚才的论述就因为我们有了这样的数学模型我们可以做两件事情第一可以去做 optimization 可以去优化第二我们可以做一些 theoretical analysis 就是说一些理论的增析我觉得我们才有机会能向这个所谓的科学去迈进一步站在今天的节点这个方向还是很有价值的
因为今天确实已经看到了我们的智能上线再往上拔一个高目前是看到了一些瓶颈的虽然不知道你在讲的这个路径是不是就是一定能拿到结果或怎样但我觉得是一种从共识到非共识就今天需要一些非共识的东西去突破共识中的瓶颈
我觉得其实所谓的共识到非共识或者非共识到共识也是说如果我们做的这件事情确实能展现出很好的效果因为毕竟在大部分情况下我们还是要追求一个比较好的效果如果能展现出很好的效果来讲我认为非共识就会慢慢地变成共识或者我们要展现出它的一些优势这一点我觉得还是有机会能做到的
只是我们需要一些尝试为什么大家明明知道你现在明明是在借用你原模型来实现一个不应该归他来做的事情为什么大家还是去接受这样的一个范式我认为是因为目前来看最有效的就是这么一个范式你找不到一个更有效的范式所以你只能这么做当去找一个新的范式的时候我们做一个思考模型的时候我们也需要把效果做好是的这一点还是需要的
其实业界确实也有一些同行在做类似的这样的探索我们也能看吧可以分享一下吗比如说微软之前做的一些像他们做的一些模型他们就是一个结构化的模型而且他们效果也还不错模型还很响像他们 R-Star 系列其实我们自己也有类似的这样的工作只是说我觉得我们后面应该会在不短不远的时间里会公开对
你追求的这个数学模型的理想的状态是什么因为之前听到你的一些研究的哲学是讲到了多快好省我觉得可以再从这个角度去聊一聊就你理想中的这款数学模型它呈现出来的样子是怎样的有没有一些通俗的话或者画面可以描述
其实我刚才咱们在讨论过程中我其实已经多多少少提到了我希望的是这个模型是能够第一可优化第二可解释可分析我觉得这两点还是还是还是很重要的当然刚才你提到多快好我认为其实可能任何其实人工智能整个它的发展都在沿着这个轨迹在往前走就是先把任务做多把效果做好然后再把整个的成本降下来再让它想的速度越来越快嗯
整个的零工智能的发展可能都是这样一个至少接近十年的时间里面一直是遵循这样的一个方式轨迹在往前运转那推理模型也是这样但是多块好省路径又不一定说我非要找到一个好的
思维模型或者思考模型我才去做都快好说了即便现在基于语言模型来去思考做深度思考我也可以这么搞我也可以在语言模型上这个深度思考能够覆盖更多更多的任务我希望深度思考能够做得越来越快能够成本越来越低效果越来越好其实大家也现在确实也是这么做的或者反过来讲如果我们去追求一个好的思考模型的话那这个模型也必须展现出好的效果
是的最好也能够在效率上更高在成本上能够更低因为最终它需要有些优势就我们从现实的角度讲来讲毕竟我们没有办法天天空谈说我要一个模型这个模型可分析可解释可优化但是它效果也不如现在的语言模型它的效率也不如现在的语言模型它的成本甚至更高
那么这样的话其实这个非共识其实很难走向共识我们今天可以说质疑就比如说我觉得现在的这种借用原模型来实现思考的方式可能不是一个最优的方式可能会有一个更优的方式去实现它但实现它我们必须去
说清楚就是我们给出一个实现的同时也要说清楚这个实现到底带来了什么样的好处听下来现在像机器推理长期来看它的发展路径目前大家只是提了方向路径还不清晰但短期来看你觉得机器推理的发展是有哪些就我们看到了它很多能它还有哪些没有做到的不能
我觉得不能不好说但是确实短期来看其实已经有一些比较清晰的路线了第一个刚才我提到路线大家现在说 efficiency 就是效率其实这个也是遵循所谓多快好省的事一个路线因为你 R1 也好 O1 也好它出来之后它确实效果好这一点大家看到了而且它能够覆盖很多任务
它确实叫我好而且它能覆盖数学能够覆盖代码但是问题就在于它太慢了成本太高了所以现在有一个很重要的路线就是我怎么把效率提升其实又回到多快好省套路上去好和多做好之后就是要做快和省
这是一项第二条刚才我说的多对吧多这件事情其实在长推理这块就是说长思维链或者说深度思考这块我觉得还没有做的足够多因为现在大家还是更多的关注于这个数学和代码其实深度思考这件事情如果我们短期来看前景是非常广泛的因为我们人在解决很多问题的时候都需要深度思考嗯
或者换句话说除了程序员和数学家以外产品经理也需要深度思考销售也需要深度思考所以大模型我觉得今天我们做来做去大家利用深度思考越来越变成了程序员和这个做题家但我觉得未来这个大模型应该还可以利用深度思考成为一个很好的产品经理成为一个很好的销售他要做饭话
或者说他要去解决更多的任务他不光要去理解数学题去理解代码题他可能还要去理解人的偏好对去理解人的情绪去理解整个物理世界所以他可能需要通过深度思考去理解更多理解这些东西是他的任务那他背后的方法论可能是深度思考或者深度思考可以为你要去理解这些事情给出一个方案就现在这个方案还没有是吧
你这个研究成果是开源了吗
我们已经开源了一个成果了,但这个时候我还没有做到说比如我们把人类的偏好被迁移到向推荐向搜索这样的任务上去我们只是说我们把人的偏好总结出来了然后用在说我在回复的过程中我们怎么让这个回复更有个性化在做这件事情但它背后的逻辑是说我希望用深度思考这样一个方法论去
不是去理解数学题了,也不是去做数学题了,也不是去编程题了,而是去分析去理解人的偏好。这只是一个点了,它未来可能我觉得整个行业其实大家现在也在探索,我相信可能会有越来越多的这样的工作出来。所以就回到刚才我的那个判断,我觉得未来大模型应该不只是做题家和程序员,当然程序员也很重要,但是我觉得它可能未来也可以是产品经理,也可以是销售。
如果你是一个销售的话他可能不会编程不会做题但你在向你的客户推销你的产品的时候你对你的产品应该有很深刻的理解你推销的客户应该也在跟他们交互过程中你要对他有些比较好的理解以及你要用比较合理的逻辑把你对产品的理解和你对你的客户的理解整合在一起变成一个非常好的故事我想这才是一个比较好的销售
如果这个深度思考的领域能够泛化的话这个应用场景好广阔我觉得还是前景非常广阔所以其实深度思考还是要回到刚才你提到的比如 DeepSeq R1 它的贡献它把深度思考这件事情用强化学习的方法实现了它提供了一种实现方法那么这个实现方法其实它可以不仅被用来解数学题不仅被用来做解编程题它可以做很多很多事情
以前大家其实这些事情其实都是存在的只是大家没有一个好的解决方案来去解决它那么现在 DC 给你送来了工具那么也许我们可以好好利用这个工具解决做更多的事情我觉得这是它的一个很重要的贡献
我们再聊一个话题就是什么是真正的智能这个推理和智能在今天它们是有一个什么样的关系因为也有观点是说语言智能可能是人工智能的下一个里程碑这个观点你是怎么理解的它能推动智能到达一个什么样的程度吗就是如果今天推理能够实现到我们理想的状态它这个能够帮助智能实现怎样的里程碑是得跨越
对什么是智能的演绎这个也是一个非常大的话题可能也是一两个月了来说清楚还是个跨界的话题如果我们稍微聚焦一点的话我觉得智能其实明斯基已经说得很清楚了他说什么是真正的智能真正的智能就是人的头脑中有很多小程序叫 agent 那么当一个问题来的时候系统能够找到一个最优的 agent 组合并且把 agent 的一种最优的方式串联在一起去解决这个问题
那这里面设置了两个最优第一个就是你的 agent 可能有很多但不是全部都有用那我要找到那些有用的步子这个东西不能多也不能少再少的话解决不了问题了再多的话没有浪费第二就是我怎么一种方式把它最优的组合起来组合的不好你就会有能量的浪费
组合的好的话应该是一种以消耗能耗最低的方式能把问题解决掉以这个为目标因为这个发展是我说的我的理解明斯基只说到你应该是有些 agent 我应该每个问题来的时候我把 agent 选出来并且一种方式组合在一起这是他说真正的智能被产生了这是明斯基的观点我觉得如果我们稍微收敛一点的话我觉得这个就可以作为一个解释什么是智能
然后你说到为什么我觉得推理可能是一个里程碑其实这个东西我觉得也是见仁见智了但是从我自己人格的从业经历来看的话因为我最早其实从事语言这块的研究自然语言的研究的时候当时就不要说推理了就连理解都做得很差当时自然语言还处于处理的阶段处理阶段就是比如说我做一些打打标签根据人设定的一些规则能够解决一些具体的任务
这个是自然也能做的后来像到 18 年的时候 Bert 出现了 Bert 出现之后他一把一个模型能够在很多很多任务上有非常好的表现比以前基于规则的那些基于特定数据的训练那些模型都要效果好那么这个时候而且我们确实发现 Bert 能够去理解一些语义上的一些信息能够去展现出对语义上的一些理解所以那个时候大家基本上从 18 年之后 Bert 出现之后
一两年的时间内大家觉得虽然已经理解这件事情可做了不好说已经达成了但至少是可做了那么后来到开 GPT 出来之后基本上生成这件事情也做得挺好的就是基本上对着出来的时候你给他一段语言机器知道这是什么意思但是他没有办法生成一段很好的语言特别是非常长的语言他做不了那么到开 GPT 之后生成这件事情也做得很好了机器可以生成一个非常非常长的小作文而且前后逻辑是顺畅知识也是丰富的
那么你相当于现在等于是从处理到理解到生存这些事情慢慢都解决掉之后剩下的就是把已经掌握的语言和知识组合在一起用逻辑组合在一起去解决更复杂的问题更通俗一点讲就像一个小学生一开始就是我一条知识一个字一个字的学每天认识十个字假设这样
每个字都是单读的,你也不需要知道这些字之间有什么关联,反正你就记住这一个字。当你字认识的足够多的时候,那你就要写作文了。一开始先不是写作文,先是造句。后面你就要把你造的句子能够串联起来,变成一篇长的作文了。那你要串联起来的话,首先你句子,你每一个句子自己要保证一个字恰。那句子和句子之间要保证一个非常融洽的逻辑,你才能形成一篇很好的作文。
从处理到理解到生存到推理我觉得基本上就是这样一个过程从单点发展到组合的这样一个过程当你组合之后你就能去解决更复杂的问题了我感觉听下来就是说如果推理能够帮助智能实现从知识从智商到情商的过程有可能它会实现更好的思考甚至在我们看来似乎像是更有意识性的决策自主决策自主思考的那种状态
某种意义上可以这么做,因为情商这件事情本身我理解就是对人的一些心理状态的一些动察,那你动察的时候你不需要思考嘛其实也需要思考,可能就是人在一旦这个思考过程过程非常快但是我认为也需要思考,所谓的察言观色,对吧?察完言观完色之后,你应该有一个分析,有一个推断,对吧?然后根据这个分析,根据这个推断再说我怎么去想应,我理解这样你才能形成情商,是吧?
是的 如果把情商解剖成一个逻辑性的问题确实它似乎现在就在实现所以这个也是回应到刚才我说的我觉得长推理念或深度思考它的价值应该远远不只是说我就天天就去做这些数学今天跟五位聊得很开心我觉得有一些内容已经超越了单纯的大模型的内容了甚至我们
我们聊到逻辑的重点是自洽关于幻觉的认知这些层面已经不单单是一个技术的问题他也带着很哲识的角度去跟我们去做这样的剖析非常感谢那我们的结尾用我为曾经写过的一篇文章作为一个结尾吧一切过往结为序曲阿旺通过强化学习为机器推理打开了一扇崭新的大门
而可以想见的是这些大门背后将是一个充满更多未知又更加精彩的通用人工智能的世界那好今天的节目就到这里如果大家对我们今天讨论的内容感兴趣可以在我们的评论区留言再次感谢伍威好的好的也谢谢主持人非常希望能够未来能够跟大家多多交流好的那我们跟听众朋友再见拜拜再见
那本期的会友标局就聊到这里啦如果喜欢我们欢迎点赞也期待大家在下方评论区的精彩留言哦更多节目信息欢迎关注 show notes 添加小助手微信了解更多节目相关信息感谢收听我们下期再会啦