听众朋友们大家好欢迎大家来到新一期的文理两开花今天是非常特别的一期因为今天是强强三人行大家如果是文理两开花的粉丝应该知道我们其实基本上不请嘉宾就是我和魏欧老师两个人聊但是呢我们唯一的返场嘉宾也是唯二的嘉宾呢也是非常受大家欢迎的播放量也是非常大的就是我们的 AI 的专家朱老师
今天为什么请朱老师来呢那大家如果还记得上期我们跟朱老师聊今天我们开场之前聊了一下发现正好是基本上整整是两年前 23 年的 3 月份在这个 GPT-4 出来的时候我们请朱老师来聊了一期所以掐指一算已经两周年了
而且呢开始周老师也给我提醒了一下然后我也觉得也是个非常好的开场就是因为两年之前 GDP4 出来的时候其实跟现在这个 DeepSick 引发的这一轮热潮其实非常像的其实当时大家的这种新潮澎湃啊这种觉得 AI 要颠覆一切等等我觉得跟现在的这个感觉情绪是差不多的所以基本上两周年又来了一轮
那么说到这个 DeepSig 呢我们其实和魏老师一直想聊但是我俩一直没有聊主要是第一它发展的太快因为我们毕竟还是个国内的播客所以这一波它主要是针对在国内引起的狂潮那么大家都纷纷研究纷纷去
发内容,所以我觉得聊了已经很多,我实在是不知道找什么角度来聊而且对理科生来讲呢,实在是太多了这种对他的研究但是文科生现在更不能聊,因为文科生现在大面积的在焦虑,就是觉得都要失业了所以呢,我们今天把朱老师请过来,看看我们有什么新的角度来理解首先要不请朱老师先更新一下自己的近况,我了解你也有一些新的发展
好 谢谢大家 好久不见确实像小炮老师说的一样上次聊的话大概是 23 年的 3 月份其实刚才也简单聊到说这两个时间点还很有相似之处 23 年 3 月份是 OpenAI 刚刚发 GBD4 然后各种新的东西雨后春笋搬出来和很多 GBD Store 很多东西
所以那个时候就大家聊得很愉快然后今年转眼到 2025 年了 2025 年 3 月份其实最近的新东西也非常多有 Growark Cloud 也出新的东西 OpenAI 也有各种新的东西正好另外一个应接不暇的时候所以很高兴能够再聊一下
我自己有些小变化大概是我在二十三年底离开原本的那个公司创业做一个新的公司我现在的产品面向海外的用户吧大概是这样就简单聊一下今天可能也不是聊我在做的东西
对的对的开场之前我也跟周老师还有魏老师说了我们今天就尽量能多一会儿就多一会儿吧不要担心太多还是希望能聊出一些新的东西来那么今天的话题呢实际上起因还是周老师听完 GEB 这一期没想到周老师一直是我们的粉丝他一直在听而且 GEB 这期我觉得周老师听得非常仔细因为你听出来了一个小问题或者一个小细节
所以基本上是周老师听完上一期 GP 的留言我们引发了一个讨论,周老师以 AI 内行专家的角度听出了一个细节,应该是在差不多一个小时的左右,我们在和魏老师聊这个 Deep Seek,
这个时候呢我们聊到了这个生成时刻判定是不是智能的本质区别这件事然后就聊到了 DeepSick 其实开始的时候也没有想到要聊 DeepSick 因为那个时候它才刚出来我们聊的这一期就是跟 GV 相关的但没想到聊着聊着就引到了这个 DeepSick
还是挺有意思我后面呢会有一个问题会把当时的这个我们的阐述呢再复述一下然后请周老师再讲讲他的疑问吧今天的主场呢我觉得还是两位老师我就是一个小白用户参与讨论以及负责把这个话题剪起来在我们在聊我们这个 G1B 引发的讨论之前我想先问一个小问题
目前现在也是三月了我们过年的时候 Deep Sea 开始火那么现在也都快两个多月了其实我想平心而论现在也稍微有一点点归于平静了吧没有像之前那么狂热我想评价一下 Deep Sea 或是想请两位老师
在过了两个月之后自己对 DBC 有什么感觉我先跑转引语讲一下我自己的非常简单的感觉开始是肯定是非常惊艳的我觉得大家都会觉得很惊艳但是呢我最近我不知道我这个感觉对不对啊我真的是觉得他的想象力过于丰富
不知道为什么因为我最近在编一本教材不说啥教材反正这个教材里面涉及到一个量子计算的阐述然后我想偷个懒我想请他给我写一段量子计算的解释或者是描述
然后呢我怎么跟他讲他都是给了我一个完全不能放在教科书里的内容他的文采性太多了经常会跳出来什么薛定谔 恶猫生死门什么侧不准这样的神来之笔所以他的文采过于爆棚或者说想象力过于丰富我
我最近真的觉得他的幻觉是比较严重的说实话真的如果说跟这个 Gemini 还有 ChagDP Cloud 相比呢他的幻觉我感觉严重的多今天下午正好我们晚上录播客之前我开了一个闭门会是一个智库的闭门会基本上就是一些金融机构大家来讨论这个 DeepSeed 的应用我在这个会上听到一个数据就是说现在这个 DeepSeed 的幻觉率外界觉得它是 13%但实际上它可能
能够达到 30%等等等等所以呢这是我现在的一些想法从用户的角度我想听听两位老师的想法要不周老师先来好
第一个我觉得小跑老师刚才说的很对啊其实 DeepSeek 它传播的时候在国内包括我在春节的时候我所有的朋友基本上都在转发各种 DeepSeek 的结果它非常牛它的中文的语言能力特别强其实我觉得这一点是让广大中国的用户感受到的一点因为它的文字非常优美语言能力非常强所以它其实可能相当于是一个非常天才的文科生
因为从具体使用这个 Deep Seek Model 的角度来说其实有一些 metrics 上它确实是偏低的相对于别的 top tier 的 model 来说会偏低一个其实是那种 structural output 就是说我非常严格地要求它输出的一个 JSON 格式它可能不是那么最好的第二个就是 hallucination 它其实确实是幻觉会略多一些
其实这个可能就要提到这个模型的特点因为之前大家其实一系列模型比如说 OpenAI 的 GPT-4 什么都见过挺多的我们先说一下这个模型的差别这个模型差别其实有很多角度可以看它的特点 DeepSeq R1 其实是有非常多角度的你可以认为它是
开源的你可以认为它是中国的你也可以认为它是别的但是我觉得从技术角度来说最重要的一个差别其实它用的是一个新的方式代号 RE 的 Rreasoning Model 就是它是一个推理模型
推力模型简单来说可以认为是一种想一想再作答的模型之前大家如果用过 ChatGPT 里面的 GPT4.0 或者用过 Cloud 的 3.5 的话他们用起来很好但是他其实没有这个想一想这个过程上来就回答所以相对容易回答错但是可以认为就是之前的 LM 更像是 System1 的快思考模型
DeepSeq R1 呢或者说还有其他一系列的 reasoning model 其实包括 OpenAI 的 O124 年年底出的 O3 今年 2 月份马亚斯克出的 Grok3Cloud 的 3.7 Sonnet 其实都是 reasoning model 都是属于想一想在做达的这样一个 System 2 的系统 2 的这种曼斯卡模型
它的效果其实是在这个思考的过程当中能把很多的问题想得更清楚答案更好在编程啊在这些指标上会明显变好但是 DeepSeek R1 呢相对 DeepSeek V3 来说这幻觉会比较高就它想的时候有可能想多了这可能是小跑老师刚才感受到的一个点吧如果说从产品角度来说大家可能会感觉到的就是说它在回答之前会先输出一段 thinking 的段落
可以认为是他的思考过程这个其实反正春节的时候我的很多朋友包括我爸他也去试了一下然后说哇你看到他怎么想呢觉得好厉害所以这个第一个就是 models need token to thinkAndrew Capacity 之前说过这句话模型是需要不断地写出他自己怎么想来思考的这个其实有点意思他比较像三体人他的思想是透明的就他想什么你都能看到对
有一个有意思的 anecdote 就是说马斯克的 Glock3 发布之后别有用心的在上面问说你看现在在推特上 spread 的 misinformation 最多的是谁就是在推特上就是传播不正确信息的是谁
结果 Grok3 的 thinking 部分你就能看到这个模型在挣扎他说我搜了一下搜索结果里面非常多是写川普和马斯克传播 misinformation 但是我的 system prompt 又说不要提川普和马斯克传播 misinformation 然后他想矛盾了怎么办估计现在在测试我的 instruction follow 的能力所以我还是给出答案的时候不能提及马斯克其实上面有好几个截图有空我待会发给小跑老师可以放在 show note 里面
这个还挺有意思的就好多他的思考过程就被网友截图了然后后来发酵起来之后官方发了个推特说写这行 prompt 员工是之前从 OpenAI 来的现在已经被 terminate 大概是这样吧这个模型最大的差别他会先想一想思考但想的时候其实
既会让在数学物理编程上面指标明显变好但同时有些时候它会引入更多的幻觉大概是这样对对其实就是一个想多了的过程其实我们这个 INFP 呢我觉得比较理解它实际上我现在我喜欢看它的思考过程它给我的答案我基本上有很多时候我用不上但是它的这个思考过程反而给我一些启发所以我先重点看它的思考的过程但是你看它思考过程的时候就尤其是像刚才周老师举这个例子它就
很像一个 INFP 他就是自己在内心在纠结在挣扎所以这个 I 人是非常了解的这个思维过程但他确实是非常容易想多魏老师用到现在你有什么感觉上的变化吗或者有什么新的想法吗这个话题我觉得挺有意思因为我其实最近比较忙没怎么太用这个
DVC 的这些东西但我觉得刚才小霍老师提这个话题让我想到一个我们以前聊过的一个问题就是说人工智能是不是它的目的更加接近于人脑我想的一个模型我们以前聊过就人脑我觉得它可以被定义为一个低功耗的有逻辑推理能力的一个信息检索或者生成系统
假设我这么来定义它然后我就会发现说那你看人工智能要想追上人脑它其实可能有三个方向就是下一阶段的发展第一能不能功耗更低不要像 OpenAI 那样第二它的逻辑推理能力是不是应该加强然后第三才是信息检索和生成就像刚才朱老师也提到 OpenAI 这套东西 GPC4 生成出来之后它
他的这种信息检索和生成的能力其实已经是超强了可以说完全超过人了因为人脑不具备那么大的容量所以他能写出那么多文章甚至能画出那么多画但是好像他在低功耗和逻辑推理能力上其实没那么强
所以低 peak 出来我一看这个东西正好就是低功耗和逻辑推理能力加强了因为一方面它的这个算法一些优化等会我们可以聊到其实明显的就是在这个模型的数据量和计算速度方面实际上是提升了很多所以整个的计算的费用和功耗其实也下降了很多
然后他又增强了逻辑推理能力这个逻辑推理能力我觉得一方面可能是模拟人的思考过程另一方面也许 possibly 他其实还是有些过程能纠正自己的错误假设是这样因为逻辑的东西我们前一段时间聊 GEB 是最典型逻辑必须强调一致性
那万一 DeepSeek 想到了一个答案然后过一会儿又发现这个答案有内在的逻辑矛盾从而能否定它呢如果这样的话那它很可能更接近人了因为它等于已经有了自我反省自我意识了对吧所以我觉得要从这个角度来讲 DeepSeek 的发展很可能还真的就是 AI 的一个新的三大流派
低功耗派逻辑推理派和信息生成派这三个里边的一个最新的进展吧我觉得这个挺有意思的那既然说到这儿了已经 Q 到了这个最重要的问题了我们就把周老师听我们上次这一期提出来的一个问题我再重复一遍然后我们就此讨论一下实际上我今天早上想了想越想越觉得这其实是个哲学问题
我再重复一下就是说实际上周老师在听到大概 50 多分钟的时候大概一个多小时的时候我们在聊生成性和判定性是不是智能的本质区别的时候就不知道为什么就聊到了这个 deep seek 因为当时我们在聊这个地归可没举集就一个一个的举例子寻找然后大地出奇迹这种方法就让我们想到了 GPT 的训练的方法就是这种大地出奇迹的方式
那么如果说把这个概念延伸到生成和判定的话当时就是在讨论是不是 GPT 啊生成式人工智能就是这种地规可没举的方法训练出来的它其实就是一种生成式的方式嘛就类似于形式主义给定公理和规则不断创造新的定理 GPT 也是这样子所以它基本上是全网搜索人类的各种曾经有过的语言和知识为基础然后用 transformer 啊等等规则不断生成新的内容简单的讲就是这样子所以说
他的这种大力出击的方法就是像刚才周老师说的他只是负责生成内容我不会关心对还是错所以他就非常简单直接粗暴地用这个 thinking one 给了一个答案但是呢他这个答案到底对还是不对呢这就扔给我们了我们这个人要去判断当时因为也是在聊这个哥德尔语记不可判定的命题也是形式系统生成的所以说我们
当时就是提到了这个 DeepSick 的判定能力可能来自于更大的模型就像刚才朱老师说的他有自己纠正的能力那他怎么才能够纠正呢这件事情他是怎么做到呢那他一定是借助了什么东西来帮他纠正在那个时候 DeepSick 大家讨论更多的就是他征流啊等等的就是在这些基本上征流的 XGDP 的模型所以
当时就引申到了,那应该就是他会利用这个 XGP 这个模型,因为他找到了一个更大的模型,然后呢,他会依据这个模型呢,来反馈一些他的智能推理的真假或者正确与否,因为当时我们就想,就是有另一种观点,就是戈德尔语句不可判定的定理也是形式系统生成的,所以呢,这个形式系统可以生成所有的真理,也就是我们刚才提到的地归可美举局,只是自己判定不了。
就是不是有这样一种可能性就是 GDP 它已经达到了人类的智能因为它能够生成所有的东西能够力举的人类所有的知识它都已经力举完了只不过它是自己不知道它已经有了这种智能当时魏老师的一个观点就非常有意思就是说 GDP 呢有可能它生成的内容就已经覆盖了所有人类的知识和思考了只是我们最后一个关口要人来判断真假
在这种情况下是不是 GDP 它是否有真正的人类智能已经不重要了因为它能够提供所有问题答案只是后面我们判断就好了那从这个角度看是不是 GDP 就有了真正的智能
那么最终呢就是判定依赖于系统之外的东西而不是系统之内的如果是这种角度的话那么 DESIG 它的厉害之处有可能是它找到了一个更大的系统当时说的就是 XGP 来帮它判定所以是相当于它也有了一个向外追寻向外判定的这么一个能力因此它就提高了一个效率就是它所谓的外球
那么所以说
也就是说可能它真正依据判定的东西不是我们想这个差距比更大的模型而是用一些其他的方法我觉得整个这件事情呢就是把它的背后的原理上升到一个有点哲学的高度那我先请朱老师来给我们解释一下你当时的想法是怎么样的
好非常感谢啊因为其实小跑老师和威尔老师录的那个 GED 我是每集都不落我都是听的我觉得非常有意思 GED 真的真的就是 GED 我之前其实看过但我那个时候看还挺早的其实看的不够深入
尤其听了这个 podcast 之后我最近觉得我要再看一遍里边有一个很重要的点也是我当年因为计算机系也会学那个不完备定理相关的关键是这个系统是否只依赖自己就可以左脚踩右脚越变越好这可能是一个很根本的问题
不完备定理似乎在说我如果这个系统只在这里边判定的话它其实就有一些部分是我无法判定的当然对这个系统有些要求一阶型是可能是完备的但是呢在实际的工作当中的话其实一个系统要具备智能或者它智能要提高的话它需要外求的
你可以认为现在的模型训练有两个阶段第一个阶段就是他把整个互联网内容全都读了一遍来预测下个 token 这大概是我们两年前讲的为什么 GD3.5 GD4 厉害因为他把互联网的所有知识都吸收了而这个简单的任务
把很多的问题都训练了它既训练了怎么理解语言也训练了你怎么做一些推理做一些相关性的判断所有的 NRP 任务其实都可以在预测下一个 token 里面被覆盖到被训练到但是呢如果你只是观察这个互联网你的智能总是有个上限的你怎么突破这个上限其实是
接下来很关键的东西可能是 RE 这篇 paper 为什么火爆全网的原因因为 OpenAI 明显在去年 10 月份发布 OE 的时候他们应该是 figure out 大概怎么做了但他们不说对吧他们现在是 close AI 但 DeepSeek RE 其实就教了说大家我应该怎么做
回到刚才说的 reasoning model 本质是要想一想但怎么想呢大家可能认为预先想一想其实挺自然的你可以认为之前大家跟模型 prompt 说有个小技巧叫 let's think step by step 你就跟模型说这句话模型就会多 think step by step 一下
它其实就是让模型多想想但这个提高有限因为你没办法教模型怎么足够的聪明的想而 DPC 和 RE 的一个突破就是通过强化学习就是 reinforcement learning 来教模型怎么想之前其实讨论的比如 GBT3.5 或者 GBT4 的时候有个叫 RILHF 就是 reinforcement learning by human feedback 这个大家可能很早两年前就听过它也算是一种强化学习
但他只学习人类对两个答案偏好的差异只是让模型更加像人而不会让模型更加聪明他只会让模型更加知道人喜欢什么但不会让模型变得更厉害比如说解数学题解得更好 DeepSeq R1 呢它是引入了一个外部的判定器就 External Verifier 它外部的判定器有编程的模拟器数学的标准答案包括证明的一些编译器
这样的话呢其实你就可以让模型在这个强化学习的过程中不断地试来提高这些领域当中比如数学编程当中的推理能力因为你做完之后得到一个答案你其实一对答案或者一跑程序的 unit test 你就知道这是不是答对了这个其实就是一些外部信息系统外的信息而这些外部信息的持续输入就当模型在不断地想答案然后用 external verify 确认答案对了怎么样错了的话我再怎么改
这个其实是充分把这些外部信息的输入能够提高最后的结果其实不光只在这三个领域当中变强它其实在整个 thinking session 当中全部的领域都变强了这是为什么小华老师可能发现他在 thinking 当中有时候引用量子力学有时候说的天马行空有时候像试任一样其实你在写一篇文章的时候他这些 thinking 的能力其实也通通变强了这其实和侯士达在 GDB 当中表现出就是说你从系统内求不太完备
但从系统向外求是一致的这个其实是 DeepSeek R1 它很大的突出的点的地方当然里面有很多细节我随便提两个细节吧一个细节就是这次 R1 能成功需要底座模型能力足够强它和外部的这个 Verified 的目标要匹配举个例子就像如果你把个小学生关在房间里面给他一本基米多摩一期的习题册就是我们以前大学里学的高等数学的习题册
这个习提特后面是有答案的但是你把它关到死可能这个小学生也搞不定位积分所以这个时候你 RL 也训不出什么东西来但如果你把一个不错的高二的学生给一答高考模拟题然后也有答案让他闭关练习就不断对答案很可能他的高考分数能大幅提高对吧所以这个其实是 DeepSeek 本身因为他的基础模型 V3 做得很好
然后这才让他的这个 reinforcement learning 的这个过程大大增强了 DeepSeq 其实这次 paper 里面报告了一个实验就是说他把签问的就通议签问的 32B 也经过一样的强化学习过程提高就有限反而把 DeepSeq R1 产生的就是 60 万条狼 COT 就是他已经经过强化学习产生了非常多的思考过程的这些数据
把这些数据直接交千万三十二笔效果还好得多大概就是说插身你不要自己拿个习题册瞎琢磨你就抄抄答案但是好学生你其实可以拿本习题册或者拿一个编程工具你可以自己琢磨琢磨你可以变得更聪明大概这可能是其中一个点吧这也是为什么大家现在如果作为用户你会发现有些人会说我们提供的是 DeepSync R1 的满血版
其实 DeepSeek R1 只有一个版本但很多地方呢因为 DeepSeek 其实这一次把 Lama70B 啊千问 32B 都做了一些真流就把它通过强化学习找到的这个 LangCOT 的思维链的数据真流到这些小模型上所以呢也有一些不良商家吧就是拿这些小模型说哎我也是 DeepSeek 他们其实只是真流版只是真流的千问或者 Lama 原始的 R1 变成了满血版大概是这样吧
正好说到了刚才外球的问题对我觉得外球这个概念是非常非常重要的就是说它实际上我自己觉得它是把大家讨论的事情在网上提了一点因为大家可能更多还是在讨论它争不争流这些东西老是说争流你就觉得偷感
很重但实际上这个外求各位老师从他的角度理解肯定是会更深入的我自己理解外求或者是根据刚才周老师解释的这一切我就是觉得实际上简单来说啊外求的意思我自己理解小白的语言就是说你自己出题自己做然后自己给自己判卷那你也没有聪明多少啊
或者说你都不知道自己错在哪里你天天自己给出题然后自己又判卷自己给自己打个分但是呢所谓的这个外求就是 AI 的模型需要从你自己的认知体系内你的系统之外取得反馈比如说你让老师打个分啊让同桌打个分然后他们从那边给你一些反馈因为他的思维方式肯定跟你是不一样的你俩是不同的体系
那这样的话呢可能你就会更进步但是呢尽管如此大家可能会想到一个问题给我足够的思考时间依据刚才周老师的逻辑就是说我就多想一会儿我思想每一步我就多想好几步那我是不是就变得更聪明我是不是能够变成天才好像也不是那前提必须是你的底座足够大就是你要是一个基本知识达到一定高度你是个高中生然后你再多想几步你可能就能够达到大学生的水平
那么说到这个系统之外呢我觉得这个要再听听五位老师再仔细的阐述一下因为如果是从这个系统内外如果我们再往上上升一个层次咱就不说哪个模型大哪个模型小那么咱们就是从这个系统外的这个角度
比如说因为刚才朱老师说我还想问一个问题他这个系统外可能不仅仅指的是从小学生到中学生或者中学生到大学生那比如说你一直都是数学系的或者历史系的那你小中大你可能再向外求你也不能够升到进步高的这个层次那么所谓这个系统外呢有可能是比如说像下几个例子啊毕加索是个画家他
一直都是按照艺术上来培训的但是呢他某一天受到了这个工程学的培训或者说忽然间开始有了用工程学思想的能力那么就导致他后面的画风就出现了越来越抽象的画风反而使他就提高了更高的一个档次
我不要这么理解对不对先听魏老师再给我们阐述一遍 OKOK 我觉得外球这个事挺有意思就是因为我看朱老师我们都达成共识就是说确实外球这个东西不管从 GP 的角度还是从 AI 的角度应该肯定都是确定性的因为包括
像这个 RLHF 这样的东西其实很早就在 OpenAI 当中应用了但是结合着这一次的 DeepSeek 的出现我想到一个新问题等会儿我最后把这个问题抛给朱老师看看有没有什么进一步的专业领域的答案我发现了一个问题就是这个外球其实也分成了两个部分知识信息或者说对某件事实的判定的这种外球
和逻辑思维推理能力是否正确的这个外求我感觉这两点差别应该是蛮大的包括刚才周老师说到的就是其实还是回到我们前面说的那个话题就是说信息的生成和检索它往往还是一种知识性的东西也就是说它可能偏重于一种价值函数
也就是说这个东西你生成的好不好,或者你检索的对不对,这种对不对不是逻辑思维的能力对不对,而是你这个信息比如说是不是符合事实,或者你写文章漂不漂亮的这种。那么这个呢,无论是用人类做 feedback,还是用另一个比如说更大的数据集去做 feedback,我觉得这个性质是差不多的,可能类似于蒸馏这个东西,大概都是指的这个层面。
逻辑思维能力的这个外求是不是能够强化以及怎么强化的我觉得这个事是个很有意思的点我举个例子我们做数学当中的证明题我给你一个公式让你证明它那么很显然这个结果就是对的我们上学时候都知道哈哈哈哈洋洋洒洒写了 30 行 50 行证明过程最后把它证明出来了
最后老师他来判定你的证明题做的对错他显然不是判定那个结果因为那个结果就是对的不然怎么能叫证明题
它是从你整个的逻辑推理过程当中发现你有没有哪一步其实并不符合逻辑但你以为符合逻辑推过去推推推推就推到那个证明的结果了所以你这个东西其实是错的这是一种逻辑思维能力的外求就像我们刚才说如果一个人的逻辑思维能力能够完全内求
那他就厉害了他可以从一岁的婴儿马上就成长成为神童他所有的逻辑推理就是左脚踩右脚上去了嘛对不对那么所以这显然是不可能的但是逻辑思维的能力如果要外求的话那么那个外他的逻辑思维能力首先得超强其次还得正确
就你不能说这个逻辑思维的这个外求点它产生了幻觉它也没看出来你这个逻辑思维哪是错的所以它就无法判定所以我觉得这件事因为我对 DeepSeek 的这个模型的这种自己自我强化学习这块没有特别仔细的研究朱老师应该是对这个很熟所以我想特别 specifically 问一下
DeepSeek 是用什么方式来达到对于这个模型的推理过程的正确性 feedback 或者是判定呢特别好的问题我觉得这个 Will 老师是非常直指本质的因为大家比如说在 24 年 10 月份 OpenAI 发 OE 的时候其实所有人都大概知道说他应该是用了强化学习
但他强化学习怎么做的其实那个时候有好几个流派我简单介绍一下那几个流派但 Deep Seek 选了一个大家以为最不是的流派但是仔细想想很有深刻的道理当时有一个流派是叫做 PRM 就是 Process Reward Model 他给的强化学习的反馈是每做一步都给一个反馈原因有好几个一个原因就是 OpenAI 大概在 23 年发的最后一篇 Published Paper 就是讲 PRM 的
讲 let's verify step by step 然后大家看哇这是 OpenAI 最后发的片文章里边都是伊利亚这些大牛想的是是不是他们应该是用过这个方式来做的很多人通过这方式做不成功 DeepSeek 这次做的成功的反而是说它是用 ORM 就是目标的 reward model 它只判定你最后这道题因为它做的都是题证明其实有另外一种判断方式
就如果你做一道题你之前不知道答案然后你这答案这次做对了我也不管你是不是蒙对还是完全每个步骤都对我就给你加一分然后你做错了我就给你减一分但如果我做的题特别多的时候这个反馈就比较有用因为我理解就是只做一两道题也可能蒙对了如果说证明的话其实数学现在证明有一套像编程语言的方式你把你的证明写出来它通过一种类似编译器的方式如果通过了编译就说明你每一步都 check 过了
如果你没有通过编译你可能就不行这是陶哲轩 Terence Tao 他最近讨论说在 AI 帮助下数学家怎么工作因为现在的数学家也不是一个人就搞一个特别难的定理就是一直搞现在数学家也合作他们合作的方式就是用这种证明的编程语言就每人写一段就他把一个大数学家把这个问题分成好几个部分要证明的部分
然后每人提交我自己的那部分只要通过编译你就成功了把所有数学家提交的这些证明编译在一起你整个定理就证明成功了这是现在最前沿的数学家他们的证明方式所以证明它也有类似的 external verifier 可以做但刚才说的其实 DeepSeq R1 成功的一个核心点就是它只看最终结果不看每一步是不是正确这反而是它成功的关键
原因是这样就后来大家就发现了说如果你每一步要求都特别正确的话整个模型是学不会刚才 Will 老师说的一个很重要的点就反省就他不会说哎呀我现在做作不太行然后我就回过头来再怎么做因为 Deep Secret 他 paper 里边说了一个很重要的 aha moment
Deep Seek 有两个很重要的训练时候的感觉他用刚才这种只用目标来训练强化学习的时候他会发现第一个是随着训练步骤的变多
解题的正确率不断上升但同时我输出的这个思考的长度也不断上升就说明他首先大概学会了说我要多思考思考的越多正确率越多第二个是他在思考的时候有一些现象就会涌现出来一种就是 backtrackingbacktracking 的意思就是那个 aha moment 关注到说哎呀我现在做做做发现不太行了啊我还是不是退回去从内部开始重新用另一种方式做这种其实是很关键的一点
就本质来说它模型学会的是一种 in context aisle 甚至可以想象中它很像是 AlphaGo 的在线它会做蒙特卡罗数搜索就 MCTS 卡罗数搜索其实它也会尝试各种步骤有些步骤也是臭期有些步骤是好期但是尝试了一些多想几步之后它就会知道哪步才是真正好的 move 但你得允许它犯错
你如果每一步都不允许他犯错每一步都说我只能从非常严格正确的角度往下做的话模型就被框住了就有点像是说我举个更简单的例子就是假设你问模型 1 加 1 等于几有几种情况一种回答 1 加 1 等于 3reward 就说错了减一分有一种说 1 加 1 等于 3 啊不对不对 1 加 1 不一定等于 3 我再想一想 1 加 1 等于 2
做对了这个时候模型就加一分它虽然不是最优的但是在这个 reward 的过程当中因为我允许它犯错这个也是同时对的但当我用非常多的问题来训练之后它就在这个环境当中学会了反省被考题不断考打之后它就学会了应该怎么思考威尔老师刚才说的一个很关键的点就是模型相外学到的是什么是逻辑思维能力是某种反思能力
而这种能力其实你可以叫它野生智能它不是一个老师教出来的它其实是在环境当中探索出来的所以这是这次 DeepSeek 你可以说 reasoning model 的一个最大的差别就当我定义了几类问题像数学物理编程这种可以有标准答案的问题之后我在这个里边
让他限制最小的去发挥去探索他去被环境毒打他得到的这种野生智能其实是很强的这种野生智能里面把很多的问题把很多的比如回溯把很多逻辑思维当中的一些微妙的 trick 就是有一些是对的有一些他是从错误 recover 的这些 trick 都能学会所以这样模型才会变得聪明而且在这几个领域上变得好很多嗯
我不知道这个是不是可以部分回答 Will 老师刚才的问题就是他学会的是逻辑思维能力而外球在这个外部的环境给他的读达之后他学会了反省学会了很多思考技巧这一点其实很像人人其实也是在实际生活当中解决各种问题才学会的逻辑而不是从某几个逻辑范式里面说好先给你几个范式以后就这么推理其实也不是
好吧大概是这样我想追问一下然后同时问魏老师朱老师刚才解释不太像朱老师但是我怎么有种感觉这某种情况下也是一种大力出奇迹的方法呢
就是说这个逻辑推理反省的能力其实你也是要足够多的 deb 是吧你要足够多的反省然后你就突然间不知道从哪冒出来了一个这个逻辑或者正确的逻辑这个就涉及到一个问题这个以前我跟魏老师也讨论过就是说这个人的意识或者人的逻辑它到底是本来就有的还是我们环境中生成的几千进化出来的呢其实我觉得一直有这个问题
但是我是不是有点岔开了有点跑题魏老师继续我觉得刚才朱老师回答的这个非常精彩我觉得其实这里是一个很有意思的问题归根结底还是人的智能从哪里来的吗刚才朱老师其实举了两个例子一个是一种编译形态的一种数学定理的证明过程然后另一种是基于这种
推理过程的一个 feedback 的一个学习过程我觉得这还真挺有意思恰好我们类比 GEB 当中其实就跟这个生成式和判定式这两个东西还真的是完全相关的这种类似于编译体系的这种数学证明过程就非常像是哥德尔数的配数法也就是说我把
定理的各个不同的片段只要我能够映射到一个数值那么这些不同的片段它们相乘或者通过某种数学变换的时候其实就能够得到最终的定理这其实就是哥德尔数的这种模型然后哥德尔就是用这种数的模型来去生成了这世界上所有的定理以及那个不可判定的那个命题这就是所谓地归可没举行的一个底层的一个逻辑
但是这个人类学习的方式肯定不是这样数学家证明题不是把所有可能的数学命题都列出来然后一个一个判断它是真假而是有一种自我反思的精神很快他就能够发现说哪是对的哪是不对的然后呢相当于基于一个外部的反馈这个外部反馈可能是
整个数学世界对吧就是同行评审告诉你说你这个证明其实错了那数学家其实就是在这么一个过程当中不断地去提升自己的这种推理然后找到正确的路径这个东西确实是跟刚才朱老师所讲的这种 ORM 这种模型
有类似之处换句话就是说人确实就是通过不断地试错或者说在允许他犯错误的情况下才积累了正确的推理模式这让我想起来很有意思的一个曾经有过的一个论战说机器人人工智能到底能不能超越人或者说机器智能到底能不能超越人的智能
然后有一个说法就挺有意思,就是说他说他觉得机器是不会超过人的,因为机器永远不会犯错,因为他每一条语句都是正确的,而人是会犯错,是不断地从试错的当中获得了更新的成果,获得了更加智能的这种能力。
如果一个机器真的也是用不断试错的方式去来演进的话那它的这种衍生的智能真的有可能比其他的技术手段更接近于人的智能我觉得这种可能性肯定是存在的我觉得这一点就刚才朱老师说的非常清晰只不过我们可能还有更深层次的哲学问题留在那儿归根结底又回到外求的那个问题了那就是前提是要保证
所有的这些结果本身是正确的然后让这个模型自身去找到正确的路径通过犯错的方式找到正确的路径最后给出正确的推理但是对于一个尚未证明的定理不管是哥德巴赫猜想还是李曼猜想这样的东西你的这种 feedback 可能就无效了因为你本身不知道它正确与否那这里边其实就又回到一个最深层次的哲学问题就是那会否通过这种不
不断试错形成的真正的具有智能推理能力的机器它能够去证明出一个现在人类还不能证明出的定理呢那这就回到了智能的终结问题我觉得这个是个挺有意思的话题这个问题其实刚才说的非常有意思其实威尔老师刚才说的点非常关键之前我们讨论过就是 intelligence 的定义智能的定义是什么其实是达到某种目标的能力
所以在人类演化出智能的过程当中人类有很多目标对吧这些目标可以是找到食物可以是建造房屋可以是造一个拱桥在这些目标当中人类也不断试错然后最终找到了一些东西最后这些东西凝结成了物理数学建筑学结构学这些东西所以因为你在一个环境当中有目标且可以探索你通过不断的尝试你就可以
不断地找到更好的达到这个目标的能力所以这个其实是智能的很重要的一个来源其实它来自于外部世界的独大来自于环境
刚才威尔老师说的就是是否能够突破某种智能的瓶颈其实我自己是比较乐观的就是一个例子其实就是 AlphaGoAlphaGo 最典型的特点就是人类定义了围棋游戏的规则和怎么判定输赢只要在里面不断尝试他就能尝试的比所有地球上的人都厉害就能够尝试出一个最好的下法然后他这个下法已经是神之一手的人无法理解了
这一类做法有个很根本的其实包括现在这些 online planningonline planning 是一般比较学术的叫法就是在线多 thinking 一下
为什么它 work 有一个很重要的本质这个本质是 generator verify gap 生成者和验证者的有一个 gap 有个难度的 gap 因为很多问题都是生成难验证容易有很多例子啊就是比如说我做一个速读库对吧就速读库其实做个速读我真的要把这些答案填出来我还得考虑这考虑那其实还挺难的但是我判断我说我这个速读库做对了吗其实相对是容易的
数学证明其实也是这样就哥德巴赫猜想写出来是难的但如果写出来去验证它是不是对要比写出来容易多了包括我相信我们之前做 crypto 也是这样的挖矿很难验证你这个矿挖出来是很容易的只要正向算一下就可以了这里边有个很关键的点就是世界上非常多的问题都有这种生成者和判定者的 gapgenerator verify gap 就是你生成比较难但判定比较容易
这其实也是为什么说之前说我们 thinking step by step 我在线想一想它是可以做的因为我这个模型并没有变大但是我在线多想一想的时候我如果想到正确的答案我容易 recognize 我想到错误的答案我容易说现在不对我要回过头去就是我们之前讲的它涌现出来的这个行为
因为很多问题有这种 generative verify gap 所以才能够让在线想一想变得有效好吧我这可能是我的一个补充嗯
因为这也是吴耀老师刚才说的我觉得里面一个很关键的点这个我很同意就是所有的计算模型其实都是这样所谓算出它的结果其实是比较难但是这个判定它的结果其实是比较容易这个是完全同意我在想说的是从某种广义的角度讲我们如何才能够把它的这个
推理过程去扩展就是去能够让它创造出一个事先并不存在的这么一个推理过程这一件事确实是需要用无数次的生成可能去试错我觉得这个逻辑肯定是对的只是说我们要看我们给它设定一个什么样的一种目标的形态因为如果说设定一个比如说
我用纯判定式的方法我就把哥德巴赫猜想或者黎万猜想设定为他的目标函数的话那么我觉得他有可能这种计算方式是不一定有效的也就是说他仍然会最终试了无数次然后耗尽了比如几百万年仍然不成功所以还是回到我们刚才说的改进或者外求的话题就是我们如何才能够让他提升到一个
新的 level 让他的这种推理能力能够在快速检索的过程当中能够提升我觉得这个应该是一个挺有意思的话题
我插一句,我听两位老师讨论其实非常享受,我都不敢随便问问题,我觉得我一问问题就好像在添乱,但是我刚才在听你们的讨论过程中,我想一件事情就是说,大概也是在两年前,我不知道是不是跟朱老师一起讨论过,当时也是 GBT-4 出来,然后大家各种经验,但同时也觉得很恐怖,就是说人类智能马上就要被超越了,或者说这个 AI 就已经可以代替人类的智能了。
然后那个 Chomsky 就是那个强姆斯基应该是纽约时报上他当时写了一篇文章他说 AI 永远不可能超越人类为什么呢因为人类有凭空生成的能力我觉得可能跟刚才两位老师讨论的是有关的就比如说爱因斯坦或者说牛顿他们的思考过程可能就是说这个爱因斯坦他不知道为什么脑洞一开他先想
先想象出来了一个情景那黑洞是这样的或怎么样根据各种的地球运转或者是光的这个反射它最后大家推理出来就证明它是对的但是它的
他的那个灵光一闪乔姆斯基的说法就是说那个才是人类独有的东西人类可以凭空的生成一个目标就我凭空想一个理论出来然后后面大家证明这个理论是对的他说 AI 可能永远达不到那种境界但我不知道他的这个说法或这个观点现在还适不适用或者说我不知道怎么问对不对吧就是说 AI 它有没有自己生成我们刚才讲 ORM 它自己有没有自己生成 objective 目标的能力呢
没有人告诉他怎么试错他有一天突然就觉得我有这个目标我要去生成那个目标我要去试错那个目标就像爱因斯坦有一天突然想了一个理论一样这种情况有可能吗我觉得如果上岸乔老爷子说 AI 没有凭空生成的能力其实我们会发现 AI 的幻觉就是它的凭空生成只是很多时候凭空生成的不对
所以他首先 AI 是具有凭空生成的能力的而且现在我们只是担忧他过多而不是过少然后接下来的一个点其实就是可能更接近 AI 的运行模式就是如果我让他一直想会发生什么其实让我想起之前那个阿西莫夫应该是有本小说吧
at the last question 应该是他就是相当于是讲了一个很有意思的点对吧就在各个 AI 科技发展的时代人们都问 AI 一个问题说怎么逆转上针怎么规避宇宙的热计应该大概是这个问题每一次模型都说我现在信息不足再想想
想想想想但想到最后宇宙快要结束的时候这个 AI 已经变成什么超空间啊什么的已经想了非常非常长时间他说我终于想明白了然后他说好我要开始逆转上增了所以先要有光对吧重新开始当然是上帝我个人觉得就是在线的更多的 thinking 其实是非常有前景的只是我们现在让他想的时间不够长
这里边有一个点我觉得很有意思我可能简单说一下我让一个固定大小的模型假设 100B 的模型让它想一想其实想的时间越长就相当于这个模型变大了
我不知道我这个说的大家能够理解吧对在线思考和模型大小一定程度是等价的举个例子吧 AlphaGo Zero 其实是水准远超人类的因为我之前正好还回顾了一下它的一些指标它的一楼分数相当于和人下的那种胜负分数大概在 5200 它是特别牛的人类顶尖高手大概 3700 吧我印象中大概是这个 range
它是训练了一个当时比较大的模型大概四五十兆的参数现在看很小但那个时候很大 GPT-3 现在是 175BGPT-4 刚出来是 1.7T 这都是参数量每个单位都差 1000 倍现在看那个时候这个模型是很小的了但那个时候这个模型很大然后同时在线它也会做思考它的在线思考是用刚才说的大楼数据搜索就做 MCTS 来做
我记得有一个结论很有意思就是说如果你不让 AlphaGo Zero 做 MTCS 直接让它的 RAW Network 就直接来下就有点像是说我现在让这个棋手下快棋你不许想就是一秒钟下一个一秒钟下一个它的水准立刻大概就降到一楼分数 3000 分左右就大概是个人类普通高手的水准
但是因为我加了 MTCH 其实它的效果大概等价于这个模型扩大了 10 万倍因为他们做过一些实验大概 Elo 每涨 120 点大概就是模型要 size 要翻一倍
所以其实这是个很有意思的点就是包括其他棋牌游戏也有很多类似的工作我觉得之前一个打德州的工作也是这样就在线检索之后模型都没变但只是增加了在线检索这个过程这里边其实就相当模型大小增加了 10 万倍所以在线花更多时间想一想相当于模型 size 变大这点其实很深刻的最近比如 GPT4.5 刚出来对吧 OpenAI 技术 GPT4.5 出来大家一测很失望
但 GPT-4.5 它模型一定是大了很多的,因为它的 output 的价格大概是 GPT-4O 的 15 倍,当然是什么 DeepSeq 的 200 多倍啊什么的,就 70 几倍吧好像是,而且各种评测效果一般,它就是一个典型的模型光大了,但是没有思考,你可以认为 OE 这些模型基本上应该是和 GPT-4O 差不多大,就两三百币的大小,但它思考了之后能力就强很多了。
然后 GPD4.5 大概比它大 10 倍到 20 倍吧就是大概这个量级但是他没有思考就感觉一般所以其实在线思考和模型大小某种情况下是互换的所以从某种情况下说就回到阿希莫夫的这个 the last question 就是如果我这个模型一直在想想很长很长时间就相当于这个模型非常非常巨大像宇宙那么大所以它可能能解决的问题真的还挺多的
好吧这正好就是岔开了一点我觉得并没有岔开就完美的 cue 回到了刚才魏老师说的这个对我觉得这个话题很有意思正好完美也契合 GEB 的这个核心思想我想稍微总结一下因为我觉得刚才小泡老师表达这个观点其实比我刚才说的那个东西要好
就这个东西可能真的要回到这个人类自我意识的这个角度因为很多人提出来人工智能不具备超越人类的一个能力呢也有另一个论据吧就是所谓机器到底有没有自我意识的问题
但实际上我刚才说的那个问题类似比如举例就像小跑老师刚才说爱因斯坦在发明狭义相对论广义相对论的时候本质上是一个人的思维特征就是自我博弈自我反馈这个过程他自己可以说我要解决这个问题
我最终构思出来一个光速不变的原理那实际上呢他这个思维的过程呢他也知道伽利略变换也知道罗伦斯变换也知道所有的这些实验的结果那么最后到底光速不变的原理是否 OK 呢其实他有一个自我博弈的过程他把所有的那些前提再作为一个 verifier
对他自己的思考过程进行 verify 然后从里面去找出那个正确的路径然后再往前推所以其实这就回到刚才朱老师说的我很同意其实当你的想一想的过程或者你的 MCTS 的随机分叉搜索的这个过程如果你把他们的结果固化下来其实就相当于把你这个模型内在的参数做了扩大和提升
那如果一个人工智能真的在思考的某个过程中如果再能实现说把它想一想或者思考或者 MCTS 的搜索结果再 feedback 到自己的模型参数的权重上再调整它的参数的向量的长度以及对应着每一个标量的权重上的话那这个人工智能就等于是真正有了自我意识
第一它的形态上是一种自我反馈了第二当然最难的一点是什么最难的一点就是它需要根据外部的反馈来判定说它的哪一个思考结果或者随机搜索结果是应该值得或者说放回自己的模型参数当中是正确的
如果这两步都能够做到那么这个机器其实就是一个有自我意识的人工智能了那在这种情况下假设这个目标能够实现的话那么很有可能真的是有自我意识的人工智能就诞生了
所以我觉得这个话题真的是值得反复的去探讨而且甚至有可能我个人认为当然我这是民科级的想法那就是这有可能是人工智能下一个阶段发展的一个重要方向和里程碑呢非常赞同非常赞同其实威尔老师刚才描述的就是说如果我给一个很聪明的 AI model 一个粒子加速机然后它可以控制粒子加速机里面的各种实验各种条件能观察到实验结果
那他对物理学的研究水平是不是可能比爱因斯坦厉害我觉得很有可能的这个可能是一个很关键的点而且确实就像威尔老师说的一样 2025 年大家都说是 agent 的年份其实这就是现在大家做 agent 的做法基本上就是我们给大模型一些工具让他能够用这些工具并且能观察到这些工具的反馈的时候这一般就是现在叫做 agent 的流程
你可以认为现在的 agent 当然可能没有这些模型没有拿到粒子加速机这样贵和那么多资源的工具但现在基本上大家给模型的工具往往都是什么浏览器鼠标一个 Python 编译器给这些东西然后就会发现这个 agent 自己鼓捣鼓捣就能在这个上下文里面做出很多东西了因为他能够试一试然后试了不行他能观察到答案比如说他写了一段代码一编译没编译通过然后报错了他可以看到错误
报错的日志是什么那他可以根据这个日志修一下代码再跑直到跑成功然后跑成功之后看一下结果是不是符合预期他的做法越来越像人刚才 Will 老师的这感觉很对就是如果我们给 agent 以手脚并且给他以眼睛能观察到手脚动作之后的 observation 的话这就是我们现在
大家在今年走的方向就是大家开始做各种各样的 agent 如果我们假设有个非常高智能的模型让它不光是观察宇宙而是能够做一些宇宙当中的物理实验的话它能够帮助人类更好地发现最前沿的物理
哎呀既然 Q 到了 agent 我们就完美过渡到下一个话题吧就本来我们今天打算是聊完 DeepSick 然后聊一下 AI agent 因为大家也知道这个 DeepSick 结束之后马上又来一个更火的是吧这个 AI agent 咱就不说具体什么火了我觉得现在热度应该还没太过去吧大家也在持续关注因为他也不停的放消息出来
但是 anyway 就是我们既然 cue 到了这个 AI agent 我们就来聊一下这个 agent 这个话题智能体呢实际上大家听前两期我和威尔老师我们有一个 2025 年的十大科技盘点其中重点就说到了 AI agent 但是当时咱们在聊这个 AI agent 的时候呢后面就拐到了这个小机器人用钱的时代终于来临了我们
当时就觉得 Crypto 没准他就是给这个 AI Agent 设计的就将来也不需要人来接触了这个 AI Agent 小机器人之间创造一个经济体然后大家互相给钱然后这个钱呢也是 100%原生的区块链的这个 Crypto 所以就完美的契合起来了
当时是从这个角度但是没想到呢这么快这个 agent 就变成了一个非常火热的话题而且好像取得了一些突破所以呢正好朱老师今天也在所以就非常想问问朱老师关于 agent 但是我们可以从这个奥特曼的五阶段因为一说到这个 agent 的话我觉得现在提到的最多的就是这个概念了大家肯定都知道了咱们奥特曼的他给
大模型时代的发展阶段定了一个五个阶段嘛就第一个阶段就是对话像这个 ChatGPT 这样的聊天机器人第二个是推理就是会开始解决一些复杂的问题那就是 DeepSync R1 这样的推理模型那第三步呢就是到了规划那也就是 AI Agent 可以为用户规划任务然后自主执行也就是我们今年年初大家看到的一个爆火的现象机
然后呢下个阶段是发明创造他开始可以参与科研和技术突破也就是我们刚才在聊的爱因斯坦的问题
他自己可以去研究一下这个黑洞啊研究一下物理学最后一个阶段就是写作深度参与社会管理和复杂的决策所以呢现在也想请周老师和魏老师来评论一下我们现在这个 AI agent 它的时代是到了吗或者说到了什么阶段了或者说目前的这个发展趋势它是真的已经到了一个现象级吗还是才刚刚开始
要不还是先请朱老师来 comment 一下好如果讨论到 AI agent 的话其实 OpenAI 的第一阶段是 Conversational AI 其实你可以认为在纸和 AI 交互的时候本质来说只给了 AI 一个纸和笔给一个人一个纸和笔你就反正写写我跟你写字你给我写字对吧大概是这样其实 agent 本质来说就是相当于给 AI 一个电脑给它一个 IDE
所以在这个里边其实是 agent 最大的差别然后说到 agent 可能我说一个比较细的偏技术的概念就是 workflow 和 agent 的差别大家其实也很多都做一些什么多步的动作啊什么的其实之前有很多都是 workflowworkflow 的特点就是相当于说我整个步骤都是比较确定的都是程序员或者说就是 PM 就预先写好的
然后你基本上就在教 AI 在这每一个步骤里边你跟他说你要做什么但 agent 最大的差别就是说你给他个环境
你给他环境里的上下文以及给他个目标说你要做什么然后你好好想想这些是有这些工具我也不用预先告诉你怎么做怎么用你就好好探索一下想想怎么做所以这个点大家会发现 agent 的使用方式和刚才说的像 R1 这种 reasoning model 很像因为 reasoning model 如果大家平时用 R1 的话你不要把它当做一个 chat model 来用
就是你跟他聊一句他跟你聊一句好像一句一句聊得挺开心但是好像你也没觉得有什么差别这是为什么很多用户也没有觉得 OE 有什么差别其实用 reasoning model 的时候最大的特点就是你不要教他怎么做就有点像互联网上不是有一个表情包吗你教我做事对吧就是不要教他做事你反而是把你的上下文说的越详细越好你的偏向说的越详细越好你的目标说的越详细越好
你可以认为他在 thinking 的过程当中就 kind of 在做一个 in context 的 reinforcement learning 就是他在 thinking 的过程当中就会想我是不是这么做这个做法看上去还不太对然后又换一个方式做这个其实和 agent 就很像了所以可以认为 reasoning model 就是推理模型其实是 agent 的一个前置条件这点很关键所以其实最近如果说 agent 的时代的话我个人觉得还刚刚开始
现在大家看到的所有的形态不管是 Devon 然后 WindsurfManus 或者各种很可能都离它最终形态是很远的但是有一些特点就是说
以后给 agent 的命令或者他做事的方式都会更像是以前大家说 Netflix 有一个做法叫 context not control 对吧老板跟小弟应该只说 context 跟你说目标对吧然后不要告诉你每一步怎么做因为你花很贵的钱请人来然后告诉他怎么做其实最后你把这个人的水准降低到你的水准之下了他也发挥不出更大的作用所以以后 agent 的使用
有很多不确定性也有很多刚刚开始的地方但有几点应该是确定的就是应该把 recently model 用好让他更自主的用一系列的工具
去试图完成一个目标把目标定义清楚然后他通过刚才也提到就是那个 generator verify gap 就是说他试一试如果不成功他很快能 recognize 如果成功他也很快说这个看上去可以之后我们人做事情很香通过利用 generator 和 verify gap 嗯
通过使用工具比较自主的完成一些任务这是接下来我觉得大家会看到很多东西不断在产生不断的新的东西出来大概会是这样一个样子但具体会是什么样子我觉得现在都还太早现在的产品形态和现在的样子都很可能离最终样子差很远吧未来是几年
大概几年我觉得可能未来也不远我举几个例子吧因为我一直做这些然后观察一些指标的变化其实个人觉得未来还真不远我举几个例子大概就能明白有一些 benchmark 比如说 SuitebenchSuitebench 基本上就是一个正常程序员会做的工作的一个 benchmark 大概它的设立方式是这样的程序员在工作的时候要做个 PR 什么的这样的任务在
在 2024 年初的话大概基本上就是个位数的完成 Cloud3 Opus 我记得是大概 7%吧就满分 100 分他得 7 分 GPT4 一开始大概两点几分吧但基本上到 24 年底的话大概在 60 分 65 分这样子
另外一个 benchmark 叫 AIME 它是美国的数学竞赛其实还比较厉害的就是算是高中数学竞赛甚至应该还是稍微更高级一点的数学竞赛吧就是不是那么初中啊或者什么的挺高级的数学竞赛 2024 年初的时候像 Mixtra 啊什么 Cloud 3.5 Sonnet 只有 9%啊 10%但到今年 DeepSeq RE 大概是 74 满分 100 分 OpenIL 的 OE 是 71
然后 O3mini 是 86 已经基本要打爆这个指标了最近大家唯一还在打的一个 evaluation 它的名字也很有意思叫 Humanities Last Exam 就是人类最后的考验了
它是最前沿的学术问题就网上找不到的目前大概个位数但是如果有一些用 OpenAI 的什么 deep research 就可以变成大概十几吧 O3mini 大概 11 12 但我能想象这几个指标也很快就是现在都是年头和年尾很多原本以为很难的指标就到年尾就被打爆了
所以我觉得可能也不会太远吧对当然这是我的看法可能还真是这样我今天下午开会有听到很多金融机构的领导说今年我们要建 100 个智能体都有
都已经写到 KPI 里了然后我们要快速让全员用起来听起来就觉得好像也不远了那魏老师的观点呢对于这个 AI Agent 我觉得我基本没什么要补充的因为我很同意其实就从咱们聊人工智能的这个角度来讲我觉得大概 AI Agent 其实就是它最主要的一种应用形态就像我们以前你不管你发明了任何硬件任何软件总之它都有它对应的应用形态
那实际上能发挥 AI 的能力的我觉得最主要还是 agent 吧因为现在这种
Conversational 的这个方面我觉得基本上已经都快差不多了也就是说你的模型在提升什么能力在这个对话层面在内容生成层面应该也不太可能有什么特别实质性的改进但是 AI agent 这个也就是真正让它变成 AI 也就是变成有智能之后用它这种
思考模型或者是去推理模型去真正的完成工作而不是那种
预定义的工作,其实也就是刚才朱老师说的 workflow 和 agent 的区别,我觉得这个应该归根结底,其实就是人工智能最核心的应用模型吧,都不需要之一了,我们现在的什么人形机器人也好,所有的这些目标的这个应用的场景,大概其实就都是 AI agent 的一个场景,
但我补充一点我回到刚才那个问题可能有点跳脱就是我刚才在想的 AI 的进一步的进化甚至自我认知自我意识的一个场景跟 agent 这个方向还是有蛮大的差别的我还是在想说
其实就是一个要不你可以叫 self training 或者叫 self learning 也就是说一个大模型不是通过外部的 training 的模式去提升他自己而是通过自己对外的所有的接触的反馈来去直接提升自己的模型
我举个例子我们都知道人脑现在科学研究的结果认为可能人脑只开发出了很小一部分换句话说人类的更多的神经元可能是处于一个空白闲置的状态但是人从小孩
而长到大人其实他就是在一路当中通过自己的这种 feedback 通过自己的试错得到结果得到激励然后把很多逻辑思维的路径固化到了自己大脑的某些神经元当中我们可以认为这些神经元原来是空白的没有被开发没有被应用的
所以我觉得大模型其实未来有这种可能性就比如说我们现在说都是一个什么 3000 亿参数的一个大模型那我在想其实我们完全也有可能构造一个 10 万亿参数的大模型但是在今天这个阶段只有 3000 亿参数是有效的另外的 97000 亿的参数或者说
向量值它们的值也是零它们的权重也是零所以它们不改变最终计算的结果然后
让这 3000 亿的大模型在对外的不断的思考不断的答题不断的反馈当中能够自己去知道我能够把这 10 万亿的模型参数当中哪些设置成什么值以及给它什么样的权重从而把自己迭代成为一个更大规模的一个模型
也就相当于刚才我们说的不管你是把再想一想的结果还是把蒙特卡罗斯随机搜索的这些结果反馈固化到自己模型的向量参数和权重当中
我觉得如果能够做到这一点那么这个大模型本身其实就有点像一个具有自我意识的人一样我就是补充这么一个想法朱老师有补充吗赞同其实吴耀老师现在说的是现在很火的现在两个范式一个范式就是说如果模型它不需要用工具直接就有一些答案或者有一些环境来
给他 feedback 的时候现在 DeepSeek R1 其实就是不断在这些环境当中得到反馈然后把自己的模型权重更新之后他才会涌现出刚才所说的在想一想 BacktrackAha moment 这些现象现在其实有一些东西还未知的就是说如果我给模型工具在整个 agent 的 workflow 里面我是不是能够用 RL 让整个模型变得更聪明有可能的就假设模型有一些基本工具
我甚至咱们现在天网行空想一想就是假设是那种区块链上的他有一些 token 他有一些钱可以花然后他的目标可能就是增加钱假设是一个很简单的目标他可能可以做各种事情来增加钱一旦他训练然后变成功之后很可能确实他就越来越牛逼了就和我们普通人也一样就是我们普通人从一个个体来说我们先在环境当中学会怎么考试的分数高一点
然后工作之后想学什么近身对吧怎么 copy ladder 爬得高一点然后再想说你开个公司怎么能赚钱或者是不是能赚到钱这个其实很像的所以慢慢慢慢其实人和 agent 它的区分越来越少尤其是当你赋予 agent 的这些工具甚至比人现在善于使用的更多的话因为你看 agent 因为是电脑嘛所以他给这些工具的比如说调用的频率啊他的能管理的参数列表的长度啊
可以远超过人的甚至在某种情况下因为他具备了这些工具他比人厉害多了都有可能所以这个我觉得可能不远了吧这个
就是我对现在的进展其实大家都是觉得哇还是非常 amazing 的马上进入智能体资本主义时代自从 AI 有了贪欲 AI 可能也不是贪欲只是这个 AI 的 owner 给他的 go 而已而 AI 的智能让他能够达到这个 goAI 本身没有贪欲他很冷静但是人类设定目标的时候有贪欲嗯
对就想起那个区别针理论给他一个不断知道区别针的目标对他还是想把整个人类做掉吧就这样生产区别针效率更高总有一天会拐到那一步说到这里啊就是还是想聊一些外围的问题但是在我在聊外围问题之前我们还有哪些两位老师的观点没有表达完的吗还有需要表达观点吗哪些精彩观点
没事可以先聊聊看啊聊聊看因为我想聊一些外围的问题当然了因为刚才也问了朱老师那个问题就是未来是几年但是我觉得现在大家普遍的一个感觉就是说没几年了那么加速的这种感觉我觉得比我们两年之前聊的时候它的加速感是更快的就是现在基本上那个时候还会想想啊这个真的能实现吗这个监管呢或者是风险呢那时候还在替 AI 想风险或者还在替社会想风险我现在觉得
好像这个风险怎么说呢它现在甚至是一个次要考虑当然有一些新的变化了比如说现在我们要加上这个地缘政治的问题吧我觉得也还好啦也没有那么敏感现在呢我们原来其实是担心可能监管总会收一收或者说不会发展那么快但是现在来看呢就整个政治发展的这个变化或者环境的变化它反而是朝着更加速的方向在走的因为这个两个大国在竞争啊你不能落后
所以说我今天下午开的会我也是这种感觉就是说在这样的整体的氛围中呢其他的问题现在都不是最重要的问题最重要的问题就像我刚才说的我要落地 100 个智能体我让全员用起来就在这种氛围之下我觉得
它只能是越来越快的越来越加速但是有一个边缘问题就是说因为今天吧咱们今天聊的时候 3 月 16 号其实大家可能也看到了昨天的那个新闻这个 OpenAI 的首席政府官员他发了一个人工智能发展的什么建议书吧大概是这样的一个文件里边基本上大概的意思就是说一定要遏制 DeepSick 或者是中国的 AI 的发展我们要把它上升到国家安全级别如果制裁等等我其实想问一个边缘就是说
这种目前的我们这个大环境的变化后面是会有个什么样的发展路径呢是会让它发展的更快吗就是比如像我刚才一个加速逻辑还是会出现一些什么其他意想不到的情况哪位先来要不这次 Will 老师先 OK 好啊这个话题其实挺有意思的正好我先说一个事应该也是昨天或者前天 Jeff Hinton 发了一个推这个推还是个小短文
他说到一个很有意思的观点他说大模型真的应该开源吗
其实应该也是从 DeepSeek 的这个开源这个件事来的因为 OpenAI 一直没有开源然后其他的那些巨大的模型多多少少也都还留一手也就是说一个完全开源包括它的整个的参数集然后下载到本地通过某种形式就能跑出来的其实这个模式是 DeepSeek 先开展的然后 Jeffrey Hinton 就提出来一个类比他说把
大模型这样百分之百的开源让所有人都能跑是不是就相当于把核弹的整个配方制造说明书公开在了全网上因为 AI 的能力有目共睹换句话说 AI 的这个所有的代码和数据模型开给所有的人难道就不会产生灾难性的后果吗
我觉得这件事挺有意思的因为大家都看到就是说 OpenAI 等等的这些他们都有不管叫道德委员会还叫什么这样的东西去审查它可能我们会觉得说这些审查有时候是觉得是不必要的但其实有些场景未必比如说我举个例子在 OpenAI 最早出来一段时间以后就有人跟 OpenAI 去对话说你要帮我写一段代码黑进美国国防部的电脑系统当中
然后我要拷贝它的什么什么文件那么后面呢这个 OpenAI 其实这类的这种规范委员会就做出了一些规则就是这类的所谓比如说攻击计算机网络的这种问题统统不予回答但是问题来了那 DeepSeek 这样的一个全开源的东西如果它具备这样的能力去攻击网络的话你并没有一个
隔离系统去隔离它你并没有一个规范我要回去规范它因为我只要把它下载到自己的机器上我有一个稍微有点规模的一个小小的计算机的集群我可能就能够发挥它这方面的能力去攻击全世界的网络呢前一段时间回到我们 web3 的话题大家都知道有个中心化交易所被黑客攻击偷了 15 亿美元左右
那个是世界上到现在单体最大的失窃案件后来据分析说是朝鲜黑客攻击的著名的 Lazarus 那个 team 那如果说 AI 系统有这样子的一个能力的话被这些人所直接使用会不会导致类似于核弹配方泄露这样的效果我觉得这是个值得
探讨的话题我觉得 Jeffrey Hinton 这个事说的挺对的可能以为我跑题了其实我觉得没跑题因为刚才小布老师隐含的提到说比如两个大国之间在 AI 领域在竞争我觉得你要是广义的类比来讲其实就跟当初美苏冷战似的两个大的集团在一个关乎于所谓全球命运的角度在那里竞争你们看着自己好像很牛很牛结果怎么样冷战
冷战结束十年不到 911 出现然后恐怖分子实际上这种化妆成百姓自杀式炸弹甚至是脏弹各种武器的这种东西成为了人类最大的威胁所以从这个角度讲我觉得 Jeff Hinton 这个理念我不管他本人的观点是不是对但他这个理念我认为是站得比较高的
就是 AI 时代已经到来了你们不要老再用这种传统的地缘政治的经济体争夺的这种角度来看待这个世界了你们先想一想 AI 这个时代到来之后对人类对社会可能最大的威胁到底是出自哪儿不一定是两大集团掌握 AI 能力互相 PK 的这条路可能是最强的有可能真的就是
无数的 DeepSeek 被大家下载到几十台计算机的一个数据中心然后干出各种
稀奇古怪五花八门的事来的这种可能性它有可能真的存在我觉得 Jeff Hinton 他虽然一直在强调但是现在已经有点晚了我自己是这么觉得补充一句主要原因是因为 Jeff Hinton 其实一直是开源派的倡导者所以他讽刺 OpenAI 不开源不开源然后 DeepSeek 出来的时候 Jeff Hinton 大家赞赏赞赏了没俩月突然反思出来感觉不对
不对自己也在在 learn 在 RL 对周老师怎么看我其实理解这个 Jeff Hinton 的 concern 但可能我的看法和小跑老师很像就是可能也就没有东西可以辅导给我提示了
对来不及了但这个问题也有点像是可能也不完全一样你在 Google 上也可以搜到核弹怎么做或者生化武器怎么做你在 YouTube 上甚至也可以看到一些制作什么炸弹的视频或者有些东西信息技术人类的使用自然就会让它往更加开放信息更加 flow 这种角度来移动
包括你看尤尔赫拉利的新书基本上就是想说你已经没有什么真相了在信息极大自由的情况下也不一定只有真相才会 flow 才会被传播其实谣言和各种东西会相伴的传播甚至有些情况下像欧洲猎物一样可能也会传播的很厉害所以并不是越自由越好但是大家都很矛盾因为如果说之前其实抵抗或者说一直说哎呀你这个模型不能开源
是 OpenAI Anthropic 他们说的但是大家又会觉得你们这些说这个话的人呢背后是有你很强的经济利益的因为你卖 API 啊你要有知识产权你要融资啊 OpenAI 的 Stargate 要融非常非常多的钱就是因为它有一些进展所以他们肯定也不喜欢开源但是呢我觉得这个加速无法避免其实可能从两个角度
一个角度是学术界因为在现在大模型的学术界是非常自由的不一定是说你要开源代码因为很多时候我个人觉得 DeepSeek R1 对学术界的最大的贡献就是它把推理模型做出来的逻辑跟大家讲了所以你可以看到 DeepSeek R1 这篇 paper 发出来之后
大概就几天吧就当天好像就有个 Tiny R1 后面李飞飞他们也做了一些其实他们都是在一些小问题上用相同的思想附现了说我这样训练通过环境的反馈模型的思维链是会变长成功率会变高而且也能观察到一些 backtrack 这样的一些行为也就是所谓的 aha moment 就在学术界的话其实就这种 idea 的 floating 其实是
完全无法阻挡它甚至比开源影响更大举个例子去年大概下半年很多在硅谷做学术研究的人基本也都知道欧格尼亚在做 reasoning model 也大概知道它大概的一些方向确实到底是 PIM 还是 ORM 还是门特卡罗数搜索哪个具体方法我可能不是完全知道但其实有时候大家聊着聊着也差不太多了
所以很多的学术的 idea 本身在这些 researcher 当中或者相关业界的人当中其实是有非常多的非 informal 渠道的各种流通的而且尤其硅谷也没有什么敬业禁止很多一跳槽就说我当年的一些经验是什么其实也就很快的就相互传递了
所以举个例子比如说你看那个 OpenAI Sora 的那个一开始的作者跳到 Google 之后 OpenAI 的 Sora 就一直不太行对吧然后 Google 的 Vue 就是效果很好最近出的 Vue 效果很好甚至和开源都没关系现在学术界的就已经太自由了然后大家的 idea 也就是非常的 floating 就相互之间流动而且大家相互跳槽其实并没有那么强的壁垒然后第二个部分其实是经济
你可以看到 DeepSeek 开源之后获得了巨大的反响和认可以及知名度所以国内的所有公司都开始要开源了然后大家从经济利益角度来说会觉得这个开源就是有一堆公司是做模型的运维的就是你 hosting 一个模型我帮你做推理我帮你加速推理然后你付我一些钱其实有整个生态 build around it 所以也不太可能停止
一旦有一个好的开源模型出来整个生态会快速的适配它像 DeepSea 3.1 这次出来之后所有硅谷的那些做模型推理的或做 infra 的公司可能就一两天都会出各种说我们已经适配了当然有一些就像刚才说的是非满血的是那个 Distilled 的 version 但是整个生态其实也会加速这个新模型的推广所以我觉得这个已经没有什么避免的可能性了对
说到他能力是不是强其实是的尤其是开源社区往往做的都是一些有点边缘的事情比如说之前的深图模型在开源社区当中做的都是一些偏色情的深沉或者什么的然后一些原模型如果在开源社区如果火的话往往也是做一些偏色情的角色扮演之类的所以这个怎么说呢就是
可能只有用 AI 来 guard AI 吧就是你既然觉得 AI 能够做一些 hacking 或者能做一些 spam 的问题那你只能用 AI 来防守住这些 AI 吧可能这是我们唯一能做的我可能并不觉得对我并不觉得有办法能够阻止它或者说现在各个领域的这个大势或者说堆积的方向都已经是偏向于它的
对只能希望这个 Illia 赶紧成功她那个 AI 赶紧用魔法打败魔法对我觉得朱老师逻辑跟我的结论一样但是是不同的原因了但是我觉得无论如何朱老师的这个说服力是更强的因为我觉得这是一个人类整个的发展的一个必然阶段因为你的 idea 已经是 flow 了这不是说军队竞赛的问题这可能都不是因为政治的问题它是因为这个 ideaflow 到一定成功它必然会到了这个阶段
但是总而言之我觉得周老师还是像两年前一样的乐观对我还是相信说大家可能还是先用他做好事的带来的价值可能比做坏事带来的危险还是要大一些所以我还是乐观的因为你悲观也没用这倒是魏老师有什么读出吗
我觉得还是可以有一些因为刚才其实我想说的就是 Jeff Hinton 他所讲的并不是说他想阻止这个东西而是说我从他的想法里看出来我们应该 focus 在什么上面就是回应到刚才小可老师说我们应该是 focus 在两大集团拥有更强的 AI 能力呢还是我们阻止一些 AI 模型的一些
广泛传播所带来的危害我说个简单的比喻就是 Jeff Hinton 他说的核弹的配方这只是个比喻可能不那么精确其实核弹的配方在全世界早就流传但是为什么没有那么多人能挣出核弹或者脏弹来呢
是因为它的源头,也就是油 235 或者布 239,其实是受到严格控制的,如果这些东西也散落在全世界的话,那么那些核弹或者脏弹早就被做出来了,
但是 AI 这个东西不一样你甚至可以认为 AI 下载它不是一个简单的算法它还有它的模型就是所谓大模型也就是这个数据集合权重所以其实 Jeff Hinton 在那个文章里用了一个更技术化的抽象的词叫做开放权重
也就是说实际上是你把这个整个 AI 模型的核心底层开放给了全世界如果用我来类比的话有点像是不二三九可以让每个人脱手而得所以这个其实差异还是蛮大的那么这样子的一个东西如果说能够做一些控制比如说
我们现在所谓的道德审查或者规范某种意义上是外挂的也就是跟调用者跟模型之间建了一个防火墙但实际上如果有一些 regulation 或者一些限制能够把这样一些特定的参数的一种模式能够植入到模型的参数当中或者所谓的权重当中的话
那么其实它的作用还是会有的为什么呢因为你如果要让破解者或者想让作恶者去再去破解掉你的这个参数改变你的这个模型的话那么它很有可能需要用同等
的训练的算力才能够实现这我举个例子当然不一定有那么乐观也许很容易就被破解这就有点像是我们说加密货币如果你想攻破它你需要有网络同等的 51%的算力才能攻破它一样从这个角度来讲它是安全的所以我觉得在模型这个方面核心的一个想法就是我们可以在模型层面去做什么而不是要关心说
什么人得到了什么样的计算能力或者一个更大的模型我觉得这个角度其实是值得探讨的对我觉得这不能叫悲观吧相反可能是一种算法层面的乐观啊但不一定能实现对
然后另一个角度我想说的是刚才朱老师说的这个 idea 的 flow 这个我很同意但是其实还是回到刚才所谓做原子弹的这个模型 idea 的 flow 和真正把它写出来的这个算法的开源其实是有一个巨大的 gap
如果 DeepSeek 这次没有出就像朱老师说的我们大概都知道 OpenAI 做 reasoning model 怎么做出来但也许这还是个两三年三五年的事但是 DeepSeek 这么一炮出来这个实际上差异就巨大了而这里边我想说一个有意思的事就是 DeepSeek 的整个这套算法在技术上的改进有一个很强的地方就回到我们刚才说的人脑的三大特性之一就是低能耗
就是 DeepSeek 的这个改进我的理解从技术的角度来讲第一改进应该可能是朱老师刚才说的就是 reasoning model 的真正实现但是其次大家看 DeepSeek 论文的时候都会发现说其实它在算法层面在降低模型参数数量以及训练成本的这个层面其实是做出了巨大的改进
包括一个很有意思的一个事就是所谓 FP8 也就是说 DeepSeq 其实也很可能是世界上第一个使用了八位伏点数的算法来大幅度降低计算量和存储量
和训练成本的这么一个模型其实这种贡献我觉得从实战的角度来讲其实还是让整个的模型的可操作性可实践性还是跨越了巨大的一步所以我想说的是不管怎么做反正 deep seek 其实是让某种威胁提前了好几年来到这个世界上我觉得大概有点这个意思吧嗯
嗯嗯是对从这个角度来说是的因为正好解释一下就 open source 和 open weight 因为大家如果要比较准确的话其实现在所有的模型不管是 deep seek 的模型还是 meta 开放的那个 lama 的模型都叫 open weight 因为它基本上就是只有模型权重没有训练的数据因为你如果有训练数据逻辑上你可以从一个从零开始把这个模型浮现出来嗯
但基本上没有训练数据但没有训练数据的原因一般来说呢是因为大家训练数据的时候就是如果你说我这个训练数据是这些那么往往比如说纽约时报啊然后什么那些新闻网站或者某一个公司就会说哎呀你看我这 content 是我的你侵犯了我我要你赔钱对吧所以大家现在都不开放数据可以从某种角度来说它和 open source 的差别就有点像是我 open source 能够看到软件代码我可以编译成自己的可执行文件
openweight 相当是我直接给你一个我编译完的可执行文件但是 openweight 其实有另外一个点就是它有另外一个好处就是现在也是大家一直在做的就是不管是 Lama 的模型还是 DeepSeek 的模型还是其他的比如签问的模型其实我拿到了 openweight 之后我可以做些后续的 fine tuning 来让这个模型更适合我的使用场景的需要在这种情况下其实刚才说的那个
就 51%attack 的这种某种 God will 其实是比较难实现的因为从计算角度来说训练一个大模型大概来说就 95%左右的甚至更多的计算都是在前面的 pre-training 你可以认为 pre-training 其实是把模型对全世界所有可获得的信息做了一个平均它其实没有任何的立场也没有任何的偏好它只是我记住了这些我看到过这些然后后面的
不管是 SFT 也好还是 reinforcement learning 也好只是加上了一些人类的偏好或者说你应该怎么做刚才我们说的比如说我让他不回答这个不回答那个一般都是加在这个里边的所以如果我能够对 open weighted 模型做 fine tuning 的话我是可以通过 fine tuning 去掉这些的
没有那么难但是因为现在有很多喇嘛的模型大家在 fantune 之后就可以做刚才说的那些偏色情的或者偏擦边的那些任务
所以如果 openweight 的话没有那么乐观吧反正这可能就是这样就是 unstoppable 然后刚才威尔老师也提了很好的点就是 DeepSeq R1 我觉得也有很多非常亮眼的技术的进展就是它从工程和技术角度来说有非常多漂亮的工作不光是它 MOE 大小特别大 256 个 MOE 以至于它的模型其实是 671B 的
但是它真正激活的参数其实只有 37 币你可以想象中说它推力的成本就和一个 37 币模型是等价的当 request 足够多我平衡的比较好的时候
它的成本其实和 37 币的模型是一样的但是我的智能性是和 600 多币的模型是一样的这个是个非常牛的事情因为之前大家做的 MOE 基本上就是 8 个就是 Mistral 是 8 个 OpenAI 的 GBG4 是大概 16 个 MOE 的数目都很小它做 256 个 MOE 这么做的想法就很牛太厉害了它包括有很多的 MLA 的改进然后 Multitoken Production Duel Pipe 就是包括刚才威尔老师说的
FP8 的群领包括它后来 DeepSeq 在搞了一个开源中它把很多是什么 Flash MLADPP 然后有个 One More Thing 对 矩阵计算然后包括 DuoPipe 的流水线的并行其实都开源出来了其实确实也让大家复现它更容易了但总体来说整个社区会觉得哇 就是赛博普萨非常感谢
所有人都用它来改进了自己的算法和自己的模型降低了自己的成本
所以怎么说呢这种赛博菩萨的行为一定是会被广为流传的跟两位老师这个技术大牛或者说就是理科生聊呢总会觉得比较乐观但是我代表普通人表达一下悲观的观点其实如果周老师还记得的话其实两年前聊的时候我一直是非常非常悲观的我悲观的原因倒还挺简单的我主要是不相信就治理这个世界的人有那么高的眼界或者说他能够想到 Jeff Hinton 那一层
我对目前我们的政府们都没有什么信心一个原因呢就是首先它肯定是 unstoppable 从这个技术上来讲但是如果用魔法打费魔法的话你首先要能够站到一定的高度且你要能够真的是套用一句话就是人类共同体的这个角度来想但是我觉得目前其实是恰恰相反跟这个人类共同体是完全在一个相反的方向来走
我就举一个最简单的例子就是代表普通人就是现在大家最焦虑的事情我今天下午开的那个会有一个证券研究行业的领导就是他表达了一些观点我觉得还挺有意思他基本上说的就是说大家有没有想过证券研究行业它就是一个基于公共数据为基础的研究行业我们现在做的事情 50%的时间都是在网上搜索跟踪这些公司的公开数据然后把它放到一个定价模型里就完了
现在的这个情况呢大家其实用脚都可以想到这部分工作已经不用探机人来做了归基取代人类这基本上是大概率的事情那么问题呢就在于有没有准备好这件事情其实我的观点一直都是说技术是 unstoppable 的但是人类是没有准备好的且这个没有准备好的速度它是越来越慢的因为技术发展的越来越快但是人类这个准备的速度是越来越慢还有一些其他的原因
再从一个角度的讲如果你真的是从全世界的范围看其实大家是不会想到有一些国家它正在受到比较大的威胁实际上大家其实不知道啊就是有一些小国家他们目前的这个 cyber security 的问题是非常非常严重的且他们自己的国家或者自己的政府是没有能力对抗这些事情的
那么这个还是在互联网时代我还没说到 AI 呢在目前如果说从现在再往下走的话我们进入这个 AI 时代就可以预想到这些国家甚至都可能发生很动乱的情况也不是没有可能因为他们连互联网时代的这个 cyber security 的这种防卫自己的能力都没有
那么更别提再加速往前跑了因为像中美俄罗斯这样的大国它虽然有能力发展自己的技术它也有能力保护自己当然这个科技是他们引领出来的他们自己保护自己的能力也是绝对领先的但是这种保护自己的能力不是所有国家都有的
那么我们可以把它延伸到行业也是这样的不是所有的行业都有防疫的能力也不是所有的政府都准备好如果说那个基点真的是提前到来你有没有准备好大部分人该怎么办当然这个说的就有点有点悲观但是怎么说呢当然了就是未来会出现什么样的情况谁也不知道了目前我们也只能先看看后续情况发展如何了
如果说大家准备的话我觉得可能我说一个聪明一点的准备方式就等着周老师的光明做结尾了第一个我觉得上次聊是两年之前其实过去过了两年时间也不算短对吧我觉得世界也没有变得很差吧或者就算变差了也不是和 AI 有关系和 AI 的进展没什么关系 AI 的进展还是让世界变好其他一些乱七八糟的事情才会让世界变差
所以可以说从我们需要我的东西来说 AI 可能也不是最先需要我的嗯是现在吧然后说到这个怎么准备这个 AI 的时间的变化的话我其实因为我儿子 16 岁嗯我其实还有点小纠结嗯
因为我估计原本如果你三年前问我我会说你就读个 computer science 吧以后做个软件工程师对吧我也给你帮你找几个实习什么的就算你不是个特别厉害的软件工程师应该也是可以温饱吧大概是这样现在我觉得你现在 16 岁听起来就是个馊主意他读大学
对六年之后可能已经不太需要软件工程师了就像有点像 Anthropic 的那个创始人 Dahlio 不是说吗说大概一年之后 90%或者所有的代码都是 AI 写了人已经不用写了我觉得差不多可能就是我们自己现在写代码我现在大概一半的代码都是 AI 帮我写的吧大概是所以在这个时候应该怎么做我其实就分享一下最近我和我儿子聊的一些东西第一个就是说你学什么
我最近听了 Andrew Capaci 的有一个 podcast 忽然让我想明白了因为我最近有点烦就是说再让他学 computer science 这种好像以后应该不能靠他吃饭了但是呢 Andrew Capaci 正好也是一个类似的问题他的回答点亮了我就是他说你以后应该学什么呢应该还是学 math physics 和 computer science
为什么呢它能锻炼你 best thinking skill core 就是它能够锻炼你的思维能力大脑的肌肉就像今天我们讨论的 R1 就是 Deep Seek R1 就学这几门课就让他整体的思维能力和推理能力变强了那你作为人其实你也应该学这个
但是你肯定要换个视角就是你不是为了经济因素而去学习而是像而是把学习看作像去 gym 一样你去 gym 但是你 exercise 你锻炼的不是肌肉而是你的大脑对吧但如果一旦你说我去健身房我就不会纠结说我今天举铁 100 次是不是按键计费说给了我 5 块钱对吧还是没给我 5 块钱我就不纠结了我就把它当做锻炼然后把我的思维的肌肉变大了一点我就欢欣鼓舞其实就可以了
这可能是一个点吧就是说不要再想着说某些技能是不是能换钱很多以后大部分技能都不能换钱了但是你可以把认为很多技能提高你的 brain muscle 还是有帮助的第二个想法可能是说我也是听另外一个人说的我觉得也挺有道理可能我们以后的思维不再是一个工具人的思维
就像以前哲学家讲人的异化对吧就是在现代化过程当中所有的工具和分工让人异化了把人都变成工具人了但是在这种情况下其实如果你把自己也当做是个工具人的话那你当然就越来越担心了因为
AI 工具人又比你便宜又比你聪明成长也快可能去年还不太行今年就比你聪明了然后去年要十块钱今年要一毛钱你如果当工具人的话那 AI 很容易替代工具人所以可能应该更加有一个是 CEO 的思维你换成 CEO 你就不一样了你发现 AI 员工哎呀好聪明啊好便宜啊越来越聪明越来越便宜越来越快对吧但是你作为 CEO 可能要想起别的就是要做什么
哪些东西是我做了之后我觉得好的嗯
可能如果换一种角度不把自己当做一个体系当中的一个工具被别人使用因为你被别人使用的话大家会越来越选择使用 AI 了你如果选择说我是个 CEO 我下面的小弟猛降如云对吧然后越来越多越来越聪明然后越来越便宜是不是对 CEO 来说这是个好事情可能是的所以如果你把自己当作 CEO 的话未来还是会光明的好吧
好吧大概就是稍微说一下是这样对听起来挺光明的像这个周老师这两个点呢其实就是特朗普加上奥特曼的解决方案的结合体特朗普先废除教育部我觉得第一点就是其实将来没有必要分什么文理课甚至没有必要去上大学或者读学历也就是按照刚才周老师讲的第一点以训练自己的方式来让自己的智能更加进步就完了
然后第二个就是 UBI 嘛就奥特曼曾经说的所以其实当老板的前提还是大家基本生活都已经有保障了挣钱不是你一个要考虑的事情那么这个创新能力自然会发挥出来这么一想他们俩好像还或许吧还挺有用的挺配合是吧魏老师呢最后有啥补充我觉得魏老师应该比较悲观吧还是比较乐观嗯
可能又悲观又乐观就是刚才说的话题啊跟人类社会相关的话题我觉得是相对而言还是比较悲观的也就是说刚才我说的那些内容当然其实反过来也可以认为是乐观反正你阻止不了嘛那你就学会跟他共生对我觉得这个还好我两位的意见我都很同意对
然后我还是回到我更关心的这种终极理性的这种话题刚才我所说到那种自我认知自我实现或者循环的这种 AI 也就是说我们都知道这个所谓哥德尔不完全性定理其实是一种自制的一种逻辑然后所谓的图灵停机问题无非也就是构造一个能判定其他程序
会不会停机的这样子的一个程序所以我在想如果我们的 AI 就这么样发展下去的话我最终是不是可以做一个 AI 这个 AI 专门以一个 AI 的大模型作为输入
然后去判断这个大模型有什么可以改进的地方等到实现这一点的时候我们就把这个 AI 自己的大模型输入给它
让他来根据他所测得的一切反馈再去改进这个大模型他是会碰到一个极限的不可以改进的点呢还是他真的就能够把自己提升到一个终极的会出现构造出一个不可判定或者不可改进的一个极限呢其实这俩事应该是一样的换句话说到那个时候如果 AI 有这个能力的话我们就做这么一个事情
然后去看看最后出现什么结果结果就是 42 对 OK 只是可能这样不一定行因为这样有点太 free meal 了就是太免费的午餐了因为如果停机问题能判定的话所有的定理都容易被证明这就是我想说的因为停机问题如果得到解答所有的定理都被证明没有 free meal 的话所以停机问题就是得不到解答
所以可能我们不一定有那么容易的东西但是可能你真的给 AI 模型一个粒子加速器让它不断在那做实验我觉得很可能物理的突破就近在眼前了对其实我想说的就是这一点人类其实就是看着自己成长起来的所以 AI 的模型输入给自己它必然不能解决停机问题那么
它必然不能解决停机问题的那个极限在哪里就相当于我们是不是就生成了一个戈德尔数然后就放在那里了也就是说最终它判定不了那么它会得到什么结果就像图灵停机问题那样它是不是就死循环了然后耗尽了全世界一切的能量最后算不出结果来我觉得这是一个很有意思的思想实验
对对我觉得今天讨论实在是太精彩了我决定一刀都不剪完整的放出来两个小时我觉得这个才是文理两块花的特色我觉得朱老师以后要多来我觉得你每次来基本上我都插不上话我就听你们两个在这个脑力激荡就已经非常非常享受了而且整个过程中我自己是会学到很多东西了
那么今天我们这个梁老师的讨论就到这里那么也非常感谢周老师和 Will 老师我觉得后面如果是按照这个趋势发展的话我们请周老师再回来的这个机会我感觉会多得很但是我也希望每一次呢都会这么深入的讨论也希望大家能够花时间把这个完整两个小时都听一听会有很多很多的收获的好
好呀那我们今天这期就录到这里好的好的谢谢朱老师谢谢小胖谢谢小胖老师谢谢欧阳老师好呀那我们下期再见谢谢大家拜拜拜拜