We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

#134. 大模型

2025/3/9

牛油果烤面包

AI Chapters Transcript

Chapters

本节讲述了 Mengdi 从支持向量机到强化学习，再到全情投入大模型研究的职业经历，以及她在不同阶段的研究内容和心得。

Mengdi 的博士研究方向为电子工程与计算机科学（EECS）。
她早期研究集中在算法，包括随机算法及其加速。
在大模型兴起之前，她专注于强化学习，在 DeepMind 积累了丰富的经验。
ChatGPT 的出现促使她的团队转向大模型研究，并在一年内完成了转型。

Shownotes Transcript

大语言模型是什么如何评价 DeepSeek 这一出圈的现象及表现大语言模型的对立能力是怎么回事本期节目我们有幸请到了大语言模型的专家孟迪来和我们聊一聊大语言模型的发展它肯定有很多技术上的创新但是你要说它的特别本质的东西其实是大力出行前什么时候 AI 可以帮我们创造出新的学科纠差学科的知识吗

我不知道,好像 AI 已經要把所有學科都給滅絕了。大家好,我是斯特亞特。我是 Cat。我是 Windy。今天我們有幸請到了大模型的專家孟迪來到我們節目,來給大家聊一聊這個大模型的事。大家好,對。

孟迪是怎么转做这个呢这个蛋模型了吗我我 PhD 就是就是 EECS 的只不过就是我读 PhD 的时候那时候机器学习还比较早期但是上课讲的都是 support vector machines 支持下量机古早古早可持了呢但是一直做的是就是算法这方面吧会做这种 randomize 的 algorithms 随机算法然后然后各种算法角度的加速

然后那个我自己做科研的时候然后也是说从比较基础的这个算法包括从一些甚至是它的这个复杂度啊等等开始出发然后来越做越 AI 越做越 AI 然后这个领域在发展嘛所以现在这个就是可能也没有学科没有划分的那么清晰了吧我觉得 AI 学科本来也是就是包括计算机啊包括信息论啊然后电子啊然后算法啊这些都融合在一起

那最开始这个叫什么大模型叫 LLM Large Language Model 出来的时候那个时候你在做哪方面的内容大模型刚出来是 21 年的 11 月份

而延时月是 ChadGPT 出了 ChadGPT 对那个之前其实大模型并没有单独成一个学科才它出来的时候我还没做大模型现在出来的时候我们一直在做强化学习了你做强化学习的我们需要聘一下我们节目曾经有过一期做强化学习的节目大家可以去看你最开始做强化学习出身的是吧对因为就是我们最最开始是做随机系统和随机算法

然后用这个动力系统的方法来研究系统或者研究怎么样对一个系统或者一个未知的过程进行建模并且去找最优解所有这些最早的源头其实是这个 applied math 了应用数学但是这个和强化学习它的这个方法论上是一致的所以我们其实在那个大模型之前的两三年一直在做强化学习

包括我在我自己第一次就是 sabbatical 学数架的时候当时就是在那个 google deep mind 那时候还不是 google 就是当时的没有融进还不是 google 的时候你就在 deep mind 对然后当时就是在他有一个 team 叫 foundation team 就是研究怎么样就是从这个基础算法角度来加速强化学习

所以在大模型之前我们的积累其实都是说从更基础的算法和强化学习的角度来积累对于什么样的系统怎么样去对它的 inductive bias 进行建模然后什么样的算法是更合适的然后这个算法它能够怎么样把算法的不管是样本复杂度还是算法本身的效率给推到极限所以这个之前有很长时间的非大模型但是

纯粹强化学习的研究所以那个时候强化学习也都已经上了一些深度神经网络这些东西已经上了一套东西了什么 attention 什么都已经上了是吧那当然强化学习变成 deep reinforcement learning 是 2015 年 2015 年就是说 D1 的一系列工作是用强化学习去打各种那个 Atari games 那是开始后来就是 AlphaGo AlphaZero 一系列等等所以到了

2021 年的时候强化学习已经很成熟了基本上那些前面一代的那些那些技术像什么 transform 那些基本上在强化学习上都已经用上了吗还是对都已经用上了只不过强化学习它本身它本身是个非常基础的算法所以就是它取决于是强化学习做大模型还是做机器人还是用强化学习去做什么蛋白质折叠吧就取决于这个不同的应用场景这个算法的形态可能会差别非常大

哦是啊所以当你听说 Chad G.B.出来以后大家全世界都很震动啊你当时的感觉是什么我其实反应比较慢然后那个时候是我家正好老二快要出生然后大家虽然都在讨论这个事情但是我当时忙着带孩子

然后都还是处于听二手和三手因为我当时自己并没有在一个非常非常 active 做科研的状态反应过来之后已经过两三个月感觉已经慢了两三个月还不就已经算慢了吗两三个月很慢了对那反应过来之后这个有什么样的思考有什么对你们这个科研有什么变化吗

科研变化我觉得在之后的大概一年之内吧科研有一个巨大的变化然后我们组当时其实就强化学习是一个包括就是另外一个突破是一个扩散模型 diffusion models 然后就是有很多的这个一些算法上的突破可以让一些本来不能完成的 task 被完成了然后能更加 scalable

所以我们组当时就是说我们组本来可能是比如 70% 80%是更从这个理论出发然后 20% 30%是做一些这个比如 AI for science 的应用等等但是我们现在就是完全是 all in 大模型或者 all in 这个你把 diffusion 也算上吧因为这些模型反正 multi modality 都能连在一起

所以我们现在是完全是这个就是 all in 现在的这个大模型的这个状态然后这样的转型其实也就花了一年多一点的时间

我想想,我们节目好像真的没有介绍过大模型,我们也不懂,能不能给我们稍微的科普一下,最开始的时候 HP 出来的时候,那个时候大模型是一个怎么样的一个东西?我们说大语言模型嘛。对,大语言模型,Large Language Model。它叫 Large Language Model,因为它本来是 Language Model,对吧,它本来叫 Language Model。什么叫 Language Model 啊,这件事我也不是很懂。

Language model 就是说所有处理自然语言的它本来这个学科叫 Natural Language Processing 然后呢自然语言处理自然语言处理里面包含一些比如简单的任务就是不同语言之间的翻译或者说能不能把这个语言里面的一些不管是词还是意象还是句子投射到一个这个 Embedding space 投射到一个这个向量空间

然后呢除了翻译之外还有就是给我一句话我能不能做 auto completion 我能不能写一半然后把这句话给填完整或者说给一句话我能不能做它的情感分析它是正面还是负面还是它包含了一些隐藏的含义还有就是类似咱们上考考考的时候做那种弯形填空弯形填空其实相当于是一种大模型的训练方式了就是说把一部分这个

词句和 token 给 mask 给盖住然后让模型去学所以这些其实都是语言模型本来的很基础的 task 就是同一个模型可以把前面说的一些所有事情都可以做掉吗以前其实不是这里面以前就是传统的 natural language processing 里面有很多的任务就包含我们刚才说的任务但在大模型出来以前可能每个任务适合每个任务的模型不一样

比如更早的一个不是更早吧其实现在还存在了一个模型就是 Bert 系列的模型它可能就不是一个词一个词的往后输入往后输出而是说做完形填空嘛我随机的删掉一些词然后把这些词再补去然后用这种方式做设定

然后甚至还有一个更原始的流派觉得一定要从这个语言本身来出发要从语言的理解对然后来来理解语言而不能用这种 end to end 的这种机器学习的方式所以就是大模型出来之后其实传统的 NLP 可以说已经不存在了就举个例子吧比如就是我们组我们组完全不做 NLP 但是我们想就是做这个前沿的大模型的研究的话你其实 pick up 就是一个

几个月到一年的一个 curve 但是传统 NLP 里面以前大家可能试了 100 条路对吧最后大模型交路出来之后以前的 99 条路其实已经没有意义了或者说在研究的人已经很少了

然后甚至就是说在这个传统的这个 NLP 的大会上可能这个传统语言派的学者就会上来抨击说现在做 large language model 做大语言模型的研究已经不是语言模型的研究他们试图把自己的一些原教旨的一些研究方式和现在

大语言模型的研究方式完全区别开因为确实就是研究的人也不一样了研究的问题也不一样了所有的事情都不一样了唯一相同的就是它确实还是 language model 了但是基本上内容和 skillset 和研究的问题

和他的资源的级别都会差别巨大了所以是一个行业大洗牌的感觉对我一直非常糊涂的问题就是这个语言模型大家一起说话叫 LMLM 语言模型这语言模型为啥我啥事都能做呢我问他这什么问题都能回答呢这件事情我一直觉得特别的困惑

所以看来你们业界人也有这样的困惑是吗我觉得在最开始就是 ChatGPT Moment 就是说本来语言模型能做的一些事情都就很基础嘛然后它突然一下子突破了这个临界点之后好像你能问他很多事我觉得这就是当时的 ChatGPT Moment 对吧同时给全世界都带来了这个巨大的震动但为什么你们怎么解释说一个语言模型可以问一些

有很多的语义的东西,我也可以问的吧,我要问他一个问题,他也可以回答。这为什么还是个语言模型呢?为什么它还叫语言模型,或者说它还是语言的一部分吗?还是说我们的思维就都是语言的哲学部分吗?这是一个好问题,我觉得可能至少我觉得一个简单理解,可能认为人类的大部分知识都是用语言的形式来保存的吧。

所以说当你把语言模型做到足够的包容足够强大之后他已经很大程度上掌握了绝大部分的知识当然就是说除了语言模型之外其实也有很多一些其他的工作比如有的组他们可能在这个视频模型上发现视频模型上也能够做推理甚至是视频模型也能够一定程度上反映人的思维

所以就是同时我们现在还有包括就是做这个 world lab 啊做各种各样世界 formation 或者视觉 formation model 这样各种各样的工作吧然后这些工作很大程度上也代表了就是说在语言之外人们还是就是可是 AI 科学家还是希望去找到语言之外的那些理解世界的方式和

把人类的思想用其他的媒介来重现那么它未来的最终的 AI 肯定不是只有语言或者只有 vision 肯定是把这些不同的媒介和人的 observations 都非常紧密地结合在一起的一个 multimodality 的一个思维方式那就是多模态的意思了吧好像说人类的语言确实会影响思考方式的

没错没错是有点哲学方面是吧原原学家好像有争议了不是哲学这是个科学来的这是能证明的这是能证明这是科学其实比如就是我有一个一个朋友吧他是一个怎么说呢他是一个做代数结构的一个大家一个大数学家但是他他可能他他并不做大模型啊但他跟我讲就是说他本身是一个

华人但是他在这个美国的高校嘛在那个做这个纯数学的研究但是他为了把数学做好他需要去学法语他说同样一个数学证明首先用中文是没法写的你写不出来你用英文你可以写但是如果你用法语写的话他的逻辑链就特别清楚他所有的思维线都是线形的一条串下来非常优美他看一个法语的数学证明就赏心悦目看英语的反正就很头疼

然后其他有些语言根本写不了所以就是

语言对于思维的差别会非常大然后同样是比如我们用大模型做数学证明或者数学推理就是你同样的一个数学的解题方式你可以写的很繁琐也可以写的特别简单你有不同的写法那么不是每一种写法都适合用模型去训练的模型能训练的其实或者模型能够通过训练找到那个解法其实是一个一定程度上是一个最容易表达的一个 flow of thoughts 就一个思想的 flow

这个话题很好,我们后面肯定要聊到孟迪最近的一些研究进展。刚才孟迪说的很有意思,就是不仅大语言模型,不仅语言模型可以出现一些非语言的一些知识,光用视频训练也可以啊,这个很有意思啊,用什么媒介出来都可以训练出一些这个,

其实智能的程度其实不一样的我其实记得我就是很小的时候读过一篇论文就是讲动物它也是会思考的只不过动物的思考完全是在视觉层面它直接就是从它看到的很多针来做决定或者把它的很多针怎么样 tokenize 当然以前那个论文里没有用这个语言来写了但是很大程度上就是动物它没有语言但是它很大程度上是可以通过视觉来进行思考

那么他有自己的思考模型就是来自于他视觉系统外接出来我们回到这个 ChatGPT 啊所以 ChatGP 出来算是第一代的这个大语言模型是吗算是那个时候这个概念才会刚立住是吗我不确定 ChatGP 之前在他们这个 NLP 的这个相对比较窄的领域里面有没有这个大语言模型的这个概念但是他破圈

肯定是差 GBT moment 它不是一个子领域了它本来是整个 AI 的一个很具体的一个子领域它现在 take over 了 AI 并且把 AI 从本来一个单一的学科它甚至把人工智能已经推到了就是超越了计算机超过人工智能而是跟各个学科紧密结合的一个更大的潮流

确实是出圈了,那从技术上来说,Chad GPT 是它的技术革命性在什么地方呢?它的技术革命性就是大力出奇迹。就是没有在技术上有什么特别的创新吗?它肯定有很多技术上的创新,但是你要说它的特别本质的东西其实是大力出奇迹。它是怎么大力反了?

就是这种 auto aggressive model 在 XGB 之前可能有一些小的比如什么几百个 M 当时就已经很大了这可能是可能一个公司的一个研究组或者一个大学的一个研究所大家用所有资源能训练出来一个最大的模型可能大概这个级别但是从来没有人说我能够集齐整个一个大公司的力量

头一半的钱来训练这个模型因为以前你每一个科研项目它能达到总有个上界它的上界就是它在的这个 org 或者它在的这个小组虽然说就是在之前就是你肯定是有少数人看到了发现就是如果你

不断地把它 skill up 那么它的能力是会上涨甚至是会这种节约式的上涨但是在就是 open AI 真的做到这件事之前就是对于其他所有的不管是公司还是大学来讲 Chai GPT 以前的这种语言模型只是他们很多项目之一所以没有一个没有任何一个力量真正的

把它做到了足够大和足够的规模化以及达到了这个接月式的一个亮面到质边的过程所以它的规模更大是怎么做到的是它有更大的更多钱吗就是它有更多的这个叫什么输入吗还是还有训练级吗就是它更大是怎么做到的好几点嘛有一是模型本身更大参数量更大同时这个数据量也更大

然后我需要的计算量你可以简单的理解成是参数的数据参数量乘以数据集是我需要的计算量参数量乘以数据集才是它的计算量对一般来讲就是说参数量和数据集应该是一块线性长的因为我如果数据不变的话我弄一个特别大的模型它也没有那么多信息可以学对吧

所以参数量大的话那么需要从更多的数据里面学这个数据可能包含所有互联网上能够扒到的信息然后大厂肯定用了各种就是他们有没有用这些本来不应该用的这个比如书籍里的信息啊这个也有可能对吧然后这些数据还有就是人和人之间交流的信息邮件里的信息等等等等的然后现在基本上就是好找到的数据应该已经都被训练进去了

就基本上全世界基本上比较容易在网上扒到的数据基本上就都已经被训到大模型里去了

对肯定是的那就是所以 ChatGP 最开始就是说他做了一个之前没有做的事情就是他要让一个参数特别他想要训练一个参数特别多的模型用他能找到的所有的训练集把它训出来看能训到出什么程度来对然后就训出了一个一个不可思议的结果对一般来讲他为了做这个事情就有一个很重要的概念叫 scaling law 嘛

比如说我先训练一个 10mm 的模型一个 100mm 的模型 500mm 的模型你可以看它的能力的增强画了这条曲线对吧那么我一旦这条曲线我画出来了我甚至可以拟合一个公式进去一个简单的公式

那么我就可以预测如果我再加 10 倍再加 100 倍那么能达到什么样的更好的能力这样大家就可以去 pitch 投资人说你看我现在需要更多的算力来把它的模型能力再推到更往前一个阶段所以 OpenAI 当时就是看到了它能不停的能够出到更好的结果不停的出到更好的结果所以就有投资人愿意给它投钱进去对他们已经有了这个 scaling law 并且能够就是

extrapolate 到还没有训练出来的模型能够看到这个模型更大数据更多效果其实会更好那么这个参数我们经常说什么 20G 多少 G 就是这个 G 就是说有多少个参数的意思是吗不是多少 G 比如现在最大的模型大概是几百 B 几百 B 大概就是

b 是十亿吗千亿几千亿个就是几千亿个参数的意思是吧 b 就是一个 billion 的意思是吗 billion 的意思对但是 openai 最大的模型是不是到吹链有可能到 openai 没有说这些事情就也可能到万亿个参数是吧也有可能对一个参数是个什么意思一个参数就是一个整数吗还是一个数吗就是一个数对

一个你神经网络里面有很多这个 neuron 然后每个 neuron 每个节点上的参数对每个神经元对应了一些参数对就每个神经元的每一个参数它就会算一个然后全加起来有多少数就是一个准确来讲应该是神经元之间的连接吧你每个连接有一个参数相当于是整个这个图的边的数量但是也有数量那个也有参数吧应该边有一个参数对

基本上就是大脑里面可纳尔逊的数量就是说有多少个连接就相当于你把弹幕形看成一个真正把它看成一个大脑它有多少个连接我们认为那就是突出不是突出是吧 SNAPS 叫啥神经元多少个神经元吗不对神经元还有之间那个叫 SNAPS 吗

人竞突出相当于有多少个点连起来就是那个模型有多大对有多少根线

在 GPT 出来过后的两三年,所有的创新都在于如何把模型变得更大吗?还是有什么别的趋势在里面?模型变得更大是,刚开始的时候,这些训练是会分预训练,就是 Pre-training 和后训练,就是 Post-training。

然后最开始的时候说这个参数变得更大的 skating up 的意义更多是在预训练上什么叫预训练预训练就是我把各种各样能找到的数据以一个统一的方式训练到这个模型里面这时候并没有细分我需要这个模型达到一些特别具体的要求或者说这个模型需要满足

满足特就在特定的任务上表现好所以预训练一般会来生成一个基础模型一个 base model 那这模型不是需要更大呃最开始的 skilling up 更多的讲的是预训练层面然后呢在后训练就 post training 层面这个模型可能会需要为了能够更好的跟人聊天需要做很多的各种意义上的微调然后这个是以前意义上的这个 post training

但是传统意义上的这个预训练其实很大程度上已经到头了,所以现在就是比如今年我们说预训练的时候,可能它已经不像是去年或者前年的预训练,只是一个狭窄意义上的不断地把数量叠上去,现在的预训练其实包含了更多的东西,比如包含了强化学习,包含了推理等等吧,

但是就是在最开始意义上的预训练其实是比较单纯的去收集更多的各种各样的文本数据然后把它一些信息给提炼到模型里面所以比如说有相当长一段时间就大家比赛这个参数数量对吧多少多少币吧什么 8 币 20 币 40 币之类的那个时候就是说它实际上是预训练的数据更多这样的话它的预训练出来的模型更大了是这样一个比赛吗

或者说数据那么多但是你模型更大的话它的效果就更好然后一般来讲你的成本是模型参数大小的平方

模型参数大小的平方就会更大那肯定我们现在知道的后来又出现了一些变化对吧突然像在几个月前好像不是几个月前一个多月前突然大家都在都在说 deep seek 这件事的出了之后的大家又开始说我们几个月之前就有了什么之类的这件事是怎么回事呢

我们从 DeepSeek 开始讲吧当你听说 DeepSeek 的时候你是一个什么感觉是一个什么感受吗 DeepSeek 一直都很出名不是去年才火的就是 DeepSeek 的那个比如 DeepSeek V2 应该是去年年初还是前年年底具体时间我忘了去年年初就出来了 DeepSeek 做这个已经很长时间了 DeepSeek 的模型比如我们做研究的时候也都会去评测

他的论文学术界和技术界大家都会看所以我觉得做大模型的人没有人会说不知道 DeepSeek 我在这很早以前就会知道 DeepSeek 对他一直是一个比较重要的一个玩家他们的论文读起来他们有什么比如说在出圈前他们的论文读起来有什么特别之处吗

就比如它提高效率的一个技术叫那个就是 Latent Attention 吧相当于就是用了一个这种 low rank 就低质的一个数学上的分解然后提高了整个这个 architecture 这个 Attention 的一些这个运行的效率其实这个是应该是 V2 版本就有的然后呢这个也是它后来整个效率提高里面的一个最重要的几个技术突破之一吧

DeepSeek 比较有意思的点在于 DeepSeek 非常注重从 Machine Learning System 角度来提高模型的训练以及 Influence 的效率这个很大程度上来源于 DeepSeek 本来是一个高频量化的团队

就是如何提高任何一个 AI 算法的推理效率然后把算法的 latency 降低这个其实是高频算法教育里面最重要的事情所以很大程度上 DeepSeek 他们天然有基因来做这个事然后相比来讲 OpenAI 因为他们永远想做第一个到 AGI 的公司并且他们有足够的资源也没有

在那个算力上被卡脖子所以他们可能就是相对于就是关注效率来讲他们的优先级肯定是先想怎么样大力出击把事情做上去再说但是 DeepSeek 因为相对来讲资源没有那么充沛所以 DeepSeek 一上来就同时在关注效率所以这件就是从效率的提升角度来讲 DeepSeek 是第一个做到的公司的话其实非常合理

那他们出圈之后被提到的几件事是一个是他们的他们推理需要的资源少

另外一个他们出了这个叫什么 RE 是吧就是说号称是有推理能力的虽然后来 OpenAI 说他们也有只不过他们没有放出来只不过他们没有把推理过程写出来那这两件事情那个出现之后你们业内人士是怎么看待的首先就是这里就有一个中文上含糊的点推理英文上有两个词嘛一个是说我调用这个模型它会不会不快就是 Inference

然后另外一个推理讲的是 reasoning 就是他能不能就是做一系列的思维上面的推导然后最终解决一个更复杂的问题首先就是先做出来这个这个 reasoning 的肯定是 open AI 了是是 O1 先做出来 reasoning 并不是 deep seek 但 deep seek 确实很快就 catch up 了并且用少了多的资源就达到了和这个 O1 甚至 O3 差不多的水平

所以他从 reasoning 的层面其实应该你可以理解成就是说在 reasoning 的这些大厂的 player 里面他一定程度上就是打破了 open AI 的垄断吧

但是 reasoning 本质上其实就是一个强化学习算法然后强化学习在大模型上不管是做 alignment 就是对齐还是做 reasoning 其实在学术界一直很早就有很多的工作只不过学术界能做的模型都非常小就是这种 7B 啊或者 32B 的这些小模型所以我觉得就是从特别本质的方法上来讲这里没有什么是大家不知道的事情

或者说在很多的一些 Toy Problem 上其实都有各种各样的重现但是你把它真的 scale 到这个几百币的模型并且把整个的事情做完整那么确实我觉得最先做到的是 OpenAI 然后是 DeepScan

像你这么说,这件事情是一个业内大家都知道的方向那为什么 OpenAI 突然就做成功了呢?还是说别人就都没有成功呢?他们有什么独门秘技吗?还是说他们那为什么这个事情是 OpenAI 先做出来的呢?我觉得在那个本质的方法论上其实没有特别多的未知

但这里面有很多具体技术训练甚至是工程上的细节需要摸索然后更重要一点就是说你做这种大的模型尤其是这种 reasoning models 你需要很强很深厚的数据上的积累然后数据上面的积累就我怎么收集数据和我怎么训练模型这两件事情又需要在一起做甚至是迭代式的来做那我觉得在这个层面上 open AI 的积累肯定是远远大于 deep seek

就是怎么出大力的这件事情,OpenAI 很有工程的经验。就不光是工程,还是数据收集,标数据是最最重要的事情。那可以给我们大概的科普一下为什么推理,reasoning 这件事情是靠这个强化学习做出来的吗?做推理,做 reasoning 的意思就是说,比如解数学题嘛,

我不是说我看到一道数学题就直接蹦出一个答案而是我要解这个数学题我可能有一步两步三步我可能会要调用一些引理或者说我这里什么用一下什么欧拉不等式我那里用一下什么什么一个什么函数啊这些我已经都忘了说实话所以呢就是你做数学题是需要一步一步的来来做一个形式化的一个推导

那么这件事情它必须让这个模型能够也一步一步的把问题解出来那么一步一步的解一个问题其实很大程度上就像比如很像是走一个迷宫或者说很像是就是我在打一个游戏或者说我在下棋我需要有个策略我需要知道在这个时候该干什么那个时候该干什么

所以怎么样在一个迷宫里面找到一条路或者说在一个复杂游戏环境里面找到一个策略或者说我找到一个从题目到数学题的解中间的这个推理的路径这些本质上一个问题它都是强化学习能解决的问题

强化学习训练出来的推理能力是一个可以普遍化的一个比如说他训练了一些他用了很多数学题我们小学时候初中做的证明题训练出来初中的证明题的能力它可以幻化成我也可以推理一些我日常的事情吗还是说它还是局限的

对非常好我觉得答案就是同时是 yes 和 no 吧就是他肯定有泛化的能力那比如先从 yes 讲起

首先就是说我要做这个强化学习那么我需要这个模型它本身能够解一些简单的数学题就比如说我知道 1 加 1 等于 2 这是为什么呢这是因为我最终是需要我需要找到一条路径一个推理的路径但里面的每一条每一个转弯或者每一小步至少这个基础模型需要知道这一小步怎么走那么它当它知道很多小步怎么走之后强化学习能够做到的事情是通过这个

就是这种长练上面的训练把这个很多本来零散的小步和零散的技巧给串起来最终找到一个整体的这个搜索策略所以这是强化学习做的所以从这个角度来讲的话强化学习本来就是一个从简单到难的泛化过程它就是把一些简单的经验和简单的知识把它们能够组合成一个更复杂的一个 problem solving 的方法

所以一定程度上强化学习就是在做泛化但是就是它泛化能到什么程度其实有很多很多的 question marks 吧比如举一个例子就是说我们其实先不说强化学习你可以先问就是大模型本身有没有泛化能力然后比如举一个例子的话就是说首先大模型现在这个最强的模型它一定程度上是能够

破解人给他的一些暗号和这个密语的就比如就是我想跟他说一句话但是我总是把一些关键词转化成一些一些其他的暗号藏头诗这种是吧不光是我没有告诉他是藏头诗或者说我永远把橘子说成狗之类的之类的之类的吧就如果我给他很多这种有密语的这些话这些 prompt 的话这个模型是能够学能够学会这一点的

然后这个其实是模型安全性的一个重要问题就是说如果你不断地用一个密钥跟它交流的话它会学会你的暗号并且它会通过暗号的方式把不应该泄露的信息泄露出去那么为什么要说它学暗号是什么意思呢它学暗号的意思就是说当你跟它不断地说我本来要说苹果和橘子对吧但我说的是苹果和狗但是我如果不断跟它强调的话它其实可能会把本来苹果和橘子之间的那个映射给联系到苹果和狗上

那么它造成的结果是什么造成的结果就是它可以通过人们给它的信息把它学到的一些事物和事物之间的关联也就是一些 attention 很大程度上它可以把这个 attention 变成不仅仅是 A 和 B 之间而是把 A 和 B 之间的一个关系把这个数学运算本身给抽象出来所以就是我可能可以把苹果和橘子的关系变成苹果和狗的关系通过这个密语的方式

所以那为什么举这个例子呢这个例子想说明就是说

大模型它确实能够学到事物间的关系并且事物间的这个关系或者说这个可计算的关系它是能够从它的这个 attention 里面提取出来的这也是为什么就是当我们给大模型很多这个就是 demonstration 吧我给大模型很多例子之后它能够根据我看到给它的那些例子把例子里面的潜在的逻辑关系学出来来举一反三这是为什么 in context learning

在大模型里面是能用的你可以给它很多例子它就可以按照这些例子帮你写邮件或者帮你完成一些 workflow 等等这个其实也是现在做智能体做 agents 的一个重要技巧所以说大模型就不是完全的被动它还是有一定能力可以你这个例子是想证明它还是有一定的泛化能力我想证明它有一定的泛化能力

继续说就是说那这个泛化能力道能不能抢呢比如说解数学题吧就是解数学题如果我只给他一些 examples 而且没有做训练的话可能效果不会特别好因为数学题还是比较难嘛但是我解数学题的话比如我现在给他一个数学题是说我有一个二次两个二次曲线吧然后中间两个二次曲线中间有一个有一个叫什么有个 intersection 的区间让他去算中间这个区间的面积就比如给他这样一道数学题

那么如果我先给了他第一道题然后我把答案和解法告他了那么现在我给他另外一道题但我会把第一道题里面这些曲线的这个位置啊里面一些参数改一改这个时候会发生什么呢这个模型是能够学会那道原题里面的方法的这些解题方法的那么他看到第二道题之后他发现那个数变了他会把变的那个数

插到原题的那个解法上面也就是原题里面可能是 3 我变成 7 之后它还是能做对它相当于它的这个思维链你可以认为它内部有一个电路只不过我把 3 改成了 7 但它这个计算还是继续下去了它又能找到正确的答案所以从某种意义上来讲它是有一定的抽象能力并且它能够把抽象的一些思维逻辑进行举一反算并且能够带入一些不同的条件所以从这个程度上大模型是有泛化能力的

那这个为什么是我听这个例子为什么它是一个泛化的能力为什么它不是一个 pattern recognition 它为什么不是就一个 pattern 比对一下它为什么是个泛化能力呢首先就是 pattern recognition 你也可以理解成是泛化能力

但是就是他 pattern recognition 是这个机器学习里面一个更早的概念了就是他大模型确实没有在操作层面在 procedure 操作层面去做 pattern recognition 但我觉得你其实也不妨可以这么理解

我觉得它本质上只是说我在什么程度抽象了这个 pattern 我是在一个事物本身的层次还是在语言层次还是在一个数学推理的层次它其实都是 pattern 你可以理解成这个模型其实都是把我看到的各种语言各种数学各种科学变成了不同级别的 pattern 那么当我有个新的问题的时候我真正 activate 了就是我真正哪个兔兔被激发了那么我激发的

可能我激发了一个计算器或者我激发了一个什么思维方式你可以认为这个激发的过程很像是我 match 到了本来数据里的某一个 part 这个有道理就是说它是个大语言模模型但是它出的结果好像是它可以模式识别也还是识别出这个模式说明了它还是学习出了这种一个模式识别的能力是吧大概是是的包括就是有一些我们有一些研究吧然后就是

希望去在一个大模型比如解数学题或者回答问题或者干什么都可以啊就是在他做不同 task 的时候去打开整个这个模型看哪些神经元被激发了甚至是能够看到比如什么第 17 层的第几个神经元就对应了某一个特别简单的数学逻辑

这些有一些很简单或者说很明显的一些逻辑或者一些意象你是能够找到它对应哪个 activation 的当然就是特别复杂的意象就很难找到了因为复杂意象可能就是它对应的这个神经元调动的会非常非常多你不容易很明确的把这个复杂意象给提取出来但是也有一些研究所他们试图通过在这个大语言模型的网络里面去加一层特别特别宽的一层

希望中间插进去一个特别宽的一层然后用吸收的方式希望这个特别宽的一层里面我每次只激发非常少的神经元希望用这个方式去提取更复杂的意象或者更复杂的这个不管是语言上的描述还是更复杂的一些数学或者推理逻辑就是他们想要让他们归纳出来更抽象的知识把牛顿三定御归纳出来

就是现在模型不一定归纳出来了更抽象的知识但是你希望能够有一个更就是能够把它打开看的方式相当于去做一个外科手术我希望能打开看看它哪些东西抽象出来哪些东西没抽象出来

有意思我们回到刚才的问题是说它的局限性是啥它确实是有泛化的能力的但是它的泛化的局限性刚才肯定你既然说 yes or no 还有 no 的一部分对吧对它有局限性就是说它的泛化的层面因为如果是数学是个很好的例子数学你永远可以从小学到高中然后越来越抽象

所以如果是举数学例子的话比如就同样的是说我算两个曲线之间它交叉的面积如果这两个曲线都是二次曲线可能我怎么改怎么改这个曲线的数它都能算对但是如果突然把二次改成三次的话它可能要么没见过或者说它之前见到的东西比较少

他可能就做不对了而且他可能会试图去套用本来解二次曲线的那个解法来去解这个三次这我们人类也都这样啊我们也不会啊而且这个你可以认为这是一种 lack of 泛化性但是这个这个东西其实有好处

就是说当他看到三次函数也会认为是二次的话这其实是一种鲁莽性他在一些安全性的就比较注重安全的场景里面他其实是一个好的性质就是他能够发现你给我这个情况跟以前不一样那么他可以 auto correct 就是他会认为这个世界上只有二次的问题如果你给了我一个三次元函数的话那叫题就出错了但是这件事情可能可以让这个模型在某些情况下比较鲁莽

而不会被一些这个 attacker 通过改 prompt 的方式来影响所以这个和我们人类所谓的泛化性比较它是一个我们人类如果是学过二次函数我们看到一个三次函数我们就知道我们不会的吧这个它这个记忆学习它会硬来是吧硬套一下看看是不是出结果是吧对它会硬来但是在它硬来过程中如果你强行让它比如说

你先硬来一个十分钟实在不行的话你就自己给自己加一个 wait 或者加一个啊哈就如果你中间强行给他一些这种提示词的话在他总认不出来的时候加进去的话他可能就可以换一条轨道来重头想或者找一些其他的方式

所以就这个强化学习就跟我们 AI 这个走迷宫一样,他肯定是试试试试不行就换一个,那这个最终的局限性在于他没有真正的理解,他就会瞎试试吧,大概就是。

对就是比如现在解数学题有很多模型它可能解你让它试 30 次能对一次这其实还是一个重要的指标如果它试 30 次能对一次的话这说明我们会认为它还是知道怎么做这道题的那么这时候你可以通过一些额外的不管是强化学习的方式或者一些自动纠错的机制让它把 30 次对一次变成可能

十次对八次就这时候如果他还是有可能做到做对这道题的时候那么说明你可以通过一个相对简单的方式提高他的准确性但如果这个模型特别差他可能做他怎么做都做不对那这个时候其实是就不太可以救药了就是你一定要从一个比较强的 base model 出发那么他可以不断提高

那我们回到我们最开始的问题就是说他比如在数学里面训练的推理能力他有多大程度上可以泛化在比如说别的地方我们数学推理了一下我们在生活中也能推理一下这个这些问题吧我觉得就是除非这个生活中推理的问题他确实需要解数学就是确实有一些数学的层面吧那如果就是一个纯粹生活的一个就是比较

没有那么精确的推理的话我觉得数学上推理的能力至少现在没有看到很明显的就是从数学到一个比如人文学科的推理的这个繁华那么比如我们想做如果想做什么人文学科啊或心理学科啊等等的话那么最好是有这个学科专门的这种 reasoning data set 和 reasoning benchmark 然后并且在这个具体的学科上面进行强化学习的微调那么就可以提高这个具体领域的推理能力

那什么时候 AI 可以帮我们创造出新的学科纠差学科的知识吗我不知道,可能 AI 已经要把所有学科都给灭绝了

所以推理这件事情梦迪觉得在未来会向什么方向发展吗就是他已经走到头了吗还是说还有什么未来的更厉害的推理的方向吗就如果是在科学上或者在一些更复杂的事情上推理的话就是现在这些其他领域的推理的 bottle neck 实在在数据上因为我很多推理我需要最终有一个这个

golden answers 我需要知道答案对吧至少我需要知道问题和答案他们需要非常的 well defined 然后这时候才能让模型试图去找这个问题和答案之间的路径但是如果它不像数学这么清晰的话很有可能我不光需要问题和答案我还需要知道里面的推理路径

那么这样的数据就更让人来标注的话就更难吧所以我觉得就是怎么样把人的知识以一种特别简单的方式变成可以训练模型的数据我觉得这个会是很多具体领域的一个难点

然后更进一步是模型本身到底有没有对世界的理解足够抽象我觉得这是一个更深刻或者更哲学层面的问题我觉得现在其实还没有特别好的量化然后大家对大模型的理解也都都还在这个研究的阶段我觉得也有可能一件事情就是说

如果模型它没有那么深刻的抽象能力的话那么可能它所有的推理最终还是会受限于这个本身基础模型它对世界的抽象能力和理解能力那么你抽象到什么程度你的推理就只能到什么程度所以到那个时候的话可能就必须要回到预训练甚至是模型的基础架构本身再去试图更抽象的理解世界

看来未来一段时间的可能是我们把现在推理的这种方法再用在各个地方看看能用大力出个什么奇迹然后出不来我们再看这个基础模型是吧大概梦迪觉得未来是带着这个方向对我觉得是的对最近在 DeepSeek 出来之后我们学到一个我之前圈半人不知道的概念叫蒸馏叫蒸馏蒸馏是咋回事啊蒸馏是一个

也都没有多少年吧,但也存在了很长一段时间的概念。所以大模型出来之后,时间就静止了,几个月前就好像古代一样。没有,征流至少几年前了。征流就是我拿大模型的输入输出,我拿一个模型的输入输出去训练另外一个模型的输入输出。那为什么要这样做呢?为什么叫征流呢?

征流的意思一般来讲他是把从大的训练成小的所以他相当于一个取其精华的概念吧所以他叫征流就为什么就是精华呢首先为什么是精华就是我首先你知道一个模型我给了输入之后他一个 token 一个 token 的输出对吧但他每次真正的输出不是一个 token 他输出的是一个 logit 他输出的是所有 token 的概率分布

只不过它生成的时候我在里面再采样采出了一个 token 的序列所以当我征流的时候我其实是用它每个 token 当时的这个条件概率分布来做训练那也就是说我比起用一个样本来讲我用它整个的条件概率分布来做训练的话我信息量就大多了

所以我做蒸馏的话我可能不需要预训练那么多的数据就是说我们自己用 chatGPT 的时候它每次生出来的结果都是随机的对吧我之后拿到的是一个样本一段话就一个样本但我蒸馏的时候我不会从里面采一个样本我是直接会拿到每一个 token 的概率分布所以我用整个的概率分布去做训练

它比起只用一段话一个样本来讲它的信息量要大非常多如果它已经采样成为一个 concrete 的 output 了你就没有那么多的信息了对对就征流有两种我刚才说的这个是传统比如我们征流 deep seek 的话就会用这种方式但如果你想征流 open AI 你是看不到概率的你只能看到最后样本这个时候就还是得大力出奇迹我觉得因为梦迪

自动化系出身的话你们喜欢信息论吗是吧有三个论是不是信息论之一这个事情我理解不了的一件事就是大模型它里面有这么大的这么多的信息为什么它蒸馏一下它就可以小了并且它的信息还不丢失呢这件事是怎么一个原理呢还是说它迅的不够这只要大模型再继续迅迅迅它还可以迅的更小吗

就是蒸馏这个概念以前是很精准的这个概念现在大家都乱用了就比如就是 DeepSeek 它出来这个 R1 的时候它自己做了几个蒸馏的版本它做了一个 Lama 蒸馏版本还做了一个什么 Q1 的蒸馏版本它的蒸馏其实是在别人的基础模型上用自己大模型生成的数据和这个概率分布信息又去做了微调

所以至少 DeepSeek 自己征流这给大家玩的那些小模型它不是一个从零开始征流它也是用征流的方式进行微调的所以我认为实际中其实征流你还是可以把它理解成是一个微调或者是一个增强或者是一个后训练吧是个后训练它还是会有一个得到的小模型它也是从另外一个更基础的经过了预训练的小模型开始的

所以它的能力会丧失吗它能力肯定会丧失它能力会丧失很多相当于就是大模型我学到了很多的这些非常长链的思维方式嘛那蒸馏的过程中这些长的链可能就被打断了你也不知道它哪断了但是就是它可能能够取决于你模型有多大吧不同大小的蒸馏模型丧失的这个能力也有不断差别那我们为什么我们人用起来看不出来呢

你用起来看不出来是不是你给他的 prompt 太简单了是吗那你们如果给了一些比较复杂的问题还是蒸馏出来还是不如原来的模型是吧是不如的对比如像数学和那个编程这些 task 上都是有非常完整的测评的肯定是不如的那我把我脑子里想的东西一波乱糟糟的写成文字写下来也算是一种蒸馏吗你得把它变成模型参数才算蒸馏

你把你的信息写出来然后用它去微调模型的话就算真格大模型生成数据它是会有一个 prompt 的数据集的就是我得先问你一堆问题然后你才能给我回答对吧而我并不能让你同时回答实际上所有问题所以蒸馏模型时候一个很关键的问题是它怎么设计这个 prompt 的 dataset

所以说征流就是说要把这个大模型里面最适合回答我这个我想要那些提问的那些部分把它拿出来这样的话如果你设计出来就是这些问题就是我最在意的那可能就非常重要了是这个意思吗结果就非常好因为如果我们喜欢这些问题

对,我觉得实际上公司在做这些事情的时候,它肯定会有一个自己的数据集,因为它知道用户关心什么,肯定会有这样一个数据集,只不过一般大模型还是希望它是一个通用的,如果是我们只在乎某个具体领域的话,那可能,我也可以做具体领域的蒸馏了,那可能更像是一个微调。

在一个学生 office hour 跑去问老师一堆这周课程的问题算不算就是蒸馏走了老师关于这周课程的信息那应该算吧那也足够努力你这个不叫蒸馏 Vindy 先把课学完了然后你问他几个关于考试问题你这叫蒸馏把 Vindy 学出来的那个备考的那个内容都被你学会了你把它蒸馏出来了

那这个就成为一个这个假设我们用同样的问题再用再用蒸馏过的模型再蒸馏一次应该应该结果基本上差不多的对吧因为他他这么听上去蒸馏是是根据你你想要问的一些问题得到他的一些一个更小的模型这个 anyway 就取决于取决于你的这个应用场有多繁华反正这里有很多具体的工艺的问题

比如你蒸馏的时候是不是需要把预训练的模型预训练的数据拿来混在一起再重新训练啊等等如果我只用一个特别专业的数据集来做蒸馏或者做后训练的话它可能反而会让模型变笨它会让模型忘了一些这本来的 common sense 所以实际操作里面有很多工艺上的讲究这个数据怎么配比然后怎么样说第一波先训练谁第二波再训练谁可能分成好多 stage 对

所以学而不思则网思而不学则代是吧你不学光思考也不行还得没事得学一学那最近这个 DeepSick 之后出来经常我们看新闻媒体公众号经常各种各样的非常奇怪的新闻说哪里哪个大学又花了多少百美元又把它做出了一个一样强的模型哪里哪个大学又做了一个几十美元也不是几百美元了最近这堆东西是咋回事啊

这些都是标题党吧人家论文可能并没有这么写只不过有些公众号标题党好吧那最近实际上这些研究都在做一些什么样的工作实际上的研究没有啊其实就是这些研究大家本来都在做只不过就是你可能正好是 Deep Seek 出来的时候你的结果也出来了然后显得好像在蹭 Deep Seek 热度一样

但是就是 DeepSeek 之后反正有一些就是征流 DeepSeek 的因为你可以你只要用 DeepSeek 的解数学题的答案征流了之后去训练模型效果都会更好相当于你对着一幅蒙娜丽莎照相照片你这照片也特别好

然后有这样的工作然后也有的工作就是只是那个就本来在做这个事然后再做一个小模型然后也在做这个模型上面的强化学习对吧然后你也肯定会有就能看到效果嘛然后就是从公众号角度就显得好像你在复现 deep seek 一样就是其实这些事情学术界本来就在做所以学术界本来也在做一些工作就是说要通过蒸馏的方法更加化不然它就变得更小模型变得更小变成 inferiority 变得更小

学术界也不能这么说学术界本来只是就是只是在自己做 reasoning 而已只不过就是有些组他们用 deep seek 的数据来做强化学习因为强化学习需要数据那我可以用 deep seek 的数据来做对吧 deep seek 生成的数据那么这个生成数据就会 quality 很高所以很快就可以把一些榜刷上去

我们的 paper 是 deep seek 出来之前就有的我们没有用 deep seek 对也没有整理过它的数据但我看到有一些论文用了对但你看公众号看不出来反正有些论文用了有些论文没用它论文里面是写清楚的但公众号看不出来所以说现在一个大趋势就是 deep seek 的这个推理能力使得一些研究功能就变得更好做了是吧因为他们可以提供很好的没啥关系我们没有用 deep seek 对

不是你们呀就是很多其他的工作并没有就是没有就是本来也可以用 openai 就是如果你需要就构造一个数据集因为就是你要做研究你总需要构造数据集如果你用谁构造的数据集然后有一些标准数据集比如我们之前做的话用的都是一些大家都用的标准数据集然后现在这些模型推理能力更好的话那么你用这些模型设计数据集可能比本来的学术界用的数据集效果还好

但是它其他的也没有什么能用的我们说完了现在这个 DeepSeek 那在未来这个领域在往什么方向发展呢好像 DeepSeek 把这种基础模型研究的热点又变得更热了可能去年很多人都觉得这个应用是这就差应用大家又突然又开始关注这个模型怎么做了那这个模型本身未来的这个方向会是什么呢

首先就是 DeepSeek 并没有带出任何热度就是说不是说它没有 DeepSeek 肯定有热度但是用 RL 做大模型这件事情是开始了很长时间了而且确实是 OpenAI 先做到的我觉得 DeepSeek 可能更多的是在中文媒体圈带了很多热度让很多不关注大模型的人开始关注了所以好像是

就是 out of nowhere 一样但其实不是的对就包含就是说我们组之前有很多毕业生他们都是在去年年初或者前年年底被招到 OpenAI 去做 RL 然后你就会知道就是

其实 OpenAI 做 RL 也就一年多一点,然后 DeepSeek 做的话那时间其实会更短,但是学术界完全知道 OpenAI 是什么时候开始做的,然后就是大家其实都在做其实非常像的就是从技术上,就是技术思路都是非常像的,大家同时试这些不同的东西,但是就是说谁把产品做出来了或者谁特别出圈,我觉得这很大程度上是,

是独立于它真正的底层技术的发展过程的刚才说那个词叫什么 R R O L 是吗叫 RL 吧 RL 强化学习 Reinforcement 就是这个方向是大家就是从 OpenAI 就是这样做的大家所有人都是这样做的一个普遍的知识但是这也不是 OpenAI 先开始的就是 Reasoning 的前身是 Alignment 或者说用

就是用强化学习的方式去做各种微调比如就是就是说比推理更简单的一个 task 就是说我需要做对齐嘛就对齐可能就是说比如 Wendy 特别喜欢对简洁的对话然后 Store 特别喜欢那个啰嗦的对话对吧那么他需要根据你的这个喜好来微调把这个模型他的这个聊天风格微调到各种用户这个用户这个做法也是强化学习只不过他

强化学习学到的东西相对更浅层面一些数学推理你可以理解成它是一个更抽象的层面那么它对数据和这个强化学习的这个长度和深度好玩的要求更高但是这一套算法一直在用只不过就是做的 task 越来越难了

强化学习最推理就是未来一段时间的热点吗还是说大模型里面还有别的更多的这种技术创新在或者技术创新的方向在

推理就是一个是数学一个是 coding 除了数学 coding 之外其他的推理其实非常看数据非常看你能不能拿到这个数据并且在其他的领域不管是科学领域还是商业领域你这个推理你怎么证明它是对的所以我觉得就是数学和 coding 是最标准的也是全世界最通用的但是其他领域其实就不是一个纯技术问题了

然后今年最火的肯定是 AI Agents 然后 AI Agents 也要和推理结合起来但 AI Agents 很大的问题也是需要数据什么叫 AI AgentsAI Agents 就是你把大模型给它加上各种各样的手和脚和工具和眼镜让它能够有视觉能力让它能够操作你的操作系统让它能够操作你的 Chrome

然后这样他就可以帮你去自主的帮你做一系列你想做的事情

最近这些公司谈 OpenAI 喜欢谈 AGI 是吧 AGI 中文怎么说还是不用解释大家都知道 AGI 是什么通用人工智能对 OpenAI 经常喜欢讲通用人工智能那是不是我们就通过给这些智能增加推理能力就可以去通用人工智能了吗还是还需要什么别的哪方面还需要更多的创新

通用人工智能首先就是大模型推理只是语言层面的并且它现在到底是不是足够的深刻对吧它能不能了解人能够理解的一些更抽象甚至是更 weig 的一些概念我觉得这个还不知道然后呢其他的

魔态了但是我觉得就是声音啊然后图像视频这是所有人都有的但是除了这些魔态还有科学的魔态比如天体物理比如观察的什么引力波的数据然后基因的数据然后你其实想象真正通用人工智能它应该是能够理解和分析所有这些魔态不光是普通人常见的魔态还有科学的魔态还有商业的魔态还有各种各样的魔态我觉得

就是到了这个阶段吧可能人工智能不只是说一个公司或者说一个技术或者一类技术或者一个学科了它要在其他的模态和其他的就是它需要能够长出有其他更多功能的手和脚来跟这个真实的世界来交互因为任何一个 AI 它其实不能真正完全在死的数据上训练出来

一个 AI 它要变成 AGI 的话,它一定要跟世界交互,它不管是跟用户交互,它是跟科学设备交互,它是跟观测交互,它是跟谁谁谁交互,一定要不断交互才能够更多的迭代,然后更多有进展。那么这样的交互怎么实现,我觉得这其实是一个 ecosystem,或者说是一个社会层面的改变。然后我们并不知道这个社会层面的改变会从哪里先开始。

看来还是有点距离不仅仅是一个做模型做的更好它就变成了还是需要有一些非技术的层面的东西在有非常非常多的非技术的层面的东西需要 stakeholders 大家都能够对齐

看来是这个梦迪还是表在技术方面表示乐观啊只要是达到了数据在了只要是这个这个训练的这个这个场景在了我们我们就是 AI 做到通用人工智能还是一个指日可待的事情啊

接着前面的一个问题,就说就像 NLP 会受 AI 一个彻底的洗牌一样,对于比如说你们所在的 ECE 的这些 department 还有说这以外的其他的,大家会有这种对于洗牌的,对于未来吧,未来科研会怎么走,有什么看法?

我觉得其实所有人都很迷茫吧就是从老到小应该都非常的迷茫我其实觉得就是很多很多的以前的工作方式或者说一些具体的课题啊方向等等他们确实会越来越不 relevant 但我觉得很大程度上这个学科本来就所有的学科本来也是流动的然后学科也是有自己的一个自然的过程甚至是自然选择的过程吧

只不过是我觉得 AI 的发展它其实就是我觉得它还是超出了绝大部分人的预测它甚至超出了很多做 AI 的人的预测所以我觉得当它过于快的时候因为你想一个技术它如果是慢慢发展和它很快发展它对同样的不管是一个社会体制还是一个研究的体制它的这个冲击的方式是不一样的

所以我觉得他到底这样这个以前的一些传统的学科或者传统的科研体制他和这个非常快的技术发展这两件事情最后怎么样达到一个稳态我觉得这个其实非常难非常非常难预测但所有人都知道吧就是说我觉得以前的过去正在非常非常快速的在坍塌然后这个川普也在推动这个这种坍塌我们也都很迷茫嗯

但我总体会觉得好像在这一代的,就是比如说你们这个去年的这一代的科研者或者学者来说,可能碰巧是比较幸运的,因为大家都还就是正值这个青壮年,然后就说可能也可能是最后一代学者了,是吧?

或者最后一代人类但我觉得就是你想一想我觉得我们遇到的事情都是大概率的事情对吧就比如一个经典的数学题就是如果你现在上了一辆火车你不知道它有多少节车厢比如你现在自己 20 节车厢但你不知道一共有多少节那你认为这个火车最有可能一共有多少节车厢这个答案就是 20 嘛

就是说一代你上了这班车你很有可能上的是最晚一班车对吧因为你想人类人类的数量本来就是不断的增加那我们天然是最后一代很有可能而且我们还是在中国出生的中国也是人最多的地方然后最后一代人然后研究 AI 然后去大厂也是最多的对吧所以我觉得所有事情都是这个最大自然概率然后没有世界上没有什么新鲜的事对人则定应用了一下是吗

怎么说到这么严肃的话题了我们说到 AI 的模型本身说大家的关注点最近又回到了模型本身半年前一年前大家很多业界的关注点是怎么应用 AI 最近大家学界会怎么看 AI 应用这件事情对 AI 应用的观点有变化吗还是谁是学界

没有是吧就是读 paper 的人我们不读 paper 的人你们没事读 paper 去开会的人对我觉得就是不做 AI 人还是会有一个更谨慎更 scapical 的状态吧然后对于做 AI 人来讲我觉得就是大家都会觉得 AI will take it all 为什么呢

为什么这个就很明显啊因为你做任何事情只要用 AI 你的效率就是几十倍的提高嘛这是最简单的一点然后 AI 的发展很有可能以后很多的

技术岗位不再需要 PhD 了你不需要科学家了或者需要很少的人那么有很多学科以前可能需要比较大量的人力并且是需要大量的这种社会高等教育甚至是博士教育的人力但可能做一些其实挺无聊的重复性的事情那这样可能以后就不需要了对吧那么它对于这些学科本身也会是一个很大的改变对于教育体制也是很大的改变

然后我们以后不管是教博士生教大学生或者教小朋友那教他什么就是我觉得这些问题没有没有一个人能回答但至少了解 AI 人应该都知道这些以后都会发生区别

那我们最后进入我们节目的一个标准问题,就是我们会为各个领域的专家问,如果这个领域这么好,大家想要进入这个领域应该做什么准备,应该学习什么呢?这个领域估计这个问题估计大家都会非常想回答,大家想要做这个是吧,想要进入 AI 的核心圈应该做什么准备吗?有什么应该做哪方面的训练吗?

你是说叫比如想去 OpenAI 还是说想去读 PRE 还是想干嘛比如说就是你看现在这个是吧通用人工智能是这么热门你想要为通用人工智能做这个进入这个领域是吧做比如说去业界应该做什么事情我觉得至少可以把那个就是有一个那个开源版的 GPT-2 嘛把它的预设链自己做一遍就是自己学一下是吧

对对就有很多开源教程有很小的模型就几百个迷你身上更小的模型然后他的整个 architecture 都是就完全开源对甚至是你可以有一些开源的数据然后你可以自己在这个很小的模型上把整个的流程走一遍

所以就是说先学一下基础知识然后自己练习一下在这个叫 GPT-2 是吧 GPT-2GPT-2 开源模型中自己把它训练一遍那不是要花很多钱

你就少跑两个 epoca 看一看哦然后然后就可以了就可以就可以进入这个领域了对看上去门槛也不是太高啊我也学一下我现在不是有一些高中生他们也不需要去学什么数学 codingcoding 还是要学的那么不用上什么大学的课就自己看看 paper 然后下两个 package 就就自己搞起来我觉得门槛可能也不是很高的话嗯

我是这样的我还以为都要学很多数学之类的都不需要就直接在这个晚上试试就可以做模型了反正听说一些动作能力很强的小朋友他们就是直接试也不管原理也能试出来这么厉害我还不知道这个原因是这样子的

那我们今天就非常感谢梦迪来到我们的节目给我们讲解了很多我不知道的概念或者是懂非懂的是事情给我们讲一讲这个业界发展的方向好的好的谢谢大家那就这个喜欢我们节目欢迎欢迎在各大泛用型播客平台订阅和收听我们就后会有期拜拜拜拜拜拜

#134. 大模型 01:09:30 Share

牛油果烤面包

Shownotes Transcript

#134. 大模型