We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

#136. 从自然语言处理到大语言模型

2025/5/20

牛油果烤面包

AI Deep Dive AI Chapters Transcript

People

David

波士顿大学电气和计算机工程系教授，专注于澄清5G技术与COVID-19之间的误信息。

斯

斯图亚特

Topics

David: 我介绍了GPT模型架构的演变，从最初的GPT-1到GPT-2，再到后来的GPT-3，以及最终的ChatGPT。我强调了GPT与BERT的区别，BERT是理解模型，而GPT是生成模型。我解释了GPT坚持Decoder-Only架构的原因，以及这种架构在当时被认为是落后的，但最终却成为了主流。我认为，GPT的成功在于其对量变的执念，以及愿意为此投入巨大成本。同时，我也提到了大公司在资源分配和长期投入方面可能存在的问题，这或许是Google未能率先成功的原因之一。斯图亚特: 我对GPT和BERT的区别、GPT架构的优劣势以及OpenAI的成功原因提出了问题，引导David对这些问题进行了解释。我试图理解GPT模型架构的演变过程，以及OpenAI在其中的角色。我帮助听众理解这些技术概念，并探讨了为什么OpenAI能够在大语言模型领域取得领先地位。

Deep Dive

Chapters

本节探讨了GPT和BERT模型的区别，重点关注GPT坚持的Decoder-Only架构。解释了Decoder-Only架构的设计理念，以及为什么在当时不被看好，最终却成为主流架构的原因。

GPT和BERT的主要区别在于GPT是生成模型，BERT是理解模型
GPT坚持Decoder-Only架构，认为这种架构更适合用语言驱动模型
Decoder-Only架构的优势在于参数集中，便于模型扩展

Shownotes Transcript

本期节目我们请到了做大语言模型一线研发工作的 DavidDavid 一直是自然语言处理的专家从自然语言处理领域的视角给我们讲解了大语言模型的兴起以及之后的发展趋势我类比于小孩在妈妈肚子里或者包括基因都是预训练生出来之后然后你开始教他这是后训练

从 GBT123 一直到 CHIGBT 出来其实经过了一个漫长的过程那么试想在大公司有没有一个 team 能有超大的资源而前四五年做的东西会被其他业界吊打还给他这种信任让他能够继续做下去这里是牛油果烤面包

大家好,我是斯特雅特。我是 Sean。我是 Windy。今天我们有幸请到了在大语言模型领域的一线工作者 David 来跟我们聊一聊。欢迎。大家好,我是 David,非常高兴来到纽约国烤面包。David 我看最开始是一个自然语言处理的专家是吧,是一个自然语言处理的研究者。

因为这个语言模型嘛大语言模型嘛也是个自然语言处理的模型我还一直非常感兴趣听一听这个一直在做自然语言处理的人怎么看待大模型这件事最开始 David 听说最开始 GPT 出了一个 paper 是吧

对最开始因为 GBT 它有好几代的 paper 最开始是 GBT-1 那大概是哪年应该是 1819 年的时候 2018 2019 年对应该是这样就是说 GBT-1 应该是 17 年然后 GBT-2

是和 BERT 差不多一起出来的 GPT-2 才是和 BERT 一起出来的对 BERT 就是一个谷歌出的一个非常革命性的就是在颠覆世界的一个语言模型是吧对可以说那时候对自然语言研究者来说冲击更大的是 BERT 而不是 GPT 那时候的 GPT 从治疗

到影响力到他采取的架构在那时候都不算是流行那他跟 Bert 的区别在什么有几个区别第一个 Bert 本身是不产生语言的也就是说它是一种语言理解模型比如说你给他一句话他可以回这句话是一句很礼貌的话或者不礼貌的话

就分析一下它也可以告诉你一个 yes or no 的标签它也可以告诉你这句话每个词是一个什么词性也就是说它只会给这句话在整个 sequence level 或者 word level 给你分个类所以它本质上是个分类模型我们叫做 natural language understanding model 自然语言处理的叫理解是吧理解模型对而 GBT 它是一个

语言产生模型也就是说你给他比如说一句话他可以去继续把它补全或者是生成下一个特或者说是给我一个礼貌的话对或者是给你一个礼貌的话生成模型

他不也理解吗我说话他不也理解吗当然对所以其实两个也比较相通比如说你可以给 GBT 输入一句话然后你帮我分类一下它是礼貌的还是不礼貌的他也可以给你吐一个词礼貌或者不礼貌所以其实他也可以那么用但是至少那时候 18 年的时候一般认为如果要分类的话显然是用 Bert

但是听上去在 GPT-2 出来的时候跟 BERT 差不多的时候他的愿景是要做一个更全面的模型是吧不仅仅可以理解还能说对那时候是这样就是说绝大部分的语言模型它都是分如果你要产生语言的话它都是分两个 module

就是两个模块两个模块第一个模块叫做编码器 encoder 另一个模块叫做解码器 de-coder 那么绝大多数它都是有这两而且这两个两边是分开的就是两个模型是吧它是一个模型两部分就像对啊就像心脏分两边一样基本上都是这么做的

中间是个什么东西它们是互相相连就像血管一样它先编码编成了一个它里面解码器理解的一个东西对比如说你跟他说这是一句话帮我分类一下他的情感是什么好你给的这些输入他全部输入到编码器因为这些已经是给给定的输入了然后编码器把它编码成一堆因为计算机咱们知道就是一堆数字

再由解码器去读这堆数字然后往外一个词一个词的图所以它这两部分是相当于它耳朵和嘴巴是分开的而 GPT 是那时候很少的只有嘴巴它把嘴巴和耳朵做到一起去这个在当时是认为不是很好的一种设计为什么呢因为是这样

我们在做这个语言比如说我们在说语言的时候我们说的下一个词它会跟前面的所有词就只跟它前面的所有词产生关系它是一个因果关系对吧比如说我是 David 那么这个是这个字它只跟我产生关系它不会跟后面产生关系

所以你在解码的时候它是一个字一个字出来了所以这也使得如果是 GBT 来处理这句话我是 David 那他每个词他会参照这种说话的这种方式每个词只和前面去产生关系也就是说他在分析是这个词是什么意思的时候他就去看我他往回看他只往回看但是如果把编码器和解码器分开

那麼編碼器這邊有我是 David 他們之間完全沒有任何障礙就是說是也可以看到 DavidDavid 也可以看到我可以看到是所以我們認為那時候認為編碼器就應該做編碼器的事情把這件事應該分開這是耳朵到嘴巴之間要過一下腦子我先把這句話全部都理解完了我再回答是吧深思熟慮

Bird 当时好像还是吹了一通是吧他能全理解是吧对 Bird 当时是只理解当然 Bird 之后 Google 又出了很多重量级的就是又带耳朵又带嘴巴的模型比如说 T5 也是当时非常有名的一个模型所以当时我感觉 GBT 在 18 年 19 年 20 年属于我个人表示被吊打的模型

包括 CBD3CBD3 出来以后当时刚出来还可以但是一年之内所有人都把它当贝斯拉都可以碾压它大家认为它的整个思路就不对是吧对当时是没有太多人觉得它这套方法是对的而且它一直坚持下来我觉得这也是它当然最后成功的一个他在比如在会议上或者是 paper 上他有解释他们为什么要这样做吗

他是这样解释的就是说他解释是这样因为他这种方式是因为他当时设计的时候他就是希望以后能够用人用语言来驱动这个模型来做事情而这时候的话你其实给他一个之前一个指令他认为整个的思考过程应该是连应该是一致的统一的而不是就说 OK 你给他的指令他单独用个编码器然后他吐出来的部分用解码器这两部分他不同意

所以他认为这应该是一个完全统一的在训练的时候他就把输入和他想要的输出统一处理所有次都是指望回看这样他有个好处因为模型不是会越变越大吗又有编码器又有解码器的话你需要分配一下一般可能解码器大一点编码器小一点但你总得分配一个比较大的模块给编码器

而它如果只有解码器的话它就把所有的这个参数全部都可以集中在这个地方这我个人觉得是一个技术上它的一个优势吧听上去他最开始的解释他是认为他们的这个模式是更能够让这个原模型能够听到指令去做事情是吧

对,就是听到一个前面的话然后再产生接下来的话那么他想把这件事情做的统一所以就只用这种我们叫 Decoder only 就叫只用解码器这么一种结构所以这个是我们说到 GPT2 的时候大家就认为这是一个落后的方法 1、2 包括 3 就是 3 当然就是 3 跟 2 比肯定是进步了但是很快也被其他的模型就是吊打了

三出来的时候它的结果还是领先的对我们就会认为它是 another 模型不会觉得它是一个特别标杆的模型我觉得那时候是 Google NLP 做的最如日中天的时候他们就是这套过去从 Bart 这个方向发展出来他们的愿景他们的发展方向作为自然语言是个什么样的 Google 的话我感觉出了很多这种

很有名的模型但是最后我觉得临门一脚还是差了一点我个人感觉临门一脚是 GBT 当然在后面恰恰 GBT 大家都知道了是把模型做的非常大这可能是当时也就是至少 Google 公开的这些论文没有做到的规模所以我觉得 OpenAI 是有非常强烈的这种从量变

引到质变的这么一种执念然后这件事情其实要花相当于赌注一样你要下赌注因为你不做到那个量你就达不到那个值但是你要做到那个量你就要花极大的这个成本投入而且并不是说你比如说你做一个 1 billion parameter 的 model10 亿个对他训练的很好然后你说我把把它扩大 10 倍 100 倍原来的 code 就可以用不是这样的他会出各种奇奇怪怪的问题

原来都 work 的一些东西可能训练突然会崩这些其实应该是 OpenAI 是第一个吃螃蟹的就把这条路给走通了后面当然是我觉得后来者就是模仿比如说我随便做个假设会不会在当时比如说 Google 其实比 OpenAI 更先的去用超巨量的参数去解这个问题说不定那个时候 Google 的其他的模型可能就会干的比 GPD 更好

对我觉得是有这个可能但是我觉得这个可能跟其他很多人都聊过就是说为什么 Google 不是第一个做出来如果你采访 1 万人可能 999 个人都说应该是 Google 先做出来了我感觉可能还是和大公司本身有关系因为大公司的话做 NLP 不可能只有一个 team 在做会有好多 team 在做这时候他们就会有一个资源的竞争分配的问题

对这是第一个就是说你不可能有一个 team 会拿到所有的资源而 openai 是就是完全下堵住整个公司朝着一个方向我觉得是第一个重要的原因那就是第二个重要原因是就是一个相对比较长期的投入从 gbt123 一直到这个 chai gpt 出来其实经过了一个漫长的过程五年左右

那么是想在大公司有没有一个 team 能有超大的资源而前四五年做的东西会被其他业界吊打还给他这种信任让他能够继续做下去我觉得这个也是没法那么轴大家在大公司待过可能也有这种感觉如果有的话大家会八卦 team lead 是不是公司 CEO 的什么小舅子

我记得上次孙晨也了解过这个问题说 Chad GPT-1 能够一直往前走 GPT-3 大概是什么时候出来的 GPT-3 应该是我记得是 2020 年 2020 年离 Chad GPT-1 出来还有将近两年是吧

对 3 和 4 之间就是 Chad Gbz 之间还隔了一个 3.5 对 3.5 是在中间出来了也是就是说又进了一步大家看到 3.5 的时候大家已经觉得 POPPING 还是比较厉害的出来 3.5 但是它仍然没有到那种就是那种捅破那层窗户纸所以 Chad Gbz 3.5 大概是什么时候出来的 3.5 我记得应该是

是不是 22 年对我记得好像是 22 年 3.5 它的学名叫 instruct GPT2022 年 instruct GPT 指令指令 GPT 对就可以看从这个名字就可以看出来它已经是完全 buying 这种用指令去驱动电脑做事情它当时就有这种想法让

大语言模型成为人机新的接口你可以直接跟他打字所以他们的愿景是认为 ChatGPTGPT 这个语言模型是一个是一个能够驱动别的做事情的事情他们的愿景从来就不是一个给你

輸入語言生成什麽東西是吧是他們要對我覺得你這句話說的非常對對他是因為之前的話可能大家就是說操縱電腦可能只有少數會寫這個計算機語言的人或者我懂得用鍵盤鼠不要讓他做一些事情但是他就當時是想用自然語言就是人你會什麽你就直接說

对这个是个歌迷这个还蛮有意思的因为比如说我用最最简单的理解比如说呃说我的目的最后是让他来做一些操作的话那么看上去像 bergs 之前那种想法说哦我先有个 encoder 再有个 decoder 看上去是更合理的我 encoder 先把语言变成一个什么东西 decoder 我再变成相对应的操作但是像 gpt 一开始说 ok 我输入输出都是语言反而是这样的架构更适合以后去操作东西对对对所以试想一下比如说我说第一句话

模型说第二句然后我又说第三句用 GBT 来这种 de-coder only 就特别顺你就第一句放那然后它自然生成第二句然后在后面我再把第三句进去它第四句出来了但你想想如果又有一个 encoder 又有一个 de-coder 你先第一句它出来第二句你再把第一句第二句拼一起再放回来编码器然后它再做第三句你很快就觉得这个不是一个非常自然的一种方式这听着很有道理就是如果用

GPT 这种模型的话它整个一个模型可以接管对话这件事情如果用过去模型的话你实际上是人工在做起几个模块要拼出来才能让它对话不像是一个我们做出一个智能的只是人类帮它拼东西是吧

对,当然我们这些就是马后炮了,在 ChatGPT 出来之后我们再回头看这件事情发现 de-coded only 真的是非常有道理,自此所有大家熟知的大模型全部是 de-coded only,现在已经基本没有人做 incoder+de-coder 的这种架构了。所以在 ChatGPT 出来的时候,David 最开始是怎么听说 ChatGPT 出来这件事的?

HPT 也是跟大家应该是同步知道这件事情然后我就去试了一下我感觉这个已经完全不是类比于之前我见到的所有的生成语言模型因为我做 NLP 研究比较久我们当时基本上遇到一个大的困难就是生成语言一长基本上是长 5 句或者 10 句话以上它的生成会非常的不稳定

经常是生成了它会重复一个词比如说生成前十句话然后开始就出现这种情况差这么远对或者是它 repetitively 就不停的说一句话对以及逻辑就开始乱了现在回过头看的话我不认为架构是根本的原因我认为根本原因是模型没有做大因为那时候比如说 T5 这种大小的也就是几个 B 链

的量级,Bird 就更小了,Bird 当时只有几百兆所以当 Chad GPT 后来大家知道了这个应该是有 100 多 billion 的这么一个 100 多 billion 就是 1000 亿,1000 亿个参数对,1000 亿个参数,过去除了 Chad GPT 之前大家参数都是在几百万是吧,几百万几千万这个量级

应该有也有 b 链级别的哦也有 10 亿级别的对 10 亿级别的但没到千亿但是他一千一不是很好对这个就牵扯到另外一个问题就是呃虽然现在有非常好的这种比如说什么 mini 啊这这些小的模型我一直认为包括我听到的信息都是你先做一个巨大的非常强的模型然后倒过来用他来当老师来教更小的模型

而不是你一开始就对着那个小的模型你就开始拿它训练一般训练出来都训练不好所以要先走到大而大这个这个投入其实是是非常多的

所以 David 作为一个自然语言处理的专家用到 XGPT 感觉是非常震撼的感觉对对对对我们研究者的冲击可能跟大家感觉到的不一样因为可能就是非 NLP 从业者可能更多是我可以跟他说话了他终于说的比较就不像人我们不能说他是人工智障了对吧之前不尽量说人工智障他还是挺好的从我们来看 NLP 从业者我们最关心的就是那些 benchmark 也就是说那些

标杆的测试级看他能刷多少分这样然后我们当时试了一下感觉到非常惊讶就是说我们花了那么多心血做了那么长时间的一些非常精致的模型不断的刷分其实很多论文也就这么出来我比你高 1%你比他高 0.5%这样 paper 就出来了

而用大模型过来之后我只要加一句话你现在要做一个数据集你要干的是一件什么事不管它是要生成一句话也好生成文本总结或者是对话生成对话或者是分类你就给我 ABCD 你就生成一个字母 A 或者 B 或者 C 这种我不能说百分之百可能百分之八十到九十是吊打是吊打我们所以这我们就比较慌了

因为这是我们赖以就是作为从业者赖以生存的一些对这论文写到一半该怎么办对就该怎么办而且它是在某些数据集上是 10%20%的这种比之间也要更高所以特别是一些一些分的比较细的领域

比如说文本总结我觉得这个是一个之前很火的一个子令如果大家去这个 NLP 的会议的话文本总结会专门有一个 session 就是也有自己的各种的研究者我这里好奇一下现在 NLP 的大会还有文本总结这个 session 吗有还是有的对有就是纯 NLP 的会议还有对还有这个会议说明但是纯 NLP 就没了吗很少

是这样子的你如果去看现在的 NLP 的会议的话基本上 80%paper title 里面都有 LM 或者是对吧或者是 how to use 什么下一句就提不光是 NLP 什么会议上都有 LM

对对对所以他是是这样一个所以呢就是导致的两个现象第一个呢就是原来分的比较细的这些领域真的做不下去了做不下去并不是说他做不出来了而是做不出来很可惜不是他自己做出来了对他是这个大模型已经把这个问题给就是基本你比如说 99%的准学生那还做什么就没有必要做了

然后真的有一些领域的人开始在转就是他无法再做下去了刚才说在 Challenge GPT 出来之前有文本总结比较热门的领域那个时候是怎么样

出来之前我们总结还是那时候还是有的做的有一些很著名的数据集我记得有个专门叫 CNN Daily Mail 这个是非常火的数据集大家在上面刷分刷的不亦乐乎满分是 100 分当时刷到 40 就算比较高的分你们追求也太低了吧是最好的模型它只能做到 40 个

然后刷到 45 47 的就被大家视作非常牛非常牛的模型然后 GPT 出来之后一出来之后我考试考 45 分要被我妈打了对他这个分数算起来比较复杂并不是一个完全线性的而出来以后一方面他分非常高但是另一方面就是大家看他生存的总结用人去评判

就即使当分不到 40 多的时候人基本上都认为是 gpt 生存的好这个领域就没有没有的做头了就是这个我们新一步做了很多模型啊基本上都可以都可以忘掉因为任何人只要在模型里面给他输入是下面是一段文章请帮我总结文章一贴出来了比你任何模型做的好当然这本身也是一件比较比较赛的事情但是另一方面就是科技的进步嘛

所以是有这么一个影响你们这个领域的人比如说开会碰头你们是怎么谈论 ChangeP 这件事情的他们刚出来的时候我真的是聊过一些是他们说很慌

比如说最直接的就是他 benchmark 刷不上去了对吧然后还要我们研究人员干什么因为当时甚至认为这些大模型你只要写个 prompt 就在前面写一些提示词就行了我为什么要去学什么神经网络我们赖以生存的这些 knowledge 很多都变得过时了但是他们没有反思一下技术方向是不是对的或者你们有没有

在技术上面怎么想呢大家现在都觉得大模型是对的但问题是不是我今天在家觉得大模型是对的我就可以去做因为这需要花极大的资源所以它导致了一个就是这种垄断就是有比较大的公司有很多的资源他可以采取做这件事我作为一个比如说单个从业者或者我有几个人的一个研究团队如果我想利用它的话我只能

把模型拿过来如果它是避远的更惨我只能靠它的 API 我改一改 Program 所以有一段时间怎么写提示词又变成一个比较卷的领域但这部分已经卷完了其实这个时候卷提示词的原因也是因为在于你也没有什么其他事情可以做了对我认为是这样子的大模型也没法自己手搓对这没办法手做开源的话你还可以稍微 funtune 一下但是现在开源也变成大到

可能很多很多组他都没办法去做这件事情所以那个时候 challenge gpt 出来之后很多的研究者认为这个领域是我玩不起的是吧他就认为在技术上不管怎么样这件事情跟我就是很难很难竞争对就是你要不然就去工业界

因为就是那几个公司加入他们对吧继续去改进这是一部分但这个人不会很多还有部分就是跟大家卷关于大模型的还剩的一些研究能做的一些研究大模型还剩什么什么研究在自然语言方面首先大模型本身的研究就全部相当于归容因为原来可以说我是做文文总结我是做对话我是做分类我们井水不犯河水大家年年都发井汇非常 happy

现在相当于所有人都集中在一个赛道你做什么都是关于大模型所以导致了这个领域第一竞争极其激烈第二创新的速度比以前快得多得多就现在 paper 出来的速度比以前快得多那是为什么呢这不谢谢了因为人都来了在一个地方所有最精明的人全部都集中在都在做大模型然后刚才斯拉特问这个有哪家可以做做的东西还是有分几块吧一块是

我不能动这个模型我只能去我想去了解它就像这是一种新你把大模型看作一种外星生物我把它捕获了然后呢我还不能解剖因为第一太大第二很多还是避远的但是我可以观察呃

比如说他喜欢白天吃草,晚上喝奶这种就去了解一下他哪些地方比较一些特性让我想到上次一个嘉宾他提到就有研究者去研究不同大模型的 MBTI 就类似于这样或者说我怎么提示词怎么写是不是写的写的理貌一点他就回的结果就好一点

然后是不是在他提示词里面加一些例子加什么样的例子他就会出来的更好一些就相当于就有点像我们也不知道他里面具体怎么工作当然有做解释性的但这个就比较少了比如说拿针扎一下他左腿抬一下然后你发现扎这个地方他总是抬这就是一篇论文如果你想让他左腿抬你可以扎这儿盲人摸象当代

但我觉得还是挺语言研究者让我想起一部电影叫《降临》这部《降临》就是讲突然有个外星人来到了地球然后一帮语言学家去尝试跟他去沟通去了解他的语言体系对那我还挺感兴趣这个领域有什么重要成果吗也就外星人领域吗对啊《降临》的成果是什么对比如说像大圆模型的话一个是我们去看

对方问了一个问题那这个问题可能大圆圆模型自己不太清楚那他就需要去搜索搜索了当然不是他自己去搜啊就是背后会有个引擎去搜搜出来的东西把它加到他的这个提示词里面然后搜哪些东西搜索用的这个查询是什么加进去以后怎么让大模型能够输出的更好确实发现你搜和不搜

它结果会上很多这是一个点我们把它叫 RAGRATretrieved Augmented Generation 是一个还有一个可能大家听的更多叫思维链 Chain of Thought 就是这也是就是说你让他别光说说你说出个数学题最后加一句话你一步一步想就这个 please think step by step 就是一个咒语一样然后说了以后他一步一步想然后准确率画了一下能上去 10%到 20%

这是因为刚才一个典型的用针扎然后它出来是一个例子像这样的还有挺多的我很好奇在那个阶段作为一个之前大语言模型的研究者研究这些东西的心态是怎么样的会不会觉得之前我在那边搞数学搞高维建模这是很高级的东西但是现在我在那边研究如何让它加一句话用针扎一下它出来的结果更好对确实首先研究内容会有落差吗

对会会变化然后对我们研究者来说是希望我们的这个成果吧有两个方面的特征第一个是他当然有有重要性的吧这是第一

第二是它 technically challenging 它足够难而我觉得一可能还有吧一可能也降低了因为真正能决定的其实是做那些大模型的公司 open AI 这些公司对二的话这个明显觉得没什么难度了对我们当时就说了就看对开玩笑什么人都能来做吗对社会学者了吗文化学者

对,就是比如来一个本歌声,诶,他试过试过,他也可以写个很好的论文。所以我们当时就是觉得这是一件……悲哀的事情。对对。那我们继续说那些拥抱大模型的这拨人,就是他们开始投敌的这些人,这个改进大模型的这些人。那这些人他大模型之后,作为一个大圆模型,他又有什么主要的发展吗?

那挺多的一个是从本身来说我就说基本上是每一年或者每半年再卷一个东西然后卷完了再卷下一个我可以大致说一下一开始是卷预训练

预训练非常简单就是你给他很多海量文本每次让他预测下一个词这大家应该都知道这个概念了那预训练的话有很多这个话题比如说怎么让预训练这个数据可以变得更多对吧这是一第二因为预训练的那个模型很大你训练一次可能要几百万几千万美元那么你不能你如果一个最大的模型你训练错了对吧你不希望这个这件事情发生很可能你只有一次对吧相当于就就只能是

扔一次硬币这种那你肯定想降低风险那么有很多的研究觉得说 OK 我看一下训练只有他千分之一大小的模型百分之一大小的模型十分之一大小模型在这些下面因为我可以反复的做实验哪些选择是对的就是是最好的比如说我想知道某一层的一个大小大家发现它有一种叫 scaling 或者叫扩展法则

就是说你加更多的东西它就给你同样的收获对吧对我就举个例子你如果想知道用多少数据来训练一个模型是最合适的首先这不是越多越好这个是常识你会发现

千分之一的大小用比如说一本书的知识是最好的来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来来

预训练啊,这个词我就觉得非常奇怪,为什么叫预训练就是说它的技术革新的方向就是要让你不停的加更多的数据,花更多的钱它的产出是能够值得你给它花的更多的钱的证明了这是个人民币玩家的游戏对对对

然后跟预训练对应的就是后训练最开始半年是在卷预训练是吧预训练可能稍微长一点可能一年更多一点的时间然后特别从去年开始卷后训练后训练原来就有只是开始没有那么卷什么叫后训练后训练就预训练结束之后预训练就是说我们把大模型都算完了它输出是

把文本给他你跟他说一段话比如说说一半他会接着往下说因为他训练就是比如说斯图亚他会回特然后继续是一个好青年这种他会这样继续往下但是你不能跟他对话因为比如说我想买个东西然后他可能不知道回什么因为他可能觉得他以为要写篇作文他就往后写那么像这种后训就是让他有这种跟人沟通的这种能力

就是预训练就是光有语言是吧训练出来就是有点像语言模型你这说的很对就是语言就是他会说话他认字然后他也会写点东西但是他不太会按照你的指令来写东西我举个例子比如说你要续写斯图亚特是是吗你在前面加个指令把主人公写的非常高纳上

以及把主人公写的像一般人一样那么预训员出来模型是不能够理解这件事情的就不能理解他就是一个把它当成一个完整的文本简单的续写就写一个作文就是再把一个作文写他没有说你把作文写成什么样就改一下作文他不知道这件事情他所有的话都是在这篇作文里面的从来不能跳出这个作文是吧

你给我修改一下对然后后训练的话就是特意去培养他们这方面的能力让他可以和人进行对话因为我们会给他的数据就是对话数据

比如说我要把这句话写的很长然后给你一个 topic 他就写的很长然后很短然后又跟他说你必须训练书写的很短那训练的阶段大概有两个一个我称之为老师教课老师跟你说一加一等于

然后老师说答案是 1+1=2 就像小朋友一起跟着跟足一样那么这个语言模型就是说他收到 1+1=几这个东西他必须回 1+1=2 就是他学的部分就是 1+1=2 要生成这部分

当给定是 1+1=几的时候所以他有个对话的过程在里面这个叫老师教课那第二个子过程呢叫做就现在应该大家很多人都知道叫强化学习吗 reinforcement learning 对吧这个呢我称之为要做作业然后老师批改是什么意思呢就是 1+1=几他也不跟你说等于几你那也没得学你自己随便写

你因为他这个大模型有随机性嘛所以你也可以 sample 比如说在自己写等于 3 啊等于 2 等于 4 等于 6 这种然后呢有一个 reward model 一个奖励模型过来啊只要不等于 2 的一个耳光刷过去不行啊你这个奖励是负的

然后等于二了小红花贴上给他一个奖赏语言模型就在这个情况下变得更加的灵活一般认为在强化学习的他会学到比刚才我说的老师教课我们叫 supervised fine tuning 学到更多的更广泛的可以 generalize 到更多场景的这么一个模型

所以这个两部分老师教课和批改作业这个是从一开始就是的吗从 ChangePT 出来一开始就是这个架构吗对一开始还有一点不一样就 OpenAI 有一篇就是开山之作叫 IllHFreinforced Learning from Human Feedback 从人类反馈中强化学习当时呢这个老师教课这部分就是 Supervised Functioning 还是一样的

后面这部分就是说老师批改他当时呢是一个叫离线批改是什么意思就是这个老师教其他小孩打耳光和这个小红花这个数据把拿过来跟他说你看看啊那个小孩做这个就被打耳光做这个就得小红花就是那时候是把别人就是其他数据的数据拿过来

后来转化成这种叫在线 online reinforcement 就是他自己在做的同时老师会给反馈这怎么能够把别的模型拿过来呢

是这样子的就是离线的收集一些就是给比如 1+1 等于几然后呢让模型生成很多什么 1+1 等于 3 啊 1+1 等于 5 啊 1+1 等于 2 然后呢那时候啊就是开山之作那时候还是靠人去看哦等于 3 这个是错的等于 2 这个是对的就是它是离线的就事先把

批改过的作业还得打标签对打标签但是要雇人去做是吧对当然是因为这种大家也发现这种标注的难度大大降低因为他就给定一个题然后呢给几个输出你就比哪个好你也不需要说出来他为什么好就是你自己感觉比如说你你就喜欢这种输出有格式的那你就你就打好就可以然后真的模型学这个以后它就慢慢会生成

合适越来越好的这个输出所以那时候是靠人的 OpenAI 是雇人花钱花钱雇人做先雇人花钱然后呢对然后呢再用一个模型去代替人因为你不可能在输出的过程中始终有个人在那个地方他是学了一下人标注的用一个模型学了一下人的标注对对对去学一下然后后面呢就

逐渐演变成这种在线特别是最近 DeepSeek 比较火就是因为他做数学和编程因为这相当于是客观题因为客观题的话他可以直接按照因为他其实背后有正确答案的他收集的题目都有正确答案对就是 1 不对就是 0 就是这种方式但你要再拓展的话

其实现在还没有找到特别好的方法就说你想主管理证明或者是给写编作文然后莫清写了好几遍作文怎么改就这个还是 open question 所以呢就是还还是沿用原来就是

在人的标注的情况下学一个模型但是这个模型通常情况下不太准就是说还行但是不是像人那么准这个模型叫做 reward model 奖励模型 reward model 那就是说那确实用强化学习的方法后训练这个数学和编程是比较容易的因为对就是对不对就不对是吧

数学你只要能够理解那个数算出来是不是有一个模型能算出来你可以比对就是了编程你能运行是吧但是你不能运行都不知道你运行出来结果就对了好不能运行就直接给他 0 分然后能运行的话要会事先准备一些 unit test 这种测试点然后让他去测所以这些都是事先做好的但你说

你再扩展一下因为人们这不可能每天只做数学题和编程这种简单的东西

一扩展所以这也是现在大模型我感觉还没有这种真正到达 AGI 我觉得最后可能临门一脚这个是关键中的一环我们刚才说到卷我们开始卷预训练卷了很长时间然后后来又开始卷后训练这个后训练主要有什么突破吗或者有什么重要的改变吗

最开始卷的是后训练数据怎么来那么有一些大公司他有钱的话有这方面资源他可以雇很多人去这种比如老师教课你能标 1000 条他能标 1000 万条这个其实还是有差别的有钱人加了孩子真是讨厌对其实就是这个道理然后之后的话就开始卷后面的

当然在刚才讲的过程中比如说我的公司没钱我只能给小孩补两门课语文数学我很有钱我还可以让他补补编程多模态是吧使用工具现在很火的 Tour use 什么 agent 这些我这些数据都可以来所以他其实跟这个数据量其实以及数据的质量都很有关系然后之后大家发现这个东西不是很有

拓展性那我其实我很推荐最近这个就有一个教授叫 Richard Sutton 他写了一篇叫 year of experience 就是说如果你始终用人去标数据的话那这个大家也知道他从这里面学的这模型肯定永远不会超过人所以他说希望模型在运行中能够获得世界的反馈那这就是后面选的这个怎么让他在在线的时候

边学边有人跟他说对还是不对这件事其实非常重要突然让我想到比如刚才说理科题目是比较容易可以有一个固定性答案文科题比较难我就在想是不是可以文科题写一篇文章发到网上看哪篇点赞数最高对我觉得这也是一种因为我们其实很多标注数据就是看如果比如说几个人去同时打分然后看选这个人多我们就认为他好我们也不知道为什么好反正就把这个东西送给模型他自己 figure out

我们刚才说到了多模态多模态是个什么东西多模态就是我刚才说的基本都是文字因为我也是做 NLP 出身的那么多模态就是有语音包括语音输入和输出包括图像输入和输出包括 video 视频输出对大概是这几个方面这几个方面跟大圆模型有什么关系

首先是这样自从原来特别是像可能说 Transformer 大家都知道这个架构原来是 NLP 提出来的那篇 Attention is all you need 本来是个纯天然的 NLP 的模型自然语言处理就是 Transformer 是为了自然语言处理件的一个技术

对但后来发现诶这个用在其他领域效果比之前那些领域用的都好所以呢大家也都送过来了说来之后有个好处就相当于这个大家都用 Transformer 之后那我就可以把不同模态的东西数据就合在一起了因为反正大家都拿 Transformer 来做当然这里面有一些技巧因为多模态的东西它不像词这种是离散的所以要稍微做一些处理包括输入包括输出端

那这个之后呢其实训练的方式有很多比如说有一个

你在训练的时候把图像也转化成一个字一个字有专门这种技术就是转化成像字一样这有点像是一张图就是什么 worth 1000 words 真的是用大概几千的这个文字 token 来做的但这个文字不是我们看到的文字对是那种我们叫 image token 或者叫图像文字把它送进去之后让它突出来是什么比如说给一张图

里面有几只鸟然后你问题是这个图里面有没有鸟你把整个这个东西当做一个文字的序列输进去它会回来有有几只所以他是把这个图像也编码成文就是 token 一样的文对编码成这种就是 again 就数字就是数字项链也是给 transform 变形金刚

去处理所以多摩泰是在大圆模型出来之前就有的概念是吧对是的就是之前就有但是做的感觉第一任务比较简单第二质量当然也是那时候就比较差一些就之前很著名的多摩泰就一个叫 VQAVQA 就给张图然后给句话然后一个问题然后你回答

选 ABCD 这种当时是比较限定的比如我有两张图怎么办我想多问几句怎么办这都做不了都是非常非常限定的很八股的那种模型就是我们之前研究人员做的那些东西后来发现大模型人员他不但能做这个他还能五张图十个问题他也可以回答

你不但让他回答问题他还能带你总结一下或者说下一张图应该说什么就是我感觉这个是一个技术上的一个突破带来的这个应用上我觉得是有个极大的扩展那这块现在做的人很多吗就是他进展大吗

对了对就是多模态的大模型我感觉做的就是质量上来说相对于文字还是要差一些虽然做的也很好我说相对啊还是要差一些有一些就是比较专一的领域比如说生成图片生成视频这些大家都看到了还是不错的对吧但是还有很多很多未完成的东西比如说人一天能够连续看到这么多东西就像这么多针

那我能把这么大的数据都输进去然后让他做一些事情就是之前的话研究就比较局限因为首先你模型也没有那么大输入也没有那么多所以我感觉多摩泰可以就是说这个引申出巨多的应用

我举个最简单的例子你忘了钥匙放在哪了如果你带了一个比如说智能眼镜它后面是大模型然后他把你一天东西全拍下来你就直接拿语言问他我的钥匙丢哪了他会在你之前的图像里面搜搜搜搜搜搜搜对我觉得这个是包括就是说比如说不但是你看到的你把钥匙放在桌子上然后你过会你说哎儿子你倒把钥匙放在哪这是说话

他会把这些信息全部集合在一起最后告诉你在哪这其实我觉得就是就更加符合人的这种思考和推理的过程好厉害突然让我想到就是一开始一开始我们聊聊了那 GPT 那个想法就是用自然语言作为作为那个输入的那个想法是不是就符合他当年的宏大愿景

对对对,我个人觉得就是这样子的他很早很早就看出来人机交互的新接口新入口是语言我觉得这个是很了不起的一件事情现在这些比如生成图片生成视频这种它都是放到大语言模型里生成的吗

现在有一些做这就是说比如说 openAI 做新的视频生成模型 Sora 它还是个单独的东西它并不是放在 gpt 里面然后出动 gpt 会帮助它生成一些数据包括处理一下语言但是它还是得专门做个模型我是希望在不久的将来能够用一种模型可以处理各种你想要的智能操作

比如说现在做生成图片视频还是利用大圆模型训练一个新的单独的模型是吧

因为毕竟比如说生成图片这个模块还是一个比较单独的这么一个部分以及生成这个图像里面有些细微的操作这个跟圆模型还是多多少少有些区别所以现在基本上还是比如说从架构上它就会有两进去做这件事情就是从公司架构上就是两个不同的组一个做大圆模型一个做比如说生成图片生成视频对大部分还是这种架构

但是至少从输入上面来说听上去大约模型已经大一通了对就是这种一个字一个字的输入这种方式所以现在它图片什么的过来其实还是一串东西它不是一个没有其他对毕竟地震机就是读这种东西对

我们说到刚才这个卷预训练卷完了卷后训练后训练就是老师怎么判作业这部分有什么最新的发展吗或者未来有什么大家的热点吗对一个就是我刚才说的这个老师这件事情现在还是人来定的因为什么是对什么是错包括 DeepSeek 那篇 paper 也写得非常清楚就是跟正确答案去比

那如何能把这件事情变成就是我用大模型真正的去处理这件事来说出什么是好什么是不好我举个例子啊我们在用大模型训练的时候就最近卷这个推理对吧大家都是比较火嘛做数学题会发现他写的越长越好

所以呢这个他是在训练中会有个自然现象但是发现模型竟然会这种投机取巧就是他为了获得更高的分当然这个不是他有意识啊这个是数学本身包括优化产生啊这这个就大家不用惊慌不是他他他脑子里面想的他会故意把输出变长怎么变长他就把一句话反复说 20 遍 30 遍超苏烨

像以前作文是有字数线下限然后我就反复把一句话反复说了那种对因为为什么因为我在优化的时候会跟他说你的倒数你想优化的方向就应该是跟奖励函数增大这方向是一致

诶它试了几次发现咦我怎么偶然这个就随便多写了一点咦这分辨高了好我就往长的写那后来就研究人员发现之后啊你重复是吧好我来治理就往里面加一个叫惩罚函数就是如果发现有这种几个词出现多次减分然后加了以后明显的这个现象就没了但是呢这件事情是人用人眼发现的

然后再去做那这个是非常的就是说不 artificial intelligence 我们希望那个如果是别的呢对吧或者是更 subtle 的一些就是不是那么直接的对人类不一定能发现得了微妙的更微妙的一些那怎么办呢或者你不能量化了怎么办所以我就希望之后的这个我觉得一个方向我也知道一些地方正在做就是说

怎么把这个奖励就是老师这件事能做的更自动不需要人去介入现在当然人介入也很利弊以前少了但是我认为真正要突破这个人类智能的话这个人介入应该达到一个最低点就完全让他自己去弄这个类比于α0 就下围棋就大家发现这个两个模型自己学吧学吧然后最后达到一个极高的高度

就是为什么就是因为他两个在自己学的话他这个速度会快很多因为这是电对吧电子 singularity 这基本上不需要人一接入什么东西都变慢了你想什么流程只要人在里面他可能就变慢了

所以我就支持一个方式所以需要一个 AI 的教导主任来看着 AI 对你说的很对听上去在数学上是有可能的有些可能是不可能是比较难的比如说有些我们人类的价值判断就人文都比较困难但是数学上听上去可能的有一天大摩星可以判断出证明对不对了之后你就

你就可以自己出题自己做了呗对包括证明这件事情其实现在已经有些工作把它形式化就是说所有证明我都可以用严格的逻辑推演它有一套自己的语言就像程序一样可以运行出来但是把数学证明这个都解了我还是不觉得非常惊讶因为

又是人专门为了这个做了一套系统非常的 special 非常的特别那我怎么就是更多的时候不是说普罗大众他关心的不是什么你这模型能得 IOI IMO 金牌这跟我有什么关系更多是你这个能解我生活中的一些一些事情比如说教我怎么教育小孩对吧这个怎么选我下一份工作这些能够做的更加智能一些我觉得这些是

是大家更关心的需要巴菲特去教一下一般的人教一下还不行对就如何让模型有这种巴菲特这种智慧而且能够我觉得真的我认为的 AGI 是它可以你真的信了好为你做一些好的决策非常关键的一些事情甚至跟你的生活

你的家庭工作非常非常非常关键的一些学测我觉得到这个时候它真的是一个就你你你把它当做一个非常

非常可以信任的这么一个导师智能体对这个时候我觉得他是达到了一些这现在还有有距离就有一个问题就是因为回到刚才的后训练预期链来说他还是他还是一个靠做作业做做题集做出来的这样的一个一个一个模型就是他

沒有根據說比如說你會覺得有一個值得你信賴的財產的諮詢師他會說我之前幫這些人做過財產諮詢他們都很好所以說你覺得他可以信任他但是現在這個模型過來說我做了 8 年高考 5 年模型你做得很厲害

但是你就不可能构建这样的新人对问题就是你如何替人类做人类做不到的事情这还是有困难的是吧对包括能做到的事情但是人要花很长的时间最近一个比较卷的应用 Deep Research 大家可能听说了用大模型去做一些咨询公司经常做的一些事情

比如说分析一下市场那他写个非常长的报告那其实呢底层来看是一些比较

起零火对吧你可能要看一百两百个网站看别人的报告最后得出一个很有条理性的报告那这件事情我觉得是蛮有意义的因为本身就是是一个比较繁琐但是呢又需要一定的语言的功底以及市场分析的才能去做像这些领域我认为会一个一个被干戈击破

但是之后就是下一步怎么走能够让他更加坚弱比如说做一些刚才说的是人能做到的那人不能做到是什么去现在已经有就是拿这个大模型去做一些科研研究那我觉得有点类似于三体啊就是让他让他去比如说发展出新的理论在新的理论上造出一些新的东西当然现在呢就是绝大部分的大语言模型因为我还并没有物理化

他能说出很好的一篇文章对吧但是他你你桌子上有张纸他也不能动或者怎么样对吧他他并没有跟物理世界联系起来当他跟物理世界能够联系起来的时候我觉得这是他更加强大的一个一个关键的钥匙因为他可以持续的从环境中得到反馈因为你如果大家想人因为我一直觉得因为我自己也有小孩我觉得我类比于小孩在妈妈肚子里或者包括基因都是育育训练

生出来之后然后你开始教他这是后训练因为我我一直觉得人生出来的时候脑子已经其实非常的聪明了

求或他不会跟你交流对吧但是一一压压的这不就跟预训练一样吗对吧要出来东西对吧出来这模型你还不能跟他对话但是他其实很聪明然后你跟他包括做题包括更多的这种反馈吗你不能这样你应该这样其实我我个人觉得呃呃大模型发展其实可以去借鉴一下教育学经理学这些其实是有一些这方面的研究但我觉得还不是很多当然你可以说

电脑或者计算机为什么跟人学习的模式得是一样当然不一定要一样这是不一样因为它是大量的知识灌到一个智能体里面去人是这种分散的对吧但是我觉得还是有很多借鉴的因为至少现在人还强于他对吧他是人发明的又不是他发明的人所以我觉得可以从这里面去汲取一些就是如何去让一个智能体更加智能一些精密

我们先说物理世界物理生世界先放一放因为物理世界很复杂我们之前有做过一期节目是采访一个机器人的专家他就说物理世界太复杂的原因是因为数字世界它的变量是有限的但是物理世界变量是无限的无限你觉得那个牛顿定律弄完之后他发觉超公速还有一个新的定律就是这个无限扩展的东西但是数字世界相对来说就是

变量式是有限的那么现在在现在的情况下面有没有大圆模型可以通过跟数字世界的互动然后能做一些比较 fancy 的事情

对跟数字世界互动我觉得还是挺多的比如说现在把它做之前希希也聊过比如说当做一个 character 和人去聊天然后获得一些反馈包括把大模型去其实你自己可以做一些事情比如说让大模型处理一些你的工作流当做你的 agent 帮你去买东西这些他获得反馈比如说他去 login

去登录然后结果密码错误了或者发生其他情况他可以获得他的非白这些都是这个数字世界的对他的一些反馈当然就是说你

完全在数的世界本身也是人创造的就这里面的一些入一些就怎么去有有哪些反馈有哪些规则应该怎么去交流其实都是人制定的还是一个相对比较人工的一个环境那物理世界其实很多跟人都没有关系就是他他是一个固有属性或者说你刚刚说的对就有很多未知的变量那这个就更难但是我感觉既然人能把这个处理好我相信这个

模型之后应该也看我看有的说法认为为什么这些 AI 做这些智力性的工作这么行物理性的不行是因为我们生物和物理世界交互几十亿年的历史从生物出现开始就一直和物理世界交互有几十亿年的进化来优化如何和物理世界交互而人类出现语言出现

高级智能就只有几十万年你从人类进化这个时间上来说是一万倍的差别所以说人类这个智力其实就是不行的因为就根本没有多少年进化而物理世界对于生物来讲处理物理世界就是非常厉害的人类作为一个生物几十亿年进化的结果对于和物理世界交互是非常厉害的这么一种说法

我感觉速度倒不是问题因为因为计算机的话他处理速度非常快他这个运行链这些数据可能人要花其实一年才可以读完这倒不是问题最大问题是这个没有相关的这个

电子化的物理数据来送给这个模型因为一个模型你可以认为的绝大部分或者他整个他就是由他见到的数据所决定他没见过那他就完全不会那么

现在几十亿年是生物很缓慢的过来但是这几十亿年比如说他摸了石头然后手疼了这个反馈它没有记录在记录在你的基因里对记录在基因里人生记录但是没有记录在电脑

可以理解的这种数据上所以他他就是吃亏啊所以现在再反过头来我去收集一些东西但是很难因为比如说我去打一个硬的东西我手会疼就这件事情你怎么去描述以及你有多少数据可以做这件事情得靠多少人去采集这种数据因为很多常识嘛这常识其实

小孩刚生出来他自己都会对吧这个写在基因里面怎么让计算机能够了解现在还必须经过这么一个人工转换的过程生物花了几十亿年不断的自然选择适者生存出来的这些东西我们要怎么能要交给我们的 AI 学会也是非常困难

也不能靠生物学会的道路那实在是太慢了得让他人类学会的道路我还蛮好奇现在 AI 的这些产品至少就聊天机器人这样的一个形式现在每天都有那么多的人的交互然后那么多人实质上他们每次交互都上去是个反馈这样的话会加速至少在数字世界 AI 的迭代

就会因为这么多人跟我反馈跟我聊天了之后那么我就这些数据那至少我应该知道是应该更好的聊天比如说每天的那些呃反馈结果可能会变得更好啊对这个是的因为呃包括很多做聊天机器人的这些公司不管是情感聊天也好或者客服聊天也好他们拿到大量的反馈去不断迭代他们的模型这个确实这样的呃但是呢我就说他他会变得更加适合更加懂聊天

但是不代表他更加懂物理世界或者更加懂解题这种因为聊天一般都是比较相对就日常生活这种交流你不会去跟他聊非常深刻的东西或者他就会变得越来越游子与花式对他很会说话很会逗你开心就是说你种瓜得瓜你给他什么信号他就怎么学

是一个非常因为模型虽然大家说是黑盒的我们还是知道它是什么的它这里面都是人定的所以它是通过数学那些推导然后去优化去做到了所以它完全是信号驱动你给它什么信号它就往哪走现在我们说是这个领域比如说是大模型或者说 AI 这个领域现在好像都分不太清了过去是

好像 OpenAI 一直独秀是吧大家都在后面追还在猜他们在做什么现在是一个怎么样的形式吗现在的话从公司角度来说的话现在也越来越多的大模型的公司后起之秀都追赶上来了就现在来说的话我认为个人观点第一名还是 OpenAI

但明显就这个这个差距已经比两年之前吧要小不少那么可能这新的公司大家都知道吗就是就赶上来这 anthropic 包括最近的这个 deep seek 包括国内我我我一直觉得国内其实做的非常好我国内的一些论文我都在经常阅读我发现他们做的东西做的非常的喜我很欣赏所以我觉得这边反正反而有一些就是说

想的不是那么深入可以大概举个例子什么叫做系吗我就举个例子比如说 deep seek 它最核心的算法叫做 gipo 然后那本身是一个公式不是个等式只是他自己去优化的话他用那个准则那里面大概有四五个部分

我看过很多国内论文把那四国部分研究到细到不能再细就是说这个部分其实你可以把它怎么调一下于是可以变得更好那个部分我们其实如果你发现这个训练出现这种情况的话我应该把它怎么改进一下相对应的我在就是美国这边并没有看到相对应那么细的做的效果很好的所以反而这方面我认为是

至少我知道的周围的有很多在学习这些论文然后把它拍到正在做的这个里面是有因为它反而已经是公开的这个知识了看来是这个国内确实是踏踏实实的做一些东西美国人喜欢讲大的大道理讲大愿景是吧对对对 big idea 要

small idea 不願意那什麽過去有段時間大家都是在猜 OpenAI 下一步在哪走現在還是這樣嗎還是說大家基本上都已經計算方向大家都已經確定了大家就還是看誰先走到對這個是我的一個觀點因為你如果把它看作第一名的話我認為是這樣就兩年前第一名和 23456 差很大它是這麽一個水平別人都在這

那在两年过后呢我感觉就是的第一名当然也有进步啊但大家都就是至少有可能四五家都已经到达了第一名的这个区域可以跟他拜拜手啊

但是我感觉还就是说第一名本身并没有一个质量的飞跃也就是说从 7i GPT 出来到今天应该已经有两年半了我不觉得就是模型本身有一个那么大的质变就像 GPT4 和 3.5 之间那个代差一样我至今没有看到所以这个可能也是 OpenAI 本身

研究到了一个瓶颈 OVI 也有很多问题啊包括他们一些人员的流失啊发展遇到各种各样的问题啊包括走势架构也出了一些问题啊但不影响它现在是第一但我更关心的是这个比如说大家期待的 GBT4.5GBT5

我现在我正在做吗这我不知道就是说我更关心的不是代号而是他真出来这个能力水平有多少至少最近出来的这个应该是 4.5 吧就是并没有 4.1 并没有达到我预期的这么一个效果就是没有达到一个哇又提升了一大截我感觉还是有些瓶颈子的

所以现在看来业界期待一个革命性的新突破现在还看不到这个其实蛮重要的不管是哪家做出来对整个行业都是有积极意义的那这个突破可能会在什么方向大家肯定在寻找可能整个行业都在寻找大家有没有看到大家认为哪个方向会有突破

现在大模型的话就是说粗看起来是不错你可以让他写写作文这些都没有任何问题但是就是说你要做让他做一些精细的事情比如说让他驱动你的 agent 做一个很复杂的工作流或者是让他去就是说让他生成的东西百分之百不要胡说不要瞎猜就是说说出来的东西都真实可好他还是做不到就是我希望不是说他这个

心思的这个 IMO 又得了满分这我完全不关心我关心的是就这些更底层的就是说更多人所关注的这些方面能够做好我觉得现在就是大圆模型还没有到这种翻天覆地的这种革命的一个主要原因是大家还对他不够信任对他不够信任并不是一个

大家的就是心理问题而且确实有些地方没做好他确实即使是最强的模型他还是会有时候会胡说所以你不能玩百分之百的去

去依赖它所以我觉得这个是我期待下一步模型真正突破的话达到 HR 这是一个我希望能看到所以大家往哪方面看还是预训练还是后训练还是有什么架构改变我个人觉得可能都要改变不是这种简单的 incremental 这种加法可能还是整体架构都要有一个革命性的改变对比如说它的数据

不是因为现在数据就是从网上来 download 了下来但是就网上数据和真实的人们这个看到的世界以及真实的价值观是有差距的那为什么模型会胡说那就是因为这个数据里面有胡说嘛那大家不负责任的在网上贴一些东西那自然就被他血去了嘛

包括现在有专门一个新的领域就相当于是师承 SEO 就相当于是在那边如何在网上散布一些数据能够被大模型 pick 从而能让我的产品被大模型推荐对对对就是这样有很多的数据清洗但是这个肯定清洗不干净这些问题如果在一开始灌给交给了这个模型之后你想在后续练你想把它掰过来那是很难的

一个人要基因出了问题你后面想把它掰过来那是非常非常困难的所以我觉得与其在但后面也需要了因为后面我觉得更多是一些微操然后呢可以变得更好但是他的根来源于他从最初时数据怎么来包括应该给他一些价值观其实这方面我知道就是比如说 anthropic 其实 anthropic 是一个比较看重这个安全性大圆模型安全性他们写了一个叫 ai 宪法

constitution of AI 有点像以前我记得有个机器人三定律什么不能阿希莫夫机器人三定律对什么不能伤害人什么听人指令的他就是写了一下你不能有提示不能就把这些东西放在他的数据的制作的过程中

来灌输当然这个也不能保证百分百但是确实是有有积极的意义就是让这模型更加的安全我觉得这些东西需要从最根本去解决了所以我就说需要有个革命性的改变因为

你要期待这个数据清洗突然有个非常神奇的数据清洗工具我也觉得不太可能因为这确实也很难那是不是可以就是说两个非常 model 之初性本善的两个模型互相学习然后就这样他学到东西更纯粹一些但同时你又让他能够听人话

到达这么一个地步我觉得这是一个可以探讨的方向把它变成一个 AI 的科学界让他们互相辩论是吧互相 peer reveal 是吧对而不是把人的一些糟粕的一些东西因为人总有那些邪恶的人或者怎么样会体现在数据上

而我们现在又是通过它作为载体来去训练模型所以就导致了现在的所以我们看看下一个大模型的整体架构会有什么翻天覆地的改变对对架构的话我觉得都大同小异吧这么多年穿梭嘛有一些变化我不觉得它是

它是怎么样的有点像外星人是长成正方形还是圆形其实不是最重要的听上去这个领域差不多了我觉得还差那么临门一脚上上有什么之前说要问的问题吗

对我觉得刚才 David 已经提到了我觉得从应用层的角度来看还是会有一个很大的代差你觉得它可以做很 fancy 的东西包括每次大厂出来新模型都会做一些 demo 但是现在作为开发者来说你不信这种鬼话了你 demo 做得再天花乱坠我还是不信因为就知道你要它百分百准确百分百可以就是很难

包括像有些比如做一些可以犯错的领域的应用还好但比如说做一些 finance 相关的那些公司基本上就是苦不堪言就觉得在那边去做 accounting 就一定会犯错而且一犯错造成的结果就是一定是很难去纠正和处理对确实是这样子所以我一直认为大模型本身是一个非常强大的通才 generalist

他懂得很宽散但作为这个具体应用或者你做应用或者你使用他你需要的他是一个非常精通的精彩专才你看就这么说专才那从通才到专才的这个过程呢很多人就觉得 OK 我我就写几个提示词这只是最初步的初步也就是说这个 last mile 可能这个只占 1m 1 米

那剩下还有好多那其实有很多比如说你这个领域的特有的数据特有的模型

怎么跟他能联系起来你这个领域所特有的一些要求他的比如说他的成功率要 99.99%他达不到你怎么去改这并不是改几个歧视词可以做的所以这些我我之前就是从业的话也是做了一些这方面的这个工作但总体说来呢我感觉还是比较繁琐也就是说这一套非常繁琐的东西做完了也只能干这么一件事怎么让这件事可以可以自我去复制

我觉得还没有完全自动化就是说里面还是有很多半自动就我去介入来来去思考这种能不能把这个过程

也变成让大模型去想当然这样想我就没有工作了哈哈哈至少现在还是需要大量的人工去做这些事情这也是很多很多科技企业包括就是说啊我们要刷大模型啊大模型很好看榜单很好结果又过来一世非常烂然后我我到底我骑虎难下我改了十版体识词都是很烂我怎么办其实里面有非常非常细的东西在里面就跟大家平时工作一样只是呢就是说

可能大家对大模型的容忍度可能没有对人的容忍度那么高比如说你雇来一个人你不能说第一天他工作不好你就把他给开了但是大模型真的你过来试一套你说这是什么东西但是人怎么就可以从错误中从包括整个比如说你去解药作为公司的应用怎么跟其他去磨合那人我们都面试了才能进来比大模型还能什么多了

那有感覺以後人在公司裏面做一個大模新人員工培訓師對而且這種培訓可能因為公司本身也在迭代你比如說你今天想做這個事中間有一個組件它更新了你是不是又得培訓一下這些東西

我觉得就是说要反复的去去迭代去做通财这件事情我不认为任何时候 100 年以后 200 年以后会有一个大模型他什么都不教拿过来就可以做任何的这个专才这是不可能的

但是就怎么能缩短这个这个过程就大家在平时工作中也也会有体会吗有些同事一交他就会了对吧有同事肯定要交交很久吗对吧那你可以把它作为一个一交就会了我说当然他都不需要你人真正去交就是说哎他看一下整个这个你这个配置的环境就可以去学了当然中间呢你可能会给他一些反馈啊告诉他什么是对的什么是不对的但我觉得就是说人怎么去思考他要学会这套本质的这个价值观

应该还是有用的现在我还是没有看到所以现在大家还是在一个就是这是一个高级工具嗯所以大家还有工作现在大家还有工作对而且工作就是更好一点吧就是说他可以帮你做很多事情吗就是这真好事吗

而且我觉得他即便以后进入到 David 出道那个版本那么人还是有工作人的工作更像是一个老师或者是一个前辈带你大概了解一下认识一下告诉你要怎么做只能工作就完了下一个阶段可能是这种状态

以及反过来,你可以让他教你一些东西。哎呀,反了,你给他打工啊。道反天纲。对啊,就是人可以去做一些更有意义的事情,对吧?比如说我们可以去,大家都去做一些慈善啊,对吧?这个让大家生活得更好啊,这个。他们给我们指挥,我们去送外卖,我们去送。他们决定我们去送哪家,我们去送哪家啊。

就我记得我们有一天在那边有一个很对我来说很神奇的瞬间就是我的电脑我开了 Devon 就是 AI 的代码编写助手我让他再帮我写三个不一样的 task 然后我自己本人在那边装我们办公室新进来的那个桌子你再给他 setup 好工作环境对对

我都是我们给他打杂了我自开始的时候有个问题我忘问了就是说我们第一个听起语言模型是一个我们过去的想法比如你一个语言模型可以翻译吧我给你个中文你翻译成英文或者说我给你做一件非常具体的事情对吧但为什么我们差 GV 出来之后发现他还能回答我们的问题

为什么这语言模型出来它还能就是它还很有知识你们作为自然语言领域的学者最开始看到 chat tp 出来可以做这些事情是个怎么样的一个想法

对话的话我们之前都有对话模型就小一些就简单的对话还是可以的比如说三五轮还是可以的但是就是你不能让他写很长或者聊很深这还不行对但是差点你可以问他问题啊那知识啊美国的首都是哪他会告诉你美国首都是哪是吧

这个以前模型也可以做的哦也可以做的是吗我们叫 QA 模型 QA 本身就是一个相当于文本总结的一个领域哦所以过去在 ChatGP 之前就有语言模型比如叫 QA 问答模型它就已经把知识都已经放进去了对但是呢一般考察它的数据测试级都比较小比如说都是什么地理知识

或者是历史知识不是能问 10 万个为什么像之前 IBM 很早以前深蓝不是在那边打题不是去干这个事情对这些还是可以做的哪怕在后面接一个搜索引擎也可以在 ChinaGPT 最开始出来没有引擎它也可以回答好像很复杂的问题对吧对这个是我个人觉得最重要的第一方面就是它大

而且它的大的超乎想象就是大于之前模型的 10 倍 100 倍就至少 50 倍吧这个量级然后他找到了一个成功训练这么大模型的一套行之有效的办法我觉得这是两个最重要的步骤

所以说对于一个自然语言处理的专家来说并不认为自然语言处理可以回答包罗万象的各种知识这件事情是一个对语言模型是一个很惊讶的事情语言模型就自然而然它只要它的模型学的语料里面有这些地理知识它又可以回答地理知识是吧

我们是这么看的就是说回答他见过的问题不算难但是能拓展回答一些他没见过的比如说我可以组合各种元素在一个问题里面我可以保证之前的数据里面肯定没有但他还能答对这个是其实是在卷域训练的时候有一个我们叫介月或者是叫涌现能力叫永现能 emergence

他就看了嘛模型 10 亿 20 亿 30 亿都不行突然到 100 亿开始他突然这个准确率一下就从 0%左右降不到这个 30%40%左右所以说在 Chad GPT 的时候他已经有很多的涌现了是吧已经有很多对的涌现其实就是因为因为 Chad GPT 才提出来就他突然打通了

所以在拆 GPC 之前是很少有涌现这件事情发生了是吧?之前我们基本上没听过涌现这个没有听过这件事情,但拆了 GPC 大家认为会涌现这种事情当你家里足够有钱了你就无所不能以前大家都不知道有钱的人生活是什么样子的就不知道有钱是什么样子的

为什么呢为什么这有没有思考就是说所有的解释就是只要模型更大就所有的好事情就都出来了吗量变到质变是吧我的超能力是我的超能力有些解释是这样就是说它其实还是个连续的只不过你看到是涌线是怎么回事一般测这种涌线就是用这种多选题 ABCD

这类似胡猜嘛 25%这种然后突然一下能够涨到百分之就很高了是为什么比如说 ABCD 里面 B 是对的如果你只看他答对的个数是突然涌现了但是你看到答对的那个的他因为他 ABCD 他每个会出一个选择的概率然后最后人去选那个他觉得概率最高的这个 B 是突然一下他到第一了但是他其实他概率一直在涨就这个涨的过程

是连续的只不过他一直被上面的 a 压着然后画他出来所以就说他本来比如说你一直第二名然后你突然变成第一了但是这个过程他其实是在是在是一个连续的所以我也更倾向于这种解释 ok 就是量变引起引起质变只不过看你最后怎么去评判这件事情

所以在自然语言方面你们也研究过也有很多学者也研究涌现这件事情是吧对就是说看模型在不同大小的时候做一些事情会有一个突然叫无法解释有点像电流比如说超导什么本来是没有电阻突然一下没有电阻对

大家突然发现在 ChatGPT 之后有一些它没有不是具体的能问答的不是有一个具体的问题的变一变就过去一个学过这个问题把问题回答稍微变一变你就可以答的完全没有过这个问题然后它通过几个问题之间它能够变出来你也能回答的 ChatGPT 是第一次大家会突然觉得就这样

对对对然后我自己体验一个让我第一次经验的时候是我在问他一些比如说我问他一些知识型的问题这时候我问他说 A 和 B 的关系如果我这么类比的话你觉得对不对然后他跟我回答说嗯可以这么类比是因为这样让我就觉得哇这很啊哈因为我猜想就是这个世界上可能从来没有一个人把 A 和 B 的关系和这两个事情做类比对对对

那我们就非常非常感谢 David 来到我们节目给我们以一线专家的视角以亲历历史的视角来给我们讲一讲大语言模型这到底是怎么回事过去这些年发生了什么非常感谢我学到了很多很多东西给我最大一课就是有钱就是能为所欲为谢谢大家谢谢 Stan

我忘了一个从来都问的问题就是我们一般会问一个我一般会问一个假期的问题就是说如果这个领域觉得这么好如果你想要进入这个领域现在应该做什么准备准备钱吧你要看你想做什么分几种第一种你想从零搓一个大模型出来

你需要很多的钱有钱也不一定可以因为你买不到卡并不是说你把 100 亿拍到 MVDL 然后 Jason Huang 就会给你卡他没有对吧他一定的把二手对二手也少别人为什么要卖呢好不容易最简单的还是让 Jason Huang 成为你的爸爸

对其实现在黄色起的 gpu 都很少我就说他们公司就绝大部分都卖掉了然后你需要数据然后你需要网络一批聪明的人大概是这样基本上是这么一个套路网络一批人是吗对聪明的人是哪方面聪明的人

最好是有这方面现在已经有这些有经验的人了没经验咋办对没经验那就是第二套了就是说这是普通人没钱的人对普通人你可以去从业你说我零技术他不要我怎么办可以首先就做一些跟这些相关的工作比如说像提到做一些比如说这方面的应用对吧从这个开始

因为做应用的话它有很多应用它也涉及到后行的所以有这方面经验之后你可以再进去然后再把你们每个环节都做一下但其实我越来越感觉做大模型的因为我是亲密的做大模型我有时候把它想象成很像一个航空母舰你在航空母舰上工作

你是擦泡台的那人是烧锅炉的就是每个人做的都是里面一小部分就在现在已经变成一个非常庞大的工程

不可能有任何一个人知道所有细节已经非常大了这不像我们以前做 model 啊就是从零做起我完全知道是每行代码都是我写的现在是不可能因为代码本身也很很长这个你要在那么多 GPU 上训练有专门负责 infra 的人有专门负责这个代码就是这个迭代的人有专门负责整理数据的人就说

很难说你你每一部分都会就这不可能了但是你可以你知道一部分就是说你很 specialist again 就是你是专才你那部分精通但是呢其他的你都知道一些就我刚才说的这些我也不是每一个我都是知道我我自己是也是做其中的一部分所以并不需要面面俱到但是呢我觉得就不管你是不是做这个行业的我就了解一下还是有有必要的因为否则的话很容易被一些

誇大的媒體所偷養對因為其實他們也不懂然後你又覺得他們說的很對那就會產生一些錯誤的印象台下聽我們的節目就像《紐約國》跑《考量報》這樣弘揚正能量和真實信息媒體只會報道又出現外星人了對

那就非常非常感谢来到我们的节目喜欢我们的节目请到各大泛用型播客平台订阅和收听那我们就后会有期下期再见拜拜拜拜谢谢

#136. 从自然语言处理到大语言模型 01:26:17 Share

牛油果烤面包

Deep Dive

Shownotes Transcript

#136. 从自然语言处理到大语言模型