哈喽大家好欢迎来到读书角落我是你们的主播人小李哈喽大家好我是你们的
好朋友越远那我们开始新一期我们第三期的播客了没想到这就走到了第三期对而且正好是三月份那我们今天的这个主题是要什么讨论呢我们今天要跟大家分享的这一本书呢叫做这就是 ChatGBT 关于 GBT 的这个书
是的因为最近它不是非常的火吗然后很多的就包括最近的这个 SORA 出来了对它的那个视频大家应该也看到了真的就很真一点都看不出来这居然是
用机器用 AI 去生成出来的未来再也不需要音频视频剪辑师是没想到居然就靠一个 AI 然后把这些事情全部都完成了所以说就作为可能不是那一个领域的大佬不是那种真的在高尖技术去
从事的人会对这个技术很好奇就觉得这个东西它要怎么回事它是怎么做到的对我觉得可能不只是我们可能很多人都蛮好奇的所以说今天给大家讲的这本书就是给大家
拜一拜这个 AI 它究竟为什么能够这么智能为什么它现在能跟人一样就这么的神奇这本书呢是由英国著名的计算机科学家斯蒂芬沃尔福勒姆去写的他也是人工智能领域的一个领军人物是非常有名的这本书是他专门就是写出来给大家就可以面对
稍微有一点点理论基础但不是特别懂的人就也能去看懂的这一本技术原理科普书所以说我们在知道有这本书之后然后就赶紧去读了所以说也想第一时间跟大家分享我们的一些读书的收获
对 是的 客观上来说其实我们也在这个行业里面有一些相关的工作然后一旦它出现这种新的发布特别是在这个行业里面还蛮有含金量的这个书其实也会得到一些关注吧对 那今天我们就请小李重点给大家说一说 Chad GPT 它底层的原理然后是怎么样让我们看到这么
意义非凡的一些呈现嗯那首先说可能对于听众朋友们来说可能第一反应是哎这个 AI 它是很厉害啊但是为什么那么多人去关注呢然后为什么我要去关注呢有可能这是大家在面对这一个技术它第一个疑问想跟大家先介绍一下其实
ChatGPT 它从跟大家想的不一样它不是说前两年它突然之间出现的其实它真的从非常早之前在零几年 2000 年的时候其实就已经出现了类似的应用了当时这一个应用叫做 SmartTrial 就是
就是一个聪明小孩一层成文叫聪明小孩他当时就已经有了机器学习的这一个模型然后能够与人进行对话当时的对话其实很粗糙的就你说多几句就知道他是个机器人了但是因为在 00 年还是一个很新的东西所以当时这个应用就已经吸引了 3000 万的用户这个机器人每天接收的信息就超过了 11 条
是在那个年代就感觉其实还是蛮新奇的 20 年 20 年的时候是所以就跟大家想的不一样第一个误区跟大家想的不一样它不是前两年突然间出现了它很早之前在高尖的技术领域大佬们就已经开始做这部分的一些研究和尝试去运用了
然后直到后面的这一个我们现在都知道 CHATGPT 的公司叫 OpenAI 嘛它创立于 2015 年当时最一开始马斯克还投资了这个大家应该都比较清楚啊但是后面它就退出了嘛就跟它就没关系了 2018 年 OpenAI 就发布了 GPT-1 的模型然后最后迭代迭代就变成了
前两年大家看到的 GBT 3.5 和 4 还有最近的这个 Sora 是这样一个链路是的整个来说它发展来说它其实走了很长一段时间直到最近还有了一些很惊艳大家的技术应用出现
刚才提到这个 Mask 它其实 OpenAI 是它创作的那后续它怎么不参加这个继续的投入了要是它继续参加的话它这一次火箭的升空说不定还能够
助力一下其实是去查了一些资料到没有特别可靠的结论反正当时是因为组织变动的一些原因吧然后可能跟马斯克本人的一些想法不太合他就不投资了但特别可靠的消息目前网上是没有的对这个只能比较黑箱透过
小李在这我还有一个好奇点就是那这个 Traded GPT 对你而言你是从什么时候开始注意到它的然后从你的视角来说这一些变化是怎么样
就是影响到你的一些工作觉得突然接触了这块就这有什么样的一个契机吗让你先从注意他了解他然后再到开始跟他就是工作上的一些接触
这一点的话其实我也是从他发布当时应该是 3 还是 3.5 发布出来就当时的对话效果已经很厉害了他能够上下文去理解你自己在说什么当时就也是大家都注意到的时候我才注意到但为什么我后面会加深对这个东西的关注呢一个是你也知道我们做互联网行业的其实
现在红利被吃的差不多了老板要打你是的就是你有新技术嘛其实大家也知道新技术的诞生它可能
也会带来一些新的一些额外的机会所以才说作为也是互联网从业的人就会对这个东西多关注一点说不定就对之后的就业也有帮助所以才去了解它
其实原来是这样来的其实我跟你也差不多我也是最一开始其实最早的那个太多火其实我也没特别关注我是直接等到了已经要出 3.5 的时候有一次呢我通过那个 circle 要查一个数我发现
他总是跟我说我报错然后我就让这个我们公司的那个 GPT 帮我跑了一下他不仅给我把我那个 Circle 改的特别的标准而且还帮我又额外的做了好几个我需要的看板
我就觉得哇这东西真太牛了因为就是像代码扣的这种和文字有不一样的地方在于它不单是一种文本信息类的这种连贯性的表达它可能还会涉及到一些本身文本和文本之间的这种信息推理这个我觉得还是挺牛的然后我也感慨说真的是生产力的创造性的工具对
是的我另外一点也其实就是因为自己一直有在写东西嘛我当时写的东西的时候最后一步你会检查自己的文章会梳理它顺不顺然后当时有尝试过把文章给到 AI 去改然后发现它改的效果确实还非常好
对就他会把我一些词语不好啊不从顺的地方都给改过来当时就觉得哇这也太省我的时间了吧我就不用一句话一句话去检查了这样子也会说被这种这种新的那种改变给震撼到
对对听上去真的是很厉害那就我们接下来就接一接这个后面神秘的实现吧看他究竟是怎么实现的通过这本书对了解一些更底层的东西
是的所以说那我们就讲到这本书的重点内容了主筹能力究竟是什么呢这本书它的流程是跟你说几个大的底层框架然后再给你介绍 TradeGBT 是怎么做我不想按照它的那个顺序去说因为按照它的顺序来说就太干了大家听了估计要发困了所以我们
从两件事去理解首先 TrackGPT 在跟我们对话第一个它是怎么来听懂我们的话它怎么听懂你在说话第二个它是怎么回答你怎么理解你说的话并且它是怎么做到能够回答你说的话还能说得有模有样所以我们就进入第一个 TrackGPT 是怎么
怎么理解我们的语言的大家之前应该有试过那种给电信啊那种运营商去打电话打电话说他对面会跟你说什么查询话费请按一什么什么请按二对以前就是你会发现你跟这些机器人对话必须得按照他的规则来说不然他听不懂你在说什么一呢你就发现你就按照你平常说话的风格去讲话他都听得懂
背后的原理就是 transformer 架构就是这一个东西我们可以先把它简单的理解为转化器它是一个转化器它的基本的原理是
encoder 和 decoder 是编码跟解码它先把你讲的内容转换成计算机能理解的内容它再把自己它把你的内容理解了再转换成你能理解的内容
就是先把用户输入的信息先转化成为一个他能理解的东西然后再用他能理解的这个能力再去理解转化回来这个内容
是的那我在这儿有一个问题如果说我在日常生活中也会比较困惑比方说我说我想去买一个买一斤苹果就是李子的苹果苹果梨李子的这种苹果和
我买一个苹果的这个 MacBook 那如果是 XGBT 的话它如何去区分我这里面提到的苹果是一个是吃的苹果一个是电脑苹果它是怎么样做到的呢
我觉得这个就是他很重要的一个技术理念了就这一个怎么去实现能够去理解你准确在说什么他的背后原理就是多头注意力这一个概念
对它这一个东西呢其实也很简单就是能够结合你的上下文去理解你买了苹果和你买了苹果 MacBook 两句话在不同的上下文中苹果它究竟是怎么什么一个含义它能够让模型在处理你的
话的时候更集中于内容的某个或某几个词语然后对它进行加权处理从而推断出你整句话的准确含义所以我们整合一下理解一下就是 TouchGPT 用多头注意力这一种技术方法能够准确的理解你说的每一句话的意思
那所以刚才那个场景下来看的话比方说我去超市买了一斤苹果因为这个苹果呢它带了一斤它跟一斤的这个关系关联更强所以从人的这个理解我们很容易就知道是买的是吃的苹果从机器的理解它有自己这个编码能力它就可以把
苹果已经联系在一起知道这是要表达去超市购买的这个可以吃的苹果而在苹果 MacBook 这个产品的情况下由于 Apple 下面它有 iPhone 啊 Podcast 啊还有这个 AirPods 啊还有这个 MacBook 所以有了这些关联它更容易把这个场景这个情景当中的
苹果和 MacBook 去理解起来是一个科技的产品所以说为什么它能够变得理解你呢它能够理解你说的话了这就是其中一个非常主要的技术所以这么理解下来的话感觉到机器它去理解我们人的语言和我们认为机器可能理解了人的语言还不太一样对吧
因为我们的理解是说看到了机器说了跟人一样的话我们认为它也是用我们这种思维方式去推理的但其实呢它是把我们一个非常长的句子拆成为了每一个词然后每个词的每个词之间的根据它的一些计算原理
取了一些更相近然后经常在概率上面更连着使用的这个词变成了一个词组可能才拓展成为一个句子所以当我们给它一些输入的时候它会根据我们给的这个输入再结合我们输入这个句子里面的每一个词去拓展相应的更一丝靠近的这个或者是关联系数更大的这些词句然后再去呈现出来一个完整的对话效果是这样吧
是的这里就其实涉及到我们后面要说的他究竟是怎么说出人话的对那我们就刚好就顺着继续往下说了他家人首先第一个把你说的话给拆出来然后转码成就
他能理解的东西然后结合上下文理解了理解了之后他就应用怎么回答你的我们接下来来解释这一个东西其实就是 checkgpt 它究竟是怎么生成我们想要的答案的呢一个非常简单一句话去概括就是他其实在做完形填空我们在做完形填空的时候大家都知道吧我们会阅读
这一句话嘛这句话里边不是有一个词它是空着的吗然后你是会结合它这一句话它上下文去理解一下这一个词大概率这时候要填什么对吧其实 ChurchPT 它就是在做这件事情它就是在理解了所有的对话之后它会开始算
概率上它应该接什么词然后每一个单词下面最接近的下一个单词是什么就比如说猫吃鱼可能你先给出一个猫吃然后给到它那可能它就会开始算吃的下一个单词会是什么可能是鱼
是水还是肉他可能就算一下这三个字哪一个字大概率是要被接上去的所以整合一下他就是在计算这一个每一个词后面大概率要接什么相当于是根据前面的句子去推断后面的这个接下来几句的这个词的词应该是什么对所以说想要理解说他整个生成
答案他说人话这一个逻辑我们会有三个核心的概念我就其实我看了很多相关的技术架构啊好多文章对然后他的技术太多了老实讲他的技术非常多但是我觉得我看了那么多我觉得核心就理解三个大概念就能大致的知道去做什么了那哪三个概念呢
第一个是概率第二个是模型第三个是神经网络
对我们今天就掰清楚这三个概念其实就大概都知道它是怎么一回事了至于太再细一层的比如说神经网络里边它又有几种细分的神经网络就不在话下说了只要说了我们又不去调试这个 AI 是吧就是对就不跟大家去说太多的太复杂的我觉得可能应用性也不是特别强的东西嗯
那概率是怎么回事呀我们刚才说了嘛计算机它会根据前面生成的词来从概率上推断最接近的下一个词语是什么这个概率它是怎么来的呢它是概率有两种方式就第一个可能大家都想到的因为它会在网络上读取很多很多的数据资料嘛那它可能就去爬取了几千亿个词啊
很多很多的词然后通过这一些词的比如说他们的之间一些关联性去算概率但这个方法它最大的问题是即使我们只拿 4 万个常用词但你这样子结合的算一下它的二元词的数量会达到 16 亿
我们网络上的数据资料实在太多了如果说真的说生掰每一个词它的概率什么什么的话这一个量会非常非常的大这可能这 GBC 这个东西就出不来了
现在科学家们用的方法是建立一种模型就即使我们从来没有从数据一些文本语料库里面明确的看到过它但我们也能结合某一种模型去算出它大概能出现的概率是什么
就是通过已知求未知然后已知已经有了非常通用的解法或者是有扎实的预期了然后再应用在一些未知的词汇上也有比较好的拓展性
是的那这样子对于机器人来说它无需承载那么大的一些数据量也不用去算那么多的东西它只要有一个模型就利用这个模型它就能得到很多词的一些解法
所以就顺着刚才说那刚才就说到他会建立一个模型去算概率嘛你算概率的话模型又是怎么一回事呢所以这里会有一个我觉得这个是书本里边给到的一个例子我觉得非常方便大家去理解模型这个东西
就假设你是伽利略嘛就可能你现在想说你去比萨斜塔去每一层你想要知道你扔一个炮弹下去从一楼扔和跟八楼扔它分别需要多长时间才能落地那你可能就是说嗯
最笨的方法是不是你一层扔扔一次算一次二楼扔一次算一次对吧一直这样子每一层都去扔但是你也有一个更方便的办法就是直接建立一个模型就可能你就单取几个数但是呢你
通过这里已知的几个数然后放入在这个模型里边然后去计算出它的每一层的结果你可能只扔了一楼五楼和八楼但是你拿出你已知的数就放入这个模型里边去算可能剩余的楼层它大概的时间是多少所以说它所以说我们就可以大概应该脑子里就可以得到了它就是有一点像函数我们平常的 XY 轴
相当于是把一些关键的点它做了标记和计算然后用这些点去这些每一个小的阶段去反推更短暂的这个预期所以我我们把该的内容整合一下就模型我们可以就非常简单的理解它就是我们
之前有见到过的 XY 轴的一个函数对当然它实际上不是这样子但是我们简单的理解一下它可能就是这么一回事了解了所以说你的样子
所以说我们刚才说的这是一个数学的模型嘛换到 GBT 来它其实就是一个语言模型就是我们大家说的但是因为 GBT 它的模型是非常大的所以它是大语言模型就是大家常说的 LLN
对这就是所以说大家到这里应该其实就能理解了大语言模型它是怎么一回事为什么它会有大语言这个为什么大语言模型会诞生以及它大概大概可能是个什么样子它在做什么事
所以我们整合一下我们刚才说的就语言模型我们可以简单理解在做三件事情第一个是估计一个
序列它语言上的合理性或者说是概率然后第二个是它会根据你给到的先前文本序列去预测下一个可能出现的词或者字符从而生成新的文本第三步就是它不停地去调整把它调整得更合理是这样说就更
清晰了我们从普通的用户的视角也可以理解它背后的一些实现对到这一步的时候科学家们其实还遇到了一个卡点就是我虽然能够通过上一个词去
推出下一个词大概率是什么但是当它的文本很长的时候你会发现虽然下一个词跟上一个词是有关联的但是它文本一长了它跟前面的词可能就失去关联了它可能会生成一大堆文字但是你读不太懂
对有可能是就是他只是在推测上一个词但他所有的东西集成在一块的时候就会变成一大堆字但是又没有什么顺序
那它怎么做这个顺序是吗对 它接下来就会引出我们刚才说到的第三个概念神经网络那神经网络呢它其实大家都知道我们的大脑里边也是有神经元嘛然后每个神经元不是会连接在一块吗这就是我们大脑里边的一个神经网络然后科学家们是
通过了就是这一种大脑结构的启发所以就也在计算机的脑子里边去安装了一个神经网络想要理解神经网络呢我这里也给大家提取了一个最核心的技术概念就理解了这个概念大家也大概就知道神经网络是怎么一回事了它就是在获取到我们给到 GBT 的
输入内容之后它是会转化成它自己能理解的话你可以理解它可能就是转化为了一串数字然后它会把这一个东西去成语相应的权重
然后并加上一个常数最终得出的一个结果就是最终你看到的 GBT 给你的内容比如说你想买一个苹果电脑去哪买它通过把你的实话转化成一串数字都乘以一个权重再加上一个常数最后得出了一个函数假设说是币吧它这个币再转化成你能理解的文字回答给你你要去哪里买
这就是整个神经网络在做的事情而这里边一个最重要的概念就是权重他是怎么能够知道说他要给你回答说你应该去哪里买
权重的基本思想就是它会提供大量的输入和输出的样例供机器去学习然后尝试找到能够附现这些样例的权重就例如说我算 X 和 Y 照理来说你希望的结果可能是 Z 你可能需要它告诉你说你要去哪买
但是结果科学家在调整的过程中我给计算机 X 和 Y 他给出了其他的 AB 他发现结果差异很大那这时候工程师就会去进行一些优化调整直到调出来我输出给计算机 X 和 Y 他一定能得出 Z 给大家整合一下
我们就可以把这个过程简单粗暴的理解为提海战术大家想想我们平时在学习中是不是会通过提海战术然后对题目类型啊考察的基础处知识和逻辑进行深入的了解那这样子我们只通过大量的刷题之后
然后到考试遇到新的题型了,我们才能知道,原来这道题它应该用什么知识,它要考察我什么,那我们是不是就能答出这道题了?原来是这样。所以 GBT 它也是在做这一个题海战术,而神经网络就是它完成题海战术的这一个方式。
通过神经网络这种结构化或者系统化的处理让他更高效的去掌握这些考察点所以就是整的下来给大家总结一下他就是通过提海战术然后不停的去刷题刷题然后就知道你问这一个东西的时候我应该给你回答什么
最后给大家拓展一个也是比较重要的技术概念叫做 RLHF 它就是以强化学习方式依据人类反馈来优化自身语言模型的一种东西简单的可以这么说首先它有一个预训练的语言模型它会有一个大语言模型然后第二步它是会创建一个
和训练一个奖励模型这一个奖励模型的目的呢是为了评估语言模型生成的文本质量它会通过人类对模型输出的反馈来学习因为这个东西大家一开始 GPT 刚出来的时候大家不是会说嘛就是说如果这个 GPT 跟你说的不对了你就直接跟他说你回答的不对你应该回答什么什么什么
这个其实就是我们在给 GPT 反馈然后帮他调优的一个过程当时我们就在充当这一个人类评审员的角色然后在帮助他不停的调优优化他的表达说了这么多大家可能有一些晕那么我们就这里给大家再总结一下这个
背后的技术原理是怎么一回事首先它是怎么理解我们说的话的第一步你说的话它会给它拆分成一个个的字或者一个个的词拆分之后呢它会编码编成它能理解的一遍就是你可以理解它可能就编码成了一串数字然后第二步它会有一个多头注意力的一个概念去结合上下文去正确理解说的话
然后呢到了理解完了之后它会生成你想要的一个答案那首先第一个就是它会去建立一个模型它去算你概率它这个要生成什么答案然后每一个词后面大概率要接什么词这个就是模型
然后这模型里面怎么算呢就会涉及到我们刚才说的神经网络的概念它其实就是一串公式刚才说的你想买苹果电脑我要去哪买
然后呢他会把它转化成假设说他转化成 X 和 YX 和 Y 之后他就放到他这个神经网络里面去算他会成予一个权重然后再加一个常数最终得出了一个结果 Z 返回来给你去拿买电脑但是怎么说做到能够准确地回答你这个 Z 他其实就是通过对网络上大量的数据学习也就是提海战术去不停地刷题从而
理解你这个时候可能想要他回答什么答案对一方面是学习已有的这个数据信息另外一方面是根据我们提问的信息去反推跟我们想要的预期更符合的这个场景的答案对 是的 玉玉这个总结的特别好
就说完这些技术原理之后啊我们就还想跟大家聊的就是说既然这个东西这么厉害那么它现实中实际上我们有没有看到比较好的 AI 实践在我的一个观察来看我想分三大档三个大种类跟大家说我
见到的一些比较好的 AI 实践首先就个人开发者这一块我看到比较好的 AI 实践叫沉浸式翻译
对它其实是一个 AI 的翻译软件但是它本身不是说因为是个人嘛你没有什么去调调 UAI 的能力但是呢它是通过对用户场景的细分切入就是它找到了一个特别细分的用户场景然后呢去设计了一款
完全贴合这个场景下使用的产品然后再接入了大模型的 AI 翻译能力然后去展出了这一个 AI 产品这是我看到一个个人开发者上面比较亮点的一个 AI 实践就是它让我感觉到了
原来个人开发者并不是说完全不能去做 AI 的东西的他其实也是有一个切入的机会的原来是这样正好有一个乘手工具可以直接来用对那第二大类就是大家可能就有所耳闻的一些 AI 的独角兽公司比如说 KimiChat 然后还有就是海外的一个 Monica 就是
他们的这一些也是细分场景的切入比如说他会在某一个能力上面比如说 Monica 他在文章调整语气调整方面他会做的更贴合更细分然后像 Kimmy Chet 他其实他会基于更国内用户的一些使用习惯他会给你一些更符合国内用户需要的结果就如果你用过 ChadGBT 和 Kimmy Chet 的两个
产品的话你可能会感觉到有的时候 checkbt 给到你的答案
不是那么符合你的需要但是 KimiChat 有的时候他能更知道国内用户他需要的答案是什么最后一个大类就是大厂啊大厂上面就是不是说 OpenAI 这种大厂比如说飞书文档最近我看到他们也有做一些 AI 的介入比如说能给你的表格去自动生成一些分类就可能你在
梳理一些数据的时候不是会梳理说这个数据是比如说它的分类是 A 分类这个数据它的分类是 B 分类
然后微数文档它就做了就是能够自动通过你写的内容去识别这个内容它该归入 A 分类还是 B 分类那真的很聪明对对对我去用了一下其实整体效果 70%左右的准确率吧我个人还是蛮满意的了就比我想象的要好真的很棒
对对类似于这一种我觉得还是蛮亮点的就另外一个是 Cover 有点像国内的搞定设计啊它就是能够在你做图的时候加入一些 AI 功能比如说你用笔刷去选中人物的头就你的那个人物的头你给他刷一下然后给 AI 说你给这个人去加一点帽子然后 AI 就把这个人的帽子给加上去了
它就是就我觉得也是一个很省时然后也很亮点的一些新增的 AI 功能很有意思对所以说我觉得在这一块想跟大家分享的就是我在不同
种类的 AI 开发者上面去观察到的一个现象一个就是说对于个人来说你可能就几个人你想搞一些 AI 产品我观察下来可能比较适合的道路就是类似沉浸式翻译这样子你找到一个绝对细分的领域就细分到大厂也不是很看得起的绝对细分领域去切入然后接入
切入了之后你做一个嗯用户他会很称首的一些工具他会使切实能够解决用户某一方面痛点的工具然后再去接入 AI 的去接入大厂的 AI 能力这样子就能够实现你没有任何 AI 的调试技术的同时也能去就是趁着这一股新的潮流去做一些自己的产品然后
吸引到就类似啊你的这些用户群的注意对是确实很有用所以说这就是我觉得观察到的一个还让我挺耳目一新的一个产品吧最后就是大厂这一种虽然不是
AI 层面上的大厂不是 OpenAI 这种大厂但是本身在互联网时代已经发展起来的例如说字节腾讯这一种然后这种它可能更多的就
我观察下来更多的就是在已有的产品上面去嵌入 AI 的能力比如说飞书他就选择了在我已有的飞书文档上面去嵌入 AI 能力像腾讯的微信读书它本身就是一个发展的比较好的 APP 了他就在我 APP 里面去嵌入 AI 的能力就大厂大部分不会选择去新做一个 AI 的
工具让你另外下载另外去用他更多人会去选择在已有的你已经在用的产品上面他去嵌入 AI 的能力然后帮你去提效然后帮你去就解决了你的一些问题这样子对 是的所以我觉得整体观察下来现在整个 AI 的一些发展的一些趋势就可能我观察到的就分享给大家
那说了那么多那月月眼中有没有一些比较亮点的 AI 应用呢对其实我这边主要都是一些内容层面的应用像刚才你提到飞叔我觉得他的应用呢就是比较更深入的切入到用户的使用文档的习惯里边吧除了你刚才说到这个表格之外还有就是我们现在在用这个
飞鼠机要飞鼠妙计导出来之后呢他就可能会跟我们智能去做一些总结分一些章节然后有些智能方面的这个提炼以及他还有一些实时翻译功能但我看现在同学会议啊什么的其实也有这个就是大家在这个上面都是齐头并进像文档的话呢就是不知道小李之前有没有尝试过就是在分枢文档上
你输入一个标题然后那个机器人就会出来给你输出一个还不错的就基于这个标题的纲大纲这个文档主要想说什么然后分几个部分我觉得还蛮有意思虽然有的时候不会用但是它的一些输入其实会给人一些灵感在这个地方还可以有这样一个视角出来还挺容易激发创造的
是这个确实有体验过因为 notion 也有 notion 它出的其实还更早然后我有的时候想不出来我就会让 AI 先帮我写一段话然后我再对它确实能够给我一些灵感去做对所以我觉得当时还挺喜欢这个作者他提到一句话就是嗯
这个 AI 的这个工具其实未必就是完整的就颠覆了人所有的工作或者是产出它反而呢如果用了好它可以让我们的工作变得更有创造性因为本身我们就是其实相当于是有了多位的这个视角去帮助我们在比较短的时间内快速去获取更多元的信息这种能力所以其实也是一个挺
有效率然后还挺创造的这样一个工具这个是文档的部分
还有一个刚才小李其实提到了比方说拿一个笔刷在人物头上刷一下然后这个人头上可能就多了一顶帽子说你一些想让他生成这种图景所以其实我们做内容理解的时候也会去做这些尝试给这种创作者提供更多的玩法比方说创作者就是想要发一张图那其实这张图我们希望他更有创意或者更有
创造场景或者和他的消费群体有更多互动我不知道大家有没有在那个小红书上见过就是有一个人他上传一个作为创造他上传一个图片然后大家说把这个彻底子给我批成我吃不起的样子那
下面这个他的粉丝消费内容的一些人就会基于这个图片去做各种各样的构图其实如果去做构图的话他的这种想象空间会非常大然后会做成在不同场景下这个车厘子他的
价值点它是怎么样的一个被皇家怎么样就是放上去或者是它本身这个颜色可能就是从一个普通的这种梅色变成为一个金黄色或者是完全是一个金雕的这样一个样子就是非常的丰富吧也是为了让社区更有激发创造力
然后还有一种呢其实刚才咱们俩也聊到其实在现在的内容我们现在看起来就文本就是文本视频就是视频然后语音就是语音在 AI 这个视角里面它可能会把所有不同的内容类型都做一种整合比方说我这是一个视频我们俩
拍一个小不中短视频但我们为了让这个短视频究竟讲的是什么呀这个信息更快的然后让用户获取那可能通过 AI 的这个技术它就能够一键
说出这个总结的结果对而且我看到 B 站其实也有这种能力嘛就是小李其实开头也提到了在这种中长视频的场景会有这种小助手来帮大家整理一下这个 up 主主要说什么然后给我们什么建议就感觉到还是蛮有效率的是吧
嗯所以就是月月现在在做的其实就是一些面对创作者的 AI 提效工具对嗯哎我觉得这个还挺不错的耶就是能够给大家一些不同的内容价值然后我觉得最重要的是刚才说到的一种呃
比如说文字转图片转视频我觉得这个会特别好对而且你看那个 Sora 它呈现的形式其实它本质上也是通过一些文本信息输入然后生成
生成式的这种视频内容它虽然本质上的底层原理是较为相似但是前后用到的这个能力还是有一些差异吧它的差异这里会是我记另外的一个问题它的差异会是在哪里
一个是比方说视频转文本我们其实理解的主要这个视频的语义那视频语义我们通过两个方式去拆这个视频其实视觉效果是通过每一帧的这个图片去构成的这是一个内容载体另外一个载体呢就是
语音信息和文本信息因为我们在去录这个视频的时候其实我们会发现他很容易就给我带上这个字幕嘛那我其实这个语音和文本信息它是相互通的就像我们的语言和这个文字一样它是互通的那我
我们更好的去做视频语义的理解的话通过把这个视频拆成为这两个元素对这两个元素做理解其实我们就能够很快的拿到它的核心信息需要的只是后面有一个大模型的能力让我们把这个整理出来的这些含有语义的信息给它生成一个总结的概括的话术这样就是一个视频的理解的过程
在这个过程中大模型其实是在一个偏后的位置但是如果是像 Sora 这种从文本到视频的话它本身是一个倒着的过程但是视频本身但是大模型出现的时机会更前置就是它首先得去理解我给的这个 prompt 是什么然后我
我基于这个 prompt 我要拆解成为哪些元素就是我们刚才说到的几类题材然后每一类题材我要使用哪一种能力去建构我这个视频的元素它可能有哪几个典型的图片可能在大模型这个视角它不会像我们人类一样理解每一个视频的单元是一个图片而是一个过程
或者是一个过程的视频那它通过拆解我们的这个语义把每一个过程的这个视频做了一些拼接然后再配上相应的这个语音或者是文本就构成了一个我们看到的这个在线上分发的 Sora 这种视频就是说
链路看起来一个前一个后是比较相似的但是在大模型前置和后置它介入的实现能力其实会有一些差距对在 Sora 上应该用到的核心技术就是 click 对
所以我理解后者这一种文本转视频的能力对大模型的要求是更高的前者其实重点是不是在把视频转化成文字这一个过程这个能力是你们自己的是吗
然后成文字了之后然后再让大模型去生成一些东西对 是的它两个用的这个能力的版本可以理解为一个是 1.0 一个是 4.0 而且
而且从文本到视频再由视频再就是从这个视频到文本再由文本到视频这个其实我理解它像一个跃迁一样的工具因为其实像《搜尔之鼠》所以那么惊艳它不是说我们现在做这种视频剪辑是
通过图片一帧一帧的去拼的而是它背后确实是有一个推理的过程这些推理的过程连接了不同的视频模块然后基于视频模块去组成了一个视频这个有兴趣的话我们后面可以单独再给大家介绍一下我也是一个学徒因为我们其实现在工作也还没有涉及到
Sora 这一个非常完整的面部好的就如果大家感兴趣的话就记得给我们在评论里边回复就看大家如果感兴趣的比较多的话会出后面的播客会跟大家再详细聊一聊哦
那我们说聊完了最近对 AI 的一些实践啊一些看法之后我们就来到最后一个部分其实普通人在这个 AI 的时代浪潮下面我们应该怎么做呢其实我们普通人就是像 AI 训练 AI 模型这种
特别高端的一些技术已经我感觉普通人的机会是比较少了对其实就我个人看来我们可能更多的可以在应用上面去挖掘那就是想跟大家分享一下这本书作者给个人的一些建议就他认为首先我们每个人尽量都去学习使用工具来做事
就尽量把自己能提效的地方还是去提一提然后节省更多的时间去挖掘新的可能性去定义对自己真正有价值的事情
对第二点他分享到的就是说他的原话是知识广度和思维清晰很重要但是他说的这么一句话我就基于整本书然后理解一下他的意思应该就是说我们要尽量去懂得更
更多很多很详细的内容呢如果我们不是说考虑去做专业化我们可以去给它大致的略过更高层次上的东西我们能够广泛深入的思考尽可能去调用我们的一些知识和范式就是这里的知识和范式我认为是理解成
一些通用的一些逻辑去做整个事情的理解就类似于类似于像比如说大家都知道的公子兵法里面会有一些比如说
一些策略嘛它是一个不仅能应用在战争上也能应用在生活中的就是说应该去多调用这种大的一些实用的一些底层的逻辑然后去学习和工作当然这是作者本身的一些分享出来给大家但大家也可以去辩证的看待第三个点就是他说要
从回答问题转向学会如何提出问题其实提出问题就是说你要懂得哪里有问题哪些问题能够值得被提出也就是你要从一个执行转向一个战略就是可能在这种 AI 它能慢慢替代一些执行工作的时候你要慢慢的去转向对战略上面有一些思考对非常的有帮助感觉是
月月在这方面有什么想分享的吗我觉得有很多时候呢就是也不用让自己特别担心害怕所以一个就是大家觉得这个有冲击了对我们一些行业会来有非常大影响
我觉得这是因为大家对它其实了解不多或者是了解没有那么深就是只是听别人说 AI 来了你怎么怎么样会怎么颠覆其实确实是会像最十九世纪那个工业革命一样它确实会颠覆一些行业但是它颠覆的是这些行业的创造
创造或者是发力点而不是把这个行业整个毁灭了那就算我们知道以前有这个纺织厂这个女工吧就所有的这个出纺织都是依赖于女工去做但后来全部都是替代了并不是说把这个行业给干掉了因为我们毕竟现在每个人都在穿
我们就正好让自己数起来
更能够有这种驾驭感让它为我们去服务这个是当前可能对我们每个人来说都挺重要的一件事那后续随着这个 AI 肯定还是会继续发展然后我们的社会也肯定会离不开它我们可以再去寻求适合于自己更多更新的这种赛道但前提是我们跟这个工具已经使用的非常熟练了
这个是我觉得就是一定要动起来的一个比较重要的视角吧到这里我想就是再细分一下说对可能我们俩都是产品嘛可能细分一下对产品的一些与其他没有在做 AI 的产品对这一波该怎么看分享一下因为我自己也在做一些 AI 的项目其实感受下来是说
本身 AI 是一种技术能力然后就算是再好的技术他想要去商业化想去变现也是因为他解决了某一些用户的痛点所以产品在这中间虽然你需要去懂 AI 的东西了但是占大头的还是你自己本身对用户对业务的理解程度就你还是得能发现用户痛点在哪里呢
能够懂业务去怎么转你能够去设计出一个解决方案在你的解决方案上面加 AI 是你整个使你整个解决方案更可行或者说使你整个解决方案是更好更棒的但是如果你前提没有对用户的观察没有对业务的理解的话你只懂这个 AI 其实它还是不够的所以我觉得从这点上观察来说我觉得对产品它
也不用特别特别的去焦虑就是你原本没有的一些对用户的观察你的洞察你对业务的理解它还是会为你派上很大的用场的对没错特别是这种基本功对其实是机器无法去替代的因为本质上我们还是人
要是那个最真实的创造者对就像月月刚才说的 AI 创作作者的工具嘛其实就算想要做出来你也得懂创作者他在做什么他究竟需要什么样的 AI 体效工具那么我们今天关于这就是 TrackGPT 这本书的拆解和分享就是这么多了然后希望今天这期播客能够给大家理清楚
GPT 后面的一些技术原理它的术语等于是怎么一回事然后也能够给大家分享一下我们自己我们俩最近对 AI 一些情况的一些见解和分享希望能够给大家带来一些启发
咱们的下一本书就是月月这边会给大家分享幕后产品应该很多产品人都有读过耳熟能详的网易云音乐的产品经历
写的这本书对当时就是在他的手里啊网易云音乐发发展光大发扬光大非常的经典的一本书也非常值得我们去学习的一本书那么下一期会给大家做这一本书的分享如果说你不是产品的话其实也推荐你来听一听因为做产品本身他并不是说
有了互联网才做产品其实我们就算你是做一个小生意你其实也是在做一款产品你需要人来买需要人来给你付费对吧都会涉及到一种产品的思维就非常欢迎大家都可以来听一下
对我也觉得小雨这个说的还是一个非常重要的视角就是我们其实读书很多时候不一定是因为领域限制我们的一个选书而是不同领域的书其实都可以去贡献我们在不同领域的价值和思考
今天的播客就大概到这里就结束了感谢大家一直收听到现在然后如果你对我们播客有任何的意见反馈都可以在评论里边留下来然后如果你喜欢这期播客也记得给我们点赞哦好的好的感谢大家的支持那我们下期见我们下期见啦拜拜拜拜
嗯