"我"
各位少数拍播客的听众朋友们大家好 欢迎大家收听最新一期的节目 我是 Nick 大家都知道最近 ChatGPT 特别火 包括我自己在内也在研究很多关于 ChatGPT 还有类似的 AI 模型的一些玩法然后我最近也确实通过 AI 学到了不少知识 也确实拓展了很多新的应用场景
那大家都知道就是大部分这个在玩 GPT 模型的这些玩家其实都在把 ChatGPT 当成一个聊天工具在用就是除了做一些简单的问答没有拓展出更多实际的应用特别是能对自己生活或者工作有实际帮助的一些玩法但与此同时有一些开发者是在想办法利用这个 GPT 模型带入一些实际的场景帮助大家能够把这些人工智能的东西落地的
我们今天想要聊天的这位嘉宾和他的团队其实就做了这么一款工具帮助我们利用人工智能的一些能力去切实的分析我们日常生活当中阅读的一些比如 pdf 文档还有一些文字去理解其中的语义并且帮我们提取一些关键的讯息
他们的这款工具叫做 Panda GPT 我们今天也会聊一聊关于这款工具开发还有应用的一些小小的故事吧那我们今天聊天的嘉宾就是这款 Panda GPT 的作者之一也是这个工具的主创白菜我们欢迎白菜老师跟大家先打个招呼好的大家好这里是不说话的白菜
然后我大概做一个简单的自我介绍吧就是我是一名系统工程师然后我现在住在旧金山湾区除了我日常工作的软件开发系统开发之外那我业余的兴趣也会去做 bilibi 的频道和 YouTube 频道然后里面会去分享我关于科技的想法关于 AI 关于电动车等等等等当然这些只是一个开始作为一个工程师的好奇我会去很想去分析跟体验这些东西但是我更喜欢的其实是去动手
所以当看到有这样一个机会刚好又是我熟悉的软件行业的时候我觉得这个很有意思的尝试的机会来了所以就做了这样一个
这样一个工具但是后面我们可以聊更多这方面的内容很有意思啊就白菜老师也有谈到就是他自己其实也算是一个业余 B 站 up 主我们同事发现他的这款工具包括发现他也是通过在 B 站上看这些和 GPT 相关的应用然后他用完了之后发现这玩意确实好用就推荐给我我也用了一下发现确实挺好用的所以就促成了我们今天的这期访谈吧呃
我们前面就说到这个 ChatGPT 这回事啊最近这个东西确实特别火包括基于 AI 的这个生成图片就是这两条路线吧可以说就是一个文字和一个图片这两条路线是人工智能最近特别火的两个应用所以想先问问白菜老师你自己除了用 PandaGPT 这种用法之外就是你还有没有最近觉得观察到比较有意思或者你在用这个东西的时候你会怎么用呢
这个方向就很广了就是最近怎么讲呢最近这个发展是真的是太快了特别是像 Nick 如果你因为你最近在很密切去跟踪这个方向嘛你就会发现过去的这
半个月或者说是大概从 14 天前到 7 天前的那一周可能是这个行业最卷的一周就是这一周里面发布的内容可能是让业内人士觉得焦头烂额让对这个东西感兴趣的人也焦头烂额所以这里面可以聊的东西非常的多
当然我话题说回来就是我会觉得很感兴趣的是一些什么东西呢这个跟我做这个工具非常相关我的初衷非常相关就是我想的是去做一些对生活中实实在在有意义的点就是对我的生活实实在在有意义的
当然有些人可能比较在意的是能不能生成可爱的小姐姐的图片然后能不能就是跟你愉快的聊天这些然后对我来讲可能比较有意义的是在于那我喜欢去做研究我喜欢去读书我喜欢去看一些大家的研究报告等等那我就想到这样其实这可能是一个很好的落脚点因为太难过去分析但是后面我会仔细讲一下就是为什么会有这样一个想法
所以关于快速的去处理文字快速的去阅读某些东西这是我的一个兴趣然后另一方面我发现图片生成领域我对于小姐姐可能没有那么在意但是我对于那个不是不在意啊就是不要误解就是相对来讲可能更感兴趣的是我发现其实用图片去生成一些我们生活中用得到的东西其实是非常有价值的比如说我们这个这个 APP 它的图标其实就是用那个 DLE 生成的一个图像生成模型
我就是告诉他就是我需要一只可爱的熊猫是一个简笔画然后需要也带着一个眼镜因为这是一个关于阅读的东西然后就生成了两三次最后的结果就很好所以这个是图片然后还有一些再说稍微话题放远一点一些很有意思我最近正在关注我觉得后面会有巨大发展的是
其实 AI 驱动的不只是文字跟图片或者说文字跟图片的展示形式会有非常多种比如说如果我们把文字跟图片综合起来甚至你也可以理解比如说一个关于一个 3D 场景的描述其实也可以说是文字但是它最后会被体现出来是一个 3D 所以最近我发现非常有意思的是大家会用 AI 加上 3D 的一些接口来去生成 3D 的场景 3D 的模型我们小时候看到了很多很高级的游戏
比如说一个人在闹市里面走来走去然后里面会有车在车水马龙这种场景以前开发可能需要一个团队花几年后来变成几个月后来变成几周现在可能你几句话就搞定了所以这个是非常有意思的所以这也是一些我最近正在关注的但是回到落脚点就是我
我觉得最实用的其实还是关于文字跟图像处理方面的一些进步你会觉得像文字和图像处理是受限于整个这个人工智能当前的算法或者它模型还是不够大或者还是它这个不够智能我们就等于说现阶段只能做到文字和图片的处理还是说
这个东西它发展的变化过程就是要从文字和图片处理开始就像你说的未来可能即使 3D 你也得通过语音文字来给它输入一些 prompts 然后才能生成一些东西就在你作为一个开发者来说你是怎么看这件事呢
这个问题非常有意思就如果我们当然就说的稍微深入一点就如果我们去看这一次整个大语言模型的发展包括图片图像生成它其实最核心的驱动力还是来自于语言模型本身就像我们最近看到的 Stable Diffusion 以及很多的这种图片生成的模型甚至 3D 生成的模型当我们去看它的核心原理的时候发现其实它的最底下的那层算法推动其实还是语言模型
它最终还是通过语言本身来去生成就是通过语言的算法来再去拟合出来对应的这个图片就是它的 training dataset 其实最后还是文字描述变成图片然后用这个然后再用文字本身的模型去推动最后来把它去就是 map 到一个所谓图像的 space 里面去
所以最核心的还是那个文字的推动简单讲我觉得它是可能有点像是一个从简单维度到越来越复杂维度的一种进步方式吧最早当然是纯文字那再到后面就会有一些就是在图像上然后还有在语音上其实语音上的进步也非常的明显比如说 OpenAI 他们发布的模型 Whisper 它可以做到一个模型去翻译几十种不同的
就以前比如说如果你想在 Siri 或者在哪里你想去翻译语言的时候你是每一种语言都需要特定的去训练一个模型而且这个模型可能只对这个语言会 work 的比较好但现在他们一个模型就把这个事情全做了所以在
在这个语音翻译这个方面发展也会很厉害那再下一步现在已经有就是通过多方面的图像来最后合成 3D 生成点云比如他们还推出了另一个模型叫做 pointe 那个里面很有意思就是他也是通过语言模型的推动然后你通过一段描述然后他后面可以生成一个 3D 的点阵
比如说我想要一辆车我想要一个小汽车我想要一个自行车然后他就会通过这个点阵慢慢慢慢的去拟合到你想要的这个自行车小汽车的样子再往后面我觉得会越来越神奇越来越复杂它会变得越来越怎么讲原生
就是说它不是通过你说一句话然后它来生成一段文字再通过这段文字或者代码来去驱动 3D 2D 或什么东西以后它会变得很原生就是你可能它的职业就是 input 就是你说这句话 output 就不再是文字了而是就是所谓的 multimedia 的东西
所以这个是非常值得期待的然后这里面很大程度上限制它的就你讲的很好就是这个模型它的本身大小的限制是一个很大的方面我们现在整个文字的这个 training dataset 它的大小其实是已经就是体量已经很大了那它已经对应的如果你要做到一个所谓 integra 的模型它的参数量已经是到了千亿级别了那在到后面如果我们想把视频也放进去把图片也放进去的话
那如果你想 seriously 去让它能生成像这种 level 的 intelligence 的话它的模型 scale 其实是会再往上涨好几个数量级的所以后面会其实会很夸张你刚才说到一点我最近感受特别是就是嗯
确实有了 GPT 模型之后我们做翻译做语言类的工作变得感觉容易了很多而且就我自己的切身体会对比下来 GPT 的翻译的质量是远远好过之前的哪怕号称用人工智能算法调教过的比如说 DPL 的那种翻译的
就是它那种自然的顺滑程度包括它的语法的自然语言的那种解析的能力我觉得都是好很多的所以最近关于这种语言类或者说知识管理类知识学习类的这种人工智能的应用也是特别多包括你们这个 Panda GPT 我觉得也算是其中的一类也是基于文字的一个解析我觉得在这里可以刚好就跟我们的听众介绍一下你们自己的这个工具大概是一个怎样的类别它能用来做什么包括你
在背后你们调教的这个思路又是怎样的 PandaGBT 是一个 AI 阅读器如果我们需要一个简单的描述的话那它可以帮助你快速去阅读长篇的内容就是那些你没法一目失航一眼看到底的这种文章它可以很快去帮你定位到可能相关的部分然后给你回答
这是最简单的但更复杂的就是他不仅可以去找到这部分的内容而且还可以根据你的需要像跟 Chad GPT 聊天一样去把这个东西给展现出来比如他找到这段内容你可以问他关于这段内容相关的问题比如说这本书的作者是谁然后这段话具体讲的是什么你还可以更搞笑一点比如说那你可不可以把它翻译出来他也可以把它翻译出来然后再复杂一点就是我之前做过一个很有趣的实验比如说我给了他一本资本论
我直接问他那你能不能把剩余价值用 Python 代码给我表示出来然后他也可以做到因为他其实就像这样就多做几次所谓的赚几次脑筋的这种操作他其实都可以因为他的核心就是可以帮你快速定位到这个内容然后再基于这个内容可以做基于文本的
所谓的个性化的聊天所以这是大概它的用途然后我一般用它干嘛呢比如说我可以用它来去读行业报告政府报告小说然后也可以用来快速学某门语言比如说像刚刚讲的那我其实可以让它翻译成把英语翻译成中文西班牙文翻译成中文可以做一些快速的了解但是这里面我觉得需要一个很明确的解释的是因为刚好我之前是讲电动车的嘛
所以有一个很重要的概念包括现在大家用到的非常多的 AI 工具我觉得一定需要明确一下的是这些 AI 工具目前还是处于辅助驾驶的阶段就是你是不能用它来代替人或者代替你自己的理解跟自己的决定的就更多的它就像你开车的时候它可以帮你去做高速定位就高速上的这个所谓变道啊这些简单操作但你是不能撒手不管的就这种 AI 工具也是一样的
比如说你想让他去理解这本书这个本质上是一个哲学问题对吧就这个书的理解是基于你自己本身的成长经历以及你的 intention 你的目的来最后形成的一个答案你让他回答他可能会给你一些文字但其实这些文字不一定是你最后应该得到的那个内容但他可以做什么他可以增加你的效率就像开车的时候可能平常你需要一直盯着马路然后
你需要脚一直都踩在某个地方然后需要时时刻刻保持紧张但是有了辅助驾驶之后你就可以轻轻松松的在那个地方甚至时不时的不推荐玩手机但时不时比如说有些事情要处理你可以看两三秒钟这个是没有大问题的 AI 也是一样它可以让你的整个读文档的速度变快
一篇长篇的小说如果明天有一个作业要改了或者明天有个报告要出或者说这个内容本身对你的重要程度没有那么高没有人要求你一个月把它详细的读完你可能只有一天或者几个小时那你可以用它来快速定位到你想要的内容然后用你可以理解的方式把它给快速的消化所以这个是它的大概整体的定位但这份说的有点多但我觉得作为一个相对来讲有深度的讨论我觉得这个是挺有必要的就是我们大概明确一下它的定位跟立场
我在用 PandaGPT 的时候这里也要跟我们听众大概的讲一下就 PandaGPT 它可以帮你分析文档前面有讲过就是你丢一份 PDF 进去然后它就会通过模型数据去分析这个 PDF 然后接下来你就可以对它提问它所有给你的答案都是基于你丢给它的这份 PDF 的
然后就像刚才白菜有介绍的比如说你问他作者或者当中一些数据你让他概括出来这个数据的比如说一个统计或者概括出某一段的中心思想这些工作都可以用 PandaGPT 来做所以我在用的时候我会有一个想法就是包括我在观察最近很多可以说不了解技术的用户在用这个 ChargeGPT 的时候都会面临一个共同的问题就是他们不太会提问
就比如说很多人很兴冲冲的注册了一个 ChatGPT 他打开之后面对一个空白的对话框他不知道接下来要做什么就是你们说那些神奇的乱七八糟的东西我根本都不知道这个魔法的开关在哪里我觉得这是大家当下使用 AI 工具很重要的一个问题我觉得大家在用 PanelGPT 的时候也有类似的问题就是你丢一个文档进去之后我相信也有用户会困惑比如这本书或者这份论文我该问什么呢
所以你作为这个工具的开发者有没有这方面的建议给到用户对会有这方面的建议而且我们其实在产品上也想办法在提升但是后面讲到我们具体的这个 team 的时候大家会发现我们可能提升起来相对来讲会比较花时间因为这是一个业余的 team 就是我的建议是有一本书的时候其实跟你自己去读的时候大致是类似的只是在细节上有一些区别那最基本的你可能会比较想了解整个的结构比如说这本书作者是谁
然后他大概讲了什么然后一些就是这种所谓的 high level 的信息你可能可以大概快速定位到你感兴趣的这个话题然后接下来你就有点像什么有点像做的穿梭机一样你就可以在这个很长的文档里面穿梭到你想要的那个部分举个简单的例子比如说我现在有了一本那个就我用它读行业报告相对比较多那我会第一个问的问题就是那这个报告大概主要讲了什么
好那他大概就会给你一些点然后这里面有一个很有意思的 prompt engineering 就刚刚你讲的很大部分的 skill 来自于你如何用这个语言的魔法来去充分的使用 ChatGPT 对吧对那咒语里面其实有一些点可以让这个东西变得更明确因为如果 AI 只是觉得你在聊天的话他可能回答的方式内容都会比较简略或者比较抽象但如果你给他一些很明确的要求的话
他就会把这个事情做得更好比如说 instead of 说这本文章大概讲了什么你可以直接说请你把这个文章的内容概括成五个要点 OK 这你就是逼着他去把这个事情一定要归纳成五个点当然五个十个都可以就是一定是要去聚焦在某些重点的核心内容上
好那接下来你就会很快的知道那有意思的这五个点到底是什么东西对吧比如说这本书可能讲的是关于我印象中很深的就是有一个 research 的一个 paper 讲的是猫是液态的还是固态的好然后我就
我就先问他哎那具体具体这个讲的是什么好他就开始讲这毛的毛的固态跟液态好那我现在就很感兴趣是那你既然开始讲他的固态跟液态那接下来我想使我用我的穿梭机想跳到下一个兴趣点就是那他什么时候是固态什么时候是液态对吧
好了接下来你就开始问他那猫什么时候是什么时候是固态好他就给你找出对应的部分这个地方讲到哎这个做当然作者原文肯定是搞了一堆的公式跟那个论证说啊他什么时候固态那他会尽量概括性的给你去详解那这个地方如果你又不懂的那你就继续再去基于这个问题问
当然因为现在 Panel GPT 是不支持就是上下文的聊天的所以你可能需要把之前的内容大概就是提示一下后面希望我们可以加上这个功能然后有了这个提示之后你就可以一直往下去发散那它这个时候是固态这个时候是液态那它在液态的时候你是怎么论证出来的呢对吧然后它就会找到这个作者对应的一些公式它到底用到了哪个地方的这个就是研究的研究论文里面的这个对应的推论什么什么什么的
然后最后你就可以再一直往下一直往下一直往下这样发散下去所以这是我大概去使用它的一种方式就是从最开始的一个点你大概问它大概讲了什么东西到后面对应的某一个你感兴趣的点再继续往下跳往下跳往下跳这是一个很有意思就像我刚刚讲的开着穿梭机在一个很大的空间里面探索的这样的感觉
对我自己在用的时候也感觉如果你是类似于功能性比较强的阅读的话像 PandaGPT 这种工具会非常的好用就比如说我之前猫过敏它食物过敏就是后来我是自己知道了它食物过敏但当时我是不知道的看了很多医生也没有把这件事情搞清楚于是我就自学成才我就开始翻各种论文去研究这件事在这个过程中其实我就发现就我不需要知道很多关于宠物的病理级别的知识
或者说我也没有能力短时间内知道但是我其实只要知道某一篇论文它的因果联系就可以了比如说它的过敏是什么症状导致的或者吃什么药可以解决这些问题或者吃什么食物会引发猫的过敏我只需要把握这种因果联系所以在这种场景下我觉得 PandaGPT 这种工具是特别适合的
就是我只需要问他这个推论的结果以及推论这个过程当中他能让我懂的那部分就可以了我不需要整个比如说把他所有这种医学研究的数据包括他这个论证过程临床 AB test 的这种过程全看完它是一个可以解决很多时间和功效的一个过程
对了对了哎我我刚刚非常赞同你说的这一点然后这个其实我有仔细思考过甚至有想过出一期视频这个点其实非常的重要就是你刚讲就是我们其实是不需要知道他的中间过程然后直接去到你你想要的那部分对然后可以跳到下面就像我刚讲的穿梭机这样一个概念然后我想讲的就是这里面我后来抽象出来一个很有意思的思维我觉得这个其实是大家思维方式的一种转变你可能需要从一个
打工人的思维变成一个 CEO 的思维因为想如果我作为一家公司的 CEO 我是不一定需要知道公司的每一个岗位都具体做什么的这段代码该怎么写这个功能这个按钮该怎么加对吧我作为一个 CEO 其实是不需要知道的你现在用 PandaGPT 或者 AI 的工具的时候你其实就是站在 CEO 的这个思维角度你现在不需要知道是如何实现但是你更需要知道是你的目的是
你的目标是什么你想读这本书那你抱着的问题是什么就比如说刚刚你说猫猫可能有一个相关的一个疾病或者各方面的特征你想去理解的那这是你的目的那到这个目的你不需要知道这整条路是怎么通过去的你只需要知道如何的能够跳到其中的某一点用你有限的时间
就是大公司的 CEO 可能他有限的是时间跟钱那你有限的可能是时间有限的时间我如何通过最少的问题达到那样一个步骤然后你去通过去找到对应的这个病理那到了这个步骤之后肯定就要去解决下一个问题了如果有需要的话你再去研究其中的某一个细节
就是你的能够花费的时间跟钱其实是极其有限的但是你可以想象你是有一堆助手在帮你做事情那你如何的通过助手的帮助在不理解在不需要知道具体细节的情况下去把这个任务做成同时再继续扩展到你想了解的那部分这种 CEO 思维在使用 AI 工具的时候在我个人看来是非常的有价值的
可以帮大家省很多时间而且在思维方式上转变了之后你会发现很多工具之前你不知道从不知道问什么到后面就知道如何开始甚至如何的更高效的使用它们甚至最夸张的你可能可以用编程工具直接让它们并行的帮你做一件事情比如现在我可能有五本书全部是关于猫的这个病理的你甚至可以用类似的方式让它们同时帮你去做这样的事情
你就雇佣了这么多 AI 的员工可以去帮你把这个事情给做成所以这个思维方式其实会非常有意思所以我很赞同你刚刚说的那一点跟你聊天我发现你特别会比喻啊就刚才你把人工智能比喻成辅助驾驶还有现在你说到的这个 CEO 的这种思维我觉得都是对我就是我从来没有想过但是当听你这么一说我会觉得非常的窃礼非常的形象我其实在用这个工具的时候还想到另外一个方面因为我没有试过啊
但我也想听听你作为这个开发者的看法就是我们前面说的都是这种工具导向的或者效率导向的一些阅读场景那比如我们的读者想用来读小说你觉得这个 PandaGPT 这种工具可以怎么辅助他呢因为我能想到的场景就是我虽然没有拿他读过小说但我之前有丢进去过一个类似于 family tree 的东西
然后我用它去盘查人物关系因为我本身是对这个类似这种亲属关系特别模糊的一个人就是我到孤以外的亲戚我就不知道该叫什么了这种比如说什么我也是一样一样侄子我现在都不知道他到底是谁的谁但是我把这个丢进这个 family tree 丢进 PandaGPT 之后我就问他谁跟谁是什么关系他梳理的就非常清楚所以我联想到就是
它可以用来梳理小说里的一些人物关系或者快速总结出一个小说里大体的一条主线除此之外还有没有一些其他的用法呢在你看来你刚才谈到小说就对我来讲读小说是一个比较愉悦比较享受的过程说实话我可能不太想让 AI 把它卷得太厉害
就是作为我的个人看法但是如果就是我会比较推荐的是如果你的目就是其实是很看目的就之前刚好我也参加了一次关于就是 AI 如何帮助你的学习过程的这样一次讨论后来我们有一个很有意思的结论就是
就是你在意的这个到底是学习的过程还是学习的结果比如说明天你就要考试了那老师问你的就是关于这个小说里面的人物关系人物解读那你需要在最快的时间里面把它给搞定那当然就一定需要使用这样的工具能够提升你的效率或者说你已经读过了它我想很快的去回忆起我之前的这个因为你已经感受过过程
我很想快速地回忆起或者总结出它的关系那你需要用这样一个工具但如果大家在享受的是过程就是读小说里面看到它有意思的情节看到它比较有意思的一些这个变化反转等等比如说最近我在看那个英剧《唐顿庄园》这已经很老的一部剧了但我后来还是觉得我要再看一遍因为里面有很多细节都很有意思
像这种我是不会太愿意用 AI 工具说三分钟给我把这个唐顿庄园的的的的的实际给我给我这个一下 summers 出来我是不会做这件事对对对但是
其实就是很看你的目的如果你是想享受这个过程的话我觉得可能没有东西可以替代人的阅读的这个体验但如果你的目的是你有一个明确的目的你就是要去比如说归纳它 summarize 我现在讲的就是几种大家可以用的方法 summarize
就是归纳这个是最常见的还有种叫 extraction 就是说那我现在想去从中提取一些特征比如说你能不能用五句话把它给总结出来或者你能不能讲五个关于猫的这个病理学的特征的东西好他就可以找到这个然后把它提取出来就 extraction 对吧 summarize extraction 然后还有就比如说翻译也是一个很好的点后来我之前其实觉得翻译可能没有那么大但后来我其实有一些观众或者朋友他们发现
很有意思的一个点就是 ChatGPT 这个 AI 能力其实对大家来讲落脚最最最实用的其实就是翻译就是很直观你完全可以找到任何一个语言的一篇论文比如说小时候我想的不敢想可能就有一个比如说拉丁文的一个
关于某个植物的研究你看那个文章你可能一个字都不认识但你直接扔进去你就可以开始跟他对话了这个感觉其实是非常微妙的可能你也无法去验证他原文具体讲了什么你其实也是可以验证因为我们可以去给出 source 你再去翻译一下这段话其实没有问题这个很微妙就像是你突然被置身在一个你一个人都不认识一句话都听不懂的一个国家但突然你可以跟人开始聊天就这种感觉
对这是第三种就刚刚讲的归纳然后提取以及翻译就是我常见的三种我觉得比较有用的用途我们聊了这么多这个关于阅读的事情我在用这款工具的时候我其实有一个终极的哲学问题这也是一直就是今天我们这期节目特别想听你来跟我们聊一聊的因为
AI 的这种辅助驾驶这种帮助我们去理解文艺的趋势可以说是恒定的了我们已经可以非常明确的看到它是未来的一个趋势包括现在你们做的这种工具也已经可以说很好的实现了这样一个目的所以我的哲学问题就是这种阅读方式会不会让我们的未来的阅读更加的碎片化
因为今天我们已经能观察到就是随着这种影音的渠道的出现大家的阅读能力已经大幅衰减了就尤其我作为少数派这个图文媒体的编辑吧就能明显的感觉到经常比如说我们有些重要的文章的重要文字我们会刻意的放在第一段就是为了避免大家看不到但依然会有人连第一段都没读完就来下面评论或者是发表观点就大家的这种图文阅读能力的衰退已经到了一个很
可以说很危险的程度吧所以我在想如果这个 AI 的这种人工智能进来之后是会进一步的继续瓦解我们的阅读能力还是说反而会提升我们比如说把握一些核心的阅读的这种精华的效率呢首先得承认这是一个非常好的哲学问题然后相关的内容我跟我的朋友讨论过好几次说实话这个话题如果讨论的话可能可以讨论好几期
甚至一个季度就这里面其实非常的有意思然后我大概整体说一下我的看法就其实这个 AI 像你刚刚讲的不光是出现在阅读其实在所谓的 video 就是整个音视频行业其实都会遇到这样一个可以说是挑战也可以说是机遇吧包括前段时间没有 AI 但是有短视频这也是对于整个内容行业的一个挑战跟机遇
那在我看来这些不管是短视频或者说内容的帮助你把短视频放在一边就是比如说各种工具帮你去提升这个阅读效率它最终达到的结果是什么在我看来它更多的是催发
人性本身导致就我在我的关于关于讲 chart gpt 对于人类工作的影响里面有一个有一个说法就是他对于不同职业的影响不是一下把某个职业给土崩瓦解而是说他更多像是把一个金字塔给拔高的感觉就是在行业里面他的影响就是那我做一个公司里面我有不同职级的这个
岗位比如说文字编辑可能有初级的最简单的就是 copy paste 的这种工作可能再往后面上面可能会去做一些简单的归纳再往上面可能会做一些简单的创意构想再往上面可能会做一些策划再次再往上面可能是纯原创对吧对吧那
那 AI 对这个的影响其实是把整个金字塔给拔高了就是最上面最厉害的人他们的构想可以变得天翻地覆因为他们能够搜集到的素材可能是以前的十倍甚至百倍的物质如果叠加上他的小弟们的
那个复取速度的话可能就是十倍百倍不止再往下面可能他们关于创意上可能他们也会效率会更高他们可以读到更多的东西再到最下面那些简单的 copy paste 他们是真的就是慢慢的被埋没掉了因为 AI 就可以做他们的工作
但是顶上的那波人他们的价值其实是会更加的提升的就这个是对于职位的影响就他不是让一个行业土崩瓦解而是更多是对于所谓这样一个金字塔形状下层就是整体被拔高然后下层慢慢被侵蚀的这样一个概念那对于内容在我看来是同样的比如说如果我们仔细的回想大家去读书或者去看视频的时候你有不同的选择有些人可能会去抱着一个大布头开始啃
有些人可能会就是去超限其中的几张扫一下然后有些人可能比较功利性的就是我想 whatever 方法任何方法我就想快速的去理解它那还有一些人可能就是看都不想看我就想听三个一个人的三秒钟解说同样的对于视频也是一样视频里面可能有那种五个小时的关于某个行业的分析跟那个某个高峰论坛里面讲到很多很多的点就是有这种长的然后也有中篇的比如说
什么八分钟让你了解什么光伏产业什么类似于这种的然后也有什么三十秒让你那个什么听完战争与和平这种就这其实是有不同分类的那最后 AI 把这个整体催化出来它的效果是什么呢就是真正的那种大家会不再受形式本身的限制了就那些真正想去深入理解内容的人他们其实是如鱼得水而且那拨人他们其实会用更深入的 AI 工具去做更深入的研究比如他可能不止去啃大布头
他们还是会去做这样的事情
但是有一些人曾经被形式给束缚了就他们其实是很想听一个人三分钟把这本书讲完的但他只能翻一翻但他没办法他没有这个人所以他只能去翻一翻的或者说有些人连翻两页都不想翻然后他就想三十秒把这个听完的这些人他们就不再受形式的限制了他们就回归了他最自然最野性的状态对初心的那就是
好你现在有个工具那我就不看了以前我还会看两眼的因为以前老板在那里然后没有人帮我我还得看一看现在我不用看了我就直接扔给你你就告诉我怎么样就行了所以我觉得人是会回归所谓的初心或者本性的然后那实话讲我们人类其实就是这样的对于我们在不同的场景
真正愿意去堵堵大布头真正愿意去深挖的就是那么多人然后只不过我们现在打破了这些所谓掩盖在上面的这些表象我们现在终于看到本质了就是哪些人是真正的会愿意去深入的去听比如说我其实是很喜欢听那种两三个小时的 podcast 去听里面大家的讲解但是有些人可能以前没有这种机会他可能得去听两三个小时才能知道自己以前想三十秒就听完了东西
那他们现在就 set free 了他们就去有他自己的 AI 工具那我们必须得承认大部分人其实都是属于想去快速的去了解一个东西想去快速的去浅浅的去懂一个东西这个我承认其实我们对于不同领域其实就是这样比如说我对于编程可能会很愿意去多看我对于 AI 这个领域我可能会愿意去看大步头但是你如果跟我讲到比如说一个什么大家讲讲比如说
这个可能好像举哪个行业的例子好像都有点冒犯到了比如说如何玩一个纸牌游戏对吧那我其实他有一个 30 页的说明书我以前可能得必须得看那我现在可能就直接问 CHIGBT 了就我真的感觉就是这样其实回归了本性回归了本质就是 AI 的增效其实让大家更加能接近自己原本的想如何去理解去阅读的这种方式对我觉得听你说完我也确实觉得就可能
就像你说的这两类人一直都是存在的就即便是比如说我们不说 chat gpt 或者人工智能这回事就现在去看短视频的那拨人可能本来就是他们一直都是想通过短内容去获取知识的那群人就是他们对他们看的那个知识领域一直都没有兴趣
反过来就像你说的就每个人都有自己愿意去阅读大布头或者去深挖的那些领域吧就可能这个人群一直是固定的只是说我们有了更好的工具去以不同的形式实现对这个里面可能我稍微想 comment 一下就是说
这是第一个层次为什么我说可以讲一个系列呢因为这个话题真的很深它是个哲学问题不是哲学加社会学的问题第一个层次就是大家会回归自己的本性但还有一点就是人本身的心态其实是有一种滑坡效应的就是如果
你平常是看这本书的后来你发现好像我可以偷偷懒好像也可以把它给理解你可能就会慢慢的慢慢的慢慢的去往这个方向使用越来越多但是仍然会存在就是最死忠党的那部分他们就是会用最纯粹的方式去阅读这些人永远会存在但是大部分人其实都会人性的慢慢的去滑坡的包括我使用某些工具用多了之后也会就是越来越依赖这种工具我后来就可能就懒得打字了就直接用嘴巴说了比如说关于打字这件事情所以就是这是第二个层次就是
时间长了之后我就是回答你最初的那个问题我觉得这个对大家的阅读习惯确实是有影响而且长期来看确实是有挺深远的影响我个人其实对于这个
没有那么乐观但这个可能就聊远了因为我很赞同就是碎片化以及碎片化是不好的就是在很大程度上当然其实也看你的目的了如果你只是做娱乐或者去做一些好玩的东西这个没关系但整体来讲如果一个需要认真严谨的做事情的一个方向或者理解或者支持
随便画我觉得是不好的然后 AI 工具其实是在慢慢的加速这个过程对我在听你讲的时候我能感觉到或者我能联想到就其实现在比如说在抖音上看一些影片或者在小红书上看那种三分钟教你读一本书或者快速上手一个技能的那些人其实就是在把小红书当 chat GPT 在用的
就他们想通过这种一分钟三分钟的碎片化的一个媒体形式其实就是帮他解析一个具体的问题可能很零碎的一个问题或者是快速的获取某些小知识他做的事甚至比 ChatGPT 更人工智能因为他那个事就是人工做的就是一个人在帮他传输的其实效果会更好对对对帮你买衣服买鞋子推荐口红这些这个现在 AI 还做不到对
所以其实想想可能当中的关联还是蛮深的那我们回到 Panda GPT 这款工具吧接下来我想听你讲一讲就是你们具体在开发这款工具当中因为你们是两三个人的一个小团队你们在做这个工具的当中整个这个过程是怎样的包括比如说是怎么发现这个需求的然后又怎么跟 GPT 结合最后成了今天这样一个样子这方面的开发故事可以跟我们讲一讲吗就最早的时候
应该可以追溯到年初的时候我做过一期关于 chat gbt 的讨论然后那个可能也是我 youtube 频道目前为止播放量最高的几个视频之一吧就当时是我之前其实对于 AI 的了解没有那么深入但是在那一次里面我就发现这是一个做一个工程师的直觉我突然一下觉得这个这个方向其实非常的值得去研究
那当时我就抱着兴趣去把这个领域里面我能看到几篇有意思的论文我都读了一遍然后再去回过头来再去分析了一下 ChatGP 的原理跟技术所以对 ChatGP 有一定程度的理解那后来我就去尝试跟大部分人的入门方式一样我就用它的一些所谓 prompt
就是我给他一些指示让他去做一些事情我觉得很厉害了但是我觉得这个不太够因为他一直都会遇到就当你尝试想把这个工具去扩散到你生活中的各个方面的时候你就发现他 4000 个单词的这个限制其实是非常的大的就是
你跟他聊天他无法记住 4000 个单词以外的内容然后你让他去帮你读一本书他可能只能读前 4000 个词后面可能就没有了这些问题其实是一直存在的直到我发现微软的那个 Edge 浪漫器它有一个 Copilot 功能他们那次发布了然后里面就讲到了如何去用 AI 来
跨速去分析这个财报那明显这个财报其实超过 4000 个词那我就很好奇他怎么做虽然我当时在 AI 上就是领域理解不是很深但是我作为一个工程师的直觉我觉得这个事情是非常有意思而且很值得一试的所以后来我就找了一群小伙伴然后跟他们一起去讨论研究开发在后来两个月的时间两个两周的时间里面后来我们就开发出了这样一个功能就是我现在有一个文档
然后我有 AI 然后可以快速地去定位到这段内容然后帮你去回答对应的问题所以这个大概是他的一个想法然后这背后是三个人就是我作为一个所谓的工程师然后叶宇作为一个做一些感兴趣的内容然后另外一个朋友 Perseus 他也是一个工程师然后还有另一个
朋友也是工程师就是这三个工程师我们都是用业用业余时间一边讨论然后觉得这个东西真的很有意思而且对自己的生活平常是其实会有起到很大帮助的所以我们就花周末的时间就去一直在讨论开发这个刚好我那部那个视频讨论关于 Panel GPT 的开发过程里面也把这个都记录下来了
所以大概它的来由是这样的就是三个工程师业余的时间发现这样一个可行的技术然后我们就开始去讨论分析然后最后把它做成了一个实际的产品现在 OpenAI 给的这种开放的 API 包括它允许调用 GPC 这个模型的程度到什么了就比如说因为你们本质上也是在调这个模型去针对性的分析嘛
那作为开发者这端来说你们觉得这个能力大概能用到什么程度或者说比如未来继续用下去或者继续探索下去它还能有多大的可玩空间呢可玩空间其实是很大的就是
可以理解为像乐高积木一样吧就是 openAI 其实给你的是你可以理解为是一个长方形跟一个正方形的方块目前初级阶段大家可能就是用方块去搭个小房子什么的或者搭个小人什么的但其实用这个方块做不同的组合之后可以搭出很多的高楼大厦甚至一个一整片岛屿或者故宫
就是这里面其实可以玩的东西其实还挺多的只是说现在整个开发生态还比较原始还比较早期包括做开发的时候我就发现很多 OpenAI 的一些各种奇怪的问题可能很多人也遇到过比如说前段时间 OpenAI 它用 ChatGPT 的时候你会发现它网站上的那个聊天历史的那个功能被关掉了我以为朋友就没了对没了或者你可以看到其他人的聊天历史
这是他们后来道歉的一个问题这里面有很多的问题就是很多的 bug 然后整个生态也很早期比如说你想调用某些服务的时候这些服务其实后面还要做很多的处理比如试错错误处理或者什么在一层一层搭起来这些很早期所以现在大家看到的东西其实比较原始
但是我相信很快可能就一两个月之内大家会看到越来越多有意思的东西就像我们刚刚讲的你有了文字的生成之后那如果我后面接的不是一个聊天我后面接的是一个 Unity 引擎一个游戏的 3D 引擎那可能你能做的其实就是可以去生成一个城市了
如果后面再接的是一个再夸张一点比如说直接让他来开发一款游戏对吧这些其实都是可能可以的只不过这整个生态还在慢慢的起来现在可能可以理解为一片沃土上开始长出来了一些小小的植物但其实还没有形成整片森林的感觉前两天 OpenAI 也开放了一个就是在 ChatGPT 里调用
那个 plugin 的功能嘛所以这样就是因为它有一个一直以来有一个很大的限制就是它的那个模型数据是到 2021 年的就很多这两年的新东西它调用不了而且它是封闭的就是你只能基于它模型内收录的那些东西去提问所以你们才做了这个
等于说针对 PDF 的这样一个分析工具有了 Plugin 之后它其实就相对开了一个口子你可以用 Plugin 去调现有的比如 Google 搜索的一些结果然后再让它去分析就有点像你们在做的事情了所以回到你们的产品你们有考虑过往这个方向做一些开发或者是你觉得
比如这个新的开口会给你们的产品带来一些变化吗这个开口本身对我们的变化可能比较少因为其实大家上传的内容不一定是互联网上有的如果互联网上有的其实你问 ChaiJBT 可能会更好
michael gb 可能已经已经训练过了所以所以其实大家上传的是一个呃格式比较特定然后一般来讲互联网上不一定会有的东西或者说你的目的很直接很特殊的东西然后你就直接上车上去可以问问题所以 open air 的插件对我们来讲
没有什么其他的负面的影响吧但是其实我们是可能可以再做一些类似的拓展就是我们可能可以像他的插件一样如果我们知道你的意图我们肯定可以再去做这些意图对应的一些开放的功能这些是可以的然后有一个想想讲的就是说关于这个产品后面的一些有意思的方向这里面其实有一个很有趣的一个话题就是到底是往
深度上走还是往广度上走所谓的广度就是我倒是要支持更多的文件让大家可以上传更多的格式更大的内容但是你就是什么都可以上传还是说我们可以在有些很深度的方向比如说有人找我看到比如说他就想用这个来去去看财报
看科研报告看小说或者看政府报告等等或者甚至就是看看考卷就是直接出答案的这种都有就是深度跟广度其实是很值得拿捏的一个点就是这个里面到底哪个更有意思一些如果往广度上面做的话后面可能就会变成了一个很像大家在网上经常能够搜到的什么在线 pdf 合成在线文字翻译这种很通用的功能那那个相对来讲会比较泛
我个人更感兴趣的其实是往深度的方向去做因为往深度的方向去做会有一些很有意思的特定的场景比如说那如果我是帮你去看我现在就是随便的在举例啊比如说我说去帮你帮你去看论文的话那论文里面又有不同的领域比如说你的论文是什么方向的你的论文的大致结构是什么样子的然后不同语言的论文可能它的优化方式也会不一样然后甚至比如说那个文学方面的论文跟那个理科方面的论文可能又不一样就这些能够做的东西就又很神奇的
而且就是能够深挖的东西有很多所以目前在产品方向上可能更多的我们想的是一方面是完善本有的
现有的功能让它本身变得一个变成一个非常的结实的一个产品就是什么就是大家想要的功能都有另一方面就是我们可能会找一些很有意思的特定的场景然后我们去往上面去做然后这些特定的场景可能是我觉得很有价值也可能是我的朋友觉得很有价值就是我们在日常生活中可能会实际用到的东西我们在往那个方向再去深入的做这样这个 AI 它可能会变成它
它不是一个什么都能做的 AI 而是变成了一个在这个领域上可能做的比较聪明然后做的比较特色的 AI 这种感觉对听上去你们还是想往一个学术辅助工具的这个大方向上去走的对吧我刚刚举论文只是随便说的其实是有很多不同的场景的
比如说学术然后比如说大家用来读小说就这些其实我们前期跟用户的访谈包括大家的使用中间我们搜集了不少的反馈所以现在也在决定具体去选哪个方向然后我们再去选一个合适的方向再去开发学术可能是其中之一对我再问一个相对比较具体的问题就是现在 PandaGPT 它能支援的 PDF 格式还是要求这种比较规范的文字的就比如说有些那种
书它扫描成 pdf 它其实是图片所以现在读起来还是比较麻烦的那未来因为 GPT4 这个模型其实已经有图片的一些处理能力那未来比如说你们有没有计划假设啊结合一些 OCR 的一些功能啊或者是假设比如说未来 GPT 的这个模型它又迭代了未来图片处理能力更强了可能比如说你们未来也会加上这方面的能力的支援呢就是读图的能力啊
或者甚至丢一些其他什么复杂格式的一些能力,因为我想到这个是因为很多比如说理科向的学术论文,它是有很多图的,包括很多图表的,所以这些东西它不是以纯文字形式呈现的,就需要有一个辅助的一个工具来帮帮大家读吧,尤其读图还是一个挺麻烦的一个事,所以不知道这方面你们自己是怎么考虑的呢?
嗯我有想过这方面的优化就是其实我们分分两个两个不同的话题就第一个就是如果只是扫描表的内容然后如何去让他能够做 OCR 这个我之前有简单的想过但实话讲就是在反馈里面这个的需求相对来讲优先级没有那么高因为其实还有一些其他的有意思的方向在探索所以这个呃
后面可能会做只是说相对来讲优先级可能没有那么高但是另一个你刚刚提到一个很有意思的点就是比如说那作为一个原生的 PDF 本身它其实带有表格带有图像的这个对于你理解这个内容其实本身是很有帮助的那这个我觉得优先级就会相对比较高
当然现在的技术上有一定的限制但我觉得就这个对我来讲是一个更有趣然后也更有价值的一个方向就像 GBT4 的那个 technical report 就他的这个技术报告里面其实就提到了如何去帮大家去读那个论文里面的图片这个对大家的实际价值是会非常的高因为我们几乎看到的绝大部分的科研论文都是代表科的
然后我们看到的很多书籍都是带一个所谓的插画或者图解的这些对于内容本身或者说有些小学生的习题想做数学题的里面可能就有三角形正方形得去让他去求这个角的度数的就这种的这种的其实都是有实际价值而且是这个内容必须的一部分所以这部分的价值我看是比较高所以后面如果 GPT4 的这方面 API 开放的话我们是会考虑加进去的
对因为这次 GPT-4 发布的时候我感觉最吸引人的就是它这个增加的图像的处理能力因为它文字部分它变得更 smart 了但我实际使用过程当中我觉得它变得那个 smart 没有那么重要反而是我更期待它对于图像的处理因为它就能读公式或者读图解对我来说可能应用场景能拓展很多但很可惜就是它虽然公布了这个 GPT-4 但是现在只能用文字的部分
然后图像的部分他一直也没有公布这里刚好就问到比如说未来再往下走 GPT5678 你有没有对他的一个发展方向的一个判断或者说你作为开发者你更期待 OpenAI 继续把这个玩意儿往哪个方向去推进对你的个人生活是更有帮助的呢 OK 这个话题非常的有意思首先我不是 AI 业内人士所以我可能没法给出一个他们会往哪个方向走
但是我可能会很好奇的或者说我会很关心的是他们往哪些方向走是我对我来讲比较有价值的就其中一个很重要的点就像你刚刚讲到的 GPT-4 一个很大的更新就是多模态虽然它的智力
大家他的智力从倒数 10%涨到了正数 10%这个很厉害的其实但是很多人其实对这个没有那么关心因为我跟他聊天的时候他还是说今天的天气今天天气是什么样子的他其实他的文学能力可能区别也没有那么明显所以大家会很在意多摩泰而且多摩泰本身的价值也会很大
就像是人的所谓无感蹊跷就是你如果只是能识别文字 versus 你能够看到这个东西能听到这个东西这个对我们实际应用会非常的区别会非常的大比如说你现在有了一个手机那你手机里面最常用的功能可能就是说话跟拍照那这两个功能如果我们能够在多模态里面都连接上的话就是原生的多模态
而不是说我说话了他把它转成文字再让 AI 去理解而不是说有图片了他把图片转成文字再让 AI 去理解而是原生的多模态这个是下一步我觉得会潜力非常大而且是很有可能他们正在开发的功能
因为你想想他们的 Whisper 就是作为一个翻译模型作为语音转文字模型他们其实是已经在做这方面的关于语音的那是单模台那不是多模台他们语音上已经有模型了然后他们在文字上也有模型他们在图像上也有模型
然后他们 GBT4 又把文字跟图像结合了起来所以我觉得很自然的应该在最近两三年之内他们肯定会把文字语音图像都想办法结合起来这样会离他们公司整体的目标所谓的 AGI 通用人格智能会更近一步所以我觉得这个方向是他们应该很大概率会去往这个方向走而且这里面也是我作为一个开发者非常期待的
因为这里面大家能做的事情也会很多你可以让这个 AI 能感知这个世界的维度信息会更加的丰富那我们能够帮助用户解决的问题也会更加的多更加的明确关于 PandaGPT 还有一个很重要的功能点是我刚刚想到的就是关于这个数据的安全问题
因为它需要要求用户把一个 PDF 传到你们的服务器上然后再调用 AI 引擎去解析比如说我上传的是一个很重要的保密级别的财务报告你们是怎么保证这个数据你们自己看不到或者说上传用户上传的数据是安全的呢
我们现在首先我们现在几乎没有去看过这些文件更多的是基于我们最近加上了一个点赞跟点踩的功能就是我们会基于用户的反馈来看这个问题本身是否合适然后但是整体来讲作为一个就是我也不想把这个说得多夸张就作为一个三个人业余时间开发的一个项目我们没有意图去看大家的所谓的
秘密的内容但是受时间的限制我们是无法保证企业级的数据安全的就这个我就就实话实说当然我们是存在 AWS 的 cloud 上的这些内容是加密处理的但是我们有没有办法保证像比如说在这个如果 serious 讲的话在这个领域里面有一些 regulation 什么 GDPR 这种这些我们肯定是没有时间去把这个东西给做出来所以我们没有这个坏的意图
然后内容本身应该也不会被人 hack 但是我们是无法提供企业级的这种数据维护的标准那就说到关于你们对这个产品的定位了就是 PandaGPT 现在就之前我们沟通的时候就听你们讲整体的这个用户增长蛮稳定的而且你们最近也更换了这个付费模式从买点数变成了订阅制你们也相当于有了一个相对比较稳定的商业的模式
所以接下来你们的计划是怎样的呢就是做大做强呢还是说继续做一个小而美的工具先这么走然后未来再看其实整个团队现在还在讨论下一步该怎么做就是我们其实现在具体的方向还没有完全的定下来我可以说一下我们现在的状况我们现在两万多用户然后已经有十几万台十几万条的这种聊天记录在里面关于各种文档的问题都有了
然后刚刚讲到的这个订阅的方式就为什么我们会把它从就是点数改成订阅呢因为就像我最早在视频里面讲的我们其实很不确定最开始发出来的时候我们是这个方向上的前一两个这方面的工具我们是很不确定这个大家的使用比例是什么样子的比如说
完全没有人付一分钱所有人都玩的话然后我又有几万用户那可能一天我们亏都亏不起对吧所以当时就很其实是一个比较保守的心态就是那至少我不能明天就破产吧所以我们就规定了一个点数这个点数也相对来讲比较低然后我们后来是更多的是想知道大家实际会如何使用以及整个市场上那其他人是怎么做的
所以后来我们又讨论了很久就是我们该不该去更换这种方式其中一个很大的动机就是我们发现如果我们把它从点数改成订阅制的话大家的使用会自然一些因为比如说如果我们免费是 10 个点那问错了问题或者我们没有做好的问题也会扣大家的点数大家就反馈过很多次就是主要让大家觉得很紧张就是说个哈喽一条就已经出去了
对所以后来就想想然后刚好我们随着时间的进展我们也知道就是可能至少我们不会破产的那么夸张所以我们后来就把它改成了订阅制但是这个过程其实还是会变的作为一个小团队这方面其实还是会不断的去更新的只不过目前为止我们觉得订阅是让用户用起来最放心最就是不会有任何紧张而且也最自然的方式去
使用不用太纠结会不会问错所以我们改成了这样然后刚刚讲的就是下一步的发展其中有一个很大的点就是所谓的盈利和亏损其实我们现在每天会亏几十美元的样子就是但但是我觉得在我们三个人看来目前为止这个是 OK 的就是每天几十美元让大家能够开开心心的去玩这个至少在这个边界线上我觉得是没有太大的问题你们的这个亏是亏在就这个成本主要 cost 在哪里呢
是那个 token 的成本支出还是说这几十美元主要是这个服务器啊各方面的维护的成本呢没有仔细算过具体的这个成本但是其中很大一部分是来自于 token 就是我们粗略估算就是你刚刚讲的服务器那部分其实实话讲我们还没有算过
就是那个那个因为相对来讲我们觉得可能没有那么夸张就服务器是固定的嘛就你用再多服务器的那个费用是几乎是相对来讲变化不大的但 token 就不一样了如果一天可能有几百个人 versus 几万个人在问的话那那个区别很大所以我们现在大概估算是我们在 token 上每天亏大概几十美元的样子所以即使你们现在已经是一个订阅制一个付费的状态这个 token 的支出其实还是入不敷出的
可以这么讲吧但是我们说实话相对来讲没有那么在意这个方向就像最开始讲的只要我们不破产这个问题都好说因为几十美元对我们来讲可能就是一天就是一顿饭的饭钱就这个影响不是很大作为一个兴趣有这么多人在用能收集到这么多有意思的反馈然后跟更多人的聊天我觉得这个是值得的那你可以继续讲你们的
一些规划然后大概的规划就是说那我们最开始的初心就是我有这样一个就像我在那期视频里面讲的我觉得 AI 接下来会改变很多的行业会有很多很有意思的东西那这是我们的一次小尝试这是我们做的一个项目然后想邀请大家来一起去参与这个所谓 AI 的实验然后很有幸就是这个实验目前为止算是成功的就大家又很乐意在参与然后对很多人产生了实际的价值实际的帮助我们也其实从中搜集了很多大家的反馈
有很多人找我说他这个这方面对他很有用然后那方面可能可以提升一下然后大家的使用场景是什么所以我们的第一步其实是成功的我们知道大概大家的需求是什么然后也收到了大家的关注然后接下来其实就是像我刚刚讲的深度跟广度的拿捏到底是把这他做成一个更通用的什么东西都能往里面放的一个产品还是说我们找一个更
相对来讲更加的细化的一个更有对我或者我朋友的生活或者我有些观众的生活有实际价值而且是独特的那部分价值的但是往那个方向走这个我们还在讨论当中我个人是更倾向于可能会往深度的方向去走做一个
用你刚刚的话来讲可能一定程度上是小而美的一个 APP 吧对然后在接下来的话我们可能会增加一个方面是完善功能就是我们会把它本身的功能再继续往下支持下去然后另一方面的话我会找其中一两个比较有意思的场景可能我们再去深入的往下去做争取能够在那一两个场景里面不只是浅浅的去满足他的需求而是说能够让他觉得这东西还挺好用的然后我愿意持续的去用下去
然后变成了我工具其中的一部分所以我们可能想做的是往那个方向走
我觉得这里也涉及另外一个问题就是和你们做类似功能的开发者其实也算不少吧就是我看到有一些比如英文的他们也有做这种 PDF 解析之类的产品的那你们的产品和他们的产品就目前而言或者说就整体你们的这个构想而言未来会有什么不一样的地方或者你们怎么保持自己在这个品类里的竞争力呢
竞争力从多个方面讲吧所以本身我觉得很重要一点就是所谓基于用户反馈不断的更新这个就是所谓我作为一个软件工程师我在 SaaS 这个行业就软件机服务这个行业工作几年之后的一个很重要的
收获就是用户的反馈然后我们再基于这个反馈继续更新这本身是一个很强的核心竞争力就我们不断的去完善更新它然后另一方面可能在我看来可能更多就是所谓在场景跟想法上的区别那 OK 我现在大概知道大家都会比较感兴趣想用哪些哪些是有价值的那接下来我们针对哪些场景来去更深入去满足它的需求
我觉得这个可能是接下来会比较有意思的一些具体的方向我们看能不能在这个方向上做出一些差异吧当然我不知道他们是怎么想的我也不太觉得这是一个所谓的竞争关系因为说实话我可能也没有太关注他们具体的发展是什么样子我们更多就是这个 team 凭着兴趣做我们觉得对我们有价值
然后对我们的朋友以及观众有价值的这些工具然后只要在这个目标上我们能够体现出更深入的帮助到大家的实际生活中的需求的话我觉得这个可能就是它的最最最核心的竞争力吧长期来讲那除了 Panel GPT 或者说除了解析文档之外你们还有什么其他关于产品的想法吗或者你个人有其他利用人工智能去搞一些花活的想法吗想法有很多
能做的事有多少对就刚刚一直一直在挂着嘴边没有提出来的一个点就是说因为我们三个人其实都是兼职的就是我们有自己的主业然后我们更多只能拿周末的时间来做然后包括用户反馈其实也有不少
然后大家也提了很多意见就非常恐怖啊就是发布那个视频之后大概不到五天的时间我当时也发布了一个 discord 群组那个群组里面现在就有两千人了就不到五天就有两千人了然后就是各种各样的说法都有就是鱼龙混杂声就是就各种讨论都有
呃然后那我们真正能够去不断的反馈更新的速度我们是持续的但是问题是我们的速度是有限的因为我们更多就是周末的时间有空去做这样一件事情所以呃我们相对来讲会比较谨慎就是关于去具体做哪些方面一方面是谨慎另一方面可能会很基于大家的实际需求所以因为因为
我不付给其中任何一个人工资他们都是我的朋友然后更多是基于大家的兴趣大家觉得再往下一步往这个方向走可能会是一个对他们来讲更有用或者更有趣更有价值的方向那我们就去往那个方向去尝试一下那我们到了这个节目的尾声我想请你给大家推荐一些除了 Panel GPT 之外你在用的或者你们团队在用的和人工智能相关的一些工具吧
或者包括你怎么在用 Chad GPT 帮助你的生活我觉得都可以跟我们大家分享一下这也是我相信我们听众很关心的一点吧就这玩意到底怎么用人工智能怎么用这个话题就稍微有点远了我可能只能简约的概括一下但是本身其实我我
我用的工具不多只是说相对来讲可能用一个工具之后我可能会使用会比较频繁一些然后我大概先说一下我的一些使用吧就是首先 ChatGPT 基本上已经成为了我默认常用最常用的工具之一了吧然后可能可以跟搜索引擎做
做对比就是它的使用频率这是一个很有意思的话题最早最早我第一期研究 ChadGBT 的视频大概四个月之前发布的时候那时候大家讨论的不光是我的讨论以及甚至华尔街的讨论
高盛投行的讨论都是觉得 GPC 对搜索引擎几乎没有什么影响就是一阵风吹过然后可能竖晃了一下这种感觉但现在看到大家会看到其实区别很大就是微软发布了之后甚至有人调研过就是一定程度上很多人可能针对某些特定的群体但是我自己也是这样我觉得我在使用谷歌搜索引擎的频率上其实是有显著减少就是减少了 30%以上
就我用 ChatGPT 去问一些问题很多时候其实他回答的答案要远比在 Google 上搜索效率高得多因为大家都知道 Google 给你的其实是一个网页而这个网页他们不控制的就是会有很多很奇怪的那种广告虚假信息什么其实都有这个是他们控制不了
但 CHI GPT 就不一样它可能可以直接回答你要的这个问题而且准确性还蛮高的但是这也就印证了为什么 GPT-4 的提升在我看来就是智力上的提升其实是一个挺重要的提升的因为如果你真的把它当做一个搜索引擎一定程度的辅助的话那它的智力准确率的提升其实是很有用的 OK 我们回到原来的话题就是 CHI GPT 就是使用的工具那 CHI GPT 其实是我最常用的那这里面就有一些很有趣的一些点呢就是
它是一个很有意思的所谓的魔法魔法工具那其实如何使用对应的咒语才能够去把它给打开它真正的潜力呢对吧这个其实是有很多很多的内容的包括我有一个朋友他甚至出了本书
好像是前天刚刚出版的机械工业出版社出版的就是 ChatGPT 的魔法书然后里面讲到如何去用一些 prompt 你现在这个都能出一本书了就证明这个里面其实内容非常的多就是比如说你让用它来做翻译那你该提出什么样的要求来让它在翻译里面更准确或者说翻译里面更符合你的说法比如说是更专业一点的口吻还是更灵活一点的口吻更个性化一点的口吻
以及那该用词的话是更接近于 Elon Musk 说话的用词方式还是更接近于川普说话的用词方式这些其实都是大家需要斟酌的点对吧那这个其实就是 prompt engineering 的一部分就这些参数都是你自己需要去控制的但这个说的可能有点太技术化了那实际你使用的时候其实你是可以试出来的因为聊天这个是每个人都会的能力多加一些对应的要求之后你会发现它的结果其实是不一样的
那你最后就会总结出来一套自己觉得最厉害的使用他的方式举个简单的例子我有朋友他用他来做翻译然后他后来发现不光是说我要要求他用专业口吻翻译而是说他让他用保罗格莱勒姆的那个口吻就是一个作家的口吻来翻译这样是最准确的就是他发现是这样的但是这可能是对他来讲最准确的
然后那类似于像这样的其实每个人可能都会总结出自己的一套这样的经验吧那这也是为什么能够出书的原因所以就是找到一个合适的 prompt 其实是非常重要的那找到合适的 prompt 有很多种方式现在你去微博推特上搜应该是会有非常的多的然后甚至做一个工程师的话 Github 上甚至有专门的工具集已经帮你定义好了比如说一个翻译的 prompt
一个 rapper 的 prompt 一个诗人的 prompt 一个工程师的 prompt 他全给你定义好了你就选这个模式就行了所以这个其实是一个很好玩就是我想讲的就是即便是用 chat gbt 这个我讲到的第一个工具这里面其实能玩的东西就非常非常的多对吧就是因为你你你能调的参数其实非常非常的多对
然后其他的几个工具也简也简单的介绍一下就是第二个我比较常用的可能就是 notion ai 更多是因为我的整套笔记可能就是在 notion 里面然后我的知识已经在里面那用它来去做一些翻译总结归纳这些功能其实就就很常用了因为那我不可能把我的笔记再又粘到什么 google translate 里面去再又翻回来就本身就是一个很繁琐的过程它既然有了那刚好我觉得这个就很好用就是放到 notion 里面然后
刚好 Notion 又是在所谓这股 AI 起来之后他们其实是第一个把它大规模整合的所以我觉得其实是一个很好的契机然后还有一个我用的比较多的是 DLE 这个图像生成模型就是 OpenAI 它有另一个工具然后那里面的话更多就是我有时候会缺一些比如关于封面关于创意关于图标各方面的一些想法然后我就直接去问他然后我想明确一下的是
可能有些人可能只是用它来生成一幅美丽的风景画用它来生成某个天马行空的画面等等这很好玩但其实它的能力远不止于此你甚至可以让它来生成一些你原想不到的东西比如说你想让它生成一个电脑里面长什么样子的界面的 APP 长什么样子你这样能把它讲清楚它都能给你生成出
可能比你去找个设计师花两天时间设计的效果要更快甚至更好就他能做的事情其实在很多但我而且我相信绝对有人用它来生成一些我们甚至都想不到的东西对我今天就看到有人用它来恢复梦境我感觉就是一个特别好的一个一个应用场景就是这个东西之前你是没有美术功底是完全无法实现但是现在通过你的描述
就能把你梦里的那个场面画出来我觉得还是蛮帅的一个用法对就会有我觉得会有很多很多就这个图像会有很多所以就是我这是我用到第三个比较多的工具然后我朋友那边他们用的比较多的他们可能用来生成老婆比较多
就是就很搞笑因为现在大家应该也看到 mini journey 的第五版然后以及 control net 就这些加起来之后能生成的东西跟大家用相机在街上拍到了几乎就是一样的就很像甚至能指定机型
对你甚至能指定机型你甚至能指定这个拍摄对象的肤色人种有没有胡子胡子长多高就是长多长就各方面其实都可以指定出来就是你如果简单扔到互联网上甚至都至少有一半的人可能都认不出来这是 AI 生产的
然后第五版他们甚至还有一些更夸张更恐怖的功能最近比较火的就是比如说生成 80 年代的老照片就是比如说在中国 80 年代三峡上面拍的家庭合影那个真实成景程度以及那个怀旧的程度甚至我觉得当年的摄影师可能都不一定能拍出那个感觉所以让我觉得很惊讶
然后我朋友基本上他们就是买了一个账号之后就是付费账号之后基本上天天就是玩的不易了就用来生成东西太多了就可能休闲一下就是生成自己的女朋友生成几百张不同的不同的样貌的然后可能专业一点就是用它来生成比如说老照片生成一些故事甚至生成一些 MV 的背景什么就是这都可以然后这个里面就是它的可用性也是非常的强然后差一点就是那个那个公司好像就 me journey 那个公司好像
过去几个月好像赚了好几亿美元就是因为这个简单的图像生成是很夸张的这个这就是因为它真的是太好用对而且这才是个开始其实从我们想象中和现实对比的话它这种静态图像生成只是浅浅的一步但就已经
对创造了很多机会包括我自己也在考虑就是未来我在手上拍做这种文章的插图封面图我就全面缩哈 AI 了就是我不想再用 Photoshop 去一点点画可以的所以我就说插个话题我觉得最搞笑就是以后可能我们看到图片只有两种一种是 AI 生成的
极尽完美你能想到的好的东西都在里面还有一种就是人拍的就是真实然后带有很多瑕疵但是很朴素的内容就是你不会觉得 AI 会愿意去生成这样内容的因为 AI 都是往 AI 都是 greedy 的都是贪婪的去往最好的方向生成他不会去往最就是最最最丑或者最烂的方向生成所以可能以后的图片可能主要是认认两种然后那那就是
就是朴素那部分可能主要就是我们用手机在街上拍到的那些但那也就记录了我们生活中很大一部分的信息跟价值刚好我们说到图片我们今天节目就以这样一个虚无的话题作为结尾吧也是这次聊天我特别想问你的一个话题就是你会认为这种大量的虚拟的包括文字信息
包括图像信息的这种出现会真的把世界推向虚拟吗就因为我想这问题是因为之前我们科技行业普遍都认为把世界推向虚拟的是 VR 眼镜和元宇宙但我觉得可能就这次 AI 的大爆发让我觉得可能真正的虚拟是这种信息的虚拟
就是我们看到的照片可能未来甚至影片什么全都是 AI 生成的了就包括现在我看已经有大量的 YouTuber 销售人员在用 AI 来帮他们虚拟语气去回复用户甚至制造内容了
所以你会觉得这才是真正未来所谓的虚拟的世界吗这是一个有意思的哲学话题我觉得很大程度上已经是到了几乎无法避免的程度就是我们生活中的内容尤其是数字内容你在手机上互联网上看到的内容图片文字视频音频很大程度上可能以后就真的是纯粹虚拟的
而且我之前其实是讲一个我自己的经历就是我之前其实是对于就像你刚刚讲的就是 VR 虚拟的这个我之前其实对它一方面是一方面是反感另一方面其实我是不相信的因为我是个活的一个我是个比较活在
自然生活中的人不是现实生活这个现实可能会有那方面的意思就是自然生活中的人我会更在意我能够出去去爬山去玩去钓鱼什么的我会在意这些所以我对 VR 相对来讲没有那么强的兴趣但是后来发现有的 AI 这一套生成了数字的东西之后我的信念稍微有点动摇为什么呢
因为比如说我上 Instagram 的时候我去自然里面去探索很大程度是因为我觉得在自然里面有一些我意想不到的很美好的画面比如我喜欢拍照我喜欢去比如说冰川国家公园里面去拍一些湖边的树
里面的鱼突然跳起来有鸟在飞这些甚至我会想象在公园旁边可能会有一个山上有一个小木屋然后木屋里面阳光照下来然后里面有厨房然后我可以钓条鱼在里面去晚上把它就是跟朋友一起聚餐能把它就做成烤鱼啊或者什么就是这种美好的画面然后也可能因为最近最近这个 AI 使用太多了导致我有点稍微有点焦虑了后来我发现 Instagram 上用用 AI 生成的这样的画面
太美好了美好到就是我觉得可能以后我也会信这个东西了就这种感觉所以我觉得很大程度上是一个相互拥抱的过程吧一方面是无法避免另一方面是相互拥抱就像 AI 对于人类教育的影响
你是无法避免学生使用 QIGBT 的就像 AI 对于我们社交网络里面所有的这种生成内容的影响对于图片对于音频对于视频的影响我觉得我们一方面已经无法避免的另一方面可能需要去拥抱它就是需要想象它变成你生活一部分的时候的场景但是我不会觉得我们会变成完全虚拟我觉得更多是一种综合形式的方式
你的所謂自由意志你想你真的有機會去自然裡面體驗的時候你會去選擇自然裡面但是如果你作為一個大多數時間在城市裡面生活然後你晚上可能會有 E-mail 會討論人生想各種東西的時候那時候你需要的其實剛好 AI 是可以滿足你的所以我覺得是一種互補的關係我們可能一方面無法避免另一方面是擁抱然後它也能夠很我希望它能夠相輔相成
我们今天话题就聊到这里再次感谢白菜老师非常精彩的一段分享我自己也通过跟你的聊天有了很多新的启发新的认识最后也欢迎我们的听众朋友们去尝试一下 PandaGPT 这款工具不管我们畅想的星辰大海多么遥远从当下来说这是一个切实能帮助你改变生活至少小小的提升一些阅读效率的一款工具而且是一个非常切实的关于人工智能的一个落地的应用
也欢迎我们的小说派的听众和读者们在用了这款工具之后有任何的关于产品方面的想法和建议在评论区也好在 PandaGPT 他们自己的客服的这个通道也好去做一些用户的反馈用户的交流说不定通过我们的这种共同的努力就能把这个 PandaGPT 变成一个更好的工具也说不定就能给
我们也都蛮期待未来人工智能会把我们的生活变成什么样子最后再次感谢白菜老师参与录制以及我们听众朋友们的订阅和收听
我们今天这期节目就到这里咯我们下期再见拜拜