We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

INDIGO TALK / AI 时代下的超级个体 - EP10

2024/1/18

INDIGO TALK

AI Deep Dive AI Insights AI Chapters Transcript

People

Indigo

歸

歸藏

Topics

歸藏: 在AI图像生成领域，Midjourney、DALL-E 3和Firefly各有优劣。Midjourney图像质量最佳，但存在版权问题；DALL-E 3功能强大，但迭代速度较慢；Firefly整合度高，但能力相对较弱。开源模型Stable Diffusion更新速度快，但门槛较高，用户体验有待改进。在AI视频生成领域，Runway和Pika是主流工具，Runway控制性强，Pika风格突出，但其他工具也在不断涌现。Stable Video Diffusion (SVD)清晰度高，但可控性较差，最近微软研究院提出了一种新的控制方法，提高了可控性。高效的工作流至关重要，需要结合工程化方法改进交互方式，例如采用画板式交互。高质量的提示词和高效的工作流在未来会越来越重要，因为它们代表了用户的逻辑和创意。版权问题是AI生成领域面临的重大挑战，需要模型公司和用户共同努力解决。OpenAI和Midjourney在版权问题上的处理方式不同，OpenAI更注重逻辑和解释，Midjourney则相对被动。 AGI的到来可能会彻底改变创意领域，未来可能出现由AI营造的梦幻元宇宙世界，人类将主要扮演内容创作者的角色。 Indigo: 我的图像生成工作流是先用DALL-E 3生成图像并提取描述，再用Midjourney进行细化。对于时间紧迫的任务，优先选择Midjourney或Pika等快速且质量可控的工具；对于复杂任务，则使用Stable Diffusion并进行后端部署。 Midjourney的图片搜索功能不够完善，需要一个更强大的第三方浏览工具来搜索和筛选高质量图片。高质量的提示词可以弥补生成式AI工具在提示词和交互方面的不足，提高效率。在AI时代，超级个体需要提高生产力和学习效率，并积极分享知识。高效的工具和工作流是关键，例如使用ChatGPT、Memo等工具提高阅读、写作和总结效率。分享知识和创意能够加固学习，并获得正反馈。 AGI的到来可能会彻底改变创意领域，人类将主要扮演内容策展人的角色，负责调教AI并分享创意。

Deep Dive

Key Insights

What are the main AI image generation tools discussed in the podcast, and what are their key characteristics?

The main AI image generation tools discussed are DALL-E, MidJourney, Adobe Firefly, and Stable Diffusion (SD). DALL-E is integrated with ChatGPT and focuses on expression rather than high-quality images. MidJourney is currently the best in terms of quality and prompt understanding but faces copyright issues. Adobe Firefly leverages Adobe's extensive design assets but may lag in language model integration. Stable Diffusion is open-source, highly flexible, but has a steep learning curve and requires significant technical expertise.

What are the current challenges and limitations of video generation AI tools?

Video generation AI tools like Runway and Pika face challenges in control and complexity. While they can create basic animations or simple scene movements, they struggle with more complex actions or precise direction. Tools like Stable Video Diffusion (SVD) offer high clarity and natural motion for elements like water or clouds but lack control over camera movements. Recent advancements, such as Microsoft's arrow-based control method, are improving controllability, but the process remains resource-intensive and time-consuming.

How does the integration of AI tools into traditional workflows improve productivity?

AI tools enhance productivity by automating repetitive tasks and streamlining workflows. For example, Adobe Firefly integrates generative AI into Photoshop and Express, allowing users to quickly generate backgrounds or extend images. MidJourney and DALL-E enable rapid creation of high-quality visuals for tasks like designing posters. Stable Diffusion, though more complex, allows for custom model training and deployment, making it suitable for specialized applications. These tools reduce the time and effort required for tasks like image editing, content creation, and video production.

What are the key copyright issues surrounding AI-generated content?

AI-generated content faces copyright challenges, particularly regarding the use of training data. OpenAI and MidJourney have been sued for allegedly using copyrighted material without permission. OpenAI argues that AI learning is akin to human learning and that content publicly available online should be fair game for training. MidJourney, on the other hand, has faced criticism for generating exact replicas of copyrighted images, which complicates its legal position. Solutions like watermarking or allowing artists to opt out of training datasets are being explored to address these issues.

What defines a 'super individual' in the AI era, and what tools are essential for achieving this status?

A 'super individual' in the AI era is defined by their ability to leverage AI tools to significantly enhance productivity and learning efficiency. Essential tools include AI-powered image and video generators like MidJourney and Runway, language models like ChatGPT for content creation, and tools like Memo for summarizing and organizing information. Super individuals also rely on platforms like Twitter for sharing insights and gaining feedback, which reinforces their learning and creative processes. The key is to integrate these tools into personalized workflows to maximize output and innovation.

How might AGI (Artificial General Intelligence) impact creative industries in the future?

AGI could revolutionize creative industries by automating content generation and enabling real-time, personalized creations. In a future where AGI is fully realized, virtual worlds could be dynamically generated, blurring the line between reality and digital spaces. Content creators may shift from manual creation to curating and refining AI-generated outputs. However, this could also lead to a divide between physical labor and digital content creation, with the latter becoming the dominant form of work. AGI's ability to surpass human creativity in specific domains could further accelerate this transformation.

Chapters

本段落比较了Midjourney、DALL-E 3和Firefly等AI图像生成工具，并讨论了它们的优缺点以及在实际工作中的应用。归藏老师分享了他个人使用这些工具的经验，并分析了它们在图像生成领域的特色。

比较了Midjourney、DALL-E 3和Firefly的优缺点
分析了开源和非开源AI图像生成工具的特点
讨论了各工具在实际工作中的应用

Shownotes Transcript

欢迎来到 Indigo 数字镜下的新栏目 Indigo Talk 我会不定期的邀请朋友们来和大家分享科技趋势的新思考欢迎大家回到 Indigo Talk 今天我邀请了我的一位差友对吧应该叫做 Tayo

叫张师傅也是我在以前通过关注他的 AI newsletter 我是慢慢注意到他的后来我们加了 X 之后然后也加了 WeChat 成了一个远程好友是标准的网友了今天邀请张师傅来给大家我们一块来给大家分享一下超级个体这个话题对这个很流行因为有了 AI 之后给个人富人

对我们邀请了张师傅他今天让我这样尊称他来做一次关于差别个体的内容因为我的 indigo talk 我之前邀请过了不同领域不同的朋友这是从创投的然后到 web3 的是吧然后 crypto 的然后我觉得最上最近的一期是聊了 bitcoin 我们在聊完

差不多不到一个月吧二十几天 ETF 就正式通过了然后今天呢

我们第一次邀请我们叫做 AI 专家领域的选手这次就不是创业投资了我们就是从个人效率开始我觉得这个是应该大家很感兴趣的话题我们怎么来做用 AI 来赋能自己让这些手头的看上去像玩具一样的工具我们能够把它变成我们的生产力或者变成我们能够帮助我们日常提高工作效率或者能够做好更多好的作品这样的一个

一个方式上来所以说大概今天的话题就是这样子的那么我们先邀请张师傅先自我介绍一下好吧大家应该对我比较熟了主要关注的是 AI 零都看但是有侧重点的话可能偏深层偏图像偏视频对就是单元模型只懂一点点就是个菜笔其他的媒体的话现在主要在

推特极客和就这几个推特极客上活动然后微博也有但是微博很多东西大家都懂的对吧这是没办法那就有可能就能发的发不能发不发基本上就这样 OK 了解今天大家说我们设备很齐是的我这设备比较齐对我们现在这个节目我们会录成播客其实大家如果说没有

今天没有改上直播其实回头也可以听我们播客的当然我建议大家还是最后来看我们直播会比较有趣对今天的主题大家知道我邀请了张师傅张师傅在 X 上面分享的最多的就是 generative 的

其实 image 或者说是 video 其实这个东西我没太多经验因为我今天背景我用的直播背景还是用了张师傅的提示时生成的我说用了张师傅的提示是画了一个背景然后用了他生成的视频前面我们看到的还没有我们俩还没上线的时候

预播这段视频就是张师傅的做的一个作品我从他自己的个人网站上面下载了我说还好今天是我们两个人连线不然我就清全了那我也没事这东西乱毛对吧随便对

对了大概是这样子所以说今天第一个话题我觉得我们想聊一下生成是 AI 和图像相关的大家应该各种东西都用过了各种东西什么软件这种

包括大家可能用的最多的应该是 Midigary 我觉得可能听一下张师傅来分享一下从个人角度来看你用过开源的或者说像 Midigary 这样的或者说是 Adobe 那样的都有生成工具你自己用的最多的是什么然后你对这些软件的这些个人的判断是什么样子而且各自的特色是什么样子你可以跟我们分享一下

图像的话现在不开源的就这几个嘛,就大灵异对吧,那是嵌在 HRGBT 里的,然后 Mid Journey 对吧,然后还有就是那个 Firefly,甚至可能后面还有一些国内的,甚至比如说那个蓝大多那个 AI,对吧,那个开源传出来那个,嗯,嗯,嗯。

大令益的话其实他优势大家也都知道嘛就是很多画不出来的他能画出来就是就是不太好看对可能我这个东西可能就是他就是随手搞的就是为了多么太然后也量级也不是很大然后就搞了这样一个东西出来对嗯前来看我觉得他们在这方面的经历是

不太多的对它只是为了多模态可能下一个就比如之前传 GBT4.5 要视频对吧可能他又要转视频去了他们我觉得尽快的去传一个相关的模型出来然后去配合买 GBT 的多模态对所以可能相当长一段时间内当然 E3 会是这个样子对可能下一个看到的时候是一个视频人物模型了对

Meet Journey 的话刚出来 V6V6 提示词理解也上去了然后整个质量也上去现在确实是现在是最好的是毋庸置疑但是它有一些其他问题比如后面我们说到一些版权问题 Firefly 的话其实它我理解就是 Adobe 必须要有但是

它的能力的话就是它比较大又不是一个以来为主的公司所以迭代可能会慢一些但是它的积累是有的对吧就是它那些素材几十年积累那些库合作的设计师对吧所以其实它追上来还是很快的但是在一些其他的领域就比如说语言模型叠加的就是跟其实是理解相关的可能就会慢一些

这是这三个还有一个应该是最酷的开源的 SD 的话其实是这样的他有个什么问题

就是门槛确实高特别是最近的一些东西出来以后比如根据对吧上去以后门槛就更高了它虽然任何东西都更新的很快比如说昨天出的研究今天它只要开源它隔个一两天立刻就能在里面用但是用的话大家都知道有一些各种奇葩交互还有一些大家抢开源的问题抢

插件名称插件护士然后不做测试这些都是比较普遍的一个现象对新手入门造成了一个比较大的对 web UI 的话其实还好已经非常成熟了而且非常稳定但是现在由于怎么说呢 web UI 是一些基本的功能理论上如果说过几天 Mr.Jerry 他说的

他说的那个一致性 OK 的话我觉得 web ui 的这个事情除了除了那个要做相关产品的没办法必须要用之外因为他 API 比较方便嘛

必须要用之外其他的可能就慢慢的就会下降对因为它两头都不太够对既没有那么好用又没有那么灵活和方便了解 ok 我们刚才聊到了 4 个对因为我们话题一上来就比较深入了因为我们没有过度对我一般做播客节目我都会给大家过度一下

比如说要聊什么话题我们会做一个简单的科普因为有人毕竟有人还是不懂不用多

没关系我觉得这个就是要有深度最重要的而且我们讲的第一个话题我一般会把大家我邀请嘉宾的话题不间断的来回顾一下因为后面进来的人会听得比较清楚然后我们刚才聊到图像生成刚才张师傅讲到了主要讲了三个最重要的第一个就是打力然后第二个是 mid journey 然后第三个就是

Adobe 的 Firefly 那一系列的 Adobe 的产品已经都融入到它各自产品线里面去了我是一个设计小白我就用 Photoshop 的 generative4 直接用它生成要不抠图要不补个背景要不图片大小不够延长一下特别好用

然后在 Adobe 的 Express 里面那个里面有好多好多计算的功率生成一个什么话很方便的对这个我自己的反馈因为 SD 我是最早用的其实我在 2022 年的时候当时很激动的时候就是我觉得 AI 变革实验上就是被 SD 驱动的而不是被 GPT 驱动的

SD 当时就能够我们自己拿我自己的一堆照片训练画我自己 2022 年中的时候画得很糟糕但是我当时也自己在学习神经网络是什么样子的我感觉自己上手走了一套的流程之后什么叫分类什么把人写进去这些东西我对整个神经网络的工作方式有了很基础的认知比如说我拿他的模型下来我把我自己的图像训练进去形成一个新的模型我自己在用

原来神经网络这个模块两个网络可以长在一块去是吧它就可以切割可以长在一块去以前 Andrew Capacy 就是做 Tesla FSD 的后来又去 OpenAIAI 里面是学习大神他就是做了一个总结神经网络软件 2.0 它可以像它不用像软件 1.0 一样软件 2.0 是可以切割的我把一个神经网的规模缩小

他就变笨了我规模变大他就变聪明了但是他变慢了就是这样的一个逻辑当时我是记得我用过 SD 好玩挺好玩的但真的很难用对所以应该是演示演出了两种工作流对不对其实我不知道您日常的主要的工作是做什么因为我想了解一下背景

涉及在你心目里面占的角色比例有多少我现在的话是帮做一些 SD 落地的一些事情对哦就是把一些 SD 的流程抽象成抽象成给我们 C 端用户用的一个东西比如说你没有那么多乱七八糟的对吧你就一张图片打几个字甚至直接视频就能转化成你想要的东西对

某种意义上是那种类似于视频特效哦了解视频特效是吧用 SD 来做是吧对图片也 OK 了解对大家这个我来我想想对刚才说的是工作流做视频那么这个工作流下面因为现在所有的

图像软件其实慢慢的都在往视频这个方向靠拢对吧而且现在在生成是 AI 领域里面还有另外一个大的分类就是生成视频对不对我们刚才讲到都是图像生成那几个最经典的可能 Leonardo 大家用的不多那是欧洲的那是一个后来我觉得我感觉他跟 Vidiojoule 挺像的

对但是我觉得它的一个原则就是只要有开源我就不自言然后就依附于开源生态依附于 SD 生态对了解它是依附于 SD 的我之前还不知道没有研究过它对那么刚才我们说了几个官方几个生成是图像对比然后问了一下你个人的工作流那么接下来正好提到的视频

那视频这个东西用过对今年应该算应该是 2023 年 2023 年是视频大爆发其实最早的憋泪功憋了半天就是那个叫

然后后面我出了很多类似的这个你可以也给大家介绍一下你感觉你用过这些市面上的节奏主流的然后你用过的对比让大家也了解一下视频的话也是两方面的一部分是不开源的对吧就比如说我们之前说的

Ranway,Pika 还有一堆可能现在知道的以及上线有过宣传的有大概十几个吧有十几个平台当然有很多是我们国内的对就是你看着很就跟黑战一样看着很国外但其实是华人甚至说都是国内团做的对

然后比较强不能说比较强比较融资比较多的占据他事业比较多的肯定首先是装卫对吧装卫他做的时间最久在图像模型还啥也不是的时候他就开始做视频模型了其实他积累的融资还有一些他的一些研究性的积累应该是最多的当然我肯定他也走的完路对就从他的第二个模型的一些变化也能看出来对

然后另一个是皮卡就是皮卡的话大家也都看就是最近上线了大家也都能用到对就是他是他的把

把它的某一个风格的效果拉到最好然后去做宣传这个方式我觉得其他的其他的公司也可以接见一下但是也有些不太好对实际上它的现实以及交互可能我觉得没有 ROM 表对 ROM 位它的那些交互形式还是比较好的而且控制也比较强对我

一般开一些它就会按那个方向动的对评价还有一个是视频编辑视频编辑这个应该是只有局部的编辑应该是只有它有对所以不管好坏你就必须用对

其他的像比如一些最近也多了好多对多了好多过程比如 Pixelverse 我昨天转了一个他做的广告片就是一个叫什么名字 Pixelverse 对它的金模型昨天上的金模型上的效果也非常不错对就非常不错就是它的

清晰度和运动幅度达到了一个比较好的平衡对了解了解我听上去其实我自己用过我用过我用过 RAM 我用过 Picasso 在 2023 年 8 月份的时候我看到开始开始了因为他们还在内测那个时候

我看到有一个导演就是剪辑的人剪了一个特别酷的一个猫的好乐屋一个猫在好在好乐屋的一个视频粉色的 pink 当时我就转了一下他那个视频一下转爆了就是转了好多然后然后就通过这个视频和转发认识了他们的两个创始人对认识了那个 dammit 同学那个时候的那比较早了对然后后面差不多 11 月份他们开始火的是吧在他们宣布融资融资这些事情

对但确实是主要是被一个新的一个宣传视频给代报的因为视频我用过最早用过 Runway 我觉得 Runway 因为我不是特别了解我其实挺少用视频编辑软件的我感觉现在的视频来看可以作为图像生成的补充可以让我们的一些图像动起来或者说让一些很简单的像 MV 一样场景的横移竖移这个画面然后让它有一个动感

就到此为止了如果我想做更复杂的这种解构动作那太懒了不可能的好不早人演算了对具体的动作可动性目前还是不太现实哪怕就是让它移动对吧让它按照具体的方向移动也挺费劲的可以的但是对有会出问题对

所以目前很多像那些简老师的户多曼他还是还有国内最近交通计划里边有一个好像第 5 集完全用

视频做的主要还是以真人在绿幕上录制动作然后直接去图身图直接去生成了解差不多其实我感觉我们自己在用过的我自己用过就是两个就是 runway 和 pk 然后剩下的我看到你在你的 X 上面发过你用 SD 的版本做过视频的好像效果特别清晰特别好

SD 的开源的它是一个什么样的程序或者是一个什么样的东西来做的对 SVD 这个我介绍一下 SVD 它是 CBHF 的一个视频生成模型那么它有两个版本就是你当成是两个模型就一个模型只能生成就一次它只能生成 14 帧

对另一个一次可以生成 25 帧我们以每秒 8 帧来算一个就是一秒多近两秒另一个就是可能三秒多一点对然后它比较强的是它的清晰度然后在某些自然环境上的一个运动就是流体水火然后云彩以及一些

比如说运镜它运镜也是比较不一样但是你控制不了它到底怎么运镜你就只能对吧全靠运气我看了有人说全靠运气对基本上靠运气然后昨天前几天前天 Windows 那个不是那个那个微软研究院出了一个方式就是我可以控制它的方向就是拿箭头去画我在图上如果你的箭头没有画到具体的物体上它就会变成一个

运进的一个方向如果你的建筑画到了对应物体上这会变成对应物体的一个运动方向对我看应该有人用可口 UI 已经还原出来了对可以去试试应该是让它有一定的可控就变得可控了一些甚至说这个方式我觉得比现在转位和批刊那种还灵活一些还灵活是吧就是 SVD 的对 SVD 也是 Stable Diffusion 出的

对就是 stability AI 但是它现在商用的话是这样的它之前最近钱不太够然后所以就弄了一个会员它新的比如说 SDXL Turbo 还有

SVD 模型是个人用是免费的商用是需要买他会员的否则的话可能版权上就有点问题但是这个东西怎么说呢就是你这个本身就是一图不图账对吧后追你模型的版权也有问题对所以所以这个可能他他还是那个

我觉得它最近因为 SVD 它应该更激进一些就是拿这个东西比如说包装成一个产品或者是拿去一种融资或者都比较好但是现在它没有新的动作我觉得比较可惜对有本身这个模型他们做的他们肯定最了解但也不排除在做只是还没发布

了解了解这个是开源的问题因为开源很大一部分程度上大家直接用它的模型的大家可以不用它官方提供的这种 hosting 的这种服务了比如像 MeterGear 里它不开源然后它自己可以更加的它有一个 MeterGear 里有一个好处就是用户的飞轮走得很快因为大家都在这个 Discord 社群里面我们生成的图片我必须共享出来

然后我可以给他评价我每一次放大每次选择其实就是用户的偏好码这个数据对他来说太重要了但是你想想开源模型怎么办我只能自己用我自己的模型数据训练然后用户生成东西我根本就不知道的了对对不对这个是一个比较严重的问题这个是对于很多开源项目来说当然如果说他可以同时做一个并行的比如说 Stable Deficient 或者说另外一个社区版然后让大家用他最新的模型他 host 一个社区他其实也行但是我感觉

公式文化差异和一些对老板的选择是很大的但是我们说回来我们其实已经刚刚正好我们话题我再重复一下回来我们刚开始聊聊图像的生成的选择最主流的那么三个然后加上一个 SD 是吧 OK 那么其实我知道这个张师傅日常用的最多的应该还是 Mid-Germany 是吧因为我看你

在分享的 X 上面都是 Mini Journey 还有一些提示词然后又说到了视频生成视频生成最主流的现在就是两种一个是 Runway 然后新出来的 Pika 然后还有一些新的可能慢慢再进入市场然后我说一下我个人的对 GNI 这一块就两种媒体生成的一个看法我自己用我自己日常使用的

我使用并不是在做测试我也为做了玩对我真的是要用比如说圣诞节我就想给我底下面的一些投资公司或者我自己做的这些产品做个海报那就首选还是 mini journey 然后或者是达力因为这两个是让我能够在有限时间内极快的方式生成质量可控的

对吧这个是很重要的因为大家如果说我们要做 productivity 如果说我在做 research 我好玩我可以花很多时间研究它我可以生成很多版本出来但是真实世界是这样子的我有一个东西马上要生成我明天就要发海报然后我必须得用一个工具在限定的半个小时半小时之内把这东西做出来

这个时候我会优先选达利因为达利画的还是很丑的我可以感觉因为他和 Milijerling 因为 Milijerling 他更像 photograph 这种效果更好但是达利他更加接近于那种我可能叫做那种形象化那种风格的一部分

刚刚说了就是 openAI 的重点不在图像生成质量它在于表意它为意识表达因素最重要对吧因为它是为了通过态度的所以说在这个里面呢我个人的工作理由是我会用打力把我的这个想表达抽象的思维让他跟我先画几张图出来它有好处它每张图下面会生成一些描述这个描述是很有用的然后呢我再把这个描述改改改不改吧修整一下然后呢再把它放到 MirrorJelly 里面去通常 MirrorJelly 会走形

通常他会没有达力画的那么想要我样子但是他会走行但是无所谓他画的效果好我就忍一下也行然后就差不多这是我的工作流我会这样子在半小时之内或者说我要出一个海报我要出一个表达一个图的东西我就会用这个流程来做那么 stability fission 肯定是不可能了对这种做不到的了或者说是像 Adobe 的 Firefly 我没有怎么用过我觉得他

还是没有这两个工具我用的这么习惯对它整合了它的软件里面去了我可能搭补丁可以这是我的工作理由所以我想听一下张老师你在日常中如果说有一个限定时间的一个任务在你这要做你应该用什么方式来组合

有多少任务一个就是比如说我要就是要生产比如说我就是要生成一张图片或者生成一个视频我比如说要给甲方甚至说要给自己用我时间很短我要发一个比较好的我首选还是 Midzeny 和比如说这些软位 PK 这些软件因为它快对吧什么都不用管

但是如果说是我工作上的就比如说我的需求是一个比较复杂的想要跟现实生活的 C 端结合的要跟用户本人去结合只能用 SD 对吧你只能把那工作流跑通然后部署到后端对一般就是这两种对然后 Mid-Running 的话就是

提示词的话就是大家最近因为这个热度比较高对吧很多人其实就来回就那点东西就能调能控制的就那几个命令对吧嗯嗯嗯就是先比如说你如果要有图的话你要复制这张图片先 describe 然后把提示词拿出来对吧但是现在它那个 describe 还用的是 v5 的对所以有时候它会走形对也会走形它 v6 可能下个月可能最近嗯

另外的生成图片基本上就是这个就是你改那个提示词按照那些既定的那些权重然后那些命令就去试尝试加词兼词然后另外的话在视频的话就是

pk 好就用 pk 可能两位和 pk 都有一张图如果说装位实在出不来实在出不来我就用 pk 试试或者说 pk 不出不来就用装位试试对现在因为控制确实比较少能控制的东西比较少你只能靠抽卡然后最近的话都在看 sad 因为 sad 我觉得潜力挺大的对但是控制确实挺难的

我再问一下小白问题 SVD 是在本地跑了还是要在云端买个我是在本地跑的它效率怎么样我一个大概我昨天发那个是直接出的 2K 就是在里边可能说原来上用了一些插帧用了一些放大流程然后一个那个是三秒插的五秒的一个五秒的话大概 4090 要 10 分钟左右

10 分钟是吧 5 秒钟视频要 10 分钟还是挺难受的 5 秒钟视频而且这个可控性很弱是吧而且只能摆一摆镜头做个推移我觉得这个确实效果确实好就是清晰度上和它能动好的地方就特别好

还有一种效果除了清晰度之外它是不是对一些场景的表意做得更好比如水文啊纹理啊那种自然的动态会也很好对烟雾 okokok 了解就是它这个模型可能对这种意境的这样的图片的深层次的理解会训练得更好一些

对他可能就完全抛掉了可能现在的模型视频很多都是做真人的就是人物动作的对吧他可能完全抛掉了人物的部分我就不管了我弄不好我就不弄了对吧我决定我弄好对这个思路这也是个思路就把赤脸拉满了解其实我觉得应该大家听过藏师傅这样讲解之后

视频生成的和图像生成的现在的各种的优劣势的应该很清楚了而且工作流也听到了对吧工作流我们两个人分享的我有我的我这是小白工作流对我要我很少研究因为我没有太多时间去研究这些模型到底什么挑参数我最简单的方式我就拿不得 google 搜我用 google 搜我就搜 mid journey 什么场景然后他肯定可以跟我找了几篇博客博客里面就有其实我把它抄过来

然后就能解决问题了所以我感觉怎么说呢现在有人在用这个 GPTS 来做这种提示词的生成工具是吧然后或者说是用这种再高级点吧可能会训练这种提示词的这种 fine tuning 的模型其实我感觉呢

这是一个挺重要的领域的能够把一个场景人类想象出来的一个场景充分的描绘成提示词然后让绘图模型真语言模型的理解把它绘出来这个 gap 哪怕我们现在用不了 AI 来解决问题就是说可能我现在纯粹用 AI 来生成理解这个提示词生成新提示词可能没法那么准确但是我们可以用工程化来解决这个问题

对,因为我们已经发展的这么好了,像 Photoshop 系列,做 UX,做界面或者做这种 Photoshop 软件,我们有正好的工程化的工具了。我们为什么不能够让工程化的工具和生成的 AI 做的更好的 patch 结合呢?我不知道藏师傅怎么看这个问题,这个东西这个方向有没有什么前途或者说值得期待的东西?

这个的话其实是本质上是对工作流的打磨对工作流对交互的打磨可能我模型到不了没有水平没有那么好但是我用一些其他的方式比如说交互上的方式去还有贴合原始的使用者的工作方式去

帮他去提高效果引导他去学会那些使用那些我们现在一些高级技巧对就比如说前段时间我推荐的一个图案生成工具他就是把一个设计师的流程拆解到里边就是别人生成图像的时候都是一个对我点按钮生成给你 4 张图你在选一堆按钮它是一个画板

就是你在画板里生成以后你可以自由的对整个项目的其他的图做任何的操作就比如你再把图拖出来然后直接就能进行下一步操作就比如抠图融合这些但是它模型质量可能没有那么好但是我觉得这个思路是可用的就是它的一个

他工作流就是那套在画板里一项目制的工作流比现在这种比如说你的认识外部生产版本大家也都看到可能很多人没有权限但是应该都看到过这个视频你有权限吗有权限吗我现在我有个什么问题就是现在我现在总共生产了 9700 张还差一点点还有一万张但是呢

前几天第一次更新 Alpha 版本的时候我直接进那网站他让我进去了然后下一次版本更新的时候我就进不去了

把你遗忘了发现你这 9000 多次还没到对又重新跑了一次了解对因为 Midigary 它会出一个 web UI 就是方便大家来调整其实我觉得它出来之后应该和 Adobe Firefly 的 web UI 差不多做的还可以对 Firefly 的 UI 的保底的一个东西就是正常的点生成输入提示词输入提示词然后这些按钮的布局这个是一个保底的就是

因为毕竟它是一个新的东西我们现在用的还是过去一段时间积累的一些办事或者说开创的那个人

积累的一些看式那其实它有没有更好的交互方式更好的门槛更低的交互方式以及更符合现在工作就使用工作流的交互方式现在还看还没看到有太多人去思考了解所以说这个这是很好的一个机会嘛就是说我们作为用户啊就是我们作为这个行业用户的但是我因为我的这个背景是我也会做一些复化的投资嘛

所以说我也会看这个这个方向上的一些机会或者说什么新模式我都会比较敏感会关注我们俩关注的侧重点可能不一样因为你这技术流就是这个会关注这个生存效果啊然后怎么样我可能会关注这个事情的背后他们能不能够有这个新的公司在这个上面去做这个工作流的改进因为我个人啊

我们聊了这么久了对我们聊了这么久其实回归到最核心的一个问题这个兼 AI 或者叫做深层次 AI 配合我们提高效率最核心就是融合到我们的工作流里面去那么这两种适应一种是呢我们要去适应 AI 第二个 AI 要适应我们是吧因为我觉得我们前面都分享了我们各自的工作流实际上是我们在适应这种 AI 的这个工具的创始人搭建了这个方法我们要适应他嗯

但是我觉得这个里面传统的画图的方式是有很多可取的地方的就传统的工作我们不能把工作力完全打乱比如说像 Photoshop 这种绘图方式我选这种区域或者说是还有很多这种传统的软件制作的叠加方式编导方式包括视频其实为什么说一个视频的都是用大家都用 Vinegar 对不起但他用 Runway 或者 Pika 有人做的特别好很好的人还是他有很好的剪辑功底还有编导功底

他知道这个故事怎么去讲核心还是 storyboard 或者说是 cut 的能力这个是很重要的所以说传统的这种写 storyboard 的软件做 cut 的软件或者说是做像 Photoshop 或者像 Illustrator 这样的编辑软件应该更多的

和 AI 的这种很有创造性的生成式软件融合在一块去我们可以更精准的来控制我们的生成这两种东西更多的应该融合才对现在我们就基本上是处于我觉得玩命的街的抽奖一样

我说我每次我要画 5 次我就在 5 次里面选我绝对不太多了不然我浪费时间对就抽奖一样对但是未来应该可以有更好的工具把它控制得更好我觉得这个里面还有机会嗯对有挺大机会因为你刚才说的 PSAE 甚至说剪印之类的东西对吧它

那可以结合进去但是这种传统有个问题就是他的项目是非常庞大的人也非常多你在以重新以 AI 为主去构建这个工具的时候你的阻力就会比较大就像昨天说的那天那个 Rabbit

Rabbit 也好,说传统手机也能做但是传统手机有个什么问题呢我的整个规模是非常庞大的然后我部门是非常多的然后我的底层技术在对吧你像 iOS 十几年二十几年对吧这么大的技术在你要整个系统去重构重新改成以 AI 为主的东西这个改动是非常大的你对你的

比如说对库克来说他要讨论他要考虑他对吧这个东西是不是有用的以及如果改了以后万一用户买账怎么办对所以在大公司传统公司做这个事情是非常冒险的嗯对吧以及我呢我们这种这些经理人对吧那我他求的就是稳嗯能稳定增长最好嗯所以其实刚才你说的这个有很大机会我是认同就是你

可能需要从零去构建一个类似的对这个是的但是我看到 Adobe 改进很快的是 Adobe 这是完全去年的这个速度完全超出了我的想象对这么大一家公司对它在这个 Photoshop 包括它的 Adobe 我现在是 Express 用户因为我是 Adobe 的 Creative Suite 订阅用户 Cloud 我买了全套

现在用的最多 Express 我刚才我们片头视频我们连线前 5 分钟我剪了一下很快就做出来了对很方便所以说而且它里面有好多 generative AI 的功能如果我想画个什么背景没有我就跟他描述他就给我画出来了所以我觉得这个已经深入到它的传统的软件流程里面去改进了对于这个东西这种大公司这种速度我去年我看到了之后我觉得挺

让我对 AI 这一波浪潮起来之后就深层次 AI 浪潮起来之后我觉得很有感触的小公司对小公司特别小的公司是有机会因为成本低但中等规模的公司比如像 Jasper 这样的之前基于 GPT-3 做的这种跟喜闻暗的几百人的公司 GPT 一升级你就完了好像真的就完了如果说我要买我花钱去买软件深层次的

我肯定只会选一个了我不会买很多那么 Adobe 的如果他做整合的更好他生成也够用我就一个月 60 美金 59 美金我定他就够了我就凑回去然后剩下我的花 10 美金我去买个 Midia Journey 帮我把头像质量提高一点就够了其他的机会因为大家会平衡我自己的花费

对不对如果说有再还有一个工具再打补贴的我要卖 10 美金 20 美金用户很难去下决心去买这些东西的对吧这是一个现实的问题对你说的是一个 2B 和 2C 的逻辑某种意义上得比那套东西是 2B 的它可能是多那些公司也可能是多那种小币对吧你的承包成本是非常高的因为绑在这个生态上了对所以他而且他也看到了说

看到了一些问题比如说他比较比较快的发现他确实对我理解是对他的影响是非常大的别的公司比如说 iPhone 什么这些无所谓对吧但是但是建立无所谓但是他如果不改他就真玩完了对所以我觉得是

从概率这种东西去逼迫他去来吧去改而且对管理层的要求也挺高的他意识到这个东西价值以及意识到你现在的问题对然后 2C 的话其实就是完全的一个低门槛的快速的对吧一件事的这种东西对我理解一下刚才说 2B 就是小币我算是小币了对吧我拥有我公司的比如说一些大的公司采购一下对确实是

我刚刚只是说了一个场景,这里感冒了,喝点水。没关系。这个场景正好就是说大家会平衡,所有的生存 AI,其实如果说我们再说到这一次的小 AI 工具,实际上大家都在和

ChatGPT Pro 版 20 美金的这个价格进行竞争对如果说我选了这个 ChatGPT 还有谁会愿意我再多花一点钱去买另外的服务而且你用的功能跟 ChatGP 差不多那我可能放弃了没有那么多人会买对所以说 ChatGP 是那个 benchmark 的对如果说除非是我的服务能够提供 ChatGP 就完全不能提供的功能

我愿意再多花 10 块钱或多花 20 块钱如果不行我肯定就会回不了钱因为它是一个最 general 的一个方案用户这样选所以说所有的创业者包括大家在做工具选择的时候都心里都要敢称因为现在有一个最好的万能工具 20 块钱百分之二在那我怎么跟他们争对是所有团队都会理解的事情

对所以我觉得一个生态的问题对然后正好刚才你提到了 2C 的话题我觉得你个人做的叫 cat journey 是吧个人网站其实我之前我在用 mini journey 的时候我自己在琢磨为什么 mini journey

不能把它 Xpro 的功能做得更好一点我可以很快速的去搜索到我想要的样式我抄过来或者说因为我还有一个习惯这也是我的工作流我会去浏览这些我会去浏览这些什么说呢不错的图库网站我没事我就看看我收藏一些好汉图库我就收藏起来以备不时之需因为经常都会做一些演示或者做一些什么东西

如果说像 Midgerry 这样画的图,如果说我经常搜索了好多 promote,对我们以后再做的东西我会效率很高的。所以我现在就会去一个网站看一下,上面质量比较高。因为 Midgerry 它的 Explorer 功能就是有点乱的感觉。在这个方向上面我想听一下你分享,如果说有一个这样的深层是 AI 的这样的第三方的浏览工具,你理想的。

这种情况它应该实现什么样的功能应该是往什么样的发展就是求是一端的这个东西有个什么问题很多人说过以后我们是用不到提示词的很多人不太好这个方向的原因是他觉得比如说 Sam 也在说别研究对吧没有用以后再过个半年再过一年都废了

事实上某种程度确实是这样的就比如说 v6 来的 v5 其实大部分都废了但是有个什么问题呢我们说其实怎么写是一方面另一个是你脑子里得知道这张图里有什么东西对这个是你就是 AI 在因为它现在除非它有创造力了就说到一块就说到最后那个问题除非它有创造力了否则你首先自己得知道你要什么你才能

去化它对吧哪怕你提示词写的拉一点你把你的东西描述出来未来发展好以后他能给你还出来但很多人的问题在于他脑子里没有东西这个东西的提示词就是他的目标和分享提示词写法一模板是一样的我是来启发你就是启发一些没有想法的人

让他知道可以这么画以及有这些东西让他画之前那个创始人 David 其实他做他把这个东西做成开放的做成探索页面其实也是这部分想法我之前考虑过比如说没有这腾出手来了对吧他把它好好整一下会不会说这个东西就没有市场意见没有存在价值了但我觉得还是有的他那个东西是一个纯算法的

纯逻辑的就是我顶得高对吧我当然某种程度上代表了所有用户的一个喜好反正问题在于那个东西它的要求还是不是很高的它对美观对图像质量的要求还不是很高的这个时候你一些就比如说我们这种比如说做节目的我肯定不能去那里边去找对吧或者我可以去那边找但是成本太高了

对很难找到好的但是看的真正这种我能够保证它的下险它都是手工生成的即便是 TX 来自于别人但是改过的然后再生成的甚至说你可以直接用那张图你可以直接用那张图也可以自己生成比如说我最近小红书就刷到很多

很多人用上面的提示词以及图片主要是一个启发你可以改也可以用甚至说你不止市民的认领还有一些其他的比如说 LibreView 这种它其实也是承担了一个相同的作用只是那些东西是基于用户贡献的

优酷贡献的一个问题就是筛选的摄像成本太大了以及量级太大了对了解听上去其实是有一个空间的我觉得就像是人类通过 Generative AI 生成的这些图片视频或者声频未来还有音频资源它会有个像 Pinterest 或者像 SoundCloud 这样一个网站

很正常的对它会有的因为实际上你不管是 Mid-Generate V4 V5 V6 其实是会越来越简单我生成的越来越好但是 AI 实际上现在我们它的这种创意是来自于有限素材的创意或者说是叫做素材混合的创意它没法天马行空的超出我所有训练素材之外产生性的东西

对不对?除非是 AI 实现了,除非是我们真的能攻克到让 AI 能够产生绝对像人类一样的这种创意。但是它现在没有,包括 GPT 一样的,它也是基于它现在的预料。但是其实创意是来自于混合,创意就是来自于很多素材的混合,再搭配就是创意。但是人类的创意确实是有点不一样的,核心的 AI 感觉。人类的这种灵感一线,它来自于这种感觉。我觉得可能现在的至少 Transformer 模型,

做不到对这个架构是做不到的可能未来有新的架构能做得到对有 emotion 但是现在做不到的那么其实人类需要的是灵感一击就是我就去浏览为什么很多人去喜欢去刷小红书去刷这种 pinterest 发这种设计网络很漂亮图面网络我就是在让这些图片给我带来创业的灵感让我留下印象我 emotion 我被触动了一下我把它点个赞我把它收藏下来了

背以后再使用哪怕是你 Midigelic 吸出来了 V 吸出来了它也替代不了人类的事情因为我脑子里面是空白的我不能说 Midigelic 你帮我画一张图 OK 它可以随便给你给一张图但是这个离我想要的这个东西差额还是很远的其实人类还是希望在这种就是说去触发灵感的地方去浏览这些东西我感觉这个是如果说大家都通过生成 AI 来生成很多酷这种共享出来它很有价值的

对不对对昨天王凯我看到刷到了一个提示词会越来越有价值反过来了提示词之前大家会认为没有用但是比如说 GPTS 好的提示词会越来越有价值比如说宝玉的翻译提示词对吧它的翻译工具以及如何防止你的提示词会泄露因为这种开发成本非常低比如说明天你开放了一篇文

对吧开发 IP 以后我在别的地方搭一个相对其他的网站非常垂直你什么都不用管你比如说现在我们这种背景很多人需要这种抽象的背景基本上就没有的对吧就没有任何东西的我就是用来干这个事情你选个颜色选模板直接生成我相信很多人用对吧对吧按次算钱甚至是一次买断永久生效因为它频率低

我觉得很多人是会用的就看你营销了我就会花钱买这些东西的真的如果说一块钱两块钱我当然买了无所谓了你节省了很多时间所以提示词未来会越来越重要是有质量高质量提示词不是低质的就是随便瞎写那种就高质量的尖叫细拙的

那种提示词会越来越重要因为它代表了你脑子逻辑的一个抽象它就是编程它的逻辑性你看 GPT-S 它构建器不是也是用 GPT-S 做的对吧可以它不是公开他们提示词吗可以看提示词提示词你让郑长野写是这辈子不可能写出来的对它是一个逻辑性的一个非常有逻辑的一个东西所以这种提示词高质量的长的随着我们上下文在对我们能接受的上下文在变长然后再配上二级这些东西

所以高质量提示词我觉得会越来越重要甚至说提示词不只是提示词包括跟提示词搭配的图片跟提示词搭配的工作流在刷 GPC 那边是提示词在 SD 在画图这边是工作流因为它的触发元素还有视觉性对它有工作流行为编辑是不一样的它会有工作流实际上我觉得这个里面有机会现在我们还处于提示词分享或者工作流改造的早期

这个里面所有更瑞士的提示是更好的工作流界面把这些生成是 AI 如果说 Midigene 说如果他 API 他会很强大的我自己做个网站接上 Midigene API 我快速的生成各种素材我说这个是全新的商业模式一种对吧这 Midigene 也很赚钱很垂累的对很垂累的这个是挺好的包括现在我觉得 Adobe 全系统

他各种工具都在用他的 Firefly 他的模型在生成各种小图标对他在用其实 Adobe 就是一个大公司他有好多产品好多用户产品就是用户然后他有模型叫 Firefly 然后他自己前单产品线都是用这个模型在他自己产品线里面去生成这东西对那是 Adobe 的王国但实际上对于其他的公司来说不管说是生成视频的或者是 Milky Ernie 或者说以后生成音乐的他都可以 API 化因为现在我们在用 Chad GPT 只是说把 token 化

把文字我给你文字你返回我个文字当然他现在也可以返回图片这个东西以后会形成一个叫做人机混合的基于自然语言的这种创意或者叫做创造性工具我们现在才处于

2024 年我觉得在这一块包括 2025 年这两年随着这些模型的引擎能力变得更强大 API 速度更快调研更便宜那么在这个上面会整合出一大批改进功能的这种产品出来所以说 workflow

是最重要的在 AI 的不管我们是用户端或者是在创业端或者产品端对核心就是要对用户来说我们就要深层生成自己最合适自己的 workflow 记得我们前面分享的然后对产品来说我们就要研究用户的 workflow 然后把它产品化对需求产品化掉对然后把这些整合进去我觉得这是两个很清晰的思路好吧我们现在应该聊了 45 分钟应该有快 45 分钟了

通常我们对谈就是聊一个小时然后在这个里面你刚才分享到了其实前面我们说到的话题这个里面有版权问题版权问题你现在用了这么多你怎么看待你个人怎么看待这版权有两方面版权问题一方面是

模型公司它要面对的版权问题比如说我们现在看到了今年 2024 年一开年就两大版权案件一个是纽约时报搞 openAI 第二个是 mini journey 被 400 多个艺术家选和起诉是吧对这两个东西你可以分享一下你的看法我大概介绍一下 openAI 那个事情我分享一下纽约时报那个事情就是纽约时报找了一些

在帅气精品上测试了一下能够完美的完整的一字不差的还原出它的原始的文章内容以此来证明 OpenAI 去

使用了爬了他的内容来训练那 opi 其实前几天那个声明我觉得写的真的非常好非常有理有据第一个就是他上来先说我在跟新闻行业合作对吧其他新闻行业的人我们是有付费的以及我们是有合作的对然后第二个他说 AI 也是学习对吧你人学习的时候我能免费浏览你公开在网上你没有付费对吧你没有设置付费墙你公开在网上的

人可以浏览为什么 AI 不可以浏览对吧人是看你能学习为什么不行以及为了保证竞争力就是他把这个 AI 的学习和人就是那种故意的偷盗故意的转发割裂开了就是如果没有这个东西他绑架你如果没有这个东西如果大家都这样干都起诉那最后你的竞争力就没办法保持对然后最后是说解释了一下他那个反邹的问题就是

他的意思是纽约时报的文章在被非常非常非常多的人专载有些是你授权专载的有些是你完全公开的你的版权已经放弃掉了那这个时候其实不代表我爬了你纽约时报的内容而是其他的人的其他你传播的比较广的内容被人家学习进去了所以他把这个逻辑关系

定义了一下不是我非得爬你的内容我才能够一直把我是不小心爬你的内容是吧以及我没爬你的我爬了别人的对别人转载到我就是直接爬你的对别人转载我没办法控制我也不可能每次就鉴别对吧到底哪个转载你了对吧而且有的是你完全开放转载那也没办法你自己开放

最后就说说因为是博曼天有价对吧就说我提了你不接受你不接受了你也没跟我继续保持沟通你是一个不沟通的态度你直接给我起诉了我也不知道所以后面的话我觉得挺有意思的虽然这样他还是尊重女人时保捍卫女人自由和对世界网络的报道对所以我就非常逻辑非常严密然后同时他又挑不出

特别大的毛病来对所以虽然他的产品做的糙对吧但这块做的还是不错的对去比 MiddleJelly 那种强一些对 MiddleJelly 就是 AuburnWise 的公司挺懂政治的也挺懂高端公司的

Sam 是个高手,Sam 这个方面很厉害的。我补充一下,他后面提到三个解决方案,第一个是他想给新闻,generalist 或者 news maker,提供更好的 AI 工具,帮他们极大的提升工作效应。第二个就是说,

未来接下来就会在 CHAT GPT 里面如果说是来自于他们内容他就会带上原文的 reference 回去给你们带流量是吧这个必须得做的我觉得那就参考其实这个需真的需要改进的因为现在

现在怎么说他给的答案我们没法去证伪他对他的幻觉或者什么问题是挺严重的他的浏览的功能必应实在是不行不行为什么 webpalette 在 gbts 排那么高的原因对我理解是 prepxcity 他不做他不做

他不做他要做的话我理解可能会更好我觉得 Proplexity 做挺好用的他自己的产品做的也挺好的 Proplexity 我们把方案插回来插到搜索上面去了然后我刚刚在说的 dead reference 因为所有的 Proplexity 他实际上做了一个缩影他带了 reference 的对他实际上很巧妙他就是把所有的搜索结果给你

生成了一个更好的做了一个 RAT 做了一个更解释呈现出来一个让用户更容易接受的一个快捷的解答把搜索的体验给颠覆了一下这个产品做的比较巧妙那么这是刚才说的这个 CHAT GPT 应该给到纽约时报包括所有的版权内容论文都应该给出 reference 出来的如果说他能够判定我觉得未来应该加强这个功能当然 Bud 做的更好 Google 的 Bud 他天生要做这个的

然后最后一点我觉得他还给了一个你可以关闭我检索里的功能因为他之前上线了如果说你实在觉得那类人很珍贵是吧我就不管你了就跟说的一样我感觉 OpenAI 它现在是这个行业的领军人物领导者它是这一轮的智能革命的领导者所以说它的很多的

对于法律的这种冲突或者说是这种聚合方案会成为一些样板我觉得这是很好的因为为什么在一个行业有领导者的时候很多事情推进就很快对不对如果没有领导者就乱起来到这个上面就各种方法都有有领导者也比较快你刚才说 Milliken 的处理比较烂他怎么烂了

首先我觉得你 v6 能够直接还原出剧照你不管剧照是在电影里截的还是比如说迪士尼他自己放出来剧照你作为一个图像生成模型不应该完全把剧照还原出来因为这个东西我不能用我抛开版权当然版权抛不开有点这话不能下手我作为一个用户来说不怎么管版权的用户比如说我是一个不怎么管版权的用户

我首先就比如说在国内还好在国内还好在国外你不能直接给我拿个版权图片出来的我也没办法判别对吧对理论上这个东西完全不应该出现我理解就是训练的时候没有上心对不是说别人起诉你对你的用户也造成困扰而且这个东西它不是一个很难的事情对因为你 v5 就没有对吧所以还有一个是处理处理的话它就是一个能处理

然后改用户协议这两个我觉得加起来当然因为他是不拿融资的不拿融资他就无所谓除非说你真的给我告麻了对吧否则的话你爱怎么办怎么办我又不拿融资我也不管股票对我也不管以后的股价对吧

所以也有道理但是我觉得他作为在图像生产领域的一个比较大的企业了应该是最大的了除了容伪融资可能因为容伪融资但是你这样的处理其实那是刚才你跟你说的一样 openair 他其实做一个表述来讲他起码是在发声的对我觉得 David 这样他不太好

而且毕竟还是团队小我觉得这个东西有时候我个人的理解来说你想快速的让更多的用户适应你就得博出位一点你就得做一点这种擦边球你得快但是一旦碰到了冲突来了之后

赶紧应变然后把冲突化解成为一些机会变成一种规则然后这个事情更好地往前走这个就看 VJ 自己的处理方法了我觉得他其实挺容易屏蔽的就是这些艺术家的名字随这个做法一样你觉得你不要出现在我里面你把你的名字告诉我你的风格我很快从里面剔除了

或者说变个形体交个申请对吧你直接提交个申请证明你的我直接你就你这个名字也不会出现在这里边对而且以后如果说你在生存的时候我就在你图片上我打上你的水印强制打水印就行了对这个都有办法解决的所以说我觉得版权问题出来的时候是非常好的一个问题特别是对 generative AI 来说我觉得现在

深层是 AI 领域里面最大的几个问题两个问题一个是幻觉问题这个是技术架构问题很多这种第二个是版权问题为什么很多企业没办法大规模采用也就是这两个原因我觉得可能幻觉问题对于语言模型来说会更严重图像无所谓图像就是靠幻觉生活的对我就靠幻觉你看都是幻觉越多越好才有创意但是语言不行语言需要表达的精准

所以说这个是这两个问题我们刚才聊了一下我们刚才我们再说我再把我们聊的话题回顾一下我们前面聊到了深层式图像这个领域里面的藏伺服的工作用了哪些做了哪些对比然后深层式视频然后怎么做对比然后我们也聊了一下这两个工具我们分别我们自己个人的工作流是什么样子的然后在这个里面

有了工作流之后我们大概就分享了一下在这个工作流之下

现有这些软件还有什么东西可以改进的地方对不对因为软件要适应人的工作流其实在一个原生 AI 的时代产品的时代和一个之前有好多历史包袱的一些软件他们是有融合机会的或者说是 AI 里面领先或者说像 Adobe 这样融合进去但是我觉得融合的 gap 会越来越小然后更多的人会涌进来把这个中间填平然后在这个里面也引申出了提示词的重要性

它是可以弥补中间的裂缝的让大家人在用 AI 工具的时候更好地去共享创意分享想法灵感这样子的

一个工作理由就是人最终是需要创意的我觉得人需要这种灵感出发为什么很多社交分享的软件或者平台大家都特别喜欢看因为就是在不停的给大佬补充灵感我看我学我学我看我分享其实就是干这个事情只是说现在都是百分之百是人类做的然后现在这个年代可能百分之九十是人类做的再过两年百分之五十是人类做的结果是百分之三十是人类做的然后最后人类就完全变成了 creator 了

就像说画廊的策展人一样我来负责把 AI 调教好我们分享我觉得应该是这样的一种进化过程还需要一些时间然后通过这个东西我们聊到了生成过程中的一些版权问题对不对版权问题我们聊了一些解决方法对吧然后我们可以再聊一下今天的倒数第二个话题我们今天标题就叫做

超级个体是吧对我们现在不要脸给自己贴上这个名字大家在超级个体超级个体在这一年生存式 AI 时代好像是一个提了很多的词十倍富人个人让大家

我至少对于我个人是这样的我不敢想象我能够在在给我自己的这种公司的东西产品极短的时间内给我生成一些海报我不可能的我以前继续得找设计师做或者我去买图我去买图库现在我是可以做得到的我自己还是不可能做得到的这个事情这个是代价很大的而且我现在我们可以用 chadgbt 快速写东西出来可以帮我快速的做摘要做总结包括我现在我自己孵化的产品叫 Memo 回到这个账可以用一下

帮你去做大量的阅读帮我存进来然后帮我做摘要总结然后帮你做回顾还有这种像新牛一样回顾我们正在生产这样的一些功能下一版的功能

我觉得极大提高我个人的效率,没有十倍也要三倍吧。这是我的一个感觉。我知道这个张师傅你这边你觉得怎么能够称得上是超级个体,或者说是在这个时候一个超级个体应该具备什么样的这种技术实力,用什么样的工具,或者你可以把最常用的工具,powerful 的工具都分享一下,然后你自己对超级个体这个标准定义。

这个我觉得你刚才也说过就是效率我们工业社会或者现代社会追求的就是效率协作和标准化来追求效率对吧以前我们需要我们整个是现代社会的发展就来自于标准化标准化方便了协作对吧就比如说机装箱对吧标准化是需要成本的对吧其实 AI 之前白光我看到白光说的 AI 这个领域它让这些

AI 能完成标准化动作就不需要人了所有非标的东西也能参与到写作里去比如画图画图之前本身其实是一个偏手工业的即使我们有非常多的工具非常多的那种类似于比如说 Ui 里边组件什么设计系统对吧还是类似于一个偏手工业的

但这个东西直接把它变成了一个直接跨越了好几个时期直接接近了现在的工作流利我现在能自动化的评判评判质量就比如说模型训练图像模型训练其实我就要做这个事情所以最终就是你个人能够比你之前爆发更你的产出能够多多少在单位时间内以及你学习的速度

就是你学习的速度能快多少两个一个是产出效率第二个学习效率两个倍增是吧对学习效率用什么工具来提升你的效率我刚才听到产出我大概说一下我现在主要工作内容大家其实也都差不多一个是阅读和分享对吧有很多比如说转发的归纳的阅读和分享另一个是研究和学习就是一个深度的研究和学习去试呀去研究还有一个是内容上做

阅读和分享的话其实很多国内的朋友的门槛就是语言对语言语言以及很多长文没办法判断质量你要读完你才能知道它是好的还是坏的但现在其实 AI 能解决就这两个事情都比较好了对一个是语言我看那天极客发我 2023 年最喜欢的三个产品一大堆人是陈金石翻译

是的这个好像我也用对是沉浸式翻译所以语言这个东西就比如说沉浸式翻译比如说 recourse 的这种东西就可以把我们这种翻译的成本就是沟通成本拉到极底对吧就你像我以前我是绝对不敢跟在推特上回一些比如说英语的人对吧比如说我本身的英语就很差这个确实然后但是

有了这个以后它保证了一个基本就是我有了沟通的可能性这个沟通的可能性就会带来更多东西你的机会就变多对然后就是研究和学习研究和学习主要是带它主要是两个能力一个是你从你的内容收集和整理的能力还有一个从里边抽象内容抽象你的观点能力对内容收集和整理我目前的话主要是

之前用到整后来变成 happy base 然后还有一个是 arc 浏览器对这方面它的内容收集和整理就这两个工具对内容收集整理的提效是非常高的然后是你从里边提炼提炼的话又回到 happy base 上面去如果你理解它创始的理念

你就会发现它其实是用软件包装成的方法论对这块其实 AI 能帮你去总结但是它不能帮你去提炼因为你这块其实也是创造力的问题就是它没有办法去设置那些重要的所以这块完全是看你个人所以这个就是差距所在就是你跟别的超级创作者的差距在于你能不能快速的把这个部分完成以及你提前说的生活价值

对就是我打个比方说就是针对同一篇文章你看后看他理解是完全不一样的对应该是这样 insight 这个地方然后你要理的然后但是如果能拆 GPT 总结肯定最 common 的对他还会漏掉很多东西是的然后另外国内的话用切 GP 就不用说了对吧然后 Kimmy 对吧

我那边就用 KimiChat 最后是那种创作那种创作这个东西就是一个典型的

我觉得前两个做的好的内容创作它是自然而然的你推荐出来以后你直接进行拼接就行一个主题有多个内容进行拼接就行然后当然图像内容是另一头刚才我们现在工作里我已经说过了如果是很快的就必须要的我就是你的真理和软位这种比人的快速的成本低的如果是我要做产品我要把这个东西能力落到用户那边去让用户用我就没办法我就得死扣那些东西了就可能用完了

然后单数对吧甚至提示词就得一个改你像我有时候发任提示词它只要效果稳定我是不会太去管它的因为那个东西你的工作是无意义的你优化提示词意义非常小它可能看着更精简一些但是你现在如果要复制用的话其实我觉得更需要的是一个工具而不是编短对了解所以基本上

帮你补充一下就是三点第一个是第一个直接提升效率是吧这个自然要提高然后第二个是学习是吧学习进来学习效率怎么提高就是怎么阅读怎么把内容概要概括出来通过 highlight 出来然后找到 insight 这个是人的情感和创意最

区别最大的地方对吧就是说每个人都有自己的这个洞见对吧这个完全不一样的这个我之前我写过一篇文章我不知道你看过没有我写过那个构建外老里面就是你平时在收藏这些东西的时候啊

就像给自己的未来写笔记就是在给未来自己发送支持包对少男的话说就要支援未来的自己对所以说另外一个我觉得很多人不爱分享但是我们俩都是分享积极者因为我们俩都在 X 上分享比较多的但是我们俩分享方向不一样

分享是这里面最重要的一环分享是让你自己成为超级个体的一个把前面的效率的总结和自己学习的总结能够极大提升这两个驱动力它是一个内在的驱动力如果说我不分享那我的学习其实没有意义很多情况下没有意义你这分享才能加固学习分享还是会对你来说学得到正反馈的

这个时代说实话就是量就是你靠影响力的话你就是分享你要表达你的观点对骂对吧那骂你都觉得是骂对吧

对很多人就是怕别人会大家说完美主义者万一我说的不好怎么办万一别人说怎么办这个靠说就完了对你直接网络和社会公益开去玩事对对对对我们两个一致的看法一致好了基本上我们今天聊的最主要的话题都结束了我觉得张师傅今天感冒他昨天还在发烧今天被我拉着录一个节目就挺辛苦的最后一个话题通常我的播客都有最后一个话题

就是 AGI 和你觉得 AGI 到来之后我们还需要做现在这样的这种生成图像生成视频这种工作吗或者说是 AGI 对我们人类这种创意

你觉得会有什么样子的你想象随便想都可以就会什么颠覆式的这种这种变化嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

但是当他介入到沙箱用那种奖励模型去训练的时候他很快就是打到开始以后后面的发展会非常快他自进化的速度会很非常差点 GPT 是个点

它一下把我们的效率提高到一个极高的地步但是现在还没有完全各种条件不太成熟但是推理那个事情哪怕是就是窄方向推理一个小的方向的杀向比如说因为不好做交流模型对吧想数学想代码

这种非常矮的方向的推力它的进化速度也会非常快就一旦它开始它会直接拉满就干爆所有人这个东西就消失了对所以最后我一个就这种东西比较科幻大家瞎想没关系对所以我理解以后可能会

你的线上内容就元宇宙可能虽然这词不太好听对吧名字臭了它可能会另一种就是 A+A 的方式实现出来因为你的内容生成几乎是实时的内容生成也是自动的你在互联网上你可能现实还是这样你在网上就是虚拟空间内

完全是可以自由自在的他创造出一个新的世界的他没有成本他只有算力成本对只有算力成本只有算力成本这个时候你在网络和线下的这种割裂感可能会非常的强这也是很有意思的以及后面可能大家又变成了一个内容都是内容创作者就是线下的体力劳动会分的很清就是线下体力劳动和线上的内容创作者对就是

内容创作者可能会某种意义上而且体力有多重代价成本也会提高同时内容创作者的你要想挣钱大部分只能选择内容创作者或者为内容创作者提供内容养料就会有一个消费者对林迪邦我暂时我想象中的

AGI 实现之后的这个创意领域里面的就是基本上 AGI 帮我们实现了因为现在越过一个关键门槛现在的 AI 不是 AGI 现在它还是基于大量的这个数据来理合生成的它没法超过它训练数据之外的这样的一些来产生一个全新的东西哪怕混合那也不是全新的当然你刚才提到的这个

AlphaGo Zero 是靠过奖励和博弈实现了完全没有的走法在一个小领域里面我们已经看到这种萌芽了所以说这个突破可能接下来会发生在很多小领域里面然后逐渐的会形成一个类似的 AGI 的功能在各个领域里面突破对吧可能会涉及一下架构的问题我觉得这一天的到来之后

AI 完全解放了创意之后替代人类做创意之后我们可能会进入到一个由 AI 营造的更加梦幻的一个 metaverse 世界里面去了现实和虚拟完全割裂了最终我们就会成为养料了对吧这个是说明不可改说明不可改我们俩看法一致我觉得今天我们这个话题聊得很有趣我们逐渐的把今天这个超级个体从使用工具开始一直聊到

工具流聊到了这个版权再聊到了后面的最后的 AGI 这样一些比较可以开一下脑洞的这样一个话题这也是我做这个 Indigo Talk 一贯的风格我们从一个具体的地方开始然后我们把话聊大然后聊到胡思乱想一下然后最后再结个位好吧今天就很高兴张师傅来参加 Indigo Talk 的节目我们下次再见张老师有什么需要给大家说的吗

其实没有就是好虽然说今天有点生病啊脑子是一团浆糊但是我觉得聊的还是非常好就是因为就是因为他的视角和我其实不太一样就是你做投资的视角其实和我不太一样就这种跨的稍微有一些跨度的这种对话其实是能够

对方有一个非常大的启发的所以收获也很多就也欢迎大家关注英灵港的这个博客推特这种对提到一些比如说 web3 不只是 AI 对 web3 接种他都会说对好 OK 那我们今天先节目就录到这好吧好谢谢大家

INDIGO TALK / AI 时代下的超级个体 - EP10 01:15:10 Share