We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

对谈汗青 AI 影视与媒体的未来 / INDIGO TALK - EP24

2025/4/9

INDIGO TALK

AI Deep Dive Transcript

People

Indigo

汗

汗青

Topics

汗青：我从美术和科技两个领域出发，创办 AI Talk 工作室，旨在将艺术与科技结合，利用 AI 生成原生内容。AI 工具发展迅速，可分为文本层、视觉层、音频层和互动层。目前 AI 生成视频质量已达 60 分，未来可制作商业化的 MV 和 TVC。但 AI 也将导致创作者两极分化，顶尖人才受益，普通创作者压力倍增。个人制作独立电影是可能的，关键在于想法，AI 可辅助实现。理想的 AI 工具应具备多模态理解能力、贴合自然创作流程，并具备角色资产管理功能。AGI 时代，媒体形态将发生巨大变化，游戏和影视的边界将模糊，可能出现新的媒体形态，例如互动式游戏电影。 Indigo: 我关注 AIGC 的发展，认为它将带来革命性的变化。目前大众对 AI 生成视频的接受度不高，存在很多质疑。AI 工具发展迅速，涌现出许多新的工具和技术，例如 Midjourney、Runway、D-ID、Claude、Sora 等。GPT-4o 的多模态能力是革命性的，但同时也带来了一些新的挑战，例如效率降低、UI 布局问题等。未来，AI 生成工具将走向场景分化，不同模型适合不同场景。

Deep Dive

Shownotes Transcript

欢迎来到 Intego 数字经销的新栏目 Intego Talk 我会不定期的邀请朋友们来和大家分享科技趋势的新思考欢迎回来这一期我邀请到了我的一个应该是非常老的朋友了我们应该有认识十年多了但是我们见面却

非常少因为我后面我都不在国内这位应该大家知道他的社交账号他有一个社交的内容叫 AI Talk 我记得是当时做过两个很酷的

这个 Jobs 和谁对话我记得是第一期对话第一期应该是 Jobs 跟马斯克应该是对 Jobs 跟马斯克好吧我觉得提示一下大家应该知道了这位叫做我们的汉青老师对他现在是有一个工作室叫 AI Talk 也在应该算是走在 AIGC 和 AI 生成视频内容的

我觉得是最前沿的我很喜欢他的内容所以说我今天特意邀请他来到了 Indigo Talk 我们这一期来聊一下 AI 领事制作然后以及 AIGC 的一些未来的话题好吧那么就要请汉清老师自我介绍一下好谢谢 Indigo 然后其实我之前听你节目也是听过一些的然后这次特别高兴有一个机会过来因为

我自己的背景其实跟大家简单的说一下其实我过去的人生的这个阶段可以简单的分成三个阶段第一个阶段其实我是一个学美术出身的人我大概在 20 岁之前就干了一件事情就是画画对大家现在理解的那种艺术生然后我从 6 岁开始画画一直画到了 20 岁可以理解的大学毕业然后 20 岁之后进入到了科技行业

从 20 岁开始我待的其实都是互联网公司大部分的大家应该都比较清楚我第一家公司是 eBay 其实是当时还在国内刚开始尝试做电商大概在 06 07 年左右的时候然后因为我进去了就很快业务就不行了在国内然后这里没关系那段故事大家都知道关于阿里怎么起来的东西所以我第二份工作其实是在阿里

然后在杭州其实我待了两年左右然后后来其实就是来京东了京东大家可能国内的朋友应该做电商的应该都不陌生大家买东西都会用所以我在京东最后其实是待了大概 10 年左右的一个时间然后我负责的板块一直其实从咱们现在老互联网人的角度来说就是大的产品和增长

因为一开始可能是做一些像 UED 产品经理后来其实就可能主要是负责一些业务增长一些 2C 的一些业务下面就无非带的其实就是像产品经理设计研发市场运营就这些同学然后第三个阶段其实是我从京东离开之后然后我没有再回到暂时还没有回到大公司里其实开始自己做一个小的我自己称之为是一个媒体的实验项目其实

是从大概 22 年开始我们去构思然后 23 年开始去执行的刚才 Indigo 跟大家介绍的所谓 AI Talk IP 的一个品牌他大致是想去做一个从哪一年开始的我们是 23 年其实正式上线应该是 23 年而且这里面特别有意思的一点其实我们第一期真正的节目不是刚才你说的 Jobs 那期其实更早还有一期算是一个实验性的一个 demo 其实是科比和奥尼尔的对谈

当时其实是因为我还记得后面有科比对对对实际上那个如果严格意义上来说那是我们的第一期或者第零期它比较偏 meta 那种感觉的东西对然后就一直做做到现在之所以选择做其实也是因为我自己的背景我觉得一半人生的经验是艺术领域另外一半的人生经验其实是科技领域然后我从自己的做的项目上来说我特别希望能找一个契合点把这二者能给去做一些结合

因为这个事待会后面可以再去展开谈因为我一直觉得其实技术跟艺术它在历史上来说一直也是互相去促进或者说它融合是非常多的那 22 年底其实我们当时看到说整个的 AIGC 它出现了一个苗头

就是早期的一些现在可能还没有到 GPT3.5 或者说没有到 mini 之人内当时的版本的时候然后已经看到了一些雏形的东西我们就开始关注所以就最后二三年开始去上线整个的一个项一直做下来到今天应该也差好差不多是两周年了然后目前来说的话我们应该在 AIGC 的领域的原神 IP 里

还是在国内算比较大的就是从粉丝量顶流嘛对顶流从里面我觉得从曝光量对对对就是单纯说播放量对嗯对会有一些像播放量看似的对我们应该好一点的节目应该是过千万的然后最好的类型应该是两千多万左右

那挺厉害的还可以然后粉丝量的话现在基本上应该也是接近 100 万的一个水平所以在 AI 这次因为我一直想做的其实是一个不是拿 AI 去做短视频而是拿 AI 这个东西去做一些原生 native 的一些东西

所以从这个角度来说目前我们对数字就还算满意吧就基本上增长的速度还可以然后这个是对我来说最大的吸引力其实是可以去跟像你啊像很多朋友啊老朋友能建立一些联系然后能做一些比较有趣的东西对可能那方面对我的吸引力个人来说也是一个很好的一个事情

对因为我觉得这个发展很快我也是 2022 年年中年初和年中的时候开始接触 AIGC 的那个时候打理刚出来然后 State of Diffusion 和 Meet Journey 然后才有 ChaiGBT 是吧这下子就 shock 到了我是 2022 年的年中写了一篇文章我第一次写 AI 的文章就是那个呃

关于那个机器之星的进化这样子这样一篇文章我当时认识很深刻我觉得这玩意要革命了革命前也就开始了所以我就很激动我就开始写文章对后来就知道你 2023 年我看到你的视频这个其实我觉得

这个行业发展非常快而且现在在国内其实在全球都挺火的我觉得中国会特别火我知道有个叫 way to AGI 那个社群吧好像 AGI 他们做的对对对然后那个社群好像特别不错我感觉对这个特别多这个 creative 的人在里面我应该就是不客气的说就是

V2AJ 社区整个的发展的过程我们是一直看着过来因为最早的时候其实我们在国内有一个很小的圈子现在这个群依然是我平时最活跃的一个群里面有很多朋友 AJ 就是中间的

其实一开始他还在蓄力的时候然后做很多很很好的规划的时候我们就认识然后后来特别开心他一下其实在去年跟前年尤其是整个社群现在做的非常好起来了非常好所以说那么正好是有这个问题我前面听您介绍我之前还不知道其实我们两个人是我是在微博的时候和你认识的对当时也业务合作正好你的人生三个阶段然后

现在这个有一个问题刚才我们谈到了这个社群嗯嗯嗯从你现在做了这么久的 AIDC 你觉得大众现在对这个 AI 生成视频视频的看法除了好奇之外然后他们可能你是怎么看的因为你有这么多粉丝嘛你肯定能够得到一些反馈大家真实反馈有人是觉得这东西很无聊的或者还是好奇看一下还是觉得他

对会对他未来有什么改变你可以先聊一下这个从你的角度看到的大众看他的看法明白明白特别有趣的问题其实我觉得可以先画一下区域因为可能先说国内吧就中国大陆这边然后因为我我我自己对这边的肯定接触是最多的我先给我一个综合的感受我先表达一下就是大部分的观众可能现在还是处在好奇

和稍微的有一点怀疑的边缘上我会是这么去认为的因为我做这个账号其实我们在国内全平台都有我们的账号从第一天开始我就要面对着大量的留言区里面的这种质疑也好甚至是语言暴力也好其实是会有的后面我可以发给你一些特别有意思比如我们最早的时候刚开始做的时候就有很多人当时的讨论范围其实是说 AI 这个东西到底能不能拿来做创作

他从伦理上他从对作者的尊重上到底是不是能算成就是打引号的艺术

其实关于这一点是有很多人在留言区里对我们有一些不好的看法的直到今天我相信这样的观点也会有这是第一种怀疑可是其实事情到了 2024 年到了今年的时候大家怀疑的方向会有点变化会怀疑说 AI 的东西其实跟真人比可能还是不行比如说你做个剧比如说我们 vip 那篇上了之后就是说你眼泪怎么样或者怎么样这我都特别能理解其实每一个片子都是这样包括我们前一段做的 MV

你如果去像 B 站这样的平台去看的话其实大量一半以上的弹幕其实还是在有反对的一些声音的基本上来聚焦在于一些技术还不够完善然后人物还不够自然这样一个状态这是第一点这是我觉得关于作品本身的第二点我是觉得我们有的时候因为是在 AI 或者说科技圈里大家听到的可能更多的还是对 AIGC 本身的一个

正面的看法或者积极的看法但实际上从我对于我自己因为我跟圈子里很多朋友不太一样的是因为我的节目比较纯兔子所以说我能接触到很多大量非咱们科技圈的人

就是普通的老百姓或者做别的所以我就问你这个问题我觉得你肯定会有这种对我是觉得我能感受到的负面的声音还是很大的我实话实说就只是我自己的个人感受就是整个的社会上的观众对于拿 AI 做视频这件事情我是觉得从整体上还是处在一个没有完全接受的状态

然后大家对这件事情会有很多我不能说是有色眼镜因为我非常理解他们的角度的一些看法跟认知比如说就我们都能听到比如说你这是电子僵尸块是吧我经常听到这样的描述或者 AI 人恐怖股然后我不行了我以前在我去年年初的时候在日本的时候我去 Amazon 的拜访

然后他们就是我朋友在亚马逊云里面复制 AIGC 的这些他部署模型 SD 然后他们就接触了好多日本的工作室漫画的做动画的然后跟你说的一模一样丝块对就是僵尸他们就是创意人觉得这是丝块但是又忍不住他确实提高了效率所以说他们就是

炒稿的时候用 AI 产生创意这种全部人工红送话语然后带人的灵魂进去的时候然后他们说 OK 这个才能退出其实我觉得在 AIGC 在日本挺发达的你现在在日本对我参与了挺多对我们过来其实又有一部分这方面的原因因为我一直觉得这后面可以再详细聊就跟 IP 跟影视跟动漫它会有很多的连接就

就回到你刚才那个问题其实就还是我就一句话直接说我是认为共识还远远没形成这个超出我的这个我可能不理解我是觉得没有因为确实我们圈子里的人对他都是正面的但是因为我接触了很多的用户我是认为大部分人还是带着一个怀疑的态度去看的

当然我不觉得这个东西有绝对错它只是一个现实的一个情况了解了解那这个确实是这个回答就是我可能没想到因为我也在圈子里面的我也没跟普通用户接触过大家都觉得很嗨的深深这些东西 OK 这个是一个问题但是那我第二个问题我正好问一下因为你们做了工作室 2023 年 2024 年你们用了这么长时间用了好多工具对吧

然后这个这些技术你可以简单分享一下这些工具的发展然后以及你们现在最后用的一些工具然后没问题对首先我觉得综合的去总结我自己对于工具这块的感受其实是三个要点我先抛出来但是一个一个谈

第一个是说过去两年或者说过去 24 个月到 30 个月整个 AI 的工具发展是速度是惊人的我说的可能不是广义的 AI 我们今天只聊 AIGC 对吧我们先把大元模型那边先暂时放到一边不去谈我们只说 AIGC 首先我的感觉是绝对是惊人的第二基本上我们是这么看待 AIGC 的领域的工具的我会自己给它有一个分层我是分成了四层第一层其实是最基础的我们叫文本层

文本层可能就是大家对应到比如我们举个简单的例子我们拍个电影你要有剧本你要有脚本你要有设定你要有分镜的这些文字方面的东西你要有台词这块我们其实用的是大圆模型这一块就大家都日常都知道的那些了我就不细说了然后第二块其实是整个的视觉层

视觉层其实主要是图像这一块为主因为目前 AIGC 的创作应该在全球范围内我们还是使用的图像生成视频的这种范式会更多一些就我们介绍过的 image to video 对 image to video 然后还没有到纯粹的就 text 那边整个直接去到 video 的那个阶段对这个还是目前的一个范式但我觉得之后可能未必所以图像这一层肯定是第二层第三层其实是整个音频那一层

包括音樂包括語音包括一些 TTS 的一些技術口型的技術最後一層其實我稱之為互動層互動層其實不一定是影視但它現在主流的是影視為什麼因為後面我會想分享一下看法就是互動這一塊跟影視可能並駕齊驅的還會像遊戲還會像有一些交互性的媒介其實我覺得都會在互動層那一邊去構成整個的媒體我自己是這麼看待這四層的然後

大概来说第三点就是我一直认为说整个的工具其实它是一个多模态复合在一起去做创作的不存在一个单一的工具而且也待会我会说一下我用的工具其实很难说在某一个领域如果你做商业创作我们就认准一家就只用它了它就是第一它就是 all in one 其实从我实践的角度来说其实非常难而且我很怀疑有没有这个必要性其实是没有必要难为自己非要去用一个的对吧

这是三个我先抛出来的比较就基本上我自己大概的一些想法然后具体来说就是我们最早咱们可以按照时间轴去聊这个事

我们最早去接触到的 AI 工具其实我相信有一个是大家肯定跟我们都一样最熟悉的就是今天的 GPT 对吧就这 OpenAI 这家公司 XGPT 这应该是在国内引爆整个对于 AIGC 讨论的一个导火索尤其是当时应该我记得是 3.5 那个版本应该直接就把大家的舆论包括自媒体的流量全都带起来

那就这是当时一种基本的创作范式因为我们是最早拿 GBT 去写 AI Talk 的脚本跟对话的就直到今天因为 Talk 的早期形式比较

聚焦在两个人就像今天咱俩这样的对谈一样其实特别像一个人右边一个人对吧对对对很像很像今天是 real 今天是真实 talk 对对对今天是真实的 talk 然后其实剧本或者说人物去说的内容是我们工作室早期的时候的一个特色因为很多时候那个时候大家还是拿他去做一些电影的预告片我不知道你记不记得就最早比如说像卡兹克在国内最火的时候他是做了三体的那个预告片嘛

然后推特上当时也有人去做了那个奥本海默的预告片其实大家当时是拿他做视觉的东西但我们是比较早的就用他真正去写内容了所以可能我我我经常开玩笑我在那两年里面用 GBT 去写的内容跟对话应该还是在圈子里算比较多的因为每天你的工作就是这个那这是就接触到最早的工具之一核心工具第二个核心工具就是 Media Journey 就是去画图其实呃我们用 MJ 会比 Stable Diffusion 相对会多一些

主要还是体验跟效率的一个问题所以基本上我们早期的其实咱美一些我用我也用 MJ 对其实你说的非常对这个待会可以再去聊就这两天我写公众号也在不停的被骂就是关于这个要不要给这个这个这个 XGBT 的这个 CEO 去站台的问题嘛就画图这一块就 mini journey 其实最核心的一个点就是你说的他审美

其实直到今天即便我们拿 V6.1 7 还没发来看其实也是很好的所以我们用 Media Journey 会相对的多一些然后第三块就是早期我们拿来做影视的工具那个年代其实最早的是两个产品第一个是 RunwayRunway 其实是这里面跑出来比较早的

就是当时能去做一些他应该是滋养了大部分的 AI 电影预告片这个模式的工具尤其在 23 年 24 年左右的时候应该是这样对吧然后但我们当时还会用另外一个工具是今天大家可能也有人知道叫 DID 他是一个早期的做数字人的因为早期我们 AI talk 里面有很多的这种对话的东西数字人的部分我们是拿他完成的

然后另外一块就是因为我团队本身我刚才可能没介绍我们有一到两个同学其实是研发的同学我们自己其实也会拿一些开源的东西做一些二次的改造跟封装去实现一些可能这种成熟的商业产品它在各方面的一些限制我们要去做突破然后我们要去做一些重新训练对会有一些简单的不会特别的复杂说实话更多的其实还是运用现在的技术怎么能去做组合因为

我是做产品出身的我现在做视频这个事基本上也是一个逻辑就是拿东西往场景里面找应用其实大概是这么一个方式那就是比较早期的一个模态然后到了中期的时候

整个的工具都进入到了一个爆发的状态那语言模型那边到了中期的时候基本上我们加进来的就是像 Cloud 特别明显 Cloud 有一段时间是我们创作相当的主力主要是因为它对于文学这一块的表达能力确实在当时的文科生领先对没错典型的文科生然后

然后在整个的视觉这一块图像的领域还是以 Mini-Journey 为主但是后来大家也知道后来比如说像 Convei UI 的这一块的工作流本地工作流的起来工作流很成熟了对然后包括后来的 Flox 这些模型它的质量渐渐的在接近或者说在某些层面上在接近像 Mini-Journey 的一些效果我们可能把工作流这一块就引入进来

视频那边就更不用说了最卷因为这个标志性的事件应该是 24 年 Sora 对吧就去年的 Sora 对 Sora 一下拉伸拉伸年初对对对就有趣的是今天我们提 Sora 大家都得想一下了感觉对这个好像已经被淘汰了对对对很有趣的一个问题但其实不可否认的是生成是这一波真正的视频的爆点是 Sora 带来了对是当时那一波讨论然后紧接着国内就 24 年出来克林

出来寂寞就这些大家现在出来海螺其实大家就都知道了这些今天我们耳熟能详的工具而且可能在全球他把一个技术让大家验证的 DIT 这种训练的方法你知道今天其实 V2 那边我具体他们用的是什么技术其实现在我们还是不知道的但是至少其他的主流的应该还是基于 DIT 这个架构去做的这个大家都比较清楚 V2 也是的

WILL2 应该是但是因为这个没关系可以后面再聊因为我是有一些没有确定性的东西我不太容易在节目里面直接说然后基本上来讲就是 DIT 这个结构把整个的事情就奠定下来了那整个视频工具进入到了一个大的爆发

然后像你刚才说的比如说像皮卡然后像很多的像 Luma 这样的工具都会出来然后开源在去年其实也跟上了比如说你今天去看开源的一些像腾讯的混元什么这些巴拉巴拉的其实就都会冒出来

它整个生态就会很好然后音频那方面来说整个的标志性事件我觉得是 SUNO 的出现这个应该还是一个挺大的事情就是音乐内的 AI 的音乐它直接其实是打开了一个新的领域因为在它之前我记得 Meta 当时是出过一些开源的这种去做音乐的已经模型的但是实话是说效果跟体验肯定还是不如 SUNO 后来的好

所以就整个的工具我觉得在 23 年底到 24 年中那是一个巨大的爆发然后你会突然觉得就作为创作者来说你可选的东西非常多了然后第三个阶段就是近期我觉得可以 DeepSick 为一个节点其实是挺明显的就是春节前 DeepSick 整个的爆发其实从它的那个点位上来说到现在短短可能两个月的时间

出来的很多新的范式比如今天大家都在聊的用嘴批图对吧就是在语言模型里面完成图像的一部分工作最早应该是我记得是应该是 Gemini 我记得应该是 Google GeminiGemini 出的对然后 Grow 可以跟上然后直到就是 OpenAI 直接把吉卜利刚出的对点爆了对吧今天我们肯定是可以去聊这方面的事的

这个我觉得就是一个全新的一个范式出来然后配合它同步去看的就是 Google 的这个 V2 我自己觉得还是它应该整个的全面的发布应该也快是最近的一个事情了我得到的消息我们在中间看到的很多可喜的变化我觉得是很多的我觉得它也会带来一些新的范式的转移然后那就不提国内的这些工具了因为像可灵像季梦应该都有很大的版本规划在近期会去做

所以我觉得就是 Deep Sink 可能是一个特别好的事情就把整个的 AIJC 包括 AI 的这个圈子热度然后包括大家卷的这个程度

又都带起来了你像最近我们都睡不了觉对吧 mini journey 发 v7 然后 runway 发天天发天天晚上发压走时间对所以这个就是我从工具上基本上我画了三个阶段按照时间转第一个就是早期我们说上古时期对吧两年前然后是蓬勃发展的一个阶段最近我从 DeepSick 到现在我自己觉得它是一个加速发展它比的速度可能过去还要再循环

大概就是这么一个状态我听上去我来回因为我们讲的很多我来帮大家回顾一下就是三个阶段最早去我体验很深我也是在同步使用的在 sora 之前其实大家都是纯幻灯片纯幻灯片就是让图片动一下下就好了没错然后 sora 出来之后大家胆子也大了可以一分钟左右或者说因为 sora 最长是五分钟但是大部分我们可能在 10 秒到 15 秒或者 20 秒它能够还干的比较顺 15 秒钟左右这种

我可以很多逻辑啊镜头的变换呢对这个是刚刚说了之后就是 2024 年的那一段时间 runway 也升级了然后很多国内大批可林吉蒙都出来了因为那个 DIT 他反正告诉我是这样做的对他一下子释放了然后第三次其实你刚才说 DeepThinkDeepThink 一下把中国的这个内容创作的一个原模型的能力一下爆发上去了是吧这个很快然后呢跟着就是最近我们俩在约的时候其实是

gbt4o 的还没出来还没出来对我们阅完了之后几天之后它就出现了对没错我和汉青老师我们要加进去把这个话题 gbt4o 我觉得有一个最大的特点它其实煎饼奶你刚才提到了它先出的

它先出的就是它因为接面来的模型它从一开始 1.0 运行它就存多模态的它一开始就在里面喂视频喂图像喂各种模态喂进去了然后它它输出也可以你文字进图像进文字出图像出语音出接下来还会视频出它其实都有很多的调整模态数据均在里面了那么其实 GBT4O 就是

在兼联网出来之后他还能够把这个市场 marketing 的声音给抢回来那就是因为 Google 做产品吧从来都只出个半瓢水我做了但是我这个产品确实不怎么样对我先做了技术好但是 GPTFO 一出来他们很会炒作对一下子把这个 Ghibli 的风格给带火了然后大家都进来了那就是逻辑上就是说它是一个纯多巴胎它是围绕

GBT4O 这个模型做的多么太多然后呢在这个上面我们不是说大家都因为他没有公开细节但是他在官方网站上生成的第一张图不是有一个白板吗

然后有个人在那写字后面穿着一个衣服这个唯一的公开的记录其实上面写的很清楚它是那个 Auto Regressive 就是自回归式的这个东西实际上它就是自回归 Transformer 然后后面然后再挂一个 Diffusion 的东西来做最后的生成但其实大量的它其实都是用多模态生成的对多模态的能力然后用 Diffusion 再把它变清晰或什么样子应该是猜测应该是这样我感觉它应该是多模态输出了一个

就是像有点像杰米那种超超的感觉的画面不是那么好但是后面应该是有一些 diffusion 或者一些 agent 流程让它变好了所以它很慢

推特上现在主流的猜测应该跟你是比较类似的他们就是 VR 其实就是自回归那套东西其实这应该是一个蛮核心的点用没用 Transformer 倒是有人在有争议我看但是这个就没办法验证因为他这次什么都不说了他不像之前都不说对对对那么这个东西正好就要让这个东西一下就进到了一个去年是说了今年因为 GPT-4O 一下子让这个图像生成

变成了一个因为我们之前很依赖于这个提示词啊那么什么写法呀然后呢你可能很难控制他因为他不理解你的意思但现在一下你就可以跟跟跟一个聊天机器人说他完全理解你的语义而且在他想象空间里重构一个画面给你对吧你现在的风格转换对我觉得这个确实是一大进步他把很多工作流给摧毁了嗯对吧应该有这个感觉吧对很多工作流嗯

我自己我觉得可以在这展开聊一下其实我自己的观点就最近其实我花了很多时间在跟朋友聊然后我为什么刚才我说最近写了几篇公众号然后下面留言其实有的还挺激烈的我自己在这边是有一点点不太一样的看法因为我一直会觉得说首先 4 欧就像你刚才 Indigo 说的它的强大跟革命性毋庸置疑

尤其是对于我觉得浅度的用户就是不想去折腾工作流不想去做专业我就是平时想去批一个 meme 这样的一个表情包一个网络的传播文化一个快速的风格这个我觉得它绝对是一个革命性的一个体验但是我会觉得模型可能越来越去走向一个我自己称之为是一个场景分化的一个状态就是怎么说呢就像原来做产品一样

你其实什么产品对应的那个客群和场景可能在慢慢的变得非常的清晰我为什么这么说就是前天国内上了一个新的绘图的模型是季梦的 3.0 我不知道你这边有没有过了解然后这两天国内的圈子对这个模型的一个曝光度也是很高的主要原因就是因为它对于中文字体

和中文的可识别度在呈现上的一个非常好的一个知识那就意味着说可以直出很多的中文的海报了而且字体你都是可以去做很精细的一些控制那单说这个点它肯定是要比 4 欧目前对于中文的知识要好一些那肯定要好对所以我自己基本的判断是说完全个人观点就是现在整个就当下比如说 4 月份的时候

大概率我觉得生图模型这一块它基本上可以分成两类一类就是对于浅度用户我就是想去做一个简单的东西我就想批个海报或者小商家对吧我今天就想发一个朋友圈我做一张图那没有问题我觉得 4O 去代表的这种就是我们说以嘴批图或者说以这种语言模型的方式做多模态去生成图像它是个特别简单的东西但是呢划分两半说比如说

我自己应该是疯狂的用了大概用了一两周了直到今天我都没办法把我自己做商业项目的工作流完全的牵过来甚至都很难在里面做应用为什么这中间有我觉得是有三个特别关键的问题第一个是说效率大家都会说

打字去 P 一张图好像对于普通人来说效率是变高了对吧因为你不想折腾那些工作流但是它这里面有个很 tricky 的地方就是实际上对于专业的生产你的效率反而是变低了我举个简单的例子我们不拿就是 MediaJourney 举例我们拿 PS 举例子大家都用过 PS 对吧就知道是什么意思比如今天我们说我跟 Indigo 的这个画面里面现在啪我们截一张图然后 Indigo 这边有一个耳机

或者说你手上你桌子上有一个杯子我希望把这个杯子从美术上移到一个我觉得舒服的地方我在 PS 里面其实就只要圈一下挪过去就好这是一个很简单的操作因为 PS 它本身也有 AI 功能但是我在 OpenAI 里其实我是要打很多的字的而且关键的点是说你不太能确定你打完字它真的挪到了一个你很精确想要的位置

我不知道各位能不能在脑子里补一下这个场景对我可以我已经老补着画面了因为我尝试过这种微调动作调的画面都变了对因为而且这是另外一个问题就是说其实每次的微调它不是完全的那种说分层逻辑的问条它其实是重汇的所以这种小问题大家可能听起来觉得我在吹毛求疵我觉得是应用场景的问题因为在商业应用里面你经常会出现这种状态

那就意味着说我如果拿 4O 去解决我所有的商业的应用它的效率其实反而是降低的

它完全是因为场景跟用户的不一样去产生的这是第一点第二点就是开整个 UI 的这种布局因为它毕竟还是基于一个聊天模式的它没办法做到一个特别好的开卡体验我后面可以给你发一张图就是我们现在做一个 MV 比如说我前两天的 MV 一个女孩子的一个镜头我在 Mini Journey 里开到 100 张以上的图是非常正常的事情

一个镜头就只是一个镜头我开到 100 程度非常容易找到最好的效果对然后在 mini 声那里我就可以疯狂的点因为你 promise 反正拉过去点点点你在 soul 里直接你是要死掉了这个事情因为先不说然后它直接不给生成了对因为它本身是一个 UI 范式的问题它的 UI 本身它还是一个比较我们说语言模型的原生的一个格式对是一个 chatbox 其实所以这一点就决定了说在这个效率上它可能也会有一些问题

第三点其实是更重要的是你刚才一开始说的其实不是说图像质量不好其实丝毫有一些图像质量我觉得非常好但是在审美和艺术化风格的广度上

其实目前来说即便我们拿 MJ 的 6 去比的话它可能也在风格的广度跟审美的取向上还不够当然 MJ 的 6MJV6 它有很多别的问题比如说提示词的语言遵循很烂对吧我们都知道然后经常手肢体错位这些缺点我都知道但为什么我们还是不能放弃它短时间内为什么我都盼着 V7 赶紧出来是因为在审美风格这一块确实目前就是我们包括说像 Flox 这些开源模型都算进来

MJ 目前依然是目前来说还是能打的对我自己你看我做直播我有时候生成一些海报就是背景就是我每次做直播的时候背景都不一样我选了所有的工具还是 MJOK 对有偶尔有时候 Google 的 imaging3 可以产生几个简单一点好看的但是复杂一点的它就

没有 MJ 的好看对这个是我现在的感受因为觉得这个确实是的然后你刚才说的工作流微比较统一认可这一点因为但是他确实把人给分开了对普通用户我想让他发个社交广告社交内容或者发一个 post 或者发个 Twitter 或者发个什么 Peg 图

文章配图那个足够了因为我对你的交付不需要那么精准完全这个是革命性的这个是革命性的具体简单但是呢你想精准控制就是就是他百分之百分之五百分之二左右的需求满足不了所以是工具就要分化但是他抢到了一部分很大一部分的这种应该是相当大一部分因为毕竟有专业需求的人是少数对我觉得是相当大一部分对

对那么正好我们刚刚说到这个话题就是你刚刚你们已经在做 MV 了我其实给你准备了一个问题你觉得现在 2025 年

我们现在的 JM 也所有的生成技术能够独立的做好的就是去拍出现在就是歌手唱的 MV 或者 TVC 电视广告能够做到我们 2025 年比如到今年年底就是完全商业化的我觉得这个从你的角度来看对明白明白这里面我觉得是三层问题第一层是说做得到其实是建立在一个我们对于目标的质量要求有多高的基础之上我

我们现在应该马上下个月会发两条片子出去然后一条是合作的另外一条是我们自己接下来的那个就是 MV 的一个系列的续作我自己包括说我们第一条那个白色皮卡丘基本上我自己的判断从音乐质量上来说你非要拿它去跟顶级的专业歌手比那是不可能的我实话实说这个事情这个表态我要先表我从来不觉得说

就是你靠苏诺能去搞出一个新的周杰伦来这个搞出一个罗大佑来这个我觉得就先短期内至少先不要想但是相比很多我自己这个没办法因为审美是不太一样个人审美有自己的我自己觉得比如说 60 分左右的作品目前来讲我觉得 AI 其实是完全可以做到的你如果掌握一定的方法 60 分左右的是完全可以做到而且这个 60 分不是指的说它的质量是将将及格而是能带来一定的商业性

为什么我这么去讲呢其实

我自己就是一个好的例子因为我们工作室大概过去两三年的时间里面我们的现金流都是正的那我唯一在干的一件事情其实就是靠 AI 原生的内容品牌再去做第一我们有冠名节目的冠名然后我们有帮别人去做一些联名的一些 video 然后我们的很多东西其实已经实现了某种的线下的一些场景的替代但是我绝对不认为它目前就跟传统工业做的一样好所以这永远是一个要要要摊开来的问题就

很多网上其实讨论很激烈的原因在于大家说的不是一件事就我说他还行你会认为我说的意思是说他已经超过真人了完全不是这么回事但是他一定有他的一个价值所以直接回答你刚才的问题我觉得是可以的肯定是可以去做有些商业价值的但是他的高度最终离这个工业的顶级的传统的水准

这个距离其实是不太确定但从目前来讲应该从影视音乐小说这是我比较关注的最三个主要的一个媒体的形态就文本音频和视频应该跟就是人类的这种极优秀的创作者之间的差距还是很明显的但是他什么时候能追上大部分的人我觉得这个速度是很可怕的因为就是我刚才谈的那个问题因为这个发展的速度实在是太快了对对

对我觉得以这个结论和我的脑子里面想象一样的对因为你刚才说 60 分其实我觉得我刚才说是 2025 年底因为我在 2025 年初的一个新年直播上面我就做了一个预言我说 2025 年底 AIGC 能够产生

完全可以拿出去公放公影的这个 MV 和 TVC 了因为它能够产生就资料还有我们还有半年时候提升吧对这个是完全可以的这个到时候应该不是 60 分我觉得应该可以做到 75 分差不多我说 60 分肯定是就做个大家行因为 60 分大家比较好理解我什么意思对对对对对了解了解基本上达标还好一点对所以说那么这个其实是一个很现实的问题其实大部分的这个内容的创作者视频制作者他其实普通

普通人他也做不了太好的东西出来其实说会对人的生存做创作的压力会越来越大人会分化就是大部分水平平均的你做艺术知道水平平均的艺术家都不能叫艺术家只能叫画画的是吧或者是钱叫他画东西毫无价值他不认爱做的好那么人只会少数极少数的极其极其有天赋的人

才能够凌驾于 AI 之上对不然大部分都是就是中庸水平你可能人的人 AI 就对不上哎呀你比我敢说多了呀这种话我都不敢说的会被网爆对我好像说过一次确实被爆过一次有人就不服气对那个我就接着你的观点聊其实特别有词最

就最近半年我看到了三个人在不同的场合做了三次发言跟我们的观点都是完全一样的第一个是保罗格拉汉这个大家应该都知道我刚刚翻译他篇文章对他去年年底的一篇文章叫写作书写者和非书写者翻译过来那个我那太深刻了对其实说的就是你的意思就是这个世界上最后分化成

会专注在写作上的完全不写的人对吧其实这就是一种分化这是第一个这是第一个我听到的第二个是米哈游的创始人前两天不是发了那个星际低语的那个 AI 游戏吗记得然后他第二天在 LinkedIn 上发了一个暴论

这个暴露是打引号的我是觉得很有道理他的逻辑是以后只有 0.我记得是 001%的游戏行业的精英会运用 AI 去做出真正惊人的东西然后剩下是什么剩下是普通人就是草根或者素人你有想法你就能用 AI 做出一个还不错的游戏最惨的是哪类人最惨的是中间那类人

就是没有到达精英或者说顶级水准的行业里的工作者其实你会两头不战因为人还是在分化中间市场可能就会被缺失掉了这是我第二个听到的声音第三个声音是李安导演就是我们拍电影的李安导演在台大应该是前年的时候接受的一个采访

然后主持人问他你觉得以后的电影有了 AI 之后会变成什么样子他的回答是只会出现两类电影一类电影就是真正的大制作顶级的音效顶级的 AI 体验顶级的技术你去大影院里去看好第二类是什么你是个普通人你有想法你就拿手机加上 AI 你都去拍你的片子吧创意是无限的但是中间如果你不上不下

你就会非常的倒霉你不觉得就是三个人三个领域说的其实跟你刚才是几乎是一个意思就是分化所以我是很支持这个观点对所以说以前那个谁啊那个 Ted Owen 美国经济学家对他写过一个 2010 年左右写过一个大停字就是他说现在我们的科技发展停止了然后他他主要是为了说这个

这个科技 2010 正好是那个金融危机之后比较悲观大家都他写了这篇文章然后呢他当时在后面一两三年写了一本书叫平均的终结我刚刚把它看完 2013 年还是 2012 年写的已经写的和我们这个时代一模一样了他所有的结论平均的终结就是说就是刚刚说的意思中间没有意义了

要不你就做成为最顶级的要不就老百姓大家一块娱乐每个人都能生产内容对他只是那个时候才 iPhone 那个时候 iPhone4 iPhone5 是吧 2012 年 13 年左右他做了一个很比较有前瞻性的预言以及 AI 生成内容的预言哥们还是挺厉害的就平均的终结其实我觉得

放到这个时代应该是特别特别我看起来别有感觉因为我刚看完这本书因为我自己也在做一些内容创作对如果说我真的去我自己衡量我说我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我我

我来做我要做最好的输出对这个如果同时扮演两种角色我再适应两种创作方法适应他对对对对就但是你作为写也写不好 AI 用不好放在中间那里就毫无毫无意义了这个事情对因为 AI 会超过大部分人就平均就没有了对人只能做最少下的极其出色的这种人对然后剩下的人我觉得 AI 的工具会让大家所以这个东西正好是我们下面一个话题对这是一下下面有下面两个话题一个是呢

其实涉及到我刚想问你 AI 能够做独立电影吗其实我觉得每个人如果都能做电影那不就是独立电影吗就我也要听一下你因为你做那个内容创作你也做了很多内容那你觉得对于现在的 AI 往后面发展你觉得个人做独立电影的可能性以及你期望的这种什么样的工具可以配合这普通人做出独立电影呢先直接回答这个问题我的回答一定是肯定的

但这个完全是我个人的观点因为我对于我们公司整个的未来的最核心的价值资产其实如果你去形容它其实我就是希望它变成一个独立的媒体唱牌可能包含了独立电影独立音乐或者独立 XXX 可能我们现在都不知道的媒介这是有可能的为什么我这么说因为我一直觉得我们就拿电影来说吧

其实像电影这样的我们说作品先不说它是个艺术艺术太高了我们就说是个作品本质上来说我是把它结构成两层的一层是说创作者本身想去拿一个什么样的故事去触动别人

就是我到底要表达一个什么东西那第二层是什么第二层其实是我要有一个视觉的交付物跟一个或者说视听层面的一个交付物把我的想法能表达给你就是我们平常说的所谓的工业水准对吧那其实把这两层拆开看我觉得好的故事跟好的叙事一定是不缺的就是每个人其实很多人其实都会有好的故事跟好的叙事只不过是说他有没有能力或者有没有意愿分享出来

那这个第一层我从来不担心就人有没有创作的欲望一定有但我相信不是大部分人都有但一定有很多人有第二层其实是表达表达这件事情用 AI 去做为什么我觉得它成立是因为我们今天觉得 AI 不能表达或者说不能做这件事情就是我的反面的人大概率他还是纠结于一些技术层面的原因就比如说 AI 现在还不能做长镜头对吧 AI 现在人物还不能有一致性

AI 現在的人物表演像僵尸就類似這樣的東西但是以我自己在科技行業我做了十幾年我會認為這件事情其實就是 6 個月 12 個月 24 個月的問題我從來不太 care 這個事情然後第二個質疑的點其實是一個你用 AI 來表演不管技術進化到什麼程度永遠達不到人去看電影的這麼一個標準這也是另外一種事其實它上到某種我覺得倫理學

但是这种事情这种观点其实更好去反驳或者质疑比如我们就拿最简单一个例子 3D 这个技术

在 3D 的技术出现应该是我记得是 20 世纪的中期左右的时间就已经有 3D 这个技术了但是大家知道第一部真正被好莱坞跟商业世界接受的 3D 电影大卖的是哪部很多人小时候都看过玩具总动员对是 90 年代的东西中间的跨度隔了几十年然后

那说明什么说明一项技术层成熟到商业应用它确实需要个时间但是我的第一判断是 AI 现在一定会把这个周期大量的缩短这是第一个判断第二个是你如果能接受拿 3D 去演一个阿凡达并且被他感动我们换过头来说 AI 跟 3D 的本质有特别大的区别其实我不认为有

它都是人用技术结合了对客观世界的数据层面的一些理解展现出来的一种新的视觉格式其实我一直是这么去觉得的我们再拿一个简单的例子去举为什么我觉得 AI 的表现力即便在当下我觉得都不是问题日本的动漫今天大家去看柯南

你说实话你会觉得里面的东西画的都很真实吗或者你会觉得里面的人物的比例都很对吗但是动漫会形成一种风格是为什么就恰恰因为它不是传统真实世界里能见到的东西我会觉得 AI 在这个方面其实是有很大的潜力的只不过

我得承认目前肯定是还不够的因为目前比如说我们一说 AI 感你更多的是一个负面词指的是人物的塑料感对吧过于有意义不真实对对对不真实这个是以 stable diffusion 化小姐姐为核心范式过去一两年大家达成了一个结果但我觉得这个事情其实它在变对从 4O 开始今天我们 4O 出来的吉卜利峰对吧你出来的任何的一个风格你其实慢慢已经在接受这样的一个东西

所以我觉得如果把独立电影就看成表达和表现两方面那完全是有可能甚至我都觉得不用特别远

你现在今天你说你来做技术跟技法都是够的我觉得真正缺的是想法是前面那部分的东西就是你要拿它做一个什么样的事情去打动别人而不是说天天的在叫嚣着拿 AI 去做短剧就这件事情我是另外一个我会更觉得很诡异的大家都想拿 AI 去做一个短剧做短剧好没有想象力哦

一个是没有想到的第二个是你在国内的话你的商业模型你算不过来因为国内的人很便宜你现在拍一集短剧大概平均成本四五千块你拿 AA 去做先不说效果好不好你不一定比它便宜你这个时候对吧为什么一定要拿 AA 去做短剧呢我自己是没有想到特别明白的对然后我也有一些我自己的一些想法你刚才说了独立电影我记得之前

推特上看到一个作者当时是 AX 出来之后 AXAI 他 Grook 出山之后有人拿他生成了一个游戏叫 Dogfighter 就是狗斗他就做了一款用完全用 Grook 生成的这样一个空中格斗游戏他自己有想法然后自己实施然后大家可以连线玩他还做了一个联网功能大家也可以一块玩就完全用 AI 生成的就是说你刚才说的非常对核心是不是独立电影但是你有没有想法

对吧你有没有这个 idea 你有没有这个我能创造是现在 AI 赋予的能力就是说他可能现在现在的 AI 可能还没有没有办法给你一个特别好的想法然后呢想法必须由你生成因为 AI 不会主动生成想法哪怕 AI 能够在你的建议下引导下产生很好的想法但是你必须成为一个引导者对不对因为他不会坐着那放着那不动然后他没能给你生成想法是不可能的然后呢所以说有了想法之后呢我们再把这个想法变成现实 AI 的帮助就是说就像你现在在这个工作室

如果说没有 AI 之前你是做不到这种事情的没错你得建模你做 3D 你得建模你得说设计师那里成本是现在的 10 倍可能都不止我估计可能都不止所以说你就是那个把 AI 放大 10 倍的人就是用 AI 提升 10 倍效率的人对这很明显很明显的就超级个体叫超级个体工作室对可以就这么说那么 AI 最大的意义 AI 最大的意义就是让一个有想法的人变得更有生产力了嗯

如果说我真的想去做独立电影我就会用选择最合适的工具我有想法然后让 Ai 帮我去实施然后我记得是 Runway 的 CEO 在前几个月写了一篇也很爽一篇也比较很赞那篇我也很赞很好的一篇我很感动看完之后他就说媒体的未来是什么我想把他放在最后一个话题来说媒体的未来是什么所以我觉得说一个想法是巨重要的东西就是说我觉得现在两个有价值的事情一个是人类的想法

然后第二个是人类最顶尖的创意表达就是首先但任何人都会有想法因为有想法的人很多但是能够创造出一个顶尖又有想法又有顶尖创意表达的人那是极少数就是说刚才说了那个那个谁那个嗯

游戏做游戏那个米哈游米哈游的他们出了另外一个游戏我老是对对对 0.01%的人才能做得到又有想法又有顶尖创意的这个是极少数的这个是愿意大家花很多钱去玩的东西但是我觉得呢 AI 最大的负能给普通人让他产生独立电影就是说让可能 10%有想法的或 5%有想法的人让他那个圆梦而且让他也可以一块玩我觉得其实按照我现在

对社群的或者对这种社交媒体上的了解来看大部分的还是 5%的发言者就是一样的在一个足够大的社群里面只有 5%的人会发言 3%的 5%就是这些人他想表达先不管他表达的好不好他要表达欲

90%的人他连表达欲都没有他肯定就想做让他看就好了 enjoy 就好了对这个我认为是这样的一个数据我这么多年我接触社交网络的数据因为做微博嘛谁会发言谁会写东西没错这个正态分布的数字在放在任何地方都是一样的只有这么多人会表达对不对所以我觉得这是一个我从来差一句就是我从来不太担心那种言论就是说

大家都来做内容了或者大家都来拍电影那未来会怎么讲其实不会的像你说因为不会的不是每个人都有表达的欲望对吧这是一个很简单的一个道理对其实我们刚才提到了真好有故事的人会变得我觉得就是有叙事能力有故事的人会变得非常的值钱

今天可能很多比如说国内的一些独立 IP 的漫画网文的创作者他们如果想把自己的故事变成一个广告或者变成一个动画或者变成个剧他要找专业的公司合作可想而知你在未来如果这个人自己有一个很好的故事我想把它去媒体化的时候我自己花一点成本搭一个小团队其实就完全够了这部分人我会觉得会非常的值钱

对是的所以说这个就是 AI 富能 AI 富能最好的一个能就是说 AI 让有想法的人有执行力的人变成了超人

我们很明显但是没有想法没有执行力的人 AA 只会让你的工作被替代掉对这个挺残酷的就是我们说出来挺残酷的这东西真的世界就是这样子所以可能不好听这个话反正你说了不是我说我也经常在我写文章或者在我社群里面表达这个东西我觉得大家要成为有执行力的人就是说 agentagent 就是执行对 agentagent 的意义就是执行那么就是我们刚才刚才其实我是两个问题一个是独立电影也没制作然后第二个问题是你觉得

最好的 AI 生成工具是什么在你想象中是什么样子的一种工具因为你做的这么多我明白首先但是我可能有一个大的判断跟你这个问题本身有点矛盾是说我没问题我不认为最后一家独大即便是在某个领域里一家独大是一个好的事情我也可能觉得它大概率也不会再出现其实对于创作者来说最好的状态就是现在的状态就是

你们去卷吧我说句良心话就是你们卷去吧你们卷的越厉害对创作者来说越好因为我们就是我一直很多人说为什么你不能把 AI talk 或者说做 MV 的一些工作理由做成攻略或者教学

说实话不是说简单的我不想分享商业机密的问题是它不是大家想的那样有个按钮 12345 你点一下这个东西就出来了你做过内容你肯定知道它中间很多东西是非线性的有很多人在路上对对对而且你有很多就今天这个事你就突然想起来拿 A 干一下我放点盐进去它味就对了但是你不能跟大家说每次做饭你都要在这个环节放盐对吧这个它很难去规划成一个某种线性的工作所以第一个判断我是觉得

模型有各自的性格就像员工每个员工有各自的性格跟他擅长干的事我觉得我未来的一个理想状态是我公司可能同时在用十个左右的模型

然后他们是他就是我十个员工他们有不同的性格有各自擅长的事情比如我今天想去画一张很炫的视觉的东西我找 Media Journey 但我想批一个快速的网络上传播的东西我用私欧然后我做个中文海报我用寂寞对吧他是各司其职的这是第一第二我觉得理想的工具其实在我的心里其实它具备几个特性第一个特性是说对于

人的创意的理解应该是一种多模态的然后不断去进化的一个状态为什么我这么去说我一直觉得最大的门槛其实是你跟模型怎么去沟通我自己觉得过去两年里我自己作为一个独立创作者我都不是我公司团队的人我最大的可能花的时间全都在这因为你有的时候感觉就是你已经把事说得很明白了但是模型听不懂

特别像当时我说是比喻不恰当的比喻像追女孩子我都觉得我把事跟你说的这么清楚了你为什么还是听不懂我对吧它其实就是一个沟通的能力但这个沟通的能力当中涉及到人的语言表达能力因为我们说打字其实是一个挺难的技能其实它不是一个特别简单的技能把事说明白

第二个就是那大语言模型那边去我们现在说的可谓语意遵循对吧你怎么能用一个更宽容的方式能去接收到人本身想表达给你的意思而且我觉得以后可能不光是打字聊天可能有很多比如配合一些 UI 配一些图像参考 character 这些东西那它可能会是一个更接近的一个状态对所以这是第一点我觉得很重要的就是要能听懂人类说的话

这是第一个很重要的标准第二个标准我觉得其实不是效果我其实反而对这个理想工具当中没有任何的诉求是在效果方面比如像你说的 2K 到 4K2 秒到 5 秒 5 秒到 10 秒这些我根本就不在乎其实我觉得无所谓但是有一个很关键的点是

嗯他能按照我们去正常创作一个影视或者说创作一个歌曲的一个流程去适配他整个的工作流我举个简单的例子比如说大家做电影都会去追求角色的一致性对吧这个就是因为你电影里总会要人嘛人就要正面侧面那好现在有很多的康复 UI 的工作流啊他是能去帮你去建立这种比如 Laura 也好或者什么也好能去建立一些角色资产出来的但是

目前为止还没有任何一个工具平台在我生成动画的时候或者在我去做图的时候有角色资产的概念我举个什么例子比如说有一天我能不能在 Media Journey 里或者在任何一个工具里面我去建立角色这种单元的信息维度这可能涉及到一个互联网产品的逻辑你肯定能明白什么意思对吧它是要单独一个资产能去保存用户的这些东西的然后我甚至能给它去赋予一些性格

赋予一些它的服装的风格其实 Ranway 前一段时间上了一个图片的生成功能叫 frame 我记得

其实预告片做的特别好就是我想要的东西然后实际就是实际都特别烂我用过实际是真的不太行但是我觉得它在接近我们想要的那个东西就是真正的创作者不是按照现在的这样的流程去创作一个东西的我们可能会先构思人我们会先构思人的性格然后这个人他就有自己的一些外观的东西那这些我觉得它会变成一种角色的资产

应该在存在于各个的平台甚至我在想就是想得远一点未来会不会有某种通用的文件格式类似于今天的 PSD 这样的东西或者 PDF 这样的东西是能把你的角色资产去做导出的

对吧那你这样的话我就能跟像一些比如说笔记工具我导出 markdown 一样我能在各个平台里面能去通用他这个角色的资产其实我觉得这些东西未来一定会是一个方向就是 AI 从第一个说沟通第二个是从本身对于创作这个角度它更贴合于自然人的一个逻辑这个可能是我自己比较会去就自然创作过程因为现在过程都挺程序化的那种过程就是对或者说对

我发现一个特点现在做 AIGC 的还是工程师偏多

或者是产品是对对他可能之前说过产品做交互的人多真正的做内容创意的做这种像你们艺术背景的其实并不多在这个里面小圈子有一些但是像你说的因为这里面涉及到一个特别敏感的话题很多现在影视行业的前辈和资深的朋友多少对 AI 是持这是第一个问题他会有一点还会有点说实话嗯

是的 OK 那这个我知道我大概能够想象出这个工具了然后我们刚才其实从这个里面聊到了其实引申出来这个工具最重要的一个话题你说角色持久化它那个独立出来其实我听上去这个就像是在做游戏啊

我在有一个剧本然后我把游戏设计出来我可以赋予你什么能力然后我可以再给你设计一个世界之前设计是封闭的现在是开放世界然后我自动设成剧情地图自动生成其实我觉得游戏来说是一种媒体的你可以把它叫做我们叫第九艺术或者说另外一种完全互动媒体

的一种最高级的形式但是它叙事方法不一样对然后呢所以说我们今天也正好吧我一般节目最后吧我们会聊一下如果在 AGI 时代就是 AGI 到来的时候工具都很强大的工具能够百分之百理解你的意图

工具可以看着你做然后他旁边指导你就旁边你是一个学生后面站着一个老师然后后面可能就是一个摄像头开着 GBD5 和 GBD6 你跟他做画画然后他告诉你你该怎么搞然后他有个程序他会帮你做出来就跟一个导演站在旁边一样没错我觉得肯定能成成这样子的在这样的工具之下那我们的媒体和创作会怎么变这是一个我觉得是一个

怎么说呢我一直在思考特别是那个那个 runway 那个 CEO 写的一篇文章他讲他讲的实际上是一个小型工作室的繁荣嘛很多很多个体会通过小型工作室做之前要上百人的工作室团队的人做的事情可能那个时候你在世界各地可能三个人五个人就够了你能够做很多事情比如说就像你们现在这样子的但是我就再往前面进一步

媒体的形式也会变化我们现在应该看到的什么看 MV 看电影是吧然后打游戏或者说看小说那么当我有一个想法刚才说的这个狗斗游戏我就够想构思一个游戏出来 AI 可以帮我生成游戏剧本马上然后 AI 可以帮我部署我就创造了一个我自己的聊天室而这个聊天室呢

就是那种纯互动式的电视机竟然我和朋友们都在里面呢然后 AI 帮我生成了世界然后这个里面还有很多 NPCNPC 就是小说里面的人物嘛我们马上可以在一块玩这个联机游戏然后玩一个什么东西我觉得这也算是一种媒体形式是吧而且这是一种可能比较开放式的媒体然后还有一种媒体形式就是说我不想那么费脑子是吧我就想往前看往前看然后最多做个选择吧那么 AI 可以帮你生成剧本就是你可以挑然后这个以上也说那个什么

那个什么 steam 上发的游戏我被美女包围了是吧对对对对我们一开始聊到的那个游戏对对对特别火那个游戏就是我被美女包围了现在还真人演的吗那再过两年 AI 甚至能不会比真人演的差是吧是对对对那这也是一种娱乐形式啊媒体形式啊我觉得我们可以聊聊这个话题对你刚才说到那个被美女包围了这段你可以掐到不行就是我昨天看了一个数据

有一个哥们应该是拿到了 OnlyFansOnlyFans 是个很神秘的网站我们都不知道是什么对这个数据上面预计他到 2026 年上面 80%的内容是 AI 然后我今天早上录你播客前我还想追他我回了他我说你有没有一些官方的数据参考给我看一眼不是你自己脑洞堵他还没有回我但这个是一个很有意思的一个洞察因为在像 OnlyFans 这样的领域 AI 其实目前的应用应该已经是非常的繁荣了

所以我觉得这是一个跟着你刚才那个话题我去想了一个点然后回到你的这个 topic 上我觉得特别好玩咱们可以最后聊聊这个我自己会有几个判断首先第一就是我今天不是今天上周的时候我看了一篇文章好像是一个 newsletter 上去写的他写了一个什么观点呢观点不是特别的新颖就是 AI 这一波的浪潮跟十几年前移动互联网那一波其实不能放在一起去比

然后他给了一个角度是什么因为移动互联网本质是一个内容分发的革命它是关于渠道跟流量你做微博你肯定很清楚对吧当时微博整个移动了这一块但是 AI 其实本质上这一次来的时候它是一个生产力的革命如果我们从历史上看特别有趣每一次媒介发生生产力革命的时候大概率都会配合着迎来一个分发的革命举例子比如说广播

广播这个东西出现的时候广播广播电台本身就是一个新的分发渠道以前是没有这样分发内容的印刷术出现的时候有杂志有书互联网出现的时候有网页有 YouTube 有线上视频但是 AI 来了之后

特别搞笑的一个点是直到目前为止没有新的分发渠道它都会导致一个什么问题 AI 做的所有的内容小说动画要去和传统的真人视频在短视频上去征流量然后你就会看到今天如果你打开抖音打开小红书打开 B 站打开视频号 AI 的内容在这个模态下它是没办法直接和真人的内容去开战的为什么因为

这个格式不是他擅长的实际上我自己会这么认为所以这就迎来了第二个问题我特别同意你刚才说的那一点就是什么媒介或者说什么样的媒体格式什么样的分发渠道是真正适合 AIGC 的我会觉得在未来的不短的时间之内吧我不是很短的时间之内吧应该他会有一个端倪或者方向出来

那我们今天能去聊的比如说大家都在提的苹果的 VisionPro 这样的对吧 AR VR 的东西它是不是一个更加适合 AIGC 去生产内容的一个渠道其实是非常有意思的一个点因为如果这个分发的革命没有出现你所有的东西就会面临这一件事就是内容的极致过载跟内卷我们再来说一个话题就是刚才提到的吉普利

你不觉得吉普利带火这一波是个特别讽刺的事情吗因为了解吉普利的人都知道宫崎骏对于科技是什么态度

那天我特别想写一个文章聊这个事我觉得特别讽刺就是 AI 第一波的这种全球的风格化竟然最后是宫崎骏是一个抵制了科技跟技术坚持用手绘了多少年的一个日本的老人这是一个特别讽刺的事情然后我自己觉得宫崎骏这一波或者吉卜利这一波的风格火了它会对后面整个风格化的创作产生很大的影响第一个就是

你这么快的时间让全世界每个人都能画吉卜力我可以想象一个月两个月之后大家会对于这种风格快速的审美疲劳对就是风格会加快它的速修程度比如说我们原来说一个风格吉卜力这样的风格你可以流行 10 年 20 年是为什么是因为这种内容是稀缺的它有稀缺性才会有价值好今天一个东西火了推特上一报国内一报两三天之内全国人民都来创作吉卜力

这个风格它是加速了它的生命周期的一个死亡就是它的速朽会非常快你死亡的生命周期其实会变得很快很快那就变成了说风格是会不同不同很快的风格它就会这样不同不同的去迭代那这个东西对于媒介一定它是有一个影响的就是我觉得未来就是风格化这件事情会变得价值其实是会被削弱的因为你相对来说被压缩的很厉害周期会变得更短流行的周期会变得更短

这又是一个判断第三个判断就是说在这种背景之下游戏跟影视的边缘和边界我觉得会非常模糊

其实这个趋势从去年前年大前年就开始了玩游戏的同学都知道其实西方的游戏一直有一条线就是做专门的互动影游的就互动性叙事的影视游戏比如说早期的像暴雨然后像超凡双生对吧像底特律这些游戏然后游戏里面有大量的影视化的元素已经不是个特别稀奇的事了比如说去年就咱们国家最爆的黑神话悟空

全球卖了最后是几千万份我记得三千万份吧好像是差不多吧你可以再合适一下世界但是你去算算国内的主机游戏玩家你就知道根本不可能有这么多人吧那大家买了是做什么我觉得除了说一个国家情怀我们要支持文化这个没错之外很多人其实是拿它去当一个电视剧看所以有很多人可能买了游戏不玩他在 B 站上会看一个 up 主打通他

会当成一个分率对那这个时候我发现游戏的内容早就不是说你坐在电视前面或者电脑前面我要去真的把它玩通了而是它变成了一种可以被消费的文化那它跟影视之间的这种格式上的融合其实是一个必然的事情然后我们看到现在今天好莱坞西方的工业两国的人才的流动也是非常的大的

那 AI 对它的意义是什么 AI 我觉得这种媒介最强的一个特征目前能看到的两个点第一个点就是即时性就是即刻的那个即时性它能在即时下去给你反映出来很多生成类的内容比如刚才来举例子就是那个我被美女包围了那我们用 AI 能不能做到说今天每个玩家在此刻看到的女孩子都是不一样的

技术上是完全可以做到的这个时候你就会发现每个人玩的游戏根本不存在女主的一个统一形象它全部都是即时化生成的都是自己的女友对自己的女友其实图像这方面对话这个东西在国内已经实现了就网易前一段发的游戏

我忘了叫什么就是那个网游跟手游多端发的后面可以查一下名字玩游戏的人应该很清楚它里面的对话的生成其实已经是全都是拿 AI 去走就 NPC 的对话已经有很多都是 AI 在跟你聊了这个即时性我觉得是特别适合这种互动游戏或者说影视化游戏两者的融合它去做的一个事情第二块其实就是互动性

观众能不能去影响剧情观众能不能主观的用自己的判断去看剧情的走向那今天我们拍一个电影其实都是单线的对吧你可能像诺兰那样玩的花一点他给你拍出五个可能性或者十年间那未来是不是可能就不存在线性叙事这件事情

这个现行叙事可能就是你自己你每个人带着一个我不知道是什么 whatever 就是头盔也好或者什么也好你自己看的世界你随时能做选择 AIGC 其实是理论上可以当算力跟技术发展到一定程度的时候它肯定是可以支持即时的去生成当下的一些内容的走向

那这个对于整个的体验一定是一个革命的所以我一直会觉得说就说个伪就媒体文化这一块 AI 真正的机会应该是在一些增量市场上就内容的新格式而不是拿仅仅而不仅仅是拿 AI 去做过去十年二十年大家已经看到的东西

就那部分是降本增效同步生成的那种对那部分是降本增效我觉得意义也很大但那个是工具的机会那个是产业的机会那个不是个人创作者或者说你是想去做一个独立叙事独立叙事这个词也是 Ralph Williamson CEO 提的对吧 narrative 独立叙事这件事情不是其实不是特别适合个体去做这件事情但个体的机会我会认为是在一些增量市场上就做一些大家没见过的好玩的有意思的这也是为什么

我一直把我们自己公司的项目其实定义为一个实验型的媒体项目其实真的是这样就是我们在看可能性对我们在看可能性这个非常有趣所以说刚才就是融合其实或者是叫创造一个新形态新形态出来我们可能不能叫它游戏也不能叫它电影也不能叫它什么短剧

他就以前我记得以前 Jason HuangNVIDIA CEO 说未来每一个你看到的每一个像素都是生成的对对对虽然说他用 DSLL 技术那个东西帮你生成所有的东西但是其实再往前面想一步确实每一个像素都生成的所以这个可能叫做我们叫 AIGC 就是 AI Media 或者 AIGC Media 或类似这样的一种完全新型的形态而且

我再往前面引申一步我们只是介于现有的技术人类的感官视觉你戴上 AI 之后 VR 之后眼睛看到听到的是吧然后这只是 VR 和 AR 可以带来的这种生成那么现在还有脑机接口

对吧对那个就是超快感啊插上去之后更 matter 的一个东西对没错更 matter 了更 matter 了老机接口然后因为戴上头盔有老机接口它连你的触觉啊什么都给你模拟出来你戴上就好了超爽啊就跟那个就跟那个谁那个在 Cyberpunk2077 里面我们有一个体他有个录像叫超梦超梦嘛你可以以这种超级感觉把它录下来然后回放这种感觉哇哨那个就是超媒体啊嗯

嗯接上你的那个老老神经接口的对吧如果老机口再往前走一步插管的时候那不就黑客帝国了吗 matrix 了

对可能 AI 极其发达的社会现在还是人类做 AI 辅助然后人类消费然后接下来就全部由 AI 创作然后人类消费或者一少部分只会 AI 创作人类消费就我感觉这种可能性很大这种世界在 AGI 到来之后超级智能到来之后今天看起来已经不是单纯的科幻小说了它是有可能至少一部分的属性有可能是跟

就到来了就这就变成一个真实的现实对这是有可能对对对所以说我觉得这个怎么说呢想想挺兴奋的想想再想想也挺可怕的我觉得

我们娱乐之死或者说未来的这个人类分化这是必然我每次都倡导这个观点啊倡导这个人类社会在 AI 情况下会分化这个是不可避免的然后呢大部分都是娱乐之死的现在刷短视频看得出来了对除非你立法禁止也禁止不掉而且你这样子以后有 UBI 之后啊大量的人他其实发个最低生活保障然后你带上最廉价的娱乐享受百分之

平均水平之上的 AI 作品很好啊对我活得很爽有点像日本的那些宅男嘛宅男文化其实日本在过去的 20 年都实现了

他为什么阿尔茨园这么流行,就是他想象出来了嘛其实日本已经活超多了日本人,这个事情玩明白了对这个是我想的话题,反正我们今天我觉得聊的挺开心的我差不多我节目一般就聊 70 分钟左右其实我自己还有一个小想法,我现在给你说一下就是我现在正在创作一本书嘛,创作一本书然后我也想

想把这个书的内容通过 AI 的超级格式转换变成小说部分的章节然后再从小说变剧本再从剧本变成视频内容对吧然后混合起来就是我我我现在这个想法有这个想法我觉得可能在后面我们节目节目之后我给你再细聊一下好吧好吧对我就插进去我的话 OKOKOK 那么那就今天很感谢汉青老师能够聊一次这个

比较专业的聊 AIC 希望我们后面还有机会有新的工具有了新的这个他有新的作品或者他的更更酷的也创意出来创作出来之后能够继续在聊这个话题好吧感谢大家今天收听好谢谢谢谢再见

对谈汗青 AI 影视与媒体的未来 / INDIGO TALK - EP24 01:13:04 Share

INDIGO TALK

Deep Dive

Shownotes Transcript

对谈汗青 AI 影视与媒体的未来 / INDIGO TALK - EP24