We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

E197｜七大模型多模态之争，AI如何改变动漫产业？

2025/6/20

硅谷101

AI Deep Dive AI Chapters Transcript

People

天

天宇（二月茶）

泓

泓君Jane

硅谷101创始人与播客主理人，曾任《财经》杂志驻美记者，著有多篇获奖专栏文章。

Topics

泓君Jane：动漫产业面临供需失衡，顶级工作室排期长，制作依赖手绘，成本高昂。AI技术快速发展，但落地存在壁垒。天宇（二月茶）：动漫剧集制作周期长，需等待工作室排期，且制作手工。AI在中间帧补全等环节有潜力，但细节误差影响观感。AI应用需考虑创意性与可信度，以及对行业伦理的深远影响。我考察了日本动漫产业，发现AI在动漫制作中的应用还不够成熟，但未来可期。AI在动漫领域的应用需要关注细节，并解决商业伦理问题，以实现百家争鸣的局面。

Deep Dive

Chapters

本期节目探讨了AI技术在动漫产业中的应用，以及其带来的机遇和挑战。一方面，AI可以提高动漫制作效率，解决产能瓶颈问题；另一方面，AI技术在稳定性、逻辑连贯性等方面仍存在不足，需要进一步完善。

动漫产业存在产能瓶颈与市场需求矛盾
AI技术在中间帧补全、风格转换等方面有应用
AI生成视频存在稳定性与逻辑连贯性问题
日本动漫单集成本约40万美元
中国动漫产业发展迅速，但人才密度和优质运营管理模式不足

Shownotes Transcript

欢迎收听硅谷 101 我是洪君今天跟我在一起的是 Azuki 的内容负责人二月茶哈喽洪君你好二月你好我其实叫这个名字还挺不习惯的可以理解对对对跟听众简单解释一下天宇的动漫的应该是在网上通用的笔名是二月茶对是的是的

一般在 Azuki 做内容的时候就用这个名字主要是我们在生产的时候英文中文和日语都会有使用所以就挑了一个相对来说三个语言都相对比较好发音的名字

然后天宇在去 Azuki 之前也是 Google Brain 的工程师因为其实我们很早就一直想聊一聊视频模型生成的这个话题了之前我们有一次在聊天的时候你说因为每天都在使用这些模型去生成嘛然后你观察到其实这些模型可以说是七个视频模型它们每周都有新的变化这个话题也拖了很久是因为正好在今年的五月份你去了日本一趟考察了一下日本整个动漫产业

所以我觉得今天我们大概可以先聊一下你自己的日本之行然后之后我们来聊一下通过文字生成视频来看一下整个视频大模型的进展那我觉得在此之前就可能很多听众他还不太知道 Azuki 是做什么的

你要不要简单跟大家介绍一下 Azuki 是什么,然后为什么你的每天的工作会跟大模型生成,还有日本的动漫产业会结合在一起?好,没问题。Azuki 实际上是我们在 22 年和 23 年 Web3 这一波叙事特别火的时候创业的一个 NFT 和动漫相结合的一个品牌。

整体的美术风格都是走一个二次元的动漫的一个风格所以 Azuki 从那个时候开始就跟动漫结下了不解之缘吧一直以来我自己对动漫就有很强的兴趣当时也是通过各种经验巧合参与到 Azuki 当中一直到现在我在 Azuki 负责整个内容上的开发尤其是动漫方向的这些制作所以你们到底是要做成一个类似于动漫连续剧一样的还是一个动漫电影我理解这两种叙事逻辑还是挺不一样的挺不一样的

挺不一样的我们目前认为最好的方法还是从动漫的剧集出发作为一个动漫迷漫画和动漫剧集还是任何一个动漫迷接触新 IP 最直接的方式动漫电影对我们来说为什么感兴趣的原因也是因为它的生产周期相对短一些动漫剧集现在基本上处于一个全球大火的状态尤其是日本美国甚至包括中国的产能都处于一个严重供不应求的状态

所以现在制作动漫剧集仅仅是等到一个好的工作室的排期可能就到两到三年在此基础上它的制作本身又是一个相当手工的过程所以如果真的要去从零开始做一个动漫剧集很容易就是四五年的时间线

另外一方面如果从动漫的短片和电影来看的话它的制作的周期相对来说就会短很多所以电影比做剧集还要稍微简单一些其实在动漫当中反而是这样是不是动漫剧集它是一个比较长的有连续故事线的一个片子它有好几季

假设做一季它大概是多长的时间一个 12 到 24 集的一季吧目前来看纯制作大概要三年左右但是问题在于现在特别好的工作室都没有空闲时间来接单

所以特别好的全球方面的生产线基本上都要排队到两年之后这样就造成了一个新的动漫项目的投资很可能会到五年之后才会见成功的状态 OK 这个还蛮有意思的我能问一下为什么全球排期吗是因为动漫又火起来了年轻人喜欢动漫这个问题特别好我觉得一方面是共一方面是需需求方面其实很简单因为动漫其实是一个相对来说比较年轻的媒介

而九几年八几年这一代人就是看着动漫长大的这些人已经适时的成为了消费的主流与此同时新一代的消费者比如 Gen Z 我们说 Gen Alpha 他们成长起来也都是看动漫长大的所以动漫一直以来可能在内容娱乐界相对来说一开始处于一个相对边缘化的地位

但是因为它有一种独特的审美体系在里面,跟着它一起长大的这些人,很多还会一直看动漫下去。美国、中国、日本都有这个现象。全球的动漫市场,周边也好了,播放也好了,流媒体也好了,所有的这些加起来动漫的市场也基本上保持每年 10%以上的增长率。这个增长很快的。这无论从什么角度上来看都属于一种相当快速的增长了。

尤其是一些手游啊或者是一些片像潮玩啊对潮玩潮玩啊这些在全部加进来之后可能这个市场成长的速度比我们想象的还要大供给这方面实际上也是一个大难题因为动漫实际上是一个特别手动的过程所以它比我们很多人想象的要更劳动密集的多

下次大家去看动漫的时候可以注意一下动漫后期的职员表每一集的职员表都蛮长的而且里面还有很多是专门负责某一个具体环节的外包公司而这些外包公司下面真的把它展开之后每一个公司又是一个几百人的规模也是很常见的事情

即使在这种情况下可能现在有 30%到 40%的动漫制作甚至还是在纸张上进行 30%到 40%所以手绘它不是全部是这样的可能电脑绘也占了 60% 70%不不不手绘指的是人用手在画这当中的 30% 40%可能还是在纸张上画哦我了解了

电脑上画的也属于手绘电脑上画也属于手绘但是动漫这个行业工业化程度集约化程度和数字化程度比我们想象的要低很多很多它更像小作坊它更像是日本的一种非常具有匠人精神职人精神的几个人在一起我们做一个好的拉面店因为这个原因所以日本的很多动画公司自己的营收也好团队大小也好也都有这样那样的问题

所以在动漫行业的绝对供给上实际上是被人才和被管理体制甚至从一定程度上来说被技术被约束住了就因为存在这样供需方面的一个很大的错位所以导致了现在很多资本方包括我们也是我们更多像是一个 IP 方我们会看到全球动漫兴起的趋势但问题是它的产能又集中在少数几个国家而且它扩张的速度并不快

所以这就导致了很强的一个排期现象一般做一集动漫或者一集动漫电影大概多少钱动漫的经费实际上比很多人想象的稳定很多我们现在看一集电视剧的话大概每一集在 40 万左右美元 40 万美元如果是纯日本生产的 IP 和已经有的漫画改编制作方面再稍微精简一下的话也还可以更低

即使我们最贵的动漫吧一集一百多万的情况也会出现但是一集比方说一千万美元比如说欧洲我们拍的双城之战双城之战属于预算非常非常高高到这种级别的预算在日本动漫当中其实是相当罕见的

好莱坞也好啊欧洲也好啊在生产内容的预算上比日本生产动漫要高了不止一个数量级往往你说好莱坞更贵更贵因为他们其实是缺人才或者劳动力成本高因为他是劳动密集型嘛就是好莱坞其实现在甚至没有好的动漫产能 3D 的动画片嘛比如皮克斯啊或者梦工厂啊他们的单集或者单作品的成本真的是比动漫要高非常多

实际上动漫的生产纯从金钱的角度来考虑还是比较便宜的所以这又反方向导致了好莱坞对于动漫的投资现在有很大的兴趣投日本动漫产业中国动漫好吗中国动漫其实现在以非常快的速度在发展 B 站和腾讯应该是两个最大的投资其实我们目前看到有很多中国特别特别好的动画工作室基本处于一个遍地开花的状态

当然中国动画有它的难处它存在一定的人才密度的问题而为什么日本现在还是动漫首屈一指的国家不仅仅是因为日本动漫它的生产或者做的人多另外一方面也是日本政府长期腐蚀包括这一整个动漫工业长期以来互相影响互相作用而导致它产生了一堆非常非常有才华的人而做成了一种产业性的一个现象

中国愿意做动漫愿意投资动漫的人可多了但是从一个产业的成熟程度跟日本相比来说还是差一些话虽然这么说中国尤其是在今年非常多的非常非常好的国漫可能今年之后要出的记忆管理局现在已经在播的突变英雄还有超能立方包括今年年初的哪吒二我觉得对于中国来说很可能是一个破圈的时刻

我认为是有很大的可能性能在制作的质量啊效率方面可以开始向日本追赶嗯对我觉得你们如果做动漫的话其实可能也是奔着比较顶级的制作区的放眼全世界啊像你提到的这一类非常好的动漫制作供应商比如说像飞碟社这种你觉得有多少家可以潜在的合作方如果真版卖手指数过来的话可能不过十家为什么

还是刚才讲的问题确实存在一个根本性的人才上的高度的需求和现在生产模式上之间的一个差异市场兴趣在这儿但我们需要很多的人才我们在人才之上还需要很多很好的运营管理模式全球的行业分布大概是日本最大中国韩国甚至包括东南亚其实有很多国家做的都不差欧洲很好但是很独特

欧洲可能他们做出来的动画的风格跟我们所理解的二次元中国和日本观众都喜欢的动画不太一样更偏艺术一些对对其实你刚刚在提到像中国的这些动漫电影包括哪吒的时候

我就在想可能风格上还是不太一样除了说制作水平之外它还有一个调性跟风格的问题尤其是文化创意产品其实比如说你在找合作方的时候你可能看一眼他们的插画你大概就能感觉到是不是你们要的是不是内容调性是一致的完全是这样的尤其是在内容生产行业我们说可能得有 50%以上都是关于团队对于

一个作品的品味所以国家跟国家之间确实存在一种客观品味上的区别并没有好坏之分而是说美国之前以漫威 DC 皮克斯也好迪士尼也好以这些审美价值观为核心所诞生出来的这种美漫风格或者是迪士尼的橡皮管的风格皮克斯的 3D 风格他们实际上跟观众之间视觉语言形成的共鸣跟日本和中国的这种偏二次元的风格其实还是有比较根本性的

这实际上也客观导致了因为我们作为一个虽然是美国诞生的 IP 但是因为我们视觉语言的 DNA 实际上还是日本动漫 DNAAzuki 最早是谁画的 Azuki 的画家非常非常有来头我们的艺术总监叫 Steam Boy 是之前暴雪的角色设计总监一手设计了之前很火的守望先锋所有的这些第一批的角色

确实是一个业内的大脑他自己也是在美国生活对美国的这套工业也很理解但反而因为他自己实际上是个动漫迷所以在一开始制作 Zuki 的时候反而向日本和中国的这个二次元的方向靠的更多一点这实际上对我们来说造成了一个很奇特的一种现象因为我们作为一个美国的公司反而在美国国内很难找到产能

因为美国国内的这种审美的偏好跟我们所主打的这个偏好还是有相当大的区别。是的,那好莱坞的拍片一般是怎么样的?像《皮克斯》或者是美国这边的《梦工厂》、《Illumination》或者甚至《Marvel》这种偏 CG 动画的制作模式其实比较相近。它跟真人电影最不一样的地方就是它不是通过摄像机拍出来的,而是通过人一张一张画出来的。

比如说我们动漫在几秒当中的一个动作我们给它画 15 张到 30 张左右的这样那很容易光一整集它就会有上千张手工画出来的关键帧它的制作成本和制作时间实际上是很难以瞬间工业化的一件事情现在国内也好美国也好大家都很喜欢看短剧其实短剧动漫能不能做其实有很多人在考虑我们也之前尝试过

最终发现一个很有意思的现象就是动漫短剧的单秒成本可能会高于真人相机只要在这拍它其实可以在很短的单位时间内产生出非常多时长的一个成果而动漫不一样即使把它压缩到 30 秒那这 30 秒当中的每一帧也都需要有人来画 30 秒大概要画多少张图

我们就按照每秒大概十张左右来计算的话三十秒的话就有三百张三百张图需要一个成熟的熟练的动画师画多久这个问题非常非常的好这个问题其实也是动漫跟真人相比有更大复杂度的一个地方因为动漫每一张画的难度不一样

电影当中有的时候会出现特效,有的时候会出现演员的一些表演,我们当需要捕捉这些细节的时候,那它摄影的难度就会增加。动漫也是,动漫实际上我现在画一张静态的场景,跟我去画两个人在打斗的动作,这个就会产生非常大的难度上的区别。

我们现在就画一个人他坐在一个公园里面喝咖啡他大概率不会需要 300 张他可能会需要 10 张 20 张左右他就可以延伸到一分钟左右

因为他比较静态他比较静态嗯如果说这个人他并不是在喝咖啡他是在公园里面跑步或者遛狗或者说他有很多的动作他在公园里面跳舞啊那这个就难多了舞蹈的制作也好表现也好了每一帧和每一张的难度都会大幅提升嗯

我想听到这里做 AI 的人就会跳出来说了 300 张相似的图片可不可以 AI 生成这次也是你去日本考察应该也是你考察的一个方向之一对不对是是是结论是什么不好说总体来说是难的其实我们希望达到的一种理想状态和现在技术上能够做到的状态中间还是有着相当大的差距

但是这个技术确实发展的速度相当的快比方说我们一开始可能有 7 个公司包括像 Google 的 VIOOpenAI 的 Sora 硅谷的 Pika Runway 再包括中国的比如混元还有可灵这些所有的加起来可能现在已经不止 7 个了

像 B 站我记得前几天好像也发布了一些自己他们做的研究总之视频生成的这个领域确实是相当的热我们反而并不是一个技术方反而是一个内容制作方也是很希望更快的有可以落地的场景出现

这次日本之行当中我们也是跟现在日本已有的动画公司也好了或者是更 AI 驱动的一些创业公司也好了有了非常多的交台你们是考察了两类公司一类就是你说的排期要到两三年以后的专业的还在用手去绘制动画的这样的一些工作室我想这个应该是在整个日本动漫产业中占主流的这样的一批公司或者说最顶尖的工作室应该都是这样的一批

然后还有一批应该你也是跟一些做 AI 加动漫相关的公司也聊了一聊能不能简单介绍一下你聊的几类 AI 加动漫的公司然后再从你制片人的角度来去看一下他行不行我

我们这次聊的公司大概有三种不同的类型吧第一种就是宏俊刚才你说的首先先做动漫然后再考虑怎么把 AI 加进来的公司这些就是我们所知道的动漫的工作室像飞碟社 MAPAMathouse 他们现在最希望的就是通过使用 AI 给自己的生产线提高效率

动漫的工作生产资源现在基本上处于一个全球排期的状态这个就导致了做动漫的工作室心有虑力不足其实我们这一圈聊了下来之后基本上所有的动漫工作室都在看 AI

当然大家不一定会说主流的就是顶级的对我们能叫上名字的动画工作室当然 AI 对于艺术家来说是一个特别敏感的话题所以对于这些工作室来说往往他们在外面宣发的很少但是技术大家都看得到他们能看到这些可能的应用场景也是很激动的他们真的有行动吗有的比如说像动漫其实动漫的生产环节相对来说是比较流程化

比如说先从故事的脚本角色设计开始入手然后把它做成故事版再做到原画里面还有一元二元然后再做中间帧的动画背景同时做然后再加上音乐最后把这些东西全部合起来最后加上配音然后再有后期调整

他们最希望能看的事情就是这些流程当中有没有这样那样的环节可以用 AI 去提升效率的他们找到了吗没有其实大家我们待会可以说一下为什么没有没有对吧就是举个非常具体的一个例子吧 AI 其实在动漫当中有一个特别特别明显的潜在应用场景就是中间针比如说我们刚才讲一个人喝咖啡吧他用手拿起咖啡杯然后放到自己嘴里面然后喝一口这里面可能就会有三个关键针

關鍵帳大概是手拿到杯子可能形成一個這個我們要畫一張畫

然后杯子拿到嘴边可能形成一个这个我们要画一张画然后喝一口喝完之后什么状态杯子是什么角度这个我们要画一张可能有三张而动画只有这三张它肯定是很撕裂的一种体验所以为了让大家就会觉得跳针对感觉中间漏了点什么所以为了让整个动作变得很流畅我们需要在这三个关键帧当中进行补针如果说我们是一个特别细节的

是一个很靠近这个人的镜头的话中间可能要补不少帧中间帧这个过程和关键帧这个过程的绘制在动漫行业当中一般是两个步骤而关键帧的绘制大家都会觉得是一种非常富有创造性的活动

中间针的绘制相对来说就枯燥一些实习生做的活动对所以中间针的绘制也往往是动漫行业新人第一个会上手的工作而中间针的绘制往往是很多人想到 AI 能不能用于帮助我们提升产能时候的第一个应用场景

它这个需求相当于是我给你两张圆画然后你根据这两张圆画来生成中间的这一系列动作还不仅仅说是文生图它其实是图生图还是图生视频图生视频因为视频也是一系列图嘛对对对所以基本上就可以理解为是一个图生图的一个过程而这个过程从技术的角度上来说听上去好像不是特别困难

无论是美国这边的大学也好了创业公司也好了甚至包括硅谷的一些院校吧国内的院校还有公司也是一样往往在关键帧生成上时不时的就会发布一些很厉害的一些论文

每一两个月可能就会看到一个我们这个在关键针生成上又有了什么什么突破哪些公司在关键针上比较有突破非常非常多 B 站前几周就发了一个挺不错的论文就是 B 站的研发团队他们自己也在研发这方面的技术对对对甚至说美国的一些比较独立的一些科研团队都有做出来很不错的结果

我们看到这些当然是很激动的但是理想总是非常的丰满现实其实相当的骨感我们这次去参观的工作室都有尝试在用 AI 辅助中间针的生成但问题就在于效果不够稳定

不够稳定其实这四个字当中最关键的一个词是够要多少才能够用这个是一个特别特别玄妙的一个问题对能不能还是用我们刚刚喝咖啡的这个例子来解释一下什么叫够可以没问题

比如说这个人他穿的是一个夹克衫这个夹克衫在运动的过程当中可能会产生皱褶或者说我们这个人的手可能会产生一些我想要去表现的一些光影的变化或者说他戴了一个手套这个手套上有一定的纹理或者说这个咖啡杯上画了一个什么东西那么这个时候关键证就开始出现一些很玄妙的一些问题了

比如说我们在拿起咖啡杯之后生成了一个关键帧这个关键帧由 AI 做出来可能 90%大家已经看不出什么问题了

但是很有可能这里面就会出现 5%到 10%的差错而这个差错就会对动画制作的流程产生特别大的影响它就不是一个连续性的过程你人用物理跟常识去看就会觉得别扭对而且这有些时候还不是物理的问题这有些时候是一个创意性的问题

因为动漫的制作他也并没有追求每一帧都完全符合物理世界的规律往往更多的是我希望他在这种创意的允许范围之内他可信且好看而这两个问题都会产生比较严重的问题在可信这方面如果我的这个咒语者一下出现突然一下消失又一下出现又突然一下消失

那它如果真的播放的时候是不是会产生一种很奇怪的观感这个袖子上到底有没有东西大家可能会联想到是不是跟剧情有关系对对对尤其是像动漫这种媒介因为实际上每一笔都是由人画出来的所以它实际上每一笔后面的思考

尤其是在很厉害的这些动漫的大师上面都会有非常深奥的思考就是他可能会有铺垫在里面你本来是一个 AI 做的一个不完美的作品他只是因为他不完美而已但是观众会把他作为一种剧情的铺垫去解读这个绝对是其中一个很大的原因尤其是当我们比方说把一段很激烈的动漫当中的打斗非常慢的放之后就会发现其实每一帧的动作相当的夸张

夸张到你如果真的把这一帧拿出来纯粹作为一个物理世界的这种考量它就不是一个正常物理世界当中应该存在的事情它就是一个导演也好动画制作师也好在这种夸张的动作之下诞生的一种美学上的思考

而这种在 AI 当中为什么会特别容易产生问题其实就是如果有那 5%到 10%它的细节不好的话这个东西不一定好改不一定好改不一定好改就是在衣服上加几笔这个褶皱是很难的这个其实比我们想象的要困难

这个也是为什么说很多时候我们觉得 AI 好像能够做关键帧生成很不错但其实足够用这个够这个字里面的标准相当的高假设我们用 AI 拿起咖啡杯喝一口生成了十张关键帧这十张关键帧每一张都不错但是每一张都在不同的地方出现了 5%的误差

这十张拿出来之后我们还是要交给作画监督原画师还是要交给他们审查那么真的节省他们时间了吗不一定还不如就直接自己画了可能有些时候还真不如自己画来的更快 95%的十次方这个正确率最后就可以算出来吗对这个正确率会发现好像也没有那么大的帮助这个更牵扯到尤其是现在生成模型的一个问题如果比方说我中间是以十个实习生在帮我画

我至少可以非常详细的告诉他你们错在哪了我们可以把他们加起来一起开个会但是 AI 很难可控的生成你想让他把这个褶皱去掉他可能改的不是这个地方或者他还是会出现这个错误这个就是细节当中的魔鬼真的就显现出来了如果是十个实习生的话我至少能够很稳定的知道每次我交过来的稿件都会变得更好 AI 就不一定了

包括我们现在也有这些 masking 的这些技术但实际上最终还是存在一个我让 AI 从 90%到 95%再从 95%到 100%这个过程真的不一定比人快

而这个往往在影视行业也是这样比方说在好莱坞的特效也是真人也好 CGI 也好我们现在就说一个车蹦一下爆炸了其实这个事情如果在好莱坞来做的话这个是我真去炸一辆车还是说我用 CGI 做如果我用 CGI 做的话那这个爆炸它有多大它是否产生烟雾它是什么颜色的产生出来的碎片应该往哪些方向飞这些在很多导演当中都是相当重要的细节

而 AI 至少在目前阶段还很难对于特效也好像动漫我刚才讲的细节也是做到如此精细程度的控制这个我觉得也是将来 AI 如果真的在影视行业全面落地的话可能会比较需要长期投资和发展的一种关键技术就是对于非常详细的创意细节的把控能力

而且你这个其实难度挺大的,因为你要细节到每一帧。对。对,我记得之前我们聊天,你说正好听到一个詹姆斯卡梅隆的演讲,说他每一次爆炸都会爆破几百次,对吧?是模拟几百次吧,如果我没记错,对吧?对对对。卡梅隆其实一直以来也是一个非常对技术友好的一个导演了嘛。

他自己本身也有工程师的背景在里面很朋克很厉害的一个人他们拍电影的过程当中对于技术性的要求对于美学的追求很高那他对于自己手上的工具的可控性其实上有着相当相当高的要求还是在那个不够好这个够这个字到底有多详细

我们也可以刚好借这个话题聊第二类公司第二类是什么完全放弃已有动漫行业的工业流程想要以 AI 为核心做一种以 AI 为主的新的动画制作流程的公司

这类公司往往更偏向于创业公司了很多这些公司可能也不一定有非常丰富的动画制作的经验他们实际上并不是说我拿 AI 过来我去优化已有的一个流程不是

他们就是说我的流程就应该从零开始围绕 AI 来去做看 AI 有什么能力然后我们来做什么样的动画对就是 AI 有什么能力我们就干什么事情能出什么样的作品比如说中间针 AI 制作很难无所谓我们就不做中间针了或者说我们对于中间针的制作的方法就跟之前不一样了我们之前聊了一个公司叫 Kaka Creations 他们在今年做了一个大概 30 分钟左右声称是 95%用 AI 生成的一个小动画嗯

KAK Creations 对这个公司当时在网上也是引起了轩然大波刚好又是 OpenAI 大家把照片吉布里花的风口浪尖上这家公司其实人特别少可能也就 10 人左右也非常早期他们因为看到了这些视频生成模型很有趣想做那他就说那我就从零开始做一个呗他们的关键帧还有他们的中间帧很多是动不做的

是有一个人实际在演然后又把人演的这个部分利用 AI 换成动漫的风格有点像风格转换他其实是把人演的这个视频捕捉下来还是说图像捕捉下来再把它导入到大模型里面把它做成一个动漫风格有点像吉普利风格的这样的一个我们还是用刚才那个例子吧他们的想法是这样的既然现在 AI 画画存在很大的缺陷我们就不考虑这个方法了

我们就实际录一个人拿了一个咖啡喝了一口水然后把录出来的这个素材丢到 AI 里面让它转换成动漫的风格你觉得做得好吗我觉得做得还行多少分七分吧

10 分是满分 10 分给个 7 分吧然后 6 分及格 6 分及格就是我觉得属于确实就是还行的一个状态成本应该是会比动漫诗曲画节省一些肯定低现在的话存在很大的科研成本的问题这个技术的做出来的东西有多好其实也不知道当然 7 分其实如果真的从一个动漫纯制作角度来说不算一个特别高的得分但是如果说它能不能及格我觉得能及格

但是非常明显地看出这个是 AI 制作的它跟传统的这些动画相比它的表现力美学上的这种设计坦率地说还是差不少举一个例子说美学上的设计有什么不一样比如说本来做 3D 模型 2D 模型我得把它一帧一帧画出来得把一个 3D 人的这些动作都给摆出来我用动谱的话就直接人打打就结束了那这个效率多高

从一定程度上是的但问题是如果真的做在动画里面其实上大家会对于更夸张的表现往往会有一种美学上的追求动谱如果真的做成动漫其实经常会产生一个问题就是它显得特别僵硬我懂了就是它不够夸张它不够有艺术性对它不够夸张它不够有趣嗯

对吧就是因为我们实际上一天到晚看的周围的世界就是一个很真实的一个世界那如果我真的是喜欢这种风格的我干嘛不去看真人电影呢对的对的对的就是就举一个例子比如说人笑他的嘴巴的弧度是有限的但我们通常在动漫中那个眼睛非常

然后你那个笑嘴巴可以一直延伸到很大很大对对对它这是一个夸张的效果但我们会觉得很可爱会觉得很有意思对吧哆啦 A 梦啊对吧就是嘴笑得那么大然后眼睛都眯成一条线了这个就很好玩对吧是但这个东西如果拿动谱来做呢它就会有另外一些技术上的难度所以动谱也好也坏最终呈现出来的效果实际上是一种美学上的取舍

而 Color Creations 这个就是他的其中的案例之一但我觉得也是一种思路还是一种挺好的思路的比如说背景的话一般不是也是画的吗那我们就不画了我们就拍张照然后拿这张照片让 AI 说你把照片给我转个风格行不行其实背景反而是最容易成立的尤其是静态背景啊

它就不太那么容易传播那这不是已经构成了可以在传统的动画产业链中有一个环节至少你的背景空镜头可以用 AI 来做说的很对其实奈飞之前改编手种之虫的这个 Pluto 这个剧集很好看奈飞也就公开声称自己在 Pluto 的背景制作当中已经引入了 AI 生成的背景确确实实是一个很实在的落地场景

对于实际效用的提升来说不好说因为背景在动画生成当中本来就是一个比较平行的线一般来说画人画动作比画背景要更复杂不少而且背景估计也不占成本的多少有些时候还会占不少但很多时候新海城就是一个典型的例子新海城这作为环境狂人它的背景的制作它就不会便宜

那这种背景也不可能用 AI 生成来,因为他对背景的要求高。那人家对于背景的要求可能确实是超过目前 AI 的可能性,但是绝大部分情况下背景不占动画制作过程的主要部分,所以说有没有帮助?有,背景确实是一个很具体的一个案例,这个案例我觉得也是将来可能会看到更多的动画工作室来做的一个方向。

但是它并不是动画制作瓶颈的大头对所以我们刚刚其实聊了两类公司一类是传统公司对于 AI 的探索简单来说他们现在还是一头雾水还有一类就是完全按照一个新的方式去做动漫你觉得有中间派吗有一些非常奇特的用法这个也是超出我的想象力我们聊过的一个动画工作室

他们实际上是一个传统的动画工作室然后他们在看关键帧行不行不太行看背景行不行有可能行但是背景呢又不太能够真正意义上产生那么大幅度的时间和成本上的缩减那怎么办呢

说我们给导演做一个 ChatGPT 助手怎么样他们是跟他们公司的一个导演合作他就说导演你就把你之前所画的这些故事版包括你给之前的话提出过的这些建议包括你写的这些脚本我们把它丢给 ChatGPT 然后我们就告诉 ChatGPT 你现在假装自己是动画导演对一个新的项目进行评估

所以他们最终有用吗怎么样我非常需要这个还真有用而且觉得有用的并不完全是他们自己而是导演本身尤其是大小木的动画导演他面临的工作量实际上是非常非常不是个人能够完成的一个量级

而且其实他是所有的项目都会汇总到他这里他要去做决定他要去看整个项目的审美每一个环节行不行的人对所以说很多时候比方说看到有些地方画的不好的时候我们叫什么作画崩坏很多人会觉得那个导演不行这个不正确因为导演尤其是在动漫的这种产品当中他永远不可能去亲自的把每一帧的画都拿出来去修正那不可能

这完全不是一个正常人能够完成的一个工作量所以他为了保持一个优秀的质量那个导演下面他会去组建他信任的这些原画师也好这些修正的专职人员也好他会需要一个团队而这些团队当中如果有人掉链子之后其实反而这个比导演本身更容易产生作画上的质量问题

而导演本身因为他需要反馈的东西太多了故事版怎么样脚本怎么样我画的这个风格怎么样颜色对不对我画的这些动作时间上的安排合不合理情节好不好他作为一个总的筹划人来说实际上他的精力也是非常有限的对吧

所以这个公司他们的产品卖的好吗其实蛮好就是相当于是一个导演助理的角色对这个是一个动画工作室在做这个动画工作室他是做给自己用还是他的产品做给自己用做给自己用他们完全是在自用这个想法非常棒对他们完全是在自用对

所以他的意思就是说 OK 导演我现在给你做了一个拆 GPT 的一个虚拟助理如果接下来有下面任何一个环节需要你提供反馈了要不你先把它给拆 GPT 过一遍对吧然后拆 GPT 要说这不行你看看他说的有没有道理对吧

然后他们也是这样试验了一下最后这个导演觉得还不错其实在动漫行业的这些导演和制片人的这一类人当中很多人对 AI 有着更开放式的这种研究探讨的态度我个人认为很多一方面也是从他们的角度上来说确实经常出现心有余而力不足的情况

所以 AI 会帮他真的抠到每一针那你觉得 AI 给的意见靠谱吗我觉得实际上甚至 AI 也不一定能帮他抠到每一针但是在一些比较关键的一些节点上其实 AI 即使能够帮到他 40% 50%也是很有用的也是很有用的至少作为一个观点比方说一个导演一天 8 到 12 个小时 12 个小时吧比如说吧其实真的升盘起来可能比这还多是 18 个小时是吗可能比这还多但我们就假设说是 10 个小时吧嗯

他在这 10 个小时当中可能真的能够非常聚精会神的修改的关键部分可能每天我觉得不一定会超过 10 个关键点有这个 AI 他即使每天能够修的关键点能从 10 个变成 15 个这也是一个巨大的成功

那看起来质量提升了 30%那感觉是有这个希望对吧对对对然后你从日本回来之后你觉得对你们如何做动漫然后要不要使用 AI 工具对你整体上的观点会有改变吗我觉得改变还是相当大的说实话大家对于 AI 一方面来说就是更欢迎然后另外一方面来说也是更偏向于相信它未来的可能性

但是它如果真的作为一个工具嵌入到平时的这种生产过程当中那确实还要面对这样那样细节当中的魔鬼吧所以你对 AI 就是日本之行之后你反而对它的态度是更谨慎了这个是我听出来的这个是一方面但另外一方面也是因为我们看到有很多现在以 AI 为核心的小团队

实验的出现我们也觉得很激动人心我一直觉得人类对于艺术人类对于创作的追求是一件永恒的事情

人类我觉得从上千年上万年前就开始在洞窟上戳画画对吧而这次从日本回来之后我也更思考的一件事情就是如果我们真的把 AI 作为创作工具的本身那么围绕 AI 会不会有新的可能性产生有没有可能说我们现在能够看到以前完全做不出来的东西比如说特别特别复杂的衣服动漫的设计当中不太适合出现特别复杂和华丽的服饰

因为这些服饰的制作还有把它动起来那就需要有大量的人力物力

我理解就是一个服饰如果它特别复杂上面还有花纹那这个动画师在画它的时候对就要吐血了对吧就每天 28 个小时的工作时间就出现了对吧但是如果有 AI 的话这可能就会成为一种可行的视觉语言但服饰也不重要吧就是在整个动漫中不好说不好说吗这个我一直以来抱有一个很开放的态度

因为我们目前看到的尤其是二帝手绘的动画它的服饰都相对简单并不一定代表说复杂的服饰它就不好看而是因为制作上的原因我们只能这么选我能想象一些场景比如说一些打斗它还是需要一些复杂的服饰或者在你体现一个王这种概念的时候对对对或者甚至说一个打斗的案例一个中世纪的一个骑士其实它的盔甲的结构是相当复杂

而如果把这些全部复杂精密的这种盔甲的结构完全的用手绘的方法画出来那可真的是不知道做到什么时候也确实有可能得不偿失比方说身上会挂很多挂尸或者铃铛的这种角色相对来说这种角色的服饰在现代动画当中可能相对罕见一些但如果有 AI 的话这些变得更好做了它会不会产生新的一种创意上的可能性

对于这件事情我其实保有相当的开放式的态度我觉得也是一个很值得期待的领域与此相对应的比如说动漫的这种上色的方式现在是怎么上色的 AI 是怎么上色的基本上就是填充

没有了这个就是开玩笑这个有点半开玩笑的意思听众朋友们可能在小时候也玩过 Windows 上面的涂鸦工具然后里面有一个大家可能都玩过的工具叫做油漆桶是吧就是你画一个圈油漆桶一点这里面突然一下都变成一个颜色了

其实现在大部分上次就是游戏桶但你不觉得其实这就是人类重复密集劳动的部分吗这个就是技术与创意产品之间的一种非常微妙的关系吧对这就是我们最想交给 AI 去做的对就是技术的限制它会产生一种形式的创意的结果像希腊雕塑的这些大理石那大理石它本身就是一种限制

大理石上的上色当时的颜料的技术实际上非常的不成熟所有的颜料都很难在历史的化学反应当中被保存下来那就导致了很多我们现在看到希腊时期的这些大理石都是白色但是因为有这样的技术上的这种限制反而在后来比方说我们新古典主义时期的时候大家又来看觉得白色反而是一种特色

但是后来当我们的这种硬染的或者对材料控制的技术又上一层楼的时候我们之前买的这种变形金刚的玩具也好了

哆啦 A 梦的这些小玩具也好了动漫的这些手办也好了由于我们人类对于塑料的这种化学工业已经到达了一种非常非常先进的程度它又诞生了一种完全不一样的美学的可能性和生产的体系我希望 AI 它最应该做的事情并不是说把已有的创意给用 AI 自动化

但 AI 它最美妙的最有趣的地方应该是说我因为产生了这个工具有没有什么我以前因为各种各样的原因做不到的事情现在可以做得到了如果我们有这样的愿景的话那我觉得人类与 AI 在文化艺术方面创意上的这个未来应该是一个非常令人期待百家争鸣百花齐放的一种理想状态

如果我们说在此过程当中艺术也好文化作品也好的它的创作上忽视了这当中一个一个具体的艺术家那这我觉得也是一个很不应该的事情是你能不能简单介绍一下你现在每天的工作然后你的工作中是怎么样跟大模型发生这种就是每天会使用它的

我们现在每天的工作主要围绕动漫制作产生比方说未来的项目他写故事设计角色然后跟进已有的项目我们就去跟进他的产能的状况有没有什么问题还有一些是更偏向于商业上的那就更典型的一些制片的职责嘛

比方说项目的融资啊宣发啊制作资源的整合对于我们来说可能比较特别的一些因为我们本来这个 IP 的起源也比较奇特它并不是一个漫画也并不是一个小说它是一套 NFT 的头像所以我们也会尽可能的会想着有没有什么 AI 能够跟头像直接产生一些有趣的化学反应的方法 AI

AI 是不是也可以直接帮你们生成 Azuki 头像的作品肯定是可以的对啊因为我觉得其实你们是一个非常典型的 AI 的应用场景因为 NFT 嘛它就是需要有各种不一样的符合你们风格调性的头像但是每一张都要不一样对也不对一方面来说我们肯定跟 AI 生成这方面是结合的非常的紧的另外一方面 NFT 它本身有着比较强的收藏属性

我们人手工的制作以及它的稀缺性可能会成为比它是由 AI 做出来的这件事情要来更重要所以不能用 AI 做

在 Azuki 头像生成过程当中我们肯定没有用过 AI 为了保持它本身的这种收藏属性的价值我们也会控制它的供给量也好也会尽可能地用我们的艺术家也好设计来把它打磨到最好所以就是 AI 如果足够发达的情况下它会解决了一种生产上的问题但是 AI 它不解决宣发的问题

比如说我现在拿 AI 做出一个五分钟的短片但这个短片怎么样宣发它是否拥有商业价值它是否能让一部分看到它的人觉得感动这些都不是 AI 现在技术上正在做的事情那这些除了技术上的考量之外又需要很多非技术的对于动漫也好了文化作品也好了有着非常深层理解的这些导演啊创作者啊他们来去把这件事情给挖清楚那

那你现在每天用到 AI 做生成大概是一些什么样的环节我们大部分的时候在实验比方说你现在有一个 Zuki 的头像

我们能不能把你用 AI 把这个头像动起来那作为一种技术上的尝试那么这种情况下我们就不打破它原则性的收藏性的基础上提升了一些它的虚伪性对然后你之前有提到七个大模型每周都在进步你追我感现在已经不止七个了对对你觉得是哪些方向的进步呢是从什么时候开始进入到这种你追我感的时间点的啊

我感觉这种万马奔腾的状态真的很接近可能是从七八个月前开始的我觉得是有什么关键的模型发布吗 SORA 我觉得还不是 SORA 实际上可林啊皮卡还有 RUNWAY 在几个重大节点上的发布可能比 SORA 还要更具有代表性 SORA 当时一开始发布的时候如果我没记错的话好像还有一定的争议

因为大家对于它的欺骗普遍偏高但是最后生成出来的效果还不一定有想象中的那么好但是我记得确实就从那个时间点开始基本上这几家大模型就进入了一个你真我敢的状态你真我敢表现在什么方面呢版本更新的频率啊还有 AI 模型的稳定性啊速度啊对于关键词的理解上面啊都在以一种非常惊人的速度进步能不能举几个例子

哦这个变化实在是太快了那我们就用差 GPT 来举例好吧 OK 他之前发布了吉普利嗯大家去改的时候这个是今年的事情还是挺近的事情两个月前四五月份

我记得当时在 XGPT 发布之前谷歌的 Gemini 放了一个实验性的 feature 当中它就已经做到了用文字来编辑单张图片这个能力已经做到了一种非常惊人的程度了在 Gemini 和 XGPT 这一波之前实际上如果我们单从图片考虑的话可能大家用 Mid-journeyStable Diffusion 还更多一点但 Mid-journey 和 Stable Diffusion 对于文字逻辑的理解坦率地说不是特别的强

比如说我给一张照片然后我说把这个照片变成一个吉卜力的风格就这么简单的一句话在谷歌的 Gemline 和 XGPT 上一句话就能解决的事而且效果还真不错很厉害嘛迎头赶上是吧几周之后 XGPT 就出来类似的东西了然后大家互相我觉得还有一个因素是当一个功能大家确定了某一个方向可以这样做的时候其实抄起来是很快的确实现在明显有这个感觉 Luma 我觉得也是一个很好的例子嘛

Luma 我觉得我之前印象非常深刻的是它的给一个起点给一个终点你是说关键针是吧对拿茶杯跟喝到水的关键针对对对我们就比方说给一个起点给一个终点然后让它把中间给补全对吧我记得去年年底的时候吧他们有一版这个效果人体就做得非常不错

很快我觉得甚至可能是同时吧中国的可灵的这个模型的关键帧尤其是在动漫这个风格上面它的那个补全的质量就更高为什么现在很多大模型它在动漫方向的进展好像比它在真实的物理世界的进展看起来是要快的我感觉这个还存在模型与模型之间的区别

就可能训练原素材的问题对而且有可能是跟这些团队不同的侧重点有关可能尤其是对于中国的团队上来说因为大家都比较习惯也比较喜欢动漫二次元的这种画风那对他们来说去往这个方向做是一个相对来说比较自然而然的反应而在美国方面实际上现在很多比如皮卡啊 Ranway 啊像 Luma 他们我觉得在特效上可能就做得非常的不错也

也很难说技术上来说到底哪一家跟哪一家之间是否存在真正意义上的代差所以你觉得在视频模型上是没有代差的包括中国的这些大模型中国还有哪些做得比较好的你刚刚提到了混元克林混元克林在动脉方面确实不错 Vidu 我记得是 Vidu 对也是动脉生成相当不错的一个开源的模型我记得是 WanWanI think

中国的这些模型我觉得从生成质量上完全不输美国的模型而且从迭代速度甚至产品的终端用户体验上来说甚至比美国的公司还要再好一些所以我觉得因为会做产品我觉得真的是而且生成更快而且更便宜一些美国的这些按月付费的其实真挺贵的很快就能用完我觉得最新一次视频模型的发布其实是在 Google IOS 期间 Google 发布的 Vios 3

它其实是在常规的这种视频生成的基础上加入了声音它有音化同步包括有口型这个难吗这个有点像我们刚才讲的 ChaiGPT 和 Gemina 它说的单个语言文字来去做图片的这种边境这件事情本身从技术上来说当然是挺不错的一个成就但如果真从模型本质上来说我反而觉得应该没有那么的复杂

可能很快我们就会看到其他家也会有类似的产品出现音效生成对现在视频模型能生成的最长的视频是几秒目前很多的都在 10 秒 15 秒 20 秒这种区间如果再往下生成的话就确实会出现一方面是我们刚才说的稳定性的问题

另外一方面来说可能它就不再具有有意义的产品和市场需求之间的匹配了为什么因为如果要生成更长的话没有一个人会愿意看一个人举咖啡喝一分钟我觉得生成更长可能就需要故事线了所以他们现在还只是生成一些场景的特定镜头然后它这个特定镜头其实是没有太多的动感的对

就是如果真的要达到一分钟的话其实我们平时现在你看任何的影视作品也好你是很难看一个人做单个事情一分钟而且尤其是在没有上下文的情况下这个还是挺难的我上次在谷歌的发布会上就是我用了一下他们的 Viu3 就是我测试了一下

我当时的 prompt 词是生成了一个还蛮复杂的场景的大概就是一只小松鼠一只猫它们在一个山坡上奔跑然后穿过了树林接下来是穿过了一座桥最后到了山顶上

桥的两边是有彩虹的然后有风很具体了很具体很有画面感了对对对我其实是想看它在这一连串的关键的奔跑中它整个场景的变化它的连续性效果如何我说到的这些点非常好但是跳针很严重是吧逻辑很奇怪对对对感觉像在做梦一样对

就是这种感觉这个描述太准了感觉像在做梦一样对就是它比如说从桥到山顶你感觉这个中间它是没有任何的这个它不是奔跑过去的它是画面切换过去的是是是然后里面各种各样的元素就开始进行不可思议的形变对吧

这个其实跟我们刚才说的稳定性有很大的关系如果真的要用在一个创意的产品上来说我们看起来至少得相对合理除非你是真的想要做出这种梦境一般的效果

目前我看可能 20 秒 30 秒算是比较长的还相对比较稳定如果真要说生成一分钟以上的东西一方面来说我们人可能也需要给它更详细的情节另外一方面来说它真的是否能从逻辑上很好的再现我们脑中想象的这种情节这确实还是一个挺大的问题对所以你觉得现在如果我们来看整个 AI 做视频生成的问题最大的问题其实就是一个是可控性一个是不够好嗯

不够好其实最大的问题还是不够好最大问题就是这三个字不够好所有的玄妙之处都在 go 这个当中其实我之前也在网上看到一些很感人的一种个人的应用场景比如说一些人会把他们去世家人的照片给 AI 然后让他去做一个十秒钟左右的已经去世的亲人的动态的这种

这种在声音模型生成中特别多就是因为现在其实因为我做播客嘛现在各个厂家他们的声音模型竞争也非常激烈我就经常看见有评论说我把妈妈生前给我发的这个语音喂给模型然后我就能听到我妈妈的声音了对啊很感人嘛很具有人性色彩的一种使用的场景而在这种场景当中所谓的够不够好它这个够这个字就不重要了因为它有一种很真实的有大于无对

对有大于五而且以前就是不可能它的点不在于我真的生成出来一个多好的视觉产品而是我真的通过这种方式仿佛跟我以前的亲人朋友又重现了一个记忆这个就很有意义

比如说如果真的 AR 要上工业的话它的成本就会成为一个特别大的问题 AI 现在的成本是多少挺高的我大概在很多这些视频平台上都会去买他们的这种视频生成的 credit 每个平台也有按月订阅的计划基本上我会买中间那一档主要是想尽可能的多试试看基本上所有的平台在每一个月的第一周我都会用完就是严重的 token 不够用你每天用多久非常非常的缺 token

我在 Luma 或者 Klin 吧我有两三个创意的想法我基本上每一个平台上会希望它生成 5 到 10 次那么这个就相当于是 20 到 30 次而我一天比如说生成 20 到 30 次的话真的一周也就全用完了可能一周都不到

现在他们在生成人物的时候眼睛还会有恐怖骨的效应吗因为我们其实在这些视频模型刚刚出来的时候因为我们自己也做视频嘛所以我们也是都用过这些视频模型但我们试过就觉得他生成的这个人物状态还是很恐怖的就是跟迪士尼最开始最最开始的那些动漫一样就他的眼神是空洞的我觉得现在基本没有了基本没有了那这也是一个很大的进步非常大而且比方说还有手的稳定性

手的稳定性突然一下多出一根手指少一根手指这个这个其实也是一个巨大的突破我觉得很厉害所以所有模型手的稳定性都解决了几乎到了一个不会串帮的程度了手跟眼神这两个问题都解决了对时不时还会有这样那样的一些小 bug 出现但是大概率的话我现在不会担心说我现在去生成一个东西我首先得查一下他的手对不对我觉得现在已经基本没有这样

你们会用 confine UI 这样的工具吗我们自己没有直接在用因为这个工具的迭代特别快迭代速度快客观对我们来说一直做实验的导致一个很麻烦的问题就是必须一直用不一直用的话很容易出现工具跟工具之间我过一个月它就变样了所以在这个方面我们也是一个有一点烦恼的一个地方工具

工具跟工具之间迭代了这个对你们的影响是什么目前没有因为你们还是没有用到这些工具真正的在商业行为中的对了这又回到我们刚才说的这一点这个 goal 当中的另外一个魔鬼就是工具的稳定性如果真的要工业化生产之后我首先对于它的 token 会有大量的需求我们就说一个关键帧生成中间帧的这件事情那可就不是一天生成 20 次的量级了可能一天生成 500 次都是有可能的

一旦进入工业化之后这个成本啊效率啊甚至产品上的问题会一下变得特别严重 OK 了解其实对模型端来说就是一旦他们开始给工业化的机构去做制作他也会有 token 的大量消耗然后你的算力够不够的问题我觉得这个非常非常的真实

还有一个问题就是你觉得用 AI 配音怎么样因为我觉得现在语音模型的发展反而是我看到的最快然后效果最好可控程度也比较高的就比如说动漫其实我们刚刚讲的全部是画面的环节

但其实还有配音还有配乐的环节这件事情牵扯到了一个我个人也非常忐忑的一个话题了语音确实比视频要好做的很多很多而且如果真从语音的生成质量角度上来说其实现在大部分尖端的模型已经跟真人无异了但是这里面语音生成这个也牵扯到一个很难聊的一个话题也就是 AI 跟人类创作者之间到底是什么样一个经济关系

让你忐忑的是什么呢非常忐忑的一点是这次我们在日本也聊了一些导演配音演员声优日本的声优实际上它也有自己的协会包括日本这几个月的时候也有很多日本非常知名的声优公开出来反对 AI

他们不会把自己的声音用于语音训练也不会允许 AI 来模仿他们的声音他们给出来一个论点其实我很同意他们自己对于自己声音的训练还有他们的表演实际上是他们的身体而且这个东西一旦被替代他们自己的价值也好创意也好还有自己他们的身体也好会被迎面冲击你看日本还有工会但是还有很多人不在工会里很多国家是没有工会的很复杂

如果真的讲到经济模型的问题的话确实是一个相当相当深刻且困难的话题从一个画画的角度上来说我还可以说 AI 对我来说是一个工具但是同样的这种工具的论点如果放到声优上面可能就会比较困难

因为他生成出来的东西跟声优表演出来的东西太像那所以其实在声音这个环节技术已经可以做到他可以替代人了只是说在这个过程中你要去怎么解决这部分人他的生计问题他反而是一个经济关系的问题他不再是一个技术的问题

我个人认为是这样的这里面存在一定深层次的工作伦理的问题对我觉得在播客行业已经出现了这样的问题完全可行完全可行这个确实是比如说宏军吧如果有一天我现在告诉你有一个 AI 可以模仿你的声音然后说宏军以后你就不用再出来录播客了你就写稿就行了

我们把稿件就转换成声音这个事情我觉得从主观程度上来说还是一个挺有冲击力的一件事情另外一方面我个人也偏向于认可的一个论点就是声优它本身并不仅仅是在提供一个声音它是在对角色进行演绎甚至他们自己也是一个流量的点他们提供了很多在商业上产品上和创意上比一个物理上的声音要多得多的一些价值

还是应该正视和尊重他们对于作品和商业上的贡献如果真的从技术上的角度来说声音我觉得技术程度上我觉得到了但音乐还没有 OK 就声音 OK 了音乐我觉得也 OK 了音乐也 OK 了吗音乐我觉得也 OK 了你觉得 AI 生成的音乐它跟人的这个音乐它的表现力这个问题可太有意思了这个问题甚至可以上升到哲学高度我之前在学校学习美术或者音乐史的时候

就发现一个很有意思的现象我们就说西方音乐史吧它里面的大家时代和风格的变化其实没有那么多其实我觉得客观上来说反映了一个很有意思的现象就是我们认为好听的音乐可能就那么几种我们认为难听的音乐比比皆是我今天就可以写一个给你就是人类认为的好听的音乐现在已有的这些大调啊小调啊节奏啊实际上已经被前人还有乐理总结的相当完备

因为我们认为好听的东西没有那么多所以从 AI 的角度上去理解什么东西是人认为好听的就没有那么困难所以最终导致了一个结果就是它声称出来的东西其实表现力怎么样我觉得这个问题一半是观众心里要回答的我举一个例子比如说像 SUNO 这样的音乐声称平台我们

我们之前有测试过他的歌但是我们测试的时候确实可能是他刚刚出来的时候嗯值得再试一遍 OK 对我们当时就觉得哇这个也太口水歌了但是我们其实跟做这个音乐模型深层的人聊过他说是因为这样的平台他不敢去复制现在最顶级的这个流行歌曲对了就讲到我们刚才的问题对对对不敢拿他们的数据去训练

如果你训练出最后一个风格一模一样的歌或者风格很相近的歌那这个版权问题就会产生纠纷了非常严重纠纷其实但是理论上只要把它喂进去高质量的作品跟数据它是可以训练出来的对我给你一个建议你可以试试看就是下次你在跟孙悟玩的时候你去生成古典乐我们上次就试了古典乐

对吧就是了巴赫古典乐这个效果我觉得目前相当不错说实话是因为古典乐的版权已经开放了 50 年对他很多已经过了这个版权期限对所以这个数据实际上就是更开放了嗯但苏诺观点其实非常的正确因为你现在如果真的模仿一个歌手那我们真的得解决一个商业伦理上的一个问题

这我觉得甚至从一定程度上来说超越了商业利益如果我真的现在技术上能复制住周杰伦的声音我应该拿他的声音去写歌吗

但我觉得这个事情也,细想也很可怕呀,你模型能做这个事情了,这件事情就变得无利可图了,尤其是刚刚起来的新艺人就变得无利可图了,所有的艺人他都是不停地创作重复创作重复来做出更好的作品的,那以后可能就没有好的新歌,或者说没有人类创作出来的好的新歌了。

对所以这个就是讲到商业结构和商业伦理的问题包括我们刚才讲的中间针生成这一个简简单单的事情上已经包含了这种深层次的矛盾我现在比如说提出一个中间针生成的一个模型制作一个产品基本上不会有日本的动画工作室会对这件事情提出伦理上的意见因为这个确实是大家一个需求

从表面上来看确实也保留了人类的创作性因为关键证还是要人来画这看上去确实是一件一本万利的好事但是这个它客观上来说就会对产业产生一种非常长远且非常令人忐忑的一个后果就是新人没有办法去爬了

对,而且新人没有办法去做大量的重复的练习了,而这个练习是你通往大师的必经路。其实这一点非常非常的可怕,假设从一个小白到一个大师的过程是一个长长的一个梯子,那小白需要从一开始有能落脚的地方,我们如果这个梯子只有上面的一半有杠杆可以抓的话,这个梯子是没有办法爬的。

而关键帧这件事情虽然看上去很好,它从长远的角度上来说可能会带来一个现象,就是大量的新一代的我们目前还不认识的,还在读书的,还没有在读书的,这些新一代的动画的制作师,他实际上在这个行业当中没有可以向上爬的落脚点。如果产生了这个现象的话,那可能动漫这个行业说不定还会后退在几十年之后。

我们现在已经看到这种大规模的人才短缺的现象我觉得可能是全人类社会都需要一起来考虑的一件事情想一想也挺可怕的是啊确实是一个相当复杂而且短期之内可能还挺无解的一个问题

反过来说一个理想状态还是刚才说的就是我们作画也好在动画上也好我们真的能够把 AI 做一个工具来看这种工具又去鼓励另外一些之前不会考虑做动画的人他们参与进来那就像是我们以前在艺术史上颜料都是很贵一种自然原料来做出来的那在化学工业做成之后油画的颜料就变便宜了很多那

那他从客观上来说就鼓励了很多新的一代的年轻人新的一代的话是进入这个行业如果 AI 能够对动画达到这样的效果的话我觉得它还是一个值得期待的未来当然这个过程当中存在非常深奥非常复杂的商业伦理和商业结构的一个问题我觉得也是整个行业需要一起去面对去探索的

你为什么会从技术走向动漫我是学什么我在大学的时候学的是计算机我一直以来就非常非常喜欢动漫我看刚刚你还学过西方美学史跟音乐史这些是我一直以来都非常喜欢创意的产品我对创意行业本身也是有非常大的激情当然一开始是作为一个观众嘛

能够通过机缘巧合的机会做到现在这个位置上来说也就非常非常的幸运现在你的工作中涉及到的技术的部分多吗你

你的这个岗位如果是一个传统的内容负责人或者一个动漫制片人他们的岗位是需要懂技术的吗传统的可能对于技术的理解要求并不是特别他可能对特效能达到一个什么样的技术会要求更高一点很多时候是对于流程的理解和对于创意方面的直觉是更核心的一个比如说每天都会用到的一个事情

技术上来说反正相对少一点现在呢现在我觉得可能对于技术理解的要求会越来越高如果说我们都认为技术和创意的相互奔赴在接下来会加速的话

可能双方互相的直觉和品味上的需求都会提高那你现在的工作中会具体用到涉及到技术判断的时候吗 15%左右这 15%是一些什么样的场景主要还是用在我刚才讲到的实验性的场景上比方说我们做出来一个东西从技术角度上来说这个事情花了我多少时间它难不难做它是否可以复刻

它如果大规模复刻的话它需要多少钱这些都是很技术上的东西甚至还有更纯代码和技术上的东西比如那比如说我现在如果去做一套我们自己的管线我们训练自己的模型你会做自己的模型吗我们其实做过但是我们做出来坦率的时候效果真的不好而且由于是万马奔腾的状态那就让马在前面跑所以你们其实还想过做一个就是生成二次元的模型对纯粹作为尝试嘛

对于比如说视频生成啊,关键帧生成啊,或者声音的生成啊,对于这些行业非常感兴趣的技术上的创业者来说,可能现在的时代会对他们提出更高的美学上的需求。

比如说我生出来的音乐到底好不好听,有什么标准去评判它好不好听,这个我觉得可能反而会成为技术指标之外,训练模型以及指导模型进行迭代方面一个很重要的标准。对,你的品位可能决定了模型的品位,我最近看到一些文章挺有意思的,就是其实比如说像 DeepSeek 出来以后,我是非常喜欢 DeepSeek 它回答问题的那种方式的,

然后我是偶然在一篇采访中发现梁文峰他对你的文字的美感是有追求的包括最近我也是问 DeepMind 的人我说为什么 Anthropic 他们做出来的代码质量就很好那可能也是创始人关注包括我们看 Chad GPT 整个文本的风格跟 Sam Altman 他那一套非常看重表达看重营销看重把一个事情包装得特别美好的那个风格

我觉得还是跟创始人的品位关系很大的特别相关而且甚至可以说在大模型也好视频生成模型上这种品位就能转换成非常直接的商业价值和产品优势

我用文字生成出来 20 秒的小视频一个特效或者是中间帧这个中间帧它能不能用它中间出现的这些 5%的错误错在哪了这个错的地方我能不能接受如果一个技术的团队理解这些事情的话并且针对这些事情进行优化的话那么他们在产品上应该就可以跟其他的产品形成非常非常有利的竞争优势

是可能是一个混合型人才的时代是吧对的我觉得嗯每个行业都在追求混合型人才是是是很有意思很有意思对对

我自己很喜欢艺术史,然后我自己也是一个工程师,我现在很直观的一个感觉就是从两三年前大模型这一波开始,我的左脑就在每天跟右脑打架,是吧,左脑跟右脑每天起来都在打架,然后工程师的这一边说,你看 AI 的东西多么的酷炫,对吧,艺术史的这一边就说,但是你得注意这些东西产生的社会的影响。

而我更愿意相信人类对于创意的追求是无限的,对于表达创意还有对于他人的作品的这种原始性的追求是刻在人类 DNA 里面的东西,它并不会随着技术产生改变。

而技术的迭代技术是不停的在变的美术的商业环境也是不停的在变的但是艺术和美术自己是永恒的所以我也是希望正在走向的一个未来并不是说因为有了 AI 所以我们走向了一个更贫瘠的更无趣的一个世界不是而是说因为我们有了一个 AI 我们走向了一个更百家争鸣百花齐放的一个世界

如果是这样的话那我觉得 AI 啊人类啊包括人类对自己的理解人类对自己的艺术的理解可能都会以这个为契机吧走向一个全新的高度吧对因为我在做一档技术博客博客是一个创业行业技术也是一个相对枯燥的事情所以我每天其实也是在一个左脑右脑打架的这样的一个状态但是整体来说我对 AI 跟人类的未来要悲观很多

很难说很难说但是好处是在于无论怎么说我们这一代人就是在创造这个未来是的对吧所以我们这一代人的选择确实有可能影响在接下来很长一段时间之内人类技术和艺术之间的相互关系对还有很多的社会问题还有很多很多的社会问题这个没有任何好的答案但是至少可以知道的一点就是答案是要由我们来写的

这个心态特别好对吧这个心态特别好创业者的心态知道了这一点之后我觉得每天左脑右脑打完架之后就又能睡觉了明天起来又可以打架了对吧所以也是希望通过就是今天的分享一些事情和思考作为一个抛砖引玉作为长长的技术和艺术之间的博弈当中提供一些个人的一些小的想法好的好谢谢天宇非常感谢拜拜拜拜

好了这就是我们今天的节目欢迎在小宇宙苹果播客 Spotify 还有喜马拉雅清评 FM 励志 FM 网易云音乐 QQ 音乐上订阅收听我们如果你是习惯通过视频平台来收听播客也可以在 YouTube 和 B 站上搜索硅谷 101 播客

请不吝点赞订阅转发打赏支持明镜与点点栏目

E197｜七大模型多模态之争，AI如何改变动漫产业？ 01:10:06 Share

硅谷101

Deep Dive

Shownotes Transcript

E197｜七大模型多模态之争，AI如何改变动漫产业？