We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Ep10.自回归架构:视频生成领域的“少数派突围”

Ep10.自回归架构:视频生成领域的“少数派突围”

2025/6/24
logo of podcast 比路漫长|创业沉浮录

比路漫长|创业沉浮录

AI Deep Dive AI Chapters Transcript
People
C
Chris
投资分析师和顾问,专注于小盘价值基金的比较和分析。
S
Shawn
Topics
Chris:作为Sand AI的产品负责人,我亲历了AI视频生成领域的技术变革。我们公司从一开始就坚持探索自回归架构与Diffusion模型的结合,这与当时Sora发布后行业内普遍采用的DIT架构形成了鲜明对比。自回归架构模拟了时间流逝的单向性,更符合现实世界视频的生成方式,在处理视频一致性和连续性方面具有潜在优势。虽然这条路充满挑战,缺乏现成的经验借鉴,但我们坚信其能带来更好的视频生成效果。开源Magi-1是我们的一次大胆尝试,旨在推动自回归技术的发展,并为社区做出贡献。尽管Magi-1还存在一些局限性,但我们相信通过后续训练,其性能将得到显著提升。未来,我们将继续深耕自回归技术,探索更多视频生成的新可能性。

Deep Dive

Chapters
This chapter introduces Sand AI, a video generation company employing a unique autoregressive approach. It contrasts this with the more common diffusion model, highlighting the autoregressive model's strengths in handling temporal causality and offering finer control over video generation.
  • Sand AI uses an autoregressive architecture for video generation, unlike most competitors who use diffusion models.
  • Autoregressive models handle temporal causality better and offer finer control over video generation.
  • The autoregressive approach uses a unit called 'trunk', similar to a token in language models, to predict the next segment of the video.

Shownotes Transcript

世界就是一個如此龐大又如此虛的東西就是沒有任何東西能夠去等價整個世界但很多東西都可以具備世界的一部分特質

哈喽 比鲁曼长的听众朋友们大家好欢迎来到比鲁曼长的播客我特别抱歉我真的已经半年没有更新了因为确实自己的主营工作比较忙大家也知道今年 Deep Sync 出现以后整个创同的热情又重新被点燃了所以我也在积极地投资但是接下来我会重新去开启我们比鲁曼长的播客

然后在这里我也给大家介绍一位我的新朋友也是我邀请过来的叫 KKKK 是在六小龙大模型公司里面去负责创业开发者的运营让他也很有兴趣在接下来的时间里面跟我一起定期的去邀请一些 AA 的创业者来录播客我们探讨一些大家比较感兴趣的话题然后 KK 你来给大家打个招呼哈喽大家好我是 KK 很高兴认识大家

这一期我们邀请到的是 Chris 跟大家先介绍一下 Chris 吧 Chris 之前有非常丰富的创业经历然后在 Vast 一个做 3D AI 技术的公司以及现在在 Sand AI 做产品负责人除了产品之外其实现在 Chris 也在负责公司的像市场品牌等等一些更便宜运营类的事项所以整体上是产品加运营的负责人那我们也先请 Chris 介绍一下自己

我觉得刚刚介绍的还挺好的对于我最近在做的事情然后再往前一点在 Bust 跟在 Sunday AI 做 AI 相关的事之前其实也有过几段创业经历对分别是做知识付费的生意很快地赚到了一笔现金流然后还做过还梦想过要做下一代的微信做过下一代的社交网络然后失败得很惨不但公司失败了然后我自己还

就是状态也不太好了还有医院跑了好几趟然后中间还有短暂的一段时间在美国做过一个 UJC 语调方程

所以算是一个连续创业者或者叫连续失败者因为好像成功了就不用连续创业了大概是这个样子其实 Chris 是非常少见的自己亲身在创业并且是经历了像互联网创业加 AI 创业以及甚至在 Vast 没有火之前他就作为很早期的成员加入这家公司现在又是很早期的加入现在 AI 的公司

所以也是想听听 Chris 跟我们去分享一下现在像 AI 大模型的这个行业尤其是 AI 视频生产领域的一些新的进展吧包括技术进展和产品进展要不我们先从技术开始聊一聊 Chris 跟我们分享一下现在可能像 Sanda AI 这样的视频大模型的公司在做些什么

虽然不是众所周知但在行业里大家后多后少应该还是有了解就是 Sunday AI 是视频生成这个方向但是会有一个自己很独特的标签就是自回归因为自从当时 Sora 发了那个比较骗人的 demo 之后所有的视频生成的公司都 all in 在 DIT 这个技术方案上面然后去做深耕 Sunday AI 最大的产业化的点是从

一开始吧从公司成立之初就在去探索自回归跟 diffusion 结合的这样一种方案这个算是 3D AI 可能最大的标签因为我们听众朋友可能有一些不是技术背景能不能先跟我们大家讲一下 DIT 架构和自回归的一个区别是什么

我觉得这里面的区别可能很多但是比较简单又直接的能理解的版本就是自回归是个单向的模型因为我们知道视频可能是有连续的多帧组成的那总要先有第一帧再有第二帧再有第三帧一个单向的自回归的模型你可以理解为就是它又会有非常强的先后概念会有很强的时序因果的属性但如果是一个纯双向的模型我们

我们可以理解为你需要在它生成之前就规定好我一共要生成多少秒一共多少帧一共要生成 100 帧那它的第一帧跟最后一帧是同时出现是同时取造对所以这个就是自回归跟传统的 DIP 最大的区别对所以它会有点像语言模型因为大家都知道语言模型永远是去 predict 所谓就 next token 就是一个 token 一个 token 的往外吐

那现在在 SAN 的视频模型里我们也定义了一个类似 token 这样的单位叫 trunk 那我们一个 trunk 目前最小的可以读是一秒之后也有可能做得更短那就是永远在预测下一个 trunk 会发生什么那这是不是可以理解为说这样的技术变化可以让我们的视频生存不管是在视频生存的时间长度上它的人物移植性上都会比传统的 DID 架构表现得更好呢我觉得

抽象一点或者说能够比较鲜艳能够盖得到的东西是说因为你训练这个模型的方式整个的架构都是把时序因果包含在里面因为我们世界上大家看视频和这个世界发生的方式也是因为时间它永远都是单向的我们也不能去逆转这个

这个时间的流动因为这个世界它永远都需要一个单向的尺度帮助我们去感受这个世界的运动对吧所以我们才会有了一个所谓对时间的感知比如我先打了你一拳然后你就捂着脸哭然后我们管这个叫失去因果对吧那你可以理解为当我们追求所谓的一致性或者是连续性在这个过程中追求一些生存质量的时候

那它一定跟所谓的这个基于时间的因果关系能不能被模型很好的建模或者带引号就是所谓的很好的学道是会有比较大关系所以我觉得从这个角度来看应该是能带来更好的效果

对然后另外一个就是你可以理解为因为他是单向的他不断在预测后面发生的事所以他在时间这个维度上他对视频生成这件事的控制是会带来一些完全不同的东西比如说呃你在可灵生成一个 5 秒的视频然后你其实你能掌控了所有的事情就是一我可能选择了要生成 5 秒然后二就是我通过 prompt 去注入大量的信息在里面我可能 prompt 会写啊你的

第一秒要发生什么第二秒第三秒又要发生什么第四秒要发生什么而且这件事还规定遵循但如果你用一个自合规的架构的视频模型去干这件事你就有一种很简单的方式我干脆就是一秒一秒的生成我就先生成这一秒这一秒发生什么我规定好然后我再接了这一秒它再决定下一秒又发生什么

而且在整个视频的长度上也可以非常的自由因为本质上可以无限的往下续行所以我觉得这个是现阶段我们能看到的比较大的不同那现在我们采用的自回归的技术架构有没有遇到一些瓶颈或挑战在你们实际的这个研究工作里面

全都是挑战因为就是这个用纯技术的角度上来说虽然都是迅模型然后你发现现在世界上有有纯双向模型也有纯自会轨的模型迅这些模型包括它里面的一些大量的技术细节包括像俄称神这些东西怎么搞我觉得结构是不完全一样的

你可以觉得 3D 案的探索的事是把 Diffusion 跟 Auto-Regressive 就把自我规模跟双向再做一个结合一般你要整合一件事然后你就会发现实际上它们两个不一样就是比单独做这两件事中的任何一件事都要更难

对然后第二个呢是这条路算是一个少有人走的路所以没有那么多现成的作业可以朝比如说在蓬勃发展的开源的这个技术生态里面能够找到足够多的研究或者大家已经解了很多的问题对更多的坑跟问题还得自己去踩自己去蹚所以我觉得主要是难在这个部分你要说具体有什么

技术上到底难在哪呢我还是在公司内部听到非常多这样具体的 topic 对 但就是没有一个我能听懂对 都是一些很强技术属性的一些专业术语那据你了解现在像可灵 吉梦这些市场上他们已经产品化可被体验的主流的模型公司他们采用的技术路线跟我们是不同的吗

我不知道我们算不算主流的视频生成玩家但是如果不管算不算我们在内吧就是算我们我们就是主流玩家里唯一一个没有走 Dietive 这个路线的现在市场上就是最耳熟能详的这些视频生成的玩家都基本上就是甚至当时就 Sora 指了一条路然后大家就一起把这条路去躺下去去走下去了

当然并不是只有我们一家在做自回归跟双向然后在动物态领域的探索对吧就包括其实我知道的是比如我们现在都所有人都很 impressive 的四欧的生土它本身是我们去推测可能有一种表达方式是以颜莫行为核心但是又

把 Diffusion 能够找到一个很好的方式去融入其中所以它本身也是一个自回归跟双向结合的比较好的一种方式去做深图所以 Slow 可能会有一些完全不同的能力去涌现出来

包括之前看到像 Kimi 跟街乐应该也都发了自己的一些就 audio 的的模型然后应该也是在探索就是所谓的自会轨跟双向到底要怎么结合对但具体回归到主流的视频生成这个方向上就是做这件事而且交付出了一个

就是虽然不是 SOTA 但是还能跟大家去拜拜手腕还是能生成相对高质量饰品的一个自汇规架构的模型我觉得三联应该现在是个异家是了解到你们之前有开源出你们最新的这款 Magic 对吧 Magic OneMagic One 开源之后大家市场上对它的反响怎么样

市场上对它的反响是第一个就是我们自己也不会避讳的问题是大家在试用这款国际性生成效果的时候很容易会发现它的下限可能会比较低就是它很容易崩坏很容易崩掉

那我觉得所有用过的他的人应该都或多或少能感受到这一点然后呢这件事其实是比较比较典型的是因为我们在这个时间点发布这个产品倒不是因为他已经完完全全调试好了而是因为我们觉得在这个时间点既然有有一个比较好的技术上比较完整的方案且我们至少在上线上把它

先挑食的还可以我们觉得就应该尽早发而不应该拖既然你还能给整个开源的技术社区才能做一些贡献但是这里面偏自私自利的说法当然也会有一点比如说我们当然希望我们有一个好一点的技术品牌让大家知道 Sanda AI 是有能力有实力在无人区里做出一些成绩的这件事我们当然是敢早不敢晚

就把它先放出来但本质上我们在后训练上其实投入的精力跟时间还是不够多的所以开案社区往往上来

第一时间的评价也都是大家说哦真的是很不错的工作但是一看就没怎么做后训练对就是大家都是懂好的人就能看出来所以我觉得从开发社区上能听到的东西能看到的一些反馈其实跟我们在开发之前的预期大差不差然后当然就是比较开心的事是整个社区的反响还是比较积极跟踊跃的因为在此之前其实你可以理解为

不太有人会再提出一些新的技术的可能性就是在视频上的这个方向上对就是似乎大家都觉得只有唯一的正确答案对但至少像连做了现在发了 magic one 之后我觉得至少能够让自回归跟双向这件事就是他们之间这个 vs 的关系能重回主流事业好能重新回到大家的讨论里面去这条接下来就会有更多的人在这个方案上做更多的尝试

对然后这个对 3D AI 这样一个我们已经做了判断想要在智慧会上深耕的公司来说一定是有好处的就是就开源并不往往是它并不是一个就是好像你免费的向向世界去共享东西但是你什么反馈也拿不回来的

那接下来有什么可以预告给大家即将要发布的工作吗

我觉得比较快的事情是就是把后续练做的还不错之后我们马上会有一班新的模型就出来对然后大家可能马上就会在就是在我们的 3D AI 的那个 Magic 的产品里马上就可以用到大家就会发现这个模型的下限会大幅度提高会不能够容易崩然后上限可能也会有一些轻微的提高然后这是马上就能发生的事情

然后呢在往后的一段时间里我们应该还会提供不止一个以上的除了视频生成以外的新能力

这个我们是有计划吧但是还没有定具体的时间点但现在这些基础的 demo 在公司里面已经越来越接近于晚上了然后拉长线来说我觉得我们应该还是会比较 focus 在视频生成这个大的主线上还不太会做太多完全偏离这件事的事情

那回归到你熟悉的产品领域也想好奇了解一下因为市场上现在的视频模型产品也有一些不管是大家熟知的可灵海螺吉梦等等那像 Sanda AI 我们的产品战略或产品思考是什么有没有什么产品可以跟大家介绍一下我觉得产品思考呢分为几个点吧

比如说你拥有一个崭新的能力然后找到一个好的方式把它交付出去这是一种方式比如拆 GBT 我有了 GBT 这样一个历史上人类没有拥有过的东西然后把它包装成一个就是我用一个相对最好的 interface 去包装让大家可以

去 ZillowShot 跟一个语言模型交互去做问答我觉得还蛮酷的我们就发了这是一种方式我不是需求导向我是能力导向的基于我有什么东西然后尽可能去推敲还有一种方式是我倒过来就是我先去渗透到社会活动的各个场景里面去观察还有哪些东西没有被满足的做过好对然后再试图去

在这些满足不够好的地方提供一个更好的解决方案或者改进其中的一些问题这是另外一种方式对然后现在我可以分享的是这两种方式我们自己当然都在探索前面的探索方式是我们来讲过了自回归模型它

天然就有一些产品上的特性就我们先不说它在技术上本身就有可能拥有更高的贴板对就单纯在产品上我应该讲过了可以非常在时间维度上细腻度的一秒一秒的去控制它的内容

从而去更精细化的提高我对生存结果的这个掌控性还是说我就大量的用视频作为 context 做大量的续写我觉得这些都是自回归的模型天然具备的能力那在这个方向上你可以理解为我们现在把它以这样的 wording 然后以这样的形式交付出来本身也是一种探索就是先看市场上对这件事大家是否买单

先看这个能力提供出来之后喜欢他的人能够发现他价值的人的够不够多然后比较早的发现他价值的人都是在什么场景里用当然我们不能就是偷偷看用户的数据但我们可以大量的跟我们的付费用户可以去交流去调研去聊去看到比较早的我们的或者叫自回归视频模型的 early adopter 他们怎么去使用它

所以更多的还是投石问路就是你投出了一个东西然后市场上总会有一些信号回来然后你尽可能基于这些信号再分析出多么东西然后另外就是我们能够看到的是以可灵为代表吧虽然没有官方的数据在披露但大家应该也都知道以可灵为代表的视频生成类工具的收入还在猛涨而且其实规模不低就是你简单的去算一算吧就是如果

你在 C 端的收入一年是一亿美金那你平均单个用户的价值可能一两百美金在你这样去看的话你大概率还是有个至少有个几十万上百万的视频生成的付费用户

对那这些用户一定分布在不同的场景里面而他既然每个月在花钱他要么就是有极强的爱好他要么就是在某个场景里自己能够闭环就是他花钱生成视频是为了让自己能够赚更多钱或者更容易的赚钱现阶段这几十万上百万人他们怎么分布呢在哪些场景里分别有多少人然后每个场景里面大家对视频生成这个能力本身

已经满足的是哪些还有哪些不满足我觉得这是一个非常广阔的已经发生的事情但是其实还没有人能够

很 solid 的或者是很详细的能够讲出来对就是我现在我巴不得市场上哪天突然出现一份一个市场调研报告然后就讲 100 万个什么视频生成工具付费用户的这个实际使用情况跟分布情况没有人做这样的事那就只能自己去做我们现在也在做大量用户调研的工作然后

然后呢但这里面更具体的东西不能分享对吧因为我觉得想做的人还是要自己去调研毕竟这个跟商业利益还是直接挂钩但这里面很明确的思路是如果你在垂直的场景里面就是能够真正跟那些用户聊上然后能够找到这个群体里面比较共性的需求点你会马上就会发现其实在很多垂的方向上

通过比如说收集更贴近于这个场景的数据就哪怕你的整个模型架构不变你就通过更好的后续练依然还是能够提升模型在不同垂内场景的表现或者就是用更专一一点的话说

我有足够多的用户不同场景的用户认知以后我可以把它们映射成不同的测试级跟评估标准然后去牵引我们的模型能力分别在这些方向上去实现这个评估结果的提升然后就会帮助我们在这些场景里更具竞争力然后我们自己在宣传推广上也会更有目的性对所以这两个事其实都在做嗯

我觉得听上去不是很 fancy 但考虑到这个场景本身这个市场还是比较大的所以它还是非常值得我们扎下去一点一点的做这些脏后肋后

视频这个模态天然对比语言来说它对于计算资源和推理资源的消耗是更多的是的我们有没有去测算过像甚至对于这种收费的设施用户来说我们的成本和营收是能够打平的吗还是说我们现在其实通过投资的方式再去获取用户嗯

那应该自己的情况我就先不说了但是我可以讲讲我之前通过各种各样的方式就是偷偷摸摸的去摸来各个就各家的情况我可以跟大家分享的是除了字节吉蒙我觉得就是他们每一年的预算非常恐怖恐怖到了可能连豆包的人都觉得吉蒙的预算真不少

除了像自己这样的特殊玩家之外大多数玩家应该还是有基本商业诉求的就至少不会太亏钱干这件事然后比较确切的数字是现在大家市场上能够看到用到的主流的视频生成工具它们的定价相比于它们的推理成本基本上还是有一个 30%到 100%这样的一个牟利空间是大概在这样的

的区间里面的对就是从它的定价上来看它一定还是有利可图的但实际上结合到各种各样的折扣活动 discount 对比如说快手前一天刚搞了一个克林好像年度会员半价考虑到这些因素还有考虑到实际上你的算力成本你要思考的是并不能总是拉满的因为如果你追求的是我的

任何时候我的算力都是刚好被拉满的情况你就要接受在忙时你的用户会有大量的生存任务会堆积那对用户的体验就会不好用户来生个任务然后你告诉他等八个小时以后再来吧用户可能又不开心所以大家一般还是要

比较接近于去对齐按盲的时候去准备它的算力的上限多多少少会更贴近于这个盲时一点所以你会有大量的闲时闲时的时候你的算力利用率不高但成本却一直在少所以实际算下来我觉得大家现在的毛利应该还是

有但不多非常微薄的状态然后整体上我觉得就是只看编辑的话应该还能多少赚点钱但如果还考虑到说要摊销掉你训练模型

的成本的话我觉得还是比较困难刚刚我们聊的其实是 C 端的这个场景不管是说专业创作者还是一些有兴趣的个人那据你的了解和观察像在 B 端的产业侧对于 AI 的使用是如何的比方说像传统的广告制作行业或者说视频制造行业他们现在也已经采用 AI 的技术在改变传统的生产流程了吗

这块我自己首先我了解的不算特别多但是仅有的一些信息是说第一个就是传统行业里面如果做这个事还是有具体的人那大概率这个人还是他自己可能就买了个会员他自己就开始生了嗯

然后第二种方式是传统的有需求的一些甲方可能会找到一些新兴的什么 AI 视频工作室比如说我们现在在网上看到大量的人用 AI 做视频然后起号但它本质上它也不靠什么带货也不靠广告去变现它靠的就是让尽可能多的有需求的甲方看到的

看到我有能力用 AI 做出好的视频所以不管什么地方文旅啊什么像品牌做投放买辆素材品牌宣传片呀只要你想用 AI 做都可以来找我就是它本质上这是一个接单的吆喝逻辑嘛

所以找专业的 AI 视频工作室或者专业的 KOL 去做这也是一种方式然后还有比较大的但是难以度量规模的一种方式是因为现在我们都知道混元跟外向这两家开源的视频模型包括像街月之间也开源包括其实像 SanDay Magic 本身也是开源的开源的整个的生态还是比较丰富的而且其实开源模型的生成能力并不差

对按照我们自己现在的认识情况来看呢比如说万象就万象跟混元相比市场上比如说像第二梯队的的基模比如像皮卡对或者像 Luma 这样的这个基模来说其实完全不落后的甚至在一些 case 里面可能是领先的对那开源的模型就意味着会有大量的人基于原本的这个模型

就是有大量的衍生品出现大量的变种出现所谓的丰富的开源生态对啊不管是闹 C4work 的场景还是针对特定领域就可以把图在就是在图的开源模型里就 SD 的那套生态可以迁移到这去理解嘛然后开源生态加 conf UI 很自由的工作流加大批量的就可以去大批量的去跑这件事我觉得应该也是非常多

实际上弊端场景其实在解决问题通过这样的方式来做的但这块因为是开源模型开源生态它所有的成本最后无非就是耗在算力上在一些在云算力平台上可能自己就耗掉了这部分我们就很难知道到底有多大但我自己能确定的是一定不少一定是不小的对

像你们做的市场电影也好或者是以你对市场上的认知也好你觉得现在 C 端的创作者他对于视频模型哪些能力是最为看重的举个例子可能视频的质量视频的长度人物的一致性等等有没有一些你观察到的一些 insight 我觉得两个关键词一个是质量一个是控制

当然这件事说来也搞笑因为本来用 AI 做内容就是通过控制让模型去审认视频对但为什么现在我还是在强调这两个点是因为在我看来现在模型能力本身要么就是还没到达那个 bar 要么才是刚刚过那个 bar 所以以至于现在大家的诉求还集中在最朴素就是最本质最重要的那些问题上

就比如说你不需要去思考太多花里胡哨的功能用户面临的大量的问题是说你看我的 prompt 里面写了我希望他用什么样的方式做一个运镜但他就是不听我的

或者他听了我的但是这里面的人物你看他的手在某一真的时候完全糊掉还是会有大量的这样的问题所以你都可以理解为是质量本身它的稳定性或者是它的质量的下限不够高我觉得这是第一个大痛点然后第二个就是控制是因为我其实觉得语言整体来说还是一种相当抽象的信息表达方式

但视频是一种非常具象的信息呈现方式这就意味着用 Prompt 去控制视频生成哪怕你给了一个图一个很具象的图去控制我依然觉得这里面有大量的信息差就是你没有描述出来的东西

但最后生成的视频会包含的也就是说我提供了可能 100 的信息量最后生成的内容里面包含了 500 的信息量在中间插的这 400 一部分可能不重要然后一部分靠模型合理的推理那还有一部分我觉得大家会试图去通过各种各样其他的方式来去控制

当然我要稍微再具体聊一点的话是现在大家用视频生成做稍微完整一点内容的时候大家的工作方式在视频这一环的前置动作是先通过各种千奇百怪的方式把一系列的图搞出来

然后呢在这个过程中大家难免去追求图跟图之间有时候不管是人物的一致性场景的一致性大家还是会追求这种强一致性所以在一致性上目前最大的痛点我说一致性是最大的痛点但一致性的痛点暂时还不完全在视频上基本还是在图这一步然后另外呢就是有些人会对 flux 本身生出来的图的那种质感

会不太满意有一个创作者跟我说就是一股合成数据的味

对会呈现在 flux 生图的那个效果里面但 flux 本身开源出来的模型因为一些技术上的特质而导致它可能没有那么适合大家再去做微调所以它的开源生态也没有那么丰富所以我觉得现阶段这可能依然还是一个在市场上大家最希望能够得到改善的问题就是在生图这个环节怎么如何保持一致性的情况下帮助我生成大量的高质量的图片

这样的话它应该能 unblock 非常多的更完整的强一致性的视频内容所以可以理解为现在的生成方式是先用文字生成图片再用图片生成视频而不是直接的从文字到视频的生成对的然后大多数的这两个能力都有的视频工具里面两者的比例差不多是二八开吧 20%用文圣视频 80%用图生视频

然后用纹身视频的理由可以理解为有两类吧一类是图个小事反正我就有个朦胧的想法用文控制就够了我不需要在图的层面上先抽卡然后另外一个是你可以理解为就是用图片用图加纹身视频一方面是更好的控制你也可以理解为一方面是某种意义上是束缚

它限制了视频模型的发挥空间,毕竟你的手针一定要长成那个样子,而完全用纹身视频,它有的时候这个模型的创意空间所能触达的上限有可能是更高。当然能够意识到这两者之间的区别的创作者,一个是比较少,另外一个是本身应该也都是在致力于去追求创作出

在他们心中可能更接近电影质感的更高难度的镜头的时候他们会意识到这样的问题现在市场上能够去生成这样电影质感的用 AI 去生成这样的创作者多吗据你了解我觉得全世界范围内应该在一万人以内那如果我们理解这个用过视频生成产品的人是千万人然后每个月订阅付费的是一百万人

那实际上能够把它的上限发挥出来做出接近于我们审美理所认知的最高质量内容的人可能就是 1%如果相对一个所谓的千万的人来说那就更少了所以距离我们像普通老百姓可以用这种 AI 做出高质量的内容还是有一段距离的是吧我觉得

还是看整个的工作流是否有可能还发生一些新的变化对这里就说回到其实 3D AI 就一直在致力于让大家能够用更简单的方式创作出更完整和更高智商的内容对那这里面比如说我们在工作流上希望带来的不一样的点是因为我们自会规模性本身就可以把视频作为 context 作为控制条件去影响后续的视频生成那如果你有这样的视频生成的工作流不断往后续片段

那是不是你就不需要再去先搞一致性的生徒反正在此前的视频片段里出现过的人物跟场景都可以保持比较好的一致性那我就直接生成后面的视频片段就完包括最近 Google 发了 View 3Google 在走一条就是还挺艰难的道路但是他们硬生生的把它做得还不错就是 Google 会把所有的 condition 都转化为文字

比如用户给了三张参考图 Google 会基于自己可能最好的图片识别能力会把所有图片内容都识别出来然后一起转换为文字信息然后变成一整串的文字 Count 再去文生视频然后通过这样的方式来保持不同的文生视频的结果之间还能做到比较强的一致性这也是一种方法

就是它的上限可能没那么高但是下限可能还可以现在很多的基模公司其实也在做理解生成一体化这样的模型像字节之前开源了他们的生成版本的理解生成一体化的 Bagel 那有没有可能像这样的理解生成一体化的模型出来之后对于我们这样子纯做生成类视频的模型会有一定的成绩和影响呢

我觉得从业务上来说应该还好对就大家不管你是一个什么样的方式走过来的模型大家最关心的还是最重的效果另外就是我们自己会觉得呃

理解跟生成去一体化包括就像 SO 这样就是做多模统一这肯定是一个比较强的技术趋势但是我觉得现在整个行业都还处于非常早期很多方向大家都还在探索甚至是

有的时候回过头来去想就是大家都别说对统一的理解有多深大家对于比如 Diffusion 对于双向模型本身对 DIT 然后对自合规对其中单一任何一条路的探索可能都还不够充分所以我觉得在短期内应该还不会出现一个快速收敛的情况所以尽可能快速地百化齐放就是八仙过海各显神通应该是一个所有人都乐意见到的

一个场面吧然后呢对于所有的公司来说就是你一方面要在自己原有的技术路线上尽可能有好的积累然后一方面也是在这个过程中尽快地找到你自己的商业闭环然后让公司首先变成一个更成熟的更健壮的商业组织然后在技术上我觉得就是保持开放跟敏捷就行了在去年 Sara 刚出来的时候其实我记得

像这样的模型对于物理规律的理解其实是不够的,比方说他可能就不知道苹果是要掉到地上的,以及不知道水可能有船划过去的这个水波是要这样子去形成的,那我不知道经过这一年的发展,模型对于物理规律的学习如何了,有没有一些变化?

我觉得这件事还是看到底怎么去看的对就比如说在 Google 的 DeepMind 它有一个 Fetix IQ 的一个榜单在那个榜单上 Magic One 系列的模型是断档的高就是那个分数大概是五六十分的样子然后第二名可能就已经不到三十分了还是三十分出头那就 almost 是第二名的两倍

对那如果用 Google 这个 Benchmark 或者用它的评测方式来看的话那显然自回归架构的视频生成模型已经能够更好地去理解物理规律但这就是我说的当我们讨论物理规律当我们在讨论一个客观事物的时候我觉得我们作为人类很难达到非常客观的结果因为我们看到一个生成结果的时候最终还是用自己的眼睛跟审美去主观品牌

所以我还是会觉得这个方向上来讲就是现阶段连可能怎么样真正尽可能客观的去评测它的方式可能都没有统一或者说整个业界还没有形成非常大的共识包括也有一些人现在更多的在做一些什么世界模型这样的事情包括像不管是在自动驾驶在巨神智能领域应该也都有分别对应的场景相关的模型探索

我觉得这个事应该还在非常早期的阶段包括世界模型这个概念真的非常有意思我觉得就是谁都可以 claim 自己的世界模型然后甚至我认为某种意义上 OpenAI 所追求的 AGI 最终应该是一个多模统一的世界模型这可能就是所谓的 GPT-AGI 版本可能他们也会 claim 这就是个世界模型大家都在尝试就是在用不同的方式

那你对世界模型有没有自己的定义和理解也没有吧已经原来在 VAS 的时候我们就吹风做 3D 生成了对我觉得 3D 生成也可以讲自己是世界模型毕竟我们生活在一个 3D 的世界我觉得世界模型本质上还是一个非常开放的东西因为世界就是一个如此庞大又如此虚的东西就是没有任何东西能够去等价整个世界但很多东西都可以具备世界的一部分特征对

今年其实 agent 的这个概念特别火那在多模态的这个领域有没有跟 agent 相结合的一些你们在探索的事情可以跟大家分享呢就是我不知道别人怎么理解 agent 我自己去理解这件事它只是个代称吧就是 agent 的泛指的东西就是一个努力方向就是我理解就是往两头努力然后一头是让大家付出更少的精力降低门槛

降低大家的成本然后另外一头就是让大家在最终收获的结果成果上拿到更完整更丰富更好的东西一个极致的端到端的东西比如说我就随便说一句话你可以理解为你有一个万能秘书工作力特别强你就把工作交给他然后他就什么全东西全干了我觉得这可能就是比较通俗意义上大家对 agent 的一个想象对然后对我们来说就是

可能都我们不用特别去想自己是不是 agent 活是不是要做 agent 那对我们来说本身你既然做市面生产就是你要知道你交付给世界的是一个新的能力那大概率是一个生产力对吧那当你在做生产力的时候本身努力的基础方向就是让大家可以降温增强对所以这件事是不会发生改变的然后我觉得 agent 这个概念开始活

还是比较得意于之前 minus 他们在这个概念上通用 agent 这个概念上定义的比较好然后他们展现出来的 case 又比较让大家有那种科幻感让更多的可能之前对技术不够了解的人充分的意识到现在其实通过最先进的这个 AI 模型的技术其实已经让 AI 能够帮助你交付这么多的事儿

所以接下来也会有越来越多的垂直场景的 agent 去诞生然后在我看来不管是做 agent 的公司跟我们这样从模型出发去切场景的公司可能本质上终点是一样就是你终点想做的事都是让大家降本增效非常简单的让人人都可以拍大片人人都可以做出最好的内容无非就是看过程是怎么样如果我觉得要形容的话就是好像 agent 的公司更从终点往前推

对他们可能更倾向于我从一开始我的交互就一定要做成足够省事你给我打一段话简单的表达一下你的想法然后最后就拿到一个很完整的东西因为包括 minus 其实前段时间 minus 刚发了自己的视频生成的功能他就是这样我也不管你中间这个过程里用户还自己要怎么想脚本自己怎么想分镜自己怎么想配乐我 agent 的全给你干了不管他好不好

我觉得这是两种不一样的做事的哲学就是 agent 类产品在各种垂类上面的探索我倾向于是更适合所谓的常见用户然后先接触到这样的概念然后先让他们当

当玩具一样去试用先存这么个念想而对我们这种从模型能力出发先做工具的公司来说呢我们可能总是在追求我们每拿出一个新东西它就要比较扎实地去解决现存的一些问题我觉得这是两种完全不一样的哲学吧

你们会在理解策会下一些功夫吗比方说我听到一句话你不能创造你不理解的事情所以如果我们做视频生成的话那理解是不是同样的重要还是你觉得其实只做生成也可以我觉得理解是很重要的但是我觉得可能事还是分阶段

你确实生成不了你不能理解的东西对吧但是你至少先把你能理解的东西先都生成好生成的足够好我觉得它已经能解决非常多的问题了那再下一步可能才是如何去探索你的位置它理解的那个域可以变得更广

然后包括我觉得至少在训练这一层就是提高模型的理解能力其实还是比较依赖于在训练的时候你怎么给不同的视频数据做 caption 你到底要怎么做标注那数以亿计的视频做标注的时候又很难靠人工那这个时候大家会发现那我肯定是需要 VLM 需要这种具备多模力界能力的模型给它做 caption

对那这块我们比较开心的事是反正有其他人也在做对我们可以用大家的模型对吧又或者是开源模型在这方面的能力其实也在持续增强对那基于开源模型自己再去微调一个更适合视频标注这个场景的模型我觉得这件事我们肯定

在短期内都是可以尝试都是可以做的那说拉长线来看不管是比如说做视频生成的公司是不是应该有一个自己的 VLM 或者说是不是应该探索理解跟生成统一我觉得这件事肯定也是一个值得探索的方向但我觉得对创业公司来说阶段性的专注还是比较重要还想问一个生活问题

因为在我的认知当中其实大厂做视频生成这件事比我们创业公司优势的多比方说以字节为例抖音天然有这么多的内容这么多的用户这么多的数据可供他们使用包括他们的人也是更多的所以对于像 AI 这样的创业公司来说你觉得我们的竞争优势以及相对的一些壁垒在哪里

我觉得就第一个其实还是看大家的之间的关系到底是什么还是要先理清楚比如说这个就同向为进但是就相向为正我觉得现在我们跟大家的关系可能更还像是近就是大家更算是一起探索这个方向上的就同行者没有很强的恶性竞争关系

对但是这一切是得益于其实我们一开始做出了一个差异化的在模型技术路线上的判断所以从天然就有一些跟大家不一样的场景和这个尝试的方向对但你说具体说比如说像可怜吉梦软位就是这些产品它彼此之间在我看来那确实还是同质化竞争的属性至少在短时间内会比较强对但拉长线来看我觉得大家的目标有多不一样

就是比较坦诚的来说大家也知道吉梦是直接跳动做的东西然后吉梦现在的掌管人是张楠对吧这是一个做出抖音的公司让一个做出了抖音的人去做这么一摊东西然后对从人性的角度上来讲他们不管做什么东西都会试图再做出下一个抖音

因为做其他的东西对这个公司来说没有意义对张岚个人来说也没有意义对吧就是他自己也不差在做出一个一亿美金十亿美金的东西他只有动力他的 passion 都是在于如何再去超越自己对吧如果我又干出了一个跟抖音一样大甚至更大的内容平台这个外界就不会再觉得一切都是张一鸣牛逼了

这是一个很朴实的思考方式而对快手来说我们看到他现在做的事情的一些倾向性包括掌握到一些信息我觉得他们做这个事应该更多是有两个因素在牵引他们一个是快手首先在短视频这个方向上他显然

没有办法再去讲一个叙事或者是没有一个抓手在如何超越抖音对吧打不赢这场仗这场仗你可能就是老二老三未来还有可能是老四老五对那你一定要给公司找第二曲线你需要在资本市场讲不同的故事然后另外一个点其实是说

我觉得又快速这样一个故事没那么性感资本市场对它又没有那么宽容的公司来说做业务对利润的追求又会比较高所以我觉得相当长的时间里快速对客链这摊业务应该是还是会比较收着去做就不会像字节那样可能出非常激进的补贴策略跟推广投资策略所以我觉得大家的打法具体也不一样

当然我们也可以看到同样是创业公司其实还有一些更差异化的打法国内比较典型的是 Pixworth 然后国外比较典型的是 PikaPika 我听到的消息是预训练停了

就是已经那你可以理解为它已经正式跟模型公司已经没关系了 Pixworks 应该还没停但 Pixworks 现在的重点很明显放在了 C 端的模板生态上也就是大量的通过去微调出就各种各样的生成特定模板的视频模型对然后来帮助大家搞出各种各样好玩的的一件特效一件模板

对然后这也是一个很典型的就是有差异化的产品项目打法就是他不再去试图赚可灵们的钱对让他去试图去赚一些原本可能很多的套客产品在做的事比如说像 Reminade 搞各种图片特效图片玩法现在 PaySource 可能完全在视频的领域在复刻这件事情这也是一套打法吧对我觉得对我们来说

不选这样打法的很核心的原因有两个吧一个是我们既然是不一样的技术路线那我们明明是还有很多东西可以去探索我觉得要先把它扎实地探索完然后另外一个就是完全从做产品的角度上来讲我觉得一个公司的第一曲线应该是一个

本身相对能够复利或者是有规模效应至少应该是一个有阶段性你努力把它做完之后在接下来的一段时间里面你可以有一定的溢价权溢价能力去让你有利润空间这么一摊事但是现在我们看到的纯木板类的玩法其实是一个很典型的流量生物

就是搞去各个地区调研各种各样的人群然后用做出大量的有可能吸引他们的视频版然后再配上可能在后客投放跟商业转化上找到最优解像 23 年的妙佳相机对优化你的流量效率但它不太会有 6 寸人上是个玩具我觉得这样的东西它会做得比较苦吧就是你可能

短时间内如果你能够跑通你可以把量起的比较高因为这个事儿本来就是个买量的事儿你买量能买通了你买更大量就好了对但它的问题就在于任何一个时间点你停止买量然后你的产品可能什么也剩不下来然后或者是任何时间点你都面临的风险是

每多一家跟你统治化的竞争对手然后你做这个事的难度就会有大一分对甚至不排除像吉蒙这样的这张产品是完全可以很免费的把你的付费模板全部免费的提供他只是希望大家能够来用而吉蒙追求的可能是更丰富的内容供给让他能够更好的更有机会比较早的做出内容社区甚至是比较大的那种平台

像 DeepSick 火了之后其实它对于之前的六小龙是一个黑天鹅的世界新的这样的模型和产品出现之后就把上一代的技术覆盖掉了就像刚刚你说的流量逻辑一样那你觉得在视频领域会有类似的事情出现或它的概率高吗我觉得还是比较高的

这里面底层的思考其实甚至跟 DeepSync 都没有关系这里面底层思考是在于如果你的产品本身不具备规模效应

那你就永远只是案板上的鱼肉对就只是看宅里的屠夫什么时候落刀而已只是时间问题就是看还何时发生因为现在我们能够看到的比较成规模的互联网平台都是有比较好的规模效应在里面的规模效应其实有很多种体现方式对吧双边网络是一种

然后最极致的是像社交产品因为人的关系链天然是网络的所以它会有网络效应网络效应是规模效应最极致的一种所以我会觉得现在 AI 原生的这些产品比较大的一个苦恼就是在于它在传统意义的产品形态上好像不具备比较强的规模效应这里面不具备规模效应的核心原因是传统互联网产品

它往往是有一个供和需的关系然后它的供给侧跟需求侧往往是两个群体然后这两个群体都有规模效应然后现在你发现 AI 产品它更像是个工具就是在它的供给这一头是模型能力你调用一次它的 API 跟调用一次其实这个模型能力本身是不会有变化

就无法 benefit 到这个模型的自我进化过程当中就是不管是用户整体的就是大家的行为数据还是说单一用户比如说我使用一个产品用了足够久之后它沉淀多了我个性化的交互跟数据之后它让我个人的交互线变好了到目前为止我觉得所有的 AI 产品似乎都没有做到然后它同时还有

它又是很强的工具属性它不具备传统互联网平台的特征我最近很爱跟大家举的例子就是很多时候做 AI 产品你可以理解为大家都只是在做一个手电筒 APP

然后你可能在某个时间点你是世界上最便宜但又最亮的手电筒或者是最有名的手电筒然后你可能创造了一个很高的用户量但如果在某个时间点出现了一个比你更亮的手电筒用户就会毫无迁移成本的移过去包括在 iPhone 上最终那些手电筒应用是什么时候彻底消亡的是苹果自己做的手电筒

对对对所以我觉得这件事只要大家没把新时代的规模效应或者是想方设法的让新的 AI 产品具备了以前传统的一些规模效应只要这件事没发生我觉得就是所有的格局都是暂时的随时都有可能发生颠覆所以会有这样的规模效应的机会点吗我觉得搞技术的人都跟我说有

就是总有一天有办法能够让每个人的具体的使用数据行为数据就是能够更好的再回馈到整个模型训练的过程当中去然后另外一个我还想强调一点是现在还有一个现象是说就是我们刚才用手电筒这个例子比喻之后我也提到了就是还有一种可能性是说你是个最有名的手电筒就是你是一个强品牌对这里面我觉得

比较典型的例子是在相当长的时间里面其实 OpenAI 的模型没有比 Cloud 强多少甚至是不是更强都不好说尤其是在什么中文的文笔跟表达上往往 Cloud 还更好但是 CHIGBT 这款应用在 C 端上的用户量跟收入量级应该比 Cloud 它本身的 C 端产品的用户量跟收入都要大了可能

两个零这个量级我觉得这本质上不是能力差距就是品牌差异开 GP 最早的是它作为这个品类最早的这个产品它很早的占据了这个品类的这个心智吧我觉得大家对一个品类可能顶多就能只能顶多就记住一两个产品就当你想到你要用 AI 的时候你就往往就只能想到就那么一个

然后像包括像 DeepSeek 这一波就比如说你说现阶段此时此刻你觉得 DeepSeek 的它为什么还有这么大量因为你想想元宝我们之前开玩笑讲就 DeepSeek 这波笑到最后的赢家是同性是吧因为元宝终于在恰当的时候它出现了它推广了它接了 DeepSeek 然后元宝的产品体验显然做的

是大于等于 DeepSeek 我只能这么说稳定性上也更好但元宝的量还是不如 DeepSeek 大是因为大多数人只知道 DeepSeek 就是品牌心智品牌传播一旦做得比较好一旦发生过了一旦大家的心里有这么个符号我觉得这也是很大的资产就是品牌一定是最有价值的无形资产之一大家不怎么谈它是因为在逻辑上很难推导然后很难量化它没有那么具象不够客观但它就是存在

它有的时候像是房间里的大项目那此外你们开源了 Magic One 去做技术品牌推广对 我觉得品牌是一个如果真正做成了之后会有很大价值的物品资产甚至我觉得现在我们看到海外像 OneSurf 比如被 OpenAI 收购了很多东西我觉得你说对 OpenAI 来说有什么是他们自己做不了的吗

对吧哪怕你说国外的创业生态更好大家有骑士精神大家更愿意去收购好的团队看中里面的人才也没必要用一个那么高的溢价去收购我觉得本质上还是大家同时也看到了品牌的价值就是

我觉得有一件事可以比较好的让大家更好去理解为什么平台有价值是因为你知道今天所有繁荣的互联网生态它所有的互联网的伟大商业模式都建立在注意力经济上也就是我们东偷西摸搞出你的碎片化时间让你看到的那么一丁点广告是有可能影响到你的决策的那

那只要影响你的决策就能影响你的行为影响你的行为就能产生商业价值而品牌这个东西它本质上是心智的一部分它是根植在一部分人的心中能持续影响他的决策所以从这个角度上来讲大家应该都能理解品牌本身就是一个在商业上非常有能量的东西但是我觉得做消费品的人应该要更懂这件事我甚至觉得很多做消费品的人如果能花足够多的时间来研究这波 AI

然后他们去做大量的 agent 的产品我觉得他们应该还挺容易做出点水花的因为他们本身对品牌对传播的理解可能比传统的 AI 和互联网从业者都要更深所以你们公司会招快消品类出身的品牌经理或 marketing manager 吗我觉得如果能招到足够好的人的话肯定对公司是会有帮助的然后另外就是

自己也要想办法成为这样的人或者具备这样的能力尤其是当你意识到这个东西产生价值比较核心或者足够核心的时候那最后说说今年的期望吧 25 年你觉得视频生成这个赛道会有发生什么不一样的可期的变化吗

我觉得就是京东的 slogan 吧更好更便宜对对对就是我之前还挺喜欢京东原来那个 slogan 叫多快好省对因为我一直讲就是很多人老是问什么用户需求用户需求我说就是用户需求你要真讲人本质的那些东西我觉得多快好省够了就是什么行业什么领域都是多快好省就无非很多时候只是多快好省跟不同的场景碰撞

碰撞成了一个特定的样子当然京东也很有意思嘛就是京东今年也很适时的改成了又好又便宜多更快他已经不说了

多更快不说了不是因为不重要我觉得是因为京东应该已经比较充分地意识到了他们自己在多更快上已经有了足够强的品牌性质现在不会有人觉得在京东这样一个大平台上买不到什么东西或者觉得京东物流不够快大家都觉得京东物流是最快的所以他接下来需要更 focus 更有目的性地去强调他的性质就是更好更便宜尤其是便宜吧

我甚至觉得便宜才是京东想强调的东西讲的更好的意思就是怕大家误以为如果京东的 slogan 就改成来京东最便宜大家的本能反应就会觉得它是不是用降低质量作为的 trade off 来换来的便宜所以我直接把更好更便宜一起放出来让大家去取消这样的担忧所以再说回来了我觉得就是在视频生存上我觉得 2025 年一定会发生的事情是更好更便宜

对然后其他的事情我觉得或多或少涉及到一些商业机密或者是涉及到了一些就是我们自己现在还没有充分的能力去判断的部分所以现在还是很难给大家一个缺陷的小弟感谢 chris 今天还是非常有收获的 ok 好也谢谢大家感谢 chris 非常精彩

你应该赢我

i know iton the front pagesmilingcause it's so greatand do it