欢迎收听十字路口我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会十字路口是乔布斯对苹果公司的一个比喻形容它站在科技与人文的十字路口伟大的产品往往诞生在这里 AI 正在给各行各业带来改变我们寻找访谈和凝聚 AI 时代的积极行动者和他们一起探索和拥抱新变化新的可能性
我是主播科技杨远诚联合创办了街旁新事项和唐岛我相信科技尤其是 AI 会在未来十年彻底改变社会赋能人类欢迎大家找我聊天碰撞想法链接下一个可能性我是主播荣慧目前在一家专注科技投资的风险投资机构工作之前在第一财经周刊担任驻硅谷记者
本周的十字路口我们邀请到了 Luma AI 的产品经理 BarkleyLuma AI 是全球领先的 AI 视频模型公司他们前后融了 1.6 亿美金差不多超过 10 亿人民币所以他们一举一动几乎都是受到全行业的瞩目也被誉为是 OpenAI 的 Sora 头号劲敌之一它同时令我们感到意外的是一个融了快 10 亿人民币的公司
竟然只有一位产品经理我们也很开心能够请到巴克利这唯一的一位产品经理来到十字路口本周呢同样是十字路口的二十文专栏我们给巴克利准备了二十个启发式的问题希望可以和巴克利一起来帮助大家在信息繁杂的当下建立起对 AI 视频模型这个行业最新的变化最新的进展形成一个清晰而系统性的认知那我们首先有请巴克利来介绍一下自己吧感谢 Cody 和荣辉的邀请
我也是之前在听了很多期的十字路口很荣幸能够来上这个播客聊一聊在 AI 视频里面的一些进展和我的观察我叫 Barkley 然后中文名叫戴高乐然后在 Luma 做视频的视频模型层的 APM 主要是负责的是数据和
模型评测的这个工作然后我自己是之前在本科在美国毕业以后在 TikTok 做产品经理然后当时是在
TikTok 的特效组在特效组的时候接触到视频生成和图像生成的这个领域后来就一直在做一些结合这种 CV 技术以及 Diffusion 相关的技术在 AI 特效上的应用在 2023 年的 6 月份的时候加入 Luma 当时 Luma 还是做一个 3D 生成的公司我们当时在做的是 3D 重建和 3D 生成然后大概在 23 年底的时候开始转向去做视频
然后我也是跟着公司从原来做 3D 方向的这些数据和一些功能转向做视频的最开始是做评测然后到逐渐去 handle 数据和 funtuning 这方面的工作这是大概我一个简单的个人介绍
OK 好那我们就开始我们的 20 个问题第一个问题是我们录播客的时候正好是 SORA 发布整整一周年但其实好像过了快 5 年 8 年甚至 10 年那么久但是想想去年的此刻 SORA 刚发布的时候那个是中国的大年初二初三
然后那天这个半夜醒来一摸手机感觉这个朋友圈都在刷屏很震惊然后发布这一年之后呢感觉这个世界是日新月异的在变化尤其在 AI 模型的这个领域所以第一个问题是想问一下巴克里就你在一线感觉 Sora 发布一周年之后在 AI 领域有没有出现视频模型的范式上的创新
我觉得看怎么定义这个范式的创新在模型层和它的架构上应该是没有什么太大变化的因为 SORA 发布的这个时间点它其实验证的是视频模型的 DIT 架构就是 Diffusion Transformer 这个架构取代了原来纯靠 UNET 加 Diffusion 相关的这个视频的架构然后让整个视频的生成
以及这个模型的质量有一个巨大的飞跃在此之后的我们这些视频模型的基本上都是 follow 的这样一个 DIT 的路线但是在产品上以及在这些功能上面其实我觉得出现了非常多的可能算不上是特别重要的饭食创新但是它可能是一些逐步的迭代比如说对于
物理世界的理解比如说对于 consistency 对于一致性保持的这样的一些研究和相关的在产品上体现的进展以及对于人物的生成和动作的生成它其实会出现一个逐步迭代然后不断地有新的模型架构的 improvement 和技术层面的一些更新能够带来的改变所以我觉得说是范式创新但可能也不完全是一个 paradigm shift 那样的改变
那第二个问题哈就是大家也会很好奇 Luma AILuma AI 融了那么多钱那你们最近这几个月主要在做一些什么呀这个有
看看方便透露到什么程度我们过去的这个月刚发布我们的新一代的 Ray2 的模型这个 Ray2 我们最开始发的是文生视频然后逐步的也在上周发布了图生视频在社区和在 Creator Community 的反馈都是很好的因为它一方面是我们觉得它准确地理解了很多物理世界的规律
这个可能在过去的一些模型上不能体现的一些物理规律比如说一个小球从一个阶梯上滚下来这样它的这个对于精准的物理规律的模拟另外一个是我们在一些垂类的领域比如说在动漫上面会做了一些微调和在他们的数据上的处理然后能够让我们的模型在这些垂直的领域也能表现得很好
而不像过去是一个非常 general 在生成这种真实性的视频上能够做得很好的模型我们在此之上会在做很多的研究性的工作因为我们对自己的定位是更像一个 research lab
那这个 research lab 还是以研究为主的所以我们会比如说在实时的视频的生成包括在视频的理解的模型上面会做很多前沿性的研究最终的目的也是想让这个视频模型更好的去理解我们现在的物理世界的规律尽管说我们觉得现在的 ray2 模型已经做得很好了但是我们看到说 scaling load 在这个视频模型上仍然是有效的那我们还是可以把这个去推到下一个的新的
其实我会比较好奇就是你们做自己的视频模型然后也会关注竞品们的视频模型当每次有新模型出现的时候你们用什么样的方式去评估说这个模型它到底做的怎么样呢因为感觉这个它不太像语言模型就是会有很多的这个标准 benchmark 标准答案比如解数学题解编程题在视频模型领域怎么去评估一个模型做出来的就是好的这个 benchmark 是一些什么呀
我觉得现在市面上确实有公开的 benchmark 不多对于我们来说我们会自己去定义一些我们通过用户访谈通过对于 creator community 的了解觉得说合理的一些指标比如说其中的一个指标可能是美学就 asetics 那它的审美当然这个审美可能是因人而异的那这种情况下如果这个视频的视频模型它有 API 的话我们会批量的去跑一批视频然后
依赖于一个全球的 cross-source 的这样一个 network 然后去做这个视频的评测然后来判断说在美学上可能哪个更好另外一些是比如对真实物理世界的规律这个其实 Google 有一个 benchmark 我不记得具体的名字了但是它是
选用了一批他们觉得能够代表这个物理世界运行规律的 prompt 然后看一看不同的模型在这个在这一批 prompt 上面跑的效果所以我们有时候也会 customize 一批专门的 prompt 来测试比如说模型在对于真实世界模拟上的效果除此之外的话可能就还有对于一致性对于
就是它多好地能够 follow 大家的 instruction 这样的一些标准就是我们确实非常的主观但是是我们根据 creator 的调研根据我们对这个视频模型的这些使用场景的了解去定下的一些影判标准
那这就有一个非常直接简单的问题哈那你现在觉得这个全世界谁最强哈哈啊我觉得客观来讲我我们试过的效果上 vo2 啊现在应该是最强的啊就 google 的这个模型当然所有的模型我觉得都有一定程度的 trade off 比如说很多时候在 motion 和呃
那个 consistency 上面会有一些 tradeoff 比如说如果你这个模型的动作幅度很大的话那它的一致性相对来说就更难保持如果它的这个美学比较好的话那它的多样性可能比较难以保持会有这样的 tradeoff 然后包括 influence 上面它的这个模型的大小一个模型它效果越好但它有的可能 influence 的时间就会比较长对于 V2 来说我们觉得它的效果从纯生成的这些视频的 clip 上面可能是
我们目前觉得说行业里大家认为最好的但是可能他的生存的时间又会比较长那我们的第五个问题啊就是请巴克利来帮大家盘点一下吧刚才只是说了鲁马 AI 你们自己在做什么那大家应该也很想知道主要的玩家都在做什么比如说这个在硅谷的除了 Sora 应该还有 Pika 还有 Oneway 还有 Google DeepMind
他们做的 VO2 然后在国内有海螺 可灵 V2 还有 Pixvers 其实还蛮多的这个竞争很热闹所以可不可以给大家讲一讲他们分别都在干嘛好呀我觉得我可能说的不是特别准确所以如果说错的话那就不要怪我这是我的个人的理解首先我们觉得比较偏大厂
我们已经把 OpenAI 视为一个大厂了就是海外的这边的 Dmine 和 OpenAIDmine 的话就是一直在推进他们的 VIO 的这个模型我觉得 Dmine 还是比较广的在结合他们的各种多模态的能力像比如说他们最近挖了那个 OpenAI Sora 原来的那个 Project Lead 的 Tim Brooks 去那边做所谓的世界也是世界模型的这个概念然后可能他们会在想在
在把 BO2 这个视频模型推到更极致的同时也会考虑说怎么去做多么太的输入和输出 OpenAI 其实在发布 Sora 以后就是在发布了 Sora 的真实的产品以后大家的对它的评价是感觉可能感觉比较大垮对大家的就是有一个这个一气落空的这个感觉但据我了解就是 Sora 还是在不断地去迭代他们的新一代的模型的
以及结合 OpenAI 的本来在多模态视觉理解上的能力应该也是更想往一个更加偏 world model 更加偏 AGI 的这个方向去走这是美国的两个大厂然后 Runway 的话更多可能 focus 在影视领域就是他们会做很多的专业的剪辑包括跟影视的一些 studio 合作想在影视领域方面做到最好的视频生成的效果我们目前的定位可能
更加偏 Prosumer 就是我们不一定想去直接去做最高端的这些影视或者是跟这些大的公司合作但可能更多的是在找一些中小型的这些个人独立的视频制作者然后我们对 Prosumer 的定义是他们的用我们的产品能够省下来的钱能够远超于我们现在产品的这个 Substitution Price
然后我们认为说这对他们来说是一个非常强的 retention level 他们会愿意为此持续的付费 Pika 跟我们的区别可能是他们更 focus 在 consumer 端因为 Pika 现在在做很多的 AI 的特效就通过视频去创作这样的爆款很多这些爆款更多是 focus 在小白用户就可能之前是拿 AI 作为娱乐的主要的用途去圈起这样的一些 trend 然后通过这个来打入消费者的市场然后
这些感觉是我对美国的这些玩家的理解然后国内的我可能信息了解的更少了我的 vibe 的感觉是觉得海罗是一个更偏这种争取全球的这个增长的量级的这个目标
感觉他们在全球的用户量级是很大的但是可能不一定那么 focus 在盈利的这个方面还是想主要去探索一些不同的国家不同的地区然后大家在一个偏西端的场景下的使用可能是什么样的可林我的感觉是他们会更 focus 在商业化的指标就是他们会想说怎么把模型做到更好的同时能够保证这个业务是有一个正向的收入和增长
然后他们会更 care 说在一些关键的国家和地区商业化的收入以及他们每一个这个视频推理生成的这个毛利是什么样的 Pixverse 感觉更偏像 Pika 在美国的定位就更加做特效和比较 C 端消费的场景其他的像 Vidu 和包括腾讯的会员其实我了解的不多所以我其实不太知道他们的具体的定位和方向凭着就是
简单的感觉的话可能混元更像是就是混元是一个开源的模型所以我感觉更多他们是为了构建自己的这种生态 V2 可能也还是在偏研究和就是 Pursuant 的这样一个定位那第六个问题就是你自己一线的感受你觉得在硅谷硅谷对国内的这些视频模型也好应用也好
大家都是怎么样聊他们的呀就是一个整体的一个态度会是什么样子的以及在 DeepSick 前后会不会有一个不一样我觉得分两块吧我觉得一个是从业者然后从业者上我们其实对国内的视频模型公司包括我特别是负责模型评测的时候其实都会 cover 到所以我们对国内视频公司的效果其实是保持持续的关注和了解的
就确实我觉得在视频模型这一块很多国内公司做的很强其实过去一年我们发现这个趋势就是在大体上都符合一个规律就是谁最后发布的模型然后那个模型的效果可能是最好的因为 naturally 这个模型 train 了更久的时间然后
也打磨的更久看过更多的数据做了很多的优化然后也积累了之前模型的一些特点然后但我觉得另一方面是在硅谷的这些创作者们不一定是在硅谷但就 in general 在美国的这些创作者们
我觉得可能在之前对于国内的这些视频模型没有太多的了解他们可能惯性上会更多的去使用美国这些本土的像 Runway 像我们包括像 Sora 出来之后还是吸引了很多艺术家去用然后这些 creators 他们在
之前可能也只是在推特上面看到了一些关于可灵关于海罗的这些信息然后有的这些比较高端的 creditor 他们可能尝试去用了嗯
但我感觉是 DeepSeek 以后出圈了之后会有很多的这种 Twitter 的 post 就说大家在关注 DeepSeek 要关注一下就是中国的这些视频模型公司然后看说他们的效果其实也都挺好的然后就会有各种就是自来水去宣传可林和海螺的效果所以也会可能看到说
当然这个同样也是因为可灵和海罗都在特别是可灵吧在 DeepSeek 发布的这段时间也持续的推出了新的模型的版本然后会吸引大家更多的关注那我们第七个问题哈就其实刚才在我们聊到各个公司的时候我听下来好像是有两个大的路线一个路线是比较偏用户端的另外一个路线是比较偏研究端的嗯
那在你看来怎么去理解这些不同的路线的选择以及选完路线之后都是谁选了什么路线然后选完之后大家这个工作重心会出现明显的不一样吗我觉得其实这些差距在一开始特别是在现在这个阶段我觉得都不明显但我觉得这个很取决于创始人他的愿景和想法是什么像我们是
一直在坚定的说要去追求一个更大的一个视觉理解的一个就是世界模型然后我们认为说这是通向 AGI 不可少的一部分所以我们在研究上不会专注于只是在视频生成本身而是同时会做很多视觉理解的模型的研究然后可能也会做一些就是在前沿领域在成功的概率上
可能看起来目前不大但是我们觉得如果它有概率能成功的话会是一个新的突破的这样一些方向
那我觉得这个是需要很大的一个是愿景的支撑另一个是持续的投入的因为对于 research 来说一个很典型的特点就是你永远不知道 research 能够产出什么东西很有可能十个 research 里面九个想法都是 failed 的就是最后发现是不可行的但如果有一个可行的话那 scale up 以后你会起到出其不意的效果我觉得就是 Sora 的一个分析创新就是这样的嗯
但是这个确实是需要一定的成本投入以及公司愿意长期去做这个事情所以我觉得我们还是更把自己定为一个 research lab 的属性的情况下这一块对于我们的投入是始终持续坚持在做的
然后我觉得对于其他家的话像 Dmine 的像 OpenAI 他们这些大玩家也一直都是在持续的想去追求 AGI 的然后他们也会认为说多么泰包括视频的理解和视频的生成是通向 AGI 的一块关键的钥匙
那他们也会去追求这些不同的模型之间的各种不同的模型持续的研究上的迭代吧然后 Runway 之前也是提出过这个视频世界模型的概念然后我觉得他们可能也是有一部分的 research 会 focus 在这个方向
但在一些更偏应用层的公司当然也还是会继续迭代他们的模型啊但我觉得可能会更 focus 在视频生成本身就是这个视频生成以后怎么应用如何去符合现在的消费的场景啊以及他未来可能能够创造出一些什么样的新的形态啊我觉得啊
这两种我觉得也不算是一个特别明显的路径的选择因为现在我们觉得在视频模型可能还在一个非常早期甚至没有到语言模型的 GPT-3 的阶段的时候这些路径的选择都不是特别的明晰但我觉得可能在接下来几年这些差距会逐渐地显现出来这里我其实想补充一个问题你刚刚提到你们公司可能相对来说比较偏 research 的
定位跟方向就是你方不方便透露就是你们公司会怎么来看做 research 的投入跟作为一个公司商业化的平衡要怎么处理呢因为其实比如说 OpenAI 它之前有很长时间被讨论的就是它要
要平衡这个问题的这个难点然后它前期的这些巨额的投入另外是觉得做视频模型或者是做视频应用的可能还是视频模型吧的这一类的公司它遇到的这个平衡的问题会和 OpenAI 他们还是做文字模型吧是一个类似的路径吗有没有可能就是有不一样的路我先回答你第一个问题就是在这个投入
Research 和商业化的这个角色上我觉得其实我们是渐渐更站在投入 Research 那边的就商业化对我们来说确实是一个相对重要但不是那么重要的指标然后我们确实现在更多靠的是融资的钱在持续的进行下一代 Research 但是同时也保证说我们这个在 Inference 包括在 Research 上的 Cost 是相对可控的
我觉得这一点上我会感觉在美国的这些 VC 相对还是给予很多的长期主义的这种信任就会说投入这个钱然后在我们甚至到最新一轮的融资的时候其实也没有明确的对我们的商业化的数据做出任何的要求但更多的是想看我们怎么去实现在视觉领域的不管是 AGI 还是这样一个世界模型的定义这个方向是什么样的
所以我觉得在这点上可能是本来是我们也是一直是一个 research lab 的定义的方向然后也是在这边硅谷的 VC 对我们的了解然后基于我们的这样一个信任觉得做视频模型有没有可能会跟就是做文字模型它的这个发展的策略有可能是不一样的
总体上我们相信 scaling law 是会一样的也就是我们过去两年在文字领域看到的同样的发展会在视频模型上重演也就是大家不断去 scale 这个模型直到 scale 到这个模型有一定的基础的通用能力之后
甚至可能会做到比现在的文字模型的这个 GPT-4 的这个 base model 会要大很多的时候会去发展相应的推理能力这个就更多的是对真实世界的理解以及推理模拟这个真实世界的客观规律这些我觉得跟文字模型的发展不会有太大的差别因为大家都是基于 transformer 这条架构然后 transformer 架构的最大的核心就是不断地往上 scale 数据然后期待模型涌现出来的这个新的能力
但我觉得视频模型跟语言模型相对不一样的点是对于视频模型来说它的首先这个数据的量级很大但是它的 noise 也很多因为一张图片甚至是一个视频里它可能包含的这个信息点不是所有的东西都是有用的但是很多时候你把这些数据喂给模型的时候模型会 take 他们的全部然后怎么让模型去理解这些之间的相互关系和规律这个我觉得是比
纯语言模型去 scale up 更多的数据会更难的一件事情也就是怎么让模型去理解这些数据所以我觉得在具体的这种工程上会是一个跟语言模型完全不太一样的这个训练模式那我们的第八个问题就是网上也有很多人会提到通向 AGI 的必要路径有可能并不是文本而是视觉那你怎么看这个问题嗯
我觉得在硅谷这是一个在不同的 AI research community 之间的一个 debate 就大家分为语言模型的阵营和所谓世界模型和世界模型的阵营比如说在语言模型这一块其实像 Dario Amorde 就是 Anthropic 的 CEO 他们会更坚定地相信只要继续 scale up 语言模型语言模型可以通过在所有的人类的
语言资料库里理解这个世界的相互关系那我们就不必去训练一个视觉的模型所以 Anthropic 也一直没有去做多模态的不管是生成还是理解方面的模型但另一方面就是像
最早是杨玉坤就是 META 的首席科学家然后还有李飞飞他们更多相信说人类去学习设世界规律的一开始是通过视觉模型来实现的所以就在视觉上的反馈是一个非常直观的过程所以他们会觉得那视觉模型是必不可少的一部分
然后我其实之前在 OpenAI 去年的 Death Day 上在一个 After Hour 上就意外地看到了 SAM Ultimate
然后我当时就觉得我就想看一下说 OpenAI 在这个上面的态度是什么样的我就冲上去问了 Sam 一个问题就说我看到 Sora 好像因为当时是去年的 10 月份然后那时候 Sora 一直没有发布然后我就说好像一直没有看到 Sora 的结果出来你们这个还是一个你们 focus 在的方向吗你觉得视频的生成是对 AGI 的一个必经之路吗然后
他就反问了我一个问题说你是怎么学习这个世界的客观规律的你会去看这个世界来学吗我说是呀他说那同样的道理我们不会指望说一个只会读书的一个模型能够去学到这个世界上所有的规律所以我们肯定会去做视觉理解的
然后当时他是这样来答复我的然后我就感觉说虽然可能不一定在 SORA 这一个方向就是视频生成的方向上投入很多但感觉他们也会更多往视觉和多模态的这个方向上去做研究方面的投入
刚才正好聊到李飞飞哈其实我们的第九个问题就是想请你给大家科普一下李飞飞的世界模型到底是什么呀呃我觉得可能不同的人的定义不一样吧呃所以我我理解的世界模型可能源自于包括我看到李飞飞的演讲还有包括杨立坤他之前的一些呃公开的呃演讲的信息啊
但我觉得这个世界模型在硅谷的理解有两块一块是对这个世界的理解所有世界的物理规律比如说我现在如果手里举着一个杯子然后这个杯子当我松手的时候落下这个杯子在地上会摔成什么样的形状重力的影响然后地面的摩擦力的影响不同材质的影响对它是什么样的那
视觉模型是否可以理解到这个世界真实会发生的物理规律这是第一层然后第二层是在理解了之后它是否可以对未来还未发生的事情进行一个模拟比如说那我就给它一张这个就更多是生成方面比如说我给它一张我手拿着杯子的照片然后我跟它说请你现在模拟说这个手松开杯子掉下然后这个会发生什么
它是否能够精准的理解所以我们会觉得对于这个世界模型来说对这个世界客观规律对物理规律对所有视觉的信息的一个符合物理规律的理解和生成是一枚硬币的正反面那么当你做到一个世界模型的时候那么它就可以做到同时对我们现在的物理世界的精准理解和精准的生成和模拟
然后这个应用到最终 AGI 上就是说如果要处理任何视觉相关的 task 比如说如果我们未来想象一个机器人他要用手拿起一个杯子然后把它递到你面前让你喝这杯水的时候那么他就必须要同时具有理解和去模拟这个整个过程的这样一个能力那你们觉得他的这个事情给整个就是你们这个领域带来什么样子的启发或者是影响
你说世界模型这个概念我们觉得启发和影响更多是我们会不仅局限于说只是生成这个视频包括我们会觉得说所有多模态的信息都应该成为这个模型的输入和输出所以我们最终的目标可能觉得要实现这一个世界模型要实现这个视觉的 AGI 可能更多的是一个 anything to anything 的模型
也就是这个视频图片声音包括各种人说话的声音包括音效包括这个世界的一些 common knowledgeknow how 比如说我们作为人是知道说我们怎么把地上一个碎了的东西捡起来的
那这些也是最终世界模型可能所需要知道的信息那这些信息可能最终汇总到一起它能够做到一个多模态的输入和多模态的输出这是我们觉得说将我们从最终的 NCO 去想象现在需要的模型的能力的时候这是我们现在从研究测需要去做的事情我能不能理解它其实是把这个难度提高了很多
我觉得也把他所需要的不管是从数据层面上还是从研究层面上需要做的事情都提升了一个量级就不仅是只是 focus 在视频的输入和输出这样的一个单一的模态上对因为他把那个信息的维度提高了非常多是的甚至他最终可能需要跟语言模型有某种形式上的结合
其实现在的那个视觉理解模型很多就其实依赖于一个基础的语言模型来作为他理解的这样一个浓缩信息的途径那他做的这个方向上目前除了他们还有谁啊李飞飞吗我觉得 WorldLabs 其实他们采取的是一个更加往 3D 方向的拓展所以
他们选择这个路径可能只是路径中的一条因为 Luma 之前我们是一个做 3D 重建和 3D 生成的其实 World Apps 在做的一些方向上面跟我们是之前的工作是有很多相似性的但是我们后来之所以选择视频这个渠道也是觉得说通过对视频的理解通过海洋的 scale up 数据的方式或许我们不一定需要一定要通过 3D 来理解这个世界的物理规律所以
我觉得这可能是你说对于我们跟 WorldLab 尽管我们都是向着世界模型的努力但是在这个路径上可能不同的选择
然后像 DeepMind 的话我觉得他们的世界模型可能也更多是从视频生成的领域就像他们在去年发布的 Genie 2 就是一个能够模拟就是各种游戏中进行一个 360 度的不同视角的转换然后可以看到这个游戏实时生成的这个场景但那个更多也是基于视频生成的路径而不是 3D 重建的路径就是你提到这个想到你们之前不是放弃了 3D 这条路线
对也说不上放弃吧就是我们觉得说这个路径的选择上可能会有一些我们觉得循序渐进的这个阶段我们会觉得现在还不是去 scale up 或者去能够去大规模的做 3D 的这个时候
那我们的第十个问题是这样啊就是上次我们和巴克里聊天的时候你有提到一个观点啊就认为现在要继续突破很可能一个公司的工程与管理的能力它能带来的价值是大于算法创新的价值的这个你可以展开再讲一讲吗我觉得这个更多是在数据上去呃
就是做这个工程和管理当然因为我具体可能更多的也在这个数据和评测的方面所以我对模型测的一些工程的问题可能不是那么的熟悉但比如说在数据上我们很多时候会发现如果没有一套能够快速的去 inject 和 output 数据的方式这个对模型的训练速度会有极大的提升因为最终我们按照 scaling load 的理解这个模型它看过的数据越多
他能够理解他能够生成的事情也可能就越广那这个时候这个并不是说在 research 上面能有什么架构上的突破而是说我怎么能够快速的让模型去理解这些视频的数据那么所有的视频可能比如说都要经过一定的压缩但是我如何在压缩的同时能够保证他的信息尽可能的被保留
那这就是一个更多工程上的问题而不是一个纯研究上的问题然后包括说这个数据的排放应该是什么样的这个也更多是一个公司在管理上我们怎么决定去运行这样一个从数据的采集到去标注到最终能够切分到给模型能够使用的片段
这让我的感觉就是整个这个流水线好像一个工业厨房就是如果说这个数据是菜的话你就要有一个完整的流水线一个人负责切菜一个人负责洗菜一个人把这个菜分门别类的分好然后最终决定说这些菜要切成什么样的段然后投入到这个锅里按什么样的比例翻炒那整个这个其实并没有什么
研究上的创新但是它是一个在工程和管理上能够做到更有效率然后就会对这个模型的能力有很大提升的这样一些 effort 那我们的第 11 个问题还是要聊一聊算法上的突破就关于算法上的突破有看到最近有哪些公司在做新的有意义的尝试吗我感觉这个问题可能我回答不是特别的专业因为我更多是从一个 PM 的视角来看
对就比如说对于 Solar 去年的发布大家都会知道说证明了说 DIT 在大规模的数据的 scale up 上面是可行的那么可能在 DIT 的基础上大家又会对 DIT 这个架构本身有一些不同程度的修改然后这些可能最终会在不同的公司的模型上有一些体现
除此以外我觉得就是有一些功能点比如说如何做一些视频的编辑甚至是图片的编辑在这方面有一些新的在原有的算法的基础上可能演化出来的一些新的方法也是在
就是我感觉这个模式是在 research 在学界可能提出了一些有意思的猜测然后作为我们有能力去训练一个更大的模型的公司会去 scale up 数据然后去看说这个在一个更大的成绩下能否能够得到广泛的应用
然后最终决定说这个事情是否是一个有意义的尝试我觉得更多可能偏向于这类的把一些新颖的想法一些小的创新点通过数据 scale up 然后最终应用到产品里面的一些 effort 你刚才说到这个工程和管理能力的贡献的重要性刚才想到觉得这个挑战在于其实还是在于以前这个事没有人做过嘛嗯
嗯是他没有参考样本那你们有没有什么就是从你自己个人感受特别强烈的什么比较有价值的 take away 可以
给其他同行们的或者说就你了解你们公司或者是就你了解的其他的公司在做这种一个没有参考范本的一件事就是公司会创造一个什么样子的氛围或者是说比较鼓励什么样子的氛围来推动它更有效率我觉得这个可能更多是在这样一些问题上大胆的去尝试
就其实有点像很直白的道理就是大力出奇迹就是我们不管怎么样反正没有一个标准答案但我们就先去试就包括比如说在评测上没有一套统一的评测标准那我们可能包括对于这个第三方的评测人员来说他们也没经过这样的训练他们不知道说应该怎么样去 evaluate 比如说对于一个视频它美感是什么样的那我们就制定不同的一些
样例和这个标准说那如果它包含了这些的话那可能我们会认为说它更有美感一些或者在美感上面会更低一些然后我们去看说这最终是否 align 我们的 expectation 我们会先就
大规模去尝试各种不同的标准给到这些标注人员然后看看哪些最终是更符合我们自己看下来的这个预期包括 community 对它的预期的然后包括这些评测我们会就在之后会有很多的这种去 cross reference 的这些方式但这些很多也都是一开始我们去跟 creator community 交流的时候然后他们说那我们评测出来以后我们看这些 sample 的感觉是什么样的
然后我们会根据他们的这些 feedback 又不断地去调整我们这样的标准但我觉得很多就是一个大点趋势然后 trial and error 的过程听起来就是一个要造一个火车现在连一个火车站都没有要从火车站开始开始造的感觉就画一匹马然后不管你画出来的是什么样它只要能跑就可以所以它是否是一个最科学的身体的构造这个可能对我们这个阶段来说不重要那你觉得类比一下其他的
Pierce 们也是在做类似的事吗也需要做类似的事对吗我感觉大家都在摸着石头过河以及我觉得就是 in general 这也是一个对于一个新的领域对于创业公司来说的一个特点就是甚至可能反馈到我们的招人的标准上面我们招人的标准一向就是这个是一个从来没解决过的问题你要怎么去做我们会像我们 CEO 会经常问 candidate 这样一个问题那这个优秀的答案应该是什么那就看机体这个事情是什么样的了
然后就看大家的思路可能会是什么我们前面聊了蛮多这个行业啊然后各种技术突破那我们接下来聊一聊产品吧然后争取聊一点八卦轻松一点嗯
然后我们第十二个问题是想问一下吧,克里因为你也是产品经理,你应该也很关注各种各样的应用,所以在过去的这几个月吧,你有看到哪一个或者哪几个让你觉得就是眼前一亮印象深刻的 AI 领域的视频应用?AI 领域的视频应用,我想想,我觉得不一定是一个具体的应用或者产品,但我可能说一些我看到的比较 impressive 的 use case 吧,
一个是我们当时就是去年刚发布那个 Luma 第一代的视频模型的时候突然会看到一个 trend 是大家会看如果我上传两个人的照片想尝试让这两个人拥抱会发生什么样的结果然后这个 trend 最开始只是一些就是把两个人的照片同时上传的这样一个 news case 但是到后面演化为
把自己过世的亲人的照片跟自己上传比如说一个爷爷跟一个孙女的照片然后他们会左右排列然后在图生视频上给他们一个 prompt 说 Let them hug 然后就会出现一个老照片跟一个现代的照片然后两个完美的融合然后抱在一起的这个场景
然后这个是我当时觉得很让我感动很人性化的一个这样的应用吧就是感觉能够重新跟失去的亲人产生这样的连接不至于外的就是一些比较有意思的视频包括去年也有一些穿的是啊
会看到不同的东西的 transformation 今年有一个 trend 年底的时候叫 Apple dog 就是一个狗叼着一个苹果会看到这个苹果这个狗叼着苹果突然一下消失了然后之后会出现各种各样有意思的他们变身以后的这样的场景
我觉得这个也挺好玩的那我们的第 13 个问题就是我们来预测一下吧 2025 年视频模型应该还会不断的革新你认为这些革新这些突破有可能会解锁哪些新的创业机会或者做应用的新的场景呢
我觉得有一些比如我们觉得在 2015 年视频模型会能够做到对角色和至少人物的一致性很好的保持那这个就比如说如果我们之前要想生成一个连续的故事的话我可能要花很大的精力让模型去学会或者我要不断地通过抽卡让这个模型能够稳定地生成一些同一个角色相关的视频的场景
那么在我目前看到的 research 的一些突破上我觉得这个 character consistency 的问题在 2025 年能够得到极大的提升那么这时候你就可以用它真正去很简单的拍一些能够有连续上下剧情的影视或者是一些比如说把像这种文字的一些小说的场景进行改编比如说很多二创
它有可能可以成为一个新的一个视频的模式然后在网络上传播然后另一个我自己比较感兴趣的方向是实时的这个视频的生成当然这个不一定能够在二五年能够完全的实现但就是如果我们能够把视频生成的延时降到很低的话那么有可能就说我能够在看一个内容的同时能够实时的对这个视频进行修改
比如说我不喜欢哈利波特的某一个结局我觉得说我想看到它不一样的一个可能的发生的场景那么我在看哈利波特的时候可能我就跟这个视频模型对话说那我希望看到这个结局是什么样的或者在这个场景里我希望看到的一个发生的一个另一种可能是什么
然后这个模型它能够立即做出反应然后去生成一个可能的不同的结局像这种实时视频的生成能够带来的应用的场景我觉得我会更期待说它能够成为一种新的内容消费的形式就在之后可能
生产者和消费者这个边界会变得模糊那所有人都可以做这个视频的 edit 然后所有的这些视频的内容也都是 customize towards 他们的这些是我觉得可以诞生一些新的应用场景和甚至是新的一个这种 entertainment 的这个机会的可能
但就毕竟很多依赖于 research 的进展所以也不知道会不会在 2025 年实现那有没有就是那种短期内你觉得肯定会实现的会马上发生的我觉得 character consistency 是短期内应该马上会实现的因为可以看到呃
包括我们在内很多的 AI 公司都已经在这块取得了在模型层取得了一些很好的效果然后我们说到八卦就知道每家公司最喜欢聊八卦的时候就是大家一起吃午饭的时候那我比较好奇你们最近吃午饭的时候和同事们都在聊哪些事聊到了哪些业内的新闻动态你觉得印象深刻也可以拿来和大家聊一聊分享一下的
我们其实会聊一些其他公司内的八卦包括我们不断的在
就是全球招募这样的 AI 的人才嘛然后有时候也会看到就是他们在过去的一些公司的体验然后就我们有时候会八卦作为一个创业公司会八卦这些大厂他们的管理和这个 AI 的研究到底是什么样的因为我们会觉得很多大厂的研究是一个非常纠结的状态因为受到这样的不同层级的管理的这种
不一定是 research 做最终的决策的这样的一个体系下但是 researcher 又需要保持他们一定的自主独立性然后就会发现有时候有了一些大厂内部可能会出现的政治斗争然后我们会把这个当八卦在餐桌上面聊
然后包括我们会觉得说为什么就是在这些大厂可能很多 researcher 不一定觉得他们能够做出更好最好的成绩这也是我们有很多从比如说 Google DeepMind 过来的 researcher 从 Matter 过来的 researcher 他们会给到我们的一些反馈就是在很多时候当一个不是 researcher 的管理者去
权衡说我应该去做前沿的 AI research 还是我应该保持我的这个组能够有持续的产出的时候其实大部分的管理者都可能会选择后者因为后者是一个更稳妥的方式
但这个 incentive structure 就是设计就本质是因为 AI research 这个事的不确定性太高了但是在大厂的这种评价体系上如果做不出成绩那很有可能就代表就是没有这个升值的空间也没有这个组能够存活下来的机会所以我觉得有时候这些问题还会阻碍着创新我们最近在
就是午餐的时候经常会聊到这个问题所以觉得还挺有意思那你们公司对 DeepSick 有什么讨论吗然后你作为一个中国人然后应该也有可能是你们其他的非中国人同事
的一个询问的对象嗯对我记得 DeepSeek 出来之后我们那个 CEO 会问一个问题就说就是中国的这个创新和经济的环境到底是怎么样的因为他会听到很矛盾的信息一方面觉得说中国好像大部分公司又不再搞大模型的技术研究然后都会 focus 在应用层但另一方面也有 DeepSeek 这样厉害的公司出来对吧然后
然后我觉得做一个在这边 PM 我其实但因为还是会跟国内有很多的交流所以我会感觉 DeepSeek 出来以后其实对整个硅谷这边是有一点 Shark 的这个感觉就是对一个中国公司能够在一个纯底层的这个模型的技术上能够取得这样一个突破然后能够有一些很好的效果包括在
最终的应用层上增长的速度也是特别快的然后我觉得这是可能过去没有一个中国公司能够在全球市场达到的所以对于我们来说也会更加 focus on 对于中国的人才的招募像 DPC 这样的公司很多都是中国本土的人才
然后我们觉得说可能对于这些人才我们也会想说如何吸引他们来跟我们更多的去创造新的这些 AGI 的这些可能性然后另一方面就我感知到的在中国的氛围可能就是更多对中国一个 AI
AI 领域的一个这样的一个强心计吧就说如果你相信坚持相信这个长期主义就最终如果你足够相信这个愿景的话最终是会实现的然后
我其实觉得我们在硅谷这边还是能感觉到很多这样的氛围的然后我觉得可能对于我们来说也是这样一个 reaffirmation 吧就是继续去追求视频领域的 AGI 继续去 scale up 这个模型继续去做这个基础的研究
那我们下一个问题其实你刚说到这个像你说到你们是把追求 AGF 作为公司的目标嘛然后 runway 的 CEO 其实之前还有一篇比较有名的一个是文章还是他的一个讲话他说不再用 AI 公司来看自己我觉得他整篇其实在强调的就是要技术要要找到好的应用嗯就是觉得你们应该是两个不同的发展方向然后之前我们聊天的时候也聊到说两个 CEO 在推特上
交锋过是的对就是那个是 Chris Tobol 就是 Runway 的 CEO 他在推特上挂在自己的频道首页的一段话就很长的一段但大概的意思就是说
Runway 不是一个 AI 公司 Runway 是一个 media entertainment 的公司然后他就说现在谁还标榜自己是 AI 公司的那这个时代已经终结了你们快点醒一醒 AI 之后会变成一个基础的像水电一样的东西那么你今天叫自己叫 AI 公司实际上是你就是是没有意义的因为它最终会变成一个所有人都用但是所以确实要去想这个应用场景是什么
然后他发了这篇以后我们 CEO 就在推特上面转发了 quote 的一句说任何就是
误打误撞进入 AI 但是又不真正懂 AI 的人才会这么说然后配了一个我们 V2 生成的一个青蛙吐舌头的照片一个视频但其实我觉得两个都没有严格意义上的对错其实它都是硬币的正反面当然也可能是一个时间上的问题就
从我们 CEO 的角度包括我们公司更多相信的是 AI 在目前这个阶段不会成为像水电这样的基础的东西就是 AI 本身的前沿的研究会带来新的范式会带来新的应用场景和突破这也是我们持续在行业内观察到说任何一个模型的提升其实都可以带来应用场景上很大的托款
所以我们还是会更加坚信说继续 focus 在底层模型的研究然后这些应用场景会自然的来啊
但也并不是说我们不去 focus 在应用场景不去听我们这个用户真正想要什么但我觉得相对来讲我觉得可能 Ranway 会更多的关注在这个 media entertainment 的行业特别是他们跟很多的电影的 studio 合作估计他们会很多想去听这些 studio 的 feedback 看他们想要什么样的应用场景然后去做什么样的模型的提升我觉得可能也是一个路径的选择吧
嗯就也不一定在目前这个阶段能看出这个绝对的对错就都是不同公司的策略跟选择的不一样所以会有观点想法上的不一样嗯对对我觉得很感触的点就是呃我们就是 sacky 经常说的一句话就是 everything in the bay area happens on twitter 就所有的这些公司的 ceo 会直接在 twitter 上面对骂啊
然后非常有个性让我觉得也是我在硅谷这边吃瓜觉得很有意思的一个点其实之前十字路口有一期非常受欢迎的内容就是 AI 时代的产品经理指南然后我们在那一期里面聊了好多问题比如说产品经理要怎么重新定义自己产品经理要如何又去学习新的技能才能在一个 AI 产品里面发挥出足够大的价值所以从你自己的这个的
切身的经历来看也是我们的第 16 个问题就你认为 PM 这个岗位在 AI 公司有哪些变化你又是怎么从之前在 TikTok 做 AI 的特效的产品经理然后转到在 Luma AI 做一个模型的这个产品经理这个中间的一些故事一些心得可不可以分享一下我觉得就是我这两年有一个很大的心态的变化从一个在我
我觉得也是可能跟作为一个模型层的 startup versus 像字节这样一个比较产品驱动的大厂的不同的就是 position 的体会我在字节的时候感觉作为产品经理是很有主导权的就是我基本上会去定义这个特效会怎么去做然后
我甚至会直接可能参与到 research 的这个讨论中然后去说给 research 提需求说我们需要这个东西然后这个 research 会告诉我说你这种东西能不能实现然后我们按照一个预期的时间线把这个特效推上线尽管它可能是一个跟 AI 相关的需要有一定不确定性的研究周期的这个事情但是我在 Luma 做模拟
模型层的 PM 的时候就会发现其实作为一个 research lab 我们更多是以 research 为主导的也就是他们确定这个 research 的主要的方向而我更多的去打辅助所以我觉得最开始会有一个这种心态上的落差就是我不是那个能够去 command 一切能够去主导的这样一个 position 但是我逐渐会意识到说这可能是一个对于
对于 research 来说更健康的模式因为 research 本身就是有很大的不确定性的我觉得现在在这个 AI 的时代跟互联网时代不一样的点是在过去产品经理可以定义一个需求甚至一个 feature 明确的目标受众和数据是什么样的因为这个 feature 是肯定可以被做出来的就 engineer 可以做到这个事情但是
在现在是所有的都处于一个混沌的状态然后 research 十个想法里面可能九个会 fail 但最终会有一个成功那这种情况下产品军力更多是说如何帮助 researcher 更好了解说我们怎么去定义最开始要试的十个想法但是不会去明确的要求说我们最终
这些想法都要能够做成然后都能作为 feature 在产品上上线因为那样是非常不切实际的所以在负责这个数据和模型评测的时候我其实是在充当一个连接 researcher 和这个终端的消费者以及我们的 creator 群体的这样一个角色就是我模型评测出来的结果最终会反馈给 researcher 然后说那我们在模型在这些方面可能有不足那我们如何通过数据的采集数据的标注
这上面去补齐模型在这一块的能力但是具体去怎么做这个事情以及要往哪个方面做其实最终是他们来拍板决定的因为我觉得我确实没有这个能力能够去主导去定义说这些
就是模型的迭代应该往哪个方向去迭代但我会尽可能给他们提供来自用户的一手的信息来帮助他们做更好的决策想补充的问题是第一个是因为 Bark 比较年轻那你有观察比如说
Signature 就是 level 高一些的 PM 他们的工作是什么第二个是就是你刚才提到你所做的事情的这些特性有没有会因为就是你所在的公司它的 research 的这个重要性非常的高所以它会有一点特殊性你有没有跟其他的就是其他公司的 PM 交流他们做的事情的就是比如说更偏向哪个方向嗯
对,对于第一个问题我觉得是我们公司只有我一个 PM,所以我的感觉是即使对于更 senior 的 PM 来说,所有的这些,就因为毕竟整个 AI 的落地到产品上的发展也就是从拆 GPT 开始的事情,那么这个行业可能整个到现在不过两年半的时间啊。
然后那所有的就是 PM 都要重新开始去 adapt 这个系统然后去了解说怎么去在此之上 either build 应用场景或者去帮助模型做更好的迭代做更深入的研究然后我觉得对于第二个问题我其实更多跟模型层的 PM 会有交流然后确实感觉比如说在 Sora 在 Vio
我们的同行我的同行跟我做的是很类似的工作都会比如说 focus 在 dataeval 这些
对模型很核心的 task 但是又是需要对用户的 insight 和理解的这样的一个 position 但我觉得模型层公司跟应用层公司的 PM 还是会有很大的差别就比如说我了解到其他的一些应用层的公司比如说就对于自己的吉蒙的 PM 来说他们可能更多的是去探索这个模型能够怎么
我不管用哪家的模型我怎么能够找到最好的应用场景怎么能够把这个模型的能力通过 feature 的形式通过交互的形式被大家更简单的去接受那么其他的应用层的公司可能就根据他们不同的场景去寻找这些具体模型能够最好的应用场景最好的交互和应用方式是什么所以我觉得模型层的 PM 跟应用层的 PM 可能还是存在很大的差异
在你们公司或者是你观察到其他的公司在招 PM 的时候的要求有哪些特别的地方或者说跟以前相比有什么不一样的地方
我觉得可能还是只能基于我们现在比如说在招的 PM 的岗位或者作为一个模型层的公司的要求来说我们其实更希望这个 PM 是有过在模型层的做 either 数据或者是做评测的这样的相关的经验的然后这个可能在目前来说还是一个
比较小的一个群体然后即使没有的话我们会希望他能够快速上手能够去 figure out 一个之前从来没有被定义成标准的事情就我觉得特别是在 startup 因为没有人能够 mentor 你然后大家都 expect 说你要能够 fill 这个职位能够一上来就能做事情所以我觉得能够快速的
找到这个比如说在没有一个客观标准的时候建立一个评测的标准这个可能是我们在照片方面跟过去比如说可能
照有经验的 PM 不太一样的就是我们不太 care 过去具体的经验除非是特别相关的但是特别 care 的是能否快速地上手去完成一件事情我们之前跟李乐丁老师聊他说就是这个 PM 其实在现在这个世代是前所未有的重要然后另外是我自己其实对
硅谷的 PM 的很多信息其实是因为看那个 Lenny 的 Lenny's newsletter 然后他因为自己以前就是一个 PM 所以他会非常专注从这个角度去聊了很多东西我其实比较好奇就是以前会有这么多非常强调 PM 的
不管是社区还是内容我觉得其实在硅谷反而没有像国内那样那么强调 PM 以及就是 PM 的社区就其实我觉得整个 PM 是更多偏移动互联网出现之后的东西但是移动互联网其实在中国是发展的比美国更加的怎么说蓬勃生长的这个状态对
所以在美国其实很多公司还是偏 engineer driven 的然后到现在会变成更加 research driven 的相对较少会出现完全是 pm driven 的这种公司我觉得比如说像自己像其实 tiktok 的管理方式我觉得在美国其实在硅谷都算比较
一个相对异类的公司了但是就是 PM 的重要性我觉得倒是就也很难定义说 PM 到底是一个什么样的职位特别是在现在 AI 的变化就是这么快的情况下但我觉得可能还是那一点就是我们觉得最好的 PM 应该它是能够快速地发现这个事情的本质然后找到
如何去解决一个问题的方法那这样的人不管你是做 PM 还是做 operations 还是做 sales 或者就是这些 world 他都可能有一个就是很好的发展第 18 个问题是 Barkley 那你自己在一个这个非常快速发展的行业里面就是你有做了哪些事情来让自己保持学习然后更了解这个行业的新的动态我
我其实更多时候会去跟我们的 researcher 聊然后我们的 researcher 有时候会给我推荐一些他们觉得有意思的 paper 然后我可能会去读然后包括在这个行业里其实另一个就是多去试各种各样的产品
我比如说作为模型评测我肯定会高频的去使用其他的视频模型的这个产品包括我们自己的产品然后除此之外我觉得比如说在 Agent 方面在 LM 的这样一些产品我也会看到有一些新的我会尝试去使用比如说我最近可能就
比较多的在尝试用 Windsurf 去写一些觉得自己可能会比较感兴趣能够对自己使用的小程序能够帮助我就是工作能够更有效率一些我觉得能够去体验这些产品在体验产品的同时去理解它背后的支撑它的模型然后这个模型的原理是什么样的它的边界可能在哪里我觉得这个可能是对对
对我作为一个模型层的 PM 很有用的两科学习的方式第十九个问题是你有观察你周围的人他们有做哪些这样子的学习是有效的就比如说你刚刚提到就是大家的角色其实有一点就感觉像比较混杂的一个这个状态里其实我
我还挺同意的就是感觉有一种你在这个时代你被逼着什么都要学你身边是不是比如说你的同事或者是你的朋友们他们其实也是一个类似的状态然后大家有哪些像你刚刚提到经常跟 research 聊天去读一读他们推荐的 paper 其实我觉得这是找到一个很有价值的信息源然后通过他们的推荐去获得一些高价值信息的一个学习的方法
那你有看到比如说其他人有什么样比较有效的有价值的方法吗我之前有一个也是之前跟我一起在 TikTok 的 PM 的朋友然后我觉得他去梳理这些 AI 的
包括论文啊包括应用的信息的方式非常的好就是他会用 TL Draw 就是一个线上画图的这样一个软件把所有他体验过的产品和看过的这些 paper 然后尝试去寻找他们之间的关联然后构建这样一个整个比较大的这个四维的 map 啊
因为我觉得很多时候这也是我之前跟我们公司的一些 researcher 聊天的感受就是他们做 research 的过程其实就是在不同的方法不同的这个模型之间去寻找他们之间的关联性就比如说我们的 researcher 有时候会去看语言模型的 paper 然后会觉得说语言模型以这个方式会对我们有一些这样的启发
然后他就会尝试运用到视频模型里看啊这个具体这个是不是 work 的然后啊所以我我觉得我对我那位朋友的方式也觉得啊特别佩服的感觉是啊就是能够在这些啊 paper 和产品之间建立这样一些连接去找到啊
可能在不同的领域里相似的一些不变的主题然后这些最终会启发说我们这里可以有什么新的产品的产生或者有可能有什么新的应用的场景我觉得这是一个我看到觉得还比较好的方式处类旁通对就是我会觉得 AI 的出现就是让我特别是传送的这个架构会让我有一个感觉就是世界上所有的东西都是其实
存在一些关联性的然后只是因为我们用人类的大脑去排列组合去 process 这个事情太低效了但是如果有 AI 的话那他能够发现这些所有事物之间的关联性他就可以涌现出一个更强大的智能我们第二十个问题就是巴克利在硅谷做产品经理我们比较想听听你分享的就是作为在硅谷的中国人你觉得 AI 时代有带来不一样的
或者说更好的当然也可能是更差的有什么不一样的新的职业机会吗你会有什么建议就是大家要怎么去抓住这样的机会我觉得首先大家在可能包括对于在中国的团队还有在美国的这些中国创始人团队其实很多都有一些独特的优势比如说我们对
中美两个国家的这个理解包括对这个科技的市场的理解就比如说其实在 consumer 端我觉得美国很少有特别理解消费者心里的这些产品经历因为过去可能上一个真正在美国火的这个 C 端的产品可能是 Snapchat 然后再之后就是 TikTok 但是 TikTok 是一个就是源自于就是中国的团队诞生出来的产品
然后其实就比如说在消费端的一些理解包括在对于 AI 硬件的一些理解作为中国的创业者特别是在这个领域方面的人才都是有很多独特的优势的所以我觉得包括很多出海的国内出海的产品在美国也取得很多的成功我觉得这也是
因为我们在中美两边的市场的理解对这个 C 端的一些生态的把握所以我觉得这块会有很多的机会我觉得未来应用层会可能诞生出更多中国创始人的团队然后另一方面我觉得模型层其实中国的
研究能力还是很强的就是这种去钻研去吃苦耐劳的品质吧我觉得是中华民族的传统美德然后会让我感觉在硅谷这边也会看到很多优秀的 AI 公司的核心的 researcher 其实也都是华人
然后可能就是大家就是不同的求学的背景在中国读的 PhD versus 在美国读的 PhD 但就是这些对于中国人的机会会一直有吧就不会就肯定会随着地缘的政治会有一定的影响但我觉得我还是更相信最终这个对 AI 的发展应该是一个全球更多流通更多就是在
在一个介于合作和竞争之间的状态下彼此去 improve 的就像我们也会就从中国的这些模型包括他们的产品上面有时候会学到很多然后会去想象就是我们会可以做出什么样的改进对然后我最后也想插播一个小广告就是
我们 Luma AI 现在也在招募全球的视觉的人才,然后加入我们一起去做视觉的理解和视觉的生成,然后去尝试通过视觉这个领域来实现世界模型和 AGI 的这样一个 vision,所以我们也特别希望能够招募更多的中国的人才,
可以一开始以 remote 的方式然后我们也可以帮忙协助解决美国的工作签证然后可以线下加入我们的湾区的 office 所以就如果有感兴趣的话可以来联系我或者是来我们的招聘的官网上面去投递简历好的 谢谢巴克利如果想联系巴克利的朋友可以到我们播客的评论区我们会在发布之后请巴克利来留一个联系方式
那我们今天就先聊到这里了谢谢希望有机会再来十字路口好的谢谢你们拜拜如果你认为有朋友也会喜欢本期十字路口的内容请转发微信推荐给他们最后欢迎你加入十字路口的会员群我们鼓励大家在群里聊天互动交朋友寻找未来的同路人