欢迎收听十字路口我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会十字路口是乔布斯对苹果公司的一个比喻形容它站在科技与人文的十字路口伟大的产品往往诞生在这里 AI 正在给各行各业带来改变我们寻找访谈和凝聚 AI 时代的积极行动者和他们一起探索和拥抱新变化新的可能性
我是主播科技杨远诚联合创办了街旁新事项和唐岛我相信科技尤其是 AI 会在未来十年彻底改变社会赋能人类欢迎大家找我聊天碰撞想法链接下一个可能性我是主播荣慧目前在一家专注科技投资的风险投资机构工作之前在第一财经周刊担任驻硅谷记者
大家好,欢迎收听这一期的十字路口上一期我们盘点了 Sora 发布以来视频模型的进展今天我们来和 AI 视频工具 Vozo 的创始人周昌印来聊一聊他非常具体的创业故事和个人的经历 Vozo 被形容为用 AI 一键模改短视频的工具可以为视频重新配音,做视频翻译和重剪在上线的时候连续三天登上 Product Hunt 的
王手也在 6 个月做到了 100 万的 ARR 据我们所知呢这个 Vozoo 的发展经历也有一些很有意思的关键节点和昌盈的思考那今天我们就请昌盈来跟我们具体的聊一聊这些故事那昌盈先跟大家打个招呼吧然后也介绍一下自己介绍一下 Vozoo 嗯谢谢荣慧啊我是周昌盈大家可以叫我昌盈啊我是 Vozoo AI 的 Founder 跟 CEO
大家好然后科技你好哈喽呃张颖可以详细跟我们介绍一下 vozo 呃具体是做什么然后这些功能是怎么样啊一步一步被开发出来的吗就 ai 视频工具还挺多的就是为什么选了具体的这个方向对其实我肉在我们公司内部其实花了很长的时间才
才南产出生的我们其实在 21 年的时候最早从团队从美国回到国内然后开始决定做我们内部把叫做视频表达自由这件事情我们觉得这件事情是非常值得做的事情
然后我们从 2010 年开始做了几款产品有成功的有不太成功的然后我们从 2012 年开始去做了蛮多的生存式 AI 的一些营发的探索相当于是一边是从用户的需求出发另外一边从营发出发然后最后在大概 2013 年左右我们大概有些想法就相当于是营发跟需求的一个碰撞的点
然后从 23 年内部开始做一些孵化然后 cue 了几个想法到 24 年的时候我们自己觉得比较满意的时候把 Vozro 推了出来所以 Vozro 它的定位虽然是经过几次不一样的转变但总体来说是希望能够帮助普通人而不是那些视频制作专业的那种剪辑师
那普通人就我觉得可能包含的人群可能比较多比如说老师啊包括像一些 product manager 包括 marketing manager 虽然他们有时候会做视频但他视频制作能力是比较弱或者要外包那我们是希望是能够让所有的普通人可以用视频去做表达
这件事情其实是非常大的一件事情然后我们最开始的生存式 AI 的模型是非常 aggressive 就像现在很多大家看到生存式的视觉大模型一样然后当我们在二三年底的时候做了一个转型我们希望切到一个非常真实的场景能帮助用户去解决问题的
所以这是我们 24 年 4 月份 7 月份上线的时候就第一次 prodhander 的时候我们把它功能定义成叫 Vozel rewrite 那我们是在一定程度把它难度降低了一点不是说去凭空去生成一个视频
但是说你已经有一个视频但是你想改变一个故事那这里有好几种场景一种就是别人已经做了非常网络的一些视频比如说一些电影的桥段已经非常非常好了那你可以用他相同的桥段去讲你的故事可以讲你的品牌故事也可以讲你的这些一些要配点
还有一种就是你做那个视频比如说你做的是 Thanksgiving 的一个推广然后你可以很轻易的把它改成一个 Christmas 的一个推广或者是圣诞节的推广所以定义成是 Vozow rewrite 那它对整个视频剪辑我觉得还是挺有大的一个改变以前的剪辑就是你要去去 cut 然后去做一些音频视频的处理但是 Vozow rewrite 基本你要通过简单的一个 prompt
你比如说请把这个视频变成西班牙语或者请让这个视频可以变得更 exciting 或变得更有趣那它就会帮你把这个视频的改变给做掉所以这是当时 Vozoo 第一个上线的 feature 的功能然后过去半年又经过很多的演化到了现在的 Vozoo 一个形态可能功能会更广一些
我觉得 Vozoo 的功能主要是这些嘛然后我们其实有几点我觉得可以跟大家聊一下就是 Vozoo 其实在刚上线是 7 月 20 号跑了第四 Plot Hunt
然后我们其实中间迭代了好几次到了 11 月份的时候又有一个产品很大的一个转变然后我们又上线了新的功能叫 Voso Translate 大家其实可以理解 Translate 其实是 Rewrite 里面的一个一个 Extension 就是我们发现大量的用户用 Rewrite 都是用去做 Translate
所以我们就在内部就迭代非常久找了很多 Translate 的用户然后让他们去试用然后做反弹然后我们逐渐把 Translate 的功能给打磨出来然后我们自己内部对 Translate 非常满意然后我们绝大多数用户的续费率也非常高所以这也是我觉得过去从 2040 年 7 月份虽然我们
我觉得是下手算比较晚的但是迭代到现在 25 年 1 月份 2 月份左右我觉得产品形态我觉得我们是走对了所以这次大概简单的介绍一下我们家 Vozoo 的产品的状态这是我们公司的最新的一个产品其实 Vozoo 一开始刷屏的时候我第一次看到它是在我们自己的一个会员群里头有一个 TikTok 的产品经理他推荐给大家的然后他推的东西我觉得品质一直都很高他发了我都会看
然后当时印象很深的那个刷屏的就有好几个短视频同时是 Volzo 生成出来的都是把电影里面的经典画面改成了一个搞笑的一个桥段画面没有变但是那个主角他讲的事他的口型和他的语气全变了比如说我记得就小李子一开始有一个华尔街之狼的一个经典片段然后就他就还是一本正经的像华尔街之狼一样在那边慷慨激昂的表达但他讲的是一些鸡毛蒜皮的事情啊
就这样的剧烈的冲突然后是熟悉的场景然后有小离子有泰坦尼克然后有哈利波特就你能想到的各种各样的经典画面都被大家玩得很魔性就叫魔感这是一开始出圈的第一波然后到 11 月的时候再一次打榜而且那一次打榜 Product Hunt 应该还成了月榜第一
那个应该就是开始做翻译了就更打个引号的严肃正经就是把各种语言再换成其他的语言因为效果足够的好所以得到了非常多的好评除了这两个我留下印象的 Vozel 的这个主要的功能和破圈的这个时间点之外这些倡议有没有一些补充呀就是帮大家更好的了解 Vozel 是一款什么样的产品嗯
现在 Translate 是博主最主要的用户用的功能所以 Translate 刚刚国际提到是 11 月份上线的然后我们在 11 月之后到现在三个月我们又演变了另外两个产品一个是 Lipsync 其实这三个都是慢慢延续出来我们先做了 Rewrite 发现大部分用户用它来去做 Translate
然后我们就把 translate 做到更深然后这个花了我们蛮长的时间然后 translate 之后又发现有些人他其实并不 translate 只是想用我们的口型所以我们就把 Lipsync 这个功能就做又深化一下 Lipsync 现在是我们一个比较重要的功能
那 Lipsync 之后呢他们有些用户就说我不想 Lipsync 我的 video 我要 Lipsync 我的 photo 那这件事情就很有趣我们开始本来不想做这件事情因为我觉得市面上做 photoLipsync 的功能已经有一些了为什么还要我做然后我们就去试一下各种各样的 photoLipsync 的工具然后大概理解就是为什么他们不满意他们的结果然后我们把大众重新做了一遍 photoLipsync 那 photoLipsync 我们大概是
是 1 月左右上线的然后用户增长挺快的可能我们的效果确实还蛮不错所以这是我们后面加的两个新的功能然后到 3 月份可以简单的预告一下会有一个
更大的东西会 release 现在还不能说这个更大的东西他会是像一开始的这个 rewrite 就是从视觉上给大家震撼还是像 translate 或者这个 lipsync 他是从功能上做的比竞争对手都好是哪个方向可以讲一讲啊都有他不像是 rewriterewrite 是从来没有这么东西的我们我们做了一个 rewrite 的这个事情啊他还是一个有需求现在也有需求的一个
一个功能但是我们做的比较不一样会更好用一些你会不会觉得其实 Vozo 比如说后面做 Translate 或者 Lipsync 就如果一开始推的就是 Translate 或者 Lipsync 有可能反而还推不起来
而是一开始就是选了一个大家没见过的东西然后它有一种就是猎奇的这样的短视频就是破圈让 Vozel 走进了很多人的视野再之后你们把自己的技术实力加上去解决别人解决的没有那么好的别人 80 分你们解决到 90 分对有没有这么一个过程就是如果尝了这个甜头的话你觉得后面还会就是有留一些产品或营销的经历再去干一开始像 WeWrite
包括今天皮卡其实反反复复就要做这个事就每一个月都会推几个特效出来对这个是之后的一些选择吗对我觉得那路径真的非常重要就是第一个功能是推什么大家对你的 first impression 是什么毕竟我觉得在在现在 gen ai 的时代我觉得创新其实是最最主要的推广手段所以你你肯定不要让别人觉得你是个的密兔对吧而且密兔对内部团队也很难交代就是对一个创新团队来说
你是很难一直靠做 MeToo 因为团队都会没有时期当然了就是如果你的团队不是个创业团队当然无所谓了你本来就是 MeToo 团队你就这么做但是 MeToo 的团队我觉得在现在的 Generated S-Day 是不可能成功的这是我的 Bias
那如果是一个创新团队你肯定要不断的去有一个新的创新东西往外推但是刚刚跟前面我讲有一定的背景就是我们又要抓需求又要有创新点那就刚刚路径就很重要就你要有一个创新品牌出去然后从 Relight 再切回到做 Translate 做的比正常 Translate 好 Translate 又是一个我要就是肯定是一个很真实的一个需求的市场然后我要他再把它做细
再从 translate 去慢慢去拓展我觉得这是一个对技术演变对市场的拓展都是比较好的一个路径不是每个商业都存在着路径但对 AI video 来说我觉得比较 lucky 就是存在这么一个不停的去拓圈的一个路径所以这是我们在做的但我知道有些公司可能不一定这么做
可能就是憋一个大招然后也不讲任何路径然后就爆火也存在但我们走的是我觉得是对 AI video 从用户需求出发的特立的路径这是我们现在做的事情
就这一批各种各样的 AI 公司从 Pika 到 Luma 然后从 HeyGem 再到比如说 VigoOpac Clip 就有没有哪个公司或哪些公司是你自己特别喜欢特别欣赏的各位分享一下这背后的一些原因就可能有你看到大家没看到或者有你认同大家会认同的点我比较喜欢 HeyGem 就是我觉得他们非常 focus 去做他们想做的
无论从徐佐的角度来说他觉得要替代 camera 他一直在做这件事情从很早我觉得他 21 年就一直在做这件事情中间踩了很多坑然后就慢慢做出来无论他搬去美国这件事情怎么说但我觉得从产品以及从技术推推技术这块我觉得做的挺好的其他很多公司就是像但很多公司我可能了解会少一点
比如说 design 就是另外一个朋友他做 image 相关的我觉得他们也产品做得非常好所以可能我可能比较喜欢把产品做得特别好的公司我觉得 design 跟 hedgehog 都不错
我知道 Voso 其实一直是没有花营销预算只是做了两次 product hunt 的打榜就做到了今天 100 万美金的年收入那你会认为这个 product 打榜对你们带来的帮助是有多大呀是一般大非常大还是巨大我觉得还挺大的我觉得从两方面看就第一个我非常喜欢 product hunt 其实我在 15 年的时候我就做过第一次 product hunt
那时候的氛围现在不太一样但我觉得它核心的价值是当你去做 Product Hunt 打版的时候我觉得你真的会去想你是什么样的产品怎么样一句话可以说清楚我觉得这个其实对产品的打模式我觉得是最有用的我觉得 Product Hunt 的最大的价值我觉得其实是在这个地方
然后它给我们价值是我们完成了比较简单的完成了冷启动虽然代价的流量没有特别大大概是对我们来说大概每个月每天大概是 1000 左右后面经过一些发酵之后大概 1000 左右但是 1000 左右足够我们做产品的 PMF 的迭代所以相当于是冷启动通过一次跟两次的 ProTand 就完成了我觉得这个其实是非常有价值
现在其实在 ph 上打榜有非常多的技巧也有很多运营秘技我自己在各种群里面也看到天天有人在拉票所以你会认为打榜成功成功定义就是比如说冲到日榜定义这里面有多少是运营的成分有多少是自己产品本身要做的好的成分这个占比是什么对这就是我开始说的就跟 15 年的时候非常大的差别那时候没有这种东西现在的话我觉得
protent 本身打板到低这件事情我觉得跟产品关系没那么大就是如果你懂运营你愿意去推你都是可以把推到
可能难说 Top1 了,推到 Top3 应该是没有问题的但我觉得这是一方面就是你把排名排到第一或第二第三不意味着你这 ProHunt 成功了对吧你成不成功取决于就是这个 ProHunt 最后对你的产品的 PMF 产生了帮助所以我可以我就不 surprise 有很多团队他可能打板到第一或第二但最后产品可能没有形成所以回过来刚回到国杰问题就是
打板成功或不成功我就是愿意的事情只是打板成功之后能不能带来真正商业的价值那我觉得这是产品的问题除了 Product Hunt 你们有在其他的地方有做这种露出吗我们几乎没有做过我们中间有一些机会要做但是我们相对比较克制
因为 ProHand 刚回来,ProHand 其实给了我们足够的流量我们我觉得还比较珍惜这段时间半年的时间去聚焦另外不完原因是我们刚开始的时候流量进来之后其实受到很多用户的一些反馈然后我们觉得这些反馈没有解决之前去再进一步推广其实意义不是非常大然后这些反馈其实非常多我们中间我觉得做对了几件事情就是我们很早就开了 Intercom
比较熟悉的,在 indocom 在网页上用户可以直接跟你聊我们几个主要人就会在上面一直聊一直聊然后知道用户到底想要什么,不要什么,哪点不满意所以我们就一直迭代大概是每个星期可能发一版两版,不停的去迭代他所以我觉得在那个时间点我们就没有太在意推广的事情
但这可能也不一定对只是我们这个做法可能有些团队他更早去做推广可能增长更快一点但这是我的观点就是推广早一个月晚一个月其实没有那么重要 PMF 走对更重要一点会有什么时刻觉得 PMF 找到了吗
我觉得是一种感觉就是我们当有如果定量的话我们会在意有两个值就是用户的续费满意度以及跟最后的绝对值就是我们的 AR 是多少我们那时候比较粗暴就是我定了个目标就想先打到一个 MAR 再说然后也是比较幸运就是没有通过推广也刚好打到了我觉得可能是一个
是个运气但但是跟三出的判断差不多另外一个就是续费率我觉得 reasonable 就是比如说我们进来 100 个付费的用户我觉得如果他用的对产品满意的话我就应该有 80 个人会留下但这个判断是我自己的因为我知道有 20 个人他可能因为自己的业务的原因可能就不做了
那我会有个判断那这个续费率打到了我觉得我们产品算是算是算是合格所以这两方面加在一起就变成我们自己内部的一个一个 goal 我觉得最好所以说我们有清晰的 goal 的话就是做事情不要不要有劲
每个阶段有一个 go 或两个 go 就不要同时在做这件事情又在说我有五个渠道要去推广所以我们尽量把它给分开一下刚才你有提到 24 年的 7 月份才正式的上 Vozoo 第一个版本就是 Rewrite 就把一个已有的视频传上去然后去魔改它那个确实也是一炮而红
然后你也提到入场比较晚我比较想知道的就是在这个时候才做确实我觉得是比很多人这个时间晚了一点那你觉得这个是因为在那个时候技术才成熟呢还是因为就是别的原因呢我觉得都有我觉得别的原因更多一点我们自己的原因更多一点后来其实我们内部也会做一些复盘我们其实在做 AI video 这赛道非常早我们 21 年
成立的时候就在做这个东西虽然 21 年的时候可能更传统的 CV 然后其实 22 年的时候我们其实在做一些深度的东西然后 22 年的时候其实我们非常早的可能比一般公司更早遇见到生成 CAI 的事情所以我们当时还做了一个
早期公司非常少见的其实我们其实在对跟外面一个很著名的我以前的一个老师一起成立的一个联合实验室其实很大的一个投入去做一些很基础性的研究做一些勤领的而且在那个时候其实我们几乎没有营收所以是很夸张的一件事情
然后那个营发到 2 3 年初的时候就特别 exciting 就开始有一些生成式饰品的模型出来那时候差不多是两个星期到三个星期我们就抵达一个模型抵达一个模型特别 exciting
但那个时候其实走错了点路就是我们那时候其实同时在做两件事情一件是我们原来的产品在做推广在做营收同时呢我们在做很基础的营发觉得这营发可能是将来很好的一个 future 的一个一个机会点
当时有个很好的 thesis 就是说我们从两边出发一边是非常抓地气的做应用另外一边是非常高大上去做研究我们希望中间某一天会会合但这个其实从初状公司来说我觉得现在回头看其实是比较错误的一个想法我们所以我们到 23 年的时候就出现一种状态就是我们想做一个产品但这个产品的 feature
并不能被我们的基础模型给支持因为基础模型的研究他是按他自己的方式去往前推堆大模型然后基础模型出来的效果很有趣非常 exciting 但那些东西不能被产品化都有各种各样的这种抽卡各种奇怪的东西所以我们 230 就扯了一年就是
好像我们很激进在做研究也在很激进的去抓应用但这两边就是就不能去被重叠就没有 synergy 没有形成合力然后反而互相觉得很遗憾你帮不上我帮不上你对对特别特别就引发的人也很纠结就他觉得我出了一个模型你为什么不能把我产品发然后产品说我要这个东西为什么你模型没给我那最后呢这到底是谁胜出
最后是左边做应用做需求的胜出所以我们到 2023 年 10 月份的时候我们就把我们自己的模型做了 PR 给发掉但其实那 PR 的意味就是说我们不再往下推了虽然那个 PR 上面不这么说但相当于是我们做了一个 announcement 我们出了一个叫 HiveNet 的一个多模态的模型但从那以后我们的研发团队
所有的营发立项都会从产品出发就产品这边必须 approve 你你才会去做虽然我们理论上留了 20%的精力给我们那些 researcher 去做一些他们想做的事情但从 23 年 10 月份之后我们所有的营发立项都会从产品出发去做那些事情但这样的 researcher 会因此而离职吗觉得这里不再是一开始想来的一个这样的做研究的地方了
其实不会因为经过前面一年多其实对大量的 research 来说他希望自己的 research 东西能够进到产品里面因为他看到我们的其他另外一个产品用户量非常大但是他的东西一直进不了这个
这个产品线但这个可能跟 research 有关就是我们比较运气就是跟我们一起做的这几个 researcher 他非常在意他的引发能被非常多人去用所以现在每一次 Voso 的用户量增长然后用户的反馈很好的时候那些 researcher 就非常开心所以我觉得这就变成一个比较有趣的
一个循环。 差英现在方便问一问就是 Vozo 融资到什么程度然后团队有怎样的规模这里面研究的产品的分别占多少吗?对我们现在融资在 AE-Rand 之前主要是信心资本跟红杉总值我们一共大概后面还有一些个人投资者加在一起大约会有
600 万到 700 万美金的样子所以我们的资金效率可能还算是比较高因为我们中期的迭代过很多产品非常高了从 21 年到 25 年 4 年就是只有 6 个 million 这非常非常高对我们从 22 年 23 年开始我们之前有些产品还蛮成功的就是也会有营收所以我们相对比较 healthy 就是我们整个团队现在的现金流是正的
所以压力不会那么大所以这我觉得也是一个对后来想就开始没有意识到但后来一旦 break even 之后对整个团队的心态也有很好的帮助然后我们现在团队现在规模还蛮大我们现在有四十几个人其实挺多的营发可能会占 70%多所以非常 heavy 的 research 在做
我比较好奇就是 40 几个人然后一个 million AR 这怎么能 break even 是因为有其他的产品还在持续的贡献外面的是吗 Volvo 不是我们现在营收的主要产品虽然是我花最多精力去做的事情我们之前有两个 app 在国内叫做说的提值器 app 在海外叫做 blink app
那这两个其实也是围绕搬作创作者能更容易去讲视频的但他背后的技术更是传统一代的 CV NLP 的一些技术所以那边有大概有 6 个 million 的 AAR 的样子所以基本那个产品就可以保证我们现在是现金流是 weak even 的所以我们现在 Voso 所有赚的 AAR 都是我们的利润
我想想我觉得还挺有意思的是那你们现在是一个应用工厂的模式吗好问题我们开始其实没想好我们开始做的时候就说我是围绕视频表达自由这件事情所以我们就抓用户的需求就去做了那款我们的 APP
然后后来我们觉得这个 APP 的能力非常非常受限因为它是传统的这种 CV 的方法来做所以我们又去做了生成这些东西所以我们中间很长一段时间现在是两个产品在做
这也是我们团队非常痛苦的点就是有两个平行东西在做但是慢慢的过了一段时间我们现在找到很好的方法把它们融合在一起所以再过一小段时间你会发现这两个产品其实会变成的同一个产品然后 feature 会互相共享那最终就是会服务所有的空间
content creator 以及各个公司的 marketing manager 或者是一些 e-commerce 的人反正他们都是用视频来去做讲他的 video story 这件事情是找到了什么方法可以让他们很好的结合起来这两个产品之间的用户重叠大概是 20%到 30%左右
定位其实是这样的就 APP 这边其实拼 C 端所以一些 KOL KOC 以及小量的 SMB 然后我们 Vozor 这边呢主要是一些 Enterprise 里面的 Marketing 的 Department 以及少量的 SMB 所以我们在 SMB 这边是有比较多的重叠所以这两个产品会被合并之后呢会互相一些导流以及一些功能的互相的叠的互相的共享那会变成同一个
会员系统然后大家你如果你买了我们的 Vozo 也可以同时享用我们 APP 里面的功能如果你买了 APP 加上一些点数你可以用 Vozo 的功能所以这两边的用户就会打通所以我们其实还蛮期待最后但最后的名字都会叫 Vozo 因为整个团队更喜欢 Vozo 这个名字为什么叫 Vozo 这个名字呢这个名字是 GPD 帮我们写的很有意思就是
这是让我非常 Impressed 我们想找一个非常短的词跟 video 跟 voice 有关因为我们做的东西其实都 talking video 就是都是会有人在说话有人在里面展现所以
voice or video 然后我们希望但这是我们的一个愿望就是将来每一个人都会有自己的一个 zoom 就是你每天会讲很多故事就像你写 blog 一样你会有很多视频去讲你的想法你的你的情绪然后你就会有自己的一个一个 domain 一个 zoom 然后我们就把它叫做 vozo 那这是我们的一个一个想法但是我们选它最主要原因是我们都喜欢这个发音又短所以 vozo.ai 一共就六个字母
非常难两三口所以我们取了这个名字其实 Vozel 做的时候 Sora 已经发布了
就是做 Vozo 和 Sora 发布之间有什么关系吗包括就这一年啊就是整个其实视频模型还是发生了非常多的变化我们上一期正好就是这个和 Luma 的产品经理在聊 20 个问题来带大家复盘从 Sora 到今天整好一年啊这一年整个视频模型领域发生的种种的事情这里面的这些事情和 Vozo 之间有哪些和你们有直接的关系有哪些有间接的关系可不可以请你分享一下
Solar 跟我们关系会比较小一点我们在 23 年就我刚刚提到我们 23 年 10 月份的时候做了一个新闻发布把我们之前做的那个 49 模型给发掉所以我们那个 49 模型印象中是在 Longway V2 之前发的所以它在 Longway 的第一代之后
但是通过做那个项目我大概比较明确的自己因为做过一直才知道就是视觉大模型做视频生成它的瓶颈会在什么地方然后我估计它大约会什么时候会被突破比如说可控性啊一致性然后以及它的算力成本能够一帧花多少钱然后大概会多少时间会降到
对一般的空调可以的可以接受比如说我生成一个一分钟的视频你付的钱不要收我比如说 200 美金 300 美金那就会有这些判断然后那也是那个判断之后我我我决定就不去再推思绪大美当然还有别的因素因为要做这件事情要很多很多钱我我肯定不是一个很擅长融资的人所以我觉得这个我我应该做不了这件事情啊然后我就去做更像是一个 ai
enhance 或 AIassistant 的一个视频创作而不是直接输入文本去生成视频我觉得那个在比较短的一两年里面其实很难有大的突破这是一个然后第二个我觉得那个突破不会成为一个壁垒
这其实后面被验证了就是虽然说了刚出来的时候大家就哇好厉害就是比其他东西甩甩出好几条街那时候我们就会预期就是我觉得再过三五个月谷歌的可能就出来了因为这个其实大家都会推进到最后就是如期发生然后你看中国现在有好多公司都能做这个视觉大模型的东西所以像这种就变成我我个人的一个判断就是这种通用的无论是
大雨模型还是音频模型还是视觉的多模态模型如果它是通用的将来都不会成为壁垒因为也会有开源有各种各样方式去做所以我们的创业就尽量会远离它我们做的我们自己做的所有的模型都是因为我们的应用有特殊性
我们会针对我们比如说我们做翻译然后翻译过程中对语气的保持会有不一样的要求所以我们会针对翻译去做我们的声音克隆语音以及 LipSync 所有的模型我们是围绕真正的需求去在这个锤子里面去迭代我们的模型然后外面的机座模型我们能用都会去用它我其实觉得你们应该做了非常多
为了满足好用户的体验而做的技术上的调整突破从一开始提词器到现在你说这个翻译的语气等等等等但我感觉这个是不是就是其实用户是感知不太到的或者甚至行业其实也都没有特别感知到这背后的努力对我觉得客户真的去用一下会感到比如说我们现在做翻译翻译
如果大家去试了一下就会发现就是翻译有很多难的地方举例子说如果你把中文翻译成德语它两边的长度是差别特别大的德语是我现在了解下来最繁琐的一个语言就是你可能中文讲了 5 秒钟德语可能讲 15 秒钟那在同一个视频里面在图像没有大改变的情况下两边就会有一步那比如说这边 5 秒钟讲完那嘴巴是
沾还是不沾呢对吧你不能嘴巴闭上 15 秒钟那这个东西怎么去解决那就很多解决方法就是你在翻译的时候要能够尽量的在实产上找到一个比较匹配的翻译然后呢又跟原来的语气语调要比较接近同时要还能退使你的口型能够变成一个合理的一个所以它其实变成一个优化问题
然后呢各个语言有不同的一些语言的一些特色就比如说我举几个可能都不用语言就比如说你拍一个一分钟的短视频或者是 15 秒钟短视频讲了一个品牌故事
品牌可能是个单词这单词如果你不知道他你就会把它翻译掉那可能就会翻译错了那如果你让人去翻译你可以告诉他说这个我的 agent 这个是我的品牌品牌不要翻错了我的品牌是个 happy 的品牌你不要把它翻译成悲伤的但是如果你让机器翻译一般机器是不知道他就直接翻掉了因为他没有上下文那你得要有一个合理的方式去告诉这翻译去调整它那这背后就会又会把刚刚那问题变得更复杂
然后口型也是一样就是不同语言的口型在口型之间我可能还再说一下那个情感像一般的声音课轮就是比如说 Cogi 或者是荣慧你讲个一分钟我就把你一分钟的音色给学过来但翻译不一样翻译其实它希望每一句话的情感是被复刻的
比如说你这句话是平并进下一句话是激动那最好是一句话对一句话能够情感复刻的比较好但是呢你翻译又不能一句对一句的翻一句对一句的翻你就翻译的不好了你没有上下文所以你既要经过上下文又要有对张的关系又要能够 copy 他的这个情感所以这也是为什么就之前很多机方在一般行业的眼中就是机方肯定是不行的
只要你在意他 1.0Quality 你都会雇一个团队一分钟花 50 美金 100 美金帮你翻但其实如果把这些技术都解的挺好的话我觉得他其实会超过一般的人类的翻译但是很专家的你还是会翻的更好一点但我觉得这件事情再过个一年两年
我觉得这个机方可能会比人类专家可能会翻译的更好一点所以中间有很多如果你是一个电商然后你要去翻译一个你的推广视频基本上你输进去一个视频出来一个视频你可以保持他的语气语调情感我们中间还最近还做了一些短剧短剧的翻译也是非常非常 challenge 因为短剧表情太太夸张了就是有时候
然后就很激动拍桌子你怎么样可以把这个情绪情调尽量能够保持下来就会有很多 challenge 所以我们其实慢慢再 take 一些更难的问题最开始是一些简单的 presentation 现在慢慢开始可以去做一些短距的翻译
其实上面提到这些问题每一个我感觉都很有意思而且被解决掉了之后应该都有很大的价值很多人都需要那你们在解决这些问题的时候是用工程上的方式去解决呢还是你们就是在用什么样的方式去解决呢这个有可以讲到什么程度吗都会有就是会有引发的手段比如说模型的提升也会有些技术手段就是工程的手段也会有些产品的手段
一般我们优先就会产品手段就是比如说一个弹窗告诉用户你这边要点一下这就解决其实最好的然后其次是一些技术的比如说刚才说的那些优化比如说你既要拉长
既要对齐又要尽量能够聚集成五变那这其实是一个优化问题你可以写一个算法然后你就可以去做一些优化那那这是偏偏工程的然后有一些人比如说语气的复刻怎么样可以非常快的一句话对一句话一句复刻那就会有那个模型的迭代所以这三层都会有所以是挺有趣的但你发现问题的时候你你到底用哪个去解它哪些东西是你
单情的 walk around 哪些你觉得是将来一定要做的东西所以刚刚那个语气就是一个很好的一个一个一个地方我们最开始会给一些用户的一些 interaction 比如说你可以把这块加强一点那用户让用户去控制但这个其实非常难就用户特别是翻译很多人领地的种语他他都听不懂
然后呢那就会用模型去帮他去直接做对那这慢慢就会往这边去做那刚刚又提到一个很有趣的问题就是比如说把中文翻译成阿拉伯语对吧作为用户来说你也不知道他翻的对不对
那这个事情怎么办对吧如果你找人去翻译你付了他钱跟他签合同他翻错了你到时候可以找他但是作为 sas 来说你你到时候是不能找我的那那怎么办所以我们会给一些很有趣的 feature 我们有个 feature 叫做 back translation 就是你翻过去之后你就说请你翻翻回来
然后你就翻回来可以对一下跟原来意思差不多那肯定是对了这个很有意思就我先翻成阿拉伯语再把阿拉伯语翻成中文如果中文我觉得是对的那就说明这有点像之前那个快乐大本营的那个游戏就是一个人蒙着眼睛给另一个人讲然后再往前传递对否则的话这问题很难解决你怎么说服用户特别是用户如果他发的是很重要的 marketing 的视频他很难去点这个 button 他不知道你放的对不对
刚才有提到 SORA 的发布视觉模型对你们的做 Voto 的影响其实不太大但感觉过去这一年其实大家说到 AI 视频都觉得是视觉模型在突飞猛进各种新闻都和它有关各种炸产和产品也都和它有关
那就是过去一年有哪些技术突破让 Vozo 比如说从不可能变成可能或者从原来只能做 60 分做到 80 分 90 分就在过去一年有哪些技术研究上的突破是达到了刚才说的这种吗其实都相关的就是比如说无论是那个 Solar 的那个 DIT 的整个架构是怎么样子包括跟我们这边直接相关比如说声音的复刻
然后嘴型的生存嘴型生存如果对这个领域比较熟悉的话大家知道就比较早比如四五年之前是有老的一套技术方案可能用 GAN 用别的方去做生存到他清晰就很低然后真实度就会比较差到这一波的革命之后我们就会用 Transformer 去做口型的生存
然后最近又开始有新的演变比如说有那个高斯破件然后高斯破件可以去生成的更快然后质量会更好然后我们就会在这之上就是虽然我们不会去做非常底层的说我们推出一个新的非 transformer 的东西但是我们会在这之上就会把比如说我们口型的生成我们现在翻译之后也可以对口型做改变嘛
我们现在对口型的 LipSync 应该是行业可能是做的最好的之一那这个也是受益背后的我们有很多数据然后我们也对给予现在的最新的技术的跟进总之我们也会用一些视频生成的模型比如说在我们最新发布的一个新的 feature 里面就是我们会让你的一个图片
能够动起来然后同时让他去说话那这个其实是一个视觉的大模型去做生成只是我们的大模型会不太一样一点就是把一个照片动起来那有很多公司在做怎么样可以让做的更快然后他动起来的时候跟他的说话能够能够比较和谐那那就是也是在视频生成这个整个行业往前推的时候我们尽量能够
踩在金板上然后能够跟着他这个这个势头一起走把原来不能解决的用户问题给解决了所以回到刚刚问题比如说快速的一句话的 voice clone 非常真实的口型命步以及整部画面的生成其实都是过去
一年半到两年才静静发生的事情可能有一些可能都是过去半年才发生的事情那你怎么看另外一个观点就是今天视觉模型其实在突飞猛进就是我们录播客的前两天就是 Google 刚发了 V2 也是大家对它的评价非常高
所以有一个观点是认为模型有可能到最后集产品或者模型的进化有可能会吞没掉一些之前大家在功能上雕花的这些部分你会怎么看这样的一个未来对我觉得一定会的它是一辆大车所以我觉得对于做产品来说你得理这个就像我们内部一个准则就是如果它是一个标准模型
不要去碰它我们要做你应用很近的不一样的东西我觉得不一样的东西其实是非常稳固的如果你往回看看比如说 Made Journey 对吧你说纹纹身图他其实他整个大的整个生成的框架应该大差不差但是从从商业上可能很多人已经习惯 Made Journey 然后 Made Journey 本身在技术上有很多系的 tuning 那这个 tuning 其实是会带来非常大的差别的嗯
在视频这边也是一样也许将来会有一个类似 deep seek 一样的更好用的一个视觉的模型但是当你把它 apply 到你的应用的时候差别是巨大的这个其实在过去无论在谷歌影镜还有我之前的其他创业以及包括 MayJenny 那个 David 他之前上一家创业也是这样就是同样的技术的这个时代
他就可以做的比别人好很多那这个我就是应用这边的技术人该做的事情我觉得可能不用太担心有一个模型就把所有事情干掉了不需要任何的冰角的这个
技术空间那我觉得那是不可能的有没有什么事情是就是在过去你看到的技术突破带来的新的产品机会但是因为你们太忙了或者你们的方向不在那边而没有做的这可以给其他正在创业选方向的朋友们一些指导一些启发这个不敢说因为这个真正才去做了去去做调研了才才知道但我自己个人会对有些东西会有兴趣因为我之前做国有影镜嘛
我觉得引进加一个 low latency 的 LM 会很有意思一件事情有很大的想象空间但这可能是又又回到我之前的错误有可能因为我对这个东西非常
非常 exciting 那真正要去做的呢还是要去做做商业的做分析但是从技术人来说原来我们在做谷歌引进想做的很多事情当时当时做不了现在都可以做了中间有个最大的谷歌引进就让我非常 buy in 的一件事情就是那时候也是也是 circuit brain 想做的事情就是谷歌引进让你更聪明
他的说法是说比如说那荣慧问我个问题这问题我其实是回答不上来的但他就很快的告诉我快到我以为是我自己想出来的那那这个就我就就对于像我这样的我我愿意付钱去去买他是你前面说成立了一个实验室的那一点就我觉得这个可能对初创公司
来讲还是相对比较少见的可以讲讲当时的这个当时想要做的事情然后这个实验室对这个事情的帮助吗以及因为我知道你之前是 Google X 出来的然后就是做这个实验室有受到之前在 Google X 的什么经历影响吗或者你可以先介绍一下你当时在 Google X 的经历吗
我虽然最近在国内我可能我的职业可能在美国会更多一点我是 11 年在哥伦比亚博士毕业之前那时候在决定是要去做 professor 还是去做一些别的事情刚好那时候 Stanford 的一个 professor 说要去 google x 成立一个新的组所以他就拉我然后他从 Stanford 去他到时候 spatial 就是一种一种
叫什么类似 take a leave 的方式然后我从 哥大去休学然后我们还有另外一个 professor 我们三个人就在 Google Ads 成立一个新的组所以那个组就是
回头想其实那个组其实为了满足 12 个 Brain 就是 Google 的一个 Founder 的很多探索的需求所以我们我们我们成立一个组最后增长大概 12 个人我们 12 个人里面大概有哪过试试格拉美奖基本把整个行业最厉害做 Computer Vision Photography 的这个领域的人都找过来所以做了很多很有趣的事情
中间有一些还蛮有影响的我们我们其实是谷歌引进
最核心的成像跟视频处理算法整个技术战是我们给的这技术战现在其实也在安卓基本上所有的手机上所有手机安卓手机上面的 image processingvision processing 都是我们那时候给的一个技术战所以这个可能对我影响会确实会大一点然后我们然后我开始做创业我第一次创业是在美国也是做的非常
可能 hardcore 就是做做 immersive video 的一些可能最前沿的东西然后应该是那种做做的最高清视频的渲染深层的一个创业然后我第二次创业就是这家公司有个非常大的反差这个公司是做非常接地气的事情这也是我请一个 lesson 就是我一定要做用户明确要而且非要不可的功能那就形成了反差这样的东西都非常接地气非常不 sexy
然后我自己就非常非常难受就是我做的第一个功能觉得好 low 虽然大家都想要然后这是我的一个个人的情绪需要有一个地方去发泄但另外一方面就是我会觉得像这种非常接地气的功能虽然用户要但他是没有办法达成我们说要视频表达自由这个大的事情的
你用传统的微选方式往前推其实是你是到不了那个点但你可以 make money 所以我觉得存在一个 research 的需求去解决一些非常核心的问题比如说有一些人他形象就是很差
他的音色就是不好他讲话就是不溜你无论怎么去剪辑他都是没有用的你给他再好的提词器你把脚本全部都写好他也是拍不出来的那这些东西就要被解决那我们就去做一个 research 的事情所以有点任性但是好像很 lucky 就是也不是我们突破而是整个行业突然间 220、230 做了很多突破然后我们实验室就借助这些突破然后去做了这个事情所以可能是一个
这个其实就是乔布斯说的你在某一个时间线上会发现前面的点都可以连起来然后我其实刚刚你说到这个时候我突然想起来我认识你的时候就是就是在第应该就是在第一段创业的时候对吧对我还记得我们在那个三温赛可分身 Center 吧
对是对吧对对对对然后你可以再说说就比如说当时在 Google X 的时候那个那样听起来那样子的环境应该是一个没有预算限制只求探索的这么一个环境吗很理想的一个做研做科研的一个环境吧对我觉得可能没法想象比那时候更好了其实那时候我我举一个例子就是那时候的一个 Imaging Lab 我同时管了一个 Lab
然后如果我要采购东西一万美金之下我就可以直接买了所以是非常奢侈然后我可以对然后我们去招聘的时候第一个阶段我们会把 Google 其他组的 A+的人都招了直到最后 Leader Page 是
管正式的业务的嘛 Serge Pring 是管 Google X 去搞一些奇奇怪怪的事情的然后有一天就 Larry 就就生气就说你不能再从 Google 别的部门去挖人了然后我们就开始从 Google 外面去挖人然后基本就是我们会找我们觉得在我要的方向上最厉害的那个人所以非常非常奢侈但这个其实也是后面我离开的一个原因就会发现就是进入这种状态之后基本都在做 research
后面我带了一个项目然后有六七个人帮我一起去做这项目呢也在 Ohanz 去做 demo 但 demo 完之后大家就哇好酷然后就没有然后就挂在墙上去做展览哇这个好厉害那我觉得这个东西要跟我读博士的时候也没什么差别我觉得我还轻重比较浪费这件事情所以太自由走到极端之后我发现没法产品化没法这个东西产生影响所以是我离开的主要原因
这你能给听众解释一下你刚说从 google 的 a plus 招人 google 的 a plus 指的是什么就其他组这个能力最强的然后业绩最好的人我们就看哪个组比如说我们看中了 google earth 就是做 google 地图那个组我觉得他们组有一个人
的业绩特别好人最聪明然后我们就会去把他招过来他们一般都会来他们都会愿意来到我们组就基本就我们在 google 内部就就自己去调对所以这个其实其实不是很好对业务部门因为他们是赚钱的我们是花钱正好前两天听那个 mark and jason 他最新的一期播客里面讲到开源的意义他就是盛赞这个开源的意义其中就提到说
正是因为开源才让学界有了能力去做一切就是前段时间只有大公司才能做的事就是因为花费太高我觉得把一些厉害的人能够放到能产生影响的地方我觉得是比较重要的而不是一些大厂或者是某个机构把很厉害的人聚集在一起但不产生效果我觉得其实是比较浪费的一些事情
那你当时就是抱着一种想要让自己的研究能够落地,能够就是变成现实的这么一个想法,可以说一说就是你的当时第一段创业经历主要是做什么,因为我记得当时是做 VR 对吧?
对所以这很有趣就是虽然我是抱那想法出来的但后来现在回头看我的第一段创业经历其实还是非常 research driven 就是我觉得那时候已经已经很努力去去抓用户需求了而且我会以为自己抓的是用户需求但其实回头看其实并不是但第一段我我更多的角色是 cto 了所以我会更在意我的技术是不是行业最领先所以那时候做的事情
其实也是一个比较 be invasion 的一件事情就是我们那时候希望能够让两个人无论你在什么地方你们两个人之间就可以随时随地的互相见面就 teleportation 这个这个概念所以我们会做很多视频的压缩然后怎么样可以高清的渲染实时的渲染去做这件事情
那这个事情从大的逻辑来说你会觉得这个需求非常大的你可以让任何人两个人在空间上可以去连接
但其实如果你从商业上去去做很多的仔细的变的变息的话你其实发现这个商业场景其实是不成立的有很多原因会导致你的商业模式不成立所以不是说你有一个 idea 这 idea 好像从逻辑上说得通而且实际上很大你就可以去做这件事情其实 Apple Vision Pro 之前推的时候也有这个就是 FaceTime 当时这个 demo showcase 出来
我们应该都有试过吧还是蛮震惊的但是好像也就是试过之后就纷纷大家的 FB 都吃灰了也没有人真的在用他打电话当时你这个你也提到吗觉得这不是一个真需求这背后的原因是什么当时有去思考过吗
你说微信 pro 微信我其实刚上线的时候我其实就不是非常看好他但我知道他的体验会非常好我第一档创业公司中间有一个员工其实后来就在微信 pro 去做微信 pro 的事情因为他还是放不下他对 VR 的一些事情他就是这个商业上能成立其实有很多条件比如说你的 phone factor 是怎么样的普通人能不能接受这件事情他有没有其他的替代方式去做
这是这一方面另外一方面就是这个你要形成生态那里面要产生很多的 app 那就有很多生产内容那有些人生产其他就是你会有一个一个产业链那你这都得做得走得通所以我在我第一次创业之后有一个我的非常保守的一个商业的一个选择就是说我要做整个行业链里面缺的最后那一块
就有时候你会觉得这个事情很漂亮他应该能做成但这件事情做成需要五环然后你说我先去做第一环然后你希望别人把另外四环给做了这其实是非常难的一件事情所以 visionpro 其实也是一样无论你是从 fone factor 价格用户对他
有没有一个 must have 的一个一个 reason 其实都去了很多很多东西但它有非常吸引人的地方对吧体验非常好然后非常酷炫你可以想象很多好的东西但这好多东西没法形成一个完成的完整的一个商业的链那就不能做也许 Apple 它有足够的资金可以一直烧但但是我就记得像 Apple 这么大的体量都很难把这么大的一个一个链条给串起来那对创业公司来说可能要
尽量躲得远远的其实做 Vozoo 刚发布的第一版就算是非常的成功嘛这个成功背后也有就是用户觉得喜欢享用爱用喜欢传播那这个就是非常好的实现了你从一个 researcher 到去找用户需求满足用户需求就是这个转变你觉得就是在做 Vozoo 的时候你自己是做对了哪些事情啊带来了这个结果我觉得我做 Vozoo 的时候我觉得第一个我觉得我比较耐心就是
其实之前做一个产品的时候因为像拼 research 的人有时候会特别 exciting 就是你想到那个想法就哇这想法好厉害你要不把它做出来你都很难过 Voso 的话就其实是难产的就是我们不停的有个想法然后被 kill 掉想法 kill 掉我们其实在 Voso 情深是我自己用我用 GPT 帮我一起写了一个
我想做的一个功能然后我就可以在我的电脑上在 terminal 上去做一些视频的剪辑我当时觉得那想法好好大概是 24 年可能 3 月份的时候然后我就先用它真正去剪视频去改视频然后我就发现并不是我想象的那样子第一个事情就是我要模改的虽然那个工具可以帮我改任何东西但是我竟然不知道该怎么改然后我就会问 GBT 说我要怎么改
然后 GPT 改完之后我再一条一条的改进来我说这那这个不是很麻烦吗那我就把 GPT 给给给接进来就是我只要跟他说请把它改的更温柔一点然后他就帮我改完了那就就相当于是从二三二四年的三月份我自己写了写了小程序去用去玩去迭代然后觉得要加这个东西要加那个东西然后一直到七月份的时候
才做了一个东西我觉得好像还行好像可以玩得起来然后才把它做上线然后中间就会做很多的 studystudy 还有好处是因为我们之前有别的产品我们有很多的社群所以我对一般的 creator 他大概是什么样的水准会碰到什么问题会比较了解所以
虽然之前我们的视觉模型已经积累了很久真正去推这产品的时候还是会经过很长的时间然后我觉得还是值得的去花了时间找到产品然后再去推它
好过就你都做了然后发现自己做错了然后当时你在 Terminal 里面去剪视频这个事情是你在就是寻找用户的需求寻找产品的 idea 才去做的还是是那个时候就是你自己确实就是也正好需要干这个事情
我那时候是想了一个想法就是说我希望有一种方式可以像编辑文字一样编辑这个视频然后这个想法在图都画好了但我觉得图画了在脑子里想不算所以我想那我要把它实现出来那实现最快的方式就是我在 Terminal 上去实现就写了一个没有 GUI 的界面的一个软件然后当然可以用 Command Line 去实现所有我想做的编辑
然后第一个视频做出来之后那团队就很哇我说啊这个可以改成这样吗但那个视频我花了很长的时间就是我要一点点扣一点点扣然后这是我第一个版本然后我后来想怎么可以把这个从我三个小时改成比如说我十分钟能做完因为我觉得一般人超过十分钟要做那他可能就不做了那就慢慢去演变这个我的 prop type 然后到一定程度我觉得好像有点意思然后在团队才会进来去做这个产品
你说到就是第一段创业经历结束然后后来回国再创业当时心里面想说一定要做这个非常接地气的事情当时是什么样子的事情发生或者是什么样子的感触让你有了这个想法我一定要做用户就是特别特别接地气用户一定会用的这想法差不多是我觉得有个背景这样的就我们之前做 VR 那个项目的时候
我们设备了很多特别大的客户包括 AT&T Verizon 也包括中国移动中宣部等特别大的一些用户然后但有一个很强的体会就是每次我们从产品迭代以后
我们都是要求着他们去用的因为他们其实没有那么强的意愿去用它我们都要去说服他说哦有个申请去试试看然后每一段时间都要求他说你有什么反馈呢但他们很多时候根本就没有用他们只是付了钱的就是就放在那里这也是会导致就是我们前一家公司后来没有做特别大
那在那个时候其实感觉还没那么明显但是我是 20 年有时候会回到国内然后 21 年在国内待的时间比较多所以那时候刚好是疫情嘛所以我在杭州就是我哪也去不了我就把杭州的 mcn 大概十几家 mcn 的 ceo 都聊了一遍然后就形成一个非常强烈的对比就这些人
每次聊都会讲很多他的需求他说我要这样我要这样去做视频我现在有这个问题就是跟 VR 就亲密对这边就是有很多东西想要但是我暂时还提供不了另外一边就是我做了好多东西我求着他们去用我觉得那个精神好痛苦老师我后来觉得我做商业应该是这样我要做有很多人想要的东西我做完他们立刻就可以用我觉得这是
才是一个好的体验的商业然后你做了什么呢对所以我们那时候先第一次做直播机很有趣就是因为那时候有很多 mcn 想想做想要做一个直播的一个大楼这大楼里面说有几百个直播间然后他们发现就没法去做这件事情因为直播机很复杂特别是高级的直播你看有多个机位然后可能还有一个导播每个人带着耳麦说一号机位如命二号机位拉大就很很复杂的一件事情
所以我们那时候给他做了一个直播机就大概这么大大概人头这么大一个直播机只要有一个人拿着一个 pad 然后大量的镜头切换都是他自动去切的他会理解这个场景然后你手上动的时候他切到你手上你可以展示一个货品然后这个导播就很轻松还是做 research 的人的本能反应就希望用 AI 替换掉那这是我们第一个产品
然后其实还是不够接地气有它有很多商业上的问题然后这个项目大概过了半年之后我们把它 kill 掉然后再做了后来一直延续到现在的一个比较成功的产品主要是功能是提迟器
我就可能大家可能会知道提词这种事情就是对大多数的人包括我在内就是提词是最大的一个难题只要超过一分钟可能超过半分钟我可能就记不住了只要记不住你拍视频的时候就会隐身会撞过去看那这个拼词可能就废了
所以我们就做了一个很简单的 AI 提示器它一个东西悬浮在你的手机上方靠近相机的地方然后一边说话呢它一边会滚动就有点像唱卡拉 OK 似的那唱卡拉 OK 呢你是跟着字幕走嘛
那这个 AIT 自己就是字幕跟着你的声音走你停下来他也停你讲的快他也滚的快一点所以对于像一些还不是非常专业的人来说就很好解决他这个问题然后这个东西也还让我有很多意外就是我开始说我不知道他赚不赚钱反正我知道他们他们需要这东西那我就做给他们然后做完变成 APP 的时候发现他们还付费
然后就很有意思而且付费率还挺高的然后我们就围绕这个东西就慢慢把这个 APP 做得越来越大更多的功能做进去然后付费率越来越高然后这个产品 22 年上线然后到现在我们大概累计有 800 万用户左右然后我们还有私域群我们因为很多达人他其实要需要很多教育所以他会进到我们群里来然后我们群里的大概将近 10 万人
所以就是有时候就发现国内这个市场真的是非常非常大然后接地气的需求需要的人非常多这是
我们相当是在 21 年之后先做了直播机然后转向短视频制作围绕提词器慢慢去把这个 APP 做出来那这个 APP 其实现在也是我们营收的主要来源这当时做一个提词器 APP 就听起来就是你之前可能 10 年的这种研究之心得都没法发展没法发挥了
当时是一个什么心情啊会觉得就是感觉好像就是割裂了过去的积累的感受吗会有这样的感受吗
会啊会很强嗯因为对于我来说有时候比如说我去去有时候跟一些我的以前的老师或者或者同学聊的时候我一般都不会跟他说我在做什么哈哈哈哈因为这个并不是一个非常 sexy 高大上的东西啊但说回来就是一个 AIT 实际要做的好其实很不容易因为你在在在录的时候你跟反镜你可能噪音会很强然后这个人讲话口音可能会很重
然后他跟跳动可能乱跳但你真正要把这个东西做的很好用呢有很多非常 dirty work 的东西然后有些性能很差我觉得也不容易但是他确实不是一个高大上的一件事情所以他就像刚刚提到的就是就逼迫我后面去做了一个实验室那件事情因为否则的话就感觉自己和解
感觉我在干嘛哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈 哈哈 啦 啦 啦 啦 那�看不上自己做了提�词系这个事就可能花更多的时间去做更多��类企 做 做 这 做 做 做 这 做 做 做 做 做 做 做 做 做 做
因为那个决定确实还是比较冲动的一个决定当然因为我是跟我之前的一个导师然后他他是一个美籍的外籍院士因为我们跟他我正跟他聊的时候从逻辑上来说一我们在一线知道非常多视频创作的一些问题
然后有非常多的 researcher 他有很强的 research 能力但是他其实并不知道真实问题在哪里所以从这个大逻辑来说是值得去做一个深度研究的实验室然后我 feed 课题以及确定他的研究方向来去做就这大的一个我觉得是一个成立的一个结论只是说这件事情也许不应该我在同时在做创业的时候来做
当时也没想这么多那就做了呗那如果回头再想可能我就 50%我没有那么笃定再来一次我会再做一次实验室所以是到提示器这个点这个按照这个时间线呢就是从 Google X 到第一个 VR 的创业的项目然后到杭州做了直播机然后是提示器然后是这个 Research Lab
然后是 vozo vozo 会跟提词器的 app 会合并对提词器其实在原来 app 里其实已经变成一个功能了因为它只是这个 app 最开始的入手不过回到刚刚 coachy 问我的问题就是我觉得回到那个时候 lab 大概率还会做如果不做 lab 我一定会做别的比较 crazy 的事情
对否则的话我觉得如果我是做纯的接地气然后能够 make money 这件事情我觉得我应该是不会接受这个东西的此刻呢你觉得此刻今天可以接受了吗我觉得至少不是我让我觉得我有点 proud 的这东西是我做出来的我觉得我觉得可以交代对如果如果只是只是提词器的话我觉得我没法跟自己交代这件事情你在当时做提词器这个时候
因为我觉得它对你的就是根据你的这个职业经历来看的话其实是要是对一个人的要求是很高的因为你要改掉你过去的工作习惯作为一个有光环的海归回来之后去见就是
不是说人家做的事情就是接地气而是你要去接触一群你可能从来没接触过的人你可能以前都不知道该怎么跟他们打交道我想问这个问题是你在这个时候有做哪些比如说是可能是对自己影响比较大的自我反思 self reflection 或者是其他什么样子的比较大的调整能让自己来去做一些自己可能以前从来没做过的事情然后去克服这种我们从来没有做过这件事情带来的这种恐惧
我觉得我的我的我的性格比较有意思就是因为这件事情我自己没做过所以我我其实我在做的时候我还挺 exciting 的就是有时候去一些直播基地啊然后跟一些以前从来没聊过的人聊啊有时候会非常非常让我 surprise 就最开始做的时候我举个例子就是有有一个用户跟我抱怨说他提及不好用嗯
然后我们就说那你的环境是不是比较有噪音然后你的画面看着就比较差你的灯光是不是比较暗然后他会很确定的跟我说他环境里非常安静灯光非常好然后我们就很奇怪然后我以为我们出 bug 然后我们就去了他们拍的地方然后他灯光就是非常暗然后他边上就车来车往就特别吵我就很有意思就是他不是说谎他就这么认为的
就是人是很不一样他觉得我反正我很亮啊然后我们说的亮不是他说的亮然后我们觉得安静不是他说的安静我我觉得很有趣嗯所以我去很多直播基地包括我跟每一个 mcn 的 ceo 聊的时候我觉得他们跟我们都是完全不一样的我觉得很好玩啊但这好玩是一方面那有时候晚上静下来的时候想要我做的是什么事情那就又会又会有个所以所以我倒是我知道可能有些人
会很难接受我还好我觉得我这个导师我觉得是让我觉得 exciting 的部分不 exciting 点就是我觉得我做的东西好像别人也能做或者说我可能做的比别人好一点点其实让别人做也能做这其实是我的因为我之前从做 research 的人做 scientist 的人就一般会有一个想法就是我要做别人做不出来的东西
那这个其实是心理上的比较大的挑战那其实从经济上对这也是一个经济理性上的考虑吧就是当我做可能 1 万个人都能做到东西的时候我也没有独特的竞争力所以我要做别人不能做的事情这个竞争力才能让我有持续的差异化可以越做越轻松吗对技术出发的人这个坎一般过不去就是总是觉得如果做的东西没有技术领先优势这感觉就就不能做了有时候我们不能叫自己精英对吧但但是说精英创业的话我觉得
这个其实是很难突破的一件事情就是你总觉得我要做点不一样的事情但是如果从商业的角度来说其实不是这样子但我觉得就是其实这是挺多这种不管是研究背景还是技术背景创业的人很多人都会遇到的一个问题这个你怎么样从商业的角度来看这个问题而不是从技术的角度
技术突破的角度来看这个问题对每天都会看到很多很多项目是这样子的呃我我觉得有有几个我觉得有几个 point 我我可能没有没有特别系统化嗯第一个呢我觉得是
需要是个好的产品经理就是得抛弃自己的 wishful thinking 比如说我第一段经历更像是 wishful thinking 就是我觉得如果我做成一个能够远程传输的这么一个系统那就会有人去用它然后就会有人给他做相机做设备然后大家就会付费然后就你有很多符合逻辑正确的 wishful thinking 但它其实并不会发生
他会不会发生其实你问一下就知道了嗯那这这是第一个我觉得要克要克服的事情第二个事情我觉得是是还是是 knowledge 就是他可能并不知道就是说对于整个市场来说你需要你创新的人群占比是多少其实如果你真的去做调研你是非常非常 surprise 就是你你你很在意的那些创新的点
其实对用户来说可能中间有 1%的人在意这件事情这个我觉得其实是 knowledge 的缺失就是可能并不知道所以你会觉得创业部分很重要我觉得一个是态度上 wishful thinking 的事情一个是还是要更了解这市场然后可能会有些怎么去掉自己的 ego 之类的事情我觉得还是一个
可能需要一个系统性的理论但我现在没有我觉得也许科技你可以想办法去总结一下我觉得对于很多创业者会很有帮助你刚才说到这个去掉自己的 ego 这一点其实这一点是我觉得最难得一点就是你有什么现在回头看当时有做什么事情来去掉自己的 ego 其实都是被动的一些教训
然后才会去这件事情因为你不会觉得自己错了然后你错了几次之后你就知道了
那你的那个就是有没有一些什么应该怎么说呢就是有没有一些什么样子的时刻是你觉得自己在经历一个很大的改变你说某个时间点吗或者是某些经历或者是说你有比如说这个时候有要求自己去做哪些以前可能你都不会做的事情嗯我觉得
我不知道是不是人会问到这个问题知道在行为上也会有些变化我觉得一个有个表现就是
认为自己想的东西都对无论大的小的都会试着去说服别人等等我觉得我也不知道什么时候发生我觉得慢慢的很多比如说在团队里因为我还是会参与比较多的产品跟技术有时候我会抛一个技术方案然后这方案可能会被小朋友们给否掉对吧
那现在一般就会很习惯就是虽然他们否的不一定对但否就否掉了只要这件事情不是非常 critical 的事情那我就会让他过那这个
算是这改变,我觉得我以前不是这样子的我以前会觉得我是最聪明的,我铁路一定会对而且这东西很重要如果你做那样子,性能就会从 99%变到 98.9%这是不能接受的一个事情但我可能想不起是哪个时间点开始这样子是不是因为曾经这样的放手也让你得到了正法规呢?
我觉得是我觉得放手之后自己时间会多很多就是没有必要因为比如说如果从概率上说如果用我的方案可能 70 分对吧
然后用他的方案可能也许要 65 分其实没有关系然后因为那是他的方案所以他执行的会更好所以他做出来结果可能拿我的比我的可能还更好一些所以是没有必要去纠结这种东西只有一些东西他真的是非常非常 critical 那应该是非常极少数的事情我应该想得很清楚然后一定要去这么做收获所有人
那就会收受到非常少就极少数的事情那你在这个时候有对创业这件事有什么新的理解呢对我我其实有有一个东西我我今天看着那个第二部分的一些问题我想了一想嘛然后有一个跟这个有关就是我我至少我在最开始创业的时候有个有个心路历程
我是 15 年从 Google 离职开始做第一家公司的那个时候但是很懵懂了我就做 CTO 然后去做技术问题所以创业就是一个模模糊糊的一个东西然后反而 exciting 就去做就完了
后来慢慢觉得哇创业的事情好多啊就是每天要这个那个那个这个好忙就是包括我第二次参与做 CEO 的时候好多事情然后什么事情都会自己去去做然后但其实我的经历非常分散一些公司重要决定我其实都我觉得都没有做对就是可能因为发的经历没那么多然后慢慢的发现其实重要的事情没几件
然后现在更多纠结是到底哪件事重要的事情比如说现在我有三件事很重要但我心里知道其实里面肯定也没那么重要可能中间就有两件事情是重要的然后我会花很多时间去想到底哪个更重要所以我在想也许更厉害的创业的人
他能够一眼就知道这件事情更重要那件事情不需要做所以我觉得这个路径可能我不知道接下来 305 年会怎么演变但我觉得聚焦这件事情知道什么事情更重要这件事情我觉得可能是但这是我的理解我觉得是可能一些特别厉害的创业的人跟跟像我这种比较普通的人的差别
一个好奇就是当时这个公司融资的时候找线性找恒山应该聊了一大圈你是用这个直播机这个 idea 去融的资吗
其实当时你的这个整个研究背景就是包括第一段创业也是做 VR 跑去做直播机这个确实也是一个很大的落差当时你是怎么就下定决心看到了一个什么样的直播机的一个远大的一个商业的前景然后让你愿意就是自己下场真的做 CEO 去这个 take 最大的 risk 来去创业
其实有两两边的想法第一个呢就是我觉得国内的电商以及对短视频的需求这是一个非常大的市场里面一定有机会有一些技术
能力的人如果商业因为我是温州人我总觉得我的商业能力不会太差我觉得这个地方一定是有机会的直播机是不是我不知道但是直播机在当时看上去是有明确的客户然后他们想要然后至少我们也能卖蛮多钱只是当时没有想明白直播机这个软硬金的项目将来能走多远以及会有什么坎没有想得太清楚
反正就先做了所以中间其实我们经历过有一次融资有一个还蛮有名的国内的一家美元基金的老大就直接跟我说
你为什么要说这个事情你能做别的吗我觉得确实这个是一个挺让人意外的人生的转折的就是做那么久的 research 然后现在跑出来要创业去融资的时候讲这样一个 story 就是我觉得每个人都会怀疑自己可能听错了你要做的方向会有这种就是巨大的落差感但你小时候就会经常这样嘛就出人意料的做一些决定
对我比较我比较特别一点对我有很多很奇怪的一些决定可以讲一些你类似这种就让人要这个 double confirm 一下这个真的是他做的吗就这样的事情还有哪些我本科是管院的
所以我是先在管院学习然后毕业后去微软工作就这很奇怪的一件事情在微软工作一段时间之后觉得我想做 research 了所以我就从微软辞职然后去去读研读博了本科是学管理然后研究生读的计算机对吧对而且多数人到了那个岁数要再转回社企也转不了了呀
我不是很操心这些事情就是我的可能成不成本在我这边不是很重要我觉得接下来是该做的事情可能就不去做了
那你是李旦说那句话沉默沉稳不参与重大决策我觉得刚才你说到那个你做 Vozo 的前面做的那些因为你自己在做一些研究然后自己用工具来把它写出来其实之前做研究可能有一些因为环境的优势让自己也可能相对来说对更接地气的东西之前在前期可能接触的不是那么多然后到后面我觉得
我觉得它是一个闭环就是闭环在了这恰好其实也是你自己做 research 的一个习惯然后结合了工具结合了这个特别是 AI 之后的一些机会和工具的大的发展然后它合起来发挥了一个作用对我觉得其实最后节奏点其实是在这个产品上面因为我觉得产品经理真的是蛮难做的我觉得差不多是
过去的这么多年硬生生把自己变成了一个产品经理我觉得产品经理可能是这个时代我觉得是比较有意思的一个岗位就是你要理解技术然后你要理解市场你甚至要理解一下这个流量怎么来然后这几个东西全部能够很好的绑定在一个东西上那就那个产品所以
技术人过来做产品还是说市场的小伙伴去做产品都会有很多挑战我走的可能就是从从 research 到技术到产品这这条路径所以可能我觉得还挺好的是挺有挺有趣的一个当时做这些事情的目标是什么呢是我就是要去做一个什么样子的公司还是我要赚钱
就是那个核心的心理的动力是什么以及你刚才说这个我也想到就是怎么样做到能让沉默成本不参与重大决策我觉得这是一个挺特别的地方我觉得那个可能是人的个性
就我可能是个纯理性的人然后我我之前我是我是个概率论者所以所以还还好我觉得初中可能会有两部分吧第一个就是从无论从以前做研究还在 X 可能被谷歌也被影响就是做做 research 就希望
我自己的 intelligence 能够非常 positive 的影响非常多人影响这个世界就这可能是从大的内心的一个想法另外一边就是更具体的我应该很早在 Google 的时候就一直想
觉得用用 video 去传递信息我觉得是个必然发生的一件事情因为 video 的信息量其实最大的 bandwidth 也最高至少会发生这件事情我总觉得这件事情一定会发生然后希望自己是中间主要的促成的一个人
但英文的时候太早了发现市场也不 ready 技术也不 ready 到了 21 年的时候我发现这个东西好像有一定的机会所以这也是回到刚刚口启问的问题就是为什么 21 年会回到国内去做这件事情因为这个 videostory telling 这件事情跟我最开始我自己想做的事情有一定关联性
总结来说还是因为有一件你非常相信的一定会发生的事情,你希望自己能够是这个一定发生的事情中的一部分,并且最好能够成为推动它发生的人。
经历过和最聪明的一群大脑一起工作所以你看到过非常多顶尖的人你会认为顶尖的人和不顶尖的人最大的区别有哪些我觉得我可能是比较幸运的就是我可能接触过一些特别 high profile 的人我最开始以前在威廉亚影院我不知道是不是方便在节目里提他们的一些名字反正他是一个
也是现在美国科学院的外籍院士然后他算是我的导师然后会有一些近距离的交流然后会发现他是怎么做事情然后他后面又把我送到美国本部去把当时美国微软那边最主要几个人都聊了几遍
然后后面我又去哥大跟了另外一个院士他算是在计算成像这边可能最最厉害的一个一个 professor 然后后面我又去了 google 然后跟 circuit brain 然后跟另外一个 graphics 的一个一个一个 fellow 然后就为 close 工作我觉得他们有一些共性非常非常 focus 就是他想的东西其实蛮少的就就像我的 ph 导师来说
他带的学生也非常少然后到了到了今年他应该有快 70 岁了然后今年还拿了两片 bass paper 他他想东西就是非常非常聚焦他觉得这个领域里面这个问题最重要然后这个问题里面这个小问题最重要然后他就会想这件事情然后想事情解完之后他自然而然就会把其他的事情给串起来就因为你把最重要的事情解决掉之后
很多无论是 resource 还是人自然就会聚过来然后这件事情就就做完了然后有时候你会觉得他其实挺轻松的就非常 focus 做这件事情然后我我觉得这是一个意思然后可能很多很多不是 top 的人一一他可能没有这个这么个 luxury 就是只做重要的事情他可能因为生活原因要做很多很其他的事情那反正变成一个一个一种循环然后他们只要做最重要的那件事情然后其他事情让别人来做或者是不做
我觉得这是一个很大的差别你可以你需要促成这个这个变化嗯然后也需要很多能力就比如说你想聚焦你可能都想不出来我应该聚焦在哪我即使比如说有人给你 100 万不用担心别的任何事情让你去做你最重要的那件事情你可能也想不清楚你重要最重要的一些事情是什么我觉得这是一个比较大的我可能是最重要的一个差别之一我我觉得这是
我这段时间可能想的比较多的一件事情跟过段时间我可能有别的想法但我觉得这应该是重要的因为这我觉得有个心理就是人都是很中庸的你想到三件事情你下意识里头会觉得这三件事情都挺重要的
但其实你可能觉得 1 比 2 重要 2 比 3 重要可能你觉得一个是 80 分一个 60 分一个是 40 分如果你这么打分的话我觉得你得把翻差拉很大你肯定会低估中间的这重要性如果你觉得一个是 80 分一个是 60 分一个 40 分大概率可能是一个是 90 分
一个是 20 分一个是 10 分人总是会很中庸你自己现在会有什么区分最重要的事情的方法呢一种就是我就想我不做会怎么样很多时候其实不做也也不怎么样但这怎么样就是数据上的就不是说不做不舒服这不算这不做真正会导致我们公司营收就会下降吗用户真的就会跑掉吗会跑多少是跑两个还是跑 20%
大体一算其实很多时候就就不重要了那你自己有什么保持学习的方法现在吧现在主要是跟 gpt 学了我是 chai gpt 的中粉然后他们因为因为我应该亏了好多钱因为我每天要每天要对开始那个那个呃欧万出来的时候我基本就是三天两头都会把他的扩大用尽
然后要等到第二天才能继续哦然后现在就可以可以自由啊我觉得真是我其实其实已经比人聪明了就跟他学就行了然后这是一个另外一个就是会啊会跟尽量找每个领域最强的那个人跟他学吗我们是学术这边的然后去找他聊我觉得我觉得这是比较重要的事情是事情就是比如说你做一件事情就找这件事情你能找到最厉害的人先先跟他聊一聊我觉得这是比较
比较有效的一种方式这可能是跟我以前
赌管理学院的时候讨学讨多了对呀因为上课都不去上的时候都要先找一下老师让老师给我划下重点这个也很有趣我们上上个嘉宾就是 Justin 他是之前做游戏公司的木桶然后他们超过 40 亿美金把这个公司卖给了字节然后我们问他类似的问题他也说这是找最厉害的人学习然后我们说那你接下来要向谁学习他说这个第二天约了 DeepSick 的一个合伙人哈哈
那个时候 DeepSick 还没有发 R1 就是但我们已经知道 DeepSick 很厉害发了 R1 之后觉得这个更是出神入化然后正好发 R1 没多久我们发了这期播客
但这个我的问题就是说不是所有人都有这样的奢侈的能力或者条件就是想找最 top 的人就能找到那就是在你年轻的时候你现在可能也有了一些职业的积累有了自己的人脉网络但在年轻的时候你是用什么方式找到你觉得厉害的人去和他沟通呢我们播客应该有很多年轻朋友给他们一些这样的小 tips
我觉得其实只要去找你边上能找到的最厉害的人我觉得这件事情就已经百分之八十被完成了也未必要找到这点最强的但就是你会发现很多人其实不难找的就是你去找他他大概也都会跟你去聊所以我其实最开始我意识到这件事情是我
我以为很晚了就是我其实是已经在读研的时候才慢慢意识到这件事情所以我原来读研在复旦嘛然后那时候就想我要做 competitive research 我应该去哪呢我要去出国吗那我也不知道怎么出国然后我就去东看看西看看然后看到那个北京有个威朗亚洲研究院然后我就
发了份邮件给中金的一个 researcher 然后他他我觉得他应该算是我我后面很重要一个贵人嘛然后他就打电话就面试面面打完电话我就就去北京了然后然后去了北京然后他又帮我推荐给那个前面提到那个那个微软亚微软亚语院的那个老大然后然后
他又把我推进到各大去读 PhD 然后又推进到微软后面就会参加一些学术会议学术会议就做一些报告
做报告的时候就很有趣这件事情我就可以聊一下我自己当时没想到我做了个学术报告之后观众里有一个有个老头就就问了我一个问题就是开发卖他就问我然后就回答完之后然后这个老头就是后来我我去 google x 我老板他他他记得我后来他打电话问我跟他要要不跟他一起去所以我我觉得你你只要关注边上你能规取到的
的人然后认识他就会有就其实这网络很小的那就可以了那之前听过一个很卷的说法好像也是我们一个嘉宾在一期播客上讲到的就是把每一次谈话比当成一次面试
对我们当时觉得被他卷到了这样感觉每一句话都压力很大但其实你仔细想一想如果你可以放松一点心态去面对这样的一场一场的沟通然后尽量不要太害羞多表达
可能确实这个会带来一些意想不到的好结果对我觉得这可会是也许大学和高中应该培训我觉得这是 killer skill 对这为什么觉得这点值得了呢因为我们现在国内会招一些国内的同事吗我觉得国内同事这方面明显比美国同事这方面会意识会弱很多所以有时候会花一些精力是想让他们中间有一些特别有天赋的就就希望他们能够变得更厉害一些就有时候会想这些事情会想的多一点
那我们知道那个 Vozo 之前是在这个海外的 App Store 上线的那现在是有要做中文版的规划吗对这规划其实规划很久了中间有一些内部的一些 debate 就是说国内市场要不要支持什么时候去支持当然其实事实就是我们之前中文版虽然没有发但其实我们现在中国用户挺多的
可能是因为毕竟是中国圈圈然后中国对无论是短距出海电站出海用户都特别多然后其实算是非常多用户中国人不在用然后他们一边用一边跟我抱怨说要有个中文版
这是一部分用户,还有一部分用户说用了他不知道怎么去付费因为我们付费其实你支付宝微信付不了然后所以就会有很多这种抱怨所以我觉得差不多是个时间因为我们迭代 PMF 也差不多完成了然后我们再做增长然后国内的话我觉得应该去支持他然后另外一个迭代的就是有些公司他会说我要把中国 13 提出去我们团队从来没有这么想所以
只是说我们中国排第几是先做日本再做法国还是怎么样子然后我们现在决定就是不管怎么样先把国内市场先把支持者再说至少让国内用户可以看得明白然后可以付费然后可以给我们发 support ticket 我觉得这是比较重要的事情所以可能近期我们就会对国内市场做一些开放做一些定制希望
中国用户可以更好用我们的产品吗所以我们围绕他也会在国内做一些招聘一方面是国内的增长商务然后另外的话就是我们一直开放的感觉就是大家如果对 ai video 很感兴趣然后无论你是做产品的做营发的做工程开发的都可以随时发消息给我们然后我们我们可以因人设感 ok 可以因人设感非常
广大人才的感觉如果大家对 Vozel 的工作机会感兴趣可以在我们播客的评论区之后昌盈应该会在评论区留一条言会把邮箱和一些介绍都放在里面
好那我们今天非常谢谢昌盈跟我们分享他做 Vozo 的过程对行业的看法他自己很多的个人的经历对特别是对创意作为一个创业者从一个研究者到一个创业者的这个身份的转变以及过程中的很多的感想跟自己的思考那我们今天就先聊到这里然后谢谢昌盈做客十字路口也希望以后我们能有机会继续这样子的交流
谢谢龙慧谢谢科奇今天非常开心交流拜拜拜拜好拜拜谢谢拜拜如果你认为有朋友也会喜欢本期十字路口的内容请转发微信推荐给他们最后欢迎你加入十字路口的会员群我们鼓励大家在群里聊天互动交朋友寻找未来的同路人