嗯
欢迎收听晚点聊,我是曼琪今天我们一次发了两期节目嘉宾都是密塔创始人明可瑞一次访谈发生在 2023 年年初另一次是在最近本期是 2023 年 3 月中旬的那一次访谈那是中国大模型热潮的开端王辉文刚自己投资 5000 万美元成立光年之外月斩面还在组建六小龙的名号还没有兴起 DeepSeek 还没有正式成立字节等大公司也没有充分展现对 AI 的志在必得和激进投入
Meta 当时已经是一家成立近五年的公司推出了法律翻译 Meta 写字猫等多款 AI 应用现在更为人熟知的 Meta 搜索则还没有上线行业变化快速回顾这次发生在热潮开端的讨论恍若隔世也有很多先见之明内事可瑞就有一些犀利的观察和观点包括中国 VC 可能会集体错过一位最有雄心的中国大模型创业者
我对这个事有一个判断现在肯定所有人会认为我是胡说八道但是这个重要我会觉得在这一轮的所谓大模型的热潮里面很有可能尤其是投中国的这批投资人会集体意思掉
在基础大模型的创业中,传统的组织人才方式不 work,预训练很重要是范式转变,而具体到 transformer 架构其实没那么重要未来各公司的密集模型竞争不可持续,拿不到正反馈的团队将很快退场,速生速死而 AI 应用领域的创业会是战国时代,是个人开发者、创业公司和大公司之间所有人 PK 所有人的状态
其实在密塔刚成立的 2018 年,明可瑞就写过一篇文章,叫《关于机器学习的前程往事》,我也会贴在 show notes 里。这篇文章已经提到了当时 Anthropic 创始人 Dario 在百度工作期间发现的 scaling loss 的雏形。
这篇文章开头是模仿百年孤独经典开篇的一个 AI 小故事其中提到了 108 期节目中马艺老师也聊到的 50 年代 AI 热潮中的感知机林可瑞是马老师在伊利洛伊大学任职时的博士研究生后一页创业此前他获得了复旦计算机学士学位和牛津大学数学硕士学位这期节目我们完整聊了可瑞的职业经历 密塔创业故事他在 2023 年年初对大模型格局的思考
而今天发的另一期节目是最近米塔发布新产品今天学点啥之后的访谈我们从这个产品切入聊了这两年的变化下面就正式进入本期节目吧
我们肯定会以应用驱动因为我会觉得恰恰是很多人所谓在做大模型我看起来就是啥也没做好它没有一个明确的应用侧重的时候其实容易做成我好像什么都懂但是什么都做到一个基本都还可用的一个阶段这个其实是我觉得很多厂家包括我们知道有些骚声巨头的在那乱加数据加出来的
对你可以自我介绍一下包括之前的经历和你们现在在做的事情我们其实一直在干跟人家相关的干了还是挺长时间我们基本上是从这个中学开始就参加那个算法竞赛所以算是最初阶段就是接触算法接触相关数据处理这些其实都在很早的时间然后就保送到复旦大学然后复旦大学本科
计算机保送毕业了以后到牛津大学读数学的一个硕士然后再到 USH 读的一个 THD 然后正好在读博士期间有机会就回国创业了所以其实是一个博士学位没拿到就提前回国的这个状态就创立了第一家公司其实也是在做 AI 相关的 2012 年 2013 年
对那个是叫一个数据公司对我们说这个还挺好玩因为波森这个名字刚好跟好像是这次那个什么礼物吧创业一模一样就是叫波森所以波森是这个行业里这个领域里的一个其实不是是波色子的那个波森
所以它是科学领域但并不是在人工智能对其实不在人工智能在物理领域就是波森包括他这次穿越我看拿的那个域名这波森.ai 应该是当时我们买过的一个域名所以你们的域名流转到了里木这里是然后我们的另外 18 年起的这个密塔对吧 Meta 然后又被 Facebook 撞上所以我们还是总会齐名不远齐名小天赛
所以基本上就是 13 年回国创立波森波森差不多做了四到五年时间产品上其实也有些进展最后一个产品其实是在金融领域去走落地当时蚂蚁看上觉得这个是他们见过的少佑的真正在做产品做 AI 并且真正把这个产品还能卖给这些金融公司的少佑的团队所以后来其实就谈了一个收购然后因为我不希望被蚂蚁绑定掉所以我就提前出来所以我 17 年收购的那个期间我就到丽宝
猎豹 17 到 18 年待了差不多一年的时间就是带猎豹的 AI 团队因为当时猎豹其实也正好处在一个转型期间是就是老的这个业务其实看得到那个瓶颈所以其实副总在这个 16 17 年的时候就已经在着手准备一方面是这个内容加 AI 其实看得就是更多的像是一个图条的那么样一个机会另外一块是他在做机器人的那个公司猎狐星空对猎狐星空那边所以反正当时我们在两块都还是有比较深的参与包括推荐系统
包括在猎户星空那边的话是当时核心在做那个小爱印象就是相当于是猎豹猎户和喜马拉雅的那个合作算国内前几个在做印象的人家是这个后来就是印象这个事被打成一团红海对炸个刃对是疯狂的就是从上千块钱打到几十块钱五十块钱就几乎是半买半送的 59 我记得当时天猫百度好像
好像都有几十块的还有那种什么满多少干脆给你送一个就反正这种就全部是以这种方式来付这个量所以就还是比较直接的经历了整个这段这个时间但是我之所以包括 18 年就从这个列报出来其实没有太长时间一个比较重要的原因其实我们就还是看到了在新的这一代 AI 技术的比较大的一个机会
而这个机会我觉得当时可能没有那么多人相信对我觉得这个就进入到我们今次想要的主题因为你之前跟我说你是 2017 年看到 Transformer 的一个论文那是 17 年底的时候对吧这个其实对你创业算是有一个直接的影响和关系吧现在有些人会来讲这个事我不这么认为 OK
我觉得我们看到的一个机会是在于不管是在 17 年还是 18 年不管是在这个 transformer 还是非 transformer 实际上就是通过深度学习加这个大规模的预训练就这件事开始 work 包括那个什么 bert 呀这些东西出来之前我们对这个事是有一个基本的一个判断就是说这事它应该能 work
只不过后面那个 Transformer 这件事我觉得是一个工程上很好的解决了在做这个大规模并行去得到有效训练的一个问题就原来其实大家的训练很多是 RNRN 的那个有两个问题第一个问题是说你单节点跑可以就是在比较小规模上跑是没问题的
在大规模跑的话它实际上什么时间的先后依赖等等就是大规模变形其实不好做但是后面也有一些架构试图在解决这个问题你的意思是大规模运训练这个想法是在 Transformer 之前出现的对追随下这个源头它是从何时就是学界开始看到这是非常有潜力的一种方法
在这个 Transformer 之前我在网上是 OpenAI 还是谁也有一些相关的工作叫什么 Elmo 相关的一些工作其实在 Bird 之前是通过 RN 的这个方式去做预训练其实已经在很多任务上达到还不错的效果所以我们看到的就是包括在比如说 17 年我们在做翻译这个任务的时候
我们清楚的知道上一代就是在深度学习之前在做统计机器翻译的时候它这个天花板我们非常清楚在哪里就是很多作为短语和短语之间的翻译然后把短语通过一些语法规则去交换它的顺序达到一个翻译的结果就是那种机械化的翻译可以达到就是可能能基本看懂但凡是那种就是它说的是 A 这个词实际上想表达 B 这个意思的这种 translation 基本上在上一代的这个架构上面是不可能完成的
甚至是说几个词单独表达的意思都很清楚但是它拼在一起的时候产生了很大的变化比如它是一个俗语等等的这种情况你其实都在原来的这个架构上其实很难解决
你可以解释一下预训练这种想法和之前的训练的区别是什么以前其实就相当于是说所有的任务在解决的时候你就是要解决 A 任务你就去 A 任务搜集 A 任务相关的这个数据标签有方去解决情感分析你就去找比如说亚马逊的这个评论找一万条然后雇人去每一条给他说这个是正面评论还是一个中性的还是一个偏负面的对这个产品的这个评论
就相当于是每个任务对于模型来讲都是独立的就是每次都是从零开始我要干 A 任务我就去 A 任务去做这个数据去做这个训练对所以预训练就相当于是说我先去把这个语言先学会我依赖的其实是一个我觉得叫无标注也不太合适其实本质上你人写下来一段话的时候写的这个过程实际上就是人对他的一个内容输出就是一个 supervised 的一个过程所以更像 self-supervised 的这个过程
就是你找得到大量的不管是中文也好英文也好这些不同语言书写的这个文本嘛那这个东西就是先让他学会说怎么把这些文本给尽可能的生成出来或者猜得出来对吧就是所谓的这些 transformer 干的事其实 birth 干的事就是我在中间给你挖一些空你尽可能把它给还原出来这个 gpt 干的事是我给你前缀对吧我给你前面十个词你把下一次词给我猜出来对它本质上就像为了解决可能这个 sentiment analysis 去做情感分析这个问题我实际上我先用一些其他的任务
去把语言这件事可能先学会了然后再来解决新的人物上对去解决所以这个被证明说他需要在第一是说雕塑量我原来可能要 1 万条才能在这个上面达到一个 70 分的一个效果那在新的这个范式下面我可能只要 1000 条
可能做到 85 分的效果就显著的降低了整个英金银人的就是去落地的这么样一个成本新的范式下需要标数数据的就是后面微调的部分对 是的就是前面那部分而第一个是说它只挑微调的部分第二部分是你会发现有一定难度的一些结构你原来 1 万条你根本负担不了
就是你解决它的概率为零就变成了一个就是原来大家说有多少人工有多少智能嘛就这句话我没见过那我就不会对吧但是现在预训来这个方式就是这句话你没见过也许你会因为我在整个互联网上你可能是看到过十次这样的表述的一个方式那么它有可能是能迁移到新的这个任务上所以它既带来了更多的效率让以前做的更难的事变得更简单所以它也能做到以前做不到的事情
对 否则以前那个对大家来讲为啥很多时候对这个智能感到很绝望就是我的每一个就是你看上去好像是智能的东西也许都在背后对应了一条人工的规则对吧那你说我写一半条规则让他假装智能
这件事就是很多人看起来很不 fancy 而且当你真正去实现那 1 万条规则的时候你会发现一个更大的问题就是你做不到它的 consistent 就是你今天的规则和明天的规则 A 写的规则和 B 写的规则一定冲突的然后在冲突之下到底怎么解决就包括有一些原来 Google 也投了很多钱去做一些知识图谱这样的一些就是试图把很多数据给符号化的一些工作最后都被证明非常难 scale 就即便 Google 投很多钱
砸很多人要想维持他的数据的这个时事更新他的这个有效性和他 cover 了各行各业的所有领域这事基本上是不可能的
可能的嗯那就回到二零八年你们创业的时候你们当时已经看到预训练和微调结合起来可以 work 的这个方式之后你们做了什么我们其实第一个在落地的那个就是我们当时的一个设想啊我觉得就是有多少资源办多少事我们看到的是说就是 agi 我觉得这个事当时看起来还是很远但是你给我一个特定的领域这个领域如果是有就是
它跟人认为的简单或者困难甚至都关系不大就是有的时候就是人认为这个任务是困难的但是我们觉得它背后的那个 reasoning 的逻辑哪怕是多部的一个 reasoning 但是它是有逻辑的它是有规则可循的这件事都可以给机器干好很好的一个程度所以我们当时选择第一个去切入的是法律翻译就是传统上法律人认为法律翻译其实不容易因为往往你急需要懂法
又要懂语言然后这两者可能最好还有一些实务经验就知道这个中间有一些专业的术语到底应该怎么来解决等等就是它有比较复杂的逻辑关系但是我在看这个的时候就说你有复杂的逻辑没问题就是你得有逻辑这个事其实就有可能被数据驱动的这个方式做这些料所以我们当时觉得其实找到高价值的场景
用户愿意有付费的意愿然后通过 AI 的这个方式去做一个一个 Domain 的去做人工的这个替代这个时候是具有高的可行性的对所以我们其实在往下推进的时候基本上是沿着这条路径去做
只是到了去年年底出现了一个就是我们说他更像是说在基础的这个假设逻辑上面跟我们的那个想法是类似的但是他说我也不要一个一个斗面去推了我干脆把 1000 个常见斗面我一起全做而且呢我也不在 1000 个模型上做我把它 integrate 到一个模型里面去把这个事给做了然后就变成现在 CHAT-GBT 的这种方向能力的一个做法
嗯对其实你刚才说两个关键一个是大家对 AGI 的认知到底是怎样的另外一个就是你说资源你说多少资源做多少事是因为 OpenAI 可能他对 AGI 的认知是他要以这个方向为他的目标而且他很相信这一点是可以做到的同时他资源也多对
对而且大家有的时候在用最大的一些大厂和这个 openai 比但是我们看起来他在创业公司里面首先这个资源已经豪华到在其他的这个团队很难去想象的这么一个地步那么甚至比起现在国内有些大厂的投入我觉得他现在的砸的这个钱一点都不逊色于这些大厂可能花几十多亿人民币这种
你刚才说你们选场景的一个逻辑那你们在技术上是做了些什么事就创业初期的时候我们会觉得是这样的技术上在我们看起来在千亚 GBT 之前这个行业我觉得没有秘密什么叫做没有秘密呢就是我基本上会认为不管是今天微软做了个什么事做了个什么样的一个应用还是 Google 做了个什么样的应用
你只要把相关的这个效果拿给我看我就可以给你报价我就可以给你算得出来我需要几个月需要几百万我把这个事给你搞定就是能到这个程度就是我们不觉得 Google 或者微软这些人家在做的任何一个应用能够 tricky 到说我不能把它逆向工程出来的这么一个程度
直到真正的工业化生产的像 GPT-4 这种东西出来我们发觉这个事好像就真的有难度了你的意思是你们创业之初其实在技术上就是按常规的方式去做就可以了就根据你的应用需要有什么功能你去做这些东西是而且就是我觉得不止一次的我们在做的这个过程当中会看到什么呢比如说我们为了解决翻译问题去 design 了一些上海上的一些优化的一些 trick 工程上的改进的一些 trick 可能在一年以后你看 Google 的 publication
他把这个事给讲出来了他的 researcher 可能发现了同样的 trick 去解决这个同样的问题你的意思就是说只是你们没有发论文对我们只是懒得发我们觉得这不重要那你们是创业之初就是基于 transformer 这个架构做的你们第一层的模型吗它是这样的实际上我觉得中国人说风就是雨的这种逻辑非常严重我觉得其实它没有太大必要去神化某一个架构包括最近其实也是有一系列的工作在基于 RN 号称做到接近于 transformer 或者跟 transformer 基本上持平的效果
在我们看起来整个数据也好算力也好它的工程化落地也好差不多是到了那么样一个节点我会相信说哪怕没有 transform 比如说 GPT 这件事可能会晚个两年但最多可能也就是晚
晚了两年它也会发生它不是在这个架构上面我个人认为这个架构本身的 design 没有重要到这么样一个程度你认为更重要的是预训练这种想法对这种想法本身其实我觉得是更核心的一件事至于采用 transformer 做预训练还是采用后续改进的一些 RNN 那些做预训练我觉得这是技术细节
讨论的问题而且一定有很多人在争 Bert 怎么样又失败了 GPT 怎么样我们看到这时候没有这么极端他完全可以即用 Bert 也用 GPT 就是谁好用谁呗我觉得这不是对特殊的网络架构本身有任何的信仰我们看到的这个问题恰恰是这样的他的 GPT3 的论文没有用任何新东西换句话说他比起我们真正有的有些为了去优化他的一些速度架构还额外去做了一些工作的基础上来看反而基本上你可以认为他用的架构
除了有一个 tension 的细节它基本上就是 17 年的版本但是它规模扩大对 它的规模扩大它唯一做到的事就是把规模扩大扩大到人家觉得完全不会去考虑的这么一个状态因为我很清楚记得什么 2020 年左右的时候工业界在想啥问题那个时候 bert 应该是 18 年后半年出来的其实已经在各类的尤其是一些分类问题
看别类的问题上刷板在这个以后包括很多工业界就像我们说的做音箱这些实际上是在考虑把这样的一些 chamber 的架构去集成到工业的一些应用当中去做分类去做比如说你给了语音指令我识别你到底什么意图等等
但就这个架构 Birdbase 是 1 亿参数对吧大量的工业界的人认为它的消耗太大不可应用所以之前我看包括像什么华为的试验室等等国内有一大批的工作其实是在做怎么压缩它怎么把一个 1 亿参数的模型干掉 300 万 500 万然后它的 performance 就会尽可能的少
怎么量化怎么压缩有一大批的工作其实是在沿这一种方向展开所以当时工业界我普遍认知说一亿参数的模型那就是大模型一亿参数的模型对于我的落地应用可能是很难接受的是在这么样一个普遍理解的基础上 GBT3 在 20 年拿出来做到 1000 多亿规模我觉得绝大多数人当时对这个事的看法就是他们真的很有钱干了一个这个事这个事有 application 吗
No 不可能有 Application 因为它已经比我说的工业界认为一亿参数的又贵了 1000 倍就说这可能是一个很好的 Scientific 的探索但是很难相信它是一个能够去做到实际落地到产品级有产出的效果了解所以当时是学术界更关注 GD3 因为你们已经在做应用了已经在做公司了对反而你没有觉得这个东西是可用我们会觉得这挺好玩但不觉得它是一个能实际落地到产品级的一个
2017 年 Google 发的这个 Transformer 实际上是两个部分一个是 Encoder 一个是 Decoder 所以其实最早这篇论文是一个完整的 Encoder 加 Decoder 的架构在整个解构里面把 Encoder 抽出来单独去做预训练那就是 BertGPT 是把 Decoder 单独抽出来按照前面 n 个词去预设 n 加 1 个词的这个就是 Decoder
最早那篇论文实际上是两者皆有的这么一个状态没有说我到底 A 重要还是 B 重要两个一起在的这么一个状态所以我们一直觉得为什么大家要去争这个就你觉得不可比他不是这么去比的你是这个意思吗我觉得这事有点搞笑怎么讲
就像一个红色圆珠笔一个蓝色圆珠笔你一定要说谁好这重要吗你该用蓝色用蓝色你该用红色的地方你就用红色所以是看你要用它干什么任务场景是什么对任务场景是什么你根据那个任务场景去设计一个最合适的架构这就完了工具层面没有必要对这个事产生任何的信仰这个事我觉得就非常诡异而且本质上这就是一个东西对吧你为什么会对蓝色和红色这么痴迷呢
我觉得大家现在也不是说信仰吧可能是你会看到 GPT 它可能在很多任务上就很多类型的任务上它确实展现的通用性会更强而且在很多任务上它单个任务的表现也会很强但是这件事我觉得它可笑的地方就在于从来没有一个大规模的公平比较你觉得太主观了是吗对它展现出来的通用性很强你拿 1000 亿的模型跟 100 亿的模型相比你说 1000 亿的更强 1000 亿的 DQL 就是 GPT 的这种模型更强你是在这么走比较吗
你没有拿同样 1000 亿的 Encoder Decoder 的模型和 1000 亿的 Decoder 工具的模型在里面
我觉得其实它这个比较还有一个发展的视角因为 GPT 它其实也是一直迭代迭代到三轮 5 到 4 的时候它才有非常惊人的表现然后谷歌做 Bird 它其实没有在一直往这个方向迭代它后面也有一些别的模型 Google 其实现在有一个 Encoder Decoder 就是我们说两个一起用的模型就是它的 T5 然后 T5 的后续它在上面加 Instruction 其实表现出来很不错的至少是在同等规模上面验证我们看到的结果基本上是和 GPT 互有胜负
有的任务比好一些有的任务比我好一些基本上是这么一个情况之所以 19 年 20 年大家用 gpt 的 de-code only 模型其实有个最基本的猜测这是一个纯工程化的问题
这个架构更简单更好用对而且更好上规模对纯粹是因为能够更大限度的去利用 GPU 的运行能力如果你是 Encoder Decoder 你要把 GPU 用完这件事会显得复杂因为你要考虑两个不同的串有的时候这个上面你复工的高一点有时候那个高一点有的时候 A 在等 B 有的时候 B 在等 A 所以我会认为本质上是一个程序上更简单的问题导致了 Decoder OpenAI 的模型在后面尤其是在 OpenAI 的使用当中被更广泛的使用起来它的吞吐量可能会高 2~30
就是机器成本原因的一个考量这个视角也挺好的因为伊利亚他也有一些自己的表达他会很强调 predicting next token 这件事情任职股你可以说是哲学上的意义你能预测下一个词其实就是指向一种逻辑能力的是
比如说你看完一个侦探小说到最后你能预测杀人者是谁的话其实还是有一个推理能力在里面我觉得这个事从理论计算机的角度上来讲是一个比较 trivial 的结论换句话说所谓的大家不管是用原来的 RN 还是用 transformer 的 sequence to sequence 的模型
你一个 Sequence 进来一个 Sequence 出去就是它的理论极限在哪里是没有上限任何的和计算的函数理论上都可以这么建你就是一个图灵机你读了 infood 然后你中间计算最后你出来了一个结果所以理论上这个架构是可以模拟任何运算
就是序列到序列可以模拟任何的情况对 因为本质上所有的程序都是一个东西作为输入进来一个东西作为输出出去这个东西的难点是不是在于说你把真实的物理世界的各种信息怎么运输成一个序列是很难的不一定 因为是什么呢现在大家逐渐在做的技术的演化就是
尽可能的直接把原始的信号放进来我在做多么太我怎么来解决多么就是原来大家你会发现 17 年或 17 年以前在做 AI 的人你去看做语音的人做 LP 的人做图像的人是完全用的不同的 skill
都是自己发展出来的一套怎么去抽取 feature 怎么去做信号的处理然后怎么去做后续的一些 prediction 嗯然后逐渐发展到这两年你会发现大家用的 skill 是很公共的而且是越来越更大程度的利用计算更少的利用 domain knowledge 嗯那是这个事儿
明白其实最典型的是这几年特斯拉在做自动驾驶用了一个巨大的 transformer 去预测各种信号就是我把我不同的什么 lidar 的信号也好啊我测量所有的这个信号所有的这些什么传感器的信号都放进来你让模拟自己去交互最后出来一个你不就是想要 prediction 准确的比如 predicative object 的位置啊这些信息我全部给你转化成一个 sequence to sequence 的问题
那这个序列会特别长吗它有可能会特别长尤其是原来其实大家不太好解决的一些问题比如说传送这个事最早在语音上面可能很难用因为文本说 500 字 1000 字 1000 有 token 你觉得这个长度好歹还是千里大为的对吧
对吧但是你如果把它放成比如说 pixel 一张 1000x1000 的你随便现在手机一照可能都不止这个像素但是如果你把它拉成一个 pixelwise 它就是上百万你处理上百万长度的序列似乎就不能简单的用 transformer 的 unfound 的这样的一些算法那就是完全效率上不可接受但现在大家也 design 了一些非常简单的方法我比如说切片就是这么简单的粗暴我一个 pixel 一个 pixel 去算可能觉得很难但是我把 32x32 相当于是我把 1000 个 pixel 当做一个大的 pixel
放到 transformer 里面然后我原来长度为 100 万的这个瞬间就变成长度为 1000 的好了那我现在就可以用到标准的 transformer 的这种文方的成型的这个结果去算后续的这个操作其实所谓的最近几年影响力非常大的什么微信 transformer 就自行办这种 idea 就是我说的他把整个实验全部做完证明他的有效性这是有
但是你不会认为这个东西是一个天才想到的事对这本质上是一个工程师把这个事给想到了以后实验完成发现你确实有效你不会认为哇这个人很有机会了一个虽然他可能那篇文章已经有一万引用了一万的赛推所以我觉得包括后面的有些感情其实在我们看来都是属于这个范畴我想知道在你最近看过的论文里面有什么你真的觉得是天才的想法的吗
它是这样的实际上很多有天才想法的东西恰恰是在媒体的关注最少的因为很多这种东西它应用可能是有距离的比如说好像就是两年前在做整个网络流最大流的这种就是传统上可能三到四十年以前大家都认为这样的算法没有 N 方 N 三方是解决不了的他们能够在一个准线性的时间复杂的算法把这种问题给解决掉
传统上这种问题其实都在业内研究了超过 40 年时间这种 40 年大家认为是比如说 N 方 N 三方的算法突然有个人跑过来说这个事现行复杂能解决他可能花了 50 页的论证证明他真的能被解决这种就是我说的是一些天才级的
想法你看完了以后觉得真的非常强而且我觉得很多这种级别的想法它的理解成本是很高的这个是我为啥刚才比如像微信上说话我说这个东西我一句话可以给你讲清楚它到底是用了一个什么样来点对吧就是把 1000 个 pixel 粘在一起多于一个大的 pixel 后续的计算都是一样这个东西是可以一句话讲清楚的但是像刚才我说的那种论文我原来在复旦的时候我们有些算法的讨论一些绝妙的想法它的讨论的成本是怎么样的呢
我们需要有一个讨论班在理解他的这个 idea 之前你大概需要有 20 节课的一个 lecture notes 就是你把这整个一个学期准备的知识先学完到最后一课的时候你就可以开始去理解他的那个想法大概其实是这么样的一个你要对这个问题理解的感觉你才能走到那一步最后理解的一课是什么感觉会觉得其实他也是有非常精简的或者简单的一面你人会觉得很多技巧是很强的
但是这个强制建立在其实你哪怕是前面的所有工具你都准备完你在最后的那一步你觉得它也是一个当 trivial 的过程所以包括大家之前炒张一堂就类似大家只能去炒他的传奇经历但是你说真正有几个人去看过他的论文对吧看完了以后说这个论文想法真的是很好
对我觉得这个也不能叫吵吧我觉得这个确实是普通人他能有共情能理解的部分是的你要是解释这个论文的话首先能解释的人很少然后像你说的能看懂的人也是非常少的是对他本人的经历对很多人还是非常有激烈和启发的
对而且他恰恰具有故事性所以是非常好但是就换句话说如果另外一个很强的人不具备故事性那可能大家对他完全没有了解哪怕他在一些重要的问题上做出了重大突破其实我是这个意思像张一堂这种人非常懒惰非常强但可能也有一些很强的人大家对他一无所知
从你中学开始做一些算法的竞赛开始算到现在研究 NLP 应该是有很多年差不多有 20 年左右对吧那你怎么看 NLP 的突破其实它是来自本来研究计算机视觉的一些人比如说像伊利亚他们可能最开始的成果是在一枚金蛋这些领域的
这个恰恰就是我说的恰恰在最近这十年深度学习的发展其实是把这些门槛给它模糊掉 Transformer 原来也不是在解决它是在解决文本的问题其实就是拿翻译作为核心他想解决的任务这个 Multivating 的一个 example 来设计的 Transformer 这个架构后来这个架构现在不管是被用到图像被用到音频视频的处理其实我觉得是一个大一层的这么一个过程它不太
它不太像是说一群做视觉的人来把这个事给怎么样了他在做视觉的时候设计的这套架构对于当年做视觉的人来讲也是个新东西也闻所未闻也觉得你这东西不应该 work 所以其实当年 Hinton 这些都是做了很多年的人外的就是你做这个什么东西所以你说其实整个深度学习的这个方式对更早之前里面有专家系统这种方式的一种个性
是而且零几年的时候我在布兰亚人研究院里边当时机器学习大家研究所的核心还是在图模型就所谓 graphic model 的上面我觉得包卉生的学习直到可能一两年前还是有不少的真正偏理论的学者对他其实是有比较大的质疑的态度也可以理解
它的可解释性比起上一代的技术确实显著要差所以现在这个也是大家实际的一个 concern 只不过我觉得原来的 concern 在于你不可解释而且我也不认为你 work 得有多好现在是属于你不太可解释而且你尽量 work 得非常好那么你就有更高的监管
对就是你的危害性可能更大没错对因为你变得更强大了是而且你强大的都超出我原来对你的预期的上限对我觉得昨天 altman 去参加听证会他说的有一点挺对的他说如果 gbt 这个技术他会犯错的话他就会犯一个很大的错误就会带来比较严重的后果
因为它的实际线的能力已经越来越强了是这个东西那胡道你们在做这个具体的事你刚才也提到说密卡是非常应用驱动的不得不应用驱动我觉得不得不应用驱动你要么能讲一个很大的故事会有很多钱
要么你就先把你现在手头能够有的用户消费者付给你钱的人照顾好我觉得这本身无非就是这个逻辑我们觉得第一点我们不擅长做不到所以我们就去做第二点我看了一下你们产品的时间线因为你们 18 年成立然后 2019 年是有做一个翻译的产品就是用在法律领域的然后后面你们有做一个写作猫最开始是纠错的功能它是类似于 Grammarly 改语法的那个运用再后来是去年 11 月的时候你们写作猫升级里面有了生成的功能它是类似于 Jasper 那种
然后今年二月是又有了对话的功能也就是类似 HPT 这种你可以讲讲就是你们自己的产品在更新的过程中间实际上它用了哪些技术吗因为你也说到是什么好用就用什么它大概是一个什么样的技术组合在支持这些东西
像说的什么好用用什么所以在这里面它不一定是说一个大模型解决所有问题尤其是比如说 19 年 20 年是落地的这个时候更是会考虑说它的这个成本怎么样如果有大量的用户在线了现有的认算力是不是能跟得上其实我想讨论的就是说这个大模型到底在这个组合里面它占多少角色因为你们已经做了其实很多年了嘛嗯那现在很多人新来做这件事情他可能
可能会高估他的哪些能力我觉得他们的能力就看谁了我觉得有些人对他的认知可能极其不清楚有一些是属于脑子一热一定要为应的有些是可能算过成本不二课但是我股价能涨我也无所谓反正我这个东西我先吹了再说呗对我觉得是不同的人可能对这事理解是完全不一样的因为我
好像就前一段我看那个是谁对 360 有一个采访 360 在安当斯说做这个东西然后在那里有一定的进展了以后他们就问成本问题我看他反正是在电话会上算过一把 200 字的一个生成大概是 4 分钱这个是平均他的答案的一个长度那么如果把费用 scale 到他现在对 360 的每一个搜索的 query 去用 gpt 的技术
来生成他们每天的成本好像是 4000 万然后一年算下来大概是 100 多亿的成本然后 360 一年在广告上的收入大概是 80 亿左右就但凡你有小学数学的逻辑你就知道这时候他直接把它 scale 到 search 上至少在当前的这个成本时间阶段其实不二可能你这账文是送过来的吗嗯
除非你有新的商业模式是所以本质上我觉得像 Jasper 在这块里做了一个很大的贡献在于我再找一个切入的点这个切入点是机器虽然贵但是人更贵其实包括我在 19 年为什么去做这个法律翻译我们找的国际是一样的机器虽然要用 GPU 但是人的成本比你这个机器可是高了三个数量也还不止
嗯就是人翻译我们看到在好的一些这个律所里面他们自己的人工翻译收一个字的费用是要超过一块钱的你现在 GPT 再贵你还没贵到那个程度所以我看他们好像有人在分析这个事就本质上工作有些是大家 value 这个高价值有些是相对低价值高价值就快工作那本质上你对所谓的算力去换人力这件事你有一个非常高的容忍度因为人的费用已经极其昂贵了你哪怕能愿意出钱有的时候你都顾不了这么专业的这个人来帮你去解决问题对吧一个资深律师可能跟你聊一小时送你五千块钱
是这个费用这个时候每个月收你几十美金哪怕收你几百美金的机器的钱可能对你来讲都觉得相对之下是非常容易接受的对但是为啥我们去做这个法理翻译的这个时候没有去做这个新闻翻译我们认为新闻翻译我们可以比谷歌做的好但是收不上来钱对吧
谁会愿意为了一个翻译的更好一些的新闻来付给我们钱呢这个问题我们解决不了你就看一看大概觉得看懂这个意思不就行了吗我翻译的比 Google 更有文采一点难道你愿意一个月掏 50 块钱来给我哪怕就是 50 块钱来订阅你们后面做的写作猫你们的目标人群是什么我们的目标当然是希望是但凡是能够在电脑上比较高频写作的人都能够在这个上面找到价值
因为我们觉得本质上他在做的就像是一个能够辅助你写字的人一直坐在你旁边一样所以不论我们后面再做生成最开始之前我们在做的比如说检查就是指出你在写的内容里面的各种潜在的这个问题并且给你提供修改的一些意见对吧包括我们在做的时候还专门去优化一些比如说不光是告诉你你应该把 A 改成 B 才告诉你为什么就是你到底是错在哪了
就像是你雇了一个专业的老师坐在你旁边对你的每一行都不厌其烦的帮你去检查实时的给你返回这个结果我觉得现在大家定位比如 ChatGPT 是一个 personal assistant 就有点类似于这个只不过我们是在一个 domain 上去实现这个效果
因为法律是个很明确的领域而且你刚才算这个成本也是非常明确的一个替代人的成本那你们现在做写作猫它的成本或者说它付费的需求好像没有那么明确还是看你抓住哪群人啊就我们说如果你一个月就写 500 字的人那可能确实你就说我们免费的版本的用户你就拿来我们也会给你一些诊下的意见对吧对你有一定的帮助但是可能不太重要但如果你是一个比较重度的去写字的人那么确实这个可能能帮你解决
解约很显著的时间包括各种什么龙媒体包括很多公务员这个其实也是我们的利用他会发现这个实质上面我帮他去降低写文章的错误率帮他去找到一些他其实肉眼他可能看了三遍他花了十年他还是找不出来的一些问题你方便透露一下蜜塔翻译还有写作猫它大概的一个用户情况包括付费的比例吗首先翻译这事不太一样翻译的其实都是付费就相当于我们是卖 B 端的一个产品
它其实不太是一个 sigand 一半就你们不是针对个人律师这样去推的你们是针对律所或者律师工作室去推的或者合伙人团队因为这个事其实跟律师的职业方式也不关了它本身就是合伙人带一些人很多就是合伙人的这个方式其次是说你推也没用其实中国能够接到涉外的业务的律师也就那么多那是一个数得出来的榜单所以就是超出这个群体以外其他业务本身上也不存在除非的可能
那在这个小群体里面 Meta 现在的我们来渗透了百分之几十吧
应该 3 到 50 的这个比例他们使用品次高吗这个就是很有意思的问题他的问题在哪呢他的问题是跟全球大环境息息相关律师绝不会没事打开这个产品来玩他的使用百分之百是因为他接到了一个社外的业务的案子所以非常取决于他在职业的过程中到底有多少人相关的案子比如说去年那就是一个显得这样的一个情况不管是涉及到国外海外的业务的收并购啊什么都大量减少所以他就一定是有受影响的
这从去年来看我们看到比起再前一年是有明显的一个降低的 22 年是一个比较明显的走向低谷的状态对 是的
不过这个产品的问题就是它可能天花板是非常有限的对所有的我觉得很多这种问题和它的优势都是一件事对吧它的天花板很有限所以你其实也很难预期再来一个人花很大的精力去投入把这个顺序干好就是你的竞争环境会好一点对就是所以我们在做这个事从 19 年开始去卖到很多家律所你会发现基本上这些律所比如公司的法务他要么说我们用免费产品他如果但凡是想要更高质量用付费的其实也没啥别的选择
你们有把这个卖给国外的人吃吗国外和中国有业务的有包括英国所美国所有很多所其实都是我们的客户你直接去卖到他们总部的它好多是这样的比如说他们亚太区的办公室当然这是另外一个问题了也会受这个贸易战的影响从贸易战以来其实包括像美国那边对中国的软件的 IC 审查其实会非常严我们进到有些美国律所的时间是以年为点为来计的
就在之前会更容易一些之前会容易一些已经进去的会因为这个原因重新来考虑进去的可能还好一些但是单纯你要新去跟有一些建立联系你就知道他在调染他也知道他在调染
难道写作猫这个产品付费的比例大概是多少两个点到五个点之间这样这是超出你们的预期还是低于你们的预期在目前的这个情况下我们认为是一个合理的数字并且我们没有太激进的想要快速把这个数字做好这个其实我们从上线以来对这个事的一个态度
你无非是在评论很多的不同的量比如说我们允许大量的用户其实每天给了他 8000 字的免费检查的程度那就是在容忍那些相对比较低频使用的用户能够持续的免费的使用你的产品如果你想要拉高出费率那很简单你把这部分用户全力全部盖到零中间也有部分转化有部分不转化的你就说那就再见了所以我们觉得就是这里面单纯优化一个数字
可能都是有很激进的方法可以做到是其实我也想问总数我自己觉得你可能不方便说总数还好我们现在差不多纠错用户的话说 700 万蜜塔写作猫的总用户数是 700 万是所有的都算上什么把纠错的就是你们每个人其实我们是一个产品所以我们是没有办法分开统计的你们有去统计说在你们上新的大升级之后带来的新用户的情况吗
我理解第一次比较大的升级就是去年你们把它变成生存式的然后最近一次大升级是今年它有加了对话的功能你说带来的新增量的用户我们看到的确实现在很多新增的用户里面有百分之几十是把我们用到的生存式功能的至少免费的资助用光了大家至少从体验的角度来讲还是有充分的动力去玩去做这个交互因为其实对于很多用户来讲这还是一个新的交互的用途
有一种观点认为说在中国做 2C 订阅非常难因为没有这个付费习惯我不知道你自己是怎么看这个问题对我觉得这个是看和谁比你和海外的一些用户的付费习惯力来比你可能觉得中国的这个是更
我觉得这个不是和海外比还是和说能不能让你这个公司生存下去就你能让这个产品真的它的收益是能赚起来的对我觉得是这样的我觉得它比海外是更难的这个是直接看得到的一个现状且单个客户能够给你带来的收入可能比起海外来讲也有一个比较明显的差异包括为啥 Jasper 能这么快速地干到 1 美金 2R 级别
他在中国他干的再好我相信他可能也很难快速做到这么一个级别的订阅几乎国内做到 1 亿美金订阅级别的产品能够数得出来几个就是
就是你可能不得把从腾讯这种定位去掉再往下看能不能找出来几家能做到这个级别至少是差了一个汇率你可能做到 1 亿人民币相对来讲可能机会还更多一些做到 1 美金以上的这个 L 其实是有挑战但换句话说你在中国做哪怕 2B 的定位也不容易所以其实本来我觉得是你看怎么比
对包括你们最开始的产品是更偏 2B 或者说是 2 专业人士的然后后面的这些产品是更 2C 的是就这个转变是基于你看到什么变化或者你们公司战略的什么变化第一款产品我觉得我们在做的时候就已经对它有预判是说这个设计天花板肯定是在那儿的因为就是一个这么大的使用的这个群体而且就是我说的 6A 那个逻辑它不会因为你做的特别好而疯狂的用它这是我的一个工作场景
相关的一个事我把我的这个 case 做完那就做完了那我不可能由于用了你这个东西我突然能接到三倍的订单量那是不可能的对所以你是给它提升效率并不是帮会赚钱的对 是的所以对这个事我们其实有什么理解所以当这个事做完了以后我觉得我们对这个事的一个理解是说我们还是在看哪些的就是我们所谓的场景
是我们认为 AI 能解决好且在我看的那个当下没有人把它解决好结果其实是这么一个视角顺便这个视角你也可以做一些别的更专业的场景这是一种选择然后另外你可能是去做一些非常不一样的 2C 应用不过实际上我看这个写作猫它不管是对话还是生成还是纠错其实都是有一些其他产品的
所以你们为什么是这样一个选择 B 端的我觉得这里面当然这是我们个人尤其是创始人对这个事有偏好也好有一些对这块领域的一个看法我觉得中国 B 端其实可能会分成两类我们做的翻译这个其实是走的一个相对比较轻 B 端的一个路线它本身上是提供了一个相对清晰价值的产品拿着一套产品来卖 B 端标准化的产品对它的区别唯一就是可能你的商务成本比卖 C 端可能会高一些但是大量我觉得在国内所谓谈 B 端销售的时候其实是在卖定层化服务
而且中国的很多 B 端人家有强烈的去把一个标准产品干成定制化的欲望你是说客户有这欲望是哪怕没有必要我也要对吧我一定得给你提点啥就是我们看有些说想改稿子对吧改了半天最后回到了原点那没关系我要的是一个过程你得给我改到第十稿然后我返回第一稿那是我的选择但是你交给我第一稿你说不能改就是它那我
那我不满意嗯变成这么一个逻辑所以其实我发现这个事它的难度在于如果去做那种非常重的商业模式它会稀释掉你的比如说我们的很强的这个竞争力在于确实是把这个产品把这个 AI 把这个效果把这个模型做好对但是一旦你的其他链条上的这个权重占比不中以后就是这个部分它就变成一个附带的事对吧就是有
做好一点当然好就是技术只是你这个长链条中间的一环没错当然还是周知于我自己有几个时候的事业和判断和偏好对所以这条路你们是不选的
我觉得也是能力问题对吧嗯就换句话说我们说有些大弊端本质上如果你跟他谈完他说行我这里有个三个亿的项目我们说好可以做但是实际上你在中国你会发现很多时候就是你跟他谈了半年最后谈出来一个 20 万的一个项目就这个事他 work 不了一年你能同时谈多少个呢你能谈 100 个弊端最后能找到一个销售收入都有多少那为什么不去一些别的领域去复制这种轻量化的弊端的标准产品比如
比如说比如说所以你是因为没有想到是吗你觉得没有找到特别合适的而且我会觉得是这样的如果你有一个比如说一年能够给你带来 100 万收入的一个事你再去找两个带来 100 万收入的事它的意义其实就比较有限我们当然肯定是希望再找到的下一个这个机会点它至少是能够在原有的那个机会上 scale 上一个零它能 scale 两个零当然是最好所以你们现在选的对话机器人包括深层文案你觉得是个特别大的市场虽然
虽然竞争者也很多那就来到下一个问题那里面的差异化是什么这个就像之前广为流传的一篇文章对吧 Google 没有壁垒 OpenAI 也没有我觉得其实尤其是在现在这个时间节点我们越来越不愿意去谈这种问题
我觉得这个叫做走着瞧我觉得很多的所谓大家对一些东西理解的差异不太简单的能够用一两个词一两个句子去做代表抽上来看你在很多东西上你确实得做的比别人要更好不管是从你的技术层面还是从你对交互的理解层面你得做到更好你得做到对用户的理解可能会更深入
等等然后在这个过程当中发现到底哪些东西可能是值得优化的我觉得这是一个非常动态去判断的一件事明白可能本来这个东西一开始就是没有壁垒你可能得坐着坐着你才会有壁垒或者才会有一样的东西
对而且这个过程当中我觉得这个也是很多用户对于很多事判断的一个残酷性对吧他可能用完 GPT-4 的他说你没有 GPT-4 好当然背后的成本是有很大的差异的但是他不 care 这一点对所以我觉得无非是你在一个最通用的最全面战争的这个场景上跟世界上可能既有能力又有资源的这帮人去打
可能是有挑战的但是你能够在这个过程当中你发现其实有些边缘阵地你可以先开始去占料那人家现在不关注这个场景就是我说好的为啥对于有些事你干到 1 亿人民币一年对 G2 来讲可能还不重要因为这是他收入的 0.1%以内他要想的下游 milestone 一定不是我增加 0.1%收入的这么样的一个场景那这种场景我觉得还是有机会对于一个创业公司来讲你可以全力投入把它给做好
你先把这 1 亿拿到再说对吧对于巨头来讲他未必花费他最大的最主力的这个兵力去在这个上面跟你去 pk 这件事你们现在看到的场景就是当写作者去更好的写作是吗而且我们会觉得实际上鸟板戏份啊那不同的写作场景不同的人群对这个事的需求理解也是完全不一样对对所以其实中间还是有大量的哪怕是再分支一截的这个场景是还没有被解决好是可以被解决的更好对可以举具体的例子吗
就像同的人的写作需求完全不一样公务员的写作需求和你做电商的文案的一些写作需求但其实本身上我觉得是两个完全不同的场景它背后不是一个大模型来解决的它可能是要配合其他的一些这个知识图谱啊等的因为 Jasper 最开始他比较主打的是营销文案的专业是的
而且它和欧美习惯用邮件去营销的这个体系是相关联的一个是邮件一个是 Google 的 SEO 那个应该是占了 JSPR 很大的一个场景所以它其实是把另外一家第三方的叫 Surfer SEO 是直接集成到它的产品里面就相当于提供一站式的服务然后 Vita 写作帮现在看起来还是就没有那么收入的它写作的范围很广就你们接下来可能会怎么
去发展和设计这个产品我觉得还是走着瞧走着瞧你是想好了但是觉得现在不方便说什么我觉得这里面我们会对它有一个或几个往下去做进一步探索的方向第一个是说我们需要去做落地需要去看我们提供了什么东西用户给予什么样的一个反馈另外一个就像你提到的这个事本身也是在一个竞争线的场景里面
我们也会考虑到我们现有资源对吧如果有一家就是非常有资源在其中某个方向说我就是要为你就要把这个方向打深那我们是不是说我们就是要在这个方向上跟你死磕到底我们感觉也不必吧大概是会是这么一个判断所以我觉得它是一个动态去调整的一个过程嗯你们
你们接下来对商业模式是怎么想的现在主要是订阅未来可能会有别的商业模式我们其实对于这块倒是一直比较开放一点我们订阅只是因为订阅这个模式相对来讲是比较容易操作比较容易形成规模化其实是不是有些人在问我们比如说走一些更偏更重的更偏部署我们觉得其实无非是你投入产出比这个事能算得过来我觉得很多就包括刚才说中国的 2B 的这些挑战了
我觉得你会发现大量有 VC 去做 backup 的中国的一些创业公司我会觉得最大的这个问题就在他从 day1 开始收入产品其实就没上过来
从来都没有算过来过这个是我们看到很多的创业公司的一个问题所以他需要不断的去拿资本去填填到一个可能把收入做到可以上市的单量级然后交给下一棒对吧交给二级市场来买单但是我觉得这两年可能这个时候挑战会更大因为本身资本市场的顾虑这些也会更多一些所以你会看到很多很好的团队用精兵强将花半年时间去干一些小几十万的项目的事
这个很容易在中国做成一个双输的局面就是客户交了 50 万他认为我付了很多钱我是一个大客户
我就有资格对你指手画脚提个什么意见作为提供服务的公司这边 50 万根本不足以 cover 他的人力成本可能还差了老远但是他愿意花精力去支持这个客户是因为他想拿这个客户的 logo 然后为他在下一轮去讲一个更好的故事相互伤害就是我说的你拿 50 万你觉得你亏了我交 50 万我觉得我交多了就是本身这个是我觉得很大程度上中国的图利淡成了这个样子你觉得 2C 还有什么张用处除了定律
没有我觉得首先订阅已经是很宏观的一个模式其实要不就是你按次付费要不就是持续订阅的这个模式其实我觉得不在于它是不是订阅或者是不是一次付费是在于究竟哪些玩法上我说是你真正提供的价值且可能又没有那么容易被一个新入局的人马上做到的其实我之前在跟我们同事说这个非常像是战国时代就是很多应用你会发现它现在的这个问题在哪呢但凡一个 junior 的
开发者新入职的一个开发者甚至一个 part-time 的一个开发者拿着 OpenAI 的 APM 他花三天时间开发商店的一个东西可能能直接跟你大厂原来做了很久的这个工程手 PK 他的尴尬的这个地方其实是在这个地方
然后所有的人现在都觉得我拿了这个东西我可以做一个这个 A 这个东西做一个 B 这个东西而且我如果做一个个人开发者我的失措成本还是很低的大不了这事不成我自己花几天时间开发这个东西我网上一滴滴又怎么样了万一他有还有错误的这个效果甚至是说我看做了一个这个效果这不就是套了一个 open AI 的 APM 吗我自己也做一个我觉得我还做的可能还会比他再好一点他现在不论是个人开发者和大厂之间还是大厂和他两个之间进入到一个所有人在 PK 所有人的状态
它的方式在哪我现在觉得还没到收点的时候其实得打一拳所以也不到说我怎么收钱那么清楚的时候
对因为他的问题在于啥呢我觉得你们应该是对过去这几个月的发展应该是从头跟踪到尾所以很熟了所以你就会发现不管是这个里面的哪一类的从业人员也好投资人也好一天一个样为啥一天一个样因为这个世界一天一个样的变化对吧前面二月份的时候说我一定要投大龙行那康康给你干出一堆开源了以后这种投资人对这个事我觉得也是只能退的一个态度说既然现在已经有这么多的 open source 那如果我去砸几千万美金去支持一个团队他如果还干不过 open source
他暂时越能有零对吧他烧这个钱烧不来什么东西呢那还不像原来的计算方说他干不到前三名他干到第四名他可能还能圈一个他自己的客户 base 能够产生一定的价格所以我觉得这个事情是个很动态的我觉得他现在其实不存在说我设计了一个绝妙的商业模式然后不管刚才说的这个世界到底怎么 evolve 我的这个一定行我觉得他不存在这样一个
回到产品形态的话就是现在很多人讲应用他会去讲一个概念是 AI Native 这个概念是我们在去年上线的时候就在讲然后这个概念现在越来越多的人在讲那你可以讲讲你的版本的 AI Native 是什么我的版本的 AI Native 就是字面意思 AI Native 因为我本身上觉得很多时候一个新的尤其是技术上一个比较大的突破无非就是伴随着说你很有可能会对传统的这些哪儿任何的交互产生很大的变化
我觉得主要还是在交互就是在交互上对我觉得还是在交互层面为啥我觉得有些传统的厂商做的这个产品他要做这个迁移实际上面临这个挑战也是大的呢因为总归有很多人他在过去十年的时间已经非常适应了你的上一个版本的交互模式然后这个时候你但凡去做转换势必会得罪一群人我觉得这可能是很多只要是你一个长期产品
你不论是这个长期产品的迭代你自认为可能做了一个很好的向上迭代一定会有一群人对你不满意但才你改了交互一定会有适应了老交互的人会吐槽你说我希望原来你版本我不希望新的这个我
我不适应就像我说的现在还有人说我不用智能手机本身是这回事但那是一小撮人它是越来越变成一小撮人比如说当你的智能手机也是在推出第一代第二代还不够完善的时候本身很多软件产品得到你是强行把他原来的手机没收回来塞给他一个新的一个东西说对不起你只能用新的他会不满意
所以我觉得这个是大厂创新也会面临一个倒计我理解的 AI 内提是说有了新的 AI 技术之后才能做到的事它以前是做不到的比如说移动互联网相比 PC 互联网它不一样的地方就是设备是可以移动的它有位置信息然后大家可以随时拍摄这是以前做不到的所以现在有什么以前做不到的东西吗
以及基于它可能会有什么新的应用我理解你说的这个但是我看到恰恰对 AI 这个事是另外一个层面从来都没有一个从做不到到做得到的从 0 到 1 的转变它只是做不好跟做得更好的区别它其实是一个更灰度的 spectrum 就像我说用上一代的机种做人脸识别
是不是做不到不是只是做的比较痛苦只是它的成本可能显著的是高就因为我们看到很多问题才其实变成这么一个东西但我觉得多了对话或者说让你体验非常好的多了对话之前确实是做不到的如果你把它限定到一个等面你原来的这些专家系统什么的其实本身上也在模拟多了对话的场景
明白只是它的成本很高然后降麻烦对他比如说你今天是模拟一个医生我就给你看感冒这件事不论对话可能 20 年前我就能做到一个还比较不错的一个效果但是我们也看到 IBN 的沃森系统也是失败了是因为他试图解决一个更通用的问题
我觉得 IBM 这件事太综合而且由于我自己也不是局内人我觉得是不太能够有很多这方面的 insight 就是我对这事的一个猜测其中有一个很重要的一个原因我觉得医疗这件事它是一个太强壁垒和见惯的事情很多时候可能不是说我技术做的好不好
就像刚才我说突逼的一样如果你这个时候价值占 10%你先得把前面 90%的事情解决了现在人家才能到说我能不能搞定这个技术本身而且它对错误是不能容忍的因为你的后果会很严重其实自动驾驶也类似你说这个车能在路上跑 18 年的时候车就能在路上跑没有司机开但是你要 1000 万辆车都在路上跑这还挺吓人的
所以我甚至会觉得 Nitio 这件事可能包括 IBM 包括 Google 自己做好像也有个 Google Health 也不太成功 DDP Mine 我觉得很大程度可能它的核心问题可能不在单个点的技术走到上面
是有其他强监管等等因为我们跟包括做医疗的一些创业者也有过一些沟通医生有的时候尤其是好的医生和医院的关系其实本身没有那么强的依附关系我是一个著名的外科手术医生你这个医院让我不爽那我去其他医院我可能照样能找到很好的机会你要通过这些医生去搜集数据他们其实还有各种各样的别的 concern
甚至是比如说他们的晋升跟他们发表论文可能相关的你要让我说我看了今天这个辩论是一个特别离奇特别古怪的数据我就应付到你的系统至少得等我发表出来这个论文以后我可能才有动力把这个论文给放进去前面那就是我 private 的 data 我为什么要 share 给你你跟你的同事可是这样的竞争关系我不想让你看到我的数据
有很多这种都不是你简单下一个行政命令说你必须把一个数据录入进去解决的感受我感觉这已经到了社会工程的层面没错没错现在对你一个系统尤其是说我非常智能请问你智能要干嘛呢要做决策那现在做决策的人可是我你要帮我做决策对吧你在找我做事对你是想干嘛我录入完了以后对吧过了几年你说我就不用干了那我凭什么要配合你去干这件事嗯所以我觉得这本质上是一个 conflict 的过程这种我觉得就非常难不是你技术好你说我帮你解决这个问题
你刚才说这个差异化是走着瞧其实我有想到就是说 Meta 可能跟一般做应用公司不太一样的一个点就是你们自己是有在自研大模型吗你可以讲讲就是你们自研大模型是用什么方法做的比如现在有不同的方式你可以从头去训练一个然后你自己去调加工自己去收集数据你也可以基于一个开源的去做微调或者做定制化你也可以用 API 然后去做提示工程所以你们是一个什么情况你刚才说到这三个我觉得无非是什么呢
它有不同的投入的情况是从大到小的对对吧但是你能够做到的可动性也是从大到小的你越往这个源头做你其实对它这个可动性其实越好你利用别人的模型那别人模型的从架构到数据到它一系列的这个 setup 你是受到限制但是你也有一定的发挥空间到最后的这个 tropical engineering 就基本上你的完全依赖人家训练的这个能力它有这个能力你能通过提示词把它展现出来那就符合没有拉倒那就天不得了
先不做这个功能所以恰恰就像我们说找专业场景一样我们当然是希望找到那些既有高价值的机会现在你通过第三档做不到通过第二档做效果不错那你只能回到可能要通过自研这个模型从源头上设计数据设计架构把它给解决漂亮再怎么样一些这个场景但这个前提是说你首先得 identify 出来说这是一个重要的问题对吧而不是说我花了很多钱花了很多精力去解决了一个没有人关注的东西我觉得
我知道就是你们是先选一个场景这个场景是最好才需要我去从头搭模型来解决的场景吗还是说我觉得倒过来来讲这个逻辑就应该是说什么呢我们有这个去自主研发落地这个能力如果简单的通过比如说一些小的数据的 finding 或者是一些康律能力真的解决了在我们自己的这个模型里面其实也能快的去解决那么我们为什么要不断的去做下一个版本的一些升级叠代扣两个方案已经解决不了的这个问题我们会把它
在下一个大的版本生技迭代的时候可能希望解决那些新的问题所以更直接的说 Meta 就是从头自己大架构数据数据然后做一个模型这种方式对因为对于某一些我们认为就是后面解决不了问题我们只能回复往前做这是你们一开始就这样的还是你们在推产品的过程中间到某一个阶段才开始做这件事的我指的是从头去哪一个模型我们其实一直是这么干的
第一个是说你要往回追溯在之前也没有什么太多的开源的模型啊这个供你选择你说一直是这么干是指 2018 年成立之后就有在着手做这件事情对因为本来像 18 年比如说我们去翻译那就是从头去尾也没有谁开源出来一个比如说翻译模型说我已经 pre-tune 的不错了啊等等但是你们做的是一个相对小参数的嗯我们会认为这个参数就看你要解决啥问题是对我觉得很多人是为了打打那个参数做的很大打是一个成本不是他的能力对
所以你们就开始做这个事情就是因为你选了法律翻译这个场景你觉得有必要做这个手然后就做了也可以这么认为或者换句话说在这个之前其实我之前戴团队就做过翻译所以我们知道这是一套相对比较通用的这么一个架构然后我们只是在这个翻译上面做了一个进一步的一个落地至于在这个和周错这个上面我们其实是对这个架构还不断地做了调整和改进你们自己模型的比较大的升级是什么时候我们其实一直在做对我是指比较大版本的升级因为小的优化可能是一直在发生
我们会在平均可能两三个月三个月左右会迭代一个新的版本去解决那些我们看得到一部分用户上一个版本没有被解决好的一些问题你们现在翻译和写作猫背后是一个模型还是两个模型其实是不同的模型对翻译是翻译的模型写作猫是是的是不同的模型你可以讲讲当时第一个模型应该是翻译吧然后后面是写作猫这两个模型你们在做的时候大概投了多少资源吗这个也是另外一个我觉得不太好我们其实在很长一段时间对于机器 GPU 这个投入是相当有限的
你们是自己买的一部分还是你们主要是用的运厂商给你们提供的训练基础我们之前几乎是自己买的而且几乎是自己买的非工业级的消费级的基本上是游戏显卡去做训练你觉得这个之前指的是什么之前在去年年底之前就是 CHATGBT 那前后之前可能得到去年年中的这个时候我们理解是啥呢就是在一天写作这个场景他是有必要上更大工程
但是解决一些其他更特定的问题上太大参数本身是个负担这是个成本
所以在你们决定上更大参数之后你们是去用一些云服务公司给你们的算力对吧对但都比较有限因为很多时候我们跟人家说这个事人家都表示不相信跟你抢账不用让他们相信你给他付钱就行了不是说我们告诉一些人家说我们到底拥有多少的 GPU 多少算个亿做出来的他们是说你们算力太小了是太小了就胡说八道那就没有人表示算力很小也能做出来觉得很厉害想问问你们怎么做的
因为这里面我觉得它本身是一系列的工程问题它没有办法做到告诉你一句话你说这个是个绝妙的想法原来你这么做能做到我懂就是它不存在这样一个答案它其实是无法被验证的一个问题就换句话说如果恰恰 GPT-3 出来你拉着多米尔的高管你跟他随便聊对吧他知乎不言他能够 convince 你他一定能把这个事做出来你不想对吧
你可能不相信那是吹牛吧什么 AGI 吹了多少年了你们做了个啥在你们决定要上更大参数的时候你们有去融资吗没有因为本身我们需要的成本是小的是足够在我们自己的营收里面去 cover 的那就是十几千万 GPU 而已是这个级别的头所以我们不可能说我要去融资是因为我需要出十几块 GPU 所以你们之前自己买的还没有到十几块 GPU 这个量我们自己买的其实都我们买了几十块但很多消费者其实单张卡其实不超过两万块钱所以就
也是一个非常 manageable 的成本上你们去年去租 GQ 的时候是在几月份去年年中的时候吧六七月份嗯那个时候中国云厂商的 GQ 的价格是个什么情况单个 A100 的话应该是在一个月一万块钱以内其实现在就便宜厂商也拿得到这个价就是单块卡一个月一个月一万块嗯但现在的问题是你租不到了嗯
嗯 结果你新下单的话是做不到的对 我觉得现在问题还是这个就是被一帮冲进来的各种尤尤其是有些土豪就是又土又好对吧我先拿 1000 张再说但以我们现在需要的这个算力单量我觉得哪里都可以解决我不是要一万张我要一万张这个事可能现在在全球国会很难但是我说我要 50 张这还是有各种渠道对吧怎么着都给你匀一点这个事都给你匀
你们现在使用算力的方案变了吗还是在用林场商的还是你们接下来想自己采购一些我们会认为现在这个阶段采购其实变不划算因为其实单张现在已经干到 10 万的这个级别了就是你们去年买的林场商是够用的是吗我们现在还是可以 skill 比如说再稍微多拿就是我觉得是在 100 张级别以内现在你要在中国找比如说 A100 你都不好找你找一把白色很好找他就找得到就是能做到对就这个级别其实是能搞定的
这个要靠什么做到了因为我听说是很难做到的就是你之前已经买的他可能会让你继续用但是再往下的话因为这些大厂银厂商自己他内部也得用这些算力其实我觉得还好就是拎得出来而且会有很多供应商会主动联系你他因为知道你是在干净快的你说是云的供应商对是的所以基本上投入的那些不管是什么腾讯云什么火山啥的就是都是在主动去说这个他们能够提拨你们现在有的是火山还是腾讯的
其实都不是我们都会用一点阿里的我们租过然后金山的我们也租过但是你们现在既不是阿里也不是金山我们也有第三方更小的一些提供商那就是 Ucloud 这种类似的企业甚至可能你根本就听过名字了什么 Easy Step 就但他们好像不太做这个反正个例我们都会有一点
其实还好对就是以我们想要的这个算力的单量级我们认为不会成为一个瓶颈我觉得你现在成为瓶颈你基本上想拿 4 位数的这个级别嗯可能会比较麻烦而且你这个要求往往是说你不光是要拿 4 位数的卡你是需要他的机房有比如说 ib 的网络把它做相互互联啊等等一系列的这个其实对原来设计的这个机房有很大的挑战因为其实我们自己买的那个机器是托管我就知道大量的中国的云厂商的机房
是按 10 年以前的逻辑去设计的这就导致哪怕是我买这种游戏卡我一个机器 4 个 U 嘛他们基本上一个机柜可能是按 32 个 U 至少 至少 32 个 U 都得好像有到 40 个 U 级别的我占了他空间的 1/10 但是我会把他整个机柜的电全部换完这是一个从机房设计来讲就是极其不合理的设计甚至新版 H 的卡对于很多 IDC 机房的挑战在于我一台进去他一个机柜的电还不够他需要特殊设置才可能
能解决电的这个问题所以其实是从头到尾这个基建都是有问题的并且政府还主导了很多当年各地的超算中心然后现在问下来基本上也是都不玩了
市面上有很多人要算力有很多的地方政府组织构建的算力超算中心平台全是限制的用不起来他就基础说是要更新了之后是不是就可以用起来了对不用重建了的我不是这方面专家但看起来就是我觉得需要动的基建是巨大的这个我觉得是为啥 gbt4 不是号称就是我们相当于是清楚自己的需求了以后找到比如微软的阿卓
cloud 上面对这个事最懂的专家说我们从头去打造一个超转出来我清楚我的需求真正有 body 去设计这个的能力对吧那边还有金主有钱那我们这 10 亿美金砸进去把这个事给搞定嗯我觉得中国有很多政府主导的这种超转轮胎完全脱节完全不清楚市场到底需求在哪先造了再说造了以后发现一进去一看说这东西用不了
你刚才也提到了开源模型然后你说你们最开始自己做模型的时候那个时候也没有很多开源的客户供你选择现在其实市场上有非常多开源的大模型也出现了这个会对你们有什么影响我们首先觉得是这样这个市场上其实并没有那么多的大的开源模型
之所以现在大家看上去这个场非常热闹其实是里面有一大堆 funtune 模型都是基于开源说我今天拿这个数据专业天理下明天我拿那个东西改一改快速的产生了一大批相关的开源的这个 release 出来但真正你去看 open 出来的真正叫大语言模型的 meta 原来的那个 pt 可能算一个然后 bloom 算一个就是他后面那个 lama 可能算一个就到那个级别的也没几个三四个
就是差不多千亿级别的这个其实不算那么多且大量的都是以这个英文为主的这个其实我觉得是一个很大的问题就中国这边其实没有 release 出来一个其实有包括那有些之前华为啊什么就是不是放过一些大几百亿千亿国内的一些东西 train 的都很有限你们是试过了对
你觉得他 train 很有性的表现是什么就是在什么地方跑用他这个问题其实是这样的就为啥包括 Meta 原来公布了一个 opt 以后他在最近这几个月还要去 train 这个 Lama 的这个东西因为他自己非常清楚他的 opt 的那个版本虽然也是 1000 多亿的这个参数就参数规模是一样的他的 performance 比起哪怕就是
20 年的 GPT 的那篇论文的 report 出来这个 formula 还是有显著差异所以这里面其实是一系列文成化的问题包括怎么去砸这个算力包括在同样的参数下面砸什么样的算力是合理的包括到什么程度认为这个模型是收敛的这中间其实有一系列的子问题是很多只会说把这个事给跑起来的人实际上是没有考虑甚至是没有想清楚
比如说你的 loss 上面稍微跌了一点点从总体的模型的质量来讲你可以认为它是可能区别很小但是对于一些长尾的问题很有可能那一点点的提升其实转化出来就是说你的有一个新的能力从原来是随机的能力变成了显示提升了它不是那么降低了
简单的转化的一个问题虽然现在好用的开源的大模型并没有那么多但是可以预见到开源会是一个更加繁荣的生态那随着这个趋势变化的话就是对这些做应用的或者像你们这样应用驱动自己在做大模型的公司会有什么影响我会觉得我们还是核心是持续找到那些最重要最关键的场景把它给做好
是不是有一些适合用到一些开源去解决呢我觉得我们也很难说这个一定是 no 但是还是那个走着瞧的就是你们是可能会去用一些开源会去尝试的对我觉得它不是一个完全非黑即白的一个是因为它有一种可能就是那些做应用的它用开源的模型然后开源的这个模型因为有更多人在贡献嘛它有可能会迭代的比某个公司自己做的东西要更快
这个事我觉得在语言模型上会相对复杂一些因为这涉及到传统的意义上这个其实就是传统软件跟 AI 软件和大的一个区别就是它开源的意义是不一样的开源的东西也是不一样就是传统软件有的时候你在你产品经理写说我要做一个什么功能的时候你定义是非常清晰的对吧
我今天要做的功能就是打开这个文件然后我要支持比如 PDF 能够显示高亮就这个事儿是一个非常明确的诉求但是恰恰是比如语言模型你其实在定义我在优化什么这件事都不是那么容易
你说我在优化 AGI 那实际上什么是 AGI 就这个问题已经就是一个学术需要去讨论的这个问题了所以甚至在这个上面它的互信是非常高的就是你有可能是说我的开源我优化了 A 的这个任务但是这 B 的那些任务其实是掉了的但因为你不关心 B 的这个任务而已它其实是有些 complete 的你自己认为开源的模型和避免的模型之后是会表现更好
如果你存在一些类似于像 OpenAI 这种的玩家他持续的可以用市场上可能其他的这个产业公司 100 倍的投入去把资源撑到一个人类极限的这个程度那我觉得那没有啥好说的那一定是他的必然的这个可能就是能做到最好的因为就有一些 observation 是你看不到他能看到嗯就换句话说如果我们自己训练这个模型我一天能训练一次我可能创新会快很多
因为我是需要看到下一版本的反馈继续去做下一个迭代的我觉得本质上是这样一个问题其他人可能看三个月看六个月看到了一个反馈如果你真的要把模型 skill 到那个地步的话我是一天能看到一个反馈然后你再跟我去 PK 这个事其实你肯定是很值回的看到反馈的速度是和你的模型规模有关的吗还是和用户的规模有关核心是和模型和你的算法有关你得很快的把它给跑到一个很好的一个地步然后有些观察才观察得到
我们试过训练一个大 2,300 亿的规模和模型如果我们拿单一机器去跑至少一年就不要想了就是这个返回周期就是黄花再多两你可以解释一下模型的开源和以前软件开源的区别是什么这个其实就是我说的我会认为这个区别是于传统软件和 AI 软件的这个区别 ok 就是你传统软件在定义任务的时候和你 AI 软件在定义任务的时候其实不太一样
可以这么理解就是传统软件开源的就是代码而且你这个代码就是非常明确的你这样输入它就是怎样的结果光线是这个定义上明确的所以当我用户在用的时候我发现比如说有一个 bug 的时候我可以很快的提交一个盘试我把这个 bug 给解决掉然后模型的开源或者说 AI 软件的开源它也开源了代码然后它也开源参数吗权重它也开源了吗这个才是开源的核心那个代码对于绝大多数真正这公司级别想要进入的都不是场秘密对
那它开源了权重和权重之后也还是不能保证说你就能复显它的效果是吗主要是和数据有关的是这样就是你可能不需要复显它的效果因为它的权重把刚才它称好的效果已经展现出来了所以很多人是基于那个之上再去 fine tune 那实际上开源也是我用了一个开源模型的 API 的然后 fine tune 还是怎样
因为你拥有这个代码嗯他的最完整的话是是训练代码加 influence 代码加参数嗯那么理论上来讲如果你说我就是要一个他 trade 好的比如 Lama 的这个版本你是可以直接用的你说他这个版本比如说在我的医疗文档上还做的多好我自己有比如说一万条医疗数据你是可以集于他上面去做半天嗯对就是你自己修改他的这个代价是低很多所以就像我们说如果你有十张卡你 trade 一个 200 你可能需要一年
但是你翻译的可能三天你就真的把它给做完如果你要再做后续的创新的话这个速度拉起来你就只需要在别人已经相当于是为训练一年的内容基本上去做对对但是你翻译的时候你也是可能自己要有数据也得有算力去跑这个翻译的过程其实都少很多对相对来讲可能是少了两个数量级就是他让这个事能够 access 的人多太多了嗯对明白你觉得这次的 AI 热潮大陆型热潮之后整体上给你们公司带来了什么变化
这坦白来讲我会觉得也不是啥好事可以展开讲讲我们在去年 release 写作这件事的时候你可以想象那个时间节点其实是在恰吉比出来大概一周两周以前
对 11 月他们是 11 月底对我们看到很多反馈包括我们在 11 月上线之前其实我们有些小程序已经在搜集用户的反馈了虽然大家讲的也写作讲了很多年但是其实我们 release 产品也好 release 我们的小程序我们发现绝大多数的中国人其实没有讲过这东西
就是你写一个标题我就能给你生成一篇逻辑上还完整能够比如说 800 字 1000 字 2000 字的文章还能读得通我不仔细看的话我甚至不觉得就是自己写出来了就这件事的直观感受绝大多数人在那个时间里给我感受过
所以换句话说我们相信就如果我们有一个半年的时间我们发了 ChatGPT 还没发能给我们发展的话实际上是会让我们包括在业内的用户增长也好口碑也好可能会有一个很显著的帮助由于你们发布和 ChatGPT 发布的时间非常紧你觉得它实际带来的结果是什么
他本身是这个问题就是签 GPC 的发布以及在两三个月的时间内的爆魂好处是他其实给全民把这个技术全部普及了一点所以原来 95%可能在中国还不止对吧你要算上所有人的话肯定他都不认为技术能做到这个程度所以你原来做到这个程度对他来讲是一个很大的一个 surprise
就是你原来的比较是可能我们比 serious 他觉得这是一个巨大的一个进步现在我们要 pk 的是 chess bt 对吧因为 chess bt 你可能没有用过但是你一定听过吧在全球范围你可能都变成这么一个情况所以你的对标对象已经从上一代技术变成这一代技术的最强的这个
我爸都知道 Chad CPT 因为他炒股就 A 股概念都长得特别厉害所以我们觉得他的挑战确实也就在这个地方甚至他会让所有的巨头都极其难受嘛本质上你现在不管是哪家 BAT 出来对吧你发一个模型人家自然给你对标的都是你比起 O4 还怎么样你比起 GPA4 怎么样短期
这件事情让你们有一个非常强劲的而且短时间你无法挑战的对手那有些什么别的好处吗比如说会不会有更多的资源投资对 投资这事我觉得你应该也是有体感我们的感受是财务投资人在这一轮的暴潮的热情里面其实本身是缺席的你说的财务投资人你是指什么类型的机构无论是什么机构
但他们对大模型的投资比没有缺席我看到的其实也很少看你怎么想如果你拿现在这个时间节点去比比如说当年的 OTO 也好投这个什么 web3 也好所有这些如果你要把总金额来算上我认为是少了至少一个数量级的总额有可能只能说最头部的机构是没有缺席的像红杉 圆马这些机构还挺活跃的 IDG 真格都有在投这个我看到的第一方面你看它压住的是谁
也就是那么几个被突破的一些连续创业者而且也就是最头目的因为你单笔的这个钱已经不剩下有一些就是说我这个给个一百万两万万美金拿给你们去试试你不拿个几千万美金对这个事你好像绝对又干不了我确实观察到一个现象是现在印度的投资互相对上出手是小的可能投资人看不出我认为大模型其实也是小只是说有少数非常有光环的项目它是让这个景象显得是非常的热闹
你搬出的东西数得出来 10 个吗对吧你 O2O 的时候应该数得出来多少但是这个创业门槛确实是不一样第一我认为这个门槛是不一样的能做 O2O 的人本来就更多我对这个事有一个判断现在肯定所有人会认为我是胡说八道但是这不重要我会觉得在这一轮的所谓大额型的热潮里面很有可能尤其是投中国的这批投资人会集体意思掉
对他们 miss 掉的项目可能是一个什么画像的项目我觉得他们会 miss 掉就应用端那种头条小钱或者那个应用最后涨得不错这种可能还是有机会但是大国行这件事我非常怀疑你说的 miss 掉是指中国就没有这样的项目涨出来还是指有但是它现在在没有人注意到的也许是他们扣关机的这些项目也许是他们看不懂的一些东西你有看到这种东西吗就像你说开源我觉得本身上那就是一股另外的力量这个事有意思的一个点在哪呢
如果倒过去你看 OpenAI 它吸纳的哪些人对吧就是真的把这个事给做出来是以一个什么样的态度把这个事给做出来然后你倒过来看中国现在的这些创业团队是一个什么姿态入局是哪些人来领队你就发现这个事显著不一样就是中国的这个投资还是循着中国的传统思路在走而我觉得 OpenAI 这样一家公司它不是一个传统思路你说的传统思路究竟是什么
大佬站台资深什么院士什么成功的这个那个来作为领先来做这件事我认为 OpenApple 是这样你想他真正最能打的那些人其实是在最一线工作的人
就是他的 CTO 他的这些社区人员是要写代码的有没有一种可能是追赶者和原创者他本来就是不一样的他所需要的能力组合也是不一样因为 OpenAI 已经在最前面给你 touch 这条路证明了这个大致的方向是正确的是可行的那其实后面的人更重要的也许是资源是你资源整合的能力
我觉得这个是其中的一个假设就是现在这个节点没有太好的办法能够验证的因为本身在这个阶段我认为 OpenAI 还是有很多自己的 know-how 并没有公布出来就是他所谓的 tang 出来的那条路并不足够清晰所以这些所谓大佬来站个台背个书弄几千万美金的
很多真正的一些重要的方法其实还是得从头啰嗦我觉得其实受到的压力是大的哪怕你是一个成功的联传人你还是会问到你这个未来怎么挣钱我觉得这个问题非常难回答因为很有可能在一个非常长的时间段内你只能讲中国故事你没有全球竞争力只能讲好中国故事对吧有一种观点认为现在模型层的进攻焦点是看中国谁能先做到 GPT-3.5 的视频
我觉得你一定会在未来的几个月甚至一年时间看到一个现象就是每个人每一个每一家都 claim 自己已经完成了这件事然后每一家都会拿出来一些他们评测的 report 或者一些貌似第三方的一些评价来佐证这一点然后在他们的 PR 稿发完了以后你会发现实际 90%的用户还是在 chat 这个题我觉得这个事未来 6 到 12 会发生的
就是你是能 claim 完然后 claim 完这个事以后呢就又回到中国的特色商业模式你也许会 convence 政府就是你会拿到这方面的钱但是真正的我觉得 C 端用户是不会为你这个事买单你觉得现在在市场上少数获得了非常多钱的大模型的项目他们有可能碾压这些应用的项目吗比如说我可以最后把你收购过来我觉得他的问题是他的钱也没有多到那个程度他会处于一个有点你真正比钱的投入你也比国际比体一次
那你把钱花在哪呢我觉得这里面如果一个不留神会做成就是我说的他其实是卡在上下两端的中间就是下那我就干脆直接去做应用我反正先把这个应用做好上南我就要去 PK 这个我做到这个效果上我跟他有一战之力就我觉得非常容易做到中间等到你做到中间你想往下打的时候你会发现下的这个市场很有可能不是你想打的
因为那个也是一个需要花时间跟用户交互就是本质上我觉得那是一个新战场现在王贵文和王小川的想法都是双轮驱动换句话说我倒过来来揣测这个东西你不得不这么讲因为你说我就是要欧盈大模型这个事哪怕是非常信任你的投资人他真的对你有那么大的信心
我觉得他们也相信这件事因为其实你还是在模仿 OpenAIOpenAI 它之前做了那么多工作也并没有引起那么大的关注 ChatGPT 它还是一个应用的形态才引起这么大关注对对对是有意外的成分我的意思就是说它也是这样一个形态我觉得他们确实应该是这么想的你会发现他们在最早发言的时候都不是这么说的最早站出来的时候可不会给你提什么双文去的
最早的时候本身说的也模糊嘛最早的时候可能就是正比一呼我要做中国的 Open AI 对这也没有什么具体的东西对我觉得这个还是局势到了这么一个地步否则我觉得你非常难你难到能够跟人家投资人说你先给我放两亿美金因为我们这未来五年我肯定亏钱我可能每年还得亏两亿美金中国有哪些投资人真正敢
敢去想反正我对这个设计说我就是要做中国的 openshift 嗯不成我就为人类 AGI 事业做共识对做的什么你我不 care 就是 license 给我下个就做你我自己不碰你谁敢说的话我主要是觉得他们可能也确实不是这么想的他们还是很有自制制
但我觉得这就是问题这就是我说是不是中国的投资人在这种会集体密思表真正能够干一个事你就是说可能现在中国是有雄心更大的人而还没有进入人们的事业因为它如果不是一个比如说像之前那种被证明过的它不会进入到你的事业其实有一些倒也没有那么被证明过比如说现在资本市场比较追捧的几个项目还有一个是 MiniMaxMiniMax 的创始人是商行之前的一个 VP 其实他也不算是很典型的连续创业的成功者
对还有一个项目比较受追捧杨志玲做的那个星象新的我不知道但是我觉得是我觉得这件事像我看到的哪怕就是所谓的这些名利项目这个设计在全民的包括在投资圈的看上去的热度和实际大家愿意出手的不管是钱还是评次我觉得是不成我上个星期跟区开也录了一期播客因为他们在做 FA942 张金在做 FA
他们服务了还比较多应用项目他说我十几个吧他也是说他说舆论层面是非常热的但其实出手没有那么多因为都看不清我觉得如果你的想法在最近三个月变了三次那么你怎么敢保证你现在出手一个月以后你不反悔呢我觉得本质上是这个问题但是风险投资就是这样对但是我觉得这个就是现在这个局势的问题哪怕是风险投资他都认为这个风险对他来讲是不为之说因为他们原来很多时候愿意去讨论中级对
对吧这个事的终局是什么我本来有一个问题是想问你终局的但是我觉得确实肯定很难回答我觉得非常难我觉得恰恰是说这个事的终局可能不在于这个行业内的影响
而在于这个行业把其他的行业全给破坏了一遍就是破坏性的影响了其他的行业就是你赚没赚钱不知道其他行业是为你的这个出现受到毁灭性的不一定是打击有可能是足够大的一个变有可能消失了对是包括那个前段我看他们那个美国是讲的什么在线教育啊啥的那种
你倒过来看现在所谓的什么一对一教育我一对一机器人教育我可能能做到比你老师做的更好对吧你这小班我对小到极限你问啥我答啥我对这些所有课本以及课本延伸这个知识到位左右我觉得这种应用就摆在眼前你想练口语那没关系他在 24 小时随便陪着你练你想练啥给你啥就是几十美金对吧二三十美金一个月这个行业都没有怎么走
不存在你说他未来的终局可能取决于他对别的行业造成了多大的冲击我觉得他对别的行业是一定造成了巨大的冲击这个行业自己内部怎么做谁赚到了钱不知道
这个假设其实基于说现在的 AI 有非常强的能力在 2016 年 AlphaGo 之后其实那个时候人们也对 AI 是有非常高的期待的也认为它可以进入很多行业甚至会有大规模的失业我记得当时有一个封面杂志非常出名就是一个机器人在路上走过去然后丢了一个铜板给一个人类的旗杆就是大家有各种畅想但实际上这个是没有发生的
你觉得这一次和上一次会有什么不一样当然那个是个畅想我觉得这一代的技术就返回到就是我说我们 18 年才做 Meta 的这个时候我对他的预期就是他能做到就是他能做到在专业场景上足够强我觉得这一点是说如果回到 18 年的时候我们在讲这个事说对很多行业做到一个专业级的效果我觉得很多人还是不相信可能有些人部分相信说你把一两个这个特定的场景的这个点能做好可能
可能我认为是可行的但是我觉得在这个节点上就是由于 CHASBTGV4 的普及我觉得很多人信了已经有很多人开始相信这个事我会相信和实际发生是两个证总体可能是有落差的你觉得这一次有被高估我觉得有一部分东西被高估但是我觉得这个事一定会发生而且发生的时间比没有 OpenAI 要早
就是它其实是一个本质上把全行业提速的过程原来像我这样的公司我们也就是按照我们自己的能力对吧就是今天挣五块钱我花三块钱我把这个事做得更好一点如果这个领域做得更好做到一个我们认为已经比较极限的这个程度我们去把下一个领域做好但是我觉得现在的包括大家的这个舆论讨论关注也好
包括哪怕资本市场没这么热其实会吸引很多人投入进来把这个事给进一步加速尤其是那些做比如说纯应用层面的可能很多人已经发现哪怕就是刚才说的做第三个对吧 profit engineering 可能你要扮演一个好的英语老师这件事 profit engineering 就够了
这本做得非常好这都做到 90%了那替代掉你原来一对一的那个老师可能已经这不是未来他就是现在而现在缺的是啥呢现在缺的可能是一些好的比如说产品设计把这个东西封装的足够好用必用缺的可能是他有形成一个正向的一个商业模式把这个设备真正收到钱
以及他也需要解决怎么去面对这个竞争如果你接 GBT 他也接对吧你卖 20 美金一个月你觉得已经还挺便宜了另外一个他如果新进来的他要跟你抢利市场还要跟我卖实力你怎么来解决这些问题但本质上我会认为就是这个 solution 放在这儿了这钱可能不一定是你挣的但这个钱一定是有人会把这个产品做到足够落地做到足够好以深刻的改变这个行业原来工作的这个模式
可以说就是你从在工业界或者说你们一直在做产品的角度你会感觉这是一个连续在变化的过程只是说公众或者说舆论层面它会因为一些标志性的事件突然有一个信心的爆棚的这么一个状态但是这件事是一直会往前推的对 而且我觉得有一些爆棚就包括所谓一些互联网厂商对这个事的投入我恰恰觉得并不一定能有持续性很多现在出来各种讲各种的当子的在过上半年到一年
可能未必不过很多互联网厂商他自己就有超级应用是他至少可以去放到自己的超级应用我会觉得真正能够经济和能把这样一些模型调教到一个很好程度的相关的这些工程师团队就知道从现在这个节点也没有那么多然后呢它容易造成这里面有一些不论出于什么目的在最近的这两三个月
有投入还不费的一个成本的这样的一些公司可能能撑六个月吧未来的半年这样的一个时间窗口上他一方面在看到他的投入是持续花钱的因为你那机器放在你这花钱的不管是你采购算力采购数据包括雇人这些都是花钱的不断的在花钱另外一方面你看到市面上又有新的一些开源的这个版本你测下来
好像还比你自己内部团队在那搞半天对吧丢了几个亿在那孵化了半天弄出来的这个效果不如你自己在搞的效果如果再加上第三个变量就如果你的主义业务有不管是什么原因受到了影响对吧你的收入在下滑你的利润在下滑你说那个时候你会做一个什么样的判断所以我觉得很有可能会面临再过几个月的这个时间市面上反而都负担了一大堆二手的 A100A8
你养这个东西在那是个很最烧钱的一个我最近也跟人交流到这个问题说现在算是很紧张的但是可能过一段时间他又宽松了这不就是大厅的矿卡吗都在挖矿的时候那就非常紧张炒爆然后一禁止又传大量的矿卡出来然后欠卡了一手的这个费用肯定这个成本就上不去了
你说 OpenAI 给整个行业加速那你们公司自己准备怎么加速多买几张卡对吧对 而且你们其实也必须加速因为这个环境在推着走我觉得还是见料猜招本身上我们其实也是要更好的去把这批用户给服务好然后使得我们自己的就是我们说的做一个正向平台然后我们也有更大的资源可以投入到包括在这些研发的上面去做一个更快更好的连带
我觉得这是一个很强大的问题所以我说为啥比较可惜的是我们少了那半年的缓冲期就是如果我们有那个半年缓冲期这件事可能会干得更顺一些你们现在有在开新的笼子吗我们在看一个感受就是我们说的可能反而战斗会更积极抬头会非常谨慎战斗是有一些企业来主动联系你们是吗那联系的肯定是
肯定是不算少我说来联系就是指他们想投资的意思对我的意思就是联系号称想投的那肯定不算少这个反正我们自己也会判断一下你说的战投他们是什么类型的企业可能是足够大级别的比如说互联网公司在这个阶段你们想拿战投吗我看到的是在这个阶段如果我们想拿钱我们可能已经找不到第二选择了
那实际上你想拿战斗或者说你觉得战斗的顾虑是什么如果我们有一个相对比较自由的发展的话我觉得就还好顾虑是说他可能会管你限制一些东西如果他不限制你你是觉得对因为这个也还在聊的过程当中我会觉得如果他有很核心的业务说你必须得配合我这个那我觉得这非外国家本来就是他想要啥你觉得这个价钱卖不卖的就问题了就是你肯定是不考虑阿里的是吧
为什么呢因为上一次马里收购你不都提前跑了吗你就觉得你不想进入到阿里的这个体系我觉得站头和收购是不一样的还有一个原因就是阿里也是出了名的在站头了之后他的干预是相对多的嗯我觉得恰恰这里面有些事呢第一个是我觉得也可以谈也可以聊第二个呢我觉得他有一些你看到阿里干预多的我觉得他一定程度也是
比如说你现在做这个事可能跟他的有一些偏核心的这个业务可能有结合了如果比如你在一个他总办还看不到的一个地方可能也有还没到那个级别所以有可能是阿里是吗你们也接触过因为最大的反正有几家都在接触对你说最大的也没有几家了对吧那就是 BAT 字节对也没有几家了嗯不过字节站头的人好像这部门都基本等于就算了他们分到不同的业务的站位里面去嗯
他们现在不怎么投资了是所以自己也真的还没有直接接触我估计自己肯定力不一样不会 miss 掉这件事我觉得他们自己会做他们投入还挺大的他们投入当然必然的就是当你挣得到他那个钱的时候他那个投入真的就完全可以被架死的你最看好中国的哪家大厂做大模型我觉得首先这里面好几家还没出牌呢
比如说自己到底准备做啥做到什么样人家还没出招模糊的有人说到还不错就是这么模糊的所以其实我觉得很难成功他们就是在做大冒险对吧我觉得这个事情是这样的他都到这个级别的影响力你作为一个收入对吧到一年几千亿的人你说我里面没有团队在做这个东西对我知道他们在做大冒险我许在想他们在做什么因为就朱文嘉在做嘛而且朱文嘉最近反正他相关的一些费报线都有一些变化嗯
就可能是他为了做大模型跟给他的一些权限或者说有些事让他来管一会儿他就先不管有一些变化字节 AI Live 的负责人李航他以前是给杨振远汇报的现在就改向朱文佳汇报了原来是给马文英老师汇报对 因为马文英后来离职了嘛就因为这时候我见过马文英老师马以前也是在微软亚营院是吗还是在哪儿
你说哪个 巴尔因对 原来在微软亚研微软亚研应该是招到副院长吧你说当时你因为他离职的事你去见他没有 就是之前因为曾经找过说是不是加入自己 AI Lab 的时候就是那会还没去 创业之前还没创业 但是已经在内报了那个时候你跟他讲完之后你当时是怎么感觉的你觉得自己能长期把 AI 做下去那就是 17 年左右的时候
就当时那个节点我就觉得 AI 还是带有太浓重的类似于污染压缘的这种感觉就是它还是有偏高效的这么一个氛围所以我觉得它其实恰恰不是那种我们要 set up 一些什么我觉得整个 OpenAI 这件事给这些研究员提出的挑战其实也是在这个地方
就是我在 09 年的时候在微软铁路我就会认为那个阶段你看上去虽然亚连有上千号 researcher 就是各种创新这个但本质上来讲还是手工艺作坊的做法就包括高校就是这么多年以来在包括计算机这个我觉得还是手工业者还是做坊式的创新
我觉得这次是被狠狠的教育了一把谷歌 deep mind 和谷歌 brain 我不知道你了不了解他们的情况他们是偏向手工业还是更偏向工业化我觉得他们其实已经在原来那居然卖了一大步因为像类似于比如说这个 alpha go 包括像蛋白质折叠就是 alpha flow 这种级别的创新
我觉得其实以我对像亚燃这种机构的了解我觉得是很难做到另级别的投入他其实是要倾斜很大的资源把它设置成可能公司的年度最重要的能及目标我觉得是有机会做到投入和效果的你看原来就比如说很多所谓 research
最核心的事就是发文你知道工作模式你今年发了 5 篇顶会我发了 7 篇对吧你把这个改了改我把那个改了改你 optimize 的东西就一定不是做一个巨大的创新去做的改改就能发顶会
所以顶会也不是那么难顶会的 95%以上的东西就是改一改法但顶会的最佳会比较难吗就一些什么年度最佳论文这是比较难的最佳的可能 50%真的还不错 50%是有强烈随机性可能是这么一个一半一半如果只是单纯说入围顶会论文那就有很多水分了你想想还不要说现在的计算机系列的一些学生就是我们当年我读本科的时候那也有个几篇吧
等课的时候对吧那也是在同学中的少数人了吧你不会说全班同学每个人都能发吧那当然也不至于是少数但我的意思就是那个也不无对你觉得没有那么难可能也不是说那么创新你是这么觉得的第一是说他没有那么难第二是说我觉得恰恰是很多的研究人员 overfit 了这条路径就是他的整个职业生涯在 overfit 怎么去发顶位怎么去发 publication 所以他们 miss 掉了就
就不是说他们真的比如说 openai 就所有这些他家的扎起来对吧你都干过那几个人但是我这个其实是指导方向的这个原因你要说这些 research lab 每一个不比 openai 大那都是大 10 倍以上的大哪个真正把这个事干出来为什么是人家干出来嗯优化的方向不一样优化的方向完全不一样
所以我是在比较早的时候觉得很多这帮人干的事很没劲就是你想进工业界的原因就是想去做具体的产品的原因可以这么说吗对对这个事的判断呢有两件事我觉得是对自己能交代得过去的第一件事叫做做出那些真正最牛的研究上的创新
就像我刚才给你讲的那个就是其他人要去理解这个问题可能你先去补一学期的课到最后两个小时的课的时候你说我终于理清楚他把这个事给解决到这个逻辑好像真是太强了这个是一个路径我觉得这个是一个 justify 自己的说还是做了一些事的一个目标另外一个路径那就是真正做出来一个足够好的用户的技术足够广的产品
我觉得就是你要么做英勇你要么做理论或者做真正的这个方式你好歹占一个两个都占很困难你占一个但我看到绝大多数人拿着第一个就是我觉得现在好多为啥都也可以知道方向方面我觉得是有问题的在第一条路径上没有做到最好做到数量多的一些人被 reward 给你 50 个博士生你一年发 20 篇这算啥呢你不用 motivate 他们他们为了毕业的压力他们自己就能把这事给搞定
就点会你就去发给而且你站在一个比较好的学校你招的博士他就不是傻的你也能拿这么多的 publication 就这么简单你说的是作为那个实验室的 leader 对的意思是吧是就博大反正博士生自己会写的这帮人也是全国百分之几给你招进来又不是傻的难道发不了吗就像我们这种本科生你稍微那个啥勤奋一点你演的话 publication 数量一件事真的现在学界非常看重一个实验室的出版书顶诺文的数量什么大家很看重这个
我觉得有另外一个问题但这个又是特别攻击人家的一个就是如果你在很多有一定的应用级别的这种点你去看真正说能够做到我说的那种 scientific breakthrough 的也没有那也没有数量呢你不就比数量了吗对吧你还比啥如果你说这三个是得了三诺贝尔奖那确实它的这个情形不一样但是你这一个也没有啊引用数量能反映质量吗至少能不可能不完全我觉得引用数量是一个非常容易被操纵的
指标你知道很多 researcher 为啥非常愿意去发一些比如说做 dataset 的文章因为你会发现这个事首先付出了苦力你就能发你发了以后呢但凡后面的人要用他就会赢了你所以这是一条 short cut 就是我做几个多做几个 dataset 我这这个也有做一个那个也有做一个比如说你很容易拿到还不错的一些 settlement 但你说这个东西的就是我说你这是从他的门槛他的 scientific 的贡献来讲
不能说没有但这个就是说他本身 reward 你的劳动力因为他在这个领域提供的工具对和一些基础对就是你干的很辛苦我把清扫费给你结了但是我并不说这个事你能让别人干不了我觉得很多其实这种问题就是 open AI 找的最一线的人是真正在这个上面最一手看到的现象
一手在做工程落地及时得到反馈知道自己钱花在哪然后本身人也聪明其实好多 researcher 本身面临的问题是说当你看到同样的现象笨的那个说我可能有 10 个去往下继续试错的可能性聪明的那个可能会说
这 7 个不会也许是在这 3 个之间我们需要继续做一个演讲然后这个时候你花的钱和他花的钱可能就不一样了但是可能最有些灵光一闪的时候我再验证一下如果是 1 我们就可以得到一个很好的结果而且这个事你会发现它其实很难量化到底它是一个一流的还是一个二流的一流的事很多公司愿意说我为什么重视研发我的研发投入多但是我觉得它甚至比广告投入更难去衡量什么叫做有效的研发投入有些说广告院的投入是浪费的我觉得研发 95%是浪费的
而且你不知道哪 90%是浪费的不过研发就是一种特性但是我觉得这个其实忽略了一件事叫做真的有人的就是你真的有很强的那个人他的研发效率就是比你高 10 倍同样的钱他的能力就是能比你好 10 倍但对一个特价组出来说你是很难去甄选这些人的我觉得这就是问题这个其实是 OpenAI 干的一个非常重要的一件事就是找到了真正在这件事情上会花钱的
并且给他花很多的钱他做到一个效果其他很多机构你说总投入也不少那我均匀地给我的这些 resource 都花一些钱然后你产生的那就是现在这个效果你刚才说总结情况
找到会花钱的人给他们很多钱但是找到会花钱的这个人其实你看在 open AI 找他们的这几个最核心的人的时候这几个人多少岁 30 多可能刚到 30 左右你看现在国内的这个情况对吧是花到哪些人的钱这就是我说可能会极其 miss 掉就是他花的那个逻辑是完全不一样杨志伟也比较年轻吧也就他年轻点也比较年轻
就是 minimax 那个创始人他也比较年轻我觉得这里面还是有个核心就这帮人现在的重点时间到底是在干嘛是在做资本运作吗对吧你还是在最一线我觉得这个很不一样 CEO 其实很难在这一线因为他本来也应该去做一些别的事从这个公司的角度对就是我觉得尤其是在这个时间节点在中国的这一些想要做大伙很容易让这个花钱花的极其没有效率然后就是进入到我刚才说的那个负反馈
就是你投入了半天你还干不过人家看圆然后你就在想这东西我养了这帮人投入半天到底是在干嘛我到底做了什么我还不如人家一个个人擦擦着在哈根费斯上拉了一个模型下来一跑也不比我这个效果差你觉得此时此刻在 AI 这个领域有什么大家都同意的事是你不相信的有什么大家还没有相信的事情是你相信的
包括刚才我说的一些我不知道外来同不同意我觉得可能很多人不同意或者不愿意认为包括现在如果说这个花餐的方式模式压制这部分人就可能都有点偏离这件事本身我觉得这被太多的其他的因素干扰就是太不纯粹了我觉得那方面很纯粹这个就是它可怕的地方但是这个环境能够找到纯粹的且还能够拿到诸多多资源的人
而且会用资源你说它纯粹其实看你怎么定义纯粹这个词因为 OpenAI 我觉得它是做了一整套全套的工作可以说它的这个目标是非常的明确的就是我通向一个 AGI 的然后可能普及到很多人的让大家能感知到的一些东西我甚至认为你的目标设计成说我要做中国的 OpenAI 其实已经不够纯粹了
现在也说实话也没有人这么想过我觉得但是有人这么说有人这么说或者说有人在两个月前是这么说的对我觉得这就是一个更不纯粹的情况嗯你哪怕是这么说且你这么想我觉得你是比人家低了一个升位但好歹这还算是一个还是真诚的对真诚的纯粹我觉得他们有的人更早的时候他是这么想的嗯但是过了一段时间之后他也看清说首先这很难其次可能也没有必要就他也不这么想了对那我觉得这就是更大的问题啊
那你干这件事是想干嘛想挣钱嘛对吧这就完全是另外一个游戏的玩法了这个是我之前开玩笑我们同事说过的就是但凡你有一个重要的目标在这件事上就抱着挣钱那对不起你可能已经输了
我觉得想挣钱也没问题比如说我想以这种产品去挣钱我不是说去骗钱那种挣钱我觉得也没问题我觉得挣钱的问题是这样的你可能在很长的一段时间你会发现你自己去死磕去做研发去探索这条路径对于挣钱来讲是一个相反的目标对因为挣钱你也分长期挣钱和短期快钱还是你觉得可以延迟满足但我实际上看到的现象就是你以为你能平衡实际上你平衡不了
就是但凡你滑入我说我有长期的理想但我短期得解决挣钱的问题这件事你买解决不来你们现在是怎么平衡这个问题对我们还好因为首先就是我们没有对于外界预期有那么多的资源所以我们其实一直把它适度的平衡到最好的就是公司能基本养活自己的这么样一个状态你们现在的收入可以一级的养活自己吗可以所以你们写综包的收入还挺多的还行因为我们也就几十个人嘛你们四十个人的话那一年怎么也有几千万的人影响到就其实两千不到
两成本可能会到但是仍然不到总成本就大几千万差不多不会小几千小几千就是比五小的意思是吧总成本小几千万那写个汪的收入确实还可以还算有一定的收入为什么这个收入对财务投资人来说不足为答案呢我觉得这个事很有意思是啥呢是这样的本质上来讲这件事他们被吓到了什么叫被吓到了呢他们看到说我们其实就是在跟最以前的大厂直接竞争是这个问题
这财务投资人面临的是这个判断所以没有 Chadgivity 可能你们反而会获得财务投资人因为本身上我们有这个行业内最好的数据不管是用户还是收购就是没有任何问题它唯一的问题是那边上千亿市值的大厂是不是马上就要过来去打这个市场
所以热潮对你们的短期影响其实是影响你们的融资至少对于我来讲其实不算特别正面它并不是简单的说这个热潮来了然后你是这个领域的你就会得到好处是它现在本质上就变成了就是我说为啥有一些更偏离主赛道的一些运动可能反而容易拿到钱因为它的判断是说你大厂肯定不会直接来干这个事这个是我们比较有意思的一个课题对
但是其实你们的历史也已经验证过偏离主赛道的战场如果选的太小了是不足以支撑一个公司长期往前走对就是历史也证明绝大数的风险投资压住的也是失败的所以这个也合理你们的数据最初是怎么来的后来是怎么循环起来的
那都是 gpt 再来的都是网上抓的就是核心那个一定是一个非常重要的数据而且这包括他们自己说其实在公开渠道能拿到的这个数据其实已经到一个相当的一个两阶了你当时做法律翻译的时候会有一些特别的数据吗就网上可能找不到的一些数据会有一些其实没有人关注到但是我们关注到了一些数据就是半公开的一些数据其实你如果真正在一个 dome 上去把它做得非常深还是能够看到很多标准的所谓全网我去扫一遍怕说我能不能拿到的东西
其实有的时候恰恰那种方式你反而会 miss 掉有一些重要的数据写纵包上线之后我理解应该是 2019 年底就上线了你们当时好像就有一些零星的推广在做了到现在其实也有三年时间这个过程中间用户的数据可以帮助你们去进步的吗我们会把用户直接说这个不准那个忽略包括添加的相关的一些查找的规则这个数据拿来用但是用户的比如说存在上的数据这个数据我们是
明白他的那个行为相当于是给你们的一个人工的标注对会是一个有用的数据但不能直接用也是需要提存的因为很有可能他是按照他的逻辑去反馈但是这个反馈也许你这个是对的但另外九个还是错的有些可能跟最近的一些别的现象有关我主要是说就和你们公司包括你们现在在这个浪潮里的处境相关的问题你觉得有什么重要的你想说的我还没有问到的
我会觉得现在看起来这波大家觉得好像非常热闹但我其实有一点点怀疑说就等这波最热的热潮正面过去了以后我相信其实肯定会真正迎来一波落地但是这波落地里面到底
有多少是现在站在台上就是非常受到关注的中国人我觉得大多数可能都不是但是我们希望哪怕我们不是在最主要的赛道上面至少在我们自己真正去花精力优化的那个方面还能够做到
最好说至少你提到这个都没有说我们这个是做的最好嗯你现在发行优化的怎么一个主要是法律的对我们是觉得这个是有机会被做的非常好嗯就是我们对很多领域判断就是他有没有机会做到真正换句话说能不能超过这个领域的感受就这个人嗯我们觉得法律这个领域也是有机会嗯那他未来可能就不局限于法律翻译了对是的对因为法律领域还有很多别的一些空间和市场是可以去做的嗯而且在这个领域呢照搬一些国外的商业模式你会发现它不太 work
其实 OpenAI 也跟一个公司是深度合作在做法律的落地你说那个什么哈维投了钱投了钱是吧但那个公司成立挺久了成立比较久的一个公司本身他就是做法律相关的一些软件哈维应该是 OpenAI 投了的我们甚至会觉得国外的那个就主要单国内就美国的律师平均收入和中国律师平均收入实在差太远所以有的时候你会发现你要辅助你帮律师这样的效率已经是一个巨大的挑战
人家比如说雇一个实习律师一个月 2000 块钱你帮他降什么本资还什么效没法弄对吧那个是时薪 2000 你这个月薪 2000 就大家对于降本成效的这个理解其实完全不一样那你们可以出海你们不是一定有在出海我觉得那个还不一样翻译本上这个事是一个比较 universal 的但是不太讨论出海这个本
本来就是在人之间切换但整个不同的法系的这个其实是非常不一样参加这个机会也是说你 GPT 能不能顺手把中国的法律找到完美这个事本质上也是很困难的不是立足于中国的而且就所有的这个法律其实规章制度这个层面每天都有新的产生每天都有过期你怎么来应对这一系列的问题你的这个实质性其实得做到非常好
不论你拿一个十年以前的判例十年以前早就过期了的一些法律理论你到现在是还能有用这都是问题明白说到实事性的话那就是比如说一些法律文书的撰写才会涉及到这个不是啊你判决你的这个法律问题的判定很有可能都会涉及到对判定也会涉及但你们现在做的是不涉及
翻译是不太涉及这个的翻译还好翻译应该涉及但你写多就不涉及对就是很多比如说公务员跟我们反馈比如你 20 大的你引用 19 大的这个就已经过时了且不要说你还引用了 17 18 大的他的一些提法这都是有实质性的公务员用你的东西有风险吗未来
未来会不会政府会说公务员不要去用这种 AIGC 的东西没有我们本身上是提供了一个 AI 辅助的一些平台你是要 generate 还是我帮你查错就可能让我是给你提供了一个套件且你不用我你用谁呢你用 word 把数据一会儿还设计到出镜就是这个是另外一个问题那也可以不用政府可以要求公务员都不要用 AIGC 对你想学校也可以要求学生说你不准你禁止得了
你是如何禁止我可以通过办公电脑禁止那我写这篇东西我不在你办公店上写的当然你可以出一系列的规则来反效率他目的应该也不是为了反效率可能是出一些安全吧对因为有些政府他不见得能理解这个东西到底是怎么运转那恰恰就是出于安全的话我完全可以让你数据控控我完全可以把这个模型放到你的内容来解决就是你数据国外的油然后我也看得到你的数据等这些情况
其实都是能就恰恰是说你部署过 AI 的可能有更大的风险嗯而且人家不一定配合但是这些其实也是我刚才说的我相信所谓国内的大国行厂商看到的一些机会就是我说我不一定要打过 AI 我才能挣到钱嗯对我打过你国内的这些可能就够嗯然后我自己还有些别的好奇的问题可能跟我们现在关注一些别的现象有关嗯就你去年中期 QM 是一个月 A100 一块嗯
那今年租的钱有用吗还好重新谈可能不知道我们也是个演示员所以并没有给日本涨价或者怎么样对 是的因为你们没有去重新谈所以也不太清楚重新谈它可能会涨活价是那你们有去租 A1800A1800 还是 H800 应该很少除了他们讯息好像发过 PR 稿其他的同时你宣布说自己是中国大陆首发 H800 的公司没有直接聊我还没直接聊
他们是摆着说他们有说实话他们说了这个提尔之后会到后来而且是要等多长时间等等就是其实对于这个可能融线迭代还是有确定性的你说一个月有到后那你到完了以后我还得做一个三二而且那个用新版本很多电卡潜在的风险是啥呢你的软件有可能是要做新的适配的你必定放得进去
所以其实你们已经用 A100 训练过的可能是不太会说我要马上换成 A800 或者 A700 如果它的经济这样足够核算我们是不介意去尝试就我知道现在还没说吧整个流程跑通了我们不介意说我们租一台花上半个月时间试试能不能把它搭上去然后搭上去以后的收益到底是多少嗯就这个我们是在有一定的人力的它不高的这个基础上我们觉得也不介意去做这个测试嗯但这个优先级也不是特别高嗯
我手里有一个可能要补充问一下就是你们做大模型的人是从什么地方来的包括他们是怎么培养出这个能力有些也是跟着我们干了几年就好多从 day one 公司开始就是跟着一起做那他们之前是什么样的工作背景也许不是你想象的那种最豪华的背景反正就是能打人的活的就有些本人也是这些大厂上就看了几年时间的
一些同事其实说是都有短暂也不做我们整个这块可能也是承认不到你觉得他们是会用钱的人吗我是会用钱的人所以就够了对吧所以很多到现在我是要进入去判断我觉得这个是核心差异所以其实你还是在意一下至少到现在这个时间我觉得仍然是非常关键的你自己的经历怎么分配我觉得至少我会花一半的时间在研发产品上面
融资的事情是易维在负责是吗一般来说我也会谈但是第一个是前一段就是阶段性的会去跑一跑第二个是呢这个事对于我来讲我现在来看我觉得反而是一个锦上添花的事你说融资对你的是锦上添花的事嗯他的问题是啥呢假设现在多给你个三十千万你说我要大肆扩张团队我要大肆去采购算力都不可能
不可能是因为找不到算力和找不到人还是因为没有要投入的一个目标我认为这投入是分级的以我们现在这种比如说宝产品去做迭代市区优化的方式是成长的一个路径这个路径就是我的投入和我的产出可以进行一个匹配然后我如果拿到多一个不是特别多的资源我也沿着这条路径我提前花 1000 万
但可能也就这样但是融资的时候很多时候确实你得提前想到你说这个钱我得花到哪包括我要多少钱你怎么说才会想到一个小故事说有一次孙正义见一个中国的创始人的时候大概就是见面之后他也问他一个问题说我现在给你 100 亿你就没干什么然后对方反正犹豫了一下但后来也收了一切
嗯然后后来他就没头了嗯其实他只是看你想过没有就可能你说的会非常靠谱嗯所以我觉得如果是我们拿的钱他的数量级跟我们现在的这个差不多在一个数量级的时候呢你本质上做的动作他不会有一个显著的差异就是我可能会多几个演员但是你能随便招吗不能你还是得看这帮人是相对靠谱的吧你还是得一个一个面出来吧
你还是不希望这个人是以一个三倍溢价招进来的是然后你的 GPU 投入如果我真正拿个 3000 万你说我能大肆的采购吗不能对吧所以本质上我觉得他的花钱的这个模式只是我们现在的这个模式的一个线性延伸而且你可能还不能延伸太远因为我不希望把它做成一个一年亏上 3000 万亏上 5000 万对吧你就形容价比钱把它一年亏光的这么一个程度而且你现在也并没有说我要花钱的什么新的事情那你就是一个更麻烦的讲法了
你他就会去加速发说你为什么要做现在这个事你为什么不做这个事你现在这个事你通过什么数据来支撑你说你要去投入呢我觉得这个关系倒不是你跟头三怎么讲的是说你本身就没有要做一个什么型的事对吧
我们觉得老的坑还有大量可以填的事我觉得中国太多的你可以看到现在市面上不过前段时间发的各种的开发部会我觉得这是一个非常奇怪的点太多的人都喜欢去讲我是 Full stackADCEF 去杀个会我是拥有了 30 个行业的大个性就像我看有些人写的 BPL 也不符合我我在 20 个行业落地然后翻到最后一页本次希望融资 1000 万人民币
难道不荒谬吗你在干嘛对吧我还以为这是个 210 的项目呢结果你要融资 1000 万人民币我觉得太多的人难道在讲这个事的时候不感到逻辑不自洽吗人家一个 middle journey 对吧他说我就干好一件事我把一亿美金的收入出来
你为什么要干 20 件事而且总收入加起来可能还不如人家一件事就是又回到那个发论文的逻辑你是觉得你干不好一片好的论文是吗否则你为什么要选择去干 20 个三六的论文所以本质是如果沿着你们本身的那个路线和产品他需要的资源是线性增长并不是说我突然要很多钱然后如果说要去干一个新的事情绝对是没必要的而且也不对就不是那样做事的方法
我觉得有一笔钱是可以把它投入到现在的一个市场上把它显著加速而且我觉得这个天花板已经足够到说我们砸个 1000 万美金去没有问题这个天花板足够能容纳这些千万美金就是把它做得显著更好但是有一个更广阔的一个市场所以你们现在的产品显著加速你的心里对它估算的需要的资源是 1000 万美元左右有 1000 万美金我们肯定是可以把它显著加速的那你们这一轮融资的目标金额是这个钱吗
差不多就是这个级别你们现在是自己在谈有机构在帮你比如说什么投行在帮你前一段其实看了一圈就是我刚才说的我们看到的所有的财务机构最终状态的问题都是一个类型因为就像我说的我其实还是在一线会去做一些研发产品的事所以我的角色恰恰不是一个说我要花 50%加的时间去花的钱这个事情找钱这个事情上找钱这个是没有真反馈这是我最大的一个问题
你是没有这段会计心里不够满足就不是你喜欢做的事开始继续第一我不会认为这事对我来讲有成就感第二我觉得所有人都是后见之明就是他后面可以说你原来告诉我那个事就是我觉得投资人本质上就这个行业面临的很大的一个问题是跟你去讲话的确实也 99%都在活了吧所以你其实是在各种的噪音里面去造造信号你说投资人接受的大体信息太多了就是我说的那个就是我看到 BP 转给我的都是那 20 个行业已经成功落地已经深入到那个转个再一对吧
用 1000 万元全都是这些乱七八糟的信息所以恰恰呢我觉得在这个行业里面就是我们实话实说是有问题的因为不论你给他报一个什么样的数字比如说对真假的收入的比例他都会给你打折扣我们还是本着一个就是我觉得这事我能做到我给你报一个数对但这个数在被他折扣完以后不觉得这事就更加吸引力了所以可能有些人才有几个给的估值达不到预期有各种这种潜在的
的问题而且另外就是我们试图还是做到一个能够自己自主的面临状态其实你这一轮拿了大公司的站头之后接下来会有财务结果跟的嗯对这当然这是另外一个问题但是这说明什么呢
说明这个世界就是这样运转的话说明中国的现在一级市场就是这么运转的就是你得有一个人拍板我领头可能啊我也跟着我也跟着机构们对于这个事真的有判断就是那到底是就是有判断的没资源没判断有资源这始终我觉得是面临一个大的资源错配的一个情况我觉得总体来说他最后就市场会让这个东西流动和平衡好了我相信特别一线的机构还是有些他们自己的判断其实红杉这轮还是投了很多场
但是他钱也多他可能发手的时候我钱这么多我怎么要把投出去那就是另外一个问题了但他投的下午还是反映了他的一些判断
但反正我觉得就到这种比较大的节点上面我觉得很有可能对于所有的不管是企业还是投资机构这个其实本身上都是一个洗牌的过程你现在对行业包括对你自己要做的事还有什么困惑我觉得我们自己做的事就还好就是把手上的事给做好因为恰恰我觉得有的时候这个问题是啥呢一部分人一定希望你预期一个五年级别的未来但是那个东西能预测意味着你在做的这个事本身就是一个前线性的事你其实才比较好的去预测这个未来
如果你的很多投入是要冒着一定的风险去做一尝试然后再拿到反馈然后再进一步调整然后再去投入的这种时候你其实有的时候你其实不太能去做一个准确的预测我觉得我们现在就在一个我不太能去准确预测五年的这么一个阶段了解会有投资人会说可能你应该更 aggressive 一些或者比较缺乏野心
我觉得还好因为我觉得这事叫什么呢你现在掏两亿美金出来对吧本身在这个事你掏个 2000 万人民币你说你缺乏野心你这事缺乏说这个事的基础但是你们确实也没有去掌握要更多钱我觉得本身上也不 work 我觉得是我们也没有疯到去尝试这件事的必要性我觉得你都需要对于他得多么有判断然后多么对你感去做这样一判断的这个程度感觉下这个我觉得没有是超强的
而且不应该期待这个时候你好好把这个时候给做好你每年去把这个时候往上推一步了解就今天特别感谢你的时间本期点点呈现分享三个和其他期节目的呼应
一是开源的力量这是 2024 年底以来被更多人关注和感知到的现象而在 2023 年年初这一次我们就聊到了好用的开源大模型并没有那么多但是可以预见到开源会是一个更加繁荣的生态在 1027 节目 DeepSeek 启动开源周中我们有详细聊过大模型开源的分层到底是在开源和分享什么部分
内期的嘉宾美国西北大学博士生 DeepSick 前实习生王子涵有一个很有意思的总结他说野心最大的开源是想成为一种标准
而是关于具体期输入线的探讨米克瑞提到预训练本身是一个比较重要的范式变化而具体用什么架构来实现是不是 transformer 其实没那么重要这个观点其实和玩电最近发布的对阿里云 CTO 周静人的访谈相似周静人在访谈中也提到他觉得推理模型本身也就是 OE 和 RE 这样的模型
可能谈不上一个范式变化因为范式是很重的一个词很大的变化才能称之为范式它也是回到了这一次大模型变革的开端认为预训练这种思路和方法本身是一个重要的技术转折在 104 期我们与 MiniMax 高级研究总监钟怡然的节目中我们讨论了线性注意力趋势这也是目前对 Transformer
的架构一个比较大的改动或者也可以说是非 Transformer 本质上是 RNN 回归的一个探索方向一度大热的 Mamba 等架构也是这方面的尝试这反映了在整个技术社区里对 Transformer 的改进甚至是新架构的提出也在不断地发生
35 金被频繁讨论的大公司和创业大模型公司的竞争格局变化虽然我们这次聊史 DeepSeek 还没有成立但回头听我也有点吃惊就是当时可瑞就在想比较传统的风口投资思路大佬站台融数千万美元快速模仿 OpenAI 也许根本行不通中国 VC 可能会集体 miss 掉一个最有雄心的大模型创业公司因为他们不会按传统思路
出牌他们也不是已经证明过自己会出现在投资机构事业里的人更多有关这两年变化的精细对比可以听今天发的另一期节目是何明可瑞 2025 年的访谈
下期再见