Hello 大家好我是金教欢迎大家来到第九季的 What's Next 科技早知道和全球创新第一时间同步
2024 年的 12 月 26 日和今年的 1 月 20 日 DeepSeek 发布了大元模型 V3 和基于强化学习的推理模型 R1 那这两个模型的发布将 DeepSeek 这家公司推向了风口浪尖下载排行榜的
短短两个月时间围绕它的各种新闻和讨论持续升温硅谷科技公司们也纷纷推出了表现不输 DeepSix 的大模型让这场 AI 霸权之争愈演愈烈与此同时一场关于模型成本的争论也在持续发酵
我们今天的节目将从大模型开源和闭源的角度深入地聊一聊 DeepSeek 如何搅动 AI 生态它将会给 AI 生态这种各个环节带来怎样的影响那今天跟我一起主持呢还是我们后裔硅谷徐老师后裔先跟大家打个招呼吧嘿 杨先生你好这里我们欢迎我的两位朋友 Janet 跟俊平两位你们要不要自我介绍一下
好啊 大家好 我是 Jenny 是硅谷的一名风险投资人现在在 Leonis Capital 做早期投资我们基金是一个以研究导向型驱动的一个早期基金然后在 Leonis 之前呢我是 OpenAI 的早期员工也是 OpenAI 的一个研究员在那个之前我在哥伦比亚大学读博士然后主要研究的是经济学和 AI 的交叉学科方向
大家好我是杜俊平然后我是 DataStraddle 的创始人 CEO 我们公司做的是 Data for AI 下一代的 Data for AI 的 infrastructure 我之前在硅谷和国内的公司都工作过主要都是聚焦在 Data 和 AI 这个赛道大概做了十几年其中包括像 Hotelworks,Coderra 包括腾讯 Cloud,Tencent Cloud 等等这次创业也是在 23 年正好赶上快速的风口
再往从传统的这些领域再往 AI 尤其是 Generative AI 这边去移动那么我们现在做的开源的 infrastructure 也是为下一代的 AI 的模型应用争取做它的基石性的技术
好的那我刚才也提到其实两个模型大概是在今年年初的时候就发布了虽然大家聊的蛮多了但是我还是想听听俊平和 Jenny 这边对 Deep Seek 的爆火有什么体感以及你觉得原因是什么 Deep Seek 的话其实先是在美国火起来的然后再火到了国内
有原因的很多 AI 的大厂在 DeepSeek 出来之前就已经关注到了 DeepSeek 这个公司的一些研究包括 Anthropic 的创始人也说过他在 V1 和 V2 就是第一版和第二版的时候就已经开始关注到了 DeepSeek
那么 DeepSeek 为什么火呢我自己的看法是它火有两个大原因那 20%的原因是因为它的 performance 比较好加上 DeepSeek 它是一个开源模型在这两点上都是非常非常有价值的因为之前也有很多别的开源模型但是一直是很难跟最前沿的闭源模型去相提并论然后 DeepSeek 它作为一个开源模型能够跟闭源模型能够跟
openAI 的 4 欧或者 openAI 的 01 就达到了差不多的一个水平这一点其实是让整个开源社区非常兴奋的一点然后另外一点呢我觉得也是 DeepSeek 活起来的 80%的一个重头的原因就是因为它是一个中国的模型因为美国对于中国模型的 performance 预期是非常低的
大家认为中国的模型比美国的模型要落后差不多两到三年那这个其实有我之前做的一个研究我在 2023 年的时候曾经跟 OpenAI 的一个 Board Member 董事会的一个成员发了一篇文章当时那个文章就说美国差不多比中国的模型要超前了 24 个月到 36 个月然后就有很多很多美国的大厂报
包括美国的一些政客他就以这个作为一个时间线所以他的心态是比较放松的然后直到 Deep Seek 出来了之后就有很多人跟我说中国其实已经超越了美国或者是甚至说他已经比美国的走在美国模型的前面了这个对于美国人而言是一个非常大的冲击所以是预期上的一个落差
对我觉得就是一个预期上的落差我觉得其实在 2024 年的时候中国和美国的模型的差异差不多也就直插了 12 个月左右已经没有以前 24 到 36 个月这么长的一个 performance gap 了但是 deep seek 出来了之后呢这一个 gap 就缩减到了可能只有 6 到 9 个月那么
大家的预期如果是很大的话然后最后 DeepSeek 证明差异非常小这个对于美国人而言是个非常大的冲击而且对于小物品链和 Anthropic 还有包括所有的作业家的人而言 DeepSeek 的出现就有一点相当于说是 coming from nowhere 他从来没有想过 DeepSeek 会做出这么好的开源模型大家可能是预期是 Meta 会做出下一代更好的开源模型
对我觉得 Janet 其实说的蛮好就是说这是一个应该是一个预期上的差别但我更想谈谈 DeepSeek 本身就是说首先它是第一个开源的可商用的这么一个推理模型对吧其实从去年 9 月份开始 OpenAI 发布 O1 开始从训练到往推理的转化其实整个 industry 是在往这个方向在推的但是没想到就是在
可能从 9 月份那个时间点包括后面暴露的不光是 DeepSeek 可能还有其他的同行都在往这个方向在转但是没想到一个在中国出来的可能名不见经传的一个小公司跑出来了跑到了冰山的水面之上我觉得这是一个很让大家震撼的地方那么另外一个就是说从某种程度而言就是把强化学习融入到整个 Transformer 模型里面为大模型的这种范式推动转换其实是一个很重要的一个点
自主的这种学习甚至是 self debate 这种模式当然 OpenAI 是 O1 是有了但是它的整个过程是偏黑和化它没有把很多的思考的过程告诉你但是 DeepThink 实际上它是把整个一个思考的过程白和化了而且你能看到自己在拆解你的意图的时候它会进入到一个
一个 self-debating 的过程然后在这个当中甚至会发现某一个 hard moment 在某一个时间就是有这个顿悟的一个时刻这个是我觉得是挺有意思的第二个呢就是说他这次开源的这个过程或者是出圈的这个过程呢
我感觉还是有这个节奏的比如说它首先是这个产品本身对吧得到了大家的关注能力得到了大家的关注那么同时呢它的开源是有节奏的甚至有这个开源周是吧好像每天都调足了大家的胃口每天都发布了一些重要的东西不光是模型开源对吧还有一些周边的它的一些重要的这些模块也都进行了一种开源和开放这显然是让这个开源圈大家
非常兴奋因为在过去很长一个时间大家习惯开源模型你基本上很难达到一个 Salta 就 State of Art 或者最佳的状态第一次大家觉得 OK 开源的模型也这么强这么能打刚才 Janet 提到的她觉得有两个点一个是技术上一个是大家出其不意的
我个人觉得一开始是这样子但是我觉得 Deep Seek 还是一个比较有深远影响的一件事情是会对 AI 这个圈子会有很大的影响一个就像刚才 Jenny 跟俊平都提到这是一个开源开源跟闭源的是有本质区别的而且它是开源的蛮多的不是说是像 Meta 的 Lama 是开源但是有限制
第二个其实我觉得它的一个比较有深远影响的是因为我一直觉得 AI 这件事情还是很贵就像我们最近也说了 Agent
这套东西为什么大家发展的没有那么快有一个原因就是还是很贵嘛就是我是觉得 AI 这件事情还要有往下走两三个数量级才能到一个百花齐放的一个地步那 DeepSeek 其实是大道往前推进了一步至少一个数量级我其实今天下午还跟一位朋友在聊天听到有朋友开始用 DeepSeek 在好像东南亚的马来西亚一个国家就开始部署了
然后他就说他说 DeepSeek 出来了现在不只是中国美国现在所有国家都有了欧洲也可以有了法国也有了东南亚国家也有了我跟他开玩笑说我说连微软都有了因为大家都知道微软是跟 OpenAI 合作的它显然是有 model 的
我觉得大家不要惊讶就是一些微软比较 critical 的非常重要的一些服务在不远的未来是 DeepSeek 背后在后面做的还有一位朋友跟我说 NVIDIA 的内部大概两个礼拜之内就 40%的流量就是 DeepSeek 那确实是有疑一方面原因这是一个中国的公司但我觉得它即使是一家美国的公司其实也是带来了深远的影响
我觉得一个模型它要能持续火它火可能是因为一些也不论是地缘政治还是因为一些比较夺人眼球的一些事但是它要持续火肯定还是第一要一是要好用就是说到 Deep Seek 它
开源对于他来说其实是一个最佳的一个战略我觉得这是一部非常非常聪明的企业如果 DeepSeek 不是开源的话它是不可能有这么大的影响力的它也不可能有这么强的市场渗透率就徐老师刚才说美国的微软也在用 DeepSeek 也在微软的 Azure 的语音上面部署 DeepSeek 包括
包括亚马逊也在云上面部署了 DeepSeek 头部的美国的云厂商也在部署 DeepSeek 其实他们能这样做的原因就是因为 DeepSeek 是个开源模型它如果是一个闭源模型又是一个中国的公司那就可想而知了基本上美国的这些什么盟友不可能会使用 DeepSeek 的对吧然后也不可能让 DeepSeek 在这么快的时间之内在全世界这么多的地方进行部署所以我觉得走开源这一条路对于 DeepSeek 是最佳的一个选择
我给大家举一个例子 2023 年年底的时候 Mistro 发了一个 model 其实那个 model 效果特别好大家都很震惊为什么因为你当时候有 OpenAI Anthropic 那都是有几万张卡 Mistro 相对来讲是属于资源比较匮乏的然后人才各方面都是刚刚起步了大概大半年这样子
然后能够做出来一个 model 在很多的评价上面都是非常不错但就像 Jenny 刚才说的 Mistro 之前一直是开源的但是那个最好的最亮眼的那个模型它反而就从那个版本开始闭源了我是觉得非常震惊的但是它对业界的影响就像流星一样再过了两个月大家仍然知道这是一家很不错的公司但二三年年底那个 moment 就没有了
那我们既然已经谈到了开源对 DeepSeek 来说是非常重要的一步嘛
DeepSeek 也在两周以前有一个五天的开源周公布了他们内部非常多的训练细节然后我就想从开源这个问题入手先想请俊平总给我们介绍一下就是所谓的大模型开源究竟开源的是什么然后我知道它不同于软件的开源但是它跟软件开源有什么不一样然后 DeepSeek 它开源的有些什么东西呢一般来说软件开源就是我们通常都是指的是原代码开源是吧这个是最简单
然后一般我们会有一个许可证那么这个许可证满足开源的许可证它有一些要求比如说国际基本的开源定义组织叫 OSI 它会有一些开源的定义有一个十大原则
比如说你不能够对某个群体进行歧视不能对用途有些约束或者歧视性的这种对待所以能够大家广为流传的这些 license 包括 MIT 包括 Apache 包括一些经典的这些开源的协议基本上都满足这个十大主旗原则但是在这个基础上一般会有两种一种叫
copy leftcopy left 什么意思就是对你还是有一些限制要求你比如说也把相应的代码进行一个开源就相当于你有权利对吧那我还给你提供了一些义务那么还有一种就比较宽松的 license 像 apache MIT 这种是基本上是非常非常宽松的这是传统的代码的
那么到了大模型的开源又是另外一回事了因为基本上开源指的是大模型我在部署深度神经网格的时候我的权重如果能够开放出来基本上你就可以按照我的位置去部署去重构这个过程所以一般来说我们在大模型领域的开源通常的叫法其实不是严谨的叫法就开放了位置就可以算
那么在开门位置的情况下我相信很多包括我们之前说到的 LamaMeta 的 Lama 也做到了但是它对于使用它有很多各种各样的限制所以很多人认为 Lama 也不能算严格意义上的开源模型反正业界是有争议的
我加一句因为从通俗一点的角度来讲在 AI 领域这个大模型领域其实没有一家是真正的从传统意义上开源的因为为什么呢因为我把原代码给你你没有算力没有数据这是没有用处的现在去运行或者训练一个模型都是千万亿上亿的那你这个给你原代码又怎么样对吧所以说一点用都没有所以说相当于给你可执行文件就从传统意义上的可执行文件已经很不错了
就是说整体来说它还是开的比较彻底的就是不光 Wits 开放出来包括它的实际上在部署这套东西做推理的时候它用到了包括训练的时候它用到的一些核心的一些库比如说它有一个多头注意机制的这么一个 Flash MLA 来去加速减少推理过程的这种 KV Cache
这些东西他就开源出来了包括他用到的 MOE 模型里面底层的很重要的一个高性能的通信库包括这种 Dual pipe 双向流水线还有 3FS 这么一个高性能的文件系统他都开源出来比较诚意满满的一个开源同时他也把相关的技术用一个比较好的论文做了一个相对比较彻底的一个介绍所以可以看到他在开源这方面做的算是比较彻底的根据
其他的同行相比这个我觉得可能也是源于创始人的初衷因为他看到过他一个报道称核心是说让他们的技术能够参与到全球的创新的 AI 的这波创新的大桥当中我觉得这是一个作为一个创业公司的 startup 不管它背后有雄厚的资本 or not 就是它这是一个基本的初衷我觉得这个初衷还是蛮值得让人敬佩的
对我这里补充一个观点就基本上大语言模型的开源是分为四个维度一个是开放的权重另外一个是开放架构那这两点上其实 DeepSync 做的蛮充足的然后另外两点一个是开放训练的代码
然后还有一个就是开放数据其实我个人的观点是大圆模型开圆最最最有价值的部分其实是训练数据这一部分其实是别的公司最想要的因为架构还有包括权重之类的这种东西的话它
它还是没有办法让别人能够复刻你的模型但是有了数据然后加上你的训练代码之后别人就完全可以复刻你这个模型了那么因为 DeepSeek 没有开放自己的训练的数据呢所以就会有很多人去推测它是不是针流了 OpenAI 的模型然后用 OpenAI 的数据进行它的模型的训练就这个的话美国
我
我想补充一点因为我做数据做这么久其实我们说所谓的开放数据说得很轻巧其实数据的开放是很难的事情我们当然去看 HagenFest 有很多某一个应该某一个行业某一个领域的开放数据集这个是可以开放出来的但是我觉得规模做到 Lama 做到 OpenAI 做到 DeepSeek 这种
全领域全知识的数据你是很难把你自己的数据跑出来的这里面数据集因为大部分可能你收集来的时候也很难有界定这个数据的产权在哪里
一旦你开放出来一定会有更多更多的争议在里面所以我认为这个不是作为一个通用的大模型公司它是不可能开放数据的这个是我源于数据的产权本身的复杂性所造成的所以基于这点去推断出它做针流或者是我觉得有点很难说
我可能第一次是說因為它沒有開放數據所以沒有辦法洗白因為有很多美國的公司包括 OpenAI 和微軟都跳出來說 DeepSeek 有做蒸餾因為它沒有去開放數據所以它沒有辦法完全洗白自己
那么 OpenAI 肯定也是不可能开放自己的数据对吧因为很明显模型训练的训练模型的公司他就一定会用到一些非法的一些数据一定会有产权侵犯就如果 OpenAI 不是跟纽约时报的打官司吗如果 OpenAI 把数据公开出来那他有没有用纽约时报的数据去进行训练就一目了然了所以说我觉得这一点他其实是所有的模型公司面临的一个问题吧
我觉得作为公司来说肯定是希望做到合法合规但是实际上在实际的执行当中我觉得是有一定难度尤其是现在你可以认为大模型就像一个喂不饱的猛兽你跟他说要挑食只能喂一些细粮只能喂一些细糠实际上是喂不饱的
那我们可以上升一下就是关于 general 里的大模型的开源就是当一个公司选择开源的时候它的动机是什么他们需要考虑赚钱的问题吗开源模型怎么赚钱呢开源的话我觉得要分情况一种是这种底层模型的开源这种开源的话其实它就是想要有更多的开发者去使用它的模型就刚刚我们也说了 Mistro 它
它昙花一现就是它的开源模型其实很好用但是呢就是一旦闭源了之后使用的人就变少了这样子的话其实它的公司影响力就会下降所以说 DeepSeek 它去走开源的这个路径就是想要吸引更多的开发者使用他们的模型使用他们的 API 我觉得这是最大的一个动机那么另外
另外还有一种情况就是做软件的公司当然这个跟做 AI 公司是不一样的软件公司开源很多时候它是为了利用开发者社区然后免费帮他做事比如说很多开发者他自己会想要某一个 feature 然后他就会去做这一个 feature 然后这个 feature 直接加入到开源软件当中这样子的话开源的软件公司就不需要再去雇人去做这个工程的事儿嘛
但是对于 AI 公司而言这一点其实不太成立就不太可能有开发者还能够去改变这个底层模型所以说我觉得他们开源最主要的动机还是为了增加自己在开发者社区的一个影响力然后对于 DeepSeek 而言的话我觉得它是想要在中国以外的就是海外市场有影响力就必须要走开源的路径
那他们需要考虑赚钱吗肯定是的我觉得长期而言的话任何一家 AI 公司都要考虑赚钱那开源公司其实它的商业模式其实有这么几种吧但是我觉得总体而言开源公司商业模式其实都不是特别好特别是走全球市场第一种开源模型呢就相当于说是它把
把最好用的模型给闭元化了把不太好用的模型给开源掉这个其实是 Mistro 走的一个路径所以说他们当时当时吃亏也是因为他们只是部分开源这个在英文当中叫做 OpenCore 有很多美国的一些做软件的产品也是 OpenCore 的然后另外有一种呢就是 SaaS 嘛就相当于说 SaaS 或者是 API 它相当于说是虽然说
你想用我的模型但是你不想要本地化部署你也不想自己在云端部署那么你就可以直接用我的 API 那么这个开源公司的商业模式其实跟 OpenAI 和 Anthropic 这种闭源公司是没有任何区别的在这个点上
但是这种的问题就在于你提供的 SaaS 或者是你提供的 API 的服务肯定是要比他自己去部署他自己去在云端直接用云这个肯定是要贵的所以说大规模使用他的公司还是会选择自己去部署这个模型然后另外
还有一种就是它会在开源的基础上给你卖一个高级的一个组件或者是一些高级的一些性能比如说什么安全性能这些什么 team collaboration 的性能还有一些 enterprise 就企业级别的服务还会有的时候会卖一些咨询相关的一些服务这种的话其实也是有一些开源公司的一个商业模式吧但是我觉得整体而言
开源的 AI 的公司的商业模式我作为一个投资人来看你觉得不是特别好也不是特别的可持续俊平这边呢俊平自己是做开源社区的
对我是做很多年了就从上上一家公司吧从做很杜普的公司 Hottenworks 开始到我现在自己出来做也是一直在做这个开源商业化我觉得我认同一部分这个 Jenny 刚才的观点就是说首先开源是肯定是有意义的就是说它
能够撬动更多的开发者外部的开发者资源由于我们现在的这个项目开源的项目 Gartino 为例我们实际上公司是一个小公司大概十几个人但是我们在社区里撬动了一百多个工程师甚至更多的工程师来跟我们一起工作来协作我觉得这是一个非常
一个非常好的一种方式跟社区互动团结社区的开发者在某个领域创新创造尤其在 startup 早期的启动的时候还有一个点是开源的用户的生态一旦构建起来之后
它会比一些避援的软件更容易去推广因为大家可以自动可以 download 可以看到你的代码可以所谓的自来水的这种模式大家会更容易信赖你然后去试用试用完了以后把你很多的软件本身的没有 cover 的一些场景想得更清楚甚至在场景上帮你有进一步的创新我觉得这个是我感受到可能开源更大的一个魅力就是你
你实际上通过这种开源跟你的用户建立了更加深度的纽带和绑定的关系我相信回到咱们这个 topic 就是说 AN 的玩法又不一样了就是说为什么要开放权重为什么要开放比如说我的训练和推理的一些过程或者是一些软件我相信它的初衷目的也是因为在现在的模型
开源的也好闭源的也好太多了对吧如何能够快速的出现成为少数几个占据头部的模型我认为这个是不管是 DeepSeek 还是其他的大模型公司首要问题我相信 OpenAI 肯定没问题对吧因为它是这一波的领导者对它来说开源闭源是一个商业模式问题
但是对于后进者大模型公司怎么样生存我觉得第一位的是让自己能不能成为一个第二名第三名或者世界前五其实实际上这个竞争是非常残酷的那么我们看到不管在美国在中国在世界任何地方包括 Mistral 这样的这种模型有很多但是真正从使用量来说大模型我们一直说的 Scanning Lore 这个 Scanning Lore 它的成本也是一个巨量只有当你的用户达到一个巨量的时候
你的 revenue 或者你的 profitable 才有可能如果你只是一个百万级的用户规模千万级用户规模不管你做的模型再高像你很难达到最终的盈亏平衡点所以我认为 DeepSync 这一点是比较聪明的一点就是通过这样一种方式最大的
程度的拥抱和跟自己的潜在用户做深度的连接我认为这个是他非常聪明的一点换句话说开源可以认为是软件这个行业里面它的流量的密码一定它会比币源会好会更加得到开发者和用户的这种青睐和喜欢因为很多大量的自来水会帮你去做传播
我可以在这里接着俊平总刚才聊到的 OpenAI 作为一个领头羊它面临的一些困境在这里插一个 OpenAI 的一个小八卦不是最近一段时间 OpenAI 在融下一轮的融资 300 多个 billion 差不多就是一个非常天文的一个数字软银去做他们的这一轮的领头
软银其实是没有这么多钱去投 OpenAI 的软银现在有一个 10 个币 10 个币就是差不多是是 100 亿美金的一个 SPV 在市面上面找人融资然后我就有朋友他们是做这种资管机构的他就被软银去募资了就软银找他要钱说你投我这个 SPV 然后间接的去投 OpenAI 然后软银这个募资其实非常困难的就这一轮的募资是非常困难的所以说
OpenAI 它其实也面临着一个困境就是如果它的模型不是很明显的是领头羊的话那么它自己的募资就会非常的困难包括现在第二名的 Anthropic 它上一轮是差不多估值在 600 亿人民币的一个水平它上一轮的募资非常的困难而且就是非常非常长时间才 close 掉
其实我觉得也是受 DeepSeek 的一个影响因为 DeepSeek 所以导致了 OpenAI 和 Anthropic 的募资困难然后让他们很难去 justify 自己为什么要存在为什么自己值得这么高的一个估值如果有一个开源模型它能够做到我的 80%我的 90%那么你这个闭源模型还值不值这么多钱我觉得这是一个 OpenAI 和 Anthropic 面临的一个生存的问题
我觉得 OpenAI 之后它如果之后的这种模型发布跟现在的 4.5 一样非常的平平淡淡的话那么它下一步融资会非常非常的艰难
今天 DeepSeek 确实是做了一件我觉得是惊天动地的事情但是它的惊天动地的地方还是在于 optimization 就是优化就是把以前我们知道的架构知道一个打法 MOE 也不是新的用 cool 的下面底层写东西不用 cool 的也不是一个崭新的概念但是主要的还是在做优化
接下去我的看法是 Anthropic 跟 OpenAI 它没有放弃做大理出奇迹继续往上面去堆卡堆资源堆大更多的数据所以说从某种角度上来讲未来 OpenAI 跟 Anthropic 走的路或者说它要超越 DeepSeek 它走的路还是不一样一点的这是我的理解我想听听 Jenny 你是怎么看的
我觉得是肯定是这样的原因很简单原因就是 Open Air 和 Anthropic 它是有钱有卡可以去继续大力出席季那么 DeepSeek 它处于的一个情况就是它没有那么多钱它也没有那么多卡那它也就只能够去做这一种不断地不断地优化
然后在这个模型的架构和这个优化上面进行工程上的创新还有包括就是科技和结构上面的创新它不仅仅是我相信它下一步肯定不仅仅是工程上面的创新因为我觉得他们现在已经把工程上面做到了极致了那么它下一步肯定是要从架构去入手再进行下一步的创新因为它拿不到卡嘛
拿不到卡就肯定是要面临着算力上面的限制所以它的技术路径肯定是跟 OpenAI 还有 Anthropic 是完全不一样的但是虽然说 OpenAI 和 Anthropic 现在是走在了 DeepSeek 的前面但是因为 DeepSeek 作为一个开源模型紧随其后
所以说对他们的这个估值还有对于他们的战略其实也是有很大的压力的因为很明显就会有 OpenAI 和 Anthropic 的投资人就说别占别人家小孩对吧别人只有 500 多万美金就可以做出来这么一个模型你们为什么要招我要这么多钱那不论是投资人懂技术还是不懂技术我觉得对于他们的融资都是会有压力的 OpenAI 和 Anthropic 他们能够进一步发展就是要烧钱就是要烧 GPU
我想补充一点就是说 刷钱刷 GPU 这个方式肯定是有价值做前沿探索或者搜探模型但是 DeepSeek 这种工程创新让模型的推理成本急速下降其实有非常大的价值为什么我今天读过一篇文章说为什么 OpenAI 出来之后 Google 不是特别紧张会取代搜索为什么搜索 Google 不担心因为成本很高
搜索可能是一个还要公开的数据吧好像是两美分就每条记录每个搜索记录大概是两美分的成本所以如果是用 Google 的模型的话 Google 的这样一个公司会被从一个几百亿的正向营收每年会变成个几千亿的负向营收
但是因为它 DeepSick 大量降低了成本所以造成的结果是有可能它可以跟 Google 的搜索达到一个同样我在问同样一个问题它可能推理的成本代价是一样的模式如果真的是这个模式如果是个经验证的一个 business model 我觉得它有前景了因为它会颠覆掉很多东西类似于像 Google 百度这样的搜索引擎公司我认为就会直面它的生存问题
第二个我在想的另外一个问题就是 AI 我们的应用走到一个真正生产落地的时候大家还是要考虑成本而且成本是一个首要的问题所以这种工程创新也好成本也好我觉得也是一个标志说明我们整个 AI 的创新进入到一个下一个阶段就这个阶段不仅是说大家会无限美好的未来而是说当下当前
我用一个有限的投入能拿到预期的成本或者比预期更多的收获那么这个时候我觉得这个才是真正 AI 这波革命从泡沫转变成价值的 A-ha moment 或者说关键的时刻是不是相当于现在 OpenAI 还有 Anthropic 他们走上了跟 DeepSeek 有点不太一样的道路他们相当于是探索最前沿最前沿最新的模型但是 DeepSeek 是走下沉市场
我觉得我不是那个意思是说其实大家都是在往上做探求这个最好的效果然后往下是探求最佳的可商用的角度这个是每个公司我认为有追求的公司都会在两个方向探索甚至包括 OpenAI 包括 Anthropic 他们可能说不探索这个落地的事
我觉得肯定不是下沉时长这一说大家知道 Intel 以前强盛的时期它做 CPU 一般来说它有一个周期的叫 TikTok 就跟现在 TikTok 是一样的 Tik 就是我做一个新一代的 CPU 然后 Tok 就是一个优化这个优化就是对价格对性能对大小都有极大的优化
从这个角度上来讲你可以把 DeepSeek 的模型看成是一个 talk 就是一个优化的一部分
说 DeepSync 做下沉市场呢其实是有一个依据的就是 DeepSync 它是服务了世界上更多的国家特别是发展中国家因为如果去看这个 Apple 还有 Google 的这个下载量最大的软件其实不是 OpenAI 也不是 Anthropic 而是 DeepSync 为什么呢因为它是免费的而且因为它的模型是完全开源嘛所以可以在印度尼西亚呀或者是在一些非洲啊
拉美的一些国家进行部署那么 OpenAI 这样的模型因为还是需要付 API 的费用嘛所以很多当地的公司也不愿意去用它所以说从这个角度上来看它确实是做了更多的全球的下沉市场然后我也相信就是 DeepSeek 它未来的一个发展的趋势可能就有点像特斯拉
和这个中国的比亚迪的一个竞争的趋势对吧特斯拉就是北美加上欧洲市场然后比亚迪就是中国市场加上其他的所有的发展中国家包括现在比亚迪也在杀这个欧洲市场但是在美国就没有一辆比亚迪我觉得有可能会出现这样的一个局势
Janet,我想听听因为你其实跟很多创业者打交道对于那些特别特别早期的创业如果是做 AI 的话你觉得 DeepSeek 对他们今天的影响有多大
我觉得其实创业公司这么早的创业公司他的 MVP 肯定是要用最好的模型的不论他是做什么他肯定是用最好的一个模型为什么呢因为做一个 MVP 要的是第一能够 impress 就让他的投资人觉得你产品做得很好
第二就是能让最早期的客户觉得这一个产品非常的好所以是这样的一个目的的话那么他肯定是要不惜成本去用最好的模型就算是亏钱也要用最好的模型那么我觉得 DeepSeek 它的作用是体现在基本上是这个公司可能融了 A 轮或者是它有很多很多的客户
然后这个时候已经是到了一个要降本增效的一个程度了他才会去使用 deep seek 这样的模型那么还有一个观点其实不是我的观点是我的一个朋友 Dylan Patel 他是 Semi Analysis 的创始人他当时提出了一个很有意思的观点就是他认为
认为最高端的模型的市场占有率肯定是最高的而不是说是最便宜的模型为什么呢因为大家用这个模型的时候用它的其实替代的是高端的人类的这工作比如说用它来替代工程师那么一个工程师在美国的工资可能是 20 万 30 万美金一年那么你不论这个模型有多贵那还是说比工程师用人要便宜很多
在这样的一个利弊权衡之下使用最贵的模型反而是跟这个公司省钱了因为比如说我使用最贵的模型我这个人工可能只需要一个小时那我使用便宜的模型那人工可能需要两个小时但是我觉得这个观点其实是有一点片面的因为我觉得还是有非常多的产业和应用是需要使用到更便宜的模型的
我觉得最直观的例子就是 open air operation agent 模型差不多跑一个任务需要花 20 美金有的时候需要花 1000 3000 美金这个非常夸张因为这个根本就没有人可以用嘛太贵了而且它的准确率又很低那么这样的一个技术它要普及化它肯定是需要用到 deep seek 这样更便宜的模型的
要不然我们下面来聊一聊对上下游 AI 生态的影响首先我们先来聊聊英伟达吧以及麦卡的这些厂商包括英伟达包括 AMD 这波 DeepSeek 的浪潮会怎么样影响硬件厂商我可以先聊一下我当时
感受最深的一点就是 Deep Seek 出来了我东海岸做对冲基金的朋友全部在卖英伟达然后西海岸做 AI 的朋友全部在买英伟达我觉得这是一个非常有意思的一件事情因为
就是东海岸他们就觉得逻辑非常的清晰 DeepSeek 出来了训练这个模型只花了 500 多万美金然后这个模型跑起来又更高效那很明显英伟达就是不值这么多钱了不需要用这么多卡就可以做出很好的一个模型了这个是东海岸的人买英伟达的逻辑那西海岸的人买英伟达的逻辑是什么呢他就是觉得一方面训练肯定是不只是 5.5 个 million 肯定不止 500 多万美金肯定是比这个更多的
然后第二点是说这个价格下了大家用它就用的多了我们当时跟徐老师聊的不也是说模型更便宜了之后大家的应用的范围就会更广有了更广泛的应用特别是 AI 它可以在本地化进行部署之后会有更多的公司它会选择自己去部署 DeepSeq
就不去使用云服务商那么在这个情况之下的话对于英伟达是个非常非常利好的一个消息所以说大家可能是在思考了这么多不同的因素之后英伟达的股价又上去了然后最近因为美国经济的问题还有包括川普的一些关税的问题英伟达股价又下来了但是这一波其实跟 Deep Seek 的关联就没有之前那一波那么大了
两种思路可能都有一定道理那么从宏观的我认为就是说做同一件事情的成本肯定是降下来了对吧因为它的模型的能力它的效率它的资源但是换句话说可以做的事情更多了或者以前觉得用大模型做成本过高的事情比如说刚才说到的搜索的问题现在会越来越多的人转向用大圆模型去做检索信息的检索总的应用量来说是增加了
那么但是就还有一个有意思的变化就是当前就是说英伟达的卡可能训练的卡和推理的卡这个比例肯定会带变化就以前肯定是这个训练的多是吧然后推理的少或者它有一个比例那么未来可能越来越多的卡会是偏低端一点或者更偏这个推理的卡因为训练的公司就那么几个全球不会再多不
不是说每个公司都会去训自己的大模型但是推理大家可能都会需要不管是用云在云上去推理还是在私下去推理因为有的时候因为你真正用于企业化的这种部署有的时候大家还是担心有些隐私数据的隐私的问题可能大家还是追求一个线下的这种部署方式
从 NVIDIA 的未来的卡的出货量来比一定是推理上升就相对比例推理上升训练下降但是反过来说对于 NVIDIA 来说训练阶段它的训练卡它的技术壁垒
或者说它的这种竞争性的门槛是比较高的那么推理相对来说要容易一点或者是推理卡的这种门槛可能没有那么高所以它的市场的竞争我可以认为它在训练上是可能无人取代但是如果放到推理上可能全球范围之内它都会有一些 competitor 所以对英伟达来说确实是一个从这些角度来说它确实是一个喜游苍范的这么一个角色
其实我观察到现在国内有一个非常大的市场叫做一体机那天俊平也提到了就是他可以把就是 AI 芯片大量存储还有这种各种接口集成在一个机器上然后其实只需要八张英伟达的消费级 GPU 就可以在本地部署 DeepSeek 所以这种相当于是一个对 GPU 的需求量其实是很大的虽然不是最高端的 GPU
我其实很好奇这种商业模式在美国是完全没有的这个完全是中国特色的一种商业模式我其实很好奇为什么会出现这样的一个商业模式因为我在美国从来就没有听说过有人去这样子的本地化部署一个模型
我觉得本质上原因还是说大家对于很多的应用和对于数据的敏感程度包括对于软件硬件的在整个 business market 应用比例的这种分配可能是不太一样的而在美国可能大家天然习惯于可能用我如果要是节省成本
我就用公有营的这些服务云厂商的服务或者是用 model service 可能应该也好或者我就自己对吧有些大的公司有自己能力的就搭一个比较小见的是说大家为了节省开销一个中小 SMB 搭这么一个所谓的叫一体机或者一个小的机群去做这个事其实这个事在美国这个环境它可能不太天然不太 make sense
从技术上来讲这件事情并不是很 make sense 是因为今天不管你是推理也好训练也好怎么去做这个机器怎么去部署其实没有 converge 其实这个技术不断在变化如果我卖给你了我就 stuck with that 了谁知道是过了三个月更好的 configuration 是什么我觉得完全从技术的角度来讲不怎么 make sense
我觉得会不会就是因为中国企业其实不想买软件然后卖给它硬件是最好的赚钱的方式你看我只有 8 个 GPU 卖给你了之后他就非常愿意为这个付费但不愿意为虚无缥缈的于乎无回归 Jenny 你不像是在美国出生的对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对
我不知道 DeepSick 这个免费的出来以后会影响大家的对 OpenAI 的付费意愿吗我觉得对 OpenAI 付费意愿影响最大的其实是 Anthropic 和 XAI 吧因为我自己以前是一直付费 OpenAI 的然后我基本上从去年的七八月份我就开始不买 OpenAI 了然后换成了 Anthropic 然后最近我就不太想买 Anthropic 因为我开始在用 XAI 所以说我觉得作为一个个人用户其实 churn 还是蛮高的
大家会在不同的模型之间去换然后去找自己最喜欢用的模型 DeepSync 我觉得它没有影响到 OpenAI 的个人用户的使用率的原因是 DeepSync 毕竟它的网页版还有它的 APP 都很不稳定经常流量没有办法支持这边的用户体量
另外一方面是很多美国客户因为 DeepSeek 在思考问题的过程当中有的时候会蹦出中文就会吓到美国的用户然后就会有人就问我说我的信息是不是在传送给中国我觉得会有这样的一个问题但是我觉得在 API 的使用上我觉得 DeepSeek 是肯定它会挤压 OpenDSO 的市场空间
我其实观点稍微跟 Jenny 不一样一点因为 Jenny 你是代表着硅谷很多用 OpenAI ChatGPT 的人都是在硅谷以外的人了这拨人其实并不知道什么其实他们对微软对 Anthropic 都没什么了解理解他们只知道 ChatGPT 尤其是 B2C 这一块就是个人用户这一块很多时候这个 brand name 还是非常重要
会不会长期会有一些影响那都说不准给点时间什么事情都有可能发生但我不觉得在过去两个月因为 Deep Seek 对他的个人的 20 块钱一个月的那一个月费定义有什么负面的影响
对大家可以去看那个 Mando VC 的出的一个年报因为他们是 Anthropic 的投资人然后他们当时那个数据就显示在 2023 年到 2024 年很明显 Anthropic 它在占有 OpenAI 的市场 OpenAI 的市占率就一直在下降然后在 2023 到 2024Anthropic 的市占率包括个人包括企业它都在上升我觉得如果大家有这个 2015
5 年的数据的话我相信在个人的方面肯定是 Atropic 加上 XAI 在吃掉 OpenAI 的个人的一些市占率可能波幅没有那么大但是肯定是会有这样的一个影响的然后在企业端我相信 DeepSeek 的这个开源模型肯定会挤压到 OpenAI 的企业端的这个 API 的市场占有率但是呢 AI 市场吧这个饼子做的是很大的而且这个蛋糕是越来越大嘛
所以说大家的这个营收肯定都会比 2024 年高很多 DeepSeek 出来以后币源的公司还有什么护城河
其实我自己的想法是 AI 的公司就没有护城河这一个概念我觉得护城河就是 AI 的公司拿去找投资人募资的时候画的饼就是说你看我这个非常非常难做出来我就有这些人才我有这个算力所以别人很难 copy 我做的事情我觉得它就是拿去募资的这么一个非常就简单
明了的让投资人让没有技术背景的投资人理解自己在投什么我觉得这个是护城河这一个概念的来源但是实际上 AI 公司都是没有护城河的我之前做 benchmarking 然后很明显的可以看得到
这一个最好的 AI 模型和第二好的 AI 模型之间差不多也就差个三个月的时间那如果对方比如说窃取一点你的机密或者是挖掉你两个人或者是怎么样一下那很容易就赶超了对吧包括 OpenAI 和 Anthropic 之间进行对比 Anthropic 的 Cloud 3.5 和 OpenAI 的 GPT-4 它的 performance 比 GPT-4 要更好
但是他就是训练他所用的钱只有那个 OpenAI GPT-4 的可能四分之一都不到然后中间只隔了九个月的时间这叫做护城河吗我觉得这很难把它叫做护城河因为中间只差了九个月的时间别人能够更好更快更便宜的做出比你的模型 performance 还要更强的这样的一个模型我觉得 AI 这个大模型这个领域是没有护城河的特别是这几家大厂之间就是没有护城河的
那么大厂和新进来的这些新的公司之间是有护城河的但是这些人也不是他的竞争对手我觉得护城河是要针对于自己强劲的竞争对手而言的然后目前而言我觉得这些公司都是没有护城河的就是 OpenAI 对 AtrophicAtrophic 对 OpenAI 还有 OpenAI 和 Atrophic 对 DeepSeek 我觉得都是很难建立护城河的
你可以说 OpenAI 和 LightDropic 对于 DeepSeek 最大的优势是在于它有 GPU 而 DeepSeek 没有但是这个能不能作为护城河也不好说我觉得目前而言这个可以算是护城河的一部分但是 OpenAI 和 LightDropic 之间真的很难说有护城河了
大家也看到了可能前两天刚刚发布了这个 Manus 他自己声称自己是全球第一个通用 agent 所以我蛮想聊一聊对底层应用的影响以及大家怎么看 AI 未来发展的趋势 Hoi 刚刚试用了 Manus 要不要来说一下你的感受
任何事情就像我们前面也提到了 Deep Seek 有过两三个礼拜特别特别红火的然后把英伟达的股票都跌了一天就跌了 17%这都是短期的东西然后这个 Manus 感觉也有一个短期的效果至少在我的一些朋友圈里面感觉是流传特别广
当然了后来又有些负面的一些说法说他们是不是做了温宣或者怎么样我觉得是在往前走我觉得挺不错的是不是 Another Deep Seek Moment 那我觉得那绝对不是而且根本就没有任何比那我觉得这是远远不可能
根本就不可能去对比的但是把这些噪音都去掉他们是不是做了一些蛮有趣的事情我觉得是啊我就问了他几个问题是硅谷徐老师在过去几年给我做一个总结他都帮我扒出来对吧又做了 33 集节目然后跟谁做些什么节目然后我还告诉他用什么样的 format 弄出来基本上是可以的我不敢说是满分但是我觉得五分里面给个四分我觉得没有问题
对我其实有一点担心 Manas 它会跟之前的 AutoGPT 一样是一个昙花一现的一个存在我觉得好在它确实是有用的当然我自己还没有用到它但是我有很多朋友去使用了 Manas 觉得体验还是很不错的所以说我觉得它首先它跟之前的像 AutoGPT 不同的一点就是它确实是有实用性的但是它有多大的护城河呢我觉得这个其实很不好说好像是在
Manus 出来了之后是一晚上还是一两天就有人在 Github 上面开源了一个 Manus 效果其实跟 Manus 是非常相近的叫 OpenManus
对然后我相信这一个像 Perplexity 包括 Grok 包括 Opening Eye 和 Anthropic 也是连夜在做类似于 Manus 这样的产品所以说我觉得就很担心的一点就是这一些大厂会很快的复刻 Manus 的技术路径然后另外一点我想说的是 Manus 很有意思它跟 Deep Seek 完全是反过来了 Deep Seek 是先是在国外火然后火到了国内然后 Manus 更多的是在国内火
但是不知道为什么它的这个 release 是用英文做的发布但是在国外却又没有火起来我在推特上面会灵灵心心的看到几个外国用户去关注它但是其实硅谷对它的反应没有那么大
还有一点我觉得是为什么会导致这样的一个现象就是因为国内的用户其实还没有用到像 Deep Research 这样这种完成任务的这样的模型我觉得国内的用户其实还没用到然后在硅谷的话大家已经有了像 Grok3 像 OpenAI 的 O1、O3 之后大家对于它的新鲜感其实是极大的降低了或者说 Devon 也可以做同样的事情
对所以它可能确实是比 OpenAI 的 DeepResearch 或者比 OpenAI 的 OfferAid 要好但是也没有好那么多所以说大家对于它的新鲜感就不会有那么强
对我的一个同事 Ted 说做这个 agent 其实还是一个蛮难的一个事情对吧你真的要把它做好做精其实很难的他的判断是从以前是 5%的好现在变成 10%的好那已经很不错了对吧这是一个很不错的一个产品或者方向
我觉得在去年的时候大家对 agent 是不是 AI 应用落地的一个方向好像还存在一些争议但是到了今年好像大家已经默认 agent 是下一个发力的方向了是的我们基金从 2023 年的年初就开始关注 agent 就当时 ChatGPT 刚出来的时候我们就在内部研究 agent 我们觉得 agent 才是最有潜力的一件事而不仅仅是 Chatbot
那个时候就很多人很多 LP 就我的投资人会觉得我们非常的觉得我们像疯了一样你怎么就是这个 AI 年这个话都没说明白怎么就开始做 agent 了呢但是现在特别是 2024 年的下半年很明显大家都非常认可 agent 这个赛道
然后认为这个是下一个 AI 的增长点我们其实认为不仅是说 agent 很重要更重要的其实是 multi agent 就是不同的 agent 之间交互合作包括 Manas 它也是一个 multi agent 的一个系统现在的很多 agent 还是做 single agent 但是未来肯定是要往 multi agent 方向去走能不能展开说一下就是它有 multi agent 然后为什么有
对我觉得简单而言的话就像是你一个人做事和一个团队做事的区别一个团队的话可能这个人是懂法律的那个人是懂工程的那个人是懂产品的大家的技能点是不一样的然后另外如果是一个团队做事情的话我就不需要就是一步一步的做而是说我们同时可以做三件事我一个人做事的话同时只能做一件事情但是一个团队做的话就可以同时做三件事情这样子的话比如说
Manus 现在还出现还有一部分觉得他非常慢嘛如果未来你的 Multi agent 做得更好然后更加的 Parallel 那么他最后交答卷的时间就减少了很多所以说你是觉得他的比如说我给他的工作应该有好几个或者可能有好几个 agent 不同擅长不同方面的 agent 在给我做这件事情
对 是的 我觉得这肯定是一个大的发展的方向对 你觉得今天 multi agent 在硅谷的那些创业公司里面你看到的是一个什么状态我们其实投了一家公司他们是做 multi agent 的然后他们是做什么的呢他们是给 VC 做 analyst 就 AI 做 VC analyst 那么他就会有十几个 agent
每一个做的事都不一样有的 agent 是去做数据的整理有的 agent 是专门去做这个市场大小的这个评估有的 agent 是专门去找就是竞品有的 agent 是专门写报告的就是每一个 agent 他所
做的事情是不一样的然后这样子的话可以更大的利用每一个模型的优点因为有一些模型它可能是小而便宜这样的模型就可以去让他去做这种需要处理的数据体量大但是难度比较低的一些事
你觉得什么时候我们也看到了 Mannus 肯定不是一个非常成熟的阶段你觉得大概到什么阶段很多普通人都能够开始用上 aging 的做些一些事情你觉得这是一个一年两年还是一个什么
看着这个趋势估计就是今年年底了我估计在今年的七八月份吧 OpenAI 或者是 Antropik 这样的公司就会出 agent 类似的产品然后今年年底之前就普通人就可以用上 agents 因为现在 OpenAI 和 Antropik 他们不让大家大规模的使用 agents 主要是两个问题第一个是 agents 准确率还比较低
第二个就是它太贵了它要给你 offer agent 的产品的话它自己消耗的算力非常高但是在 Manus 还有包括 DeepSeek 这样的创新之下它会倒逼 OpenAI 和 Anthropic 第一是提升这 agents 的准确率第二就是降本增效在这两个大的趋势之下我觉得 OpenAI 和 Anthropic 在今年的夏天之前肯定会出 agent 相关的产品或者至少会往这个方向走
然后今年年底之前是肯定会做出类似的产品因为我不知道大家有没有发现至少 OpenAI 是这样它非常非常的 reactive 就是如果市面上出了一个产品 OpenAI 就一定要出一个竞品然后来证明我就是比你好
那为什么呢因为 OpenAI 它有一个很强的融资需求如果它让投资人发现就是你可能落后了不论是哪一个方面不论是底层模型还是 agents 还是就任何 enterprise use 就任何一个方面就是 OpenAI 它如果感觉到了市场对它的这一个认知是觉得它可能是老二了它就一定会出一个这样的产品去弥补这个空白
这是一个有趣的观察你看 4.5 也就是在 DeepSeek 发布之后几天就发布了另外一个从技术上来讲 agent 或者 multi agent 多个 agent 有一个技术上的一个挑战就是一个 agent 的错误会影响到整个系统如果说一个系统是出错率是 10%那你 10 个 agent 串联起来那你的出错率就是非常巨大了你是觉得这个方向大概是怎么样你
我觉得其实 10 个 agents 一起合作会比一个 agent 准确率要更高因为一个 agent 他在做每一步的时候可能都会有个 5%的一个输入率但是如果你是 10 个 agents 的话这 10 个 agent 都可以让它优化到达到 99.99%的这么一个准确率这样子的话 10 个加在一起它的准确率就会更高
因为现在这个 agent 他做事情的方式呢就相当于说他做一件事然后要回过头来反思一下自己做的到底是不是对的然后再往下再做一步这样就非常的慢就包括你看 OpenAI 的 operator 还有这些任何的 agent 模型就非常非常的慢
但是未来肯定它的一个趋势就是说还比如说多个模型一起合作一个模型做一件事然后另外一个模型可能是一个小一些的模型或者是一个更智能的一个模型会过来评估他做的事情好不好然后再给下一个就击鼓传花这样子的话每一个模型就专注做他做的这件事这样子出错率就会更低一些
即使不同的 agent 怎么摆设起来也是关键就是你可以串联也可以并联不同的摆法有的摆法使得它的出错率更加降低谢谢 Janet 谢谢俊平两位分别是一个是 open AI 的对模型有背景的另外一个是俊平是对数据有背景的其实是非常对我们来说一个就是模型一个就是数据我们唯一缺的是英伟台的员工
再加上算力这就是一个完整的一个 panel 了没有了开玩笑好谢谢大家好的谢谢 Jenny 谢谢俊平拜拜谢谢大家拜拜
这就是我们今天的节目了欢迎你订阅分享给身边的朋友这会对我们非常有帮助 2024 年我们还制作了两档全新的付费节目不只金钱和跳进兔子洞第三季希望可以给大家提供更加优质和深度的内容另外欢迎你加入生动活泼胡同会员计划支持我们的内容创新还能检索我们所有的付费节目每周会员通讯和线下活动详情可以查看单击简介好的那我们就下期再见