欢迎收听晚点聊本期的主播是曼琪上周六 DeepSeek 发布开元周的收官之作概述了 DeepSeek 的推理优化思路并放出了 2 月 27 日前后一个 24 小时时间段内的完整实际测试根据 DeepSeek 的官方数据这 24 小时里他们处理的 Token 输入总量是 608 币也就是 6080 亿
输出的 token 量是 168 币也就是 1680 亿做到这么大的吞吐量他们平均只用了 226.75 个节点每个节点是 8 张英伟达 H800 加起来就是 1814 张卡而这支撑了 DeepSeek 高达 2000 万到 3000 万的日活由此 DeepSeek 也根据 GPU 的市场价格和自己的 API 定价算了一个成本利润率就是这几天被广泛讨论和传播的 545%换算成更常见的毛利是 84.5%
这让前段时间算过另一笔账而且结果大相径庭的路程科技创始人尤阳的言论被推到了风口浪尖尤阳说通过自己的实测他发现中小云平台现在部署 DeepSeek 在售卖 API 给其他应用方是一个巨亏的生意月亏可达到 4 亿元人民币
虧損的核心是悠揚自己測的吞吐量與 DeepSeek 公布的數據相差巨大因為 GPU 的價格在一定時間內是固定的吞吐量就決定了 API 服務的收入它是 API 服務能否賺錢的核心悠揚在之前的三張視頻裡說考慮到各種用戶需求的波動和實際任務中長短序列輸入與輸出的參差
他测算一台 H800 服务器的实际每秒输出量仅在 300token 左右是 DeepSeek 数据的四十六分之一在被打脸的争议中尤阳接受了晚点聊的访谈我们聊的时间是 3 月 1 日尤阳没有特别提及 DeepSeek 的具体推理优化他称自己不方便评价 DeepSeek 的技术细节
他更多聊了为什么他认为中小云平台做 MaaS 服务不赚钱也解释了他眼中的 MaaS 商业模式他认为单纯卖 API 的 MaaS 可能更适合大型云厂商和自己开发独家模型并能做相应深度优化的公司比如说 DeepSeek 自己同一天路程科技也宣布停止自己的 DeepSeek API 服务
如果听有想更详细的了解考虑到运维折旧等成本的 DeepSeek 的实际利润率到底怎么测算可以看修路词里贴的几篇相关链接有非常详细的解读并搭配了公式和图表下面我们就正式进入本期节目吧
刘老师你可以先简单介绍一下吧我毕业于加州大学伯克利分校获得了博士学位很荣幸被伯克利提名为 ACM 博士论文奖的候选人当时在 80 名伯克利毕业人中选两名之后我就到新加坡国立大学任教很荣幸新加坡国立大学给我了一个校长青年教授的职位我在新加坡国立大学建立了一个研究组大概现在有十几个博士生
加上博后总共 20 多个人到 2021 年的时候当时我参加了一个奖项评选李开复老师是奖项的评委就把我的背景转给他的投资团队后来他投资团队就联系了我然后我就开始创业就创立了陆神科技这是我的一个基本背景
因为其实我今天上午想找林了是因为就是你最近一段时间发表了一些你对 DeepSeek 的成本但这个不是指他自己的成本是指第三方来部署 DeepSeek 就做一个 mass 服务的这样的成本的一些测算然后也受到了比较多的关注或者也可以说是争议吧
我想首先解释一下我感觉我不应该跟 DeepSeek 全队去辩论他们跟我没有任何关系首先我觉得 DeepSeek 是很好的模型它这点靠 API 赚的钱我感觉也不是 DeepSeek 团队应该考虑的事情我觉得他们是有比较宏大的目标的
我其实论调是抨击的中国有很多中小云厂商其实他们在倒卖 DeepSeek API 又宣传自己推理技术比英伟达快 10 倍所以我才发了这个言论我觉得我跟 DeepSeek 团队 DeepSeek Insider 团队我跟他们没有任何关系
我觉得是因为本身就是您的一些言论传播出去之后那可能一般人他就是会理解成你好像说 DeepSick 的这个东西很贵然后不是像他宣称那么便宜这个我们后面可以展开就总之就是您今天愿意和我聊其实我也是有点意外的因为我觉得最近你发了这个言论之后其实也受到比较多的争议就有很多人是不同意你的这个观点的
反正我觉得这期发出去之后可能也要有一个心理准备就是评论区应该还是会有很多人有不同的观点而且像小宇宙的评论我们自己是不会管理的我觉得很好因为咱们中国现在已经进入 90 后 00 后的时代了
本身我觉得就是一个信息高度开放,大家都对前沿技术的真理比较关注的时候。那我想问一个题外话,就是您自己为什么把知乎的评论选成精选评论了?就是需要你自己筛选之后才能放出来?我觉得因为知乎上的键盘侠太多了,我现在一个人跟 DeepSeek 在对抗,就我一个人的力量本身就很有限的,我感觉对我是不公平的。
不过你刚才也说了其实你不是在和 DeepSeek 对抗我知道但是在建房型家眼里我一定是在跟 DeepSeek 对抗是吧那我们今天可以把这个事情就是聊得更清楚吧我觉得你也可以简单地讲一讲就是你最近关于这个评论他们成本的这个事来龙去脉吧我看到你最开始应该是 2 月 20 号的时候发了一个朋友圈就是你当时有一个测算你说如果第三方去部署 DeepSeek 就中小营厂商去做这件事可能每月的亏损金额会高达 4 亿
就这个事最近的一个变化就是今天 DeepSeek 它在 GitHub 和知乎上都发了他们开源周的最后的一个 One more thing 就是他们去整体性的介绍了自己的推理系统优化的一个思路而且在这个文章里它最后是实际统计的最近某一天 24 小时里他们大概的一个服务的情况在
去减掉成本他算出来一个比较关键的数字是说他们现在的成本利润率是 545%当然他文章里也写了就是这个是一个理论的成本利润率因为他这个是都按 R1 的价格算的那实际上他所有这些调用量里面有一些是 V3 然后 V3 的价格是比 R1 要低一些的
以及它这个 24 小时率是算了晚上的时间晚上的时间现在 DBCQ 官方给的价格也是比白天的高峰期有一定的折扣的所以这是一个理论的理论率实际可能会比这个低一些因为你之前的那个言论嘛然后支付上有很多人就是让你去回应这件事情然后你也写了一个回应
所以我本来是想跟你展开聊一聊就是 MaaS 服务这件事情本身以及说就是第三方来部署 DeepSeek 的这个 API 然后再卖给一些开发者或者说是应用方因为他们是需要这个调用模型的就这个生意到底是怎么回事
对我还是说 DeepSeek 肯定是一个很优秀的团队我不太想把自己影像跟 DeepSeek 去对立当然我今天看到那么多@我确实稍微有点生气然后我就写了一篇文章当然我也不打断实案大家就可以看看肯定有人赞同有人反对是吧因为我今年 1 月 2 号 DeepSeek 当时还没有那么火爆的时候我当时在微博上就说 DeepSeek 就是中国最好的模型不论开源必然是吧它确实效果非常好这是毋庸置疑的包括
它的影响力肯定也不仅限于 AI 然后回到今天那个话题中小云厂商那个事情其实为什么我可以这么肯定的判断中小云厂商很难盈利呢就是我们首先弄了几台机器就我用就用 SGLang 或者 VLM 这种方案就把这机器打满了就我相信我这方案不会比中小云云厂商差太多的
在这种情况下它的亏损率依然很高就不是实验室离线的 benchmark 数据就比如说我弄一堆离线任务我测一下它机器每秒涂了多少 token 那个是不高普的当时就有一种评论是认为你们自己的技术不行所以优化的不够好才会导致要亏这么多钱就是假定但是我觉得我们公司技术很好就假定我技术很烂我完全用开源方案 AGLAN 或者 VLM 或者英文打 TensorRT
因为它这些工具都有开源方案的我就用它的开源方案好吧我敢打赌 99%的中小云产商不可能比他们明显快的不过有些人刷 Bushmark 比它快也是一些 corner case 就是也是一些在不公平的对比实验情况下设置了一些参数其实您也可以查查就不用我公司任何技术我就用 EVDA 的我就用 XAI 的我就用 SGLang VLM 然后呢机器与机器之间的我就用相互独立那种模式
我感觉 99%的中小银厂商不可能比我快我解释一下就是刚才游老师提到的 VLLM 还有 SGLang 是一些开源的推理框架我们在之前的节目就是聊 DeepSeq 开源周的那期节目里我们有提到过因为 MaaS 服务 Model as Service 它是一个 2B 的产品
它上层是接一些聊天应用接一些类似 ChatBI 的应用或者接一些游戏里的各种应用财务分期的各种应用比如说你一个成熟码的系统你得接几十种应用才能比较繁荣但是其实你无法控制上层的这些 APP 什么时候用什么时候不用因为你卖的东西是按 token 去卖的不是考虑积极利用率的所以说为了安全起见你需要提供 5 倍的我感觉 5 倍是比较靠谱的
因为这个机器波风波谷变化更大并且你不知道什么时候这个用户就来用你说到这个我也想问一下就是你今天那篇文章里也写到了吗就你认为应该提供一个比它本来的需求量要是本来需求量五倍的这样一个冗余的资源去让它服务有稳定性其实今天我跟 Infra 层的创业公司我也交流了一下这个问题他觉得你算的这个太多了他觉得可能多一倍也是够的但是这有几个前提
这个前提就是一个是你需要有足够多的用户然后第二个可能就是你有一些跨时区的全球化的服务比如说在中国的白天它可能是欧洲或者美国的晚上这样你拨风拨鼓可以有一个削风填鼓的这样一个作用然后第三个就是你晚上去跑一些离线任务包括 DeepSeek 自己其实也提到当然它并不是一个云平台它因为自己有训练模型的需求所以它也提到就是晚上的时候他们会减少这个推理节点的布施
然后他们会把一些资源用来自己去做训练你怎么看这几个原因可以缓解你刚才说的我要去额外背那么多资源的这个问题那不会的我觉得它即便是在中国美国都有用户它是无法预测就是我一流到 MaaS 和 WireMath 应该是不限制上层 APP 给我调多少我即便每个小时的用户数都是差不多的
它这个利用率是随机的是我不可控的那为什么五倍就够了而不是更多了为什么不是十倍我的意思呢就是你要想输出每天输出 1000 一个 token 那你应该准备有 5000 亿 token 能力的机器
这是我的估算因为你有很多 APP 你不能限制你的 APP 我觉得因为这件事你是不可预测的我个人觉得两倍是非常不靠谱的因为你的应用越多你这个上下波动的其实幅度真的是非常大的
但是如果结合就是 DeepSeek 它因为自己在这一周的开源周的时间里它释放了很多和 Infra 相关的优化的方法那如果结合这些方法的话它有可能把这个需要冗余去准备的资源给它降低吗我还是不想跟 DeepSeek 站到对立面就是我感觉 DeepSeek 做的这些事情大厂很多开源方案呢他们应该有类似的就是当然你也可以到 GitHub 上看看就 DeepSeek 肯定是一个非常优秀的团队
比如说您说的 PD 分离技术其实最开始也不是 DeepSeq 提的我觉得这种事情每一种优化都是有成本的我觉得 MLSys 或者计算机系统有一个词叫 trade off 你加速了 10 倍你肯定是要牺牲什么东西的对吧
当然我感觉未来几个月或者一两年之后肯定会有人宣称我通过 DeepSeek API 盈利了之类的未来几个月肯定人会做一些 LPC 量化减值蒸馏之类的就是测一些比较美好的实验数据但是我觉得站在 2025 年 2 月初的角度中小营云场上不可能能赚到钱的
其实陆晨自己不也是中小优云厂商吗我们不信买 API 了这方式是不好的我觉得我们也要自己的推理服务推理体积就是线上的 serving instance 我觉得那个才是合适的我只需要把这一台机器优化好给它装上各种软件就相当于这一台机器被用户承包了他自己也放心他自己有 100 个用户就用一台机器 200 个用户就用两台机器 400 个用户用四台机器我觉得要不然您看阿里云火山云优克德
手云或者电影科技都出了一体机就是一体机是最稳妥的它这个机器就完全属于用户自己控制的我们不看好 MaaS 这种模式我们暂时也不打算提供这种服务但是如果你们不做 MaaS 服务为何你们今天的公众号发了一个公告说 DeepSeek API 服务会在一周之后暂停
而且我看你们 2 月 4 号的时候也是有宣布说你们当时也是和华为生腾合作去推出了 DeepSeek API 的服务那我是不是可以理解为就是从 2 月初到现在你们是短暂地尝试了一段时间 MOS 就是我去卖一个大模型的 API 然后你最后尝试的结论就是这样做是赚不到钱的
我们确实暂时不打算去做 MaaS 了为什么呢我觉得这个 MaaS 市场目前这个定价体系包括 GPU 算力利用率它的市场化的方式还不是特别成熟我们确实也进行了测试通过 MaaS 是确实可以获得一些收入的但是这个代价有点太高了因为它亏损率也确实比较高我们所以说呢
做一家创业公司肯定是现在需要增长我们需要把钱投到我们最该投的地方关键是我们公司去年已经有很大量的营收了我觉得这个阶段不应该做很多事情我个人觉得创业公司应该细分细分再细分专注专注再专注我们先把自己的主营业务
的营收不断的提升增长我觉得这是最核心的事情等 MaaS 市场它的定价体系它的 GPU 利用率的成熟度能够更好一点我觉得我们那时候在做 MaaS 也不迟那我觉得你可以介绍一下就是 MaaS 的模式和一体机的模式就 MaaS 是做什么然后一体机是做什么对 MaaS 就比如说我把 Pixsick 或者前文 Lama 放到我的云上
然后用户就调我的 API 用户输入一些东西然后反映他一些 token 他最后怎么算账他用了多少 token 他又付了多少钱您可以看他不考虑你有多少台机器他不考虑你的机器是盲还是不盲
他最终考虑的就是他花了多少 token 所以说我曾经说如果真是这样的话马子层会把全产业链的亏损都会承担了比如说我是马子层我去 S 层就 S 层比如说数据中心 IDC 机房
或者一些算力中心我去拿机的时候它肯定不考虑我的机器利用率它都是按一台机器 8 万块钱卖我利用率是 0 它也是这个价格我现在我在服务 APP 去 MAS 的上层应该是 APP 层我的服务上层的时候用户也不会管我的机器现在是 100%占用率还是 0%占用率
百分之百占用率的话他也不知道他继续用那我就崩了这为什么我觉得真的很有可能需要 5 倍的计算资源当然我假设前提是不去限流你要限流的话其实你就限制了别人的 APP 的发展是吧我最终是希望我上层的 APP 去随便用的我假设我的机器是闲置空置的话用户不用我也没办法因为他是按 token 的就是我感觉 AI
这个中间层或者算力层核心就是在降低算力的闲置率不管你的产品是什么不管你的产品是 PaaS 还是 MaaS 最终核心就是要降低这个机器的闲置率因为所有的亏损都来自于机器的闲置率那我总结一下就是你认为 MaaS 这个环节它承担了最多机器闲置率的成本
因为它的上游就是 ICE 就是直接提供 GPU 算力的这些大型营产商它是按时间租给你的对吧比如说你租一年或者你租几个月这是上游到 MaaS 的这个情况然后 MaaS 再到自己的下游就是那些应用开发者就是那些 APP
它又是按 token 调用量来付钱的然后从一个 GPU 的时间的成本然后调到一个 token 实际上是我用了多少我才算钱的这样一个付费中间有一个 gap 然后这个 gap 就是 MaaS 这一层承担了对 这是第一点第一点它不利的点第二点呢就是我觉得对于中小云厂商而言呢 MaaS 真的没有技术壁垒为什么呢因为 SGLang VLM 它自 RT 已经优化得非常好
当然我也不会去自当说我的水平比阿里云或者火山云高但是他们不知道其实我最开始视频都说了如果阿里云火山云他们有个超级 APP 他们有庞大用户他们做的话他们亏损率肯定没有这么高但是对中小云厂商而言我觉得就是你的优化软件比这些世界一流开源大厂的方案好不太现实
其实你刚才说到这一点也是我本来就想问的问题你自己也说其实阿里云和火山云它也可以去做这一层的服务那为什么最开始会有第三方的 MaaS 公司存在包括像 DeepSeek 这种公司它也可以提供官方的 API 所以为什么有第三方存在反正大家都探索其实都是想找一些生存的机会那可以再来说一下你们现在在做的业务是什么就是你们主要要做的业务如果它并不是 MaaS 的话
我们做的 Path 其实我们公司的定位就是做私有模型部署就是帮助这些是有百强世界两千强包括中小型企业传统的去做出他的私有模型垂直模型行业模型就是现在叫 Poster Training 就是您可以想想我肯定不可能向越之安眠去收费我也不可能向零一万五百成智能或者通一大模型团队收费是吧他们有庞大团队他们有很好的优化技术人员
他们根本就不会是我们的付费用群体我们就是面向这个传统行业做私有模型
比如说通过一些强化学习通过蒸馏通过 SFT 去做自己的 CEO 模型行业模型的客户这是我们主要收入来源同时这些客户做完之后他再用我们算力平台上已经优化好的 instance 就相当于把这一块算力保留下来去服务他企业内部或者服务他的 APP 他的客户
我们提供的一套是算力平台我们的算力平台也是自动化的其实随着未来这件事就是用户传一下数据比如说一个公司它有很多报表有很多 PDF 文件每周它就把这些数据传到平台上最终我们的系统就直接自动化的帮他用这些数据去更新他的参数更新完之后自动替换他那个模型他内部企业就用其实是个自动化的平台
但是 2000 强的很多企业他们应该对 CEO 部署自己的服务器是有些要求的吧就是他们会接受云平台这种服务方式吗因为你的这个流程里其实要上传一些企业数据对这个云平台主要面向小微客户就是 2000 强卖的都是企业版软件就把这一套整个平台部署到的企业就比如说我们有个是有百强客户就买了 1000 张 A100 A800 的卡其实我们就给他部署到他的签卡继续上
如果是服务这种比较大的客户要在他自己买的 GPU 上去部署一个模型你们是远程操作就可以还是你们也是要派人去做这件事情肯定需要派人的但是得控制人力成本反正我们这套东西核心就是我们那套开源的 class of i 软件就把它做一个高配的企业版就相当于 class of i platform 就卖给他
所以它还是有一个交付环节只是说你们希望这个交付环节它尽量是控制人数控制投入对对我觉得服务中国市场肯定是需要交付的不交付是不太现实的那你们服务海外的大客户是怎么做了因为我看你们其实有两个网站对你们有一个海外的网站有个国内的
嗯海外是中小型客户所以你们现在的策略就是海外主要用云平台就是那个自动化的其实不太需要你自己投入的那个平台去服务中小客户对对台湾是主要服务中小客户对的然后国内就用企业版去服务大客户对是
这是你一开始就想好了吗还是你摸索了一段时间想好的其实我们也做了一些摸索吧去年呢这个模式就比较成熟了因为有段时间 MARS 确实是比较火嘛你们是思考过然后觉得这里面它就很难赚钱所以放弃了还是你们其实也有真的尝试过
对 DeepSeek 出来之前我们真的看过很多比如说最开始 Fireworks 的 AI 做过这件事情蒋经老师的 Lapton AI 也做过这个事情然后我在伯克利有一个师兄当时我的认可老师 Young Stoica
就是做 Databricks 那个公司我还当过他的 TA 他做了一家公司 AnySkill 他其实也做过这种 MaaS 其实最先让我们反思的就是 AnySkill 把 MaaS 放弃了我估计就是我上述原因包括现在 Together AI 它的主要收入肯定不是 MaaS 也不是 MaaS 它也主要是它的算力平台以及 GPU 输入服务时的收入的大头
当然 DeepSeek 出来之后我们当时看热情度比较高就非常想试一下我觉得试了一下跟我们之前的预想也差不多所以说现在我们就打算也不提供这种 MaaS 服务了 OK 所以你们当时你有那个言论是因为有 DeepSeek 这件事你又再次去考虑说我们要不要来做这个 MaaS 然后你试了之后觉得还是在你之前的那个判断里面就是你觉得这件事其实很难赚钱
所以你认为是自己有模型的公司自己做 MaaS 这个可能是合理的是的
是的我要不简单也说一下比如说昨天不知道您看到了没有说在 GPTGPT4.5 比 GPT 贵好多好多倍是吧贵 500 倍我觉得是合理的就是我可以阐述一下我的观点为了阐述这个观点呢我先引用一些事实当然也是我的观点吧我觉得呢现在咱们这 AGI 浪潮最大的工程是 Google 是谷歌公司我可以列举几点事实啊
首先咱们现在都是神经网络深度学习这个东西就是诺贝尔奖得主同龄奖得主杰夫·金腾教授做了好多年 2012 年刚开始崛起的时候也是他的团队做了 XNet 以及 XNet 的共同作者还包括 OpenAI 的首席科学家就是 Chad GPD 之父
当时呢,Jeffrey Newton 教授也说他坚持了几十年的 AI 寒冬因为也没有 funding 确实也比较痛苦当然大家也不相信神经网络这个东西刚开始爆发的时候他们也开始创业了最开始就是 Google 收购了他们公司就让科学家有了足够的经费有了足够的探索
包括当时吴文达教授也在 Google 的资助下建立了 Google Brain 这是第一点我们现在再回看现在我们所有大模型基本都是 Transformer 它是 Google 提的然后 BERT 非常重要 BERT 就让人相信 Transformer 是比 LSTM 就比 RNN 好的让人坚信了 Transformer 这个赛道 BERT 也是 Google 做的
现在 DeepSeek 和 CHI GPT 用的 MOE 也是 Google2021 年提的 Suite Transformer 包括现在强化学习很热门也是 Google 在 2016 年做的 AlphaGo 它让人看到了强化学习的实力包括 DeepMind 的创始人其实也获得了诺贝尔奖所以说我觉得 Google 首先是咱们今天 AGI 浪潮里边最大的贡献者
但是我们想想就为什么它是最大的贡献者我觉得就是因为 Google 是一家垄断性企业它拿走了世界上绝大多数的搜索引擎的利润它只有有充足的利润的情况下它才愿意在一些其他非核心业务上比如 AI 方向花很多钱去探索我觉得有两种市场第一种是充分竞争的市场第二种是垄断性市场
我个人觉得长期而言我们需要垄断型市场只有垄断型市场企业有利润他才能去真正做他的非核心业务投入足够的资源所以说我感觉今天这个 OpenAI 在 GBT 我觉得他的思路是对的他就应该去做垄断这是给他的 reward 是吧这是给他创新的奖励你这个可能又是一个暴露对
应该说比较特别的观点吧但是你刚刚讲的那个点就是谷歌它能获得这个垄断是因为搜索引擎本来就有规模效应和网络效应我的意思呢就是一家科技公司它必须得有一个足够垄断的业务足够高的利润它才能愿意探索跟它相关的这些行业这正因为谷歌在搜索引擎中有绝对的利润它才有足够的钱去探索 AI
但是现在 GPT-405 它定的这么贵它是 V3 的 500 倍就这件事情市场接受吗你要是不接受的话市场不接受你其实没有办法转化成你的利润没有办法变成利润你就没有办法去投入这就是愿赌服输的事情是吧市场接受了就说明它的技术图够好
就 OpenAI 坚信自己技术足够好的话我就是值这个钱我就应该获得这么高的利润我的垄断来源就是因为我的模型比别人实质上好很多如果一个市场大家整天都在打价格战没有任何人有技术壁垒那么没有人有能力投入研发资源我觉得就陷入恶性竞争了如果大家壁垒都很低大家整天只能靠打价格战我觉得是非常不好的
包括您看今天在国内对研发投入最高的其实也是华为华为有足够高的利润我看这不是什么坏事这就是对它创新的奖励我觉得科技也就应该做种垄断性企业你有足够高的利润首先这是对你创新的奖励我觉得第二点只有你垄断了你才会在一些跟你相关的前沿性课题上你愿意投入
那你想表达的是我想表达的是只有有顶尖模型能力的企业才应该去做 MaaS 就比如 OpenAI 它可以不受价格战的影响就是它有一个独占的模型因为我比别人领先我有溢价然后我再把溢价变成利润我再去发展新的东西对
就是先不考虑政治问题就是我觉得每个国家都会有一些国家上的战略不考虑我觉得非商业化的行为就如果我们仅考虑商业化的行为的话我觉得 OpenAI 做得很对我就是通过币源把我的利润赚回来这是商业化行为那否则这件事怎么持久呢我花了几亿去训练这个模型我这个钱什么时候能赚回来就纯纯从商业角度考虑我必须得多赚钱这是对我创新的奖励我的模型就是比别人好我就应该多赚钱
那你这是从一个领先的模型公司他自身的角度去考虑的那如果从整个 AI 生态的角度去考虑像 DeepSeek 这样他一直愿意开源自己最强模型的公司他是不是带来的一个外部效应就是说我可以让下游的应用有更多的探索 DeepSeek 这不是商业化行为是吧就是包括我看到有一些报道说梁文峰老师不是说也不在乎多少多少日活月活吗特别说明他就是有宏大理想的我感觉跟这个 OpenAI
OK 我感觉他是在商演商吧当然我感觉我是个普通人我就先在商演商吧对吧那我们如果具体来看就是 DeepSeek 今天他发表的这个概览性的介绍自己推理优化方法的文章他里面确实也提到了很多方法这些可能是能帮大家降低成本的包括他最近一周也是开源了很多工具嘛就这个里面你如果从技术或者说从提效的方法上你看到的一些亮点是什么
我就不过多评价 DeepSeek 了确实这个比较敏感我不想把自己放在 DeepSeek 的对立面我觉得 No Comments 不评论可能是比较好的一个选择是因为如果你真要评论的话你会觉得你的评论又和主流的观点不一样是吗我觉得容易犯错吧我的结论就是 DeepSeek 非常优秀它的团队不管是模型团队 S22 团队都非常优秀
那我问一些我自己比较感兴趣的一些细节问题就是比如说您说您之前用四台 H800 的机器去测的话就一台机器它是有八张卡你用四台机器去测得到一个实际的效果是每台机器大概每秒是输出 300token
然后我看今天 DeepSeek 在知乎上的这个文章它统计了 24 小时里他们的一个吞吐量其中数量是 73.7 tokens 每秒每节点也就是 73,000 多 tokens 输出吞吐是 14.8 tokens 每秒每节点就是 14,000 多 token 每秒那我们仅看输出量的话是你测算的情况的 46 倍多它为什么这么悬殊
你看我觉得这种东西没法深入讨论我要不是这样说我用的 sglan 或者 blm 太烂了我也不评价 divsync 但是我们实验中发现它序列长度变化的情况下它的每秒钟图的 token 数是不断是变化非常大的我可以稍微看一组数据我读一下您看其实它的输入输出 lens 变化的话
它的 output token 数是变化非常剧烈的有的时候甚至只能出 100 多个 token 有的时候能出 1000 多个 token 这是两机这是两个机器因为它这个是纯音频的我解释一下当我输入是 1000 输出是 1000 的时候它的表现是最好的
但是我的输入不变都还是 1000 然后输出让它越来越长比如说变成 2000 变成 4000 变成 8000 它的每秒图的 token 的数量都是在变少的然后你们最后的那一个例子就是我的输入也非常长是 32k 输出也很长是 8k
那它每秒就你们自己测下来每秒它就只有一百多的 token 的输出对我相信就是您把博客放出来肯定会有很多人说说这些数据它能做到更好之类的我觉得这个其实不太相关就它即便速度比我快两倍就假定啊它的水平一技绝尘它比 VLM SG LAN 这些人的水平高了两倍
我觉得 MaaS 关键就是它机器利用率问题是控制不住的在亚朗是离线的在线是非常混乱的我觉得真实的 MaaS 应该利用率是非常震荡的你真的气亮了之后有些用户在做反应有些用户在做摘要一些因素在做多轮对话它的序列长度都是非常长的
Input Lens Output Lens 都有可能或者我让他读一个论文之类的他有可能性能结果是非常难看的我觉得其实我还想说一点很多企业可能为了省成本他其实目前是在做模型阉割他写的满写板子可能用一些简直量化证据的手段
他其实把这满线板的已经做了阉割我觉得这是个纯技术问题我想请教一下就是我看到他们在博客里写到说就有一个项目是他们说要尽可能的负载均衡然后下面大概解释一下一些做法就他分这个 pre-fill load balancer 就是输入的阶段然后是 decode 的就是输出的阶段他这个里面都提到了核心问题是不同数据并行实例上的请求个数长度不同然后他
就会导致一些计算上的问题然后他们有一些优化的方法就是他这里说的不同数据并行实际上的请求数量和长度不同是您刚才指的就是我在实际用的时候我的输入量或者输出量它每个序列其实是有波动的是这个东西吗我给你就是我不想评价 DeepSea 的任何技术细节
抱歉但这个不算 deep-seek 的技术细节吧这应该算是一个大圆模型的就它其实就是一个输入和输出的一个知识性的东西我要不说一个也不针对任何人的就我们会有很多很多优化这优化呢很多就是在离线的机器上测的它有一些好的实验结果我觉得呢它不一定刚好在实测中都是它这种最理想的情况对吧
在现在你说的这个时间点你觉得 MaaS 这个服务它可能是很难赚钱的最近市场也有些变化就包括 DeepSeek 自己开源了这些东西其实理论上其他的厂商也是可以去学习可以去使用的你觉得再往下走的话这个 MaaS 市场会有什么变化了
就比如说出现什么条件的时候其实这个生意它有可能是可以成立的不是我觉得 MARS 应该让 CHIGBT 去做因为这是对它创新的奖励它应该收一个很高的价格去做这件事情这是对它创新的奖励就是类似 CHIGBT 这样的厂商那你说的这是一个阴染吗就是你觉得应该要对它有一个创新的奖励那如果从实染的角度去推理它可能会出现什么情况
我觉得如果有很好的开源模型的话大家就在这卷价格吧因为大家都没有模型的壁垒速度上又差不多就只能轮到卷价格了所以你觉得虽然有一些开源的东西可以让大家的效率提升但是因为开源之后可能每个人都能提升大家水平又都差不多了还是有点同质化你是这个观点是吗
是对我觉得就变成一个恶性竞争的市场我还是觉得 AI 应该形成一个巨头垄断只有他拿到足够的利润之后呢他才能像 Google 一样去做前沉性的研究当然我不是鼓吹让 OpenAI 占据啊中国肯定也需要一个这样的公司
或者一两家这样的公司吧但是 Google 呢它是一个非常特例它把整个全世界我感觉除了中国市场以外的自动引擎的利润都呢所以它才有这么广阔的胸怀我感觉人没有好人坏人就是我觉得人穷智短嘛你这个公司只有富只有足够的利润它才会能做一些宏大的事情才能有可能做成百年老店
你刚才说到就是 MARS 这种因为它的需求非常不好预测所以就是你也很难去就说我用一个比较少的机器就去满足比较多的需求其实这个也有点让我想到之前的云计算就云计算它最开始也是因为它这种弹性的特点也是让有些人觉得它好像不是一个可以成立的生意但是它最后其实还是成立了就如果说和当年的云计算相比的话这个 MARS 和它的区别可能是什么了
我觉得区别呢就是我感觉大多数云计算成熟客户他还是把这一块资源包下来了你没有机器的话呢你就用不了所以说你必须把机器包下来但是 MAS 的话呢我又不知道这个机器现在是满的还是空置的还是能不能用的就我如果机器不够的话随时又崩的风险那也有可能未来的商业模式会变啊就是有可能应用类的客户他也不是按 token 去付费他可能也是按一段时间我去租你这个东西付费
对很好那又不是今天这种 MaaS 商业模式了我的意思就是如果现在这种 MaaS 商业模式的话它只能流到卷价格会有很高的风险
那接下来你觉得就在你的观点里面更广泛的这个 AI infra 这个领域的创业如果说你觉得 MaaS 是一个很难真的盈利在商延商能成功的机会的话那机会是什么了我觉得机会呢就是帮助更多企业去做私有化大模型提升他们做私有化大模型的效率其实就是 AI 版的 DataBricks 就是我引用蒋亚青老师的话 AI 版的 DataBricks
其实就是面向世界 2000 强中国 2000 强客户面向中小型企业我们做一些中国市场东南亚中东日韩在你们已经接触的这个市场里面你看到的需求旺盛程度是怎样的我觉得还是非常火爆的因为这个市场它其实不太需要一个超大模型
因为它核心就是有个 LAM7B 那种能力关键是它有很多珍贵的私有数据基于这些珍贵的私有数据去把这模型做好就可以了
你刚才说你觉得 MaaS 是一个比较没有壁垒竞争可能会非常同质化然后大家去卷价格战的这样一个领域那你们现在选的这个方向你要把它做好而且你要有一定的溢价就是你要有利润它是靠什么呢其实就是靠我们的开源生态就是跟 DataBricks 的思路一样就是先通过开源生态去获得足够多的用户去使用然后再把这些用户转成我们的付费客户
那对你们的大公司类型的客户来说也是靠开源生态可以吸引到吗还是说他这个其实是要去拜访这些客户要有比较强的这种商业销售能力我才能 touch 到他我觉得两者都很重要吧首先你看生态证明你有能力做这件事情你的技术能力很好这对大公司来说非常重要他要选供应商你得总得有说服力吧再一个呢就是看销售的能力了
其实 VLLM 还有 SGLung 因为这是两个还挺主流的这种大模型的推理的开源生态就如果说它背后有一个公司的话其实它也可以做企业版是不是只是它现在不是一个公司它可以做对当然我们做的是 post-training 微调嘛
就是其实我们那个 Class of AI 就是在全球创业公司里边我觉得 Github 上指标还是最高的就在我们的细分赛道里你说在 Github 上指标高你是通过什么反应呢是主页的关注数量还是通过什么反应呢就 Github 的 Star 数 Folk 数然后 Dependence 数但是我看你们的访问量并不高就网站的访问量并不高
我们是大宗商品交易我的客单价都是 10 万人民币平均每年您可以想想我一年如果有 1000 个客户就是 1 亿了 2B 的肯定做访问量不会太高的因为它是大宗商品交易你要 2C 的话一个用户付 20 块钱每年或者付 100 块钱每年你需要 100 万个客户才是 1 亿
你看到的机会是做 AI 版的 DataBricks 去给客户搭建模型但 DataBricks 这类它算是超延公司比较大的他们的资源也很丰富去年也开了 100 亿美元的新融资他们自己就在做这个市场就也是去帮客户打 AI 大模型
那另一方面像微软阿里这类更大的公司或者一些很强的开源生态也完全可以去做这个业务那么 Infra 层的创业公司去做这件事的生存空间是什么呢那首先呢我们肯定还不是一个
很大规模的这个平台不是一个 AI 版的 Databricks 我们是想模仿 Databricks 这种路径从小做到大为什么呢因为我觉得 Databricks 它的开发平台前端就是帮助用户去做大数据处理应用后台就是用户的数据库
然后我们前端其实就是要帮助用户去做它的垂直模型自由模型后端就是 GPU 我觉得类比还是非常明显的我们其实为什么觉得这件事我们可做呢因为我觉得它足够细分足够简单我感觉创业公司不太适合做一些
超大型难度非常高特别复杂的这种产品我觉得肯定做不过大厂我们没有 100 亿美金那为什么我们这件事比较细分呢因为它只有三个点第一个点呢就是用户处理好自己的私有数据第二点呢就是开始微调比如说 IL 比如说蒸馏比如说 SFT 那第三点呢就是把它自己的模型做好了之后
去部署推理它可以企业内部去用也可以部署到自己的 APP 里所以说这三点功能非常清晰第一点我们可以依赖这些外部的工具很好的已经非常成熟了后两点就是我们的核心功能我们把它打通了之后它是一个非常细分非常清晰
我能够精准定位的产品这问题的第二部分就是微软阿里甚至 AWS 这些大公司有很强的开源生态 infrastructure 能力我觉得我们肯定是不跟他们去直接竞争的而我们的面向的客户也非常不一样我们肯定不会去做一个单子几千万人民币我们的客户大概都是十万人民币到一百万量级
那为什么比如说我们的海外版产品能在海外跟 AWS 或者微软与其竞争呢因为我们的平台上呢也有很好的 GPU 我们海外版的新加坡公司做的又有 H200 GPU 甚至有 B200 GPU 因为呢这个 GPU 呢就是最稀缺的资源在我们之类平台上然后呢我们再通过我们的 Closso AI 这个生态
把我们的 classware 用户引到我们平台上首先我的 GPU 价格通过我的优化或者我动荡压的成本把它压到最低目前大概比 AWS 微软云
比如说对一个东南亚中东客户而言大概低 70%我再通过 class of i 提供丰富的功能应用性去进一步提升利润率当然我强调一下只对中小型客户对大型客户可能不是这套逻辑所以说就是
首先客户定位不一样那同样的客户而言的话我们就用上述的可以量化的优势你刚才提到你认为 MaaS 本身的技术壁垒是比较小的有一个很重要的原因是一些很强的模型公司其实会自己做掉 MaaS 这一层然后到做 AI 版的 DataBricks 这个方向上就是帮客户去搭建 CIO 大模型
它的技术壁垒主要是什么了我觉得这个 MAS 层确实现在难以体现出技术壁垒那所以说呢我们就帮助客户特别是在中国市场啊就是帮助客户去做他的私有大模型行业大模型可以绑着一体机去卖那这样的壁垒是什么呢我觉得是我们出发的比较早啊
我们目前已经帮很多世界 500 强世界 2000 强客户都做了它的私有化模型部署其实这个团队还是积累了非常丰富的经验第二优势就是我们的开源软件确实在这方面可以直接备用并且这两点可以深深的绑定结合能够给用户一个最佳的私有化模型部署体验我觉得这是我们的壁垒和优势肯定是需要一定的时间加上一定的技术含量
你们自己接下来有些什么新的拓展的计划就按部就班的发展我们的业务其实我们也在做一个自己的视频大模型因为我觉得 AI infrastructure 领域这个大圆模型能做的事情已经基本都做完了不是我说那个 AI 基础设施因为它大圆就这个样子了感觉下一阶段可能重大突破就是多么太就是这个视频大模型所以说我们也会在组成方面去优化这些东西
效果好的话我就把它做成一个现金流的东西效果不好的话我就当做我的 infrastructure 我也可以把它开源让更多人去用我的 infrastructure 藏
你们就是想做这个方向是不是也是看到视频生成模型据我了解是这样就视频生成模型可能它现在的商业变现确实会好一些因为有些地方它已经可以当做一个工具来用对它其实交付的是一个产品是吧我生成的是一段视频是一个产品现在很多那种工作室一分钟的视频就要一万块钱了
因为路程是 21 年 9 月就成立了然后在你成立的时候其实离 ChadGBT 的火爆还有一年多 GBT3 就 GBT32020 年就开始火爆了当时我们就觉得这个机会非常好就是 GBT3 其实在 AI 圈里已经很火爆了只不过它没有出圈 GBT3 是 2020 年 6 月发布的对那你为什么当时没有想过去做一个直接做模型的公司相当于你比很多 23 年才开始做这件事情的人你是更早成立公司的对
对,因为我们就是做这个 AI 技术设施的,还是天然的去做这件事,我们最擅长。所以你最开始想的就是为 GPT-3 这一类语言模型去做一些系统层的优化,看有没有一个创业的机会。其实就是帮助别人做私有化的 GPT-3,就是我们相信就是 GPT-3 它是一个很聪明的孩子,他需要学习一些专业知识变得更好。
就你本身的厂商是 Infor 去做这个视频生成的话它需要补充什么新的能力因为你说最开始没有去做语言模型是因为你觉得还是 Infor 是强项吗我们现在有几个非常高水平的博士生他们从新加坡国家大学毕业之后加入我们公司了就刚好补充了我们算法数据等能力就是如何设计这个结构设计这些优化算法如何这些处理数据我现在进了一批非常优秀的年轻人
最开始如果李开复老师的团队没有来联系您的话您会想在那个时间点创业吗我觉得可能也会吧很有可能也会我的当时在实验室的时候就感觉博客里很多老师其实都会选择去创业因为我觉得这个东西最终能够形成生产力做成产品它才真正形成了闭环我其实感觉学术界还是有很多问题吧
就是现在最好的技术都不是学术界做出来的 AI 方面是吧都是 OpenAIGoogle 做出来的就感觉比如说就是您投一些论文学术界总是就当时我们做那些优化算法非得要一些证明但是 AI 就是非突优化难 convex 它其实就证明不到到收敛
对我觉得一方面是确实工业界做了很多很厉害的成果另一方面是学术界其实有一些很好的想法但是你可能缺比如说算力的资源或者数据的资源去让这个结果变得非常直观就大家去评判一个东西最直接的还是看你最后效果如何能否 work 吗
另一方面可能学书界有些前瞻性的想法你现在是不太能直观地看到它的优势关于 MARS 还有你近期言论引发的一些风波你最后还想表达什么吗我想表达的时候其实我最开始就抨击了一下中小型云场然后我也不知道最后引发这么多舆论关注我其实昨天都不太想关注了偶尔看一下知乎有人发了个帖子我就回应了一下
就是当你去发表一些其实不太主流甚至有的人会认为不太正确的观点的时候你心理压力大吗没有啊无所谓啊这不是我的看法吗我觉得技术上商业模式上我觉得只要没有什么特别敏感的就大家应该广开
这样才能把这个问题讨论清楚是吧就我其实这两天不太高兴的事情就是好像我现在跟 DeepSeek 在对着干我真的不是那个意思我是抨击中小型云厂商在吹嘘自己
赔本专要货在吹嘘自己加速多少倍我是说这种他们做的话呢非次义您如果看一下我的视频我最后说了中小云厂商投入 100 块钱只能收回 1 块钱就是说更多大厂去做的话呢他投入 1 块钱可能是收回 30 50 我绝对是说过这样的原话的你刚才说只是我们接这个视频之前有很多人给你打电话也是跟今天的事情有关吗还是其实是别的一些事儿是的
是不是投资人找你了不是倒没有其实也是一些朋友在问因为我觉得我没有跟 DeepSeek 对立是吧其实我就不想抨击一下中小型云厂商去卖 DeepSeek API 然后夸大数据的这件事情对吧就是肯定我估计未来几天会有很多人对我人身攻击但是我感觉我也不打算回应了就是我觉得很多还是噪音
那今天谢谢尤老师做客和晚点聊我觉得至少你是比较愿意的来表达一些你自己的观点然后来回应一些事情对对是然后大家对这个事就是有不同的看法我觉得也都可以在评论区讨论但是确实尽量就是我们不要人身攻击那当然如果你认为你讲的是事实的话那你可以讲事实好谢谢好的好的那尤老师再见
下期再见