We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode DeepSeek深度解读|走私显卡蒸馏OpenAI,天才少女550万美元打落美帝万亿市值?

DeepSeek深度解读|走私显卡蒸馏OpenAI,天才少女550万美元打落美帝万亿市值?

2025/2/8
logo of podcast 李自然说

李自然说

AI Deep Dive AI Chapters Transcript
People
李自然
领导Bootloader,专注于AI技术转化和商业化,成功协助多个出海团队。
韩东
Topics
李自然: DeepSeek的崛起对英伟达的市值造成了冲击,并在全球范围内引发了广泛的关注和讨论。然而,随之而来的是各种质疑和争议,包括被指责为套壳OpenAI,模型蒸馏自OpenAI,甚至使用走私显卡。这些说法在网上广泛传播,但真假难辨。我希望通过这次直播,能够和大家一起探讨DeepSeek的真实情况,以及美国对中国AI行业的限制会带来什么影响。 韩东: 我认为DeepSeek是否套壳OpenAI需要更专业的鉴定,不能仅凭一句“我是OpenAI的模型”就断定。现在的 Frontier 模型或多或少会从其他模型得到一些 Input,但这不代表整个就套了别人的壳。另外,DeepSeek的技术报告提到用80万个推理数据样本,对千万和拉玛做了一些蒸馏。DeepSeek用R1生成推理数据,蒸馏出学生模型,效果比直接对模型做RL还要强。DeepSeek开创了一个很有想象力的方向,用不多的样本数据做SFT就可以把蒸馏的事情搞得更加成功。 李自然: 我觉得DeepSeek大概率不像套壳,因为Gemini也可能拿了中文的数据,Cloud也说自己是ChallengeVT。而且,网上很多人怀疑DeepSeek的技术,说DeepSeek是不是套壳的一个东西。但我觉得,DeepSeek的技术文档有很多针对H800芯片的优化,几乎榨干了H800芯片的所有性能,包括带宽利用率达到理论值的95%。所以我个人倾向于DeepSeek是在H800上面训练出来的,而且换方囤卡时间很长,用走私卡的可能性不高。

Deep Dive

Shownotes Transcript

最近 DeepSeek 是一家在风口让肩上的公司因为这家公司的模型做得比较成功首先带来了在美国那边万亿市值的破灭仅因为拿这家公司就跌去了 6000 多亿而且这家公司在全球范围内都引发了非常广泛的

讨论和关注我前天的时候应该是我看了一下在 App Store 的排行榜里面呢最有行情量的那个榜呢是 App Store iPhone 的免费榜现在 DeepSync 在 149 个国家里都登上了第一名这个呢应该是以前 TikTok 也没做到过的事是非常破纪录的一件事啊

但是随而而来大家对 DeepSeek 还是引发了很多的讨论和争议比如说有人说 DeepSeek 是 talker OpenAI 有人说 DeepSeek 模型是从 OpenAI 模型里面蒸馏出来的有些人还宣称自己从代码里面得到了一些证据而且还有人攻击 DeepSeek 说 DeepSeek 用了走私的卡在美国那边包括政府一些政客还有一些

AI 的从业者吧,一些公司的 CEO 什么的都想让美国来制裁 DeepSync 包括对中国更严格的芯片的禁运以及这两天也看到一些新闻在美国一些州已经不允许政府的一些部门的人装 DeepSync 这个应用了嘛这个其实和之前 TikTok 也是蛮像的为什么今天我想开这个直播和大家聊这个事儿

这个里面的各种谣言传言特别多这里面呢有很多是利益相关的人就是 AI 行业的人还有一些这个政客什么的在美国那边这里面呢还有很多就是一直都比较反对中国的那一群人还有呢就是一些不懂装懂的人这群人呢可能只听说了几个名词什么征流啊什么的然后就到网上去发表一些言论什么的

而且还有一些高流量的网红在里面反正都挺离谱的我前两天在朋友圈里面看到一个我 AI 行业里的一个朋友他是搭段子转出来的

就说 DeepSick 被美国攻击中国中美网络工坊经历了惊心动魄的 72 小时这里面华为阿里腾讯 360 这些公司都暂时停下了互相之间的竞争同仇敌忾大家一起来帮助 DeepSick 抵抗美国的攻击

怎么怎么样然后在底下的评论区里有个人说这个说的太好了我儿子就是参加战役的其中的一员然后啪啪啪很多人给他点赞什么的就感觉特别的离谱而且不光是中国这边挺离谱的就美国那边很多言论看起来也蛮搞笑的就比如说在推特上面我看到有人说这个中国能搞出 DeepSick 来是因为中国的教育体制比较变态搞得学生呢除了学习别的都不会不像美国那么自由就是学生得到很充分的发展这个我觉得

老美现在对自己的大学都不自信了吗对吧就是因为我们中国人的话说不是应该更加制度自信一点吗对吧反正这个里面就引发了大家特别大量的讨论吧说什么都有

而且里边的谣言传言也特别多那今天呢这个直播就想和大家聊聊这个 DeepSeek 究竟是怎么回事啊就是 DeepSeek 究竟有多牛就是他为什么能做到这些事这个 DeepSeek 能做到这些事情呢他背后的原理大概是什么样的然后呢这个在美国比如说对中国搞这个卡的封锁啊禁运运行业这些东西这个对 DeepSeek 一对中国的 A 行业这个影响究竟是什么样的

然后今天在我们视频里这个直播呢大家也可以提问对吧就是所有的问题呢我们都争取能够给大家说的比较清楚因为现在这个网上的各种传言比较多就我希望咱们视频的成员呢基本上都有一个正确的观念对这个事对吧这个事呢大家可以以我为准这里呢以我为准说的并不是说我说的都对而是说呢

首先我这个频道还是有很多专业人士比如说我以前曾经说过一个讲会员的视频那个视频里有一些不太正确的地方后来会员的前 CEO 给我打了个电话说你说错了一些东西后来我又处理一期视频更正了我是愿意改正错误的一个人还有就是我是有

AI 和商业尝试的一个人还有呢就是我们公司自己的一些应用就包括 iFay 还是包括一些其他的产品其实我们从去年 5 月份就接了 DeepSeek 当时是 VR 的模型其实是属于第一批接入 DeepSeek 的公司就是我们对 DeepSeek 有一点了解的当然当时 DeepSeek 没有现在这么厉害但当时很便宜就性价比很高然后呢当 DeepSeek 的 V3 和 R1 出来之后呢它的这个技术报告那个英文的文档我这边也都看了

而且我今天还邀请了一位非常厉害的也是我的一位好朋友贺维奇和大家聊这个事因为我就是一臭搞应用的不能说搞应用的人都不行搞应用它有很多搞应用的技术但是我今天邀请的这位嘉宾朋友他是课班出身的做 AI 研究很厉害的一个人 09 年的时候就在 AI 的鼎会 STV 上就发过文章

他是本硕毕业于德国马克思普朗克研究院计算基础在出国两位福尔兹得主的德国博恩大学的数学系读的博士

他所在的实验室以前也多次拿过 AmbitionNet 的世界冠军然后我的这位朋友之前还在马普研究院的计算机所然后德国人工智能研究中心以及失乐的欧洲研究院很多全球顶级的机构在研究 AI 这个事而且后来他也有自己的创业经历创办过自动驾驶的公司也创办过大木型的公司他当时拉着 OpenAI GPT

这个创始团队的成员以及和一些在谷歌里面做大幕秀的人一块做大幕秀这个事但他现在呢是关注这个应用层更多一些啊我说以我为主主要是相对那些传谣言的人以及其他的没有那么专业的资名体来说或者说相对那些装逼网友来说可以以我为主啊这个并不是说我们说的都对只是说我们呢有一些这个这方面知识这个这里面呢有一些推测那我们起码是一个合理的推测不是乱讲对吧嗯韩东你要开摄像头吗

韩东和大家打个招呼韩东以前参加直播应该比较少啊比较少参加直播是吧我和韩东是非常好的朋友啊我们认识应该是 18 年吧然后我第一次这个滑雪也是和韩东一块去的啊在日本的时候到后来我们基本上每年吧都出了滑滑雪什么的然后在雪道上滑滑雪滑累了就一块喝咖啡聊聊 AI 什么的就是想想挺有意思的非常多年

非常好的朋友其实是要不然我们大概先给大家说一下 DeepSick 这家公司的背景吧 DeepSick 在我的理解呢它背后的这个换方啊其实就是一个老牌的 AI 公司就他说是做量化的但其实他只是把量化做成 AI 的一个应用场景啊他的老板这个也是很极客的一个人啊然后他电话基因做得非常好就是做到了中国前几名的很厉害的一个位置所以说呢他是一个

搞 AI 的然后又找到了应用场景就是做量化嘛起码是最近这些年都是比较赚钱的一些公司然后其实这家公司呢囤算力也囤得非常早就十年前就开始采购 GPU 了然后我记得是六年前的时候他把两亿的利润全都买上了卡然后当时搞那个萤火一号嘛然后他在 2022 年的时候就当时囤 A100 就有一万张卡了所以说在中国这个搞大部分训练里面呢他们是第一批就是手握万卡进场的人并不是说后来才搞 AI 的人他们其实真是很低调一直在这个行业里面

搞 AI 的这样的一群人而且我觉得这家公司最有意思的是它这个的目标写得很有意思它不像很多的搞 AI 大模型的公司动不动把 AI 和人类的这个命运联系起来什么的我觉得这家公司目标它翻译过来是那个用好奇心来揭开 AGI 的神秘面纱这句话我觉得特别是有极客精神的一句话就是说我不是把自己要摆在一个为人类做什么事或者说扯一个什么大旗这种对吧我就是因为好奇想研究技术所以搞 AI 这个事这我觉得特别有意思的一个事

他现在搞的两个模型就是一个叫 V3 一个叫 R1 嘛 V3 的话呢这个我们后面会解释啊他特别便宜然后他训练成本特别低然后这个 R1 的话呢就是性能特别高我记得我们大概在二三年的时候有开始看那个 TIPSIC 第一个模型的那个论文就他的那个技术报告当时可能也没有特别当回事吧然后到了

2024 年年中应该开始有它的 VRVR 应该也不是特别的出彩反正就是看了一下然后年底到 V3 确实就很不一样了这个有点像当年 OpenAI 对吧就是 GBT-1、GBT-2 其实都没有特别多的反响到 GBT-3 一下子就火爆了当然它当时最大的这个是把 GBT-2 的那个

可能才几十亿参数一下子拉到上千亿参数然后整个的效果就不一样了我还记得 23 年的时候当时为了公司募资什么之类的好像还跟换方聊过因为当时他们也刚开始搞吧还没想好到底自己搞还是投资但后来他们应该是决定就要自己搞嘛

就是网上很多人怀疑 DeepSeek 本身的技术嘛说 DeepSeek 是不是套壳的一个东西然后呢也有人在 DeepSeek 的模型里面就问嘛说问 DeepSeek 本身你是谁对吧这 DeepSeek 的时候会回答我是 OpenAI 的 GPT 什么的

这些人呢就好像抓住了证据一样说所以说 DeepSick 是一个套壳的这么一个东西呃现在基本上这个就是 Frontier 的这些模型公司出的这些最这个 sorta 的模型其实或多或少都会从一些呃其他的模型当中会得到一些呃

然后这些 input 很有可能就是会在你跟这个 chat 模型交流的时候有时候就在 influence 的时候就出来了但不代表说有这个结果就证明它好像整个就套了别人的壳有没有套壳其实这个是一个比较需要更加专业的去鉴定的一个事情我觉得单纯只是说他随意说了一句这个我是 divine 的模型或者我是 open-eyed 的模型不代表说他真的就是完全套壳了别人我觉得

也不像啊大概率不像因为我以前用那个 Gemini 的时候 Gemini 也这个用中文的话他可能也拿了中文这边不知道谁的数据他会说自己是文心语言嘛对吧然后就是我之前和 Cloud 聊的时候我问 Cloud 你是谁他也说自己是 ChallengeVT 这里和大模型的是不是训练的原理也有关系就是其实大模型本身并不知道他自己是谁嘛对吧他只是根据这个他学习的语料来判定的嘛大模型他自己是怎么被训练出来这个概念他没有的其实对吧

目前感觉应该不是特别清楚等到现在清楚了感觉也挺可怕的了对对对对对对然后呢这里面还有一些人就说 DeepSick 他只是调用了这个 ChatGPT 然后背后 ChatGPT 再输出码然后 DeepSick 里面把结果再微调一下反正这种说法呢就很离谱了对吧首先这么大规模的这么用 ChatGPT 也不可能嘛就是这个其实我觉得

我们也不需要再解释太多了对吧因为你这么去问的人对这个大模型本身的了解就非常少了对还有讨论的比较多的一个问题就是究竟有没有蒸馏 OpenAI 的一些模型什么的我觉得首先蒸馏这个词大家很多人就是

有一点万文生意的理解而且这个词毕竟是一个稍微有一点点专业的一个词很多人他学会了这么一个词多多少少就有点想装逼到什么地方就说征流说什么的就好比以前我记得在抖音上面有一段时间大家刚学会了套壳这个词然后他们看哪个固化线都说是套壳出了一个模型

一般我們理解的真 6 是指教師模型的 teacher model 到 student model

把它的知识增留到增留小了变成一个小模型之后它同样可以保留大模型的那些能力参数量变低了就是一定程度上整个推理更快成本更低但是它同样具备那样子的就比较强的推理能力就我们刚才讲的可能是一个学术界的定义但是在工业界里面有可能你就 A 公司的模型只是用 B 公司的模型做了一些

推理数据的一个准备对吧然后拿这个推理数据来做 SFT 那你也可以说他从 B 公司的模型针溜知识了那这个针溜跟我们前面说的那个从老师模型针溜出一个学生模型其实完全是两个概念如果说一个大模型要学习比如说它是一个训练视觉的一个模型想从这个动物里面把狗分辨出来

我们有一些训练数据嘛就准备一万张照片给这个大部分人看那这一万张照片呢每张照片都有一个标签嘛然后来告诉我这个究竟是狗还是不是狗让 AI 来学那 AI 呢就能在里面自己来总结学习的规律嘛有些模型在训练比较好之后呢

这个就有一个老师模型嘛他已经比较熟练的能识别狗这个事了对吧然后呢他就可以这个告诉这个学生模型这里面的概率分布比如说呢还是这一万张照片他在交给这个学生模型的时候他就可以给学生模型说比如说这张照片呢我拍的影有 70%是狗因为它具有狗的这个耳朵和尾巴都长得比较像

然后这张照片有 20%的可能性是狼因为它的毛可能是灰色的毛和狼比较像还有百分之可能性是狐狸因为它可能尾巴比较粗

这样的话学生模型不光是能够从照片上指着告诉他一个答案是狗还是不是狗而是说老师模型告诉他这里面的概率的分布所以说这样的小模型同样是学一万张照片的时候在他学习能力没有这么强的情况下他就能建立更好的一个特征的理解这个应该是比较传统的征流的概念就是从一个能力比较

强的老师模型把能力传送到一个能力比较弱的学生模型的这样的一个过程可能我现在这个比喻有啥问题吗没有问题很形象所以说如果我们从这个概念来讲 DeepSeek 是不是一个从 OpenAI 那边征流过来的话首先我觉得 IE 肯定不可能是一个学生模型因为它

首先从能力上讲它也对不上一般来说这个学生模型的能力都是比老师模型要差的 R1 的能力明显非常强哪怕它比 O1 来说某些性能甚至比 O1 还要强而且呢这个时间上也对不上就是 O1 发布才四个月就是它要搞蒸馏它也没有这么快不管是从时间上还是从能力上来看吧它都不符合我们 AI 行业讲的蒸馏这个概念啊就是至于刚才说的那个确实现在很多人可能有些滥用蒸馏这个意思啊就是它可能是用了拆机的一些输出的结果

这个能不能定义成蒸馏呢?反正肯定不是我们前面讲的 A 行业里面讲的蒸馏的概念而且我觉得用别的模型输出结果还是比较普遍的一个事儿啊就如果我是一个大模型的 CEO 的话我肯定是不计一切的代价想提升我这个模型的能力嘛所以说用其他模型的输出结果来做一些判定啊或者说来做一些类似学习之类的东西其实是非常普遍的一件事儿

而且呢对于这些指责来说目前还都是处于很缺乏证据的一个状态所以说起码我们从证据这一段来看也不能支持 DeepSeek 就是征流的 OpenAI 这边的东西我觉得是的它的技术报告里面应该提到的它是用啊

80 万个这个推理数据的样本然后对于其他的几个开源模型就包括千万和拉玛做了对吧做了一些整流那它在那部分的整流其实它的这个推理数据其实是通过 RE 去生成的嘛然后再去

试图把更大的这个所谓的老师模型把它蒸馏出这个学生模型出来但是它蒸馏出的这个学生模型效果还特别强一定程度上比那个你直接对那个模型做 RL 还要强很多所以就是

一定程度上开创了一个很有想象力的一个方向就是说用不多的样本数据然后做了一个 SFT 就可以把蒸馏的事情搞得更加成功因为之前其实一直对于蒸馏如何很有效其实是还不算很成熟就他这种蒸馏的方式其实还挺成熟的他的论文相当的开放就是说把整个他做了什么然后甚至于还有一些他尝试过的不太成功的都讲出来了对吧其实是一个非常

非常开放非常鼓励交流的来鼓励使用的这么一个态度我觉得挺伟大的挺厉害的

反正从 R1 的那个论文里面看它其实不是把别的模型蒸馏成了 R1 而是把 R1 自己用它的能力来蒸馏了像那个千万拉玛这些模型而且给这些模型的这个能力提升都蛮大的我记得可以让他们大概在 7B 的一个模型就能达到原来 32B 模型的性能就是是用 R1 用蒸馏的方式来提高其他模型的性能而不是说 R1 是 OpenAI 蒸馏出来的这个应该是这样的一个事情

对对对而且从技术上去讲就是其实你如果真要去蒸馏一个模型你光得到它的类似这种 CHART 模型的一个输出其实还是比较难去蒸馏因为你更需要的是它的中间状态嘛就包括它的这个 Token 输出的那些分布那些严概率分布一起的对吧那样子的结果其实就 CHART GPT 肯定是不会

就是 O1 其实是不输出的 GPD4 的接口应该是可以输出这个概率分布的但是你大规模去调用的话也不太现实就是它肯定会封你接口所以其实现在大规模的去针灸它的知识其实是不太现实的

就我觉得如果你只是像应用层一样调用 API 的话它只是给你一个对话的结果嘛这里面其实并不包含概率分布的信息嘛就是并不包含我刚才说的那个你判断这个狼为什么它不是一个狼对吧它只是告诉你这是一个狼就完了这是一个狗就完了然后但是对这个大模型的提高学习能力来说其实最关重要的是它需要告诉你的这个概率分布嘛你要想问到它这个东西这个并不是说你普通的调一下 API 就能拿到这个东西的嘛所以可能还是比较难的

然后而且你打规模这么高肯定 OpenAI 也会发现嘛也会做出一些防范的措施什么的毕竟对 OpenAI 来说还是比较核心的一个东西它肯定也不希望自己的模型轻易被变成这么高嘛

还有一个我在网上也看到的关注量很多的一件事有些人他好像懂一点点代码但其实又不会然后他看到了一个事在 DeepThink 的代码里面有 import openAI 这么一行然后他就说你看代码里面都写着 import openAI 所以说他肯定是超 openAI 的反正就是说有很多人都不懂对吧

这好像确实是写在代码里面的一个东西但其实真正它确实有 import openAI 这一行但其实像 openAI 它实际上有一个开源的 SDK 像 openAI 还是 AI 行业里面最领军的一个企业很多 AI 公司在摩托车上都是配合 openAI 的一个规范就是这样的话你来给大家提供 API 接口的时候就用 openAI 的规范来提供这个接口

这样的话这些应用层的公司比如说想接你的 API 了你的 API 的格式和 OpenAI 是一样的它也比较方便你做了一个 OpenAI 的兼容性的工作我的感觉也是一样的 主要是兼容性也不太可能说你就多了一行 import OpenAI 好像就把 OpenAI 就整个 import 进来了对吧 哪有那么容易如果真这么容易做弹幕型太爽了简直

现在也有很多的指责说这个 DeepSeq 这边是不是用了走私的芯片在美国那边有很多人也呼吁就是加大对中国里面芯片的禁运什么的但我看 DeepSeq 的技术文档里面其实有很多的优化还是很明显的就是针对 H800 这个芯片来做优化的我记得当时它的这个带宽利用率能达到理论值的

95%就它几乎榨干了这芯片所有的性能我记得有很多的优化的措施包括它量化的策略精度的控制包括它并行处理包括它四个节点的限制这些都是根据这个 A1800 的参数来调的就是因为 A1800 是在显卡之间的带框上面做了一定的基间隔就是 NVLink 和 IB 这边然后它这个比例也是根据这个东西来调的

如果他不是为了 H800 的话他这些工作就没有必要这么来做嘛所以我个人还是比较倾向于他就是在 H800 上面训练出来的就而且即便是换方这边就手上有很多的卡也不奇怪因为其实我前面说过他其实囤卡这个事囤了时间还蛮长的是不是用走私的卡呢说这个话的人也没有证据其实也是猜了但我只是从这个技术报告上来看以及他的历史上来看好像这种指责的

可靠性也不高他的报告里面其实也写了对吧他是大概 2000 多张 H800 来做的训练包括它的整个的成本以及说它的囤卡的时间线像我们知道他很早买那个时候 A100 V100 可能都卖了不少然后后来 H800 本身就是为中国特供的然后 H100 是直接出来就禁运的所以他确实就是主要是靠 H800 去训的

然后你刚才提到就是关于那个 IB 和 MVLink 那一块的那些通信的效率其实他自己去做了那些工程的部分优化就是针对这一点的所以一定程度上我觉得他其实把 H800 用成了跟 H100 一样了你可以这么理解因为他突破了那些通信的那些效率的限制然后他通过他的很多的极致的优化把

通信计算这些一定程度上更好的优化了起来它的效率我记得是说比普通的就是说最前沿的大模型公司训练的效率还要再高可能 1.5 到 2 倍这个样子所以还是很惊人的一定程度上它也是被逼的就是我看到一个说法比较有意思就是说用东方魔法打败了这个

西方的禁运因为也是没办法的这些方式都能够想得到同时能够把它实现了而且多点去实现其实还是非常非常难的相当难在美国的那些 AI 公司因为他们首先第一也有钱第二他买卡可以随便来买当他们遇到问题的时候就可以给英伟达钱来解决他们遇到的问题但是像华方这边他没法通过给英伟达送钱解决问题他就只能去想别的办法了

也可以这么理解就是你放到具体一家公司里面你确实会这样想在你不缺算力的时候就是你有很多钱你可以买无限的算力的时候那你大多数精力就确实会花在 scale 你的模型上面对吧然后更多的获得你的能力因为对内还是

对团队还是对外对资本市场对客户你都在讲一个更宏大的故事因为算力你已经获得了你通过更大的故事然后再去变现再获得更多的算力然后再去做所以它的重心确实就不在这个怎么去做工程的优化我记得 V3 刚刚发布的时候 Entire Capacity 就发过一个 X 当时就说 Deep Seek 这个这种做法

很明显看出来就是说大家都在谈论需要更多卡才能解决问题的时候在解决更多工程上优化的时候其实是可以更有效的去 scale 的就不一定要通过更多的卡因为你的卡更多的时候其实你也带来了一些新的问题因为你要把一个就比如说万卡集群连起来那问题多得去了你现在还搞十万卡对吧那也是很复杂的工程问题一定程度上

也很难搞所以说当 DeepSeek V3 出来的时候它主要是训练成本低到让行业里面的人非常震惊咱一方面是 DeepSeek 它确实做了很多很优秀的工作另外一个就是这其实也不是西方主流的 AI 公司努力的方向就是他们其实并没有想披荆权力来降低训练成本因为他们就有钱给 Amelia 钱就行了对吧一方面是你做的好另外一方面人家其实确实也没怎么特别想干这个事

所以说在这两个作用共同的结果下就显得 Deep Seek 特别厉害特别便宜对对对当然本身我觉得有些比较显而易见的一些差别就是我们这边毕竟算力相对美国其实要便宜的

然后人员价格也低对吧然后人才的脑力加勤奋程度其实就脑力肯定是跟他们差不多的然后勤奋程度肯定是更高的所以整个整个加起来其实让我们的资本效率还是要高了不少最近这段时间 DeepSeek 的 API 好像一直都有问题就是不能用了嘛最近然后也有人说是不是因为美国那边的攻击什么的就是也有可能有攻击但是主要原因我个人猜测也是一个

有一点也是我可能也比较担心的就是说啊

毕竟要提供这么多的算力出来然后让大家免费去使用其实这本身也是一件不太能够持续的事情所以我也担心哪一天说用不了了怎么办对吧大家都用上瘾了现在确实很好用厉害这种免费的模式因为以前它毕竟是一个偏小众的东西偏小众保障的一个东西

可能 AI 圈的人用,但这圈的人也没多少,也是以普遍中国人为主来用在中国这边,其实更大众的 AI 用户还是用什么豆包呀,这些可能用的更多一点然后用 DeepSeek 的其实本来人没那么多,但现在这么一出圈大家都用而且不光是中国人用,全世界的人都用,那这个事怎么持续呢?我是不知道,好像持续不了

是的,感觉这个得有人去支持这个算力的部分对,或者是以后新注册的人得收费,或者怎么着,这就不好说了对,我看到他好像在那个经历过攻击之后一段时间他是只允许用中国大陆手机号验证

或者好像是说可以跟 Google 账户做连接用 Google 账户来验证才可以使用防止了一些攻击吧大概是所以可能后面是加了一些门槛

咱们也聊聊为什么 DBC 不会受到这么广泛的关注就首先我觉得是不是和让美国那边万亿市值的破灭也有一定的关系毕竟你说 DBC 这家公司如果我们真的从资本上角度说你说这公司能值多少钱呢但是它模型一发很明显英美达那边跌了就几千亿美金就整个美国股市相关的公司跌了也得有上万亿美金的上万亿美金这放在任何一个国家都是很了不起的一件事对吧那这个还是很恐怖的

很夸张的还有就是我觉得像 V3 出来的时候大家可能像美国的人还只觉得你们中国人搞得很便宜对吧这是一个成本的问题但是 R1 出来之后他们是真的有慌了的感觉因为感觉以前比如说像 OpenAI 它能在业界还能保持领先地位的我觉得很重要的一个原因就是以前 O1 是唯一的推理模型接待公司没有这个东西嘛

那现在这个 DeepSeek 的 R1 搞出来之后它就不是一个独一无二的存在了对吧对欧盟人来说就好像觉得你也不过如此对吧就其他人就也可以来附现你做的这些事并不是说别人搞不出来这个东西

对 影响挺大的我觉得打破了很多过去的叙事我觉得一方面就是大家已经认可就是说这种推理模型极难哪怕连第一梯队的公司到目前为止也只有 OpenAI 有对吧然后 Astrobic 也做不出来 Google DeepMind 也没有

但是 4 个月之后 R1 出来了然后没比欧网差对吧我觉得至少是欧网的平替问题不大而且它还免费且开源这个太狠了像你刚才说的就是

DeepSeq 值多少钱我们不知道但是 OpenAI 值多少钱我们是知道的你本来可以以那么领先的一个模型收很高的费用的但你现在一下子你的这个领先的差距没有很大了那你还能不能收那么多费用而且你还是币源的那有一个开源的平梯的话那可以想见绝大多数开发者

做应用的人都会基于 DeepSeeker R1 去做应用而不是基于 O1 去做了因为又便宜又可以私有化部署对吧就所有的优势都被他占了那 O1 以后怎么办然后软银最近本身要给 OpenAI 投一大笔钱的那估值到底要不要重新算对吧带来很多新的问题

然后我觉得这个影响太大了对 我觉得这里面有两方面的影响一方面就是对于美国这些大模型公司来说以前他们那个估值的逻辑就整个的商业模式的逻辑感觉都不能自圆其说了的感觉这些公司都估值这么贵然后都需要这么多钱然后现在看一家中央公司人家根本没花多少钱然后也能做这样的事那你们这估值是拿什么来支撑的呢就我为什么要投这么多钱投

这样的公司呢这些公司以后的融资怎么办呢然后以后的商业模式怎么办呢反正我就觉得整个带来的可能是一个比人们想象中还要就是这可能是这些 AI 公司的 CGO 在担心的事啊最近如果再去看一些外媒关于这个 AI 就是大元模型这方面的一些最新的报道你会发现 DeepSeek 出来了之后只要他们提到这方面的最新的事情肯定也会把 DeepSeek 放进来说了这样子的待遇

之前哪怕是阿里的千万这些做的都不错的模型但是从来没有被他们真正去提及过就像最近我知道 OpenAI 那个 CEOSam Altman 又要开始一个世界旅行然后去一些日本韩国法国参加一些 AI Summit 什么的为 OpenAI 募资包括你能看到的像彭博的新闻上面就会说就是

这个 tour 背后就是因为面临着 DeepSeek 巨大的压力这些就是过去你很难想象一个中国的突然间一个小公司给他们带来了这么巨大的压力这个还是非常明显的包括当时我记得 R1 刚出来的时候 X 上面就有人说无论是 Stanford 还是 MIT 的那些研究员学生 学者 工程师 博士们都开始部署这个 R1 了

它的这个可用性然后确实是不需要去怀疑的我觉得现在 impact 很大我觉得还没有释放完感对而且我觉得它这个就是不光是打破了这些美国这些大模型公司的融资估值以后的这个讲故事这些方面的东西另外一个就是从底层也打破了就是动摇了他们的根本可以说是因为这些应用层目前就身体很诚实的还是虽然

美国的像这些搞大木星的公司的 CEO 就经常出来踩一下 UCX 什么的或者说阴阳解去酸一酸但这些搞应用层的人身体很诚实我看有很多应用层很有名的应用都借了 DeepSeek 现在同样的我用你的东西又便宜又好我干嘛不用呢这样的话就出现一个很大的问题以后 OpenAI 的客户可能都被抢没了这不光是估值的问题了对吧他客户大家都跑去借 DeepSeek 去了

是的 是的就无论是科色的

Perplexity 这些明星应用都在加 DeepSeek 的模型的部署包括 Google、亚马逊、NBA 他们的平台上面都提供了 DeepSeek 的模型的部署其实很显然哪怕像我们这样子的小小的公司现在如果有了 DeepSeek 这样子的一种又便宜又好用的方式你就不会再去付上百倍的价格去采购欧网的 API 了这个确实影响很大

而且他也开院对其实我觉得这一波对那些云服务厂商来说可能反而是一个利好的一个消息比如说像亚马逊这种提供云服务的因为如果说没有像 DeepSick 这样的模型他很难给他的客户来提供一个

很厉害的大模型的给大家提供服务但 DeepSeg 是一个开源的东西对吧它其实部署在自己的服务器上就能给大家提供 DeepSeg 的服务了我觉得对于服务来说其实是好事对他们来说是提供一个以很低的价格给大家提供高质量的 AI 服务的这么一个机会了是的

我们最近看到像就比如说这个假期之间阿里的美股市值其实涨了不少我觉得一定程度上是因为阿里云肯定会从中受益因为之前其实在中国有大量的做应用的企业不得不使用微软云因为为了用这个 DBT 的这些 API 后面 DeepSeek 出来了之后其实你就可以用比如说阿里云上面的 DeepSeek 的这样的一个模型然后再加上它提供的整个的那些

PAS 了 IS 了所以就会很方便就像你说的我觉得对于云平台来讲肯定是受益的尤其是比如说中国的云平台因为之前它没有可以跟这个 GBT 跟 O1 这些可以打的模型导致一些 2B 的一些应用就没法基于上面来做但现在有了有了这个 R1 那就可以可以做很多应用了其实

我们前两天也是遇到了 DeepSync 官方的 API 挂掉了然后我们就换到了微软的 DeepSync 的 API 还是可以用的然后到后来感觉微软那边的 API 速度特别慢后来我们就换了轨迹流动的 API 轨迹流动是完全使用华为的那些芯片来做的然后其实效果还

挺不错的然后你像以前如果没有 DeepSync 的话那这些平台就像你刚才说的他也不能接这个 OpenAI 或者 Cloud 这些东西他也接不了那他也没得东西给大家提供服务那现在借一个 DeepSync 其实对国产的这些运营服务厂商来说也都是很大的好处

它同时也对国产的 GPU 也是一波大机会因为在推理端的话我们可以已经看到 DeepSync 完全可以用国产的 GPU 来做推理而且速度不比 NV 慢其实也蛮有意思的你看当时 R1 刚发布没多久 AMD 就开始发了一个声明说我们跟 DeepSync 有合作他们可以在 AMD 的 GPU 上面跑而且跑得不比 NV 慢

所以就是确实大家都是苦这个 NV9E 这些 GPU 公司对他们来讲一定程度上应该算利好吧当然要看你本身的体量有多大因为我记得那个 NV 被砸下去的时候像博通也是被砸了一大波也要看本身的这个体量有多大

说到 GPU 的问题就是西方很多人在主张对中国这边加大力度来封锁 GPU 芯片如果说美国的 GPU 管控的更严的话会对我们中国这些包括 DeepSeek 这样的公司会带来什么样的影响就我的理解其实像英伟达目前的优势还是挺明显的应该说对吧因为比如说首先英伟达的这个 Kuda 的整个生态

首先 Kuda 就只能在英伟达芯片上用,英伟达还有一个就是它把这个多个芯片能组合成一个大型虚拟的 GPU 的这个能力也是比较好的,就是其他芯片在这方面没有什么好用但我看到 DeepSig 是不是在试图做一些有突破的东西,因为他们以前就是好像也对这个 Kuda 很底层的代码在做一些工作什么的,这个话我倒不是很懂

对我大概知道一些 DeepSeek 有在英伟达这个酷达生态的更底层的像 PTX 这些层微调一些底层的代码来优化性能其实一定程度上也是被逼的就是因为我们刚才说的这个 H800 它的通信那些有些限制对吧

它在更底层的代码来改这样子的话它相当于是可以把它的通信的能力包括它的 scheduling 就它们的这些调度可以更加优化到极致

所以我个人感觉就是 GPU 的风境已经够严了一定程度上你这么严然后逼着一些公司这样子做工程创新来突破你更严的话其实一定程度上用现有的这些就比如说几千块 H800

然后再加上之前的 A100 你能做到的事情可能不见得会比你现在用几千块的这个 H100 或三万块 H100 能做到的少很多就在这一块的这个差距看起来

不会因为加重这个风镜能够更容易去拉开这个差距我觉得这个差距如果说现在被拉到四个月了也许可能以后会维持在这个状态一段时间也许还会再拉近一定程度上我觉得也许有时候它放开了反而导致

很多时候你没有动力去做更大的工程的创新去突破就好像我们以前说过的就像操作系统一样当然你随便用免费的盗版的随便用但是到最后你就不会开发自己的我觉得在半导体这一块也是类似的因为本身是一个极其昂贵的一个事业

你如果有现成的那你就很难说以商业化行为去做这些事情但是现在因为你没办法获得所以商业化行为也 make sense 你就必须得去这么做了

所以我觉得有点 tricky 就是不一定说它加重风景就一定带来说我们后面做这些事情会更难但是我觉得有一点要考虑的就是如果说 OpenAI 它在往 AGI 这个方向继续挺进然后它用比如说 10 万卡然后去做到什么或者 XAI 用 10 万卡去做到什么

那说十倍百倍的算力能做到的事情可能不是我们短时间内就是靠优化能做到的事情那些可能是一个风险点吧但是这个也要加一个大大的问号因为你真的要去用 10 万卡去训模型第一你能不能训出来你能不能稳定的把一个模型跑出来然后第二你这个模型跑出来它能力到底怎么样这些其实也都是未知数所以

我觉得是对我们刚才说到这个主张对中国这边更严格的心配经约这个事这里面其实最有名的呼吁的人就是 Cloud 的 CEO 他发了一个很长的一个文章对大家知道我其实我之前还是 Cloud 的粉丝或者说他的一个中式用户因为我觉得 Cloud 3.5 我的账号里都推荐过我觉得挺好用的还是但这个人这次的这个言论我个人不是很

也不是很喜欢说实话我觉得你作为一个搞技术背景的人你不是通过提高自己的创新能力来和 DBCB 这边来竞争而是想通过以这种搞禁运然后扼杀创新的这样的一种方式来和 DBCB 竞争我觉得这好像不是我心目中画像的一种很单纯的搞技术的人的这样的感觉我觉得还是挺意外这个 CEO 会说这样的话的

我觉得都有点试探了他的那个是是就我觉得还有另外一位就是那个 scale AI 的创始人就 Alexander Wang 也是就是之前 V3 发布的时候其实普遍来讲大家还是会以一种比较实事求是的这个这个来说说因为中国他的资本效率更高所以

我们在睡觉的时候他们在干活所以他用更低的成本做出来了但是到了 R1 的时候就整个的事就是不再讲他们的创新不再讲他们的能力而完全是用一种对抗式的或者说一种意识形态的差别说你比如说剽窃说你我们要加大封锁对吧就完全变了我甚至于就从这个里面也有一些新的感悟就是因为 Anthropic 当时刚创立的时候其实一直是讲安全对吧就他一直把这个安全挂在嘴

对 这很有意思的事对 这一次就是他绝口不提就比如说你把这么大一个这么强大的一个模型把它开源出来了那会不会不安全呢他也没提过包括 OpenAI 也没提过对吧就是然后甚至 OpenAI 甚至说也许我们一直避源是一个错误的策略开源也是有意义的就是那这个其实挺打脸的就是他们过去一直在说这个这么强大的模型开源是不安全的是对社会不负责任的对世界对吧然后

然后那 Anthropic 这些公司包括 Scale AI 我就觉得一定程度上你可以理解为他们是这一波这个 AI 浪潮当中的这种最大的这种既得利益者他其实是在一定程度上在维护他自己的这个利益在说的话就屁股决定脑袋其实对对对跟你本身什么价值观就是跟技术啦跟那些 benefit 的 Human being 啦这些东西

都没有关系我觉得完全是说实话我多多少少有点失望的还是我觉得大家不是那种很理想主义的搞技术的人而是还是

这个真要到了重大利益面前,你还是得放下所有的对技术的追求,对所有的这些对自由竞争的这些信仰什么的,反正先把竞争对手先遏制住再说,对吧?而且我觉得像你刚说的这个这个提到的 Skull AI,其实我觉得对他的动摇也蛮大的,因为他以前是搞很多的那个训练 AI 的数据什么的嘛,但其实你看现在这个 DeepSync 最主张的就是用 RL 的方式来做训练嘛,这明显就不需要这么多人工标注的数据,

我觉得他的影响是非常大的所以这个 CEO 屁股在那里就坐不住了是的你如果从一个技术理想主义或者说往 A+A 的方向去想如果说不需要 SFT 直接 RL 就可以搞定其实很多东西又打开了个新世界因为成本上确实要低了很多对吧

发源这件事情其实对整个西方对整个美国其实影响挺大的因为就有点像这个 TikTok 当时被封禁对吧就是政治家们顶层用意识形态的这个武器要把你封禁掉但是底层的一些使用者就很喜欢就放在我们这个 case 里面就有点像说这个底层就是大量的开发者他们肯定就觉得哇这么强大的模型而且看出来可以让我随便用多好

但是那些既得利益者他们就跳出来各个反对甚至要让国家安全去对你进行审查我看到包括最近说日本韩国也说要对他们的体制内的人使用 DeepSeek 要进行限制我觉得这些其实一定程度上他们肯定是联合的但是大量的这些开发者

他们一定程度上是技术理想主义者我为什么不能使用这么一个既好又开放的模型呢对吧当然对于西方的威胁就是说以后大量的这些应用如果都是基于 DeepSeek 去开发的开源的这么一个最大的旗帜不再是 Lama 了而是 DeepSeek 了他们后面的这些整个的生态怎么走就好像当时如果说安卓

如果安卓是中国的那他们所有的这些手机的 OS 都是基于安卓来做的那他们肯定也会用各种国家安全的这些去正面提挚对吧就影响挺剧烈的对就反正就感觉就以前呢在美国这些互联网统治世界的时候就大家也没有这方面的想法就觉得谁的东西好我就用谁的去玩了那现在当中国这边做出了东西来呢就发现你美国东西全世界用

没有问题但是中国东西做出来的大家用就会有问题 TikTok 就会有问题 DeepSeek 就会有问题而且你看像你刚才说的大众里面以前是很强调安全的一个人就好像觉得太先进的模型不能直接开放给大众去使用这样的感觉就有一点这样的意思就因为怕大家用大模型来做不好的事什么的反复在讲安全的故事然后我估计这里面有很多的利益在里面是不是有很多的预算什么在这方面我不知道然后

但这次 DeepSick 出来之后他完全没提安全啊反正这又很奇怪就有点前后很矛盾这样的感觉啊就是他现在就开始在强调的是就要确保西方的民主世界拥有一些先进的大模型什么的完了他就改成了这个这就很离谱了我觉得就是这很离谱我觉得

不过我觉得刚才你说的那点也蛮有意思的 DeepSeek 的开源还是非常有效的一个策略或者说是一个非常高明的一个策略就起码我们现在看下来在西方现在对 DeepSeek 的讨论争议批评的人围剿他的人都这么多但是他好像在整个舆论战争里面也没有输因为就像你刚才说的底层的人就我们说的底层没有贬义只是说在 AI 这个生态位里面就是不是做打通行的就是做开发的对对对就是做应用层的这些人都很欢迎 DeepSeek

而且对于很多的用户来说,以前买 OpenAI 最先进的模型一个月要两万美金,现在很现实的就是我不用交了这个钱或者说你有一定的能力的话,甚至可以在自己的硬件上来部署一个反正我觉得就是会得到了有很多的这种来自于所谓加引号的底层的用户所以导致 DVC 给我们看,它和以前中国很多出海公司被国外人按在地上打的那种感觉不一样还是有很多人愿意来支持他

说话的呀就在军队战场也没有输嘛这个还是挺有意思的一件事情我觉得做出这么强大的模型同时开源出来也许是 OpenAI 最早的初衷成立的时候的初衷所以我看到一些西方媒体现在提到梁文峰的时候已经说成是叫 SamultimanofChina 大概是这样的一个词还挺有意思的

我个人的一贯的观点就是大模型这个事最后还是看谁的模型能力强我觉得你搞这些舆论战现在美国一些 AI 公司也在有一点点像微教 Deep Sea 的感觉我觉得没什么用的这些公司我还是劝他们专心把精力都花在提高模型的能力上面才是正途搞这些盘摆招我个人感觉不是特别有用

因为模型这个东西呢明显就是谁的能力强就是用户和开发者就是用时的模型嘛其实我以前在一个视频里面和大家聊过了个事就是当时国内的很多模型包括 Kimi 什么的在烧很多钱在做用户嘛我当时就是反对这个事的因为我觉得你烧钱做用户啊没什么意义你只需要把模型的能力搞得比较好你比如说 DeepSick 现在模型的能力强大家就会去用它

你去烧钱买用户我觉得意义都不大就和现在这些人去搞这些在舆论上面搞一点打击搞点什么小动作我个人觉得也不是很有用当然我不知道 Deepfake 的后续的表现怎么样但是说如果说它能一直推出很厉害的模型出来那看法就是会用用户就是会用我觉得搞别的那些盘外东西我个人的感觉都是没什么用的我是想劝这些公司把精力都花在提高目前能力本身上对 非常准确

我也是这样想 DeepSick 这一波其实也打压了不少国产模型的感觉因为现在它的锋芒太过于锋利对吧其实我最近看到像 Mini Max 还有豆包在昨天还是前天也发了新模型像阿里那边也发了新模型这几个模型其实就从能力上讲还挺不错的提升也比较多但是你相对 DeepSick 来比就没人关注他们了要没有 DeepSick 的话他们可能还能火一波或者说大家可能会关注他们一点现在都没有人关注了

是的 V3 发布的时候是去年 12 月底然后当时其实外媒有过一些报道因为那个时候主要是在说成本的事情一定程度上还觉得说也许是国外他们故意去炒作然后去放大中国的 AI 的优势然后让他们感觉 wake up 一样的就川普的词叫 wake up call 所以可能让他们更加增大政府的开支在这一块

那个时候的感觉其实跟 R1 发布之后是完全不一样的 R1 发布之后一下子你会觉得就真的是所有人都在用

然后而且它的效果确实牛逼就像你刚才讲的就到最后用不用模型真的就是看你这个模型能不能帮到我你帮不到我就是试一下就结束了你要真能帮到我我天天在用我特别喜欢 R1 的那个 thinking process 就是就他的那个思维过程就特别仔细的去看他的这个思维过程就好像你在任何一个领域你突然间多了一个最好的一个老师无论你问多 boring 的问题多么无厘头的问题或多么

ridiculous 的问题他都会非常耐心的把他的整个的原封不动的那个思路来分享给你那些思路其实特别宝贵感觉是的他不光给了你一个答案嘛而且告诉你他应该怎么去想这个事这个的价值就就特别大而且他会考虑到各种方面其实有的时候呢还会有一点点

给用户带来小伤害的感觉因为我前段时间问他一些问题的时候他在思考过程中就说用户可能比较欠缺这方面的基础知识所以我应该用更通俗的语言给他说对这个

这个模型的女人化或者说她的这个人性我不知道你有没有注意到她的那个 R1 的技术报告里面有提到一个 Aha moment 就是她有在对吧有在让模型解决一个数学方程的问题的时候她在

思考了一段时间之后然后突然间啊哈然后又用了另外一种方法来给出了一些思考我觉得参与这个训练的人看到这个结果的时候肯定会觉得特别的激动就感觉突然间好像这个对你要带着那场下巴学着

对就这前面付出的所有的工作都值了对吧就这样感觉是的太神奇了那个 moment 我再补充几个信息就是关于 DeepSeek 的谣言是非常多的在中文这个圈子里呢有很多说是 DeepSeek CEO 梁文峰说的消息包括一篇在知乎上流传非常广的长文其实都是假的

还有呢在公众号上有一些流传很广的文章就说在美国那边下载 DeepSeek 的人要判刑要处于很高额的甚至上亿美金的罚款这个也是假的这里面就有很多以訛传合因为很多自媒体人对美国那边的信息其实没有去看原文甚至没有能力去看原文就开始在国内乱传但是话又说回来这个事情呢不只是在中国发生在美国那边的 fake news 也是非常非常多的而且我觉得美国对中国的了解比中国对美国的了解更少

比如说我们这个视频里提到很多次 DeepSick V3 这个模型最后一次的训练成本是 550 万美金

那这里呢首先这是最后一次训练的成本它不包含 DeepSick 前面踩的所有的坑所有的研发投入如果我们来类比一下的话就是一个最后队在场上组织了很多次进攻只有最后一次进攻进了一个球那最后一次进攻它组织进攻花了 30 秒钟那我们不能理解成这个球队 30 秒钟用进一个球啊就当然我们不管说它最后一次训练成本 550 万美金还是它整体的研发投入我相信还是比 OpenAI 等等巨头在投入的成本上面降低了一个十万级

但是这个事呢在美国就越传越妖啊首先很多美国人他也分不清 R1V3 这些东西就是他以为这 550 万美金是训练 R1 的成本这个绝对是不对的那然后再发展呢就很多人以为这个换方一共就花了 550 万美金啊这个就非常离谱了因为在美国那些科技巨头呢他们在 AI 上都是千亿美金级别的投入啊那你站在美国人的立场上面就觉得我们的公司千亿级别的投入你怎么可能 550 万美金就能搞得出来所以你一定是个骗子所以说很多人以为 DeepSeek 是骗子公司

然后还有更离谱的是很多美国人以为 Deep Seek 的成功是因为背后有一个天才少女什么的哎呀反正就是美国那边的 Fake News 的情况一点也不比中国那边好

这件事情呢可以看出来西方社会对中国这边还是非常不了解的另外的话呢也是很双标的比如说 ofenai 在训练模型的时候也是偷偷爬取了互联网上大量的数据他也没有要授权嘛我记得前段时间还有另外一个美国做 AI 视频生成的公司他明显是非法爬取了 YouTube 的数据做训练因为你的观念词可以直接写我要模仿某某 YouTuber 风格的视频那他就可以做出和这个 YouTuber 风格非常类似的视频来这非常明显就是学习了那个 YouTuber 的视频啊

那对于这些数据来源的问题对于 OpenAI 非法使用数据的问题他们就没有人问但是 DeepThink 他们就要求的非常非常的严格所以整体来说吧这里面呢既有在情绪之下的各种网民的这种以讹传讹吧或者说这种谣言吧另外一个也确实有他们对中国公司的双标这个也是蛮可心的还有呢就是这两天有人问我 DeepThink 的开源在商业上是怎么考虑的我也发了一个极客这个我把截图贴在这里

那我就补充这么多后面呢我们着重来介绍 DeepSeq 的一些实现原理

最广泛的大众人说他可能只是 DeepSeek 可能连 V3 和 R1 都分的没那么清楚然后其实 V3 和 R1 是非常不同的两个东西 V3 是前面推出的嘛然后 V3 的大家觉得他最大的一个成就应该就是用非常低的成本做的非常好的效果因为他的训练是花了 550 万美金嘛但比方说像 GPG4 这种模型的话就我们不知道花多少钱但总感觉是大概 1 亿美金这个级别才能做得了的事对吧或者说大几千万美金才能做得了的一个事

那他怎么用 550 万美金而且只用了 2048 块 H800 就是他是怎么能做到这个我们一个个的说我们可以先说一三就是他是怎么来做到这个能不能给大家说说我自己的猜测就是他的整个的研发成本就不是只是最后这一次的这个训练成本就是包括整个的研发成本肯定是跟 OpenAI 要相差一个数量级的就肯定是十分之一甚至于更低的一个代价

它在整个的过程当中我觉得在很多工程方面有优化也有一些创新就包括其实它之前就已经提到过的多头隐形注意力机制对吧 Multi-head Latent Attention 这些 R1 里面也用到了 Multi-token prediction 就是多 token 一下子预测出来而不是单个的一个一个 One by one 的这种

包括用 8 个负点数这样子的精度 FP8 来代替 FP16 当然它这个代替不是说所有地方都是用 FP8 它有自己的专业性它来判断说哪些部分它用 FP8 哪些地方用 FP16 甚至 32 这样子它可以把这个

无论是存储还是调用还是计算这些通信这些都可以做到最大程度的优化这些都是它能够做到成本要低很多的这些原因

小的那些就不说了就包括什么处理 Transformer 架构里面的那些 K-value 那些值它怎么样降低这些存储的必要性降低缓存的占用什么的就是做了很多很多的优化其实我们可以这么去理解就是每一个优化其实都不容易

但并不是说就做不到但是一个公司一个实验室能够把这么多优化都能够做到其实还是很惊人的就比如我们看到包括字节包括阿里其他的这些大公司甚至于包括 Google 对吧 Meta 这些其实也都没有在这么多的这些优化上面都能够做到一些出彩的成果然后最终体现成本的节省我觉得还是挺夸张的

我问一个可能大家都比较关心的一个问题就比如说像 V3 的话更多的是因为它做的比较晚它是因为有 GB4 在前面这个已经蹚出了这个路嘛它可以去模仿什么的所以说导致成本比较低还有说它自己的创新点也比较多

我觉得两点都有吧就是很难说哪个多哪个少因为有一个蹚出来的路你知道说沿着哪个方向走是肯定能走通的那这一点确实是可以节省很多成本因为单纯那个 500 多万美金的那个结果相当于你已经知道要怎么做了你就走一遍嘛对吧你就训一遍跑一遍

GPU 但这个跑一遍的这个成本你还是比之前 OpenAI 的那个数字至少降了这个 90%下来就是这个还是需要你们有很多的创新很多的这个工程的优化的没那么容易我觉得嗯

我个人的感觉是这样我觉得像从 V3 目前来看 DeepSeek 这边做的很多就是工程方面的一句话其实并不是那种纯理论方面的创新当然它理论方面创新也有一点但其实 V3 用的一些东西如果我们回头来看的话有很多其实在那个 V2 的时代就包括他自己来改进的那个 MOE 的架构什么的反正有很多东西

在 V2 的时候就已经提出来了嘛所以说 V3 的话我个人感觉它更多的不是说有多少这个理论上面的创新的东西它更多的是在工程优化方面做的比较好另外一个当然和它做的比较晚也有关系嘛越后面做的肯定成本越低一点嘛这个东西肯定是也有这方面的因素在的但我觉得做 W3 这个事呢就是你站在前任的肩膀上做是很正常的我们不管是搞科学搞什么东西也好你都是站在前任的肩膀上

进行创新这是无可指责的一件事但是它也有很多自己很独特的东西在里面而且像韩东刚才说的他做了优化点特别多你可能在某一个点上去优化并没有那么的难但是它的难点就在于你是一个很系统化的工程把整个的模型把各方面都能优化的比较好而且我觉得这种

这个优化本身的价值也特别大并不是说你在工程方面做的好做优化就不如那些做理论的人我觉得也不是这样的你比方说很典型的例子比如说像马斯克搞 BaseX 对吧他其实

就是在工程上面做的优化比较多同样的东西我就是比 NASA 产品低我觉得便宜其实你在工程上做优化本身就是一件很伟大的一件事并不是说工程优化的价值就一定比理论创新的价值有更低反正我个人的理解是这样的而且你反过来看 OpenAI 的话

无论是 Transformer 还是 Attention 包括 MOE 这些其实很多东西都不是说 OpenAI 来首创的其实都是行业内的一些最新的研究对吧但是有了这么一个概念有了这么一个第一次的实现不代表说后续把它真正用起来你的工程化就没有价值其实一定程度上我觉得后面的这些工程化的

价值可能不比原始发现要少因为其实在 AI 领域在计算机领域这样的原始发现非常多很多东西它就在那里它发现了其实它也没有特别大的意义真正让 Transformer 有意义的其实是 OpenAI 包括我们刚才说多 Token 预测我记得是 Meta 好像先把它说出来的但是可能是 DeepSeek 这一次真正把 MTP 做得比较好

前面提到的那个 FP8 的一个问题这个事我稍微给大家也靠谱了一下最开始大模型训练都是 FP32 吧对对然后 16 也比较多相当于这个 FP32 的话就是如果把它比喻成一个尺子的话就是它精度很高嘛可能是一个能精确到毫米的很精确的一个尺子嘛你拿这个尺子去盖一个房子的话就没有任何的问题但比如说用 FP8 的话呢它是一个可能只能精确到 10 公分甚至精确到一米的这样的一把尺子

用它去盖房子的话呢可能你盖完之后墙都对不起这房子可能就塌了对吧如果说练模型的话那可能就是你误差不断的积累嘛最后就会出很难的问题了就而且呢甚至也不光是误差积累的问题还还有一些梯子消失梯子爆炸这样的问题就是你用低硬度的这个 FP8 的话就是可能这模型连训都训不出来然后他又用了一些

其他的方法比如说在某些情况下再回到 FP32 什么的用这样的一些方法来降低了训练的成本什么的反正还是想了特别多的这种工程方面的优化的小办法对对一定程度上也是被倒逼的所有人能够优化的地方都优化优化到极致用 FP8 来取代 FP16 在很多方面我觉得这个想到这个很容易想但是你要真正能够去把

做出来然后同时去分辨说我该用这个牛刀的时候用牛刀该用杀鸡刀的时候用杀鸡刀对吧这个还是挺难的整个模型训练因为你处理的是那种就上十万亿的这种 token 数目对吧甚至于几十万亿 token 数目其实你做的任何的一个运算它都不是说代表一个运算而是可能上十亿个运算甚至上百亿个运算所以它对于整体的成本都是有极大影响的

任何一个东西是的而且我看他还做了很多那种用计算来换存储的这种优化为了省内存的带宽什么的我不知道是不是和他用的是间隔过的卡有一定的关系反正以前的技术的话大家都是把数据直接存在内存里面然后他这边的话是只存了非常少的数据然后有些数据可以列成你什么时候需要的话他什么时候先算一遍然后这样的话你用内存就用的比较少反正做优化还是做的就是很多这方面的工作了

然后我们要不然再和大家聊一下和 IE 相关的东西 好吧好呀好呀 发布 IE 的时候其实它发布了两个模型一个是 IE0 一个是 IE 对吧 两个模型然后这两个模型其实是挺相关的就是你讲就从 V3 这个 base model 它先存作 IL 就存作强化学习然后得到了一个 R10 是这样的一个模型

效果还是很牛的但是他也发现这个 R1-0 回答一些问题的时候就很容易混杂一些语言然后当然也有一些其他的缺点所以他就又做了一些 SFT 然后最终得到的是 R1 这个模型 R1 然后就变成了我们现在就正常在用的这个模型所以对 先粗略的先理解一下其实是发布了两个模型对

能不能给大家先介绍几个概念我们下面其实也提到过非常多次比如说 SFT RL 还有 RL HF 如果说我们要给大家讲 R1 这个事的话能听明白我们在对话最基本的三个单词对吧 SFT 就是叫 Supervised Fine Tuning 就是监督微调你可以简单理解为比如说通过一个数据集这个数据集是一些 QA 的问答队

然后通过这样的一个问答对的数据集然后来对这个模型进行微调

这个叫 SFT 那 RAL 呢强化学习就相对要复杂一些了当然是不同的复杂就刚才说的 SFT 它有一个比较大的麻烦就是那个成本很高因为你需要标注那些数据对吧 RAL 的话就是我们知道最经典的 RAL 的例子就是这个 AlphaGo AlphaZero 对吧就是那个夏威奇的那个程序

相当于是你只告诉他一个游戏规则他在针对一个输入然后给出一个结果的时候你对于这个结果给他奖励或者惩罚然后他通过这个来不断的强化自己说这个事情做的对不对无数的 runs 之后让他对于怎么做这个事情或者说他应该怎么表现就非常熟练了然后这个就叫 IL

IRHF 就是叫 reinforcement learning with human feedback 可以是一个 reward model 一个奖励模型结合人类在与 base model 做交流的时候得到的输出然后对于这个输出再去进行一个评分当然有不同的这种奖励的机制比较简单的就是说它对于这个进行一个评分

而且他这个评分的标准呢是以这个我们人类的方式来去做判断所以这个就叫 human feedback 但其实我们看到 R1 这个模型他的 RIL 的部分应该是他没有这个 human feedback 这部分因为他论文里没提到这个对吧

对没提到一定程度上它这个 RL 就是可以做到自动化甚至于你可以说是可以比较容易去 scale 的那如果 RL 可以比较容易的去 scale 的话那对于整个模型的未来的想象空间就很大了因为过去主要是 RLHF 太贵了因为你需要的那个 human feedback 它不是这种一般人能做到的

对 是的 不是一般人能够给你去打翻的所以当时 OpenAI 有雇用不少什么物理化学的博士专门去标注这个数据其实主要就标注这个 IRHF 的数据对 大概是这样的一个概念我稍微说的更通俗一点比如说 SFC 的话就是人工标注好数据嘛一问一答这一种然后就是让模型直接来训练这个问题对应的这个正确答案是什么就如果我们举个例子的话

就是如果说一个厨师来炒菜的话那 SFT 的话就是让他严格的按照一个菜谱来做菜菜谱上都写得很清楚如果你要做这个菜那么你的答案是这个菜应该怎么做那如果是 RHF 的话就是有一群很专业的厨师在给你反馈嘛所以说刚才像韩东说的这个其实不是一般人能做到的事他得是非常专业的人才能给模型这个反馈嘛然后这个反馈的话呢

因为人类考虑的因素是很多的它不光是为了提高模型的性能还要考虑到道德价值观各种各样的东西比如说同样是厨师来做菜的话如果用 IRHF 的方式的话就是有一群专业的厨师会给你一些反馈这里面可能还会考虑到技术之外的原因比如说你用油用的太多了可能不是特别健康对吧比如说你如果在菜里面用了熊掌这种食材的话那么他会跟你说因为这个是国家保护动物你不能做这个菜所以说它这里面就有了很多人工专业人士对它的干预

如果纯二二的话呢这么多的是有一个简历的机制就比如说它是通过顾客对你这个菜的打分嘛你做一个菜你的顾客吧他们就会给你像在大陆点评一样打分嘛然后你就根据这个打分的结果来调整你做菜的方式其实没有人会教给你这个菜就应该怎么做

然后你就不断的去尝试你所获得的结果只是用户给你打的分数越来越高而已所以说用这个 SFT 的方式的话大家按照标准答案来学这样的话就是比较保守嘛但是它同时能让你这个训练书的结果更接近这个训练数据本身就可控性可能会更强一点那 LHF 呢就是因为有这个专业人士的指导和反馈吧能够确保这个模型它符合人类想让它提高的方向或者说把人类的道德各种东西能加到里面去

那 RL 的方式呢就完全让这个模型自己去摸索这个事该怎么办然后通过这个结果来修正自己去摸索的这个东西吧这样的话是可能是一种让模型更容易去创新的一种方式也是有点符合自然进化的这样的一种感觉但它比较容易出现不稳定的情况因为它并不是按照一个菜谱来学的就可能会有一些不可预期的行为另外呢这里面有很多的难度比如说奖励的函数居然应该怎么去设计的另外的话就是

他可能需要走很多的翻路嘛因为一开始没有人教给他这个菜该怎么做他自己去乱试可能试的很多菜都是错的反正这三种方式也是各有利弊的然后我们看下来这个阿万的话呢

如果说我们比较传统的提升模型性能的方式是先用 SFT 然后再加 R2HF 的话那 R1 更多的就是很直接的用 R2 的方式来做然后证明了直接用 R2 也能让模型的能力获得很大的提升不知道我上面的解释就是有没有什么错误的地方没有没有比较通俗

然后我们刚才就是杭东这边也说到就是其实像 R1 的话它其实也有两个版本的存在一个是 R1-Zero 还有一个就是 R1 嘛就杭东刚才也提到了那个在很多年前下围棋的那个 R1-Zero 然后也有很多人说是不是 R1-Zero 就是 R1-Zero 的时刻嘛因为以前 R1-Go 的时候最开始的 R1-Go 是学习了很多人类的棋谱才学会下围棋的嘛然后像 R1-Zero 就直接更他一个规则

他就是自己和自己想他其实没有学过人类的什么旗谱但我觉得这么类比也不一定完全的合适因为阿巴赛尔最起码是说他还是从 V3 的基础上进化而来的而 V3 肯定是学了大量的人类的数据的所以说他其实某种程度上是证明了直接用 IR 的方式也可以但是他并没有完全脱离开人类本身的数据就是自己从零开始来理解这个世界对

我看到有些人做过一些 benchmark 的分析好像在某些指标上面 R10 和 R1 还是蛮类似的他们之所以当时要做出 R1 是因为发现 R10 在跟人类交流的时候这个 behavior 当中其实还是有很多不可控或者说混杂语言这些也是比较显然的就是说会通过一些 SFT 再去调一下的这些策略

是的 我记得他们在论文里提到做了能启动嘛 其实那个模式和 SFT 感觉还是比较像的是的 是的 如果未来大家说去调这个 R1 系列的 API 的话其实也可以试着调 R1-0 看看效果如何 包括还有它很多很多蒸馏的模型其实也是相当冷打

特别是我们在本地部署哪怕在电脑上在手机上用的时候可能真的能做到一个类似理线的个人助理还是挺帅的今天我和韩东也和大家聊了很多其实聊的偏向于大家普遍比较关心的话题比如说 DeepSick 有多牛逼对吧他怎么做到这一切他有没有抄袭以及美国的封锁有没有用前面聊的基本上还是这些东西比较多当然也有些干货比如说我们大概也聊了像 V3 核 I1 实现的原理

那才不说整个我们的直播的实用性也不高因为我觉得真正 AI 的价值还是让大家能够用上能够切实提高自己的生产力甚至提高自己的生活的质量了然后我一开始邀请韩东来聊的时候韩东当时想聊的话题是和大家聊一聊 DeepSeek 怎么把它用起来然后我说如果是聊这个东西

可能不是大家最关心的因为可能大家还是关心什么 DeepThinkUPUB 然后中美博弈啊然后这些东西可能大家还是关心的可能会更多一点所以我们今天就临时把这个主题换成了今天这样的一个主题另外的话呢我觉得如果往实用性的角度去聊的话

可能也不是一两个小时能聊清楚的事可能得几十个小时才能让大家把 AI 能够真正能用的比较好那个东西可能确实更适合做成一个像课程一样的一个东西就不适合放在一两个小时的这种不管是直播也好或者是视频也好因为也讲不清楚而且那个东西也不是大家凭兴趣能听的将来也看吧如果大家有需求我们也可以

再想想这个事就是因为韩东我邀请他的时候他确实说说想和大家聊更实用的一些东西啊是我来变的这个话题其实是对然后我们后面也商量一下如果大家有需求或者怎么样也可能以课程啊或其他的方式来给大家提供一些更实用性的一些东西吧那我们今天这个直播主要的

内容就到这里然后我刚才看到也有人举手什么大家有什么问题可以放言问一门然后正好韩东也在可以让他来回答一下大家的问题还有一个同学问 AI 的突破口是优质数据还是推导能力正好我也请教一下韩东怎么看这个问题就是个人生成的普通数据还是很重要的一个事比如说我这边在推出一些 AI 产品的时候也会有用户来问就是说我在这边 AI 的数据会不会用于训练 AI 的模型什么的我个人的一个感觉

感觉是个人的这种数据重要性其实是有点低的因为个人的数据它质量其实没有那么高就如果说

个人随便产生的数据都有很高的价值的话那可能像腾讯这样的手握微信的掌握很多人聊天的公司从理论上讲就能迅速最强的模型来对吧我觉得其实个人普通的聊天这数据价值好像没有什么高尤其是这一次我们看到 9i1 把这个 RL 提高到一个比较重要的有限级的情况下好像个人数据这种比较普通的问答就没有那么有用了好像就是他们好像也不是这种数据多了就能对模型的能力提高很多所以说好像就大家也没有必要特别担心

我的数据会不会被模型用于训练什么的因为你的数据没有那么高的价值是不是可以这么理解对对我个人也是这么认为的 R10 其实

你可以理解为它的整个的逻辑能力推理能力跟 R1 应该是一致的那 R1 跟 R10 只是它多做了一部分 SFT 那就是为了调一些这种理论化的东西就是让它的回答更加符合人类习惯而已那符合人类习惯

看起来它不需要太多的数据来去做这个 SFT 它有一部分的数据就够了对就够了那它就能让这个机器

一种理论化的方式来交流了那至于他本身的那些能力那些逻辑思维的那些能力其实就像你说的还是从那些相对偏严肃的那些知识当中获得的就我们的闲聊对他来讲第一 如果你没蕴含了知识点那这些知识点大概率或者百分之百基本上也是他见过的

其他的个人数据隐私这些对他来讲其实是没有意义的因为他并不是说要给你做一个定制化的模型如果说他是给你做一个私人模型你的个人助理那你的所有的过往的你的 behavior 你的习惯你的 preference 这些可能都是有意义的但是这些东西对于一个通用的一个模型对于大众来讲的模型其实是没有意义的

欢迎加我的微信我的微信是李自然 5460 全篇的李自然数字 5460 李自然 5460