你好我是谷爷一个专注牛人牛市的商业主币今天的故事要从 2023 年初讲起在那一年春节一个叫 ChatGPT 的美国 AI 大模型在全球爆火连带开发它的公司 OpenAI 和它的支付山姆奥特曼 AI 大模型人工智能自此成为了推进旧世界前进的新动力作为领头的过去两年里 ChatGPTOpenAI 山姆奥特曼被大家当作神一样的膜拜
而再度请神成功的美国华尔街则开始了一系列的常规操作商业上连带着让一众西方软硬件公司跟着鸡犬升天做剪刀叉政治上围追堵截严防死守生怕再让我们把这么高精尖的技术又给偷学了去最困难的时候我们在国内想要登陆一下这个 GPT 都是一件很麻烦的事你需要有 VPN 然后到一个俄罗斯网站上去买一个归属地为巴西或者马来西亚的虚拟手机号
用它去注册一个境外邮箱最后才能注册一个 GPT 账号之后终于就可以顶着令人头皮发麻的卡顿去和这个传说中的天文地理无所不知的新物种对话聊天以及花高价体验一下它传说中更高深的 3.5 付费版本 20 美元一个月巅峰时仅这么一个晚辈的 GPT 账号可能就价值千金
即便这些账号多数也会在 OpenAI 官方的清查中被揪出来然后封号也是在此后不久中国的科技巨头大头小头们也纷纷开始了自己的上下求索豆包 Kimi 智普青岩文心一言通一千问星火大家如同过江之己一般誓要在这个人工智能的新风口上抢得一席之地只不过循着 GPT 思路做出来的产品拿去和人家美国正盘的一比实力上又都挨了一截
过程中有一家叫换方量化的量化基金公司为了方便自己的业务工作主要是炒股和量化交易分析在 2021 年囤积了上万颗当时卖的还不那么贵且比较好买到的英伟大 A100GPU 在 2023 年成立了一家叫深度求索的 AI 公司开发了一个就叫深度求索的同名大模型英文名 DeepSeek 大家其实原本并没有把这个小体量的模型当回事
因为在这场动辄迭代一个版本就得花掉数亿美元的消金运动力虽说背靠基金公司不差钱吧可是深度求索相比竞品巨头们的投入还是不大他的团队只有 150 人而且多为中国本土人士没有什么海外背景或者资深的从业经验创始人更是一个上极其无名的年轻八五后叫梁文峰他能成功得等到什么时候呢 2025 年 1 月 20 日
在这一年春节前全世界惊讶地发现深度求索推出的最新 AI 模型 DeepSeek R1 已经拥有了 ChatGPT 最新版本 GPT-O1 同级别的表现延续低成本打法的 DeepSeek 训练它的成本则连 OpenAI 的十分之一都不到到如今发布 20 多天 DeepSeek 的日活早已突破 2000 万甚至所有人在和它对话后普遍还觉得它的回答表现要比 GPT-O1 来得要好
包括大洋对岸的美国人真是便宜这帮美国人了他们现在只需要和我们大陆一样忍受着因为爆火而带来的卡顿问题就好不必去像我们前年时用个 ChatGPT 那样跟做贼似的绕弯子花高价打游击那是因为我们就连 DeepSeek RE 整个大模型都是完全开源的深度求索丝毫不屑于像 GPT 们那样藏着掖着
两年前的农历春节航空出世的人工智能领军者美国产 ChatGPT 彻底改变了这个世界两年后的农历春节航空出世的新任屠龙者中国产 DeepSeek 彻底改变了人工智能而 DeepSeek 更深刻的意义则是不仅掀起了又一次的 AI 革命它还把这个革命的价格给打下来了朋友如果听到这里这个小故事还不足以让你怦然一动的话
那么或许我实在不知道今年又该有什么更牛的故事可以分享给你了要说 DeepSeek 火爆日活用户数 5 天 259 万 18 天 1500 万 20 天 2000 万就是它最好的印证相比 GPT 都花了 244 天才做到日活 1500 万来说这个速度简直令人咋舌当然这是因为不论身处全世界任何地方想要登陆 DeepSeek 都是一件相当简单的事情
网站、APP 都好使代价就是随着火爆所有人都得忍受的卡顿问题一个问题问上 8 遍 10 遍才能响应一遍是常态当然因为 DeepSeek 所有模型都是开源的所以任何人只要想都可以去下载他的包然后本地运行只不过因为大模型吃的就是算力且模型体量也不是一般的大比如 DeepSeek V3 版本总参数量有 671B
所以这些要求也不是一个一般的个人就能够满足的但是这也已经足够震撼了毕竟对面的 OpenAI 都快被嘲讽成 CloseAI 了开源并不是目前行业的主流玩法稍微有点实力的花个九牛一毛的硬件和配套钱就能够在本地部署一个自己专有的全球最顶尖的大模型这个诱惑是没有什么人能阻挡的所以全球一众芯片厂商纷纷快速响应宣布了对 DeepSeq 的支持
这里面既有美国的 AMD 英伟达英特尔也有中国的华为穆希天树至新摩尔县城英伟达英特尔 AMD 这如今的芯片三巨头对 DeepSync 的支持意味着一台轻薄笔记本也可以完全离线本地化运行制
穆希、天树至新、摩尔县城这些国产 GPU 的支持则意味着一台中国研发中国制造的百分之百自主可控国产 AI 产品已经来了全程没有什么能被卡脖子的地方除了芯片厂们全球的云服务商们也在积极处理根据志东西的汇总从 1 月 28 日除夕开始近期已经宣布支持 DeepSeek 的云服务企业有
无问新穷 中国微软 美国 AWS 美国华为云 中国腾讯云 中国派欧 中国云州科技 中国阿里云 中国百度智能云 中国这里面不仅有阿里 华为 腾讯 百度这国内四大云巨头也有亚马逊 微软这样的美国服务商这对于想要做 Deep-Seek 相关产品的开发者来说是天大的好消息
想要部署直接去云服务商平台调用即可不需要买卡装驱动配网络配储存装环境装框架下载模型等繁琐的步骤不过目前云服务商所提供的 DeepSync 版本多数都还不是参数量 671B 的满血版也即 DeepSync R1 和 V3 原型模型而是 1.5B 7B 8B 14B 32B 等小模型从体量上你也能感受到它们的功力会有差距
想要体验满血版现在还是只能通过比较卡的官网 APP 官方 API 接入口一直到 2 月 7 号腾讯云率先公告称其上线了 671B 的 DeepSeek R1 和 V3 原版模型这是首家宣布实现了这一成就的云服务商但是相信其他家的满血版也已经在来的路上了日新月异了这么多年的全球科技圈打了这么久的贸易战大家互相猜忌防备了这么多年
我们都已经快记不起上一次全球厂商如此团结一心的齐心跟进一个产品是什么时候的事了这一切都要感谢 DeepSick 坚持开源鞠躬至伟胸怀大同如今已经名动天下的 DeepSick 创始人梁文峰近日在接受暗涌采访时说 DeepSick 的出发点是走到技术前沿去推动整个生态发展正如英伟达的领先不只是一个公司的努力也是整个西方技术社区和产业共同努力的结果
中国 AI 的发展同样需要这样的生态 DeepSeek 希望形成一种生态他们只负责基础模型和前沿的创新其他公司在 DeepSeek 的基础上构建 2B 和 2C 的业务也怪不得知名的生物学家北大终身教授饶益会说鸦片战争以来中国对人类的最大科技震撼 DeepSeek1 月 27 日 DeepSeek 达成了一个小成就美区 APP Store 和中国区 APP Store 免费榜双料第一
这是首次有 AI 助手类产品超越 ChessGPT 登顶美区 APP Store 也是在这天美国科技公司们美股一开盘就直接缩没了 1 万亿美元英伟达暴跌 17%缩水了 5940 亿美元等于是一下跌没了一个腾讯加美团此外甲骨文下跌 13%超微电脑下跌 12%芯片制造商博通下跌 17%台积电下跌 13%
直接被一把扯下神的伪装的 OpenAI 的反应也是贼有意思 1 月 28 日其 CEO 山姆奥特曼发文称 DeepSeek R1 令人印象深刻结果转头 1 月 29 日 OpenAI 就主动向外媒透露称发现了 DeepSeek 未经许可征留了其专有技术的证据简直是又酸又差英伟达也好 OpenAI 也好大家之所以突然开始这么狼狈实在是 DeepSeek 的破坏力太强了
在 DeepSeek 没有出名前,原本的全行业玩法大致是完全另外一种形态 OpenAI 要像个尊者一样杵在那里显得高不可攀对外公布的历代版本 ChatGPT 训练成本动辄就是上万块英伟达顶尖芯片算力,上亿美元训练费总之就是始终都保持技术领先,并且逐步从原本开源模式切换到闭源模式将核心能力死死的捂在手里,再也不共享
英伟达所谓被华尔街选出来的打手满世界都说它呢被 OpenAI 加持过的顶级算力 GPU 这些显卡不仅贵得头皮发麻还一块难求这样英伟达的市值就跟着做火箭一般的上了天根据英伟达公开财报 2023 年 ChatGPT 发布前英伟达的股价长期徘徊在每股 150 美元上下 2022 年 Q3 财报当季度营收不到 60 亿美元规模净利润 6.8 亿美元左右
等到 ChatGPT 发布后英伟达的股价在两年不到的时间里一路爬升到了每股 1255 美元的最高点 2024 年的 Q3 财报总营收 350 亿美元规模净利润高达 193 亿美元 OpenAI 和英伟达一个演杂锤的一个当卖药的合伙唱双簧满世界卖大力丸光明正大的收割着任何一个想要跟拍的玩家这里还要多插一个片段
因为贸易战的因素美国政府禁止英伟达 100 系列 GPU 出口中国换方量化与 DeepSick 最早出名的新闻就是这家量化基金公司颇有先见之明的在封禁前的 2021 年悄悄在手里囤了 1 万块英伟达 A100 然后英伟达表示为了做中国的生意被迫积极地搞出了一个 800 系列的特供阉割版专门高价卖给中国这表演是要多拙劣有多拙劣
对手出招了,不能不接招在被深深震撼的我们这边互联网各巨头纷纷开启了自己的大模型研究文心一言,质朴青年,通易千问,Kimi,熏飞星火,盘古豆包各个大厂大佬大手笔其他叫不上名字的,那就更多了大家的策略也都差不多买 GPU,学 GPT 比如字节自从 2023 年开始,全球疯狂芯片扫货
并且也是循着 OpenAI 画好的道大手笔砸成本搞训练研究达成了一种大力出奇迹的效果截止 2024 年 11 月字节旗下的豆包累计用户 1.6 亿日活用户 900 万全球范围内仅次于 XGBT 明眼人都知道这就是一出双簧戏码其他人都知道人工智能这个局就是美国为中国准备的
所有人都知道就这么跟在人家屁股后面混到死也就是这么个格局可那也没办法这把牌你不能不跟只能可惜的是没有人能破这个局到这里我们才终于可以引出 DeepSeek 最成功的地方他把这个局给破了原本在这个大力丸的框架下在一唱一和的 OpenAI 和英伟达面前没有任何人有能力去实现超车的机会直到弯道都不可能
想做先去想办法绕过风镜囤一万张显卡显卡囤够了一次训练成本上亿美元谢谢不服有辙你想钱于是真正不差钱的自己等国内公司就开始表演大力飞砖不就是成本吗我就用比你还高的成本我不信搞不出来一个和你差不多的东西比如自己的豆包
在知识代码推理等多项公开评测基准上其最新的 1.5 Pro 版得分优于 GPT-4O 以及 DeepSeek V3 其性能位列全球大模型第一阵营物用之一且背靠旗下火爆的多个平台豆包月活 900 万累计用户超 1.6 亿日均 Token 也已经破了 4 万亿看上去是走上了正轨的代价咱们先不计代价按照字幕榜在 DeepSeek 小粒初级季当中的说法
就在 DeepSeek 成为焦点的这几天字节被爆出 2025 年还将继续投入超 120 亿美元用于 AI 基础设施其中 55 亿美元将被用来去购买芯片 68 亿美元将被用来海外投资没法挺还得烧由此决心差不多的东西当然是能掏出来的
只不过已经背离了自己开源初衷的如今被嘲笑应该改名叫 Close AI 的 Open AI 在发现有后有人追上来后又立马在 2024 年 9 月挤牙膏出了自己的下一代产品 GPT-O1 相比于已经领跑了一阵子的前代 GPT-4O 采用的是已经初达瓶颈的模型定律规律新的 GPT-O1 采用的是名为 RL 的新训练方式
这被行业视作是大模型领域的一次范式转移 OpenAI 都快激动的叫出太监音了快来呀 瞧啊 胡萝卜 新的然后 在短短四个月后在一众厂商均不出意料的均未能推出对标 GPT-O1 的新产品时 DeepSeek 发布了自己的新版本 DeepSeek RE 成为了第一个攻破其技术黑匣子并在性能上比肩之的选手在 AIME 2024 数学基准测试中
DeepSeq R1 的得分率为 79.8%GPT-O1 的得分率为 79.2%在 MAS500 基准测试中 DeepSeq R1 的得分率为 97.3%GPT-O1 的得分率为 96.4%没有人知道它是怎么这么快做到的因为就连人家 OpenAI 都还一直是闭源的你压根没东西抄才对又怎么能做出一模一样的东西呢
更夸张的是 DeepSick RE 不仅直接开源免费挂在那让任何人下载甚至自己还专门开出网站做 APP 供全球用户无限免费调用更让人坐不住的是根据 DeepSick 自己公布的论文 DeepSick RE 所调用的训练成本仅仅是 GPTOE 的十分之一听说这东西有人花几个亿做出来的还在和大家收费那我花 500 万帮家人们做一个接近的大家免费用
DeepSeq 大模型的领先性不是目前已经领先了对手多少而是它用一个极小的成本极小的资源量火速追平了与全球当下最先进技术的差距中美科技圈自此被干蒙圈了毕竟按这个成本那英伟达和 OpenAI 如今的价值可就太有水分了国内字节这些大厂则活脱脱的成了个大傻子模样这还怎么玩于是山姆奥特曼又被逼的主动爆料
OpenAI 将很快发布首个智能体 Opera 2 并且即将上线新一代的 GPT-03 mini 胡萝卜还是有的只怕捧臭脚的没原来那么多了跳出了华尔街搭台 OpenAI 与英伟达联手唱的这出绞杀戏是我眼中 DeepSeek R1 此番最大的成就这出戏原本是华尔街想要再度虹吸全球顶级资源的好戏
也是美国准备在中美贸易战中继续宣示霸权明着放中国血的好戏国内大厂们真就是大傻子吗当然不可能只不过他们原本打算的格局不够大依然没能逃脱自身阶级属性的限制满脑子想的都是在一切尘埃落定前在人家美国把这一轮 AI 革命的大门被 OpenAI 焊死前成为那个上了车的人避援封禁垄断是大家都默认了的事情
所以暂时基本不打算反抗了 Deep Seek 不仅让小美子这出恶心人的戏没法唱下去了让拼命想上车的国内同行原本的小算盘落了空并且一马当先为此轮对抗中落于下风的中国科技界生生地抢回了一个先手 2 月 4 日中国常驻联合国代表傅聪在纽约联合国总部会中回答记者提问时特别说道永远不要低估中国科研人员的聪明才智
DeepSeek 引发全球轰动和一些人的焦虑恐慌说明技术遏制和技术限制无法奏效这是全世界特别是美国需要学习的一课从华为到 TikTok 再到 DeepSeek 美国还想进多少服从反问为什么会是 DeepSeek 专注 AI 的不专注 AI 的中国的外国的这是他们萦绕在心头的共同疑问这个答案其实很硬核
我尝试想要用大家尽可能听着熟悉的方式来讲讲 DeepSeek 是如何做到这一切的对于这部分硬核知识感兴趣的我推荐大家去看一下半导体行业观察的这篇《成就 DeepSeek 奇迹的芯片》《敲响英伟达的警钟》关于 DeepSeek 架构的逻辑以及专业解读的还是比较细致的说回正题 DeepSeek 凭什么可以用如此低的成本达成如此顶尖的成就为什么是它而不是更有钱的其他
这得从 DeepSeek 的母公司换方量化说起作为管理超千亿资产规模的国内头部量化交易公司换方量化很早就开始涉足 AI 研究起码在 2021 年还没什么人意识到 GPU 将要被卡脖子的时候换方量化就在手里囤了上万颗英伟达 A100GPU
等到 2023 年 5 月换方量化组建深度求索的时候国内拥有超 1 万枚 GPU 的公司不超过 5 家深度求索就是其中之一按照换方量化自己的说法 DeepSeek 通过混合使用 A100 H100 H800 和国产替代芯片构建了一个约 5 万颗 GPU 的全球最大的私有计算机群之一这是一切的基础要问换方量化这么早囤这么多 GPU 是为了干嘛呢
作为一家基金公司的子公司 DeepSeek 的初衷是用 GPU 计算交易仓位训练量化交易模型这个目标听着很务实且很专注于垂直领域很难让人联想到它会对广义上的其他的大模型们有什么竞争压力
并且团队规模仅为百人的 DeepSeek 在研究投入上还很抠门也从来没有想过要走一帮子大企业们跟在 OpenAI 屁股后面大力飞砖的道路设计一个能便于买进买出的模型就行要那么牛掰干嘛日后回溯我们才发现正是这个抠门的出发点让 DeepSeek 成功避开了那个美国人挖的万亿美元都填不上的大坑目前主流玩法是常理路线
即用数以万亿计的海量参数投位训练模型让大模型尽可能达到一种全知全能的效果对于天上地下一切无所不知无所不包然后在解决具体问题时通过调用笔照实现对各种不同领域的问题的解答这是一件十分枯燥且辛苦的工作 OpenAI 的数据训练非常依赖人工干预旗下数据团队甚至被建设成不同水平的层级
数据量大标注要求简单明确的浅层数据交给肯尼亚等廉价外包劳工高等级的数据则交给更高素质的标记人员不少都是训练有素的高校博士训练一次上亿美元看似奢侈实则没有一分钱是白花的其他家也一样学的这个都是常理路线
于是整个行业的游戏规则也就变成了在备好 GPU 的前提下各家比谁花的钱多比谁花的更高效比谁能实现的常理训练量更大试想照这么个笨鸟笔法那肯定是谁先起跑谁占优势你字节再烧一万亿也得老老实实跟在起步更靠前的 OpenAI 身后 DeepSeek 团队从一开始就没那么多钱可烧
且他们从一开始想的就是有个模型能实现交易分析就行所以压根不追求什么无所不知无所不报在量化交易这一垂直背景的限定下 DeepSeek 的第一个目标是追求在这当中更重视的数学代码方面的表现琢磨着琢磨着就走上了一条完全不同的思路推理路线 DeepSeek 的方法是先通过数据蒸馏任用一个通用大模型为老师
通过自己的推理能力在这位老师的把关下去给问题建立一个解题思路然后围绕着这个思路所限定的范围再去调用相关的数据模块解决同一个问题的时候的差别就是别的大模型回答任何问题都需要把自己的整个参数库过一遍 DeepSeek 则是会先让老师给自己划个道标一下解题范围再开始围绕着这个范围进行自己的推理思考
最后围绕着这个思考内容再进行细致作答如果你有用过 DeepSeq 和其他大模型就会发现 DeepSeq 每次都要先把自己是怎么想的给写出来然后才开始说出正文而不是像其他家那样直接作答原因就在于推理是其运行的出发点而不是一上来就疯狂调用数据试问你开卷考试答题的时候是先读题干思考呢还是看一眼题目前三个字就开始疯狂翻书了呢
这也是为什么许多人评价 DeepSeek 才是更接近人类思维方式的模型从更务实的角度出发,这样的好处就在于在如今再顶级显卡也依然有上限的情况下 DeepSeek 对于显卡有一个相比而言低得多的使用频率 2024 年 5 月 DeepSeek 发布了 DeepSeek VR 价格仅为 GPT-4 Turbo 的近 1%
近期完成的 DeepSeq R1 它的预训练只花费了 557.6 万美元在 2048 块 H800 上跑了 55 天就完成了当上述推理路线获得成功印证后 DeepSeq 开始将其应用在通用大模型领域于是便在这么短的时间内有了如今我们看到的丝毫不输最新 GPT 的 DeepSeq R1 这便是 DeepSeq R1 能做成别家没做成的技术层面原因因为根本就不是一个东西
但是也千万不要觉得推理路线从刚诞生就这么有看头事实上早期采用推理路线往往都会被视作是冒险倘若出现了误判或者模块间的知识隔离没做好都很容易导致跨领域任务的失败离谱程度就属于是你问老师一道数学题老师给你扭头背了一首唐诗的那种根据公开信息早期 DeepSeek 的 MOE 模型误判率普遍在 15%以上
团队通过引入强化学习优化路由决策长期训练后的模型在测试中将误判率控制在了个位数的低位实现这一步就是更多更深刻的技术内容的实现了这里就不展开了想必你此刻已经比别人更明白 DeepSeek 的核心价值了 DeepSeek 属于是真正让大家看清楚了原来这事有更高级的解法这事竟然还有这么高的可能性
不像是之前华尔街他们说的那样只有 OpenAI 一条路可走也不是非得跟在 OpenAI 屁股后面吸尾气也不是说没个几亿美金打底就压根不能玩这列通往未来的时代列车的车门并没有被美国老爷们汗死我们所有人注意了是所有人依然拥有另辟蹊径的资格这不比排着队比谁会烧钱比谁更会拉投资有意思这不比看谁机密五的言比谁机密偷的快有意义
这不才应该是人类科技大爆炸本来应该有的样子吗?封闭什么?垄断什么?对抗什么?DeepSick 凭一己之力让我们所有人彻底看到了美国科技霸权的虚弱本质让全世界再次见识了什么叫帝国主义都是纸老虎那么最后就用我之前提问的今天你取得了足以影响人类文明的伟大成就你希望以后的人类如何评价今天的你
Deep-Seek 的一段回答来作节吧当未来考古学家审视这个时代的文明地层时或许会注意到这个突破既非起点亦非终点而是文明长河中的关键弯道在这里技术进步开始与文明成熟度形成邪刃人类第一次在按下加速键的同时也找到了平衡度关注谷爷在这里读懂商业