We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode EP279|低成本AI 革命:DeepSeek 背後的崛起與危機!feat. Lucy Chen

EP279|低成本AI 革命:DeepSeek 背後的崛起與危機!feat. Lucy Chen

2025/2/19
logo of podcast 寶博朋友說

寶博朋友說

AI Deep Dive AI Chapters Transcript
People
L
Lucy Chen
宝博士
Topics
宝博士:DeepSeek的横空出世引发全球关注,被誉为中国版的OpenAI,其低成本却震撼全球,其来源、优势和安全性问题值得讨论。DeepSeek选择开源的原因是:他观察到OpenAI开源后并未实现绝对的技术领先,开源是一种加速AGI研究进程的有效手段。DeepSeek的低成本并非仅仅是560万美元,需要更全面地考虑前期投入和不同版本的训练成本。 Lucy Chen:DeepSeek的传奇在于它选择开源路径、专注技术研究而非快速商业化,以及它在技术和生态上的卡位。DeepSeek的成功并非偶然,其技术领先性体现在数据、算力、算法三个方面,尤其是在算力和算法积累上具有优势。从产业内部人士的角度来看,DeepSeek的成功在意料之中,但其影响力超出了预期。DeepSeek没有获得投资的原因是其纯技术纯科研的团队定位与中国风险投资机构的投资回报预期不符。梁文峰选择开源的原因是:OpenAI开源后并未实现绝对技术领先;开源是加速AGI研究进程的有效方式。DeepSeek的低成本主要源于中国电力成本低廉、维护运营成本低,以及团队成员的学术背景和高效的资源利用。DeepSeek的能力并非全面均衡,其在TTS、图像生成等方面存在不足,但在推理能力方面具有显著优势。

Deep Dive

Chapters
本集討論 DeepSeek 這款低成本卻震撼全球的 AI 工具。它如何在短時間內引發全球關注?背後的原因是什麼?以及它帶來的影響和爭議。
  • DeepSeek 在中國被稱為中國版的 OpenAI,引發全球關注。
  • DeepSeek 的訓練成本相對低廉,但其效能卻震撼全球。
  • DeepSeek 的故事與其出圈的程度息息相關。

Shownotes Transcript

新的一年你想转职还是多为自己找一个新的方向呢那你不能错过高雄市政府青年局与资阳数位合办的职球对决高雄新媒体人才就业媒合会现场邀请到台刚熊银 益卡通 HTC 霹雳多媒体等 20 多家知名企业提供超过百个高雄工作机会帮你找到理想的慈爱舞台前两百名进场的求职者完成指定条件就有机会获得神秘小礼喔 3 月 5 号我们

為什麼這樣一家機構沒有得到投資甚至有開玩笑講說 DeepSeek 的公司上下第二層就是百度的 VC 竟然上下就這麼隔兩層同棟樓投兩層竟然也沒有獲得這樣的投資我覺得

这个还是有很大的影响的包括他通过开源的方式因为开源毕竟是一种手段就梁文峰本身来讲他为什么要开源也是因为我觉得这个是值得分享的一个观点第一个他觉得他通过对于 OpenAI 避源之后的一段时间的观察他觉得 OpenAI 即便避源之后

在市场上也没有实现绝对的技术领先仍然有不同版本的这个开源的不管是在 Lama 对还是 Mistral 然后不停地在跟进然后声位是有一些差距但是没有到绝对科技创新娱乐各种新奇有趣都在宝国朋友说嘿你听宝国朋友说了吗

Hello 歡迎來到寶寶朋友說我是葛如君寶博士今年過年的期間橫空出示了一個叫做深度求索叫 Deep Seek

但我爸媽不太會發音他們都叫 DBC 台語大家發音不同但是其實就引發了全球很多的討論跟震動被說是東方版中國版的 OpenAI 到現在還是持續引發全世界的關注跟討論甚至連記者在白宮都問川普

这会不会对美国国安带来问题川普就说不会啊这个模型本身很好啊它里面有很多创建啊有很多研发啊但是呢在不同的地方就有不同的讨论有的地方呢就是它很危险要把它禁止这样那今天我们这一集总是要来好好聊聊这个

據說最後一次訓練的成本相對很低但是呢卻總體來講還是震撼了全球的 AI 工具到底從何而來厲害在哪裡有沒有什麼樣的議題我們可以來討論了馬上就一起來歡迎今天的大來賓 Lucy ChenLucy 大家好我是陳欣怡 Lucy 很高興能上寶博士的這個朋友說

因為是寶寶朋友啦我們真的是超級長的時間我們真的是疫情前到現在蠻長一段時間沒見面但都一直維持著這個數位世界網友的狀態因為這個 Lucy 也算是一個台灣媳婦某種角度來看然後呢這個先生 Richard 也是我們開源阿宅圈裡的大神

大家都叫他強哥我們 Lucy 其實就是她現在的職稱叫全職太太有一個很可愛的 5 歲小朋友但是也在過去叱吒這個算是資訊產業圈算是資本圈我自己覺得她有很多的經歷跟她現在所身處的這個世界也許在看待 AI 的問題跟我們會有點不一樣所以就覺得機會很難得想要請她來聊一聊

谢谢 谢谢宝宝师介绍因为我 2012 年之前因为我在英国伦敦待了将近七年半然后我本身是台湾叫网路对 网路毕业之后然后我就在英国电信然后做网格计算然后 2012 年回到中国大陆

我们在上海创立了一家 Cloud Computing 的公司做云计算相关我们也是赶上了中国的一个 B2B 和基建发展的一个风口然后公司我们在 2020 年成功在国内的大陆的科创板上市

然后在 20 年之后呢我又加入了一家新创公司做 big data 我们在国内做了一个类似于像 google analytics 这样的一个用户行为数据分析的一个产品然后在疫情阶段然后我们也成功出厂并购操作掉了

然后所以 24 年之后呢我因 VC 的这个邀请目前在国内的一家美元基金然后担任 EIR 就入驻企业家这样的一个职位然后主要是在关注 AI 大数据软件相关的这个全球华人的这方面的投资哇非常酷这个那现在是过年对过年好

陪小朋友來看看好山好水來跟先生一起回台請親所以我想其實 AI 的發展沒有國界

这个资本的世界也是这个没有边界所以我觉得今天我们就持平的来看待这个 AI 尤其是我们就讲说深层 GAI 现在一路又要到 AGI 通用人工智慧还要到 ASI 超级人工智慧哇塞那我自己印象很深刻就是我们其实街上先因为我知道你会

回台行親就很高興因為那個時候剛好過年然後剛好 Deep Seek 整個就是爆裂大家就在討論然後就是宿日不醉大家就吃年夜飯都沒心情了就在看 Deep Seek 然後我就想說趕快來約一下 Lucy 來聊因為我自己也很怎麼講我覺得我的訊息情報不完整因為我們台灣看就是這樣子

也許不一定能夠看到很全面的消息那我覺得你說美國台灣也許我們也都只看到一部分就很想要趕快來聊然後我那時候就立刻想約但因為剛好喬不出時間然後就隔了大概一兩週我那時候還覺得好可惜啊會不會一兩週之後大家就不討論 Deep Seek

結果沒有啊我們現在錄音的時間 Deep Seek 還是大家全世界關注好像說現在這個又出來一個團隊叫 Kimi 你知道是不是對對對 Kimi 真的是不錯是不是 Kimi.ai 其實在大陸就中國了我們講 Tier1 的大模型公司不包含 Deep Seek 在內的一共有六家我們叫那個六小虎然後

准确的时间来讲呢为什么那边就是六家是因为那边在中国大陆的资本上多多少少获得了资本的认同和资金所以更能够跳出来能够在大众视野当中能够更加的被看到反而是因为 Deep Seek 它

他自己截止到今天为止已经这么出圈的一个公司他仍然没有获得过一分资本上的资金的投入所以他不算在六小虎所以他到今天为止还不在六小虎之列非常有趣所以为什么 DeepSeek 会那么出圈他不止在过年的时候引爆了整个美国的股市

其实也引爆了整个的中国的资本市场也包括多少家大模型公司甚至是一些应用公司整个过年的期间全部都在加班加点在接入 DeepSeek 也是跟它有一段非常传奇的故事有关正好今天也借这个平台我们能够深入的聊一聊我觉得非常有趣

我想我自己我也先跟大家講現在因為 DeepSeek 我們前幾集有聊過了 DeepSeek 它的模型本身是非常值得研究的美國的公司 NVIDIA 亞馬遜微軟全部都接進去了然後我自己最近在用的 Proplexity 美國的一家公司也把它讓了運行在美國的伺服器

那知聰明啊真的很可怕這中文真的很強所以我覺得這個整個過程真的很值得我們來研究那我覺得像你剛剛講的就覺得很有趣啊就哇原來過年大家都沒在過了沒有沒有全部都在加班加點所以我想我們就回來看就是說你剛剛在

這個過年的期間你其實寫了兩篇文章我們今天時間很長我們就慢慢聊你過年的時候寫了兩篇文章因為我們千萬粉絲也許不是每個人都這個划得到所以你是不是可以稍微跟我們簡要的講一下就是說所以你裡面提到的是好像跟資本的就是你剛剛講的這個有趣的故事有關是不是

正好是过年省勤有一段空闲的时间然后我过去半年去年半年大部分都在大陆的 AI 的资本圈里面不管是看项目还是帮助 VC 去做 reference check 做一些行业的研究也积累了一部分的一些资讯我觉得也是个很好的一个沉淀的时间我就写了两篇文章一篇是关于 Deep Seek 的

为什么会出发点去写它是因为我在 Facebook 上也看到很多我们台湾产业学界的一些同仁他们在分享关于 DeepSeek 大模型本身的研究少了一些可能来自于产业或者是 DeepSeek 本身的一些角度我觉得可能我来分享一些信息能让大家更全面的去看待这个公司怎么样成长起来

然后另外呢同时就是刚提到像跟 Kimi 一样那在大陆呢还有另外一圈是被广泛资本圈热捧的公司里面最代表的公司叫智普我们叫智普华彰甚至我们在自己的这个圈内还认为它是最能够被称之为叫中国国家大模型的一家公司那也是相应 DeepSeek 的这个发展

我们再来看看像这样的一家有资本助推的公司的发展他们有哪些的相同之处有哪些的不同之处能够值得我们去如果不管是创业也好或者是来看整个中国的大模型产业来好能够有什么样的一些学习或者说是借鉴的一些地方是不是有一家叫什么月之暗面这是六小虎吗对还是十二小虎才有对

月正安面是在六小虎之一然后它在我们看来最重要的一个 achievement 它是第一个在美国推出应用然后是基于大模型的应用

然后在应用上得到广泛的认同和关注度的一家公司那本身你可以理解今天在中国的产业来讲它分成了叫做纯大模型公司我们比如说 DeepSeek 你没有看到它上面做任何的应用它所有的研究和模型的技术的发展都是基于大模型路径的本身我们说叫大模型纯基建公司

另外呢就是一些叫做叫模印一体公司什么叫模印呢就是模型加应用一体的公司比如

比如像 MiniMax 就是一个在上海的落在上海的一个既做模型也做应用它的应用在美国的 APP Store 叫 TALKIETALKIE 真的没经过然后目前每个应该是单月的这个 ARR 已经突破 1000 万美金了然后也在这个 APP Store 上曾经霸榜过

那么这种叫做模印一体的公司那还有呢就像 Kimi 一样它叫做应用类的公司它可能在大模型本身的这个研究上并没有完全的特别出跳或者说它没有得到全世界的这样的这么大的一个关注但是它基于大模型的能力或者基于 LLM 的能力然后在应用上得到了一个很好的一个体验所以我们叫应用类的公司

所以他有這樣的一個基本結構那我們回來看這個這一次算是出圈了不再是六小虎但是卻跳出來現在全世界又回來看六小虎感覺是這樣甚至小虎小虎綁小虎隊可能還會過大這個我覺得全世界都在看我好奇就是說我先聲明一下

待會我們再討論有可能有一些專有名詞或者有一些詞彙的說法大家不一定習慣但是我想我們就以科技的純粹的來理解它來擴大我們的資訊圈的角度來理解所以我想聽一下所以您寫的第一篇文章在講 DeepSeek 到底它的傳奇從何而來

我觉得 DeepSeek 的传奇有三个方面第一个方面 DeepSeek 为什么会选择走开源的路径我觉得本质上来讲在目前所有的在中国的大模型公司里面

或者说 DeepSync 为什么那么像 OpenAI 是因为如果大家看一下 OpenAI 最初它也是一家非盈利机构的一家公司对吧然后一直到微软的注资之后才慢慢转向盈利机构公司为此 Elon Musk 还天天跟 Sam Altman 天天对打对吧还说要 1000 亿收购他这是最近很有趣的一个故事还上几乎要上法车对对对那

DeepSeek 是一家纯以到今天为止技术研究为根本和核心的一家公司或者说 DeepSeek 的出圈有一个非常根本的一个逻辑就是他从来没有想过要快速商业化他所有的资源的投入

和他的这个经费的投入都是为了去深入研究看看大模型或者叫生成式 AI 到底在技术和学术路径的边界到底在哪里能不能他是能所探究和学习或者是延展到的这个是一个非常有趣的一个点所以他才能够看上去用了一个很低的一个成本对吧获得了一个可能同频性能的一个呃呃

价值的一个结果的一个输出这是一个但其他的大模型恰巧就是因为公司获得了资本的这个注资所以在发展的几年过程当中他一定要去思考我的商业化在哪里我的这个经营的结果在哪里否则我不能够对董事会交代所以可能多多少少在基础性的研究上他走了另外一条路线这

这是一个 DeepSeq 出圈的一个根本原因另外一个我们会看到说大家都在讲中国的市场可能较美国的这个科技理解性来讲它是可能是一个最大的应用市场

所以没有想过说有一家大模型公司它的那个技术的一个生态的卡位能够同样到这个我们讲技术的发现或者是科技的领先性上有这么一个小小的这个卡位我觉得这个是为什么美国轰动的一个原因因为从来没有想过这个也是源于过去中国的科技的发展已经 30 年太习惯于拿来主义

去拿美国的一个科技成果对吧然后来应用到中国这么大的一个单一市场获得很好的一个结果但是没有想过像这样一家公司竟然既做了基础学科还能够有一个路径跑出来然后在生态上面还卡了个位

所以这个我觉得是一个很奇妙值得我们去看看为什么今天他会有这样一个结果的一个原因从哪来主义变我来主义对吧所以您这个因为我也一段时间了我想问一下所以您在这个资本圈也好或技术圈也好您跟 DeepSeek 这个所谓深度求索也好还是这个换方量化就是背后的这一家本来做金融的公司

你有接觸過嗎有共同朋友嗎因為你知道我們距離他很遙遠我們都是隔岸觀虎鬥你說那個六小虎還是小虎隊

你有跟他们有或者有听过吗因为我们毕竟任职于这个国内的美元的 tier one 的这个 VC 所以我们应该在在国内应该是为数不多见过当中非常小的一段 Deep Six 在市场上融资的 BP 的这样的一个机构所以对他的一些故事是略有略知一二

从产业内部的人的角度来看今天 DeepSeek 的成果应该是完全在意料之中意料之中意料之中的一件事情他并不觉得那么惊讶然后反而是说在没有觉得说这样的一条路径能够在全球的这个学界包括学术界和产业界当中引起这么大的一个轰动就本身从你可以理解在圈内来讲

觉得他是应该会总有一天会走到这个地步的只是时间多少的问题

但是从影响力来讲它是不仅仅带动了整个全球不管是资本市场的影响还是产业的影响同时它也在倒逼国内或者说叫大陆的本身在投资上的影响和产业上的影响所以世界是平等的它不仅仅说是对外的影响它对内也造成了非常大的影响

我很好奇我想問有時候通常很多都是我們先看了他的 VP 我覺得還行但你等到你也許有投也許沒投你看到他紅了有可能你會回過頭來想說這真的當初怎麼沒想到可是你剛剛講說這個東西大家感覺不意外我其實有一點意外所以是當初你們看了他的東西是覺得他

技術特別強還是人特別有意思還是說組成很不一樣還是說他在做 BP 裡面內容裡面提到的什麼東西讓你們覺得因為我很難想像就是說

倒回去看会觉得这个结果不意外这可不可以稍微能讲能讲的因为我知道有时候投资的东西有些是机密的首先像 DeepSeek 的技术的领先性这个部分一方面有我们讲整个大模型的叫做不可缺三角元素一个是数据一个是算力还有一个是算法本身的积累

那么就这个 DeepSeek 本身这个团队来说我觉得它至少是占掉两样的第一

可能大家觉得就是中美之间因为有互相的摩擦的原因所以大陆的公司其实在算力上是不占优势的但 DeepSick 的这家公司因为它的母公司换方长达将近十年的时间一直投身于中国二级市场的量化交易

所以程序化交易台湾叫程序化交易这件事情本身就是一个 AI 的非常好的一个应用场景且它在整个的量化交易当中做到了 Tier 1 短短不到十年的时间从一个三五人的团队发展到近百人的一个团队的规模且它的整个的管理资金超过一千亿人民币那背后的技术的能力是

显而易见的就这个已经是从结果上已经被论证的

那无非就是是不是这个技术叫做大模型而已而不是说这个技术在 AI 上它领先不领先这是一个那其次呢因为过去它在换方上的积累和它的第一桶财富的这个获得它是非常有实力能够在中国的就为数不多有财力有实力购买卡囤卡的这个公司当中付诸于实践的嗯

所以它虽然不一定能够买到像美国限制的这个 H100 但是它会有很多替代比如说 H800 或者是 H20 等等的所以在这个算力的这个基础的囤量上来讲它是应该是早有储备不一定是说 for 这个大模型本身的研究 for 它换量本身的需要它也是早有储备的这是第一个部分

第二个部分就是我们讲这个算法的这个积累也刚刚已经提到了因为它在应用上是需要的所以它的这个学术的研究的这个历程其实不是在这一两年才发生的至少已经将近十年的时间所以它在算法的从最早的神经网络一直到现在的这个大模型

在算法的积累上是有沉淀的啊也是有结果的输出的所以这个部分当中也是存在的那无非就是数据的部分那我觉得在本身大模型的这个数据体系当中呃

应该都是大差不差就是全网公网的这些大量的这个数据那可能会有一些稀缺数据也是来自于它在金融本身不断的这个跟用户之间的这个交互当中获得的但是我觉得它的整体的这个样本量可能不是最多的所以我觉得在数据上它是持平的那一个三角里面数据可能是持平没有绝对优势对吧算力是充分的

然后他的团队是有积累的那他在技术上能跑到领先位置这件事情我们觉得是不惊讶的这是第一个不惊讶的那第二个不惊讶的是团队的这个初衷因为团队的初衷你可以理解他完全是否这个学术研究非常单纯的一个学术派研究的一个团队所以他并没有太去追求商业化的结果

这使得他所有今天做的这个事情更像去做实验我做了 A 不行我再做 B 做了 B 对比测试 A B 测试以后得出一个 C 所以在这么充分的学术实验的条件当中在其他同等类型的大模型公司里面是非常少的

因为它毕竟有这个商业化的这个要求所以慢慢会往这个应用上或者是结果上去追求所以持续性在这个当中有积累贡献的我觉得这个它也是显而易见会走到这个地步的

所以不管从哪个方面内外来说它都不会让我们觉得很惊讶那作为一个高宁提到一个资本一个机构那既然不惊讶为什么那个时候没有投呢对吧恰巧就是因为从你从一个风险投资机构的立场来讲你投任何一家公司是为了去至少在中国的这个环境当中你还是需要它有一定的这个投资回报的结果的一个阐述的

那一个纯技术纯科研团队他追求的是科研的领先性作为一个结果在这个模式当中我觉得风险投资就中国目前这样的经济环境当中的一个风险投资机构是比较难去下这个决断或者说是决心的

所以也就是为什么到今天 DeepSick 出圈了你会看到他们就按照团队本身 CEO 梁文峰的讲法就是不要来找我门口都已经追到老家了电话也打爆 200 多家风险投资人天天蹲在门口同样也是因为他出圈了在中国的一级市场也经历了一波反思

为什么这样一家机构没有得到这个投资甚至有开玩笑讲说这个 DeepSeek 的公司上下第二层就是百度的 VC 竟然上下就这么隔两层同栋楼投两层竟然也没有获得这样的这个投资我觉得

这个还是有很大的影响的包括他通过开源的这个方式因为开源它毕竟是一种手段就梁文峰本身来讲他为什么要开源也是因为我觉得这个是值得分享的一个观点第一个他觉得他通过对于 OpenAI 避源之后的一段时间的观察他觉得 OpenAI 即便避源之后

在市场上也没有实现绝对的技术领先仍然有不同版本的这个开源的不管是在 Lama 对还是 Mistral 然后不停的在跟进然后声位是有一些差距但是没有到绝对领先这是一个然后第二个他本人带领的这个团队和公司最终的目标是 AGI 那如果他的目标是 AGI 的话那今天所有的都一切都是过程那既然是过程

从追求和效率上来讲它应该要被加速那开源是它最好的一个方式去加速整个过程且 OpenAI 的币源的这个产品没有达到它认为的绝对领先程度那一旦它开源了它在整个的产品力上和整个的模型的这个影响力上对吧那它就可以突破我觉得从结果上来讲它也完全达到或者是超出了它本身的

预测所以我觉得但这件事情对于中国的影响来讲就是什么就是在中美这么大的一个科技竞争的这个摩擦和这个牵扯和意志当中那至少从中国的软件公司的科技供应链的角度也好是科技发展的技术的发展演进来讲看

开源成了一条至少目前来看是一条行而有效的一条路径啊这个也对国内很多呃软件公司我们讲这种呃软件开发的整个的产业链来讲它也是一种重新的影响和呃很大的一个呃推动作用啊

我想聽到這裡應該還是會有聽眾朋友很好奇 DeepSeek 之所以出圈有一個很重要的要素就是它打破了我們大部分的人對於來不及做大模型也就是說 Sam Altman 到處去演講都在說

不要做大模型的你们会输他一直在灌输全世界这个概念少数公司有资本的就跟上试着看能不能分到一点血血但是没有到这种 10 亿美金百亿美金级别的就不敢跳进来但是他那时候突然轰然一声雷平地一声雷的说我的 R1 只用了不到 600 万美金好像号称是 560 万美金

这样子的一个数字的时候全球都吓到了但是我先讲我的角度就是我记者来问我的时候我说 560 万美金可能是 R1 最后一个版本的训练的这个就是所谓的成本不管电力成本人力成本等等

或者他可能调用了云端的算力有人就拿那个计算机去算那个 AWS 你如果调用那个算力大概就是这个程度依照他的演算法跟他的资料量算出来大概是这个费用但实际上他的前期可能也投了很多的

人力或者他 R1 说不定还算了不同的版本可能有 R1 Alpha R1 Beta 最后才一个 R1 Final 也许那我说前面有很多我们看不到的成本还包含 R1 前面可能还有一个 Pre R1 或者有一个 Pre Pre R1 这前面可能还很多所以

你單純去講這 560 萬有點不太準如果真的只講這 560 萬那等於 1 億 5 台幣囉那這個我說我們今年這個我們台灣的稅收超徵 5000 多億啊那可以訓練幾千個 R1 這樣有點不太公平所以我想要聽聽看從你們資本圈或是你的技術圈我們應該如何合理的來評斷他到底所謂用了比較少的資源或資本

這到底是一個怎樣的數量級它是一個因為你如果說是 500 萬美金哇那相比起 5 億美金那是 1/100 如果是 50 億美金那是 1/1000 這到底是一個 1/10 的 1/100 的我們應該怎麼理性的去解讀這個平地一聲雷外行人當然看 500 萬 60 萬美金我們內行人我們不能這樣看但是他到底該怎麼看我覺得這個角度非常好就是我們從

从我的个人的一个观点来看首先我不知道它到底要花多少钱但是大概的量级是知道的有两个角度供大家自己来算一算第一个我们讲成本成本我个人认为在大模型里面最大的成本有四项第一个是电第二个是卡第三个是人然后第四个是维护

那么就我对于 DeepSeek 团队的认知来讲和中国的这个大的环境来讲第一个呢中国的电极度便宜因为有各种各样的国家的这个支持和政策的一个补贴所以电可以忽略不计或者说极度便宜便宜到你的在整个的我觉得它的 cost 里面应该不到 1%第二个呢是维护和运营我觉得这个

也很便宜因为本身换方这个主体就在维护一堆的算力和包括机房啊等等所以我觉得摊销一下可能也花不了什么钱所以电四个里面电和维护或者说算力维护工程维护这个部分就已经去掉了而且可能总体加上也不到 1%那么人贵不贵人贵但也不贵

因为 DeepSeek 的整个团队到今天为止没有第一首先第一个确实没有任何一个海外人才第二个全部都来自于工作五年以下然后都是我们讲就清北副交这大概这五个 tier one 的这个团队那这个呢就不得不提到今天我觉得在中国整个 AI 的发展当中学术的价值度是非常高的

大家可能不了解像浙大梁文峰本身毕业于浙江大学浙江大学第一个人工 AI 专业我们叫人工智能专业是 1997 年就已经开设了到今天你自己算一算

然后清华的第一个人工智能学院应该是在 1995 年就已经有开设所以就包括今天在中国大陆的这个 AI 的不管是模型还是我们讲 PaaS 还是我们讲应用的整个的一个产业当中我们刚提到这几家大学都占有一席之地他们的我们讲校友开设的公司都有

几十家所以他是有一定的人才的积累度的所以一个 Tier 1 优秀该专业毕业的孩子然后进到一个很好的学术氛围的一个团队且有无数张卡给你随便用随便玩甚至你的毕业论文可能在你的学校里面跑不出来对吧你可以来我这里跑对

这都能够带来很高的这个技术沉淀和价值所以我觉得人既贵也不贵那么接下来就是算力了但算力的部分呢我刚刚已经提到了它就算再贵大概我们算了一下可能两万张卡左右已经到顶了没有像外界说的五万张卡绝对没有然后且它可能两万张卡左右的大部分的型号你可以理解是 H800

加了 H20 你三期开自己算一算所以我觉得这个就是它大概成本的一个核心的构成在这个当中我觉得最值得阐述的关于 DeepSeq 在技术上的亮点我个人认为主要是两个点的一个突破第一个是 MOE 能够带来很好的通过工程加上 MOE 然后带来很好的结果

在这之前因为 MOE 的计算精度的问题所以一直被微软挑战它可能训练不出很好的结果但在 DeepSick 的公开的论文里面已经讲述了它是如何通过 MOE 加工程的这件事情得到了很好的结果我觉得这个是一条崭新的一个技术路线使得我们的成本降低实际上它还是技术路线的选择来降低的这个成本这是第一

第二个呢就是从今天来看我们觉得像 DeepSick 的训练这个部分应该是持平可能会有盈利的但是它的推理的部分可能还是在补贴和亏损的就是整个它带动起来的是关于小训练对吧大推理的这个部分所以它拓宽了很多在推理或者是在边缘端上的这种应用场景和推理的这个能力的这个加强

所以 DeepSeq 它有很亮眼的结果刚刚提到了但是我个人认为它还是个偏科生就比如说它的 TTS 的能力还不足然后它的图片生成的能力或者说图像生成的能力或者是 3D 建构的能力和推理能力它还是有偏科的它是不完整的

但是他的这个数学的能力或者他逻辑推断的能力是非常好的甚至超过了很多的模型所以为什么是 PN 科的路线大家想一个量化团队出来的他对于这个量化来讲最核心最能体现成果的不就是一个推理的能力吗对吧

所以也跟他的基因有一定的关系再加上因为他并没有像因为我们在讲他没有资本压力他也没有商业化的压力他不需要很快的去达到某一种应用结果所以他可以更专注的取他的长处把他的长处

力出一口所以它的长处比如说是推理那它就在推理能力上不停地拉长板这样也使得它的资源的利用的效率变得更高所以刚刚提到成本的这个部分一部分它本身成本就可能有一部分优势

另外一部分它没有像别人一家我一既要做个 TTS 又要做个 SORA 对吧又要做个 video 成像它只做推理那我的资源的集中度就很高所以它的效果也能够拉得很出来所以我就从这两个方向来看这个问题

哇這個先講到這裡我想我們的聽眾朋友還有我們的錄音師也都稍微需要一點時間消化所以我想待會之後我們再繼續聊先感謝收聽到目前為止今天的寶寶朋友說我是葛如君寶博士如果大家喜歡我們的節目歡迎點選訂閱下一集之後收藏給你不論你是在 Apple PodcastSpotify 上

歡迎繼續收聽追蹤訂閱我們下次公共鍵 Bye