We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode EP162. 輝達 B300 強在哪、川普陣營首次內戰、中國 DeepSeek V3  | M觀點

EP162. 輝達 B300 強在哪、川普陣營首次內戰、中國 DeepSeek V3 | M觀點

2024/12/30
logo of podcast M觀點 | 科技X商業X投資

M觀點 | 科技X商業X投資

AI Deep Dive AI Insights AI Chapters Transcript
People
M
Mula
Topics
Mula: NVIDIA發布新款AI GPU B300,算力提升50%,功耗增加20%,並調整商業策略,從銷售整機轉向銷售GPU模組。 市場上關於NVIDIA的利多利空消息互相抵消,長期投資者應保持耐心。 川普陣營就H1B簽證政策爆發內戰,馬斯克等支持放寬高技術移民政策,傳統共和黨支持者反對,最終川普支持放寬,暫時平息內戰。 中國DeepSeek公司發布DeepSeek V3大型語言模型,在多個基准測試中超越歐美一線模型,引發對美國AI晶片戰略和歐美AI公司發展模式的質疑,其訓練方法可能涉及模型蒸餾等技術。

Deep Dive

Key Insights

NVIDIA B300 的主要改进是什么?

NVIDIA B300 主要改进包括算力提升 50%,功耗增加 20%,以及内存从 192GB 提升到 288GB。这些改进使得 B300 在处理推理模型时表现更好。

NVIDIA B300 的商业策略有何变化?

NVIDIA B300 的商业策略从卖整机和机柜转向只卖 GPU 模组和 CPU 晶片,给予下游厂商更多设计灵活性,从而提高市场接受度。

为什么川普阵营内部发生内战?

川普阵营内部发生内战的原因是关于技术移民政策的分歧。一方以马斯克和 Ramaswamy 为代表,支持高技术移民;另一方则担心这些移民会抢夺美国人的工作机会。

川普对技术移民政策的立场是什么?

川普支持高技术移民,尤其是那些在美国完成理工科教育的顶尖人才。他认为这些人才可以为美国创造更多就业机会,而不是抢夺美国人的工作。

DeepSeek V3 的主要特点是什么?

DeepSeek V3 是一个 6711 亿参数的大型语言模型,使用混合专家模型架构。尽管训练成本仅为 Meta 的 1/11,但其在多个基准测试中超过了 Meta 的 Llama 3.1 和 OpenAI 的 GPT-4。

DeepSeek V3 如何在算力受限的情况下取得如此优异的表现?

DeepSeek V3 通过使用模型蒸馏技术,可能借助了 GPT-4 和其他先进模型的训练数据,以及在模型架构上的创新,从而在较低算力下取得了优异表现。

Shownotes Transcript

欢迎来到 M 观点我是主持人 Mula 这里是一个紧跟科技趋势讨论热门时事并且分享投资与商业思考的频道每周一中午和周四晚上会在 YouTube 上面直播并且在直播结束后同步到各大 Podcast 平台上

我希望能够透过这个节目带着大家一起来学习掌握世界进步的主要动力科技创新商业思维以及自由市场的力量如果你喜欢我们的节目的话请按赞订阅分享及五星留言评价分享我们的节目给更多人知道也别忘了订阅我们的免费电子报 M 报你可以在资讯栏中找到我们节目的所有相关连结

哈囉哈囉大家好大家午安歡迎來到我們今天的 M 觀點今天是我們 M 觀點第一 P162 那這個

今天是 12 月 30 号明天就是 12 月 31 号 2024 即将告一段落那我们今天还不会做 2024 年的回顾我们预计应该是这个礼拜四我们会对于 M 观点以及一些投资的一些状况我个人的一些投资的一些做法我们 2024 年来做一个回顾那今天就是这个

等於是 2024 年的最後一集那很高興跟大家一起又度過了這一年那我們 M 觀點今天有三個重點第一個主題呢要來跟大家聊 NVIDIA 他們就在這個 Christmas 期間呢對外發表他們

即将在明年正式推出来的新的这个 AI 的 GPUB300 是之前的 BlackWare Ultra 系列的改名那第二个主题呢是要来跟大家聊一下 Maga 川普的阵营呢居然在上个礼拜爆发一个内战由 Elon Musk

跟所谓的这个 MARGA 的这个 KOL 之间产生激烈的对战到底他们为什么议题而吵呢川普最后选择了哪一个路线呢那我们今天最后的主题呢要来跟大家聊聊中国这边的 AI 的发展我们都知道中国这边呢因为被拜登政府做了这个 AI 的晶片的相关的经历嘛

所以他们在 AI 发展的部分永远其实都受到一些晶片算力的限制不过呢就在上个礼拜呢中国居然发表了一个非常厉害的大型元模型哦那就让大家想说到底这个所谓的晶片限制到底有没有用啊中国居然能够用比较小的算力比较少的资源就做出很厉害的模型

到底这件事情有什么意义呢那就是我们今天要跟他聊第三个主题但是呢在进入我们今天的主题之前呢一样先进入我们今天的业配时间哦那我们今天要跟大家业配的呢是我要抓一下图哦我们今天要跟他业配的是这个这个 nord vpn 是我们的老朋友哎这个图我要去哪里抓等一下会把图找找出来

那我想 VPN 大家都知道其实在这个年代真的是非常重要对不对这个年代我们要有一个好的上网的一个安全就是需要这个 VPN 那问题是 VPN 这个其实

市面上那麼多選擇 你到底要選哪一家呢我想我們合作多年的夥伴 NodeVPN 絕對是數一數二的好選擇啦那其實 Mule 老我自己之前就是大量使用 NodeVPN 那為什麼我要 NodeVPN 就是因為 NodeVPN 真的好用啊它速度真的很快啊那其實早期很多人都想說我們到底要不要用 VPN 因為

VPN 听起来不像是一个我们每一个人就需要直接去使用的一个东西对不对但是问题来了其实你要去想的是 VPN

在我们现在这个年代上网真的是网路真的对我们俩太重要了对不对我们每个人都是需要常常上网的那问题是你真的不担心你的上网安全吗我想上网安全这种东西很多人就想说我没那么重要我不是什么网红我不用怕我的资料被盗可是我觉得真的不是这样讲

你知道任何人长线来看都应该要小心自己的资料在网上被大量泄露像举个例子来讲你今天如果你有投资加密货币你担不担心你的账号密码被盗对不对被泄露或者是如果你今天有投资美股

其实我跟你讲其实这个真的都是有很大的风险包含了现在这个年代你上网不是都用网网路银行吗当然了现在当然有所谓的 two factor 各式各样的安全机制可是

從根源來看你不要洩漏帳號名的密碼不就是最重要的嗎所以我覺得一個好的 VPN 服務真的是非常重要的那在這裡就推薦 NodeVPN 給大家那我想 NodeVPN 這個真的是它速度很快是市佔率第一名所以而且你只要透過我們 M 關鍵專屬連結去購買的話購入他們的獨家方案就額外再送

4 個月的好理由還有 30 天內的退款保證那我們的連結是 nordhttpsnordvpn.com/mula 或者是你也可以輸入我們的專屬優惠碼

NIULA 就可以透过专属连结来购买我们专属的这个 M 观点的这个方案在这里推荐给大家那当然我们也额外替我们那个合作的节目 VK 科技阅读时间推荐一下他们因为 VK 阅读时间他是有个方格子订阅方案的

现在正在在年费的最后的一个优惠因为他们的周年庆特价所以呢想要赶在这个周年庆特价特别优惠的的价格定到这个一年的 VK 科技阅读时间的话赶快趁现在到方格子上面搜寻 VK 科技阅读时间哦

好啦那接下來就讓我們進入我們今天的主題我們今天第一個主題要來跟大家聊一聊這個 NVIDIA 的 B300 這個晶片我們知道其實 NVIDIA 現在在主力在賣的這個 GPU 現在哦其實是 H100 跟 H200 特別是 H200

那 H200 其實是之前 NVIDIA 他上一代的這個 AI 的 GPU 的架構我們把它叫做 HOPPER 的架構但是呢理論上在今年 2024 年呢 NVIDIA 要主推的其實是 Blackwell 這個架構所以這個 Blackwell 的架構最主要他們要銷售的產品包含了 B200 以及 GB200 這兩個

產品那 B200 當然就是純粹是 AI 的一個 GPU 那 GB200 就會再加上 Invidia 他自己的 ARM 的 CPU 叫 Grace 所以他 GB 就是 Grace 加上 Blackwell 叫 G 加上 BGB200 但是呢因為其實 Blackwell 在整個生產的過程中呢據說就遇到

各式各样的小问题都不能算是大问题但是遇到一些小问题所以其实整个 Blackwell 在量产的过程中其实是做了不少调整包含了他们一开始的整个全机柜的 solution 包含了一些艺人的方案都或多或少听到有些出现一些需要调整的部分当然啦因为我们 M 观点比较少聊这种什么供应链的一个东西因为这不是我们的专长嘛

所以大家只要知道一件事就是今年 Blackwell 出貨可能狀況是比原本 NVIDIA 預料是稍微不順一點我覺得並沒有真的非常巨大的影響我舉個例子就類似說本來預計今年年底要出貨可能

100 萬片 100 萬顆的這個這個這個 Blackwell GPU 那可能就只出貨個 70 萬顆類似這樣子但是還是對 NVIDIA 的營收有相當正面的貢獻但是呢我覺得 NVIDIA 呢他就記取了這個 Blackwell 這一代他有點不太順的教訓他們就要對他們產品做了一個蠻大的調整所以呢他們現在就是在今年的聖誕節他們就正式發表了

B300 系列那 B300 系列呢現在的 Blackwell 系列是 B200 所以 B300 你一看就知道哇他是一個升級版對不對那事實上在原本輝達他就是有這個系列的規劃在這個系列的規劃在他們今年 6 月份的 GTC 的時候他們的命名叫做 Blackwell Ultra 所以他就是一個 Blackwell 加強版的一個版本

但是呢我覺得他就是直接把它改名叫 B300 那我覺得也是淺顯易懂啊所以呢他們原本的那個產品呢叫就是 B200 Ultra 就 Blackwell Ultra 就直接改名成為 B300 那 GB200 Ultra 這個版本呢就直接改名成 GB300 就把原本的 Ultra 就變成額外增加個 100 大概是這樣子了好那這個 Blackwell 的這個

B300 這個系列呢事實上跟原本的 B200 的確做了不少的調整他的整個生產的製程供應呢一樣是透過台積電的 4NP 製程那 4NP 製程是什麼意思就是台積電的為了 NVIDIA 特別優化的 4 奈米製程簡單講就是一個 NVIDIA 專屬版的 4 奈米那

產品雖然製程是一樣可是他的晶片設計是有做調整的所以他預計他在同樣的精確度之下可以比上一代的 B200 提供 50%的算力提升也就是說

今天我們不講什麼記憶體的頻寬或者什麼其他的部分光晶片本身的算力的能力其實就比上來就比原本的 B200 增加 50%但是呢你為了要有更好的算力你就要花更多的這個能源嘛對不對所以它的耗電呢則是增加也是增加了如果我們只看那個我們

只看 B200V 也是 B300 這個純 GPU 的部分 B300 它的需要的耗電功率是 1200 瓦那 B200 是只有 1000 瓦所以它額外需要 200 瓦的耗電所以這個是 50%的算力提升但是卻增加 20%的功耗需求

那而且呢其實除了算力提升以外呢 Invidia 也說這一代 B300 呢對於現在所謂最紅最夯的 reasoning 的 model 推理模型就是我們之前跟大家介紹過 OpenAI 的 O3 模型這種所謂的推理模型它有額外的加強跟訓練就是它有針對推理模型的包含了推論包含了 influence 包含了 training 其實 B300 的能力都會有額外的加強

好那為什麼他能夠加強呢這裡就要講到 B300 的記憶體原本呢其實對比 AMD 來講 NVIDIA 在他的這個 AI 的 GPU 上面給的這個記憶體 HBM 都有一點點小氣但是當然了隨著 AMD 開始大量砸這個記憶體出來之後呢

IMMEDIATE 也被迫提升規格所以它在 B200 的世代它的記憶體就已經拉高到 192GB 那你要知道原本的 H100 每一張卡這邊只有 80GB 的 HBA 因為 HBA 很貴嘛

所以其實 NVIDIA 就想要省一點錢就是不要給那麼好的料但是 AMD 因為他軟體不行所以就想辦法在硬體上面堆料所以大家都可以理解他們各自的策略那當然啦 NVIDIA 在上一代 B200 的時候就已經把記憶體 HP 拉到 192GB 但是這個數字其實還是落後 AMD 了但是 anyway

而在最新一代的這個 B300 的規格直接把記憶體拉到 288GB288GB 所以比起原本的 192GB 基本上是 1.5 倍的概念你知道這更大的記憶體有什麼意義嗎就是 288GB 的記憶體這 288GB 的這個更大記憶體就可以讓跑

所谓的推理模型跑 Reading Model 这种类型的模型跑得更快速成本也会降低很多根据知名的半导体的自媒体 Semi Analysis 的一个论点他说其实要跑 Reading Model 他就必须什么他的每个 Batch

然后就每个批次的规模就要更大而且你的那个序列资料的序列长度也会更长那这个东西呢记忆体越大就能够支援的越好所以在他们的实测里面因为 H200 的记忆体比 H100 大所以事实上在处理更大批次规模以及更大的区

這個序列資料序列長度的時候他們就反應的速度就更快那當然 B300 的記憶體又更大了嘛所以依照同樣的理論來講呢更大的記憶體就能夠讓

B300 的次世代的 NVIDIA AI GPU 能夠跑的即使晶片本身都是一個 Blackwell 的架構但是它卻能夠跑 Read-A-Models 可以跑得更好所以簡單來講這 B300 的改版第一個它解決了原本 B200 的一些問題包含一些散熱一些規劃一些設計包含了一些算力的提升

而且把他的記憶體拉高那記憶體拉高這些全部加起來呢就是說除了針對現有的這種大型元模型更厲害以外針對明年的重點模型針對明年各家應該都會推動所謂的推理模型我的 B300 呢實力就更堅強

那以上我們講的都是產品面的調整事實上在接下來的 B300 的推出的時候 NVIDIA 在商業策略面也會做出一個調整那講到商業策略面我們就得先了解現在目前的 Blackwell B200 世代的策略上面 NVIDIA 到底怎麼做事實上

你知道 NVIDIA 他以前都是賣 GPU 的嘛那 GPU 一般來講就是你可以賣晶片或者是你在伺服器端你可能是賣一張那個你把它當成顯示卡就他們叫做一個模組就是一個顯示卡的模組你可以把

就我们一般人认识的显示卡其实就某个程度就是一个模组这样的概念那以前 Invidia 是卖这样可是在 Blackwell 推出的时候 Invidia 就很想说我想要赚更多钱所以我不想只是卖晶片或者卖单卡而已我想卖什么我想卖一整台的机器甚至一整个机柜

所以其實在 Blackwell 的整個發表的過程中其實 NVIDIA 他發表的東西呢他最搶大家目光的東西是什麼就是 NVL72 這一整個機櫃裡面有 72 顆 Blackwell 的 GPU 那當然這個版本呢就因為很耗電又很熱所以他就整個機櫃可能都要一冷之類的那當然後來出貨也不是那麼容易那很多人後來就買所謂 NVL36 就是一整個機櫃裡面有 36 顆

這個 nvidia 的 blackwell 的 gpu 但是當然了他們也有所謂的 dgx 什麼 hgx 這種就 8 顆 gpu 的這種機器在賣了但是

其实无论如果在 B200GB200 的整个销售策略里面 Invidia 就说我反正我就要卖整机甚至我要卖整个机轨而且所有的规格都我定的所以其他的这种说服器厂商你能够调变动的部分不多因为你要按照我的这个公版的一个设计但是这个样子的做法呢

好处是规格很单一那坏处是什么就是你的协力厂商你的下游厂商会不爽嘛本来这个东西是我设计现在你根本就把我的设计权拿掉你就叫我只能出这些一个公版规格的货那我的价值好像就没有了对不对所以呢在这一次呢在逼而且原本 invidia 他的这些所谓的 AI 伺服器有很多问题是这些伺服器厂商是 invidia 这些

下游的廠商幫你解決的嘛那現在 Invidia 你全部設計都要一手包那如果這個設計出了問題就不是下游廠商解決啦就是你 Invidia 自己去得解決所以 Invidia 等於說我為了賺到更多的錢我為了更主導整個市場那你就得扛更多的責任那這件事情對 Invidia 來講我覺得他們也是覺得相當辛苦啦所以在這一次呢

Blackwell 的下一代 B300 呢 NVIDIA 就做出改變了他做出什麼改變呢他就說好吧那我們上一代

我們想說我們要賣整機以及整個機櫃的這個做法呢有點衝過頭了所以我們這次縮回來一點那我們在 AI GPU 的部分我們就只賣這個整個模組啦我就一把想的是因為我們一般 PC 的顯卡是用這個 PCIe 但是在在 NVIDIA 的 AI 伺服器他有他自己的這個介面所以反正就是一整個機你就把一個 GPU 模組就當成一塊顯卡這樣子那他就專注在賣 GPU 顯示

GPU 的模組以及賣 CPU 的晶片 CPU 他就直接賣晶片然後呢然後等那你這些下游廠商啊無論是 HPU 無論你是 DELL 無論是 Supermicro 你買了我這些 GPU 模組買 CPU 晶片之後你要怎麼去設計這整台伺服器讓你自己去設計吧你的電源要哪一個然後你的其他的一些周邊的晶片組你要用哪一些你就自己去搞那那就當然了那這樣子下游廠商會比較

開心嘛 因為他比較有彈性他可以說我自己有哪些技術我就可以怎樣設計那舉個例子來講我的網路晶片到底要哪一個我到底要像以前就是 NVIDIA 的 BONCE 只能用他的但是如果接下來呢接下來 B300 他放快那其實你就可以買別家的網路晶片那像之前就有個報導

Meta 在買這個 NVIDIA 的 Blackwell 系列的時候其實他很想使用 Broadcom 的網路晶片但是呢 NVIDIA 不行 只能買 NVIDIA 但是接下來如果在 B300 世代那 Meta 可能就可以直接買 Broadcom 就是他自己訂製的這伺服器 AI 伺服器裡面他就可以買 Broadcom 的網路晶片大概是這個樣子那

anyway 其實我我個人覺得 invidia 在這一代 b300 這有點這個整個設計方面的一個縮手啊其實讓我感覺有點像 intel 對不對 intel 在今年不是他有個筆電的 cpulunar lag 可是我在這邊一直稱讚說是一個很不錯的設計嗎因為他的這個設計比較厲害的比較

也不能講他創新因為他是超 Apple 的但是至少對 X86 的這個處理器來講真的比較創新是他直接把記憶體封跟 CPU 封裝在一起所以他一次賣出一個 CPU 就是連記憶體也一起賣可是呢這個設計會省電而且速度也會更快問題是為 intel 後來就說這 Luna NEC 只是我們一次性的設計我們未來的成品不會這樣設計那就想說為什麼 intel 要這樣做為什麼一個比較好的設計你要取消呢對不對

那答案很簡單嘛因為你搶了你合作廠商的生意嘛原本呢我是 Asus 我是 Acer 我賣 PC 的時候呢我賣這個 CPU 的話我賣記憶體我也可以賺錢耶所以可是你現在等於是不讓我能夠賺到記憶體的錢

原本我可能跟某家記憶體廠關係很好他可以給我一個特別的折扣但是所以我可以賺到額外的錢但是很不幸的因為你現在 Lunar Neck 就把記憶體都包走所以我賺不到這個錢你是 PC 廠商你當然是有點不爽對不對

NVIDIA 也是一樣嘛原本你是賣 GPU 你是賣這張 GRACE 的 CPU 你賣這個東西給我好那沒關係那整台主機板這邊還是有很多其他的其他的晶片其他的原料其他的一些 IC 然後甚至我的電源供應器啊哪一家什麼我身為一個伺服器廠商我有很多選擇然後我可以我可能跟某幾家關係特別好我們合作特別好我們可以獲得額外的利潤

那這個東西呢你全部都給我公版設計然後我只能按照你的設計去出我根本就賺不了錢所以其實我覺得 Immedia 也遇到一種同樣的狀況就是 Intel 那個今年 Lunar Lake 遇到的狀況就是你 Immedia 想把什麼事情都統包那下面的廠商就說那我的價值勒那我原本賺到的錢勒怎麼辦勒所以

最终看起来 invidia 在这件事也会也会有一些让步有些让步就是好吧那我们就这一代 blackwell b300 呢我们就把这些原本你们做的事情还给你们去做那你们可以抓到这个钱当然对 invidia 也有好处因为 invidia 本来如果所有的设计跟规格都 invidia 全权决定那这个设计如果出问题那 invidia 负责解决啊

但是現在你丟給各家廠商那就是各家廠商攝服器廠商得自己解決的部分了那這樣子對 Emilia 真的是有比較大好處他就不用花時間去思考這些機櫃然後這些機器要怎麼設計是最好的他可以專心的把 GPU 做好把軟體做好把服務做好那我覺得這是 Emilia 我覺得他這樣選擇我不能說他是不好的

根据我们之前刚刚讲的 Semi Analysis 这个半导体的知名的自媒体的报道现在包含了亚马逊包含了可能微软这些主要的大型的 Hyper Cloud 超级巨型公有云业者都已经开始把 GV200 的订单直接改成 GV300

那這完全可以理解了因為其實因為 GP300 就是可以自訂嘛所以你以前就是買只好跟 NVIDIA 買機櫃然後你的整個機房得配合他來設置就舉個例子來你的網路你的網路的設備到底是不是跟 NVIDIA 的東西是能夠用到 NVIDIA 的網路的協定嗎還是你只是跑一般的醫生呢就會差很多嘛所以本來你都是要買 NVIDIA 的這整個機櫃的東西你就整個機房要依照他去

现在你买 GP300 就不用了你弹性就很高所以像亚马逊本来就是他整个机房就是亚马逊自己规划的很多都是他自有的设备那你就被逼的时候你是不是就只能全在买 NVIDIA 全道 solution

那當然這個亞馬遜當然也不見得會很願意但是現在呢變成 B200 變成 GB200 那你就可以依照自己的需求然後去客制化符合自己的機房符合自己的雲服務的規劃設計的一種狀況那我個人覺得這個 B300 的改動無論是他在產品力的上面提升你想

他的这个晶片本身的算力就提升 50%然后再加上更大的记忆体对于这种推论模型就会有更好的支援以及包含了他的商业模式的变更我都觉得让他变成一个会更受欢迎的一个产品所以现在看起来的这一代的这个 B200 应该会销售不错应该会销售不错可能就是明年这个 NVIDIA 的业绩的主要贡献者但是他会什么时候推出呢

我覺得可能要明年年中吧明年年年之後因為明年上半年可能還是先以現在的這個 B200 GB200 出貨為主了好好啦那聊完 B300 這個新產品呢我們最後來簡單聊一下 IMMEDIA 最近的這些股價的狀況那事實上在過去這兩個月我們知道特斯拉漲很多嘛可是 IMMEDIA 就沒怎麼漲他大概就卡在 120 幾塊到 140 幾塊的這個位置平均起來就 130 幾塊美元的位置

那我覺得為什麼會這樣子呢我覺得市場上有很多關於 emedia 的消息有些是利多正面的消息有些是利空負面的消息但是我覺得這些正面消息負面消息某個程度來講彼此有點互相抵消了我們來看看利空就負面消息的部分我覺得有幾個

第一個我認為比較主要是之前 OpenAI 的首席科學家 Elias Kavell 他就說其實 AI 模型的預訓練是遇到瓶頸的有點類似好搞的部分都已經搞完所以接下來你一個 AI 模型要在 pre-training 的階段要大幅進步恐怕是有點困難的

那这件事情当然对于 NVIDIA 这个 GPU 会有一点点影响嘛因为其实在一些推论的一些部分的话很多人都说我们可以用 Ethic 来做可是在训练的部分呢其实 NVIDIA 的 GPU 通常还是一般公认最强大的但是你如果在训练部分有点遇到瓶颈那是不是代表未来 NVIDIA 的这个 GPU 在训练的部分不是那么被需要呢这可能是一个必须被考量的一个部分但是

話說回來其實像 O1 O3 這種模型他也要做蠻多 post training 那這些 post training 其實也是要用 Emilia 的 GPU

但是无论如何 Iliasus Cavers 说这种 Pretraining 遇到瓶颈的部分的确对于 Iliasus Cavers 来讲算不是什么正面的消息那除此之外呢我们之前介绍过的 Google 发表的这个 Gemini 模型全部都是 TPU 训练也是用 TPU 推论的包含我们之前讲的亚马逊 Training 的这个二代

其實我跟你講這些東西這些 ASIC 晶片現在看起來越來越是一回事特別是在土威倫的部分所以其實我覺得在過去這幾個月看起來 IVIDIA 的 ASIC 對手看起來也是越來越強倒倒是 AMD 這邊是有點不爭氣但是無論如何這我覺得這這兩個算是

這個 NVIDIA 最主要的一個負面消息但是 NVIDIA 也有正面消息啊他有利多啊是包含了什麼包含了我們知道嘛這種推理模型他就是有個 test time computing 的 scaling law 就是說他在以前就等於訓練的時候你做所謂的放大法的 scaling law 越多的 GPU 越多的參數越多的資料就會做出越強的模型現在呢或許在 pre training 在 training 階段遇到一些瓶頸可是什麼

你这个模型训练出版本之后呢你未来在每次在做推论的时候在做 inference 的时候你也可以给他更多的算力啊好所以给他所以这叫 test and compute test and compute 你也可以给越多的算力就算的越好

而這種推理模型呢看起來的確是一個額外的利多因為他是算力的額外的需求對不對以及我們現在看起來這個 B300 這整個產品線他其實也是蠻好的調整的所以其實我覺得無論是有利多也有利空而這些利多利空呢就是某個程度彼此抵消就是每一個利空都有一點點來頭有一點點完真的但是每個利多也是有一點點完真的那到底整體而言

我觉得他们没有办法取得决定性的胜负就是利空无法获得决定性的胜利利多也没办法获得决定性的胜利所以都没有一个关键论述是打败所有论述的所以他就卡住了卡在这里就是没有办法决定到底要往上喷还是要往下崩但是我自己觉得如果你是像我一样是一个所谓的长线投资者来看我觉得这就是考验你耐心的时候你一定要有耐心好不好

我说其实说真的这些公司的长线未来其实应该都是还不错的我这样讲 invidia 现在 130 块 130 多块的价位他反映反映出来的就是 invidia 的 ai 业务在未来 10 年的长线成长年化成长率大概就 20%左右那你觉得会很夸张吗

我觉得不至于啦就是就算是 invidia 的一些利空持续的发酵但是你也很难想象说 invidia 未来的 AI 的业务没有办法年化成长 20%就是就算 ASIC 很厉害就算 invidia 厉害竞争对手但是整体市场成长规模还是会超过 20%嘛所以 invidia 应该还是

我觉得现在的价格应该还不能算是太贵了我觉得大概是这样的所以只是我觉得缺乏一个关键性的一个论述所以有点卡住大概就这个样子那你如果是一个长期投资者你要检视的是你对于他的基本假设有没有改变嘛那你如果对他基本假设没有改变你又何必卖呢对不对就是说好的确股价有些时候会卡住的确有些时候

这个看起来说明接下来几个月还跌呢从 130 到 110 有没有可能有可能可是你对他长线的看法没有改变的时候你真的要有耐心啦好不好长线投资者最需要的就是耐心这也是散户对上法人一个额外的优势就是法人通常比较没有耐心因为他们的投资者没有耐心但是散户是可以有耐心的好不好所以我会建议说

如果你真的常见看好他就忍耐吧就忍耐吧忍一忍这个大概就这样子好那这我们今天第一个主题那接下来呢我们进入我们今天第二个主题我们今天第二个主题要来跟大家聊聊 MAGA 的内战什么是 MAGA 的内战那大家知道 MAGA 这四个字就 Make America Great Again 所以这个就是川普的竞选口号嘛所以一般来讲 MAGA 就是指的是

共和黨支持者裡面的川普陣營的這一批人的一個代號那但是呢

就在上個禮拜呢 MARCA 發生了一個內戰老實講這不是不能預期的一個事情因為為什麼呢因為你要知道其實這次川普選上有點類似是反民主黨大集合因為其實你要知道包含了馬斯克包含了什麼 Bill Ackerman 很多這次支持川普的以前都支持民主黨的那只是因為民主黨走歪了這些極左派走得太歪了所以其實有很多所謂的

這個前的比較偏中間或比較偏民主黨的人在這一次都叛逃選擇支持川普所以我跟你講其實就像在台灣的民主政治歷史上其實民進黨一開始也不是一群同樣想法的他們是一個反國民黨的大聯盟所以其實這次幫助川普選上的有點類似是反

反民主黨極左派的路線的一個大聯盟那當然 既然他們是一個反民主黨大聯盟等川普現在正式選上之後大家要執政了 川普就得選路線可是這些支持川普的不同的勢力其實在某些主張方面是有蠻大的差距的所以當現在川普選上之後開始要慢慢決定一些政策路線的時候

這些川普的支持者就產生衝突了那就在上個週末這一次他們爭吵的一個主題其實是來自於美國給所謂的技術移民所謂的高技術移民或叫做科技移民的所謂的工作簽證 H1B 以及 Maybe 綠卡這所謂的移民的政策所以簡單講就是一邊支持說美國要

支持這種高技術移民這些高技術的外國工作者我們要讓他更容易進入美國更容易取得美國的身份那另外一群人則是說這些人竟然會搶奪美國人的工作我們不能讓這不能門戶大開那開戰兩邊的代表那第一方呢當然就是我們的這個

這一次最支持川普的全球首富 Elon Musk 大家知道嗎 Elon Musk 跟另外一位知名的這個生技創業家 Vivek Ramaswamy 他們一起在川普的未來的政府之內他們會成立一個叫 DOGE 政府效率部的一個顧問委員會他們兩個是共同領導人因為這兩個人都是創業家而且他們兩個其實某個程度來講都是移民所以其實他們當然都會支持這個

美国要有更多的高科技高技术的移民可是呢其实在川普的这种传统的共和党支持者特别是一些要保护美国 America first 保护美国劳工的这一部分的 QL 或者这些部分领袖的人来讲你开放这么多高技术移民进入美国那不就是影响美国人的工作机会吗那这件事情本身的一个起火点

就是川普他任命了一个叫做 Sriram Krishnan 我不太会念因为这是印度名字川普任命一个叫 Krishnan 的这个人印度裔担任他的 AI 人工智慧相关的一个顾问那这一位呢他其实在美国算是蛮有名的因为他是一个知名的创业家跟创投

然后但是呢任命之后呢这个我念他的中文因为他的这个印度英文我真的不太会念他斯里兰这位斯里兰呢他被任命之后就是说他未来想要取消这个包含 H1B 的一些什么国度的一些国籍限制也就是说本来呢

美國給這個所謂的這種技術工作者的簽證裡面他是有國籍分配的也就是說印度最多拿多少中國最多拿多少每一個國家有個上限

但是呢這個樣子對於一些比較容易拿到就像印度很厲害他們的技術移民很厲害這些的他們就是有個上限嘛那其實斯里蘭他就說他應該決定要取消國家的上限那這件事情呢就立刻引發了這個 MAGA 的一些派系的批評他們就說難道美國要大量的到處都要有一堆印度的工程師嗎其實某個程度來講你如果去

矽谷那邊看那邊真的很多印度的這個印度的這個工程師印度裔的工程師那但是呢 MACA 這些反彈呢立刻就得到了包含了馬斯克包含了 Rama Swamy 這邊的一個反擊吧因為簡單講馬斯克跟 Rama Swamy 就說我們美國就是要支持更多的

接受更多的高科技移民 H1B 還不只算移民因為他是個工作簽證但是你如果拿到 Green Card 然後綠卡其實就可以算是移民了所以馬斯克就說對於那些頂尖 0.1%就是千中選一的人才馬斯克也好 羅馬斯瓦米也好以及這些所謂的矽谷的川普的科技幫的支持者

马斯克就希望说他们要在美国拿到了学位之后在美国念书念了几年做了 intern 结果最后美国居然不给他们签证让他们必须回到印度或回到其他原本的国家去工作这是很荒谬的事情所以马斯克也好然后或者是 Ramaswamy 也好就希望这些在美国

畢業的這頂尖的 0.1%的人才呢他們要很容易能夠留在美國工作因為把這些人留在美國工作的話他們每留下一個他其實可以創造更多的工作機會

但是你如果把這些人才放回他們國家的話他們就變成美國的競爭者了他們就是為印度為中國為其他國家工作就變成美國的敵人了所以你要讓這些最頂尖的人才成為美國的資源還是成為美國的敵人呢他們的論點是這樣但是呢這件事情呢其實在 MARGA 派系裡面川普支持者的 MARGA 派系裡面真的有一群人意見不同因為其實老實講

美國現在的這個 H1B 的技術簽證某個程度來講也的確有被濫用你說如果都是要支持這些最頂尖的千分之一的人才加入美國我覺得就算這些 MAGA 派系也沒有問題可是問題來了事實上美國這個 H1B 的簽證大多數時候是

把留下那些很入門等級的初階工程師也就是說你可能是一個國外的人你可能是印度裔或者是反正就是某個亞洲去的國家的但你去美國念了一個一般可能不是什麼 NIT 就是中等學校的資訊工程的碩士那當然

你可能是一個 CSU 或者是某個州立大學他不是最頂尖但也不差但是你要說是 0.1%千中選一也沒有到那個程度你可能是百中選一甚至是可能只是 Top 10%你要知道 Top 0.1%跟 Top 10%之間差了 100 倍差了 100 倍

100 个人中 0.1%跟 100 个人中 10%的前段班其实差很多而现在这个 H1B 呢他比较类似在留这 100 个人的 10%的这个部分所以他留下了很多初阶入门的工程师他的薪水也没有很高薪水可能就是 8 万美金年薪 8 万美金 10 万美金那更很多时候他们甚至是被一些一些所谓的派遣公司

雇用他們被一些派遣公司雇用然後派遣公司再把他們派遣到一些美國的科技巨頭去工作所以這些 MAGA 的人就說這些人算是這些人算是你口頭講的 0.1%嗎不算吧 H1B 被濫用了而這件事情衝擊了美國本土工程師的一個就業

所以这两派的人就在 X 上面大战聊天室里面也有写对包含了川普之前的一个主力的一个算是一个幕僚 Steve Bannon 也出来跟马斯克对干就是说就是告诉马斯克你们不要管过头你们现在这 H1B 你们就是你们这些

這些微富不仁的科技巨頭們就想要利用這些國外的初階員工這些入門員工來打擊美國的奔路工程師所以其實這件事真的有點內戰所以兩邊就不斷的在推特上面彼此開炮

那但是呢本來這看起來我跟你講這件事他們吵起來民主黨就很開心那些左派就樂得看到右派美國的右派內戰了但是呢這件事情沒有吵很久因為很快呢再吵一兩天之後川普就出來了他就出來有點一錘定音他說什麼他說哎這件事情呢我支持馬斯克他說呢那川普他講哦

我支持这种所谓针对于 high tech 的工作者的移民签证我支持他们他说川普就说你知道吗我自己的公司里面就很多用 H1B 签证的工作者所以他说

他說他說什麼他是一個支持者他對於 H1B 的制度他是買單他是個 believer 他相信這個制度是好的所以當然當川普出來講話之後那原本在批評這件事的這些 MAGA 的 KOL MAGA 這些這個網紅就有點罵不下去了不然你再罵就等於要罵川普了嘛

那所以這件事暫時告一段落那老實講這也不是川普第一次表態其實川普在選舉的過程中他其實就有上 all in pocket 那個時候我記得一件讓我當時我也有特別講讓我印象深刻的事情就是他有對這個問題表態他說對他來講他其實希望在美國這些什麼什麼理工相關的這些高學歷的畢業的時候他希望能夠直接發給他們綠卡

那我當時就講綠卡有點難綠卡當然那麼容易但是你能不能針對這些所謂的在美國界的這些什麼理工科的這些碩士一些真的有生產力的這些工作人員你可不可以給他們比較寬鬆的工作簽證的一個條件那我覺得綠卡畢竟已經算是

雖然綠卡還不能投票但是他某個程度就是永久居留權所以他某個程度來講就是已經移民了因為你父母有綠卡金兒女就一定是美國公民了對不對所以大概就這樣子

我覺得直接放寬到要給綠卡實在我覺得那實在太大的挑戰可是我覺得針對於在美國畢業的理工科的這些這種有生產力的工作者我覺得給一個比較寬鬆的技術工作簽證我覺得應該是合理的啦老實講啦我覺得其實這次馬斯克跟這些 MAGA 的人他們炒的東西

我覺得並沒有到真的需要決裂因為他們其實是可以達成共識的因為其實我覺得兩邊對於這個所謂的科技簽證或高技術移民他們的核心他們至少在一點上有共識就是對於那些最頂尖 0.1%的人才我覺得包含了馬斯克這邊包含了這個所以 MAGA 的這些

就是這次有意見的這群人包含了共和黨絕大多數的議員包含川普他們都是有共識就是 0.1%的人在美國就是要把他留下來就讓他們留下來現在問題比較是說好那問題是現在 H1B 簽證就明顯的不是只有給這些 0.1%的嘛現在看起來是 maybe10%top 10%的應該都有

機會拿到這個 0.1%那你對於不是這 0.1%的人你到底要不要給那麼多我覺得這個部分就是有些爭議那支持要給那麼多的人他們的理由就是說什麼第一個這些人雖然他不是 0.1%他可能是 3%或 5%

可是他們還是很有工作力還是很有生產力他們加入美國的公司就可以讓美國的公司變強讓美國這些科技公司變強這些美國科技公司變強的時候他就會創造更好的經濟創造更多的就業對不對所以你每雇用一個這些 H1B 的工作者就算他不是 0.1%的人才就算他只是

他可是第 7%的人才但是他还是雇佣他对美国争点还是好这是一个很标准的支持自由经济自由贸易的一个标准的一个论述的一个缩帖就算他现在是入门级的这种中介人可是美国的科技公司缺这些入门级的人才

基本上我們這樣講 0.1%如果算是頂尖人才那一般來講你說 5%到 10%這些人大概就是中階人才就是他可能一輩子他可能就做到一個微軟的經理但是微軟的一個技術經理或做到一個 Google 的一個總監但是他

在整個 Google 可能 Google 有 1 萬個員工他可能就只能排第 1000 名絕對不是 0.1%他可能就是千幾%他們長線來看他們是中間的人才可是他們在剛畢業的當下他就是入門級所以其實

其實現在他們吵的其實是所謂的入門級的中階人才就是他們長線會成長到中階人才如果以三國志來講他們就不是什麼關羽不是什麼呂布他們可能就是什麼他們可能就是我現在看一些比較中階的什麼武將中階的武將可能是什麼

可能是高順之類的這樣子他們可能常見會變什麼高就武力可能是 80 分左右不是什麼 99 分而且他們現在還在菜鳥階段可是這些人長線來講的確是可以成為美國的科技產業的一個中間的動力因為一個公司不可能只靠最聰明的一個人在運作你還是得靠很多

没有他那么聪明可是也还不错的一起来合作对不对就像一个 NBA 球队不可能只有一个超级巨星你还是有一些角色球员对不对所以我觉得这个事情不是没有解决方案的因为他们两边

如果你对 0.1%就是什么哈佛或 NIT 有个念 AI 的博士这 0.1%没有问题让他留下那接下来呢算是这种中阶入门人才一个某州立大学的资讯工程硕士不算 0.1%但是 Google 也想用他 Meta 也想用他 Vera 也想用他所以他是被认为有生产力他也想留下来贡献的这种人呢其实我觉得美国我觉得大方向应该还是让他留

留下來 那我覺得有些有人說攀風無有上將攀風 anyway 好啦那我覺得齁我覺得他是有解決方法我覺得就是

如果我們講說如果 H1B 的前者是包含這 top 10%前 0.1%的沒有問題你就給他一個超超級順暢的廣告那剩下 9.9%呢你就是稍微改革現在 H1B 的制度嘛首先呢你不能讓這些就是好我覺得就算是這種所謂派遣公司也沒什麼問題但是我覺得第一個是吧我覺得你要確保他是還不錯的人第一個你要做一個好的一個技能的檢定的考試然後你還要做一些

就是你對他的簽證你可能是要觀察就是他必須認真工作表現他不能第一年工作之後就就開始變成無業遊民就是你要連續工作而且而且他不能犯罪嘛然後更重要的一點是我認為有個方法是可以解決這個問題就是你你這些科技公司你要用使用這些剛入門的 H1B 的外國工程師你要給什麼你要額外繳錢也就是說你出就是你每你要繳

繳 H1B 的租金的概念如果假設你今天要雇用一個年薪 10 萬美元的 H1B 的外國工程師你可能每一年至少因為他簽證一年是一次給三年嘛每一年呢你可能就要額外要給 10%的薪水要額外繳 10%薪水給美國政府也就是說我今天雇用一個年薪 10 萬美元的 H1B 的一個印度工程師我其實我的成本是 11 萬美元因為我還要繳 1 萬美元給政府

那这额外的 1 万美元呢就是变成美国政府的收入嘛他未来就可以来补助美国本地的一些劳工帮助美国的工程师再提供各式各样的职业训练计划让美国的工程师更有竞争力所以这个做法呢一来让外国工程师的性价比变低因为他会变贵那就拉高美国本地工程师的市场的吸引力另外一方面又替美国的工程师得到额外的资源

其实我觉得这个方向其实我觉得会是比较好的就是说因为美国本土就是没有足够多的工程师那你要让这些科技工程师没有足够多的工程师让他输给中国的科技工程师还是国外的科技工程师你不想嘛因为你让美国科技工程师继续成为世界最强对美国经济有帮助但是的确那你说大量雇佣外国工程师可能会

對美國本土的工程師造成一些排擠那沒問題我們就用這個方式來解決嘛就是這些科技巨頭每要雇用一個 H1B 的工程師你就要繳一筆錢而且是繳固定的年費給美國政府我建議這樣說真的因為我沒有深入研究這個制度說不定現在已經有也不一定啦那如果現在已經有那就把錢再加上去嘛如果覺得 10%太少也可以 20%啦那我覺得這樣子看起來會是一個長期更聰明的一個制度啦那我想

我覺得這一次川普下一錘定音我覺得是一件好事我完全可以理解想要保護本土工作者的工作權益這件事因為全世界每個國家都一樣就像台灣也是一樣全世界都是一樣就像台灣為什麼台灣的外勞沒有大量開放而且還要領最低工資因為不這樣的話對於本土的勞工影響太大可是問題來了其實

我覺得這個東西就是一種你怎麼樣找到最完美的那個油門就油門要踩到多少我覺得那是

智慧就像你上高速公路你可以油門都踩 200 公里超快就會到但是到目的地但是也有很高的機會到天國對不對但你也可以油門都踩 80 很慢那問題就會比較慢到目的地那當然可能最佳的區間以台灣的高速公路你可能就是把油門踩到 110 公里左右就是一個合理的上限不會開不會吃到罰單然後也比較也快那也相對安全對不對所以你就要找到這件事情

那我覺得我覺得透過一個附加費的方法來弄或許是一個好的方向那但是 anyway 這個就是牽扯到美國本土的政治制度來的那我們不是我的專長就閒聊一下那不過我個人倒是要給川普蠻高的分數就他這次快刀斬亂麻這件事我真的覺得做得還不錯因為

你要知道 如果川普辭職不表態兩邊一定會越吵越兇然後 你放任自己的支持者兩邊吵架內戰一來 民主黨超爽 看笑話二來是 其實會內傷的你知道 如果兩邊一開始吵架還可能只是意見不同交鋒吵久了就是變成深仇大恨所以川普很快就把立場劃下來我覺得也就是避免自己的支持者有更嚴重的衝突跟分裂

而且川普自己也很明顯知道哪個答案是比較好的所以川普不是因為這一次吵架他才要決定這件事事實上他在選前的專訪他就已經說他的立場了他就是支持美國要有更多的科技移民進來對不對就是簡單講

川普不歡迎非法移民啊川普不歡迎那些沒有被詳細檢查過然後而且可能中間有很多罪犯的這種就是你不知道他的品質跟素質如何的非法移民可是如果是素質好的移民而且是有生產力的移民川普是非常樂意開放的我覺得這是他的態度

那所以川普我跟妳講川普這個表態一定也會得罪一點點一部分的支持者因為 MACA 裡面總是有一些比較不理性的就是相對反對這些事情的可是他也不怕嘛就是他反正他也沒有第二任要選他我覺得他這一屆的川普真的很不一樣的地方是我覺得他很勇於選擇自己要的東西

包含他很多内阁的组成他其实很多时候你这些选择都是讨好 A 就讨好不了 B 那你要做出面面俱到的选择不是那么容易可是川普这一次好像也没有再这样子他就很清楚知道他要的是什么他就用他的手段去达成那目前为止我觉得处理的也还不错大家这样

我看到聊天室說川普表態後更多人認為馬斯克是地下總統那我覺得這個說法不就很奇怪因為川普不是這一次才表態川普在選前我記得那時候是七月六七月份那時候上 all in pockets 還是五月反正就是今年今年選離選舉前好幾個月前那時候上 all in pockets 他就明確表態說他支持讓美國

在美國本土念完大學這些理工科的畢業生可以很容易留在美國他當時講的是綠卡所以川普的態度並不是在這一次他們兩邊吵架之後才說我不能得罪馬斯克我要站在馬斯克這邊

川普他就說我跟你講川普講的是真心話啦大概就這樣有人說我剛剛講的中間人才是行道榮吧其實行道榮的武力應該比潘鳳高吧我記得行道榮的武力應該比潘鳳高我不知道因為就我玩行道榮的經驗他的武力應該可能都有 85 左右 85 還 88 所以應該不低

潘凤我就不知道了好了好了那以上就是我们今天第一个主题聊了一下川普阵营的内战那这一次的内战由马斯克跟 Vivek Ramaswamy 代表的科技创业帮获胜了那 Steve Bannon 这一次没有获胜 Margaret Pai 没有获胜好那接下来我们来聊我们今天我觉得

重要性说不定是今天三个话题重要性最高的一个话题就是中国的 DeepSick V3 这个模型它就在上周呢中国 AI 新创公司叫 DeepSick 他发表了全新的大型的 open source 的 AI 模型就是 DeepSick V3 他就是一个大型元模型但他没有多模态他纯文字的这个 DeepSick V3 是一个专业

MOE Mixture of Expert 的一個模型那他的整個模型具備 6711 個參數但是呢因為他是一個混合式的專家模型所以他每一次就是他這個這麼多的參數其實是很多小模型所以他每一次呢就會叫小的模型他每一次叫的小模型呢就會叫一點點的我記得叫叫幾十個 billion 的模型出來而已

但是所以它是一个有点像那个 Mistral 的那个 8x7B 那样改只是它的小模型它每个专家模型还是百亿参数规模的这个等级那这个 DeepSeek V3 的它叫 V3 就是它第三版因为它之前还有 V2 根据 DeepSeek 它发表的这个 benchmark 的一个数的数据的这个模型在很多数据的得分

超越了 Meta 的 Lama 3.1 最大的版本是 4050 億參數的版本也超越了 OpenAI 的這個 GPT-4 也超過了

Cloud 3.5 Sonnet 哇这不是超厉害的哇中国居然发表一个开源模型打败了欧美所有现在的一线模型而且更重要的是什么根据 DeepSync 的说法呢这个 DeepSync V3 的模型它的训练预算呢它花它用更少的 CPU GPU 来训练所以它总共的训练花的钱呢是比

我們剛講的這一線模型都燒很多根據 DeepSync 他們說法他們總共他們使用那個 NVIDIA 之前閹割的 H800 就 H100 後來閹割了 H800 他用了 2048 張的 H800 訓練了兩個月就訓練出 DeepSync VE3 這個對比 Meta 訓練 Lama 3.1 405 billion 的這個版本呢只有他的 11 分之一啊他只花了 560 萬美元啊

你知道像我記得是 Andrew Capaci 就是以前特斯拉的 AI 的總監他就說其實一般來講訓練這樣的模型通常要有 16000 顆的 GPU

結果他只用了 2000 顆而且這 2000 顆還是閹割版的因為 H800 他就很多在很多頻寬方面都比 H100 有閹割所以他的串起來 2000 張的 H800 可能只有 1000 張的 H100 的訓練的能力但是 anyway 他居然用這麼小的用 1/10 1/11 的訓練的預算就訓練出這麼

这么厉害的模型这当然就吓死人了对不对那我们来看一些几个主要的成绩包含了一般来讲我们在看这些当然现在很多人都说大型语言模型这些 benchmark 都已经没有太大的意义了因为大家都会得很高分而且这些训练级大家都用久了所以大家很容易就针对它去优化但是我们还是看一下那一般来讲我们最常看的几个 benchmark

NNLU 就是測一般大學等級的知識這個數據呢哇 DeepSync V3 打敗了 Lama 3.1 最強的 405B 模型而且還贏過了 GPD 就跟 Lama 3.1 差不多平手那打敗了 GPD 4.0 跟 Cloud 3.5

然後呢接下來是另外一個是測試程式設計的一個評一個 benchmark 叫做 human evilhuman evil 這個這個 benchmark 呢哇 DeepSick V3 打敗了 Lama 3.1 打敗了 GPT-4 打敗了 Carlo 3.5 哇然後接下來是看數學哦這數學測試的評比也都贏哎啊簡單來講

因为他的那个评比那个表格有非常多种评比的 benchmark 但我觉得我们的我们的听众不需要了解到那么细节反正简单来讲几乎在说的测试不管是一般的知识不管是写程式不管是数学只看这些 benchmark 这些评测的话 deep seek

v3 671 billion 这个模型呢我现在看到数字了他每次只会启动 371 个三数 37 个 billion 的一个混合专家模型他打败了或者是至少在他不是追平就是打败了欧美所有最强的一线模型

好 那有没有吓死人有吓死人 有吓死人了所以这个东西这个结果让他震惊了整个 AI 业界因为原本大家想说中国不是被封杀了最先进的 GPU 吗他怎么能够用

十分之一的 GPU 的算力就做出跟 OpenAI 跟這個 Enthropy 跟 Google 同等級的模型這件事情如果是真的話那不就代表美國政府的 AI 晶片經濟就沒屁用嗎就美國政府被打臉拜登被打臉了你封鎖晶片我中國還是訓練得出來

我講如果這一切都沒有問題那有三個單位會遇到很大的問題第一個就是我剛才講美國政府美國政府就有點說我的晶片經濟是不是根本沒有效第二個被打臉的就會有危機的就是 Invidia

如果只要这么少的算力就可以训练出模型我的 GPU 未来会不会办不出去第三个是什么就是欧美的这些包含微软 Google 然后 Amazon OpenAI Entropy 这些 AI 公司科技聚融跟 AI 公司他们现在也被打脸说我花了这么多算力结果人家用更少的时间就可以跟我算出一样的东西那我是不是做错了我是不是哪边搞错了没搞好

過度依賴 scaling law 而沒有在架構方面做改變這個是現在大家在擔心的事情不過簡單來講這個問題到底為什麼 DeepSick V3 可以這麼厲害其實我覺得背後也沒有那麼單純因為其實在 DeepSick V3 這個發表之後居然在網路上出現有些網友跑去問 DeepSick V3 說請問你是什麼模型

就你知道那 DeepSync V3 居然回答说我是 GPT-4 所以你问他很多问题他回答居然跟 GPT-4 一模一样所以就开始就有人推测某个程度是阴谋论但是也有一定的可能性就是说 DeepSync V3 其实有偷偷用 OpenAI 的 GPT-4 来训练自己的模型

一般来讲利用一个比较大的模型来训练一个比较小的模型这种做法我们一般把它叫做模型的蒸馏叫做 model distillation 或者叫 AI distillation 就是简单讲是

我本來我就是把我比較大的模型比較厲害的模型裡面的知識精華萃取出來把它輸入到比較小的模型他簡單來說用用比較大比較厲害的模型去幫忙訓練一個比較小的模型讓比較小的模型最後的能力接近比較大的模型

像之前 Meta 就有发表过类似的做法他们当时就是用 Lama 3.1 最大的这个版本 405 billion 的参数的模型去训练比较小的 Lama 模型他的 8 个 billion 跟 70 个 billion 的这两个模型然后他透过这种所谓的模型的征流知识的征流就大幅的拉高了 8 billion 参数跟 70 billion 参数的这两个模型的表现让他非常接近 405 billion

所以现在外界猜测是说 DeepSick 是不是有做同样的做法就是说好我虽然我怎么样让我的模型更厉害我的模型

怎麼樣我這麼少的算力怎麼更厲害沒關係我就接上 OpenAI 的 GPT-4 的 API 然後我就用 GPT-4 的模型來幫忙訓練我們家的模型就是他找老師簡單來講我順便說他找了 GPT-4 他找了 Lama 3.1 的 405 billion 找了一些國外的老師來幫忙訓練自己家的模型

这个事情是一定有的吗不知道因为也有人说其实有些时候这就是他会回答 GPT-4 就是只是一些公用训练的资料啦就是就是简单讲因为其实这种所谓 AI 训练资料很容易有一些让你答错就算是 GPT-4 有些时候他也会答错对不对但是你要我猜我猜的确 DeepThink 有使用 GPT-4 以及一些其他的

國外的模型來幫忙訓練我覺得機率是高我目前你要我主動猜我會覺得為什麼呢因為我覺得這種狀況是我覺得下一代的模型我們都在講說怎麼樣讓下一代的模型更厲害就是要產生所謂的人類由真人產生的資料現在好像已經遇到瓶頸了所以他們現在都在想說我們未來能不能用合成的資料來訓練就是由 AI 產生資料再來訓練 AI 那在這種狀況之下呢現有的

GPT-4 不是很好吗就是说我现在就让 GPT-4 产生很多资料这些问题跟答案我举个例子我现在可不可以透过

我就先請那個小馬設計出 100 萬個問題這 100 萬個問題我都去問 GPT-4 的答案然後我就然後而且我每個問題可能就請 GPT-4 提供三個五個不同的答案這個時候我就替透過 GPT-4 產生很多所謂的新的合成資料然後我再把這個

100 万个问题产生 300 万组答案把这 300 万组的答案的文字再拿的资料再拿回去训练我的 deep seek 这是一种做法这种叫做合成合成资料那还有没有别的方法还有啊就是包含了什么包含了像我们之前讲的

re-enforcement learning 就是說如果我們今天讓 GPT-4-0 當老師讓這個 Deep-seek V3 當學生那就變成說你每次給的答案你可能每次給的答案去對比 GPT-4-0 給的答案然後如果你的答案不如他你就去學他的就類似這種方法這種就是我們講的

當然啦 你如果去找個 AI 專家他可能會講的比我更厲害但是我現在就只給大家一個大概念就是反正就是這個問題 GPT-4 給的答案是這個那我 DeepSync V3 我就想辦法去學到我也會給他一樣的答案最終我的分數就會跟他差不多那所以我個人認為

DeepSick 應該有非常高的機率是由使用國外這些最先進模型來做所謂的模型蒸餾可是問題來了他們可能不是只有做這件事情因為其實這次 DeepSick 他有發表論文他的一些論文上面的確也有一些所謂的注意力機制的創新他有一些創新所以我覺得他在架構方面有些創新然後再加上什麼偷偷用了這些其實我跟你講 OpenAI 是禁止別人使用他的 OpenAI 是禁止他的禁止別人

其他的 AI 研究者用他们的 AI 去做这样的 AI 蒸馏可是没有中国厂商也管不了所以 Sangoku 好像就发一个

就發一個酸文就說要創新是很難的超避炎很容易但是我覺得很多人就說你暗指說其實 DeepSync 其實就是有偷用 GPT-4O 來幫忙做訓練那 OpenAI 我看聊天室有說 OpenAI 的模型是避炎的對 OpenAI 的模型是避炎可是它有 API 你不需要知道 OpenAI 的模型裡面怎麼跑你只需要知道什麼知道它會給什麼答案就可以了我今天使用一個就類似說這個答案

我現在 DBC 給的答案是 AOPEN GPT-4 同一個問題給的答案是 B 那如果 B 比 A 好我就告訴我的模型說你要去學這個 B 的答案其實就是一個當作老師的一個概念那

我覺得我不知道他們是會用合成資料來做還是用當老或者是用 reinforcement learning 來做這個可能反正你如果去聽更專業的他會教你啊我又沒有那麼專業我們在聊科技比較是聊這個商業面的一個影響所以對技術面我還是會多少了解一下因為你不了解技術面你真的很難評論

可是更細節的東西你就看這個禮拜科技讓哈利會不會聊我是沒有能力聊到更深入但是我覺得其實目前看起來就是

使用了 model distillation 模型蒸餾再加上架構上的創新就最後讓 Deep Seek 跑出這樣厲害的結果那當然 Deep Seek 也可能會針對於這些 Benchmark 做特定的優化這也是可以的因為其實

這有點像作弊啦但是 anyway 我們也不知道因為據說一些真實的使用案例 DeepSync V3 的成績感覺其實還不錯的就是很多一些使用 open source 的一些開發一些開發者他們實際使用 DeepSync V3 我覺得他們沒有給一種 Benchmark 很高實用很難用沒有我覺得他們目前的評價都還不錯所以我相信 DeepSync V3 應該是真的還不錯的

那所以接下來我覺得現在這個問題呢到底 DVC-V3 到底怎麼做到我覺得大家也不知道所以這件事情是未來未來這一兩個禮拜我覺得應該全世界包含美國政府包含歐美的 AI 的公司以及 AI 所有的研究者應該最關注的一個問題那但是我跟你講我們先不要管他到底有沒有侵權因為你如果用了 OpenAI 來幫忙訓練就是侵權可是我們先不管有沒有侵權現在

DeepSick V3 就這麼一件事就是說雖然美國政府對於中國打了這個 AI 晶片戰但中國沒有那麼容易取得最先進的 AI 晶片它其實多少還可以拿到因為他們現在還總是有一些漏洞管道可以取得可是他們中國現在取得最先進的 AI 晶片是有一定程度的麻煩可是現在看起來中國他們的確有能力找到解決方案了就是說我們找到一個可以用比較少算力來做的方案

我可以用 H800 比较少张我就可以算出一个接近一线模型等级的一个东西所以我认为接下来因为拜登政府即将卸任所以接下来就是等川普政府上任

美國到底要怎麼樣去抑制中國 AI 發展我覺得可能得動更多的腦筋了你想其實這個的確其實的確對於中國來講我跟你講就算他沒有拿晶片可是因為第一個我覺得美國這邊美國這邊他有很多開源的模型拉馬山是開源的

XAI 的 Glock 也是开源所以这些开源的模型就给了中国 AI 一个很好的基础你就可以就算中国自己做不出来我也可以拿你这个东西来改对不对除此之外其实以 AI 算力的部分的确中国的科技公司不见得能够像美国这样子我砸钱就可以取得很大量的 GPU 可是

慢慢的 我覺得他們也會包含的像現在找到一個要比較小的算力的一個解決方案他可能會從訓練的方法訓練的架構然後以及以及 maybe 我覺得他們也會想辦法透過他們自己國產的晶片那當然目前目前中國自己國產的這些所謂 AI 晶片都還是笑話老實講都還不行但是我覺得總而言解 簡單來講

我覺得中國現在要走的這個路線第一個 它可不可以中國可不可以透過各式各樣的走私或者地下管道取得一些 GPU 我覺得它還是取得到那中國有沒有能力用找到一些方式用比較小的算力也算出不用超越就只要非常接近的等級我覺得也是有可能的

的模型那最後是中國自己的 AI 晶片行不行我覺得這點可能是我們這三個問題中他們可能最不靠譜的因為我覺得現在如果華為生成它的都得透過白手套來叫台積電代工那如果未來這白手套不能用你要靠中興來搞我覺得是搞不出來我覺得有點難那我再額外補充一點我剛剛講這個知識增留的部分 DeepSync V3 它可能不是只有從 GPT-4O 來增留因為

這樣講我覺得現在中國那邊一些網友有說一個東西我覺得他東西也講得對就是你看在一些數學成績方面這個 DeepSeek 的成績還打敗 GPT-4 學生怎麼可能贏過老師而且是贏很多所以其實我猜其實 DeepSeek V3 它就是從它從此從很多個模型蒸餾它可能在一些 NNLEU 或者是這些歐美常用的 Benchmark 它是從 GPT-4 來蒸餾的

但是呢它可能因为 DeepSeek 这间公司它自己也有推理模型就像那个 OpenAI 这种 O1 跟 O3 的推理模型所以我猜他们可能也透过一些推理模型来做蒸馏我猜他说不定有找也用 OpenAI 的 O1 来做蒸馏因为 O1 前几个月都开放了就至少有 Preview 或 Mini 可以用这些比较有推理能力的模型来训练他的答案所以 anyway 我觉得这个谜题未来几个礼拜会被解开啦因为

因為如果他不是一個 Reading Model 他為什麼這些一些傳統的大型語言模型得分很低的東西他能夠得那麼高分呢那他是不是他如果沒有做那些什麼 Test Time Compute 的那些做法他為什麼能夠得到這麼高分我覺得都很值得去

很值得去因为我们现在得到就只是一个数据嘛那我觉得未来会有更多的资料然后我觉得这个东西的确值得大家深入理解或深入追踪好不好那以上那聊天室有时候不得不佩服很厉害真的我觉得不管你喜欢中国还不喜欢中国你都必须佩服他们这一次 DeepSick 这个东西还蛮厉害就算是抄的能够抄成这样也是很厉害啦大概就是这样子

好了 那我们今天这是我们今天 M 观点 EP162 那就跟大家聊了这几个话题那我们节目最后还是感谢我们今天叶佩今天我们跟 Node 推荐 Node VPN 全世界第一 世界第一名的 VPN 现在上网就不要裸奔上网保护自己安全然后以及让你可以使用国外的 IP 来上网

那你使用一些可能没有开放给台湾使用的服务所以这两大用途再加上 NodeVPN 其实真的我觉得价格也蛮便宜的我觉得在这里来 NodeVPN 透过我们 m 关键专属方案两年还多收你四个月好 赶快透过我们资讯来去参考吧那我们今天节目就到这边那大家拜拜拜拜