We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 专访杜奕瑾:DeepSeek改变美中AI竞争格局? - 3月 08日,2025年

专访杜奕瑾:DeepSeek改变美中AI竞争格局? - 3月 08日,2025年

2025/3/7
logo of podcast 纵深视角音频 - 美国之音

纵深视角音频 - 美国之音

AI Deep Dive Transcript
People
杜奕瑾
Topics
我認為DeepSeek的出現確實改變了美中AI競爭的格局。過去,大型語言模型領域主要由美國主導,但DeepSeek通過模仿OpenAI的推理模型,並開源模型權重,縮短了與美國的差距,使得中國AI發展速度逼近美國。DeepSeek並非完全的從零到一創新,而是將現有技術(混合精度訓練、多專家模型、模型蒸餾等)結合,使其性能逼近OpenAI的模型,但尚未超越。DeepSeek可能存在利用ChatGPT數據訓練模型或模型蒸餾的問題,這在業界是常規操作,但可能違反OpenAI的使用守則,是否構成剽竊或侵犯知識產權尚無定論。DeepSeek的『幻覺』概率高於ChatGPT,原因可能是其訓練數據(Common Crawl)和模型調整方面存在不足。DeepSeek的模型偏見體現在其訓練數據主要為中文簡體,並帶有強烈的中國官方媒體論述,這導致其回答會傾向於維護國家主權和黨的領導。DeepSeek的R1模型訓練過程中,雖然號稱無需人類反饋的強化學習,但在實際操作中,仍然存在人為干預,導致模型偏見和自我審查。DeepSeek強化了思維鏈(Chain of Thought),使其在解決數學題和編程問題方面表現出色,但在人文社科領域容易過度發揮,導致回答更不準確。中國AI發展環境的特殊性(例如審查制度)並不一定阻礙其發展,甚至可能促進其在特定領域發展出獨特的優勢。開源模型的普及使得小型公司也能參與AI發展,這改變了以往只有大型科技公司才能參與AI的局面,類似於個人電腦的普及對計算機產業的影響。全球AI發展趨勢都是利用開源模型,中國只是更積極地利用這一趨勢。好的算法可以提高效率,從而部分彌補算力不足,但算力仍然是AI發展的重要因素。AI發展最終取決於應用場景,開源模型的普及促進了AI應用的百花齊放,但算力競爭不會結束,軟體工程和應用落地將成為新的競爭焦點。美國對中國的晶片出口管制雖然不能阻止中國研發先進模型,但會減緩其商業化和應用速度,開源模型和軟體工程的進步反而會增加算力需求。DeepSeek雖然號稱開源,但其開源程度不足,但其公開的模型權重已足夠大部分用戶使用。DeepSeek通過模仿OpenAI的方法,實現了與O1相近的性能,但其真正開源供用戶使用的基礎模型並非R1,而是參數更少的Llama和千問。DeepSeek號稱便宜,是因為其使用的基礎模型參數較少,成本較低,但这並不意味着其技術能力就比其他模型更節省成本。開源模型的普及增加了對GPU的需求,因為更多小型公司和機構開始投資建設內部AI基礎設施,這將創造一個全新的AI落地市場。在中国境內運行的AI服務都存在數據安全風險,DeepSeek也不例外,其數據洩露案例已有所體現,這與中國相關法律法規有關。美國AI界應吸取DeepSeek的教訓,重視開源和開放合作,避免閉源策略導致的生態系統受限。美國副總統在巴黎AI峰會上的講話,旨在警告歐洲不要與中國在AI領域過度合作,但歐洲更注重以人為本的AI發展,並不會輕易放棄自身的法規和價值觀。监管和创新并不一定相互违背,合理的监管甚至可以促进创新。

Deep Dive

Shownotes Transcript

埃隆马斯克旗下的人工智能公司 XAI 本周发布了新的大语言模型 ROCK3 称其各方面的表现均超越此前中国人工智能公司推出的 DeepSeek 分析人士指出这再次彰显出美中人工智能竞争已经进入了白热化阶段那么 DeepSeek 为何会成为对标物

有人说它改变了美中人工智能竞争的格局甚至事关国运有人认为它是裹挟着民族主义情绪的过度营销那么 DeepSeek 到底是什么它的创新含量有多高它的出现是否揭示了全球人工智能发展和美中人工智能竞争的新趋势我们来听听业内人士台湾人工智能实验室创办人杜益谨先生的看法

多先生謝謝您今天再次的《作客縱深視角》過去的兩年我們每年都會聊一次人工智能的最新發展今年是第三年了而且每次我們聊到這個話題的時候都會談到美中在人工智能領域的競爭但是之前談這個話題多半是基於假設因為中國之前也並沒有拿出真正的能夠跟美國相媲美的人工智能的產品

那麼今年再談到美中在人工智能領域的競爭的時候是不是這個氣氛就會有一些不一樣?因為現在在人工智能領域最熱的一個話題就是中國公司推出的 DeepThink 你覺得這個對於美中人工智能競爭的格局有影響嗎?

我想可能就是在過去有很長一段時間大家覺得這個在人工智慧的大型元模型這一塊都是以美國來做主導因為都是雲端的這個大模型那在過去這幾年就是因為開源的這個模型越來越普及而且是開源的模型越來越先進

全世界都有不错的开源模型的发展从欧洲、台湾、中国都有发展因为透过这种开源模型再加上 Deep-Sea 它去模仿 O1 推理模型的结果它做了一个 Deep-Sea 的 R1 模型

但是宣称是可以做到跟 O1 差不多的结果而且他把模型的权重开放了所以这个就变成一个非常大的话题因为大家过去都会觉得说如果说在模型大学模型这个领域大家都普遍觉得中国应该是落后

一到两年就可能美国做了一个这个推理模型中国可能一到两年之后才会做到但是就是在最近你就会觉得这个时间就好像是逼近了就以前你是看不到车尾灯那现在好像他车子就在后面的这种感觉

我記得您以前說過中國不太擅長從零到一的創新但是很擅長在一的基礎上在別人的基礎上進行改良所以您覺得 Deep-Seek 算是一次成功的改良還是真的是有一些從零到一的創新呢?其實每一個落地的小模型在各個國家去多有一些它自己本身的創新那 Deep-Seek 它的

它使用到比如说像混合精度训练那使用到像我们刚才讲的多专家的这个模型这个 NOE 或 Multiple Precision 那再来讲就是像这种从大模型去做模型的帧六让小模型去学习这些都不是创新的这个都是本来就有的那 DC 它只是把这些换在一起之后然后

做了一个 benchmark 让大家觉得就是说以前只要是 O1 才可以达到的 performance 在 Deep-seed R1 也可以达到相逼近的 performance 但其实 Deep-seed R1 它的 performance 还没有所谓的超越 O1 它只是所谓的逼近

但其实我们在过去在小模型的话就模型真六其实是 2015 年 Jeffrey Hinton 他提出来的那模型真六的技术它是有点像就是

我们把大模型当作一个学霸来讲的话就是学霸去参加考试他考试怎么去回答题目那我们用小模型就我们不是学霸那我们就去看学霸怎么做答学习起来之后去参加一样的考试那也会考到不错的分数那所谓的模型真六大概就是这个意思所以

所以你如果说我们今天这个模型在训练本来就是用 O1 去蒸馏已经有的考试那依照那个蒸馏出来的结果再去做训练的话那原本

本来就会考到相类似的成绩就像我们比如说中国不是去美国留学都会找考这个 GRE 跟托福吗那就会有基金嘛那如果说大家都去看着基金再去考 GRE 分数都可以考得蛮高的

大概就是這種概念 Deep-seek 受到比較多的詬病的點就在於您剛才說有些人說他是用這個 ChatGPT 用 OpenAI 的數據在訓練自己的模型或者說是在徵流 ChatGPT 的模型但是有一些為 Deep-seek 辯護的人就說像這種模型徵流或者是用別人的數據去訓練自己的模型這個在 AI 的業內是常規操作您怎麼看待這種說法呢

第一个就是说从模型蒸馏这件事情的创新来讲的话它并不是一个创新因为其实像 OpenAI 它本身在 O1 它就提供一个模型蒸馏的方法把它的知识可以提取出来去训练比较小的专家模型它是给 OpenAI 的 ChangeGPT 的

那 O1 mini 去透过 O1 去整流之后那 O1 mini 就可以相对用比较小的资源就可以去回答这个复杂的这个问题 DeepSea 的这个模型他在训练的时候他其实有有 claim 就说他他用了 14 个 trillion 的这个 token 训练的这个 token

但是他并没有交代他这个 14 个 Trader 训练的 token 是从哪里来他里面讲到的是他是透过像 Common Crawl 就是共同的这种

共同的资料爬取的一个基础他拿到的资料但以 Common Core 的资料去做训练的话他可以拿到大概只有几十个 Billion 的 Token 跟他 Claim 的这个 4 个 Tillion 的 Token 其实还是有一个很大的差距那从他的这个系统看起来就是他开源的系统看起来有

有人去我们如果去看他开源出来的内容我们就可以看到他实际上有从这个 CHAT-GBT-01 去蒸馏模型相关的这个程式码是有在里面的也就是说他里面宣称的他整理的这个训练资料集体实际上是从 CHAT-GBT-01 蒸馏出来的结果

那 ChadGB O1 它原本就提供这个帧六的这个技术但依照它的使用规范应该是只能给它的 O1 mini 的这个模型使用所以你说这个东西算不算违法它是违反这个 ChadGBT 的这个使用守则也就是说你使用 ChadGB O1 做模型帧六的话照理说你是不能给

O1 以外的模型使用但是 Deep City 它拿來自己用了至於這個東西算不算剽竊或者是說有沒有違反智慧財產權

那这个部分其实就是比较有趣的因为大家会觉得说 CHAT-GBT 它的模型当初在训练的时候他拿到的资料也是全世界的这个资料那他在拿这些资料做训练的时候也没有在管别人的制裁那所以在 Deep Sea 去从 O1 去征流这个资料出来之后再去做模型的这个训练如果以制裁讲算不算从事或者是算不算剽窃那这个

這個其實在法律上是還沒有定論的這其實也反映出來就是全球的人工智能的領域現在基本上處在一個野蠻生長的階段我們之前其實討論過人工智能的一個特點至少到目前為止展現的特點就是會一本正經的胡說八道哪怕是像 ChatGPT 這樣的產品其實也存在這樣的問題那麼業界是管它叫人工智能的幻覺現象

那么这段时间测试下来人们发现其实 DeepSick 的这种幻觉的概率其实是更高的您觉得为什么会这样呢 DeepSick 在训练的时候它实际上是拿这个

拿 Common Core 的资料来做训练它是学习 O1 的推理用 reforce learning 去做模型的推理其实 CheerGPT 在这几年它在模型的幻觉上面实际上是进步蛮多的

模型的偏见上面也是进步蛮多的比如说在回答问题的一本还是会有幻觉但是它会比较收敛如果说有违法规的部分它会比较谨慎反过来再看 Deep-Sea 的部分的话应该就是它原本在模型训练里面并没有去做这方面的调整所以它在

模型的幻觉的部分它还是一样的是有很多的幻觉其实现在大家看 DeepSeed 跟千万模型大家关心的就不是只有模型的幻觉

还有一个很重要就是模型的这个偏见就说大家可以觉得大家可以知道注意到就是说如果是用确 GPT 最早确 GPT 的模型因为他他主要是在美国做训练嘛那 common core 的资料他也都是以英文就是 ENUS 的这个文件为主所以所以很多人会觉得说这个是一个

大美国思想的这个 GBT 那反过来其实在不管是千万或你再去问他问题的时候他的模型因为他给很多这种中国拿到了这个文本那中国内部拿到文本很自然而然就是他内容是有选择过的那有些在黄河前那里看不到的东西他自然就没有办法回答那所以中文

中文的简体中文的文本在中国内部去收集训练这种大学与模型在前文跟低级很自然而然你问他什么天安门啊或者问他台湾啊问他新疆那他其实就是一个中国立场的这个模型但这个其实就是模型在各个不同地方你为他不同的资料他训练出来的这个评鉴的这个结果那

如果说再更进一步,如果说以中国的模型里面我们在看 DeepSea 跟这个 Qianwen 的不同 DeepSea 就更有意思了,就是说你可以注意到 Qianwen 跟 DeepSea 在这段时间其实他们是一起去大概是差不多时间是出这个开源的模型那甚至阿里巴巴的 Qianwen 他在 Clean 他的考试成绩比 DeepSea 还好

但是你可以看到不管是官媒或是网络上面的操作其实还是会是以 DC 为主那我们回去去看这个 DC 的模型跟千文的模型我们也发现了一个非常巧妙有趣的状况就是说千文的模型跟 DC 的模型我们大概都可以看得到就是说它是以简体中文训练为主所以它是会有很强的就是在国内才看得到的内容

的结果但是 Deep-seed 的模型它更强化的就是说它会跟官媒是一致的论述也就是说它会无时的跳出来捍卫国家的主权或者是在讲这个党的领导是非常的好就以前我们在台湾我们有叫做反共八股文

那 DC 的模型你可以看他在回答很多的问题比如说问他说要打什么疫苗好这只是要回答疫苗就好他会跑去挺中国政府的这个政策去照顾人民的这个健康这就是会突然会觉得说好像除了说他在一般的这个模型的这个训练有文字上因为

防火墙的这个长城内的这个限制之外他还加重了这个官媒论述那所以让他的回答跟官媒是比较一致的

怎么加重官媒的论述呢因为我看他们在训练 R1 的时候是用的叫所谓的无需任何人类反馈的强化学习所以我对这点就非常好奇因为我们曾经聊过人工智能为什么会有偏见您当时告诉我就是说因为人工智能它训练这个模型所使用的数据往往是需要人来标注的

那麼在人標註的這個過程當中呢其實就已經置入了人的偏見那所謂機器學習的過程也通常是機器輸入一個結果然後根據人類的反饋它不斷的在進行調教那麼這個人類的反饋有的時候是信息不準確的或者是會置入偏見的那如果說在這個 DeepSick 在訓練 R1 的過程當中它是無需任何人類反饋的強化學習那它是怎麼置入到這個所謂的

人類的偏見或者是自我審查或者是像這個剛才您說的這個中共官媒的這種八股文呢?低性模型它在訓練其實是有幾個步驟第一個步驟它之前是它其實在低性 R1 之前有 R1-0 那 R1-0 之前它有低性的 V3

那 DCV3 它刚才讲的这个无需任何人的这个 input 去调教模型它是指的是 R1,R0 在训练 DC 做这个模型推理能力全我受的这个部分那但是模型在训练推理能力之前你要先练习让模型训练它讲话那让模型训练它讲话就是 DCV3 的部分

那 D3 V3 我们看得到的内容就是它就是用到大量的简体中文的内容它其实并没有公开它训练的资料集但是我们大概从这个测试我们可以推论出它是使用非常多的国内的简中的资料中国国内简中的资料再加上就说像刚才在讲说

千万也是用周末博念的简中资料但是为什么 DC 会有加上官媒的这个论述呢比如说你在训练他说话的方式的时候你把官媒相关的内容跟资讯加强他那部分的数量那很自然的他模型就会在各方面的事情就会

倾向用官媒相关的论述去做论述而不是从网路上一般使用者的论述去做论述那这个就是在 B3 就可以训练这个模型它在一般说话跟思维的时候它会走向跟官媒一样的这个思路那你刚刚讲的刚刚讲的就是说不需要人为介入就是之前 QGP 在训练这个

去年比如说 4.0 的时候他讲 reforce learning human feedback 他这个 feedback 就是他也是 reforce learning 但是他在每个 loop 里面他是有人去给模型告诉他这个回应的好或不好那他回答的是比较符合这个人的期待那实际上

GPC 在 O1 的时候,我们大概可以想象得到就是 DC 它在训练 R1-0,它其实是已经 mimic 这个 O1 内部是怎么做训练。那只是说 O1 它并没有把这个训练的方法开放跟开源。大多数,这其实就是

OpenAI 后来被大家所诟病的就是 OpenAI 后来就不 Open 这个部分就已经有人把 OpenAI 那个 Open 画掉然后讲 Close 就是这个原因那 DC 它大概但是大家都可以猜测得出来就是在 Chain of Sword 的这个推理过程应该就是用 NuForce Learning

但是你 force learning 要怎么把它做到不需要人为的 feedback 就可以让他训练的很好呢那这个就是 R1 Nero 他开放的这个部分他讲到的那实际上 R1 Nero 跟 R1 他也并没有完全的开源但有很多有很多人是透过 reverse engineer 在把里面的 source code 把它开源所以有一个叫 open R1 的计划在 dhub 上面那他就是

试着去把这个 R1 怎么做到的再把它用这个逆向工程的方式把它做出来那 R1-0 它怎么做到圈入的时候就是你如果说在每一次的 loop 你还需要去冷去做调整那这个 cost 会非常的高那

你没有人去调整他的唯一的缺点是什么就是说他回答的内容是可能会混杂各种他其实就有点像人在学习思考的这个流程那人在学习思考的流程你不见得会用一个很清晰的方式把它讲出来但是你会

可能是掺杂的各种的语言掺杂各种方法去思考但是 as long as 你可以思考出对的结果这个中间你用什么的语言其实不是很重要所以他怎么去衡量这个模型的成果好跟不好那个部分原本需要人的这个 evaluation 的那个 evaluation model 他把它拿掉之后那他用自己模型去做 evaluate

直接接回去,那这样的话他就是可以做到他在训练可以节省非常多的这个 April 那他在最后再出来的时候再从 R1 Neo 再训练一个 R1 模型他就是在最后其实他还是要训练出比较符合人的想法人的这个说法说话的方式的那个部分的时候再把

人的 feedback 加进来所以他其实是训练过程中还是有人的 feedback 他才可以在最后的那一步还是有人的 feedback 才可以训练说好的这个 feedback 但是在前面的这个部分他是把训练怎么去思考逻辑这个 channel of soul 的这个部分他是可以做到就是不需要这个人的 feedback 所以他才叫 R1-0 所以

所以您刚才提到这个 chain of thought 就 COT 其实也有人说这是 deep seek 的一个很大的问题就是它比较强化它的这个思维链但是就会造成它在回答比如说像数学题或者是写程序这种有标准答案的问题的时候它是很聪明的但是你如果让它回答人文社科领域的时候它因为它强化这个思维链它就会变成比较容易过度发挥所以反而更容易胡说八道是不是会存在这样的问题

没有错,因为第一单我们在讲这个 R1 模型,R1 它是一个推理的模型,它对标就是 CHPT 的 O1,那推理模型它的强项就是,因为过去大家在人工智慧的最后几个领域,就是回答数学题是人类最难的几个问题之一,那我们透过这个 Chain of thought,透过这种推理的方式我们是可以回答得更好,

但是并不是所有的东西都需要推理所以就变成说你去回答一些比较直接比如说你要 summon 来一个文章或者是要做一些比较简单的请他写个什么草稿内容那他还去做推理的话有时候还会推理得乱七八糟而且非常的啰嗦 聋散那他的结果就反而还没有比

一般小的这种所谓的 dense model 它比较没有推理而是直接回答的这种小模型小模型有时候还回答得更好

刚才我们提到了 DeepSeek 自我审查的问题确实我们在采访之前我刚刚还在用 DeepSeek 我问他说你是 ChatGPT 吗他说我不是我是中国公司所推出的一个独立的人工智能产品然后我问他说那你属于中国共产党吗然后他就回答我说这个问题超出了我的范畴我们活在

换另外一个话题谈吧这个真的很有意思但是也有很多这个人工智能业界的人就挺不以为意的他们就说这个中国就是这样的环境我们也知道啊但是这并不妨碍中国人工智能的发展甚至他们这个长期带着脚料跳舞就更多的能够训练自己的这个肌肉所以而且他这个所谓的中国人

中国科技发展的这个跟随政策它不断地在模仿在跟随的过程当中训练自己的一些基本的机能或者搭建自己的一些基础设施然后在环境允许的情况下它可能就更多的会迸发出这个创新您怎么看待这样的说法呢我觉得这句话把中国拿掉也都可以啊就是因为其实开源的模型在全世界各地就是以前大家会觉得说这种

大型原模型这个是大科技公司才做得了的事情就是 Microsoft 和 Google 但是自从在这个在这个有开源模型然后有一些比较用不用大量的硬体就可以做出一些 resonable 结果的这种方法出来之后

实际上全世界在各个专业领域去训练可以执行的专家模型这个原本就已经是一个趋势也就是说过去大家会觉得说能工智慧是只有大科技公司的玩具小公司是没办法做的在现在这个时代已经不一样这有点像是在

在过去大家就 Microsoft 跟 Intel 它不是做个人电脑吗以前在 PC 之前 Personal Computing 之前大家觉得银行界就一定要用这个 IBM Mainframe 的电脑那这 IBM Mainframe 电脑每个都非常的昂贵但自从有了这个 PC 之后那 PC 当然也有很多盗版的 PC 啊那就就造成这个电脑运算的这个普及嘛

那同样的在能工智慧也是一样就说以前大家会觉得说这种大学模型一定都是要这种超级大的这种科技公司才有办法去经营才有办法去进行那小的科技公司是没有机会的那其实以这个开源的这个结果

以模型帧流去 mimic 大模型执行的结果,加上多重专业模型的方式,各个领域并不会因为没有大量的运算晶片,就没有办法做发展。

所以以这个趋势来讲的话它本来就是全世界都是这个趋势并不是说一定只有在中国是因为它是带着铰链所以它就发展得更好因为其实大家都是往这样子去发展但是

但是中国会因为这件事情更兴奋刚才你也提到了官媒对于 DeepSeek 的背书就说这个 DeepSeek 的成功说明中国可以绕过像芯片出口禁令这样的这些限制条件能够用好的算法来弥补算力的不足您觉得这种说法站得住脚吗或者长期来看您觉得好的算法是否能够弥补算力的不足呢

如果在這種情況下 那美國的這個芯片的出口管制或者跟人工智能相關技術相關的這種出口管制它的意義到底在什麼地方

其实我觉得在人工智慧的发展它原本就是有几个重要的因素第一个就是算力虽然说就是就像常常有人讲的就是钱不是万能的但是没钱是万万不能的算力这还是一个非常 critical 的这个角度那当然要解决这个要做到最好的这个这个 AI 绝对只有算力是不够的那所以在在

在软体发展软体的技术工程这本来就是也是一个非常重要的这个角色演算法怎么把这个演算法做得更有效率参加一个好的这个收费 architecture 改变 10 倍 100 倍的这个进步甚至比算力它带来的这个进步更好所以其实

算力就是以前讲这种 double E 的人在去这个 more 定义或者是还能心定义不断在进步但是算力绝对不是全部就是说其实在演算法的这部分软体功能是这个十倍百倍千倍这是数万倍的这种进步这软体功能是在演算法部分也是有很大的 contributing

但是其实不管是算力或是演算法到最后我们还是要讲到应用的这个领域这其实就像 Internet 一样你有很好的 Server 你有很好的 Website 但是最后其实还是你应用在哪里的这个 Business Model 是最重要的所以我们可以讲的可以看得到就是说人工智慧如果说在

前两年可能就是你可以看得到这种非常大规模的这种 Internet 的就像那时候 Internet 时代 Server architecture 已经定定的可能就是在 ChangeGPA Release 那时候那在现在这个时代就是各种应用可以利用各种开源的这种

成果去做各种的应用的收位的 stake 也已经堆上去了在现在这个领域其实应该就是一个百花齐放的时候就是各个专业的领域你怎么去应用现在有的开源结果去做出好的结果做出好的结果需不需要一定要非常多的算力

这当然是不需要因为因为你有依照你的这个

依照你的需求,你有可能只是拿先前能做出來的結果就像 DeepSea 它是拿 O1 Distributed 的結果再去做出 DeepSea 那其他各個的小的模型或是專家模型是這樣子去做那你也可以再以現有的這個開源結果基礎上面再去做各個的領域的專門的這個模型這其實是每個現在的新創公司是可以在這方面去著力的

你不用去做什么基础的大模型因为已经有很多人帮你去做你不用再去再去开发这种金色的这种推理模型到底要怎么去做才可以把推理做得更好因为这个部分慢慢也都开放那你现在其实最重要就是要去做各种的这种产业应用那以这个角度来讲对就是你可以看到就是说百花齐放而且就是

大家已经都有在做自己的这种开源的模型但是这个是不是就等于不需要算力的呢但这其实也是有点吊诡就是说就有人就拿一个例子来讲就是说单车子多是大家都买得起的话就代表大家不需要就代表车厂就不会赚钱吗这其实不是的就是说但这个

各种的小的应用越多的话其实会更驱动更多的算力的需求但只是说过去的算力的需求很多是 NVIDIA 以前它可能它卖的对象就是只有这个 Microsoft Google 或者是 Meta

但是在未来的话他卖的对象就是所有各个小公司他也可以买 GPU 然后去不用那么大的规模 GPU 他可以发展他 renewable 的这个省物区所以算力的需求其实不会减少那你当我们在做演算法的这个演进的时候就是

当你在小的模型你可以利用一些或者是在这些各个企业内部的这种需求你可以用一些方式把演算法做得非常有效率你现在做的很有效率调整好的这种结果不管是 Lama 不管是 DeepSea 不管是千万不管是 Mistro 不管是台湾 AI Lab 的结果其实你只要是开源的

同样的大科技公司也会拿去用了就其实 Microsoft 其实在第一时间就宣布他的 Azure Cloud 那我也把这 DPC 放上去也就是说这技术本来就不断的堆叠上去大家就像 DPC 你也是用 Chain of thought 你也是用 Multiple experts 多混合精度大家都不断的有开源的结果这开源的结果也会不断的往上去堆叠往上堆叠的结果是什么其实就是

擁有最多算力的 Eventual Time 還是一樣可以做出最強大的模型那所以我的看法是算力的競爭是不會結束的可是

而是可能就是在开源的模型的结果,包含 DC,包含 MIST,包含 LAMA,大家才开始看到就是说,原来在人工智慧时代决胜点不是只有在算力,还有就是你的软体工程。那在后面其实大家会慢慢会注意到,决胜点其实是真正到落地的每个应用。

我也看到一種分析就說其實算力還是非常的重要像美國的這種對於針對中國的這個芯片的出口管制它並不能夠阻礙中國去研發出最先進的模型但是呢它會造成這個中國由於算力的不足

不會那麼快速的或者大量的人同時的使用這個模型就像你剛才說的它可能會阻止中國的這些模型快速的被商業化大量的應用或者是被使用在這個先進的軍事武器等等這個有趣的地方就是

开源的成果跟软体工程的结果它是可以让科技更普及更多人加入这方面的开发当然更多人加入这方面的开发它并不会减少算力的需求它反而会增加 eventually 算力会有更多的需求

您提到开源的这个问题其实这也是 DeepSeek 很为人津津乐道的一个话题刚才您好像说到您觉得 R1 其实就是号称是开源但其实不够开源但是我也听到很多工程师非常喜欢 DeepSeek 因为他们觉得 DeepSeek 现在所公布的这个技术报告相对来说已经是非常透明非常详细了您怎么看呢或者说 DeepSeek 它为什么会选择这个开源的道路那么 OpenAI 为什么不

面临那么多的指责但是依然选择避援的方式呢我觉得 DeepSea 它在在这个路上它最大的共性应该就是开放了 O1 怎么去训练模型推理的这个部分就是刚才讲的这个 R1-0

到 R1 的部分,那个部分过去大概是一个 break bar,他不知道他是怎么训练的,但 DC 相对来讲就是透过他的,他一直用论文发表的方式来让大家知道这怎么去做运作的。至于开源这部分,如果说我们去照 OSI,Open Source Initialization 的规定的原则来讲的话,

实际上 DeepShip 不算开源的软体因为它没有因为开源的软体的定义是你需要开放原本的训练的资料集你就要用要开放训练的这个程式码那用训练的程式码跟资料集你要可以训练出来之后重现你这所 claim 的这些 benchmark 的这个结果这个 OSI 的定义是这样子那 DeepShip 来讲的话它是等于是它的

训练集并没有公开它这中间怎么去训练的有很多城市马也没有公开但是它最主要的就是开放了训练结果的模型的权重

那训练结果,但对大多数人来讲这已经够了,因为大部分人只会去用,他不会去训练,因为大部分人也没有这个 GPU 去做训练。那所以,所以对大部分人来讲,他是把这个模型 download 到他的机器里面去用,他就觉得就就很开心了,因为以前大家会觉得说这个模型没有办法 download 到自己的电脑去用。

但是这个单独到自己的电脑可以去用,这是不是 DC 的贡献?这其实也是有问题的。因为 DC 它可以做到 O1 推理跟逼近 O1 的成绩,它其实是 mimic O1 的做法,跟使用它的资料集。

針對題庫答題去做訓練所以它本來就是會逼近但是當它訓練到 DC R1 的時候 R1 它其實還是沒有辦法到一般人隨時都可以 Download 下來可以使用所以實際上它開放的模型去送讓大家可以使用的 Base Model 並不是 R1 是千文跟 Lama 也就是說它在用更小的模型

开源模型贝斯就是有拉玛有千万然后就是用拉玛去模仿 R1 的回答其实就是 R1 的针灸的结果再让千万居多学习再让拉玛学习所以一般人他下载可以用的模型而且在自己的电脑上可以跑得动的实际上他本身的

運算架構是喇嘛跟前文那 DeepSeq 另外一個引發震動的點就在於它自稱的便宜但是這一點其實受到了特別多的質疑對於一個人工智能模型而言到底怎麼來合算它的成本那跟同級別的這個大語言模型相比 DeepSeq 真的便宜嗎我想 DeepSeq 它在 Clean 它的便宜的這個部分

我们可以看到 O1 实际上它在成本效率本来也就是跑得非常的顺畅所以只是因为 O1 它过去相对来讲在推理模型是垄断的结果所以相较来讲它没有什么竞争对手所以它可以卖这个价钱那 DC 出来的话它模拟 O1 的结果那它有推理的这个能力那它当然可以 claim 它便宜对

那 O1 來講的話就是說如果說你在講這個 O1 執行你可以選擇比較不好能的方式其實 O1 它也提供了一個功能就是它一樣是有 O1 mini 就是你可以用相對來講參數比較小的這個小模型去學習 O1 的回答那 O1 mini 它使用到的資源就會比 O1 小非常的多

那 DeepSeat 其实在号称它的便宜的这个部分它在秀出来的很多都是这个实际上就是用 Lama 跟千文去模拟 DeepSeat 的这个 R1 的这个结果所以它原本模型参数少的小模型那原本就会比较便宜所以这个便宜的这个论点的话就是

我觉得就是就是并没有就只能讲说售价本来就比较便宜但是你说是因为这个技术能力做到模型会比较不那么运行上原本的成本比较没有那么昂贵的话那我的感觉是其实在不管是在美国不管在开源社群或者是在

前文或者是在 Mistro 它在这模型的效能的节省上其实都有不错的成绩 Deep-seq 对我来讲并没有特别的接触所以您的意思就是说 Deep-seq 所谓的便宜它其实单价并不便宜它只是因为跟像 XGBT 比起来它算是一个相对来说小一点的模型所以它更廉价对吗

就像我们其实台湾 AI Lab 我们在台湾我们也帮非常多的这个产业使用这种开源的这种结构去训练专家的模型那我们训练出来也都是一个一体机然后就是

大家在特定的领域就是用这个不管是 32B 或是 70B 甚至有更小的就是可以可以 serve 很好它现有的这个领域那这个东西 run 起来都非常应该说非常 affordable 本来就不会那么的贵那你没有去 run 这种

三兆的这个参数的这个大模型那当然你运行就原本就会便宜所以有些人认为 DeepSeek 的出世给英伟达的这个护城河上凿了个口子您是否认同这种说法或者他能够逼迫英伟达降价吗或者打破英伟达对人工智能芯片的垄断吗有这种可能性吗

我的感觉就是很多人会觉得说是不是当你的应用对 GPU 的需求不会那么多的话是不是 GPU 的销售就会减少其实不会因为我看到的是因为有了这种开源的模型越来越普及其实过去有很多原本没有在投资做

能工智慧的这个产业不管是医院啊或是金融机构尤其像我这次到这个法国他们特别讲的就是医疗跟金融

医疗跟金融为什么跟过去在讲云端的 GPT 不一样呢因为医疗跟金融他们很多都是个人资料那这个人资料在欧洲的 GDPR 的法规跟相关的 AI 的法规之下还有医疗金融相关的法规相对来讲是严厉的那在这些环境严厉之下通常这些机构都只能选择在内部去建置 AI

以过去来讲的话成本太高所以他就是干脆不做但是以现在来讲因为有了这种各种的开源的模型搭配像 AI Lab 或者是各种的这种专业的公司可以去做专业领域的模型这些组织现在其实每个都有自己要建立内部的 AI

AI 机房的计划也就是说以前你要买上千片 GPU 这是不可能的但是你买个几十片去做一个 resume 专家的模型现在是可能的所以原本不愿意投资的现在就会愿意投资所以我看到的反而是更多的需求更多的需求广泛的在各个地方落地

这是一个全新的市场就是说以前云端市场是云端市场那落地市场是落地市场但是落地市场的需求并不会影响云端市场就两个需求是会同时成长的这是我们现在我现在观察到的就是有用云端的还是会用云端但是有很多是一定要落地的它就是现在以前是没有选择但它现在有选择

在这样的一个所谓的落地端 AI 化的时代数据安全的问题有多紧迫因为 DeepSeek 也很多被人质疑它的数据安全的问题到目前为止由于大量的访问量其实 DeepSeek 已经出现了数据泄露的案例有些人就觉得 DeepSeek 小团队可能没有准备好去管理这么大量的数据但是也有人说任何脱身于中国的

在這個體制之下 或在它的法律法規之下所誕生的這個人工智能的公司都存在數據安全的隱患您覺得這是不是一個中國的人工智能公司無法擺脫的原罪啊?就是說 但你是 但就是說依照中國的這個法規你的我們如果提供服務在中國境內的話依照中國資料法跟中國情報法 這個數據

本来我们以前在西方我们在讲 transparency 是 transparency to the user 但在中国我们在讲 transparency 是讲 transparency to the government 那我在这边讲的治安是 never leak to others 那在中国讲的治安是你就是中国需要资讯的时候你需要给他这叫做治安所以这其实在本质上的概念就是不太一样那所以

所以你说如果说今天这个 DeepShift 我们刚才在讲的是跟技术有关跟模型有关其实我们讲的有很多 DeepShift 讲的这个 innovation 实际上都是开源模型原本就有的那些东西都是大家可以技术都可以拿来用没有问题但是再往上一层的话就是如果说它 host 成一个 service 变成一个 app 你在使用的上面会有什么样的 risk

那实际上只要是在中国境内的服务都会有同样的 risk 就是我刚才讲的中国情报法跟中国资料法基本上以我来讲我是不太会去用的对就是因为我并不想要分享我的资料变成情报的一部分

另外来讲的话就是在中国境内也有中国相关的演算法法规所以你在中国境内里面发展的演算法会需要信档你不能回答有为某些不管是分裂国土或者这种相关的思想一定都会被禁止的甚至它在需要的时候你要去推广某一类 China 的故事

那这个就是我们在 Deep Sea 里面发现的嘛,他就是在回应里面会很我们在了解应该是他的原本的训练资料就加上了有很多这种中国官媒的一种党的思想的这个内容在里面去加强他母亲回应的方式是符合党的这个价值。那所以

当然你这个不是自己做 host 的那也不是自己你没有办法有效的去把它的这想法去洗成你自己符合你这边的思维的时候你使用这个服务就会非常的危险我相信最近也有非常多的情报显示就不是只有 AI Lab 这边的测试就是说在

在 DeepSeed 不管是它的下载的模型的使用其实它还是存在资料传到中国的问题那它服务的这个 service 的部分之前有资安公司去做测试那是有资料外泄的危险跟被攻击的危险对

我們剛才雖然說了很多 Deep-Seek 的不足但是在 Deep-Seek 從空出世的時候就連美國總統特朗普也說這個對於美國的人工智能界是一個敲響了警鐘您覺得美國的人工智能界應該吸取什麼樣的教訓或者說應該在哪些方面有所警惕呢因為 2024 年我們也看到是美國在這個人工智能界混戰的一年光這個 OpenAI 的這個攻鬥大戲我們就已經看了好幾場

所以你覺得美國現在人工智能的發展存在什麼問題嗎?有哪些地方是需要警惕的?我覺得美國科技公司應該是樂觀其成但是對 OpenAI 的影響可能會比較大

你可以看得到 OpenAI 它从开源走向闭源你刚才有讲到 St.Altan 这个策略其实也有开始在讲说是不是那时候走向闭源的政策是错的因为其实你在以软体的产业来讲你选择一定程度的开放实际上你才会成为这中间的霸主这是常有的事情因为当你选择开放的时候你就会树立标准的点放在规格大家就会 follow 你就会变成

你就会变成一个生态系当你变成一个生态系的时候其实软体最大的获益在于生态系而不是以服务本身所以这个东西我想对 OpenAI 来讲它是会有一些转变所以你可以看到它马上就 release 了这个 O3release 了这个 Deep ResearchDeep Research 也是非常好的成果 O3 也是非常好的成果但是它在

不像過去那麼的封閉那現在又慢慢有這種開放的想法所以我覺得這個是一個競合的過程就是說技術本身大家是在競爭但是以這個科技的成長來講是

開源跟合作這個都是一直持續在進行的說到合作前兩天在巴黎舉行了人工智能的這個行動峰會那美國副總統 J.D. Vance 是在這個峰會現場發表了一篇講話那麼他是以不點名的方式呢

不点名中国的方式但是非常明确的其实是给欧洲的人工智能的公司一个警告就是说要合作的话还是应该跟美国合作那美国的路线或者美国的技术理念才是 AI 领域的黄金标准您怎么看待这样的一番警告就是说如果没有美国的警告欧洲真的有可能会在人工智能领域更多的跟中国合作吗

我覺得美國副總統 J.D. Reince 在巴黎公會演講的時候,其實那天我也是在現場。我覺得他的論調跟態度是模擬川普的態度。他在現場裡面講到有幾個論點,第一個就是

法國總統馬克宏他主持人其實他就要告訴全世界以前好像能工智慧是中國跟美國大家都看到中國怎麼樣美國怎麼樣但是現在

法国就是在欧洲要有一个代表他投资 1090 亿的这个欧元就是要宣布要发展这个能够智慧的领域那当然法国自己本身有下 MISTRO 的这个不错的这个开源的这个结果

但是比较没有这种像像当创前面是不是有这个 stargate 的这种计划所以法国在这 1091 它就是依照依照马克宏说的就是依照他的人口的比例相对应的规模那他也投资相对应程度的这个 commitment 那这投资的相对应的程度的这 commitment 来讲的话

其实法国他特别讲到的就是智慧医疗跟金融那为什么是智慧医疗跟金融这两个领域有一个原因就是很多人都觉得欧洲是现在人工智慧人类最后的净土

在其他的地方好像已經不是這種人類使用人工智慧而是人類被人工智慧所使用就是你是人在中心或是你被控制的 AI 現在好像後者是比較多那因為歐盟的法規比較先進因為它有 GDPR 有這個 AI 所以相對來講

你人本的价值在欧洲是比较能够做保留但是它所对应到的挑战就在人工智慧的话你要去这个领域这相关的法规是不是需要做调整还是需要降低这个 bar 就跟美国一样但是我在欧洲我看到的就是以欧洲在地的这些团队来讲的话他们其实是非常崇尚自己就是

以人為本的這種價值那在這個法規的前提之下再去做發展可信任負責人的機制那我覺得這是一個很好的方向但是以這個方向來講的話它相對來講就限制了美國的企業所以副總統講話其實是在幫美國的科技公司說話這第一個 Point 就是

他當然是想說沒錯未來法國是一個很好的地方那我們是可以一起合作發展能夠智慧但是他還是很驕傲的在講美國還是贏的還是領先的你要跟美國合作的話你要先把你的法規相關的限制把它移除掉他其實就是希望

欧盟相关的立法降低之后让美国科技企业进去但其实欧盟的态度来讲因为我有参加这个欧盟的这个 Data Protection Act 相关的这个 regulation 的这个 committee 那这相关在立法相关的这个 parachute maker 里面其实其实大家

多知道一件事情就是如果说我们照美国现在的方法去做的话欧洲很有可能就变成一个数位的殖民地在能工智慧其实就是帮忙盖 data center 那实际上资料什么其实都变成美国科技公司最好的 AI model 你也只能用美国科技公司提供的那所以你要怎么去在保障保障数位人权之下让每个产业可以发展自己的

人工智慧而不是说你一定要依赖在谁的平台上面去发展人工智慧这些法规其实是还在但是你要怎么去让它是一个正向的去发展那其实我们讨论到很多就是像在资料治理的层面你要怎么不需要中心化就可以训练 AI 那就是联办式的科技那在这个模型训练的方式的话在美国我们都是在讲这个

这个通用的大模型就是像 CHPT-01,03,Deep Research 那在在欧洲的话其实他们是强调的就会变成专用的这个小模型那专用的小模型的话那实际上你在医疗领域你并不需要一个会讲八卦的 AI

那你在金融领域你不能讲太多啊跟金融没有相关的那到时候被金管会罚了怎么办那所以这种专业的领域有专业素养训练的 AI 模型其实它并不见得需要非常大量的这个 GPU 的资源你要怎么把它做好那这方面的

技术跟这方面的资料治理其实是有一个非常不一样的思维还有在包含在保存这个在 AI 的过程中怎么不会被社交媒体或是密信封面影响让这个民主受到损害那这个其实在欧洲的相对来讲它主题的意识跟思维还是非常的这个强烈好那

所以我可以看得到副总统的论述实际上是在保护美国的利益也在保护美国科技公司但实际上我觉得以美国的科技产业要进欧洲还是要因地制宜去适应一下这边还是有比较强烈的这种以人为本的这种保护人权一致的这种思维

如果要是聽上去歐洲這麼強調以人為本的這種對人工智能的監管的話即使沒有美國 歐洲也不太可能跟中國合作因為中國似乎離歐洲的標準離美國的標準就已經相差甚遠更不要說離歐洲的標準這其實是副總統講的第二個論述第二個論述其實就特別劍指中國

那《戒指中國》其實它裡面講到就是有點暗示中國是在技術剽竊這個美國那另外來講就是它也就強調你不可以信任中國的這種技術就是說你有可能用到它的技術之後會有更多不好的這個後果那所以

以欧洲来讲的话我觉得这个分两个层面来看因为全世界的技术人员在开源的贡献的社群这都是不容磨灭的包含千问 包含阿里巴巴包含 DeepSea 团队在欧洲有 Mistro 在台湾有 AI Lab 我们其实都是在

开源领域都绝对是技术上只要大家愿意无私的奉献之后是可以合作的但是在应用的层面来讲的话当你要使用一个应用你要考虑的这种安全的级别就不是只有开源这个技术的堆底那在应用的层面我们可以很明显的看到在欧洲的环背心

就在美国的这边反被性他可能是比较担心在资本市场到最后就是全部都是这欧洲都变成数位殖民地但在对中国的反被性他是更深一层了他的反被性是

打从底子就是不相信你 App 或者 Data Center 架设在中国的这件事情打从底子就不相信这个模型它不会为了自己中国的利益而去做一些调整其实这些也是实际正在发生的事情所以我想以现在两群世界都非常 aware 就是人工智慧在未来是一个 super power

但是這個舒珀泡的架構你是要跟著美國變成美國的一份子呢還是你要

你要使用中国的廉价解决方案但是让你的人民跟你的资料被中国收紧了我想两个都不是欧洲想要做的事情所以欧洲它就会特别的去强调可信任负责任从 GDPR AIA 去发展 AI 在美国它会保持合作的态度比如说它还是会态度有软化

其實在歐盟峰會後來美國跟英國就沒有簽下那個峰會的聲明但是有點憤而離奇因為歐洲其實態度還是蠻堅定的那

但是其實歐洲還是有示範態度就是說在 regulation 的部分要可以討論的話是他可以去討論但是並不是 lower 了吧而是就是說怎麼讓美國產業也可以公平的在歐洲這邊去競爭並不是完全把你排除在外

杜先生 刚才您提到了监管的问题美国副总统 J.D.Wentz 在巴黎的人工智能的峰会上也专门提到了这个问题他当时就呼吁说人工智能的领域要放松监管否则会扼杀创新美国总统特朗普其实也有过类似这样的表述但是您怎么看待一个初心的产业野蛮生长的阶段在这个阶段就是监管跟创新之间的平衡呢

我就会讲到说比如说我参加了这个 Data Protection 资料保护相关的这个 Committee 在讨论的他其实论述就开始有就是说我们如果不 Promote Data Sharing 的话那怎么发展能够智慧这个东西就是

也很有趣就是人工智慧在未来发展其实最多的资料并不是开放在网络上面的资料最多的资料是像医院里面的资料在金融机构里面的资料在你手机里面上的个人资料这个资料可以开放吗其实在讨论就是这个东西

Data sharing 遇到 personal data 是不是应该要 promote sharing 其实现在美国科技公司都已经在收集了在欧洲因为 GDPR 的保障以至于美国科技公司有很多的功能在欧洲被限制这个东西是不是应该要开放我听到的在现场的论述其实有一个很重的 statement 就是大家的确会担心 Data sharing 会阻止 Data sharing 会不发展

对人工智慧发展可能会抵触但是有一个 statement 就是 Personal data 是跟 personal privacy 是我们要去 protect 我们要讨论是怎么去保障不是讨论怎么去 share 怎么去分享那

那为什么 AI Lab 我们在这个会议里面有一个很重要的角色就是因为其实在台湾来讲的话我们是第一个证明不需要 Data SharingPersonal Data 不需要做 Data Sharing

也可以有一个国家级的政策去做好人工智慧那个科技其实就叫做联邦式科技 Federated technology 就是说人工智慧其实大家都会觉得说我要做一个好的模型我一定要把资料放在科技公司的家里或是放在谁家这其实也是一个误区也是有点迷失离地

所以当你在讲人工智慧你就提到 data sharing 其实你就会造就了某一个 data 的 monopoly 当你造就了一个 data 的 monopoly 你 secondary data usage 你是没办法 revert 因为你资料出去就回不来了那这个 monopoly 这样形成它也没办法 revert 它对未来的人权

对未来的饮食一定是一个非常大的侵害那所以要怎么做呢那我们在台湾为例的话我们就是淫邦式的科技就是我们不是要你把资料拿出来而是我们在我们要把资料做统一这个叫 Common Data Model 的这个 Avian 那透过 Common Protocol 就是有一个方式就是

不是资料收集到一个地方是模型到每个地方去学习之后把模型的权重 aggregate 起来我们一样可以训练最好的模型但我不需要收集任何资料这个其实就是联办式学习的这个概念所以在台湾的话以我们为例我们在

醫療機構我們是 92%的醫學中心透過聯邦式的方式從基因從影像到病治病例的資料我們可以用這樣的方式去訓練模型到大學院模型我們可以這樣訓練在醫院使用的大學院模型那在金融機構我們大概是有百分之接近百分之七十幾的這個金融機構也是用聯邦式的方式做到金融的防戰跟大學院模型那這個其實就是

在欧洲它现在也开始有很多的这种倡议联办式资料治理的这种组织开始在做这方面的研究那跟我们一起合作我觉得监管跟创新不见得会相不违背而且有时候你有科学一点的监管实际上会帮助到创新因为你完全没有监管的话

其實安搭就只能照同一個方式成功那就是跟著大科技公司去做那其實也會扼殺了一些在地的一些創新這是我們的感覺是 非常感謝杜先生今天接受我們的採訪跟我們分享你的觀察和思考謝謝您謝謝