We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 对话天风证券孔蓉:由DeepSeek看中国AI被全球低估 | 周末会客听

对话天风证券孔蓉:由DeepSeek看中国AI被全球低估 | 周末会客听

2025/2/15
logo of podcast 第一财经

第一财经

AI Deep Dive Transcript
People
孔蓉
Topics
孔蓉:DeepSeek受到全球关注,不仅因为其低成本,更在于其技术创新。它采用了MOE架构,并在算法和推理效率上进行了优化。即使在算力受限的情况下,DeepSeek在算法层面进行了创新,这会影响未来的模型预训练。DeepSeek的创新也体现在强化学习方面,它让模型能够自我探索,实现“顿悟”时刻。这种低成本高效能的模式可能正在颠覆全球AI行业,尤其是在中美AI竞争格局中。海外大厂倾向于用强大的算力和高质量的数据来构建更好的模型,但DeepSeek的成功表明,AI发展不一定要“大力出奇迹”,算法效率的提升也很重要。DeepSeek的创新技术和强化学习探索方式,将对全球AI特别是大模型训练产生深远影响。

Deep Dive

Shownotes Transcript

春节期间 Deep Seek 是主导海外市场的关键词各个企业也在马不停蹄的在春节官宣与之合作仅二月份以来包括腾讯云 360 华为云等大厂相继宣布牵手 Deep Seek

此外微软英伟达亚马逊英特尔 AMD 等科技巨头已经于近日上线的 Deep-Seq 模型服务接下来就这个话题介绍一下参与我们讨论的嘉宾天丰全球前瞻产业研究院联席院长孔荣我们看到 Deep-Seq 以不到 600 万美元的训练成本是实现了与 GDP4 相当的模型性能这被称作是中国的 Chad GPT 时刻目前

DeepSeek 的创新点主要在哪里呢孔荣你好好的非常高兴今天能够跟大家聊一下 DeepSeek 这样的一个话题其实也是整个春节期间可能在全球的不管是科技圈还有在整个资本市场让大家觉得可能非常关注的一个方向了然后刚才这个主持人也提到就是我们去看 DeepSeek

他不论是从技术侧包括从这个为什么全球这么多的投资人去关注包括技术圈的人这么多的这个讨论其实从技术侧不只是从成本侧就是因为刚才前面这个片头也有提到就是从成本侧可能跟这个拉玛或者是我们看原有的

模型它的成本好像特别低然后可能大家从这个领域去讨论的比较多但是我们觉得其实更多的它其实从创新点还是有的包括它用了就是所谓的 MOE 的架构包括其实用了就是在算法这一侧就是

去做了一些效率的提升然后包括其实也做了这个比如说推理测的这个效率的一个优化那这个其实在海外很多这个科技的大佬然后一直会提到的一句话就是 Necessity is the model of invention 就是我们看到其实就算是去跟比如说这个原有的 Lama 他们去训练模型去比

我们其实原有的用的这个算力和卡其实相对来说也是相对性能会比较低不只是卡的数量少而且本身的这个算力卡的这样的一个性能就与海外的这个最大的这些大厂他们的这个卡的这个性能就有差距

但是即使是在这种制约的条件下其实我们在整个算法层面也做了我们自己的一些创新包括其实这个也会影响未来的模型的预训练这一侧那这种创新其实在片头也有提到就是主要包括在强化学习这一侧

这个听起来非常的技术就是怎么去理解比如说强化学习对于我们看到的 DeepSeq 以及它的 R1 模型的一个影响以及对于整体后续的整个大模型发展的一个路径的影响因为它已经不只限于 DeepSeq 现在使用然后大家去关注包括其实我们了解像

这个 Meta 在 DeepSeek 这个 R1 的模型出来之后可能整个内部都在紧急学习然后想要去复现比如说 DeepSeek 的这样的一个模型的能力包括去把强化学习用在他们的模型训练这一侧那如果我们去做一个比喻就原有其实我们去训练模型的时候更多的我们可能会去用监督学习的方式

然后来去训练模型那这个呢其实是在原有的很多模型训练用的比较多的但是在 DeepSeek R1 包括 R1-0 的模型在最早在去做训练的时候其实就已经就是已经把更多的强化学习能力放在模型的训练这一侧然后呢这里面就可以比喻就比如说原有我们可能在模型训练的时候我会告诉你人类会告诉你你一步步应该怎么走

你才能走到这个终点和目的地然后我在这个过程中在你这个走的过程中我一直给你不断的这个奖励让你具有这个学习的能力这个是原有的监督学习的一个方式但是在我们看到 DeepSeekI1 的这个模型里面它用的强化学习类似于在最终它告诉你一个目的地然后你到达这个目的地我会给你奖励但是在这个

过程中你要自己去探索所以这个为什么就是对于整个海外还有对于整个的硅谷的这些大佬然后全球的这些科技大厂包括 OpenAI 他们觉得非常惊奇的一点就是中国的 AI 包括中国的强化学习的能力在模型的应用上面能力如此的强然后让我们能够看到

可能在整个模型训练这一侧他能够有一个自我进化的能力然后也就是他的论文里面提到的所谓的顿悟的时刻我不告诉你每一步应该怎么走但是我告诉你最终你的目的地在哪然后让你自我去探寻那这个其实也是比如说 I1 的模型体现出来让大家觉得技术的实力和模型的能力非常强的然后比较有创新性的一点

那您认为这种低成本高效能的模式是否正在颠覆全球的 AI 行业特别是中美 AI 的竞争格局呢对于这次其实也是一个比较重要的就是大家讨论的话题包括在整个硅谷和海外大家讨论的非常多的就是这一点然后其实刚才前面也有提到大家一直不断在提的一句话

就是我们看到在整个在海外其实大厂他们的模式就是用最强的算力然后用更多高质量的数据然后去堆人我去做一个更好的模型所以我们在春节之前其实也看到特朗普上任之后

第一天其实就有了所谓的心机之门然后他们试图用最强的所谓的这个算力和这个这样的一个算力的资源去为未来美国的 AI 的发展来奠定基础那这个是在他们可能整体的这个条件比较好的一个状态下他们采取的方式但是都有

我们来说其实我们更多的是在我们现有的这个条件和基础之上做了很多算法测的这样的优化所以其实这个在 DeepSig R1 火爆了之后其实在海外包括这个主流的 AI 圈子里大家都在讨论的一个话题就是我们不一定非得用比如说那么大的原有的大力出奇迹的方式我们能不能

能够在算法的效率上面能去提升这个其实是 DeepSeek 给整个全球的 AI 界带来最大的一个启示所以其实对于比如说未来的包括整个 AI 的发展来说我觉得这个可能是非常重要的一点 DeepSeek 的所谓的它的创新的技术能力它的强化学习的这样的一个探索的方式会影响全球未来 AI 特别是大模型

训练这侧的未来的一个技术侧的一个影响那另外就是对于中美之间的这个 AI 的比较其实因为我们

也一直在 follow 可能海内外我们的整个大模型的一个进展也发展了大概将近这个两年多三年的这样的一个时间那在原有的时候大家可能更多关注的是比如说 OpenAI 也好或者是 Meta 也好他们做出什么样的模型不管是 B 元的开元的

他们可能在引领全球的整个 AI 的发展但是在 DeepSeek 出来了之后其实能够看到中国的所谓的工程化的能力是很强的所以才有在去年的年底包括像谷歌的前 CEO 然后不断的在

不同的场合一直在提包括很多 AI 的大佬都在说中国的这个 AI 的发展包括整个技术的实力在逐渐跟比如说整个全球的水平在逐渐的接近然后这一次的 DeepSig 的这个模型又进一步来去这个让我们看到其实我们中国的整个的 AI 的不管是工程化的能力还是我们整体的技术的实力依然是很强的这个不只是给了我们可能

中国未来发展我们大模型和 AI 产业非常强的一个信心那对于海外来说包括从投资的角度全球的投资人也开始更加的关注中国的所谓的 AI 的一个技术实力下的机会我觉得这一点其实对于整个投资的角度来说

是后续非常值得去关注的那我们在整个春节期间其实也能够看到包括像中概包括像前两天其实港股的整体的这个上涨其实围绕的核心还是围绕着 AI 围绕着可能 DeepSeg 这个这条主线那这个是从我们看到的中国资产的它的一个这个投资机会的角度我们能够看到它的一个表现那从整个海外其实

像这个木头姐也是全球比较有影响力的一个投资人她也有提到在一个访谈里面有提到 DeepSick 出来了之后她会更多的更紧密的去关注中国的投资机会我觉得这一点其实对于我们后续去看的话是非常需要去关注的就是全球投资人未来怎么去看中国的 AI 以及中国 AI 这个带来的整个中国资产的机会谢谢孔荣的解读

Lipsick V3 的低成本训练是否将引发算力需求的新变革有观点就认为说算力需求可能会大幅下降也有观点认为在训练策略上降低的成本并不代替算力需求的本质

那对于算力这块我们的理解是什么比如说我们发现在使用过程当中经常会显示说服务器忙碌这背后是否也是算力的问题那算力相关产业链又是否还具备持续增长的明确预期呢刚才提到的算力的话题其实也是在 DipSeq 去年开始让市场关注的时候大家最为可能最核心关注的一个从投资的角度最关注的一个方面吧

然后虽然我们看到在 DeepSeek 它的技术报告里面它其实有提到包括在之前的模型训练它可能只用了比如说相对比较低的成本可能成本大概在 600 万美金不到如果跟 Lama 去比的话 Lama 可能它的整个成本可能不到这个 5%左右啊

所以这个整个市场大家都对于算力板块在节前其实有非常大的波动包括不论是 A 股包括美股美股可能一度像因为大家都下跌了大概 17%但是我们其实还是要强调就是对于整个这个未来 AI 的发展里面算力依然是非常重要的基石

他这里面讲的 600 万美金不到的这样的一个数字更多的是这个单次训练的一个所谓的 GPU 的成本这里面不包含比如说原有的试错包括原有的这个研发包括还有一些数据测的这样的一个成本所以其实总体的成本依然不会很低然后只是说单次的训练成本他在这里面提到的是 600 万美金左右不到的左右的水平

然后另外呢就是我们还要讲第二个就是说对于后续整个算力的需求会怎么去判断因为我们在目前其实大家围绕着英伟达也好围绕着整个算力板块大家更多的去看的是在训练端算力的需求是怎样是如何的

所以整个算力板块的叙事也是围绕着模型的训练测但是也一直有很多的投资人去关注未来在推理测在整个 AI 应用起来了之后那推理测的算力的需求会是怎样的我觉得答案其实是无疑的那在整个我们看到 DeepSig 所带来的非常有性价比的一个 API 的成本然后让很多人

潜在的我们中国的 AI 的应用能够有机会能够在今年和明年应用有更多的机会能跑出来那应用如果能跑出来那就意味着仍然有可能更大量的算力的需求那这个其实毫无疑问的所以其实从整个市场的角度市场也很聪明在可能这个节假日期间算力的美股的算力板块跌完了之后可能后面也有

这个后面的一个这个补充然后也有这个所谓的反弹其实在反映这个事情或者我们讲这个也有一个所谓的悖论吧就是所谓的杰文斯悖论就不论是我们看到在煤炭时代或者是原有的这个半导体时代其实都出现过类似的情况原有的比如说你的这个消耗的成本能源的成本

你其实很高然后你在第一阶段但是到了第二阶段当你的前期的成本开始下降的时候然后在后期第二阶段其实有更多的需求那你整体的总需求依然是非常的大的那这个其实对于算力来说也是同样的杰文斯的悖论依然会在我们看到的算力的这个板块以及投资机会里会出现

所以其实对于后续的比如说我们可能更多的会关注的一个是推理策的算力的未来的机会第二个是对于国产算力的机会其实这两天整个市场就在反应那么再到了推理时代那么我们国产的更多的

做算力的公司我们国产的这个算力的机会就会呈现出来那这个也是在市场里面这两天已经不断的在交易的高盛报告指出 DeepSeek 的崛起标志着 AI 投资逻辑从硬件转向了软件中概科技股呢因在应用层的优势所以被超配了

您是否认同高盛的这样的一个观点包括您觉得中国资产的投资价值是否接下来会继续凸显呢我们其实对于高盛这个观点其实是基本上也有类似的一个观点其实在去年也在不断的去提到就是在整个应用时代中国投资的机会那么原有大家可能市场担忧的一点就是关注的一点就是我们的基础模型的能力到底是有

多少的代表性但是从 DeepSeekR1 的模型之后从整个全球的比如说 AI 的发展大家都能够看到其实整个中国的技术能力工程化的能力是非常强的

而且我们这次是开源因为虽然我们的这个 DeepSeek 的这个模型其实在推理测其实跟 O1 就是 OpenAI 的这个模型是能力相当的但是 OpenAI 是必源的也就是

它用了比较高的一个所谓的 API 的价格向全球的所谓的开发者去销售但是从我们这一侧基本上是开源的那么开源在历史上其实是有非常多的成功的经验它更重要的是能够把整个开源的生态能够获得

全球的认可那这个其实对于我们整个中国的 AI 的发展就变得非常的重要这也是为什么 Meta 非常着急的因为 Meta 它也采用的是开源的这个路径而且你整个生态如果能够构建起来的话你整体的机会你的力量或者你整个带来的产业升级的机会也会更有这个影响力

那么从整个投资机会来看的话其实我们能够再关注一点就是其实在过去的互联网移动互联网时代其实我们也看到了非常多的原有的这个成功的一个案例也就是当

我们进入了一个所谓的比拼产品能力和应用能力的时候中国有非常多的原有的比较好的一些这个公司能够出现那么在移动互联网时代跟互联网时代我们看到了像一众的互联网的巨头的出现然后在这个

所谓的这个短视频时代又有了新的所谓的互联网和平台公司的这样的一个诞生那么这一次其实我们同样看到了这样的一种可能在基础的模型能力已经呈现出比较

有竞争力的这样的一个模型之后其实对于应用端我们的整个机会是需要更加的关注的而在应用这一侧中国的整个应用的工程化的能力技术的能力是在整个全球相较来说更有所谓的

所以其实无论是从目前当前因为 DeepSeq 所引起的大家更多的往应用端的机会去看因为基础模型能力有了基础就是更强的一个有代表性的模型出来了之后就意味着未来应用的落地变成了更加可以预期的可能性