We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

ep120 第一顶流DeepSeek，到底牛逼在哪里？

2025/2/15

朝十晚久

AI Chapters

Chapters

Shownotes Transcript

No transcript made for this episode yet, you may request it for free.

ep120 第一顶流DeepSeek，到底牛逼在哪里？

朝十晚久

当我们谈论DeepSeek，我们到底在谈论什么模型？

DeepSeek的训练成本500万美元？！

美国业界在V3刚出的时候就注意到了

MoE 混合专家模型

门控网络：混合专家模型里的“分检”

多头潜在注意力 MLA

FP8的大模型实现

DeepSeek到底有1万张A100显卡吗？

R1-Zero的Zero来自于Alpha-Zero

强化学习 vs 监督学习

GRPO vs PPO

训练模板

R1-Zero的缺点

训练一个R1模型

R1训练的第二阶段

用R1蒸馏小模型

什么是“知识蒸馏”呢？软标签/硬标签/温度

蒸馏 vs 强化学习

吐槽一下：稳定性 and 黑话太多

Shownotes Transcript

ep120 第一顶流DeepSeek，到底牛逼在哪里？ 53:42 Share

朝十晚久

当我们谈论DeepSeek，我们到底在谈论什么模型？

DeepSeek的训练成本500万美元？！

美国业界在V3刚出的时候就注意到了

MoE 混合专家模型

门控网络：混合专家模型里的“分检”

多头潜在注意力 MLA

FP8的大模型实现

DeepSeek到底有1万张A100显卡吗？

R1-Zero的Zero来自于Alpha-Zero

强化学习 vs 监督学习

GRPO vs PPO

训练模板

R1-Zero的缺点

训练一个R1模型

R1训练的第二阶段

用R1蒸馏小模型

什么是“知识蒸馏”呢？软标签/硬标签/温度

蒸馏 vs 强化学习

吐槽一下：稳定性 and 黑话太多

Shownotes Transcript

ep120 第一顶流DeepSeek，到底牛逼在哪里？