We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
back
ep120 第一顶流DeepSeek,到底牛逼在哪里?
53:42
Share
2025/2/15
朝十晚久
AI Chapters
Transcribe
Chapters
当我们谈论DeepSeek,我们到底在谈论什么模型?
DeepSeek的训练成本500万美元?!
美国业界在V3刚出的时候就注意到了
MoE 混合专家模型
门控网络:混合专家模型里的“分检”
多头潜在注意力 MLA
FP8的大模型实现
DeepSeek到底有1万张A100显卡吗?
R1-Zero的Zero来自于Alpha-Zero
强化学习 vs 监督学习
GRPO vs PPO
训练模板
R1-Zero的缺点
训练一个R1模型
R1训练的第二阶段
用R1蒸馏小模型
什么是“知识蒸馏”呢?软标签/硬标签/温度
蒸馏 vs 强化学习
吐槽一下:稳定性 and 黑话太多
Shownotes
Transcript
No transcript made for this episode yet, you may request it for free.