We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

(Preview) 72 Hours of DeepSeek Hysteria, What DeepSeek Means for Big Tech, Lessons on the Efficacy of Chip Controls

2025/1/27

Sharp Tech with Ben Thompson

Ben: DeepSeek模型的低训练成本并非作假，而是其在模型训练技术上取得突破性进展的结果。DeepSeek采用了混合专家方法，并对通信层进行了低级别优化，从而降低了对内存带宽的需求。他们还开发了一种压缩技术，减少了对关键值存储的需求，提高了效率。虽然DeepSeek可能拥有超出声明数量的芯片，但这并不影响其技术突破的真实性。与OpenAI和Anthropic相比，DeepSeek的效率提升可能被夸大，因为我们无法得知其他公司的真实成本。此外，DeepSeek的低价推理服务也进一步证明了其成本效率的优势。虽然存在被补贴的可能性，但DeepSeek声称其盈利能力，这并非完全没有可能。总而言之，DeepSeek的低训练成本是其技术突破和成本优化策略共同作用的结果，而非单纯的作假。 Jeremy: DeepSeek公布的550万美元训练成本存在可疑之处，怀疑DeepSeek可能隐瞒了其实际的训练成本，或者通过规避芯片禁令的方式进行训练。

Deep Dive

Shownotes Transcript

您好，欢迎收听Sharp Tech的免费试听版。

希望指挥官们明年能做得更好，但这绝对是一次精彩的旅程。所以我并不生气。说到这里。我们只是对费城老鹰队感到生气。这真的很令人沮丧。我们的好朋友Spike Eskin，我花了六天的时间和他互相嘲讽，下半场真的失控了。所以我准备继续前进，让我们进入今天的节目。我们将从Jeremy的一个问题开始。他说，大家好。

Ben在上期播客中讨论了DeepSeek令人震惊的高效模型训练能力，并且

但我还没有听到任何人讨论DeepSeek是否可能只是在撒谎，声称训练成本为550万美元。如果他们被迫以我们最初假设的蛮力方式训练他们的模型，我想他们不会想报告这一点，因此表明芯片禁令正在发挥作用。他们也不希望人们知道他们是否找到了规避禁令的方法，例如通过美国空壳公司或外国数据中心进行训练。

所以我将回到Jeremy邮件的第一行。

DeepSeek令人震惊的高效模型训练能力在上期播客中进行了讨论，但我还没有听到任何人讨论DeepSeek是否可能只是在撒谎。所以Jeremy……

我只想说，嘿，如果你读过你的科技新闻，你比其他人更早地关注到了它。确实。我的意思是，人们，我相信Jeremy在周四发送了那封邮件，然后人们花了大约72个小时争论是否要相信DeepSeek做出的陈述。在周末DeepSeek受到高度关注之后，你想进一步对成本问题发表意见吗？

是的，实际上我在周二写这篇文章时考虑过是否要包含这个问题，因为Dylan Patel，他有点像是了解全球各地公司拥有哪些资源的权威人士，SemiAnalysis.com，他们有一个完整的模型。实际上，他们通过销售这些比订阅价格高得多的模型赚取了很多钱。这会详细地告诉你所有这些数据中心都有什么。

在里面。他在11月份说他们拥有大约5万个H100，这是更先进的，或者说，当时最先进的视频芯片，理论上他们不应该拥有。但我认为我没有包含它的原因是，

从高层次来看，我认为这是一个无关紧要的问题。从较低层次来看，我认为有理由相信他们。但让我们从芯片禁令问题开始。芯片禁令生效了。所以他们声称他们使用的是H800或H100，或者其他什么。

H800是英伟达开发的一种变通方案，以便继续向中国销售，但它的性能不如H100。因此，H800的主要限制是它具有类似的处理速度，但内存带宽更有限。因此，芯片禁令的初始版本针对的是内存带宽。当时我认为这是一个非常巧妙的方法，因为你需要……

你真正需要内存带宽的地方，将大量芯片连接在一起的能力是用于训练这些非常大的模型。他们谈到的突破绝对是

实际上明确地指出了这一点，那就是他们找到了不需要那么多内存带宽的方法。这涉及到他们在上一期节目中简要讨论过的他们的专家混合方法。基本上，这个想法是你有一个超大型模型，但大多数时候你并没有使用大部分模型。你只使用部分模型。

例如，GPT-4就是一个专家混合模型，但即使在那里，他们的专家也相当庞大。DeepSeek所做的是，他们拥有更多的专家，并且进行了更细致的划分。然后他们采用了一种非常巧妙的负载平衡方法来决定调用哪些专家。他们拥有某些最常用专家的多个副本，这样你就不会受到一直被使用的那些专家的限制。以及这种非常巧妙的负载平衡方法，这意味着他们需要

更少的内存。这同样适用于推理，就这些模型而言。他们还做了很多非常巧妙的、非常底层的优化通信层的工作。所以他们实际上，他们低于CUDA，到接近汇编语言级别进行编程。因此，你可以在一个芯片上拥有所有这些着色器，所有这些GPU单元，并且

他们有一些专门用于管理通信的单元，这些单元独立于英伟达提供的通信，并且更细粒度。好的。所以这是一个非常有趣的方法。他们在他们的关于V3的论文中有一点，或者可能是V2，我不记得了，鼓励GPU制造商，看，你们应该为我们这样做。我们不应该不得不下降到这么低的级别来做这件事。并且基本上鼓励……

GPU制造商稍微改变一下他们芯片的架构。这是真实的东西。这是非常高级的。这就是他们的团队能力真正体现的地方。他们提出的关于他们如何做到这一点的一切都是非常合理的，并且使用这些芯片完成这项工作也是非常合理的……

不违反芯片禁令。那么他们是否也拥有所有这些芯片呢？是的。这个价格，创建这些模型的成本是多少？不，它不包括研发成本。它不包括他们为了找出这种方法而进行的所有运行。

他们计算的只是最终产生模型的最终运行的边际成本，顺便说一句，他们在论文中对此很清楚。这不像你只需要500万美元就能制作这个模型。最终运行的成本只有500万美元，这同样是一个合理的数字。所以我决定不深入研究这个问题，因为他们所做的事情是合理的。而且，他们正在销售推理服务。

这同样，他们所做的事情很多都利用了这些，特别是这种专家混合方法。他们还做了另一件事，其中一个很大的挑战是你必须存储所有这些参数，特别是上下文中的任何内容，在所谓的键值存储中。你正在存储所有这些数字，你必须始终了解所有这些数字。所以当我谈到推理的挑战时，它实际上是一个内存问题。这就是为什么像苹果的，

苹果的芯片非常引人注目，因为它们具有这种统一的内存架构，这意味着苹果图形芯片和他们的神经处理单元可用的内存量远高于其他任何东西。它远高于例如你获得英伟达游戏GPU的情况。因此，良好的内存和这个键值存储是一个重要的事情。他们找到了一种方法，而不是存储整个键值存储，你实际上存储的是它的压缩版本，它基本上代表了一堆这些乘法运算，并且

你获得了大约85%到90%的准确率，但这已经足够好了，让你可以用更少的内存做更多的事情。而且，而且，现在已经有很多人试图重现这一点，他们已经重现了一些步骤，但是。

但这都是合理的。那么他们可能拥有所有这些芯片吗？Dylan关于这一点的说法正确吗？我认为可能是的。我们知道我们向新加坡运送了所有这些超过新加坡数据容量或电力容量的芯片。他们不会去新加坡，对吧？他们可能去了中国。那么中国是否获得了芯片？是的。他们使用的芯片可能比他们所说的更强大吗？是的，是的。

是否存在真正合理的突破，使得他们的效率比其他提供商高得多？也是的。另一个需要考虑的因素是我刚才提到的推理部分。他们正在以非常低的价格提供推理服务。现在，他们是否正在获得补贴，以使这些价格远低于其他情况下的价格？可能。但他们声称他们正在盈利。

这可能是真的。人们忽略的另一件事是。他们是否盈利是一个很大的问题，对吧？我的意思是，这就是为什么现在人们更加关注这个故事是否真的是它看起来的样子。好吧，我的意思是，进行比较的问题在于OpenAI的API定价和Anthropic的API定价，OpenAI和Anthropic，

据我了解，正在通过推理获得可观的利润，就像软件类型的利润一样。所以他们收取的价格远高于他们的成本。所以我认为，如果DeepSeek的推理只是略高于他们的边际成本……

而OpenAI和Anthropic收取的价格远高于他们的推理成本。顺便说一句，在这个公告之后会发生什么，突然之间01 mini将对免费用户可用。而且会有更多类似的情况，所以他们显然有一定的定价或利润空间，可以放弃。所以我认为，

我认为说它效率高30倍或45倍是不公平的，因为我们不知道Anthropic和OpenAI的真实成本。我认为它肯定更高效。可能并没有高那么多。顺便说一句，谷歌……

顺便说一句，谷歌仍然存在，他们本周也推出了他们的Gemini思维模型，其价格实际上与DeepSeek相当。我们知道谷歌拥有非常高效的成本结构。他们拥有所有这些TPU，以及类似的东西。所以……

他们撒谎的可能性有多大？是的，当然有可能。这是中国。这是一种……你知道的，我们可以谈论一些，我认为在某些方面，元反应比这里的细节更有趣，这同样，战略色彩在周二已经报道过了。像这里的所有听众应该已经知道，知道大部分内容，但是，元反应很有趣，但是，可能性是存在的。而且我实际上不认为，

老实说，我认为有很多逃避现实的行为。不，我绝对认为人们现在正在过度纠正，至少在周末，推特上的一些人基本上将

DeepSeek可能使用5万个GPU的想法作为证据，证明所有这些都被夸大了，而且这里的问题是，如果他们使用5万个GPU，他们仍然创建了这个优秀的模型，对吧？这就是重点。现在，这是反DeepSeek的观点，我认为所有那些对中国已经超越美国感到疯狂的人们都忽略了这一点。

好了，免费试听版到此结束。如果您想听到更多Ben和我的内容，节目说明中提供了订阅链接，您也可以访问sharptech.fm。这两种方法都可以让您访问个性化订阅源，其中包含我们每周制作的所有节目，以及来自Stratechery和Stratechery Plus套装的更多精彩内容。查看一下，如果您有任何反馈，请发送电子邮件至[email protected]。

(Preview) 72 Hours of DeepSeek Hysteria, What DeepSeek Means for Big Tech, Lessons on the Efficacy of Chip Controls 12:05 Share

Sharp Tech with Ben Thompson

Deep Dive

Shownotes Transcript

(Preview) 72 Hours of DeepSeek Hysteria, What DeepSeek Means for Big Tech, Lessons on the Efficacy of Chip Controls