We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode DeepSeek R1 & The Short Case For Nvidia Stock | Jeffrey Emanuel

DeepSeek R1 & The Short Case For Nvidia Stock | Jeffrey Emanuel

2025/1/28
logo of podcast Bankless

Bankless

AI Deep Dive AI Chapters Transcript
People
J
Jeffrey Emanuel
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
Jeffrey Emanuel: 我认为DeepSeek的效率提升以及我撰写的文章共同导致了英伟达股价下跌。DeepSeek的45倍效率提升表明整个行业过度配置了计算资源,这将导致对计算资源的需求低于预期,并迫使英伟达降低利润率。即使没有DeepSeek,英伟达也面临着来自其他芯片供应商的竞争,以及大型科技公司开发定制芯片的挑战。这些公司正在开发自己的定制芯片,以降低对英伟达昂贵芯片的依赖,即使这些定制芯片性能不如英伟达芯片,但成本优势仍然使其具有吸引力。英伟达的护城河在于其CUDA软件,但新的高阶框架和LLM正在挑战这一优势。此外,合成数据可以解决AI训练数据不足的问题,尤其是在逻辑和数学领域,这将进一步改变AI产业的格局。 主持人: DeepSeek的效率提升是否在意料之中?为什么市场对DeepSeek的反应如此强烈?DeepSeek的出现是否会对OpenAI等公司造成影响?合成数据对AI供应链有何影响?

Deep Dive

Shownotes Transcript

我基本上是想提升一下我那小小的 YouTube 工具的有机搜索排名。然后,在这个过程中,我可能无意中导致了全球股市蒸发了 2 万亿美元。因为,你知道,事实是,所有新闻标题都说,股市崩盘是因为 DeepSeek。我想指出的是,DeepSeek V3 的技术论文是在 12 月 27 日发布的。

一个月前。

这样他们就能理解了。我在周五半夜发布了它。然后它就开始火了。

然后它被 Chamath 分享了,你知道,他拥有 180 万粉丝。对吧?Chamath,它已经被观看了超过 200 万次。Naval Rav 的账号有 250 万粉丝。然后,像 Y Combinator、Gary Tan 和 Y Combinator 的账号,他们加起来有数百万粉丝。他们不仅分享了它,而且对它的评价非常热情,说这真的很聪明。然后就疯了。

每个人都在谈论这款来自中国的新 DeepSeq AI 模型,据报道,它的成本效率是美国 iModels 的 45 倍,使用费用比 ChatGPT 少 95%。

结果,英伟达股价下跌了 20%,市值蒸发了 6000 亿美元。OpenAI 和 Meta 的 AI 实验室都在争先恐后地寻找原因,一个相对默默无闻的中国 AI 实验室是如何用一个仅需 1 美元的中国模型超越他们极其昂贵的模型的。

训练成本为 600 万美元。今天的节目嘉宾是 Jeffrey Emanuel,他实际上认为,这个故事的一部分,即 DeepSeek AI 模型部分,被夸大了,实际上是其他因素的汇合导致了英伟达市场份额的瓦解。

引发 20% 下跌的并非 DeepSeek 的发布,而是他发表在他博客上的一篇 12000 字的文章,该文章在周末迅速从只有少数读者发展到超过 200 万读者,这实际上与市场开盘时英伟达股价下跌 20% 的时间相吻合。

在周一。在本集中,Jeffrey 和我将一起回顾他的文章以及他认为英伟达面临被其他芯片供应商瓦解的威胁的原因,以及 DeepSeq 对 LLM 模型训练和推理的整个资源供应链的影响。让我们开始本集与 Jeffrey 的对话吧,但首先让我们花一点时间谈谈这些精彩的赞助商,它们使这个节目成为可能。你准备好更智能地交换了吗?Uniswap 应用程序是简单、安全且无缝的工具,加密货币用户信赖它。

Uniswap 协议已处理超过 2.5 万亿美元的总交换量,证明它是交换的首选流动性中心。支持越来越多的链,包括以太坊主网、Base、Arbitrum、Polygon、ZK-SYNC,Uniswap 应用程序是为多链世界而构建的。Uniswap 会在其 Web 界面、移动应用程序和 Chrome 浏览器扩展程序中同步您的交易,因此您永远不会被绑定到一台设备上。

凭借您的资金的自托管和 MEV 保护,Uniswap 可确保您的加密货币安全,同时您可以在任何地方、任何时间进行交换。立即连接您的钱包并使用 Uniswap 网络应用程序更智能地交换,或下载 Uniswap 钱包,该钱包现已在 iOS、Android 和 Chrome 中提供。Uniswap,在多链世界中进行交换的简单、安全的方式。凭借超过 15 亿美元的 TVL,METH 协议是 METH 的所在地,METH 是第四大 ETH 流动质押代币。

在十大 LFT 中提供最高的 APR 之一。现在,CMEth 更是锦上添花。这个重新质押的版本捕获了 Kerak、Eigenlayer、Symbiotic 和许多其他领域的多种收益,使 CMEth 成为市场上最高效、最具组合性的 LRT 解决方案。变形记第一季向 METH 持有者发放了 770 万美元的 Cook 奖励,

第二季目前正在进行中,允许用户赚取质押、重新质押和 AVS 收益,以及 Cook(METH 协议的治理代币)等奖励。不要错过质押、重新质押和利用 Cook 塑造 METH 协议未来的机会。立即参与,网址为 meeth.mantle.xyz。如果 Web3 游戏的未来不仅仅是幻想,而是您可以今天探索的东西呢?

Ronin 区块链已被数百万玩家和创作者信赖,它正在开启一个新的创新时代,从 2 月 12 日开始。对于玩家和投资者而言,Ronin 是一个蓬勃发展的游戏、NFT 和 Axie 和 Pixels 等实时项目的生态系统。凭借其无许可的扩展,该平台即将在游戏、DeFi、AI 代理等领域释放新的机遇。

立即注册 Ronin 钱包,加入其他 1700 万探索该生态系统的用户。对于开发者而言,Ronin 是您构建、发展和扩展的平台。凭借快速交易、低费用和成熟的基础设施,它针对大规模创造力进行了优化。立即在测试网上开始构建,并准备启动您的想法,无论是游戏、模因币还是全新的 Web3 体验。

Bankless Nation,非常高兴介绍 Jeffrey Emanuel。他既是投资者,也是技术专家。

然而,他这两种身份都非常特殊。在技术方面,他对来自 OpenAI、Meta、谷歌等主要 AI 实验室的研究进展有着深入的了解。在投资方面,他作为价值投资者在市场中运作,有时会大胆做空。

Jeffrey 在他的博客上发布了一篇文章,名为《英伟达股票的做空理由》,这篇文章在科技行业引起了广泛反响,因为这款新的 DeepSeek 模型从中国向美国 AI 行业发起了挑战,让美国 AI 公司措手不及,让 TradFi 和加密货币市场都感到震惊,因为每个人都在学习消化 DeepSeek 对世界的影响。Jeffrey,欢迎来到 Bankless。感谢邀请。

呃,Jeffrey,我真的很喜欢你的文章,我想从结论开始,我想读一下你文章中最后一段话,我觉得这段话总结了每个人对新 DeepSeek 模型如何影响市场的分析,所以这实际上是你文章中倒数第二段,你写道:也许对英伟达护城河最具破坏性的是 DeepSeek 最近的效率突破,它以大约 1/45 的计算成本实现了可比的模型性能

这表明整个行业一直在大量过度配置计算资源。加上通过思维链模型出现更高效的推理架构,计算的总需求可能远低于当前预测所假设的。这里的经济学原理是引人注目的。当 DeepSeq 能够在 API 调用收费低 95% 的情况下匹配 GPT-4 级别的性能时,这表明英伟达的客户要么是在不必要地烧钱,要么利润率必须大幅下降。

对我来说,Jeffrey,我认为这是每个人在英伟达股价下跌 17% 的周一在市场上感受到的结论。在我看来,我将此总结为硬件和软件之间存在拉锯战。随着 DeepSeek 的出现,这场拉锯战的软件方面取得了巨大的胜利。这是我的解读,这是我的分析。请指正。你对这种结论有什么看法?你知道,这很有趣,因为......

DeepSeek 是每个人最关注的部分。但我实际上认为,即使没有 DeepSeek,整个做空论点仍然相当有效,因为还有其他我们可以讨论的原因。DeepSeek 的一个问题是,这很有趣,有一件事,杰文斯悖论,直到现在,每个人都在说杰文斯这个词。它来自能源经济学,意思是:你认为你提高了能源效率,很好,我们将使用更少的能源。但最终发生的事情是,能源价格下降了,每个人都想使用更多能源,因此它实际上增加了对能源的需求。所以现在每个人都说,哦,这个 DeepSeek 的说法是错误的,因为杰文斯悖论。而且,嗯,

我多少有点同情这种说法,但这并不总是那么清楚。杰文斯悖论的影响并非立即显现。例如,通常......

你知道,导致繁荣和萧条的原因是预期需求和实际需求之间这些暂时的错位。实际上,我认为人们忽略的是,关于资本支出的重大决策取决于少数人,例如马克·扎克伯格。很多都是直觉,比如孙正义,比如,现在是全力以赴的好时机吗?我认为像扎克伯格这样的人必须退后一步说,听着,我知道我的员工非常聪明,但也许,你知道,答案不一定是再花 30 亿美元购买非常昂贵的英伟达芯片。而且,我的意思是,他们字面意思上是为一块英伟达可能只花了 3500 美元制造的 GPU 付款 4 万美元。所以,他们把很多钱都放进了英伟达的口袋里,而且,

也许他们可以,你知道,稍微踩一下刹车,然后看看他们是否可以,因为他们预测他们需要一定数量的芯片来满足他们预测的需求。所以如果他们可以,你知道,DeepSeek 的所有信息都是公开的,所以他们可以查看技术报告。理论上,他们可以开始自己内部进行这些更改,对吧?

你知道,至少对于他们正在训练的下一代模型来说,结果可能是他们可以,你知道,因为我认为华尔街仍然有一些怀疑,比如,他们是否会看到这些钱的回报,因为这不像任何人都在付费使用所有这些 Meta AI 的东西,所以我觉得这有点......

这,我不相信杰文斯悖论,哦,是的,杰文斯悖论。就像,好吧,让我们看看这是否真的如此。但是,你知道,除此之外,就像我说的,即使你完全移除 DeepSeek,我相信英伟达,我想澄清一下,我对 DeepSeek 的看法非常乐观。我对 DeepSeek AI 的乐观程度可能达到了你见过的任何人的第 99 个百分位。我每天都在体验 AI 的未来。我有三个云账户。我就像,你知道,我一直在使用这些东西,每天都在使用。所以我非常相信,但是英伟达这家公司,呃,

他们,你知道,这只是回到我的投资训练,那就是你一次又一次地看到,除了监管强制的垄断之外。

你不会看到公司只是在没有......你知道,在三位数的营收增长和 90% 的毛利率的情况下,就能无限地赚取利润。你不会看到,而且没有每个人都在想办法打败他们。这就是正在发生的事情。所以你看,你知道,Cerebrus 和 Grok with a Q 这样的公司,

这些公司已经拥有极其引人注目的硬件,至少对于推理来说,这些硬件在很大程度上绕过了英伟达的模式。而且,你知道,就服务器而言,我认为对于训练也是如此。而且,你知道,还有其他一些......我的意思是,另一件事是,你知道,像英伟达这样规模的普通公司往往拥有极其多元化的收入来源,而英伟达......

所有高利润的数据中心收入都来自大约五个超大规模公司。这非常符合幂律分布。这很有趣,因为当我开始写这篇文章时,我开始写这篇文章是因为,你知道,我一个做对冲基金的朋友在周五问我这件事,我写这篇文章是因为我在向他解释这件事时,我意识到,我应该把这件事写下来。

这很有趣,因为这篇文章一开始是,如果我被迫为英伟达做空,这就是我的理由。当我写完的时候,我想,哇,这实际上就是一个做空理由......因为我没有......我知道有很多定制芯片正在研发中,但让我大开眼界的是,每个超大规模客户实际上都在制造他们自己的定制芯片,有些情况下是用于训练和推理。所以就像亚马逊......

微软、OpenAI、Meta,他们都在这样做,而且就像你不想......一旦他们让这些东西工作起来。另一件非常重要的事情需要记住的是,它不一定非要比英伟达的东西更好。对。对。因为英伟达的售价是其成本的 10 倍。所以,如果你能以其成本的 1 倍自己制造它,那么你就可以将价格降低 50% 给你的最终客户。你仍然可以获得巨大的利润。对。

作为超大规模公司,对你来说重要的是,你每美元可以处理多少对你的 API 的请求。你不在乎是否需要更多芯片。只要你不必为它们支付这些高昂的价格,那就没问题。所以我认为所有这些——而且,我们还可以讨论论文的其他部分。但我实际上认为,所有这些都应该与 DeepSeek 新闻一样成为焦点。

是的,也许我们可以回顾一下你的文章,我将你的文章分为两部分。一部分是英伟达的护城河,以及它如何被你刚才提到的几家公司在边缘逐步瓦解。这些护城河中的一些是快速的 GPU 互连。英伟达拥有这种惊人的能力,可以使其 GPU 以极高的带宽相互通信,就好像它们是一个大型单元一样,就像一个大型 GPU 一样。这正被

另一家公司正在瓦解,该公司正在制造非常大的 GPU,从而减少了需求。好吧,不是 GPU。他们正在定制......这并不是真正的 GPU。这就像一个奇怪的......

巨型芯片。我的意思是,这很有趣,因为 H100 在芯片尺寸方面被认为是一个绝对的单元,因为它是一个巨大的封装。但是 Cerebrus 的东西就像他们字面意思上是拿了一个完整的 300 毫米晶圆,然后把整个晶圆做成一个巨大的芯片。我的意思是,这些芯片的制造成本非常高。但是,是的,如果你不需要担心将它们连接在一起,因为它们都在同一个晶圆上,对吧?而且,是的,

我实际上只想指出,即使英伟达也没有制造这项技术。他们收购了以色列公司 Mellanox,规模翻了一番。我认为他们在收购 Mellanox 时拥有 10000 名员工,价格为 70 亿美元。这带来了大约相同数量的员工。所以这是一个很大的......

非常聪明的事情。我的意思是,如果他们没有收购那家公司,他们就不会在数据中心领域占据今天的统治地位。但是,是的,我的意思是,每个人都一直在依赖,哦,是的,但是互连呢?即使 AMD 能够改进其工作并推出一个不错的驱动程序,并推出 CUDA 的替代方案,他们也没有互连,因此你无法将其用于此。你经常听到这种说法。我认为,好吧,

你知道,你开始在训练方面看到 Cerebrus 公司的晶圆级芯片。但是,你知道,在 DeepSeek 之前开始的另一个重大新闻是 OpenAI 的 O1 模型。这开启了另一种新的缩放定律,即关于推理时间计算,这就像以前几乎所有......

你知道,处理能力都需要在训练方面,然后推理速度很快。但是现在,使用这些进行思维链的模型,你知道,你在请求时计算得越多,它们给出的答案就越好。所以人们现在说,哇,所以实际上大部分计算可能都在推理方面。但是推理方面是一个非常不同的

你知道,一个可以计算的问题,所以如果你想,现在他们使用相同的 GPU 进行训练和推理。好的。好的。

我们可以快速地为外行人定义训练和推理吗?

你知道,在权重中。然后在这个过程中,你基本上,模型学习了这些关于世界以及如何理解事物的连贯模型。因为这是在不丢失所有信息的情况下压缩信息而不丢失所有信息的唯一方法。而推理是你已经有一个经过训练的模型,现在我想要求它,你知道,为我写一篇文章或为我解决一个逻辑问题。所以推理是一个非常不同的,就像你不需要

你不需要数千个 GPU 来做到这一点,因为你已经有了经过训练的模型。你可能只需要几个 GPU,你就可以得到答案。所以为了再次追踪一下,训练就像 ChatGPT、OpenAI 创建他们的产品,创建我使用的 ChatGPT 模型。然后当我输入查询时,我正在进行推理。所以这里确实有一个权衡,就是大量的预先计算

一次性创建模型,然后希望只需要少量计算就可以对其进行推理,这只是日常请求。理论上,在最初训练模型时使用的计算量与希望这只会使所有未来的推理尽可能高效之间存在权衡。但两方面仍然需要计算。它只是使模型更智能。更智能,是的。是的,这样你就能得到更好的答案。但最近发生了什么变化,过去是

基本上,所有推理,你知道,使用这种适度,你知道,或固定的计算预算。但现在是开放式的。现在,就像 OpenAI 的旗舰模型 O1 一样。如果你每月为 ChatGPT+ 付款 20 美元,你就可以使用 O1,你知道,每周一定数量的请求。

如果你每月支付 10 倍的费用,即 200 美元用于 ChatGPT Pro(我这样做,我建议任何经常使用这些东西的人这样做),它有 O1 Pro。它与普通 O1 使用的是相同的模型。唯一的区别是它响应的时间长得多,因为它在进行推理时,它正在使用更多这些中间方法

逻辑标记,就像它的内部思维过程的草稿一样。然后它会给你一个答案,但答案更好。就像你的代码第一次就能运行。你的文章或任何东西都不会有任何错误。

我们可以再回顾一下吗?所以就像它一样,它是相同的,200 美元/月的版本和 20 美元/月的版本是相同的模型,但有一个额外的步骤,一个额外的层,其中 Pro 版本正在一遍又一遍地运行相同的模型。它能够回溯之前的作品来检查它的作品,然后才能给你一个输出。

- 对。- 你说仅仅是因为这个......- 它不是一个额外的层,它就像他们只是做了更长时间。他们只是,它就像,因为你基本上,它是一个旋钮,你问我在给出最终答案之前我想花多少钱来生成标记?

对于 Pro 来说,对于 Plus 来说,使用他们用于 Pro 的标记量在经济上是不可行的。事实上,Sam Altman 说,你知道,这很有趣,因为 Hacker News 上的每个人都像,在业界,你知道,所有这些开发人员都像,每月 200 美元?认真点。这怎么可能说得通?Sam Altman 后来出来说,信不信由你,我们实际上每月收取 200 美元都在亏钱,因为人们正在使用它,它只是使用了大量的计算。所以它真的改变了

你知道,关于推理计算量与训练计算量之间关系的等式。然后这并不重要,因为就像我说的,你知道,对于英伟达的 GPU 来说,你从英伟达那里购买一块 4 万美元的 H100 GPU,数据中心 GPU。你将使用相同的 GPU 来训练模型,

并对其进行推理。但是这家公司,Grok with a Q,每个人都会感到困惑,因为 Grok with a K 是 Twitter。不是 Twitter Grok。对,没错。但是 Grok with a Q 应该更出名,因为这家公司真的,我的意思是,他们拥有令人难以置信的技术。他们基本上说,我们根本不打算解决训练问题。我们只关心推理。所以如果你想优化整个堆栈

仅用于推理,你可能会如何处理?结果是,他们可以从,你知道,像 LAMA 3.3 700 亿这样的标准模型进行推理,直到 DeepSea 问世之前,它都是领先的开源模型,对吧?

而且,你知道,如果你有一台带有,比如说,英伟达 4090 GPU 的高级台式电脑,你现在可以以低于 1000 美元的价格购买,你可以得到,我不知道,也许每秒 40 个标记,这实际上已经足够好了,你可以将其用作你的 ChatGPT 的家用版本,效果还不错。

但是当你尝试使用 Grok 时,任何人都可以免费尝试,你只需使用你的谷歌账户注册,你就可以从这个模型进行推理,而且效果惊人。它就像不是每秒 40 或 50 个标记,而是每秒 1500 个标记。所以你点击那个东西,然后你......

砰,答案就出来了。它就像,哇,这很有趣。所以即使 Grok 硬件一台服务器的成本高达数百万美元,如果你有足够的请求量,可以一直让它保持忙碌,那么使用它实际上会便宜得多。最重要的是,你没有把钱给英伟达,你把它给了 Grok,你知道吗?所以这只是一个例子,说明人们如何设法,你知道,如果你试图攻击一座护城河很大的城堡,

与其试图越过护城河并被箭射中,不如在护城河下挖一个洞,或者,你知道,用弹弓越过它。你会找到创造性的方法来绕过它。这就是正在发生的事情,每个人都一直关注的是,好吧,正面进攻是行不通的。它就像,好吧,还有其他方法可以夺取你的城堡。这就是你所看到的,市场的全部独创性,因为......

原因是因为奖品太大了,如果你能,你知道,如果你能分得这块蛋糕的一大部分,你也可以让你的公司价值万亿美元。而在 2016 年,情况并非如此。它就像一个偏僻的地方,你知道吗?所以它只是,轮子需要很长时间。如果你想制造你自己的定制产品,即使你是拥有无限资金的亚马逊,如果你想制造你自己的芯片,你

你知道,你对制造硅片了解多少?首先,你必须,你知道,挖角或雇佣真正优秀的人才。然后他们可能需要两到三年时间来设计一个真正好的芯片。然后你必须试图,你知道,带着巨额现金来到台积电,并试图说服他们给你提供......

工厂的产量,因为他们已经被英伟达和苹果的资金淹没了,而且......而且需要一段时间才能提升产量,但最终芯片开始生产出来,你知道,具有讽刺意味的是,就像我说的那样,即使你知道这些定制硅片中的任何一个都不会像英伟达的芯片那样好,但......

制造方式非常相似,因为它们都将使用台积电作为晶圆厂,并且它们都使用来自荷兰公司 ASML 的相同机器,该公司实际上进行光刻。所以它就像,是的,他们可能不会拥有相同的设计,但同样,这是人们忽略的一点。它不需要那么好。它可以只有五分之一那么好,对亚马逊来说仍然是有意义的,因为他们不必向英伟达支付 90% 的毛利率。

因为英伟达拥有非常高的利润率的优势。这创造了什么,就像,好吧,如果你的产品只有 90% 那么好,但你只拿 10% 的利润,那么你突然就解决了大量的市场问题。我说的是,当你的利润率如此之高时,为了说明问题,

销售芯片的公司,就像半导体行业一样,通常并不是一个很好的行业。它很容易受到产能过剩的繁荣和萧条周期的影响。所以如果你看看另一个领域,比如内存,DRAM,每个人都在他们的手机和电脑中都有它,

你知道,你可能表面上认为这应该是一门很棒的生意,因为全世界基本上只有三家公司在做这件事。就像美光、三星和 SK 海力士。我的意思是,以前大约有 15 家内存公司,但它们要么破产,要么合并了。所以你会认为这将是一件寡头垄断的事情,拥有极高的定价和利润率。但是如果你看看过去 10 年、15 年的历史,你会发现它非常具有周期性。

在顶峰时期,当供需错配非常严重,他们可以收取非常高的价格时,他们的毛利率约为 60%。

但是,如果你取整个周期的平均值,它更接近 20%。在周期的底部,毛利率实际上变为负数。负数,对,对,对。所以你看看英伟达,你会发现他们在数据方面的毛利率超过 90%。他们的整体毛利率更像是 75%,因为他们在消费端赚取的利润率要低得多。

比如玩电子游戏之类的东西,这是因为他们面临着 AMD 的竞争,你知道,这就是竞争市场中发生的事情,所以我的意思是,当你的利润率如此之高时,它不需要好 90%,它可以好到 40%,对于亚马逊来说,将尽可能多的负载切换到他们自己的东西仍然是明智之举,因为这就像

你知道,这就像你从爱马仕买一个手提包,要花 4 万美元,你认为他们制造这个手提包要花多少钱?即使它是某个法国人手工制作的,你知道,可能最多也就两三千美元。然后他们向你收取 4 万美元,这就像英伟达的 GPU 利润率非常相似。所以这就像,你不需要,重要的是,

用户不在乎。他们正在提交请求。他们想使用一个模型,Lama 3.370,但他们不在乎英伟达的显卡是否正在进行推理。所以亚马逊会,你知道,亚马逊制造了自己的 CPU,叫做 Graviton,

他们对它的定价非常激进,试图让人们从通常使用英特尔或 AMD CPU 转向使用他们的产品,你会节省很多钱。你会看到他们将试图通过使其更具吸引力来推动人们转向他们的产品,你知道,他们基本上会

节省下来的钱,你知道,与客户分享。我认为,所有这些东西,你知道,就像千刀万剐一样,来自这些不同领域的竞争的结合。当然,AMD 在消费领域确实与他们有效竞争,但在整个数据中心 AI 领域,他们却完全缺席,这

简直令人难以置信。我的意思是,他们将撰写商业案例研究,讲述他们是如何浪费数万亿美元机会的。你不能太生气,因为他们也同时设法击败了英特尔。对,同时。这并不是说他们也不好。这太有趣了,因为 AMD 的首席执行官 Lisa Su 与英伟达的 Jensen Huang 是表兄妹关系。我不知道。是的,这就像,这个家族的基因有多好?所以,是的,我的意思是......

但如果他们能够齐心协力,这太有趣了,因为他们太不在状态了。就像,我不明白。但是,就像乔治·霍普斯这样的人,他因越狱 iPhone 和所有这些事情而闻名。他就像独自一人,没有任何帮助,编写他自己的堆栈,就像,你知道,我们将能够使这些 GPU 至少能够用于任何事情。

你知道,一些训练和推理。因此,你甚至可能会看到 AMD 成为真正的竞争对手。是的。是的。所以,是的,回到你文章的总体概述,我将其分解成两部分,两半。有一种理解

英伟达在硬件方面的护城河,通过硬件竞争对手,就像你刚才概述的那样。但 DeepSeek 方面也重新平衡了软件和算法设计的价值,也许是一种说法。也许你可以带我们进入等式的后半部分,DeepSeek 如何真正影响人们对软件价值及其对硬件价值的影响的理解?好吧,这是

所以,你知道,当你问,软件方面的论点是什么时,它实际上与 DeepSeek 几乎没有关系。它与英伟达护城河的最大来源之一有关,因为,你知道,AMD 有相当不错的芯片。原因是英伟达基本上,

非常有远见。当他们注意到深度学习这方面的东西真的开始流行起来时,就像在 2012 年左右,

他们真的意识到我们需要简化使用我们的芯片进行这类工作的方法。因此,他们有这个叫做 CUDA 的系统,因为你必须理解,这些 GPU 非常复杂。我的意思是,在过去,你只有一个 CPU 和一个核心。现在 CPU 已经相当复杂了。就像,我的电脑有一个 CPU,有 32 个核心。但是这些英伟达 GPU 就像,它们有数千个核心。对。

对,这就是他们的全部内容。他们有很多核心。所以这就像,如果你试图天真地编写代码来分解你的问题并将其发送到数千个核心并重新组装它,基本上没有人能做到这一点,你知道。嗯哼。

因此,相反,你使用这些更抽象、更高级别的概念来描述问题,然后 CUDA 将其转换为高度优化的代码,这些代码在英伟达 GPU 上运行得非常好,但在其他任何地方都不行。CUDA 是英伟达构建的软件包,允许开发人员尽可能好地使用英伟达 GPU。是的,不用像......

不用像,是的。爱因斯坦。我的意思是......这有点像驱动程序。这是一个......不,它像一个框架......一个框架,好的。是的,驱动程序是一种独立的......但它允许更多的人表达英伟达 GPU 的强大功能,而无需他们接受高强度的培训。是的,这就像用 Python 编写代码与用汇编语言编写代码的区别,汇编语言是最低级别的......

然后实际上,所以 CUDA 甚至,大多数人实际上甚至不直接编写 CUDA。大多数人使用机器学习框架,例如,过去是 TensorFlow,但它已经被称为 PyTorch 的东西完全取代了,PyTorch 由 Meta 赞助。

所以大多数研究人员使用的是 PyTorch,它允许他们用数学术语进行思考。你知道,作为一个研究人员,说,哦,我有这个损失函数。我有这个优化器。一切都是模块化的,即插即用。然后你编写高级 Python 代码,这就像非常非常高级的代码。然后在内部,PyTorch 可以在 CUDA 上运行它。

然后在英伟达的 GPU 上非常非常正式地运行它。但是如果你有 AMD 驱动程序、AMD GPU,那么使用 PyTorch 等编写你的代码使其运行得非常快就不那么容易了。所以,很多人说,无论其他人做什么芯片,如果他们没有 CUDA,你知道,游戏就结束了。我认为有两个大的,呃,

对它的攻击,那就是你看到这些更高级别的框架的兴起,用于表达高度并行的编程

所以你有一个,MLX 是一个。还有一个叫做 Triton。这些正在获得动力,你知道。为此,这就像 CUDA 只是一个。你可以用 MLX 编写你的代码,然后基本上以非常快的速度在英伟达 GPU 上运行它。但是你也可以制作......

另一个,你知道,MLX 的编译目标可以在完全不同的芯片上运行,比如亚马逊内部制造的芯片,你知道,Tranium 芯片。所以......

它也是一种非常高级的语言。所以也许它会,你知道,而不是编写和,你知道,针对 CUDA,也许你应该针对 MLX 或 Triton。然后你也可以在使用 CUDA 的情况下运行,但你也可以使用这些其他东西运行它。然后你就不会被锁定在使用非常昂贵的英伟达芯片上了。所以这是一个攻击。然后我认为另一个是这个想法......我没有听到很多人谈论这个,但我将告诉......就像我使用......

一直用于编程,他们现在在这方面非常出色。但他们真正擅长的是,如果你已经有了一个用 Python 或 JavaScript 或其他任何东西编写的代码的工作原型,

所以它可以真正理解你想要做什么。他们非常擅长将其移植到另一种语言。所以如果你有这个 Python 算法,并且想要将其转换为 Rust 或 Golang,他们做得非常好。也许不是第一次尝试,但你知道,经过几次迭代,你就可以让它全部工作。所以这让我意识到,你知道,

因为 CUDA 的部分已经成为通用语言。所有擅长这种编程的人都知道它。所以他们用 CUDA 的概念进行思考。这只是他们表达这些算法的最快方式。

所以我当时想,他们可以用 CUDA 编写他们的代码,就像他们通常做的那样,但是不用在英伟达 GPU 上使用它,他们几乎可以将其用作所谓的规范语言,它只是以一种非常高效、优雅的方式记录算法。然后他们可以将其输入到 LLM 中,并说,好吧,现在将其移植到另一个框架中,该框架将与......

你知道,AMD GPU 或 Cerberus 之类的东西一起运行得非常好。我认为你真的,你在文章中很好地解释了这一点,当你说明了,有一个 CUDA 工程师的就业市场,它与其他,你知道,那里的工程师工作是独立的。所以如果你是一个 CUDA 工程师,这就像,这是一个独立的,像垂直的就业市场,这些工程师的成本是

你在文章中说明的方式是,好吧,这些墙倒塌了。突然之间,围绕 CUDA 的垄断就不再存在了。好吧,不是说它......我认为他们仍然会使用 CUDA,但问题是,他们可以使用 CUDA,但不用英伟达 GPU 吗?这就是护城河的来源,也是英伟达至少获得部分价值的地方。是的。现在你确实提到了一个关于 DeepSeek 的观点......

从某种意义上说,是软件,因为通过编写更智能的训练软件,他们确实减少了需求。但我认为这有点不同。如果可以的话,这就像正交的,与其他东西相比,同样,这就像,所以如果你去掉它的 DeepSeek 部分,我的意思是,你可以看到对护城河的巨大威胁,软件和硬件,但是

这是怎么回事?现在,让我说一下,就在我们开始谈话之前,我看到有人说,这就是为什么,你知道,我的论点是完全错误的。他们说,好吧,问题是台积电,也就是台湾半导体制造公司,它制造所有这些芯片,他们基本上是唯一能够做到这一点的,我的意思是,不是唯一的,因为三星也可以制造非常好的芯片,但是,

对于大多数,是的,他们制造所有英伟达的产品和大多数苹果的产品。而且,你知道,顺便说一句,我想指出,

同样,这就像,是的,最好在 4 纳米工艺节点中做一些事情,这是你能做的最小的。但是,你知道,你可以使用更大的,比如旧的工艺节点,你的芯片不会那么快,也不会那么节能。但是你有很多空间,回旋余地,因为你不需要它那么好。你只需要它便宜。

但无论如何,但对我论点的反对意见是,这些人订单满满。即使你带着巨额资金来找他们,他们的订单也满满的。原因是......制造商订单满满。他们积压了订单。在接下来的几年里,他们不在乎你给他们多少钱,因为他们的订单都满了,他们不能,你知道,不能立即制造新的......尽管我会说,你知道,

台积电在亚利桑那州建造了一个工厂,所有这些,你知道,关于,哦,这花了他们这么长时间,他们找不到好的人。但你知道吗?他们最终让它全部运行起来,他们实际上可以,如果那里有足够的钱来做这件事,他们可以复制粘贴蓝图,获得另一大块土地,然后像,

只需重复他们刚才做的事情,他们就可以做到。就像,这不会花费......这不会花费那么长时间。所以在任何情况下,但所以,所以这就是反对意见,所以即使我所说的所有内容都是正确的,这些公司,Cerberus 和 Grok 以及像亚马逊和谷歌这样的超大规模公司,等等,

他们甚至无法制造足够的芯片来损害英伟达。我对此的回应是,好吧,你的分析基本上承认这是一个高度短暂的

这里的情况是,他们只是暂时拥有这种优势。然后,一旦额外的产能上线或开放,那么就会出现替代供应的大量涌入,这将给市场份额带来压力,

潜在地,你知道,即使蛋糕变大了,市场份额也会下降。但最重要的是,这就像,它不需要,你知道,有些事情与技术无关。这只是基本的,你知道,经济、工业金融方面的思考,关于市场是如何运作的。拥有基本上垄断和拥有甚至一两个竞争对手之间的区别是,

利润率确实会迅速下降,因为这就像,你知道,如果你有两座办公楼,入住率为 98%,没有人,你知道,这是一场竞相降低租金的比赛。但是如果他们两个都开始失去租户,你知道,

而且,你知道,每一天过去,这层楼都是空的,他们都在亏钱。所以这是一场竞相降低租金的比赛,而且有一个临界点,你知道,一旦,比如说,办公楼市场的入住率,你知道,低于,比如说,80%。

租金,它是非线性的。你知道,如果入住率再下降 5%,租金的下降幅度将远大于 5%,以使市场明朗。我认为你会发现,一旦出现真正的竞争对手,利润率就会非常迅速地下降。然后问题是,好吧,再说一次,这不是关于技术的。这是关于你如何理性地评估一只股票?我的意思是......

我最喜欢的一点,我在我的文章中提到,你知道,我曾经从这个价值投资者俱乐部网站上获得了一个做空理念的奖项。这是十多年前的事了,但我很快就会告诉你这个故事,因为我认为它与这里的情况非常相关,那就是一家名为 Petro Logistics 的公司,PDH 是股票代码。他们是一家公司,只有一个工厂,将丙烷转化为丙烯,这是一种......

通过这种随机的,你知道,基本上是因为页岩气革命的发生,所有这些,我不必深入所有细节。总而言之,他们获得了令人难以置信的高价差,远高于历史水平或他们建造工厂时所期望的水平。他们赚的钱如此之多,以至于他们一年从运营这家工厂中获得的利润约占建造新工厂成本的 80%。而且不像,

火箭科学来建造这些工厂之一。你可以去一家大型建筑公司,比如 Bechtel,说,我想要一个丙烷转化为丙烯的转化工厂。他们有现成的蓝图。他们会为你制造它,保证在几年内完成。果然,这家公司获得了这些高回报,人们对收益给予了很大的倍数,因为他们说,看,收益增长了这么多。

但你可以看出所有其他工厂都在建设中,你实际上知道这些工厂何时上线。所以你基本上可以计算出来,好吧,即使我承认他们将继续获得这些巨大的利润......

它将在一年后开始下降。然后在 18 个月后,它真的会下降。在 24 个月后,它将回到......所以如果我想将它评估为,比如说,未来现金流的现值,因为货币的时间价值,我可以做到。我可以说今年的利润很大,明年的利润少一些。然后在那之后,正常的利润。

然后加上贴现现金流,你会意识到,你不能对不可持续的收益给予很大的倍数。现在,就像,所以如果你告诉我,哦,但是你错了,因为英伟达将在未来两三年继续获得这些巨额利润,这就像,伙计,你给它加上了 30 倍、40 倍的倍数。这基本上意味着它将以这种速度持续下去

像无限期一样。这不是你应该考虑这只股票价值的方式。所以这真的是......

这就是为什么我想说,很多 Jevons 的东西,这就像,是的,我对总量持乐观态度。对推理的总需求将激增。蛋糕会变大。这与英伟达能否继续增长收入、英伟达的年增长率能否达到三位数百分比完全是两个不同的问题?

这些令人难以置信的高利润率。这是一个完全不同的部分。如果你想对这种盈利流给予如此高的倍数而感到安心,你需要回答这个问题。你必须知道它会持续下去,而且实际上它似乎不太可能持续下去。

我确实想深入探讨一下 DeepSeek 效率提升的这一部分对话,因为我认为我们接下来应该讨论这个。你在文章中写道,所有这些创新,这些创新指的是制造 DeepSeek 的实验室,

当层层叠加在一起时,导致了在线上流传的 45 倍效率提升数字。我完全愿意相信这些数字大致正确。也许你可以解释一下这个新的类似 ChatGPT 的模型 DeepSeek 的意义,

以及它是如何实现 45 倍效率提升的,以及在创建这些模型的使用供应链的行业中,45 倍效率意味着什么。当然。所以看,我的意思是......

我的意思是,这很有趣,就像在西方,我们有这种资源诅咒,你知道,几乎就像,我们有太多的钱。几乎更容易将钱投入到问题中,而不是试图变得非常聪明。

所以,你知道,我做的笑话或类似之处是,当你看到沙特阿拉伯人们的房子时,它们并不节能。这是因为他们获得补贴的电力,因为他们那里有无限的能源。能源是免费的,是的。所以没有必要浪费所有这些额外的建筑成本在双层玻璃上等等。在 Meta 和谷歌也是类似的情况。他们每季度都有大量的运营现金流,他们就像,去他妈的,让我们......

让我们雇佣更多......钱不是问题?是的,是的。让我们每年向我们的员工支付 500 万美元,让我们......或者每年 100 万美元,让我们,你知道,给 Jensen 另外 30 亿美元。而,你知道,这个......

中国,他们没有得到那么多报酬,这是肯定的。而且,你知道,他们确实有这些出口管制。现在,我知道很多人说,哦,他们通过新加坡走私它们。我相信这是正在发生的事情,但是......走私芯片。是的,因为他们首先在拜登政府时期,他们基本上拥有......的略微残缺的版本......

英伟达 GPU 仅用于中国市场或出口市场,其性能不如 H100,但......

但同样,我的意思是,人们指出,我认为这很有道理,那就是英伟达 15% 到 20% 的收入来自新加坡这个小国。这就像,真的吗?他们在那里使用了那么多 GPU?这就像,因为每个人都知道它们以某种方式被洗钱并走私到中国。所以问题是,我们甚至不知道中国有多少英伟达 GPU。是的。

所以我们真的不知道 DeepSeek 使用了多少。但关键是,他们没有我们那么多,而且他们获得它们并不容易。所以他们必须......也许你正在说的重点是托尼·斯塔克钢铁侠的表情包,托尼·斯塔克能够在一个洞穴里建造这个。没错。那就是中国。他们没有丰富的资本。他们没有丰富的芯片。他们有一些芯片。他们有足够的资本,但他们没有能力......顺便说一句,他们很快......

这是一个完全不同的故事,但是他们聘请了,就像,你知道,他们挖走了台积电的一些最聪明的人来制造他们的国家冠军。嗯,

和,嗯,SMIC 或其他什么名字。而且,呃,他们显然还没有达到那个水平,但是他们制造了一个相当不错的华为 CPU。而且,呃,我不会感到惊讶,我的意思是,这是另一个巨大的,你知道,没有人真正考虑到的意外因素。不要排除。他们从台湾半导体公司那里得到了一些最聪明的人。这就像,他们也会从 ASML 购买机器。而且,你知道,所以,但无论如何,嗯,

我想说的是,你知道,他们的工程师,A,需要是发明之母。但是,你知道,在西方,我们倾向于在市场上出现这种分化,你要么在 AI,就像,研究轨道上,在这种情况下,你拥有博士学位,你已经撰写了这些论文,你是一个,就像,在白板上做事情的人等等。对。

而且通常这些人并不是很好的工程师。有一个笑话是,这些研究人员实际上非常讨厌编程。他们擅长数学,讨厌编写优化的代码。这显然并非普遍如此。有些人在这两方面都很出色。但是,通常发生的情况是,研究人员在高层次上进行思考,然后他们制作原型,然后将其交给那些更像工程师的人,比如高性能优化人员、工程师。

像约翰·卡马克或谷歌的杰夫·迪恩这样的人,你知道,他们不会发明新的优化器或,你知道,AI 模型的一些新的损失函数。但是如果你给他们一个算法,他们就知道如何在计算机上使其运行得非常快,你知道。所以这有点像他们,我们做这件事的方式是西方的一种两步过程,其中

研究人员设计事物并制作原型,将其交给工程部门,工程部门说,好吧,我们有这个算法。我们如何才能使其运行得更快?DeepSeek 的人非常擅长书籍。所以这就像而不是......

让两个团队分别工作。这就像他们反过来做,他们首先从如何才能使这些 GPU 的每一盎司性能都饱和开始,这样就不会浪费任何东西?因为这就像,GPU 计算速度有多快几乎无关紧要。如果它正在等待获取它需要进行计算的数据,那么它就只是闲置在那里,好吗?有很多这种互连,对吧?有很多相互交流,对吧?

所以通常你必须将很大一部分处理能力专门用于处理这种通信开销。所以他们做了很多非常巧妙的工作,使通信尽可能高效,这样开销非常小。所以他们基本上从,而不是说,我如何使这个算法运行得更快?他们说,我如何才能制作一个非常非常快的算法,它将

这将真正地尽可能多地运行这些GPU,然后根据此设计一个智能训练系统。因此,他们有点颠倒了事情。所以这里只是一些优化技巧的集合。顺便说一句,我想指出,这些想法中的许多都不是他们发明的。许多想法实际上是由美国和其他研究人员发表的,例如Noam Shazier,他刚刚以数百万美元的价格被谷歌重新聘用。他们收购了他的创业公司只是为了得到他,因为他非常聪明。我的意思是,但这是一种巧妙的实现方式。因此,我只举几个例子。就像,你知道,这......

整个ChachiBT事件之所以爆发,是因为有一种名为Transformer的模型设计,它于2017年问世。这可能是历史上引用次数最多的论文了。它被称为“注意力就是你所需要的”。这种方法将我们已经使用了一段时间的常规神经网络与一种称为注意力机制的东西结合起来,这是一种非常巧妙的方式,可以对信息进行情境化处理,这样一来,它就不会总是以相同的方式进行处理,而是取决于其上下文,并且你可以自动学习如何思考该上下文以及存储信息

所有这些在训练期间使用的都是占用内存的主要因素之一。内存非常重要,因为你不能使用计算机上的系统内存。你必须在所谓的VRAM上完成所有操作,VRAM是GPU本身上的高速内存。对。

而且它非常有限。因此,如果你可以节省使用的内存量,那就太棒了,因为你不仅可以用更少的GPU做更多的事情,而且你也不会传输那么多数据,因为它更小。无论如何,有一些东西被称为KV,键值缓存和索引,你需要在训练Transformer模型时将其保存在内存中。

他们想出了一个非常聪明的办法,我的意思是,这可能是整篇论文中最酷的事情,DeepSeek v3技术论文,他们意识到,你知道,通常的做法非常浪费,你存储的数据远远超过了你的需求,只有其中一小部分数据实际上是有意义的,对吧?

事实上,存储超过所需的数据,你几乎就像过度拟合噪声一样,这是不必要的。所以他们......也许对于想要额外帮助的听众来说,解释这一点的一个简单方法是,它可能更接近你大脑的工作方式,即注意力,当你将注意力集中在某个地方时,你不会同时考虑所有的事情。你只是专注于必要的事情,并且......

你不能在拟人化方面走得太远。在这种情况下,注意力意味着非常具体的......

我认为这不会帮助人们。也许我不记得我是否在你的文章中听到过这个,也许是另一篇文章。但这就像如果一栋房子有20个不同的房间,每个房间的灯都亮着,即使一个人只在一个房间里。而这个新模型只为人在特定时间所在的特定房间保持灯光亮着。这是一个宽泛的概念。

类似的模式。有点像。我的意思是,它基本上就像不是简单地存储大量键值数据一样,它基本上就像如果你有“工作”这个词,如果你说“好工作”和“我刚刚找到一份新工作”或“你能否帮我处理这项工作?”,这将大相径庭,

并且知道,所以“工作”这个词在模型中有一定的表示,但是这种表示必须根据其上下文进行更改。这就是注意力机制的来源。这意味着对于每个单词、每个标记,你都必须根据上下文存储许多不同的东西。这就是它占用大量内存的原因。他们能够以非常有效的方式存储这些数据

使用,你知道,基本上只是以压缩表示的形式存储这部分数据。这是他们做的一件事,节省了很多东西。他们做的另一件非常聪明的事情是所谓的“多标记预测”。通常这些模型会根据前面的标记或单词来预测下一个标记,也就是下一个单词。而且,你知道,一次一个。所以这是一种瓶颈。他们说,

如果我们尝试一次做两三个呢?现在,问题在于,你不能在不知道下一个标记是什么的情况下预测第二个标记。那么,在你不知道第一个标记之前,你怎么能从第二个标记开始呢?但是你可以做所谓的推测解码。但是你的推测解码可能是错误的,在这种情况下,你浪费了计算第二个标记的时间。但是

但他们做得很好,能够猜测第二个标记是什么,以至于95%的情况下他们都能猜对。因此,他们基本上只是通过这种方式,就可以将推理的吞吐量几乎翻倍,顺便说一句,这就是他们能够以如此低廉的价格收取API费用的部分原因,因为这与推理成本有关。因此,他们说一个技巧让他们几乎将吞吐量翻倍

无需额外成本,只需通过......所以这是一个非常巧妙的技巧。然后他们用......做了一个非常巧妙的技巧。你知道,这些模型基本上只是一长串数字,如果你愿意的话,称为模型的参数。他们找到了一种更压缩的方式来存储这些参数......

而且通常训练这些模型的方式是使用更高的精度。你可以将其视为更小数位的精度,但这实际上并不是它的工作方式。但这足以理解概念。然后,他们通常所做的是,一旦他们以这种方式训练模型,使其能够在更便宜的GPU上运行,他们就会进行所谓的量化,他们会将数字进行截断和四舍五入。

但这会损害模型的准确性或质量,即智能程度。DeepSeat团队所做的是,他们设法在无需以更高的精度进行训练并在最后量化到较低精度的情况下,设法弄清楚如何主要使用较小的表示来完成整个过程。同样,这也是效率提升的一种情况......

它们会多次为自己买单,因为这就像,你不仅使用更少的内存,而且计算速度更快。而且,你知道,你不需要进行那么多的GPU间通信,因为数据更少。所以这就像,这些效率提升以多种不同的方式得到了回报。所以这是他们做的另一件事。我的意思是,这里有一长串的计算

技巧和优化,当你把它们加在一起时,它们不是累加的,对吧?它们是乘法的。就像每一件事,你知道,如果它翻倍,如果这个东西翻倍,而这个东西增加了40%,而这个东西也翻倍了,你就是在将这些乘数相乘,如果你愿意的话。这就是你如何得到这个非常大的数字,比如45倍,顺便说一句,我们并不知道,你知道,我们不知道确切的

当然。他们可能谎报了他们使用的GPU小时数。不过,有一点很清楚,那就是他们收取的推理费用要低95%。所以他们要么在这方面亏钱,要么他们真的能够比我们在西方做得便宜得多,因为,是的。

我认为推理费用低95%这个数字,是一个令人震惊的数字,让Meta和OpenAI等公司感到震惊。Sam Altman不得不发推文。不,实际上,Meta上涨了,我认为,因为实际上,一方面,这对Meta来说是不利的,因为他们已经花费了数十亿美元购买GPU,并且他们向团队支付了巨额资金来开发Llama模型等等。然后,当这些人能够以微薄的成本在自己的游戏中击败他们时,这让他们看起来有点愚蠢。但与此同时,他们真正关心的是向全球数十亿用户提供AI的成本是多少。因此,如果他们能够将成本降低95%,这对他们来说实际上是有利的。这对谁不利呢?对OpenAI和Anthropic不利。

因为它会给他们的定价带来更大的压力。目前,OpenAI对其O1模型API收取高昂的费用。即使是GPT-4.0也贵得多。因此,他们可能不得不通过大幅降低API价格来做出回应。

这是他们的利润。这就是他们从中获得利润的地方,对吧?好吧,他们实际上并没有利润。这就是他们从中获得收入的地方。两家公司在合并层面都严重亏损。而且我实际上怀疑,即使在增量边际层面,它们也没有那么盈利,因为它们将收入增长置于其他一切之上。我不认为这是他们在每个单元上都亏钱的情况。

你知道,在边际上销售的。任何快速发展的公司都会公布合并亏损,因为他们总是投资于增长和新模型。所以真正的问题是,如果OpenAI和Anthropic完全停止尝试进行研发和制作新模型,而只是试图从他们现在拥有的业务中榨取资金,会怎么样?他们能够勉强获得利润吗?我认为,是的,答案可能是肯定的。

但如果他们必须将价格下调80%,那么情况就非常不明朗了。这就是它开始变得非常相关的地方。Arbitrum门户网站是进入以太坊生态系统的首选中心。Arbitrum拥有超过800个应用程序,为每个人提供了一些东西。

深入DeFi的核心,先进的交易、借贷和抵押平台正在重新定义我们与金钱互动的方式。探索Arbitrum快速发展的游戏中心,从沉浸式角色扮演游戏、快节奏的奇幻MMO到休闲的运气战斗手机游戏。

通过Arbitrum广泛的桥梁和链上网络,轻松地在链之间移动资产并轻松访问生态系统。进入Arbitrum蓬勃发展的NFT和创作者空间,艺术家、收藏家和社交人士在这里汇聚一堂,并支持你最喜欢的博主,所有这些都在链上进行。查找新的和热门的应用程序,并学习如何通过你最喜欢的项目的限时活动在Arbitrum生态系统中赚取奖励。用Arbitrum赋能你的未来。访问portal.arbitrum.io,了解你的Web3旅程的下一步是什么。

作为稳定币的所在地,Celo拥有13种原生稳定币,涵盖七种不同的货币,包括Opera MiniPay上的原生USDT,仅在非洲就有超过400万用户。11月份,稳定币交易量达到68亿美元,实现了无缝的链上外汇交易。此外,用户可以使用USDT和USDC等ERC-20代币支付gas费用,并在几秒钟内将加密货币发送到电话号码。但是,你为什么应该关心Celo向第2层的过渡呢?第2层统一了以太坊,第1层

所以,Jeffrey,我只想概括一下所有内容。我们有这个新的模型,这个DeepSeek模型,它的效率是

你知道,ChatGPT或其他竞争模型的45倍。这导致NVIDIA的价格重新定价,因为人们认为,哇,效率提高了45倍。我们只需要更少的硬件就能实现这个结果。我们只是从更少的硬件中获得更多。因此,也许我们一直在对硬件进行过高的定价。这就是让市场对NVIDIA的价格重新定价感到震惊的原因。然后,OpenAI、Sam Altman也受到了挤压,因为DeepSeek对推理请求的收费要低95%

但我对你提出的广泛问题是......

好吧,这不是预期的结果吗?人工智能和人工智能技术正处于一条非常陡峭的曲线之上,我们看到在整个技术堆栈中都取得了突破性的效率提升,无论是硬件还是模型。我们一直都知道人工智能将会非常迅速地发展。而这难道不正是它的样子吗?这难道不是这里预期的结果吗?就像,当然,我们会变得更高效。这就是技术的工作方式。就像,为什么每个人都感到惊讶?

我的意思是,这显然不是预期的结果,因为股票不会波动这么大。我的意思是,对我来说,这是预期的结果,这就是我写这篇文章的原因。我认为答案是每个人都期望取得进步。在硬件方面取得进步,每年芯片都会变得更快更大。在算法方面取得进步,你会想出更好的方法来训练模型或进行推理,从而使事情变得更快。我的意思是,当这些大型语言模型几年前真正出现时,它们的上下文窗口要小得多,就像你可以输入其中的文本量一样。这已经有了巨大的提高。最初,每个人都认为这将很难实现,因为他们认为这将

大幅增加内存量。但是人们想出了真正巧妙的发明,你知道,新的算法使它更快。因此,人们确实期望每年都会有一定的算法改进和硬件改进。但他们期望它是一个摩尔定律类型的进展,它是某种程度上可预测的。真正让大家措手不及的是阶跃

函数变化,一夜之间它就发生了。所以,如果消息是他们将效率提高了三倍,你知道,那将是,我的意思是,你能想象一下,如果你制造了一个节能效率提高三倍的空调,你会压垮他们的。你会获得巨大的市场份额,将某些东西提高三倍。这就像在任何正常的市场中一样,

你知道,如果你有一辆里程数是三倍的汽车,那将会很棒。但是我们已经如此习惯于在技术中看到这种情况,所以这就像,你知道,但是45倍,好吧,现在我们正在谈论这个。这真的很疯狂。因此,当这种情况以人们没有预料到的方式一夜之间发生时,这就是你感到震惊的时候。而且,你知道,事情是这样的,

你知道,有一种说法叫做“价格完美”。就像NVIDIA的股价一样,它只对那些将这些曲线外推的人来说看起来是合理的。而且,当你外推年增长率为120%的收入增长时,你必须非常小心。而且,这不仅仅是收入,还关乎利润率。他们基本上说利润率将保持增长

收入将继续以这种令人难以置信的速度增长。因此,是的,当然,这是......这就是为什么每一家投资银行基本上都对NVIDIA持强烈买入评级。所有银行都是如此。他们都被这件事完全打了个措手不及。老实说,他们都在争先恐后地阅读我的文章。他们就像......

你知道,我收到了来自一些投资银行的来电请求,希望得到帮助,因为没有人甚至想和他们的分析师谈论这件事。他们想和专家谈谈。因此,他们正在争先恐后地寻找专家。我不是专家,但与销售方面的股票分析师相比,我显然是。所以这并不是

完全出乎意料。就像,那样的阶跃函数变化会发生。这就是对股票的致命打击,那就是,嘿,这件事的价格反映了晴朗的天空。然后突然之间,它就像,哦,实际上存在这些威胁。然后再次,这不仅仅是DeepSeek。人们忽略了很多其他的威胁。我不知道为什么,因为这是,

他们确实是,这些人是全职为高盛和摩根士丹利报道NVIDIA的人。我不知道他们到底在做什么,他们为什么没有,你知道,他们为什么不谈论CUDA的竞争威胁,或者Cerebrus和Grok。也许他们提到了,但他们肯定没有意识到这实际上将非常重要。

阶跃函数变化不仅仅是阶跃函数改进,因为它也是一个与市场预期略有不同的方向的阶跃函数改进,对吗?我们不仅仅是在摩尔定律上向前跳跃。我们也在朝着不同的方向前进。好吧,它与其他所有东西都是累加的。这就像明年你将拥有更快的芯片。明年你将拥有更多芯片。你知道,你将会有其他边际算法改进。但除此之外,现在,

世界上每一个大型人工智能实验室都将是,你知道,Meta的Llama团队,Anthropic的家伙们。你最好相信扎克已经把这些人带到他的办公室,并说......

我们需要使用这些家伙为Llama 4使用的每一个技巧。是的,所以作为人工智能产品的消费者,如果你没有接触到NVIDIA,如果你没有OpenAI的股权,私募股权,如果你只是一个消费者,你会很兴奋。哦,上帝,这是有史以来最伟大的事情。即将推出的产品将在很短的时间内变得很棒。哦,不仅如此,而且从......的角度来看......

你将能够在你自己的电脑上运行这个东西。你得到一台1000美元的Mac笔记本电脑,你将能够在你的电脑上随时使用AGI,私下使用,这是有史以来最神奇的事情。几年前,没有人会相信这一点。这就是为什么苹果本周股价上涨的原因吗?因为我认为我看到苹果股价上涨了3%或4%,而NVIDIA股价下跌了近20%。苹果是实际上......这太有趣了,因为......

亚马逊、微软和OpenAI都在他们的新闻稿中大肆宣传他们正在制造的定制芯片。你知道,苹果是如此不同。苹果如此神秘。这就像,但是你知道,他们拥有世界上最好的硅团队之一。但是,

他们只会在准备好向消费者销售时才会宣布一些事情。如果他们内部为自己的用途制造芯片,没有人会知道。所有知道这件事的人都被签署了保密协议,没有人谈论这件事。据我们所知,他们已经拥有非常棒的芯片了。因此,但他们基本上是保密协议的用户。

人工智能,你知道,这对他们来说是件好事。这意味着他们将能够使用其中一些技巧来制作其中一些模型。事实上,你可以从App Store下载一个名为Apollo的应用程序,它允许你下载这些模型。

如果你有一部iPhone 16 Pro或类似的东西,你可以运行这个东西,你可以在飞机上或任何地方,在某个地方的地下室没有互联网的情况下,基本上拥有,你知道,不是随时可用的AGI,但就像,你知道,在很多主题上肯定比大多数大学生更聪明。

看到它发展真是太疯狂了。你知道,你可以进入飞行模式,并询问它关于化学、物理和历史的所有问题。它会以合理的速度给你非常好的回应。所以,是的,这对苹果来说是件好事。我认为这对Meta来说最终也是件好事,这就是为什么Meta的股票没有下跌的原因。对。是的。

你知道,所以这不是一件坏事。只是就......而言不好。这是一个重新校准。但是,你知道,我确实认为一天之内抹去2万亿美元的资本是过分的。但是......我不是......

我不是说你应该买入NVIDIA的低点,因为我认为它确实领先于自身,它仍然可能看起来,它可能跌至2万亿美元,你知道,2万亿美元仍然是一大笔钱。好吧,这是一家几年前赚了50亿美元的公司,你知道,所以这仍然是,你知道,相当大的估值。是的。

Jeffrey,在我让你走之前,还有一个最后的谈话,那就是合成数据的谈话。我认为,这来自于拥有更强大、更好的模型,这产生了合成数据的概念。这也是人们如何看待事物历史价值的再平衡方程的一部分。

你能带我们了解一下这个合成数据的谈话吗?什么是合成数据?不同且更强大的模型与合成数据有什么关系?这对人工智能的整体供应链意味着什么?好吧,我不确定它......我的意思是,我认为这是一个重要的概念。我不确定它与这些事情有多大关系。它指的是,当你训练这些模型时,实际上使模型变得智能的预训练......

它部分取决于你应用了多少计算能力,你知道,有多少GPU以及它们的速度有多快。但它也取决于你训练的数据的数量和质量。这就像,你知道,当DeepSeek说我们在我们的训练集中使用了15万亿个标记时,这就是他们在谈论的内容。问题是,只有这么多数据质量足够高,你甚至想用它来训练模型。如果你把所有的维基百科都拿来,我不知道有多少标记,但它就像不多,你知道,它就像少于,你知道,它是以低个位数的十亿来衡量的,实际上甚至不接近。哦,不,对不起,也许是十亿。是的。但它就像,如果你把所有现有的书籍都拿来,我们谈论的实际上是,它就像,

几万亿。如果你谈论所有曾经写过的报纸,那就是几万亿。但我们谈论的是15万亿。所以你是在说,现有的可处理数据量是高质量的数据。不,不,我说的是我们正在耗尽数据。我们正在耗尽数据,是的。人们写

聪明的书,你知道,他们写书的速度不够快,基本上无法继续为我们提供越来越多的数据。所以这是我们一直面临的一个巨大的障碍。如果我们无法扩大他们使用的数据规模,我们该如何继续改进模型呢?人们说,哦,但你可以直接使用每个YouTube视频。但这就像,你看过大多数YouTube视频吗?这不会让你的模型更聪明。不,它会让它更笨。不。所以,但这个规则有一个例外。所以例外......现在,

所以合成数据是使用大型语言模型生成文本,然后转而使用该文本训练新模型。所以这听起来非常循环,就像我试图在一个没有书或任何东西的房间里自学一样,只是自言自语,我会自学,这怎么可能呢?就获取新信息而言,对吧?

从某种意义上说,这难道不是在依赖自己的供应吗?这不会帮助你?如果,比如说,你谈论的是伯罗奔尼撒战争的历史,那么这在某种程度上是正确的。你不会通过简单地重复你自己的输出而获得任何新的东西。所有这些的例外是,如果你谈论的是逻辑、数学、物理,

计算机程序,因为在这些事情中,最大的区别在于你可以验证你所说的内容是否正确。所以,你知道,就像国际象棋的规则非常简单,但国际象棋可能的棋局的复杂性几乎是无限的。情况就是这样。有很多可能的简单的Python程序,只有100行或更少,你知道,我们只见过其中的一小部分。所以你可以想出一个,你可以说,哦,我想制作一个执行X、Y、Z的Python程序。

生成一个候选程序,然后测试,然后说,好吧,当我运行它时,我得到了那个输出吗?如果你得到了,你就知道程序是正确的。所以现在你可以说,好吧,让我把它添加到训练集中。它最初不在训练集中,但它是正确和好的。所以你可以做的是,你可以开始探索所有可能的数学定理的世界,并且

并且计算出所有这些数学证明,验证它们是正确的,然后将它们添加到训练集中。通过这种方式,你可以基本上想出很多已知质量极高的数据,

这就是为什么这些模型在逻辑和数学方面的改进速度比在其他任何方面都快得多的原因。因为你可以不断地生成这种合成训练数据,然后扩展就可以永远持续下去。所以这就是为什么富人的工作最容易受到人工智能的影响,对吧?

我认为很多人认为,好吧,你仍然需要那些在定量方面非常非常聪明的人。而我想告诉你的是,这是他们在其他任何事情之前就会变得超人般擅长的事情。因为在阅读人工智能编写的历史书之前,你仍然想阅读一位真正聪明的智者撰写历史书。但人工智能数学家可能会......

你知道,保持相当不错,你知道,两年后,三年后。杰弗里,我们深入讨论了你的文章,如果人们想自己阅读,我会在节目说明中添加链接。但也要多告诉我们一些关于你的信息,比如你来自哪里,你做什么,你还从事什么工作。当然。在我的日常工作中,在过去的几年里,我创立并担任Pastel Network的首席执行官,这是一家加密货币公司。

PSL是我们的股票代码。我们在MEXC和Gate等几个交易所进行交易。我们最初是一家NFT公司。

这是一个有趣的项目。它基于比特币核心工作量证明的概念,但增加了许多附加层。但在过去的一年里,我们已经转向了去中心化人工智能推理。因此,在过去的一年里,我已经编写了大量的代码,基本上可以让你在各种模式、各种人工智能提供商之间进行推理。

人工智能模型,包括完全未经审查的模型。你不必通过提供电子邮件地址、信用卡和IP地址来泄露你的身份。你只需使用加密货币支付,一切都是匿名的,而且是去中心化的。它正在进行,所有推理都由这些超级节点处理,任何人都可以启动并

自己。而且你甚至可以,我的意思是,我喜欢开玩笑的例子是,你可以使用这些未经审查的

Lama模型的版本,例如,问我如何在家里制造冰毒?它们实际上会告诉你确切的配方,而,你知道,在ChatGPT或Claude上尝试一下试试运气吧。你会称之为主权人工智能领域吗?是的,是的。它实际上是一种去中心化的方式。我的意思是,它的一部分想法是,你知道,对我来说,它不一定是像ChatGPT那样的消费者级别,尽管我确实做了一些类似的东西。如果你访问inference.pastel.network,你可以尝试一下

所有内容都在浏览器中,你可以在所有这些模型之间进行推理。但它也是一个API,如果你有另一个加密项目,比如假设你有一个预测市场,你想让任何人都能以去中心化的方式创建他们自己的预测事件。

但你想对它有一些规则。例如,你不想让人们进行暗杀市场,在那里他们预测某人在某个日期会死亡。因此,你需要进行某种审核。你不想让审核员拥有删除内容的权力,对吧?因为这怎么能是去中心化的呢?所以我认为实现此类目标的更好方法是拥有

和LLM以完全公正的方式进行操作,我们有一个提示说,你不允许进行任何涉及这些主题的事件。然后用户想要创建他们的预测事件。他们必须描述正在预测的内容。

在他们尝试在系统中创建该事件时,它会将其显示给LLM。LLM会说“是”或“否”,并根据此结果,他们会说,“不,你不能这样做。你必须更改它。”现在,如果你有这个去中心化的预测市场,你不能真正使用OpenAI或Cloud来实现这一点,因为这需要一个连接到信用卡的API密钥,这意味着它不是去中心化的。它不能那样工作。它必须实际上是去中心化的。所以

这就是Pastel的想法,他们可以使用Pastel,并且他们可以理直气壮地说,诚实地说,这是从头到尾都去中心化的,这是完全去中心化的。

而且它永远不会因为关闭这个API密钥或信用卡或其他东西而被关闭。所以这就是基本思想。然后我有一些其他的,你知道,副项目,比如我的YouTube转录优化器,我在这里发布。人们非常困惑Wyze为什么不在Medium或其他地方或Substack上。我说,对不起。这太有趣了,因为我基本上是......

试图,你知道,帮助我的小型YouTube工具的有机搜索排名,你知道,我已经从中获得了大约1000美元的收入。然后就像在这个过程中,我不小心导致了全球股市蒸发了2万亿美元。因为,你知道,事实是,

我真的很,听着,我不希望人们说我是一个狂妄自大的人,但事实是,所有的新闻标题都说股市崩盘是因为DeepSeek。而我想指出的是,谈论效率提升的DeepSeek V3技术论文是在12月27日发布的。

一个月前。

所以他们可以理解它。我在星期五半夜发布了它。然后它开始流行起来。

然后它被Chamath分享了,你知道,有180万粉丝。对吧?Chamath,它已被观看超过200万次。Naval。Naval Ravikant有250万粉丝。然后,像Y Combinator,Gary Tan和Y Combinator账户,他们加起来有数百万粉丝。他们不仅分享了它,而且对它的赞扬非常热情,说这真的很聪明。而那......

变得疯狂。我可以告诉你,我收到了来自大型基金的无数请求,他们想和我谈论这件事。我相信它确实,听起来很疯狂,促成了这种下跌。显然,我不是造成它的人。这是由潜在情况造成的。但就突出它而言,

它不是来自投资银行。我认为问题的一部分是人们在不同的圈子里交谈。他们不像那些在大型基金中以数十亿美元购买英伟达股票的人,他们不会阅读技术论文,甚至不一定阅读Andrej Karpathy的推文。

你知道,他们只是依赖于事物发展方向的某种共识。而所需要的只是一次非常深入的讨论。

解释对他们有意义,他们就像,天哪,我不知道这个,你知道,我可以说另一件有趣的事情是,因为它是运行在我的博客上的,我有谷歌分析,我可以实时看到谁,你知道,不是谁,而是他们在哪里,这太有趣了,因为当它开始病毒式传播时,起初我非常激动,有50个人同时阅读它,然后在我意识到之前,任何给定时刻都有大约1500人,这是一篇60分钟的阅读文章,有12000字,所以它并不短,而且

起初,主要是在纽约的家伙们,因为那里是所有对冲基金的所在地。但是,然后我在星期六晚上睡觉前注意到,你知道,人们阅读它最多的地点是圣何塞。我想,谁?这听起来像是英伟达的总部所在地。然后,因为当时有数百名来自圣何塞的人同时阅读这篇文章。是的。

截至昨天,这是我上次检查的时间,超过2000名来自圣何塞的人阅读了我的文章。而且,你知道,关于英伟达的有趣的事情是,他们的股价上涨了很多,以至于大约80%的员工......

拥有超过1000万美元的股票。你知道,这是他们与配偶和朋友谈论的主要事情,比如,“伙计,我有很多股票。我应该继续搭乘这趟车吗?”他们了解这项技术,但也许他们不明白如何评估一家公司。他们读了这个,这个东西开始像野火一样传播。我想,哦,我的上帝,我敢打赌詹森也在读这个。我认为......

有很多股票从未上市,因为它们作为RSU和期权授予给这些人。只需要一点点边际上的股票就能开始造成不平衡。所以我不会惊讶,如果很多抛售压力来自英伟达的员工。但它也像这些大型对冲基金一样,控制着很多,很多快钱玩家。他们突然被吓坏了,就像,

所以想到这一点很疯狂,你知道,它实际上可能是这种,你知道,国会纵火案,如果你愿意的话,引发了整个事件的进程。但我确实相信,如果没有它,你知道,

我的意思是,我肯定有人会说,不,这个人写了这个,那个人写了这个。我说,是的,但我的东西非常非常流行。而且来自正确的人......其他人引用了你的文章。当然。或者,你知道,也许他们没有。我的意思是,我看到了来自Statitory的Ben Thompson,听起来他好像是在没有给我任何署名的情况下转述我的东西,但无论如何,你知道,这是......但我只是觉得这真的很有趣,就像......

今天的《纽约时报》和《华尔街日报》都有报道说

你知道,他们总是试图将因果关系赋予事物。他们说这是由这个造成的。我说,不是真的。因为这是一个荒谬的概念,45倍的效率提升,一个月前就已经知道了。所以你必须解释为什么会有一个月的延迟。好吗?而,就像,这是很容易理解的,这从像Chamath和Naval这样的思想领袖那里像野火一样传播开来。我的意思是,Naval被......

被风险投资家们放在了如此高的地位上。科技对冲基金经理们仰视着风险投资家们,比如Andreessen Horowitz和所有这些人,以及Y Combinator的人们。他们是专家,对吧?然后你看到这些人说这是一篇很棒的文章

而它就像,好吧。所以,当然,这可以很快说服人。而且你不需要说服所有人。你只需要说服,你知道,像KOTU这样管理700亿美元的人,他们也许应该卖掉一点来领先于此。而且,你知道,这就是你所需要的。所以,无论如何,我给这两位记者都发了电子邮件,至少,你知道,你应该知道,你可能对这件事的因果关系理解得有点错误。

但无论如何。好吧,杰弗里,很荣幸能邀请到信息的最初来源来到播客节目。很高兴邀请你作为嘉宾。也许随着这些人工智能战争、英伟达芯片战争、美国,我们甚至没有机会谈论美国与中国之间的战争。但随着这种情况的发展,也许我们可以再次邀请你进行评论。是的,我真的很感谢你来到这里。太棒了。非常感谢。

Bankless Nation,你们知道是怎么回事。加密货币是有风险的。你可能会损失你投入的资金。但听起来传统市场也很危险。但我们正向西进发。这是前沿地区。它不适合所有人,但我们很高兴你与我们一起踏上Bankless之旅。非常感谢。