We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode NVIDIA's Jensen Huang on AI Chip Design, Scaling Data Centers, and his 10-Year Bets

NVIDIA's Jensen Huang on AI Chip Design, Scaling Data Centers, and his 10-Year Bets

2024/11/7
logo of podcast No Priors: Artificial Intelligence | Technology | Startups

No Priors: Artificial Intelligence | Technology | Startups

AI Deep Dive AI Chapters Transcript
People
J
Jensen Huang
领导NVIDIA从创立到成为全球加速计算领先公司的CEO和联合创始人。
Topics
Jensen Huang认为,未来十年,英伟达将通过软硬件协同设计和数据中心规模计算,将人工智能的性能每年提高两到三倍,同时降低成本和能耗。传统的缩放方法已经失效,需要新的方法,例如协同设计,即修改算法以反映系统架构,并修改系统以反映新软件的架构。此外,数据中心规模的计算和将工作推送到网络结构中也是扩展的关键。为此,英伟达收购了Mellanox,并开发了Infiniband和NVLink技术。NVLink技术将使数百个GPU能够协同工作,形成一个虚拟的超级处理器,从而实现低延迟和高输出,满足推理时间扩展的需求。稳定的基础架构对于软件生态系统和生产力至关重要,使得上层软件可以不断改进,而无需更改底层架构。

Deep Dive

Chapters
Jensen Huang discusses NVIDIA's long-term bets on computing, focusing on scaling performance and reducing costs and energy consumption.
  • NVIDIA aims to double or triple performance every year at scale.
  • The company is moving beyond Moore's Law to a 'hyper-Moral's Law' curve.
  • NVIDIA's approach involves both chip design and data center scale.

Shownotes Transcript

大家好,欢迎来到No Priors。今天,我们再次与英伟达创始人兼首席执行官黄仁勋先生进行对话,时间距离上次讨论已经一年了。如今,英伟达的市值已超过三千亿美元,可谓是人工智能革命的领军者。我们很高兴能来到英伟达总部,探讨各种话题,从层层模型到数据中心规模计算,以及视频领域十年来的发展。

黄总,您好!您在视频领域已经三十年,展望未来十年,您认为哪些重大赌注仍然需要下注?未来发展是否主要围绕规模化?我们目前在如何从现有架构中榨取更多计算能力和内存方面遇到了限制。您现在重点关注什么?

如果我们退一步思考,我们已经从编码到机器学习,从编写软件工具到创建AI系统,所有这些都运行在为人类编码设计的CPU、GPU和服务器上,现在却运行在为AI编码设计的GPU、处理器和服务器上。基本上,机器学习改变了我们做计算机的方式。整个技术栈都发生了变化。

因此,我们可以解决的问题的规模也发生了很大变化。因为,如果可以在一台GPU上并行运行软件,就可以为整个集群或多个集群或多个数据服务建立基础。我认为,我们已经为在以前无法想象的水平上扩展计算能力以及开发软件奠定了基础。

因此,未来十年,我们的希望是,我们可以在规模上每年将性能提高两到三倍,而不是仅仅提高单个芯片的性能。从而将成本降低两到三倍,将能耗降低两到三倍。每年提高两到三倍,几年下来,就会有显著的累积效应。所以,如果人们仍然认为摩尔定律是每两年翻一番,那么我将感到惊讶,我们可能会在某种超摩尔定律曲线上。我希望我们能够继续这样做。

您认为是什么驱动因素,才能让这一切发生得更快?

我认为有两个基本的技术支柱。一个是架构扩展,另一个是代码优化。这两个技术都非常成熟,但现在已经到了瓶颈期。我们需要一种新的扩展方式。

显然,新的扩展方式与代码设计有关。除非您可以修改或更改算法以反映系统的架构,或者更改系统以反映新软件的架构,并不断迭代,否则您将一无所获。但是,如果您能控制两方面,就可以从FP64到FP32,再到FP16,甚至FP4,谁知道呢?

因此,我认为代码设计是其中非常重要的一部分。第二部分是数据中心规模。

除非您能将网络视为计算织构,并将大量工作推送到网络中,推送到织构中,从而在非常大的规模上进行压缩,否则您将一无所获。这就是为什么我们如此积极地采用NVLink的原因。

现在,计算织构将扩展出一种被称为GPU的不可思议的处理器。现在,我们将拥有数百个可以协同工作的GPU。

我们现在面临的大多数计算挑战,其中最令人兴奋的当然包括推理。时间扩展与生成令牌和极低的延迟有关,因为正如您刚才提到的,您将进行树搜索。

您将进行链式思考。您可能会在脑海中进行模拟。您将反思自己的答案。您将提示自己并生成文本,并在脑海中默默回应。要做到这一点,唯一的办法就是让您的延迟极低。

与此同时,数据中心仍然需要产生高输出令牌,因为您仍然希望降低成本,保持高输出,获得回报。因此,这两个关于工厂的基本要素,低延迟和高输出,是相互矛盾的。因此,为了创造在两者方面都取得突破的东西,我们必须发明一些新的东西,而NVLink正是我们实现这一目标的方式。现在,您拥有一个虚拟GPU,它具有不可思议的浮点运算能力,因为您需要上下文。您需要一个巨大的模型内存、工作内存,同时仍然具有不可思议的令牌生成能力,所有这些都在同一时间构建模型,并同时优化诸如数据压缩之类的方面。

仅仅在我们的工作层面上,我们非常关注我们的软件堆栈生态系统和生产力。人们忘记了,一旦建立了坚实的基础,其上的一切都可以改变。

如果基础发生变化,在上面建造建筑物或创造一些有趣的东西就会变得困难。在过去一年中,我们已经能够做到这一点,并且我们对Llama的基准测试进行了回顾,在不更改顶部层的情况下,我们已经将性能提高了五倍。一年内将性能提高五倍在传统的计算方法中是不可能的,但是通过这种代码设计方式,我们已经能够做到这一点。

您认为您的最大客户在考虑其大规模训练和推理基础设施的可互换性方面有什么想法?

如今,基础设施正在解耦。这告诉我,他们最近已经停用了某些电压,并采用了不同的配置,其中一些针对空气冷却,另一些针对液冷。您的服务必须能够利用所有这些。

英伟达的优势在于,您今天为训练构建的基础设施明天也可以用于推理。我相信,许多ChatGPT的影响都来自最近训练的相同类型的系统。因此,如果您能用于训练,那么您也可以用于推理。

因此,您正在留下一个基础设施轨迹,您知道它将非常适合推理,并且您完全有信心将投资回报率投入到新的可扩展基础设施中。您知道,您将留下一些有用的东西,并且您知道英伟达的生态系统将致力于改进算法,以便您的基础设施在一年内提高五倍,这种趋势将永远不会改变。因此,人们对基础设施的看法已经发生了变化,即使今天为训练构建的基础设施非常适合训练,我们也知道它非常适合推理。

推理将是多方面的。首先,为了满足小型模型的需求,您需要一个更大的模型,它仍然可以用于小型模型。因此,您仍然会创造出这些令人难以置信的模型,它们将用于合成数据生成。

您将使用大型模型来训练小型模型,并进一步缩小小型模型。因此,有很多不同的方法,但最终,大型模型不会取代小型模型。小型模型将非常有效,虽然没有那么通用,但非常有效。

因此,它们将在特定任务上表现得非常出色。当我们看到一个小型模型在很短的时间内在某个任务上表现出超人类水平时,也许是小型语言模型,或者其他小型语言模型,等等。

因此,我认为我们将看到各种规模的模型,我们希望如此。

我认为在很多方面,人工智能使我们能够突破在创建新应用程序方面的障碍。但是,计算的方方面面在很大程度上仍然保持不变。例如,维护软件的成本非常高。

一旦构建了软件,您希望它能够在尽可能大的安装基础上运行。您不想重复编写相同的软件。许多人仍然持相同观点。您希望将工程知识向前推进。因此,在某种程度上,架构允许您在某种程度上创建今天运行得更好的软件,而明天使用新硬件或新创建的软件或AI运行在更大的基础上。您认为这种思考方式很好,还是会改变?

英伟达已经进入越来越大的客户支持单元。例如,从单个芯片到服务器再到大型服务器集群,您如何看待这种演变?您如何看待数据中心?

事实上,我们构建一切的方式都是为了构建一切,除非您正在构建软件,否则您需要计算机的完整体现。我们不会构建电源、点火装置和芯片,而是构建整个数据中心。

除非您构建整个数据中心,否则您无法知道软件是否有效。除非您构建整个数据中心,否则您无法知道您的织构是否有效,以及您期望的效率是否会实现。这就是为什么在演示文稿中看到的实际性能通常远低于峰值性能的原因。计算已经不再像以前那样了。我认为,新的计算单位是数据中心。

对我们来说就是这样。

这就是我们现在必须交付的东西。这就是我们现在构建的东西。

然后,对于每种组合,例如空气冷却、液冷、Grace Hopper、NVLink,我们不会构建每个计算单元。我们公司今天有五个超级计算机。

您很快就会再构建五个。如果您认真对待软件,那么您必须构建计算机。如果您认真对待大多数软件,那么您必须构建整个计算机。

我们都在大规模构建,并且垂直整合。

我们优化整个堆栈,然后解耦一切并以部件的形式出售。这正是我们所做的事情的令人难以置信之处。仅仅描述其复杂性就令人难以置信。原因是我们希望能够将我们的基础设施整合到 GCP、AWS、Azure 和OCI 中。所有这些控制平面、安全平面和集群大小的考虑方式都不同。但是,我们让它们能够在所有这些平台上运行。

最终,我们希望能够拥有一个计算平台,开发人员可以使用它,并且在很大程度上保持一致性,只是在模块温度等方面略有不同。但是,他们构建的所有内容都可以在任何地方运行。这是软件的原则之一,您不应该放弃。

我们非常清楚地保护它。这使得我们的软件工程师能够构建一次,在任何地方运行,因为我们认识到软件投资是最昂贵的投资,并且易于测试。看看整个硬件行业的大小,再看看软件行业的大小,它超过了万亿美元。

这告诉我们,您必须了解构建软件的方式,您必须维护它,只要您存在。我们从未放弃过任何软件。

我们之所以能够做到这一点,是因为我们知道为什么每个人都使用它。我们将维护它。

我们将继续维护它。我几天前刚刚看到英伟达Shield Android电视的评论,它在七年之前发布,仍然是全球最好的Android电视。

对于喜欢电视的人来说,这确实如此。我们上周刚刚更新了其硬件,人们对它的性能进行了新的报道。我们有3亿全球游戏玩家,我们从未放弃过任何一个。

因此,架构在所有这些不同领域的一致性使我们能够做到这一点。否则,我们的软件团队将是今天公司规模的数百倍,如果不是因为这种架构兼容性。我们非常重视这一点,这为开发人员带来了好处。

最近一个令人印象深刻的案例是X.AI如何快速建立一个集群。如果您愿意,我们可以谈谈这一点,因为它...

...在AI能够快速决定做某事、选择地点、提供冷却和电力,然后决定构建这个拥有十万个GPU的超级集群方面,在规模和速度上令人印象深刻。这是同类产品中最大的一个。我们从几个月前就开始规划,并确定了启动日期。

因此,我们与他们的网络模拟团队进行了所有组件、系统和软件集成。我们模拟了所有新的网络配置。我们就像创建了一个数字孪生体一样。我们展示了所有供应链,展示了所有网络布线。

我们甚至建立了一个小型版本,作为参考零系统,在其他一切出现之前。因此,当所有其他东西出现时,一切都已经准备就绪,所有练习和模拟都已经完成。然后,即使是大量的人员迁移,也是由英伟达团队成员在24/7工作,并在几周内完成了集群的部署。

这确实证明了其处理机械和电气问题的能力,以及克服看似难以置信的障碍的能力。我认为,这是第一次以如此快的速度构建如此大规模的AI计算机。如果没有网络团队、计算机团队、软件团队、训练团队和基础设施团队,以及从电气工程师到软件工程师的所有人员的协同工作,这将非常困难。

从工程角度来看,您认为最有可能阻碍的挑战是什么?

需要整合大量的电子元件。我指的是,需要测量它。我指的是,通常超级计算机系统需要大量的设备。

嗯,你计划从第一个系统交付到提交所有严肃工作的时间,大概需要几年时间。不要惊讶,因为一年时间内发生这种情况是很常见的,并非异常。现在我们可以负担得起这样做。

我们几年前在公司内部发起了一个名为“数据中心即产品”的倡议。我们不将IT作为产品出售,但我们必须将IT规划、建立、优化、调整和保持IT运行的所有方面都视为产品。目标是,你应该像打开你那漂亮的全新iPhone一样打开IT,一切都能正常运行。

当然,这需要技术的奇迹才能让IT像那样运行,但我们现在有能力做到这一点。所以,如果你对数据中心感兴趣,只需要给我一个空间、一些电力和冷却系统,我们可以在30天内将其建立起来。这真是非同寻常。

如果你展望未来,如果数据中心规模达到20万、50万甚至100万,如果那时你称之为超级集群,你认为最大的瓶颈是什么?资本、能源供应还是其他方面?

关于你刚才谈到的规模,一切都不正常。

是的,但没有什么是不可能的。

没有什么是不可能的。是的,没有物理定律的限制,但一切都会很困难。当然,你知道,要达到我们能识别为计算机,并且能够轻松地执行我们要求的任务的程度,这简直难以置信,甚至可以说是一种某种形式的通用智能。

我认为有五到六个努力方向试图达到这个目标,对吧?当然包括OpenAI、Anthropic、DeepMind等等,以及谷歌、Meta、微软等公司。我认为接下来攀登山峰的几步至关重要。谁不想成为第一个到达山顶的人?

我认为,彻底重新发明智能的奖赏太重要了,值得尝试。所以,我认为没有物理定律的限制,但一切都会很困难。

一年前,当我们谈话时,你谈到了你最兴奋的应用,以及如何让你的最极端的客户引领你走向那里,以及一些科学应用。我认为,在过去一年里,这已经变得更加主流了。在科学应用方面,它仍然是最重要的吗?

我喜欢我们拥有数字...我们拥有AI芯片设计师。

视频。

是的,我喜欢我们拥有AI软件工程师。AI设计师的效率如何?

非常好。如果没有他们,我们不会建造哈珀。原因是他们可以探索更大的空间,因为他们拥有无限的时间,可以在超级计算机上运行。

我们使用人类工程师的时间太少了,以至于我们没有充分探索应该探索的空间。我们还可以探索评论,包括你的探索和你的探索。

所以,我们的芯片如此之大,以至于一个芯片的设计几乎就像一千个芯片的设计。我们必须优化每一个芯片,有点像孤立地优化它们。你真的想优化很多芯片,并进行模块间代码设计和跨模块优化。

但显然,我们可以找到隐藏在局部最小值后面的局部最大值。所以,我们显然可以找到更好的答案。当然,你可以不用AI工程师也能做到这一点,只是时间问题。

自从我们上次谈话以来,还有另一件事发生了变化。当时,视频中显示的市值大约是5000亿美元。现在,在过去的18个月里,市值已经超过3万亿美元,这相当于每月增加1000亿美元左右,或者你想如何看待它。

显然,在专注于构建内容和今天早些时候走过这里时,我感受到的热情,就像15年前在谷歌时一样,公司在兴奋中充满活力。在这段时间里,有什么变化?或者在视频功能或你对世界的看法,或者赌注的规模方面有什么不同?你可以考虑一下。

公司能够像股票价格一样快速变化,这应该很清楚。所以,在很多方面,我们并没有改变太多。

我认为应该退后一步,问问自己我们在做什么?我认为这是公司和国家在重大观察和认识方面真正需要做的。我认为,当我们谈论我们行业的未来前景时,我们已经重新发明了计算,但60年来计算并没有被重新发明过。

我们降低了计算的边际成本,可能在过去十年中降低了百万倍,到我们可以让计算机无限制地运行软件的程度。这是重要的认识。在很多方面,我不得不说,我们对芯片设计的看法也是一样的。

我们希望计算机能够发现我们自己无法发现的关于我们芯片的东西,以我们无法想象的方式探索和优化我们的芯片,就像我们希望在数字生物学或其他科学领域一样。所以,我认为人们开始意识到我们在计算机方面重新发明了什么。但这意味着什么?当我们都做同样的事情时,我们创造了所谓的智能。

计算发生了什么变化?我们从数据中心开始。数据中心是多租户文件存储库。

这些新的数据中心不是数据中心。它们不是多租户的。它们往往是单租户的。

它们不存储任何其他文件。它们正在产生一些东西。它们正在产生令牌。

这些令牌被重新组合成看起来像智能的东西,对吗?智能可以是机器人运动的表达,也可以是DNA序列,也可以是化学链。

这可以是各种有趣的东西。所以,我们到底在做什么?我们创造了一种新的工具、一种新的机器,在很多方面,它不是一种附加的生成工具。

你知道,与其说生成AI,不如说这是一个生成AI的工厂,而且我们正在大规模地这样做。人们开始意识到这一点,也许这是一种新的产业。它生成令牌,生成数字,但这些数字以一种相当有价值的方式组合在一起,而哪些行业不会从中受益?

然后你退后一步,再次问自己,视频中发生了什么?一方面,我们重新发明了我们所知的计算。所以,有数万亿美元的基础设施需要现代化。

这只是其中一层。更重要的是,我们正在构建的工具不仅仅用于数据中心(我们正在对其进行现代化),而且用于生产某种新商品。而这种新商品产业,很难说,但可能价值数万亿美元。

所以,我认为,如果你退后一步,你会发现我们不再建造计算机。我们建造工厂,每个国家都需要它,每家公司都需要它。

你举个我们公司的例子,哪个行业或行业需要它?你知道,我们不需要生产智能。我们有的是。

所以,我认为这是个大想法,你知道,这是一个抽象的工业视角。你知道,有一天,人们意识到半导体行业的故事不仅仅是关于制造芯片,而是关于为社会构建基础设施。然后,每个人都会说,“我明白了。这不仅仅是关于芯片,这是一个大问题。”

你如何看待具身化?

在很多方面,我非常兴奋的是,我们接近了通用人工智能,但也接近了通用机器人。问题是,令牌能产生作用吗?当然,令牌能产生作用。事情并不像你们所知道的那样容易,但如果你能够让令牌产生作用,与大型语言模型和其他模态相结合,

如果我能生成一个视频,显示约翰逊伸出手拿起咖啡杯,为什么我不能提示机器人生成令牌来拿起杯子?所以,直观地,你会认为计算机的问题陈述非常相似。所以,我认为我们非常接近。这令人兴奋。

现在,这两个无人驾驶系统是棕色地带,这意味着你不需要改变环境。在汽车和机器人之间,以及数字显示器和实体机器人之间,我们可以将机器人带到世界各地,而无需改变世界,因为我们为这两者构建了世界。埃隆谈到这两类机器人,这可能具有更大的潜在规模,所以这令人兴奋,但它的数字版本同样令人兴奋。你知道,我们谈论的是数字或AI员工。

毫无疑问,我们将拥有各种AI员工。我们的展望将是生物学和人工智能的结合,我们将以同样的方式提示它们。对吗?我主要提示我的员工,你知道,给他们提供背景,要求他们完成任务,他们会招募其他团队成员。他们回来,来回工作,这和数字和AI员工有什么不同?我们将拥有AI营销人员、AI设计师、AI供应人员等等。我希望它在生物学上更大,在人工智能方面也更大。这就是我们未来的公司。

如果一年后我们再和你谈话,你认为公司中哪一部分最具人工智能和智能?我希望是设计,因为我应该从我推动最大进步的地方开始,也是我们能够产生最大影响的地方。你知道,这是一个非常困难的问题。我在办公室和国王根工作,想象一下,他们有可以租用的突触芯片设计师,他们对特定模块有所了解,他们的工具,他们训练有素,并且能够做出贡献。我们可以做到这一点。

我们是否需要在芯片设计阶段处于这种状态?你知道,我可能会租用一百万个突触工程师,政府可能会帮助我,然后我可能会租用一百万个孩子工程师。这将为他们创造一个令人兴奋的未来,他们拥有所有这些代理,这些代理位于他们的工具平台之上,使用工具平台并与其他平台协作。

你将在SAP和Bill的平台上这样做。现在,人们说SaaS平台将被颠覆。

实际上,我认为恰恰相反,它们将拥有能够专门从事销售、专门从事销售的代理,我认为他们称之为闪电和SAP作为代理。每个人都有自己的语言,对吗?我们有Koodi,我们有OpenUSD,用于我们的宇宙。

谁将创造AI代理?这太棒了。在OpenUSD上。我们,你知道,因为没有人比我们更关心。所以,我认为在很多方面,这些平台将充满代理,我们将把它们介绍给彼此,它们将协作解决问题。

你看到各种各样的人在各个领域工作,你认为AI是...被低估了,还是你想让更多企业家、工程师或商业人士参与其中?

首先,我认为人们误解了,也许低估了,在计算机科学、两门科学和工程学的基础研究中,正在发生的事情。我认为你只需走进任何科学系、数学系,就能看到AI和机器学习的影响。

我们今天谈论的工作将在未来改变一切,如果你把世界上的所有工程师和科学家都聚集在一起,并说他们今天的工作方式是未来的预兆,那么你将看到机器学习的浪潮。它们将改变我们在短期内做的一切。

现在,我看到了计算机视觉的早期迹象,与多伦多的Alex和Hinton,以及多伦多和斯坦福的Young Lecun和Andrew Ng合作。我看到了它的早期迹象,我们很幸运地从观察猫的检测中推断出计算机科学的整体变化。这种推断对我们来说是幸运的,当然,我们对它感到兴奋和鼓舞,以至于我们改变了做事方式。但我花了六年时间才从观察AlexNet(我认为按今天的标准,我们认为它是一个玩具,具有超人类水平的对象识别能力)中推断出结果。这仅仅是几年时间。

现在,在所有科学领域正在发生的事情,没有一个领域被落下。我的意思是,非常清楚,从量子计算到量子化学,所有科学领域都参与了我们正在谈论的方法。如果我们给自己两三年时间,世界将会发生变化。

不会有一篇论文,不会有一个科学突破,不会有一个工程突破,其中生成式AI是基础。我相当确定。所以,我认为,你知道,人们经常问,这是否是一场泡沫。你只需要回到基本原理,观察实际发生的事情。

计算堆栈,我们做计算的方式已经改变了,你编写软件的方式也已经改变了。我的意思是,这很酷。软件是人类编码知识的方式。

这就是我们编码算法的方式。我们以非常不同的方式编码它。现在,这将影响一切,其他任何东西都不会保持不变。

所以,我认为我正在和那些已经相信的人谈话,我们都看到了同样的事情,所有初创企业都看到了。你知道,你们和科学家合作,我与工程师合作,没有人会落后。我们将带所有人一起前进。

我认为计算机科学领域最令人兴奋的事情之一,以及所有其他科学领域,比如我可以去机器人会议、材料科学会议或生物技术会议,并说,“哦,我明白了。”你知道,不是在科学的每个层面,但在发现的驱动方面,所有算法都是通用的,有一些普遍的、统一的概念。是的,是的,我认为这非常令人兴奋,当你看到它在每个领域都多么有效。

我非常兴奋,我每天都在使用它。我不知道你们,但我使用它。

我的意思是,我不会在没有先使用AI的情况下学习任何东西。为什么以困难的方式学习?直接使用AI,直接使用ChatGPT。

有时我感到困惑,这取决于我的问题措辞。然后我开始从那里学习,如果你想,你总是可以深入研究。嗯,但天哪,这真是难以置信。

而且,我所知道的大部分内容,我都进行过核实,即使我知道它是事实。你知道,我把它当作事实。我也是专家,我会使用AI进行核实。

啊,所以,我所做的大部分事情都与它有关。

我认为这是一个很好的结束语。

非常感谢。

我真的很享受这次谈话。