欢迎收听 Generative Now。我是 Michael Magnano,Lightspeed 的合伙人。NVIDIA 无疑是 AI 革命的基石。他们突破性的 GPU 是现代 AI 研究和开发的动力。NVIDIA 今年在 CES 上也做了一些重大宣布。这就是为什么我要重温我与 Bill Dally 的谈话。Bill 是 NVIDIA 的首席科学家兼研究高级副总裁。
在计算机硬件和架构方面,他是最具前瞻性思维的人之一。他几十年的职业生涯始于加州理工学院的学术界,然后是麻省理工学院,后来成为斯坦福大学计算机科学系主任,之后才转到 NVIDIA。
我们谈到了他在 1980 年代早期的经历,在加州理工学院研究神经网络,AI 发展的速度,以及为什么他认为 AI 将彻底改变所有人类努力的技术。所以,请查看我和 NVIDIA 首席科学家兼研究高级副总裁 Bill Dally 的这次谈话。
嘿,Bill,你好吗?我很好,Michael。非常感谢你这样做。真的,非常感谢你的时间。我很高兴和你谈谈。我已经期待这一刻很久了。你显然在 NVIDIA 有着令人难以置信的令人印象深刻的背景和角色,而且我
关于 NVIDIA、AI 的现状、GPU 以及你和你的团队(我相信有数百名研究人员)正在进行的所有研究,我们有很多内容可以讨论。但在我们开始之前,就像我说的那样,你拥有如此令人印象深刻的职业生涯。我认为观众会很乐意听到一些你在过去几十年里在学术界、创业和商业方面的经历。
你作为 NVIDIA 首席科学家的角色。给我们讲讲你故事的背景吧。——好的,与 AI 和类似事物相关的可能始于我在加州理工学院读研究生的时候。那是 40 年前的 1980 年代。我参加了一门关于神经网络的课程,我认为这是一项非常酷的技术。我们构建了小型多层感知器和卷积神经网络,以及被称为 Hopfield 网络的小型联想记忆。
但它也让我印象深刻的是,它只是一个玩具,它是一项伟大的技术,但当时的计算能力还不够。但这是一件有塑造意义的事情。后来,我在麻省理工学院当教授,当时我正在构建并行计算机。我突然意识到并行性是一种技术,它是一种以串行处理器无法实现的方式扩展性能的方法。
但与此同时,现有的软件存在巨大的惯性,你知道,当时的摩尔定律有效,而摩尔定律是关于串行处理器的,而不是关于晶体管的,
人们可以等待,你知道,每 18 个月左右,他们的计算机性能就会翻一番。那么为什么要重写所有软件呢?如果你使用并行计算,你的性能将提高四倍。如果你只是等待,它会提高两倍,这对于竞争来说太容易了。所以直到它结束,并行计算才开始起飞。直到摩尔定律结束。
是的。然后,你知道,在 2000 年代初期,当我还在斯坦福大学任教时,我们开发了一种名为流处理的技术,这是一种通过非常有效地管理数据移动来使并行处理更容易访问的方法。我们与 NVIDIA 合作开发了 NV50,它作为 G80 推向市场,以 CUDA 的形式广泛提供这项技术。
现在,在我还在斯坦福大学任教的同一时期,另一件事正在发生,当时我是计算机科学系主任,Sebastian Thrun 赢得了自动驾驶汽车的重大挑战,该汽车可以自行穿越沙漠,从什么地方,巴斯托到拉斯维加斯之类的。我记得,我参加了 Sebastian 的一次会议,他们当时正在讨论他们如何难以让他们的汽车区分道路和沙漠。
事实上,这比看起来要难得多,因为那些土路是土,沙漠也是土。你怎么区分一种土和另一种土呢?你知道,他们让最聪明的研究生试图编写手动特征检测器来做到这一点。但它不起作用。所以他们只是获取了大量数据,并使用统计方法来做到这一点。
当时不是神经网络。同样,计算能力还不够。我试图回忆一下那是什么,但这是一种通过挖掘大量数据来自动发现特征的方法。这让我觉得这是一项非常强大的技术。在那几年后,在我离开斯坦福大学并于 2010 年加入 NVIDIA 之后,我和 Andrew Ng 一起吃早餐。当时,他正在 Google Brain Network 工作。
你知道,使用 16,000 个 CPU 在互联网上寻找猫。我突然意识到,好吧,你知道,这需要大量的计算能力,我应该说这需要大量的计算能力成本,但我们已经做到了。这些我在 1980 年代玩过的神经网络,我们终于有了使它们成为现实的技术。我还意识到 CPU 不是这样做的方式,对吧?我们应该做的是让这些东西在 GPU 上运行。所以我让 NVIDIA 研究院的某个人去,
将他的猫查找代码移植到 GPU。这段代码最终成为 cudnn。这就是我所走的道路,从加州理工学院、麻省理工学院和斯坦福大学的学术界开始,看到所有部分汇集在一起,最初的神经网络技术、并行计算,发展成流处理、GPU 计算,
最终汇聚到我们今天所处的位置,构建基本上推动这场 AI 革命的引擎。这些引擎显然需求巨大,你知道,即使只是 18 个月前,我也无法想象。我喜欢在这个播客中经常问坐在你位置上的人的一个问题是,
你是否预料到过去 12 到 18 个月发生的事情?显然,你过去几十年一直在思考和研究这些事情。但你是否知道我们将要经历什么,你知道,通过生成式 AI 的爆炸式增长?我没有预料到它会这么快发生。好的,我相信这是一项将彻底改变技术的技术。
所有人类的努力,对吧?你知道,我们如何玩耍,我们如何工作,我们如何学习,我们如何获得医疗保健,关于生活的一切都将受到 AI 的深刻影响。我知道这会发生,但我认为这种变化会更渐进,而不是像现在这样狂热。这很有趣,因为它起步缓慢。你知道,事情正在进展。你看到了很多
AI 的应用,从 ConvNets 开始,你知道,大约 10 年前,也许 12 年前,人们开始创建公司,你知道,在农业领域,区分植物和杂草,并在坏的植物上喷洒除草剂。你知道,它正在发生,它正在增长,但是,你知道,当 ChatGPT 推出时,就像有人把速度旋钮调高了,事情就
变得快了很多。我没有预料到这一点。在不久的将来,数据会不会成为一种限制?你知道,这当然是这项工作所需的关键要素之一。但是有很多事情可以做,你知道,挖掘许多公司拥有的许多尚未解决的私有数据存储库,以及创建合成数据,我们发现它非常有效,你
在许多应用中。现在,我不认为这是一个迫在眉睫的问题。我认为会有
大量的数据,无论是在私有方面还是在合成方面,人们通常的做法是抓取网络并获取数据,是的,他们可能正在接近使用这些数据所能做的事情的极限,但还有更多的数据存在,是的,这很有道理,所以让我们谈谈在 NVIDIA 担任首席科学家意味着什么,你知道,让我们了解一下 Bill Dally 的日常生活以及你的团队,我认为这是世界上最有趣的工作,你知道,嗯,
所以我有很多有趣的事情要做。我的职位是首席科学家兼研究高级副总裁,实际上是两份不同的工作。作为首席科学家,我的工作实际上是关注公司正在发生的一切,并努力改进技术。
嗯,无论是,你知道,我将参加关于下一代 GPU 规划的会议,例如自动驾驶汽车项目、机器人项目,并努力保持最新状态,并将人们联系起来,哦,这所大学的某个人正在做一些非常令人兴奋的事情,这可能会使这项工作变得更好,让我们来看看,或者你知道,也许我们应该在下一代 GPU 的新封装技术上更加努力,我只是试图让人们走出他们的舒适区
一点,让他们尝试一些可以使事情变得更好的事情。另一方面,我负责研究机构,它就像一个巨大的游乐场。我们从世界各地招募聪明的人来做令人兴奋的事情,从电路设计到我所说的研究实验室的供应方面,供应技术以使 GPU 更好。然后我们有做的人
你知道,各种 AI、自动驾驶汽车、图形、机器人都在需求端。它只是,你知道,与这些人会面很有趣。他们是聪明人。与他们讨论他们正在做的想法。我努力,我的工作是清除他们面前的障碍。我试图通过找出阻碍他们前进的东西并消除障碍来使他们能够做令人惊叹的事情。
是的,所以首席科学家部分的工作听起来几乎像是真正思考未来和规划未来。然后研究机构是关于,嘿,我们现在可以进行哪些研究来改进我们的技术和产品,以更好地为我们的客户服务?这是一个很好的总结方式吗?是的,这是一个非常好的总结方式。所以这两者是相辅相成的。而且很多时候,你知道,对于首席科学家的工作来说,思考未来,我们试图找出差距。我们试图对
你知道,我们希望 GPU 硬件、软件和应用程序的发展方向。我们说,为什么我们今天不能做到这一点?在研究方面,我们试图填补这些空白。我们试图,你知道,我们可以开发哪些技术来实现这一点?明白了。所以也许从研究方面的后者开始,研究机构,现在最让你和团队兴奋的是什么,无论是关注领域还是
或者你目前正在进行的一些具体的论文或研究?是的,好吧,生成式 AI 必须是目前最令人兴奋的事情。因此,我们正在努力为此开发新技术,并努力对它进行一些基本的理解。我们在芬兰的研究小组不久前写了一篇论文
基本上真正阐述了扩散模型的实际工作原理,并且在这个过程中使它们的应用效率更高。而且
因此,我们所做的事情就是尝试,你知道,看看每个人都跳上的技术,有时并没有真正理解它的工作原理,并试图深入了解,你知道,是什么让它运转起来以及我们如何才能改进它。我们在生成式领域做了非常令人兴奋的事情,无论是语言模型,你知道,视觉和视频模型,可能最令人兴奋的是多模态模型,它
是的。将所有这些东西结合在一起。这很有趣,看着它发生。而且那里有很多能量。人们对此非常兴奋。
是的。我的意思是,关于多模态模型的话题,你知道,我们是在 OpenAI 最近发布 GBD 4.0 的几天后录制这段节目的。我的意思是,我认为这就是你所说的一个例子。令人印象深刻,看到这些东西结合在一起真是令人印象深刻。对。嗯,你知道,我不是这方面的专家,但我理解的是,你知道,呃,这是我们过去几年看到的相同方法,呃,
这些大型语言模型和其他类型的模型。但是现在当你将这些东西组合成一个时,它会启用另一种类型的交互和体验。这真是令人难以置信。是的,它也打开了数据空间
到数量级更多。你问过这个问题关于数据。是的,你从哪里获取数据?当你只处理语言时,有很多数据,但是一旦你说,好吧,让我们加入,你知道,视频、图像和音频,现在突然之间有大量的数据。当你考虑人们如何学习和体验宇宙时,一部分是通过阅读书籍,但我们的大部分经验是视觉上的,并且确实是通过观察事物来体验的。
现在我们的模型也可以做到这一点。
是的。如何进行研究以了解这些模型的发生情况,无论是基于扩散的模型还是像 Transformer 这样的模型,这些模型的规模之大?你如何深入了解引擎盖下实际发生的事情?是的,我的意思是,这是一个具体情况具体分析的问题。你必须进行试点研究。事实上,很多时候,当我们在内部构建大型模型时,它实际上停止了研究。它变成了一个生产任务。对。因为
你知道,正在应用大量资源。正在应用很多人。我们正在整理大量数据。但在我们为此做好准备之前,我们会尝试进行一些小的试点研究。我们会说,你知道,你进行消融研究。让我们把这个拿走看看会发生什么,把这个拿走看看会发生什么。然后我们也试图在发生的事情背后发展一些数学。
所以我们可以预测,如果我们做某事,会发生什么。然后从那里开始,我们开始了解正在发生的事情,这个嵌入、这个潜在空间真正代表了什么,并能够预测如果我们对模型或过程或其他什么东西进行更改会发生什么。对。
所以就像你说的那样,这是一个生产的挑战。因此,即使只是为了理解正在发生的事情而进行的研究,就像构建这些模型中的任何一个一样,也必须在计算方面、数据方面需要巨大的规模。我的意思是,就像你从头开始构建这些模型一样。是的,好吧,在某些情况下我们确实是这样做的,但是我们尝试,你知道,当你投入这么多资源时,你必须非常确定它会奏效,否则你将在一天结束时与 Jensen 进行一场艰难的谈话。对。
所以你试图提前进行小的试点实验,这样当你进行大型训练运行时,你成功的概率就非常高。对。在研究方面,还有什么让你现在感到兴奋的吗?我听说你谈到过自动驾驶汽车。这是你的团队花很多时间进行研究的领域吗?是的,我们有一个团队在进行自动驾驶汽车的研究,他们与我们的自动驾驶汽车产品团队密切合作。
那里发生了一些令人兴奋的事情,实际上是将基础模型应用于自动驾驶汽车,但它既可以作为创建训练环境的一种方式,你知道,创建,你知道,能够编写提示,结果得到一个场景,然后你可以模拟并让你的汽车通过,也可以使用一个模型来感知、规划和预测场景中其他参与者将要做什么。
因此,在生成式 AI 和自动驾驶汽车的结合点上,有很多非常令人兴奋的事情正在发生。
现在,供应方面也发生了一些令人兴奋的事情。我的意思是,我们不断被要求说,你知道,我们如何才能保持领先地位?我们,你知道,在我看来,我认为我们今天拥有最好的 AI 平台。而且,你知道,一旦我们发布 GPU,其他人就可以复制我们所做的事情,对吧?而且,你知道,在四年时间里,他们将拥有一个可能与我们今天一样好的平台。那么我们如何才能继续保持领先地位呢?有一些非常……
在这方面,我们也在做一些非常令人兴奋的事情,例如用于 AI 的新数字表示、处理这些模型中权重和激活稀疏性的新方法,以及使平台更高效的方法。因此,对于给定的硅片面积,给定的功率,我们如何才能从中获得更多收益?
是的,我看到,你知道,我看到其他公司最近宣布,你知道,非常大的芯片或,你知道,对架构的许多不同看法。而且,你知道,这经常让我怀疑,好吧,我想知道 NVIDIA 接下来的计划是什么。听起来你正在提前考虑多步,也许已经在供应方面为多个迭代的芯片和设计规划了路线图。
是的,我们必须保持领先地位。我的意思是,我们未来几代将要做的事情已经基本确定了。我不能多说。当然。是的。但在研究中,我们试图超越这一点,并说,什么是什么,你知道,你知道,三、四或五代之后。对。是的。
而且这很有趣。在某种意义上,它使计算机设计比摩尔定律存在时更有趣,因为那时你做了一些小的调整,并在新的工艺中运行东西,你就会得到一个更快的 CPU。现在,你知道,我们从新一代技术中获得的收益可能只有 10%。因此,你知道,使它变得更好的大部分是更好的计算机架构、更好的软件。
你知道,更好的设计,你知道,来自创造过程的东西,而不是来自半导体过程的东西。所以也许将我们之前讨论过的内容应用于过去几年生成式 AI 的爆炸式增长,回到自动驾驶汽车,过去一两年自动驾驶汽车的一些进步让你印象深刻的是什么?
在消费者方面,似乎取得了一些相当大的突破。Waymo 现在正在进行,我认为,数万次出行。显然,特斯拉的完全自动驾驶似乎越来越可靠。我们越来越接近这个了吗?NVIDIA 的工作是如何做贡献的?是的,我的意思是……
所以很难说。我的意思是,这是其中一件非常困难的问题。事实上,你知道,十年前我公开表示我们快到了。而且,你知道,十年后,我们还没有。原因是,这是你必须获得长尾效应的事情之一。这实际上是一个追逐罕见案例并确保
它们得到妥善处理的问题。你知道,我认为我认为,你知道,这个领域的领导者,大多数世界都在做这项伟大的工作,这涉及到大量的数据。它涉及到,你知道,拥有伟大的纪律,一种真正的安全文化,以确保你真的确保在你没有预料到的情况下,车辆将正确响应,并且每个人的安全都将得到保证。
所以它,你知道,我们做了一些非常令人兴奋的事情,我从技术的角度来看发现它们很有趣,这些生成模型。而且,你知道,我们已经尝试过这种方法,你知道,车辆架构的各种方法,你知道,我们有感知、规划和控制等经典阶段。然后我们也有,你知道,端到端的版本。
有时我们会尝试将它们结合起来,因为我们有通常的阶段,所以我们可以介入并观察和控制,但我们也一起训练它们。所以我们实际上已经用一个以规划为条件的损失函数训练了我们的感知。所以它是针对其用途而调整的感知。因此,技术方面有一些令人兴奋的事情,但最终这是一个追逐
罕见案例并确保妥善处理它们的艰难游戏。如果只有自动驾驶汽车在路上,这将是一项容易得多的任务。你必须处理那些难以预测事情的讨厌的人类。对。所以你是在说自动驾驶汽车会做可预测的事情。人类……
所做的事情是完全不可预测的。如果我们看到某些东西,或者如果机器可以预测它们,但是每个人都是不同的,他们可能会以不同的方式行事。所以你正在预测最有可能的人会做什么。你甚至试图开发一种技术,通过观察参与者(包括汽车、行人等)来进行表征,它试图对他们进行表征。这个人分心了。这个人很激进。这个人快要睡着了,然后根据这种表征来预测他们会做什么。但即使那样也很难。那
那很有趣。所以模型会将驾驶员的特征细化到个人,你知道,汽车大小。
并说这个这个驾驶员是这种类型的驾驶员。这个驾驶员是那种类型的驾驶员。是的。你需要描述一辆特定汽车会做什么,因为它们不会都做同样的事情。你可以。哦,哇。就像你上路观察并看到你认为他们会做什么一样。那将会。对。这太迷人了。这太迷人了。你之前提到过自动驾驶汽车,你甚至使用大型语言模型来发明场景和测试用例。我想我记得你说过。
我想我在某个地方读到过 NVIDIA 实际上已经将生成式 AI 应用于芯片设计的许多阶段,甚至。跟我谈谈这个。例如,NVIDIA 实际上是如何利用这项技术来提高芯片设计的效率的?是的,这是一个很好的问题。所以我们有很多项目将 AI 应用于芯片设计,以使,你知道,从某种意义上说,吃掉我们自己的狗粮。可能最令人兴奋的是我们已经采用大型语言模型的一个项目,并且
然后用所谓的特定领域预训练对其进行专门化。所以我们基本上获取了我们拥有的许多数据,我们之前所有 GPU 设计的整个存储库、测试,
设计文档,并在其上训练模型。我们发现,然后我们可以得到一个比普通模型好得多的模型,甚至是一个像 GPT-4 这样的大型模型。我们可以采用 Lama 7DB 或其他东西,在我们自己的数据上对其进行训练,它比更大的模型更好
在许多任务中,最重要的任务是帮助设计师提高效率的任务。我们发现的一件事是,初级设计师倾向于使用大量高级设计师的时间来提问。这是成为团队成员并学习 GPU 工作原理以及所有这些内容的一部分。但是现在我们可以让他们向模型提问,它会给他们提供相当不错的答案,这不仅可以提高他们的效率,还可以提高他们曾经使用时间来回答问题的人的效率。
这些模型在总结错误方面也非常好。因此,你会收到一份可能长达几页的错误报告,其中包含来自,你知道,一些,你知道,
测试用例的日志,其中测试失败了。它现在可以总结这个错误,并且在许多情况下,你还会要求某人说,特定设计师需要采取行动来修复错误。这也会使流程变得更好。在某些情况下,我们让模型编写代码,但我们更经常让他们编写测试代码或配置特定设计工具以执行某些操作的代码,而不是编写 GPU 本身的代码。
然后还有一些应用程序,我们使用这项技术并将其用作设计过程的一部分。我特别喜欢的一个是,我们开发了一个图神经网络,它可以获取电路设计并预测寄生参数将是什么。这是一个巨大的生产力提升,因为,你知道,过去电路设计师会绘制电路,将其交给布局设计师,几天后,布局设计师会完成布局设计。
你会提取寄生参数,电路设计师会发现它不起作用,因为寄生参数比我想象的要差。他们将不得不尝试不同的方法。因此,设计周期是,你知道,围绕这个循环几天。但是有了这个工具,你知道,它并没有完全正确,但它非常擅长预测寄生参数将是什么。现在这个循环只需要几秒钟。因此,设计师绘制原理图,预测寄生参数,运行模拟。现在他们可以在仍然记住他们正在处理的内容时快速迭代。
另一个非常酷的是,我们将强化学习应用于设计我们 GPU 中的加法器。这是一个关键电路。这也是自 1950 年代以来人们一直在认真思考的事情。因此,有关于如何设计好的加法器的教科书。它归结为构建一棵树的问题,这棵树执行所谓的并行前缀计算。
它正在对位的进位进行累加和,以确定是否将进位带入加法器的特定位。在这个人们自 20 世纪 50 年代以来一直在努力解决的问题中,事实证明我们应用了强化学习。我们将它视为一个雅达利游戏,你可以在树中放置下一个进位超前节点。
它最终也比最著名的技术好得多。因此,这现在应用于我们 GPU 算术电路的设计中。另一个巧妙之处是生产率的提高。每次我们转向一项新技术时,我们都会从 5 纳米到 3 纳米再到 2 纳米。
我们必须重新设计整个标准单元库,甚至在特定节点内。如果我们的目标是不同的代工厂,我们必须为该代工厂重新设计标准单元库。这过去需要一个大约 10 人的团队,大约 9 个月的时间。所以想想 90 个人月。现在我们有一个强化学习程序
它基本上设计了标准单元,并且实现了更高的质量,因此平均单元比人工设计的单元更小,并且在其他几个指标上也更好。但它在一夜之间在一个 GPU 上运行就完成了。这是一个将这种 AI 技术应用于改进 GPU 的绝佳例子。这真的很酷。我的意思是,你显然听到……
来自各种不同类型的公司关于他们如何利用 AI 的故事。因此,英伟达这家在许多方面都在发明和创造 AI 的公司利用 AI 来提高 AI 的效率是有道理的。听到一些这样的例子真的很酷。也许让我们深入了解一下团队。你提到,我认为英伟达有数百名拥有博士学位的研究人员。对吗?我在某个地方读到过。大约 400 人。是的。
你是如何招聘和组建这样一个团队的?我的意思是,这些都是世界上最聪明、最优秀的人才。这样一个团队是如何组建起来的?你知道,这花了很长时间。我于 2009 年加入英伟达,继承了一个团队,我认为大约有 15 人,其中大多数人都在做光线追踪,也就是计算机图形学。然后,你知道,从那里,你知道,创建了小组,你知道,做……
你知道,架构和电路以及 AI。当我们第一次在任何特定领域开始时,这非常困难,因为没有人想来到一个他们唯一做某事的地方。但是通过让一些真正优秀的人来锚定每个地方,然后招聘真正优秀的人,那么招聘人才就会更容易,因为人们喜欢加入,你知道,一个有其他有趣的人可以交谈的团队,而且每个人都和你一样聪明。
嗯,所以我们发现,我们必须真正设定一个高标准并坚持下去。你知道,一旦,一旦我们,你知道,如果我们让这个标准下降并开始招聘,你知道,平庸的人,那就会招聘更多平庸的人。所以我们不得不,不得不保持它,嗯,保持它的高度。我们试图创造一个人们喜欢待的环境。所以我们的员工流动率非常低。人们来了,他们留下来,因为,你知道,他们,他们,他们可以做他们想做的事情。我们有,他们有资源去做有趣的,嗯,有趣的实验。他们可以和有趣的人一起工作。嗯,
而且他们可以产生巨大的影响。英伟达的一大优点是,因为我们为整个行业提供服务。如果你开发,你知道,无论是用于 AI 的新型硬件还是新型模型、新的训练技术,它最终都会使每个人受益,使全世界受益。而在我们与之竞争人才的一些人中,如果他们开发出某些东西,那么他们的公司会使用它,但它不会像我们开发的东西那样广泛传播。
在我看来,这个团队,你知道,我们谈到了你在这个由数百名研究人员组成的团队中令人惊叹的职业生涯。你经历了几次转变,也许这一次是最大的,也许与你的工作最相关。这个我们刚才谈到的你的团队是如何保持准备状态并领先于这些转变的?也许你会对也在这个领域进行建设的企业家或初创企业有什么建议?
是的,这是一个非常好的问题。因此,保持领先于革命的最佳方法就是成为革命者,创造这种转变。但是,你知道,我们不能自己创造所有这些。尽管,你知道,我们实际上已经在此过程中开发了许多基础技术,但其中一些来自外部。因此,我们倾向于做的另一件事是,我们倾向于拥有一套核心,你知道,核心技术,核心专业知识,然后
然后非常灵活地将其应用于不同的方面。所以我想说,你知道,在英伟达,你知道,我们的核心专业知识是并行处理和加速。我们制造的处理器具有,你知道,
数十万个并行工作的单元。然后我们多年来对它们进行了专门化。我们专门针对光栅图形,你知道,基于多边形的渲染。这是英伟达早期核心的技术。嗯,我们,呃,专门针对光线追踪。我们有我们的 RT 内核。嗯,我们已经专门针对生物信息学使用了动态,呃,动态编程指令。呃,
出现在 Hopper 世代。然后从 Pascal 世代开始,但当我们在 Volta 中引入 Tensor 内核时,我们增加了对 AI 的专门化。因此,这两种技术,并行处理和特定领域的加速非常强大。因此,我们接下来需要做的是预测
什么将是下一个需要不同类型专门化的重大应用转变?并行处理是相当普遍的。你可以将其应用于所有事物。关键应用需要不同的特定领域加速。甚至 AI,随着时间的推移,特定领域的加速也发生了变化。因此,我们需要灵活地运用这两种核心技术,并预测应用程序并领先于它们。
嗯,我认为任何人都应该尝试这样做。他们应该拥有核心专业知识并领先于应用程序。对。对。对。你能够,你处于一个非常有趣的位置,你能够看到很多事情即将发生。正如你所说,你可能没有预料到它会像现在这样大规模和快速地发生,但是,嗯,你知道,你认为企业家在未来几年需要为哪些事情做好准备?
是的,你知道,这,这你谈论的是新技术即将到来。他们将要使用的新的技术。所以我们知道每个人今天都在为谁建造。你知道,他们两年后、三年后可能会为谁建造吗?对我来说,如果我看看,你知道,如果我回顾过去并试图以此来预测未来,你知道,十年前,我们担心的是置信度和循环神经网络。
然后转换器出现了,突然间没有人再关心循环神经网络了。然后你使用 GAN 来进行图像合成,然后扩散网络出现了。因此,我们必须能够做到的是预测新的模型即将出现。人们一直在开发新模型。只是大多数模型都不比旧模型好,因此不会被采用。
因此,我们一直在努力弄清楚接下来会发生什么。很难说。我们会查看六件事,但没有一件会成功。但我们已经做好了准备,并且足够灵活,如果其中任何一件成功,我们就可以追踪它们。我们做的另一件事是我个人花了很多时间访问大学并与正在从事的人交谈,你知道,关于,你知道,尝试的下一个想法,至少要了解,你知道,候选人是什么,有什么……
什么可能会发挥作用。- 你提到一直在开发新的模型和架构模型。你并不一定知道哪个会有效。也许以转换器模型架构为例,什么时候很明显这会很重要?
是的,相当,相当快。好的。你知道,那是什么?“注意力就是你所需要的一切”这篇论文大约在 2017 年发表。即使在那时,也很清楚转换器正在获胜。你必须将这篇论文的标题放在上下文中。这样命名的原因是,当时被认为是正确模型的是转换器与
与循环网络的混合,对吧?因为我们的想法是每个都给你一些东西。然后这篇论文的重点是你不需要循环网络。如果你有转换器,那就是你所需要的一切。然后的证据是,是的,这比循环网络更好。现在,在那时,它被应用于像 BERT 这样的模型,我忘了,几亿个参数。也许那是 BERT 大型模型。我认为人们没有预料到的是它将如何扩展。
随着它的扩展,它只会变得更好。它甚至赢得了更多,因为循环网络的真正问题在于,将事物反向传播到这些循环单元是一个困难的训练过程。因此,当你获得更多数据并构建更大的模型时,训练它们需要更长的时间,并且扩展效果并不理想。
但对于那个,我认为即使在早期也很清楚,你知道,这是一个胜利。过去大约 15 年左右,AI 的整个发展让我印象深刻的一点是,人们采用转变的速度有多快。你知道,我在超级计算领域工作了很长时间,人们会拥有这些,你知道,他们会拥有的代码。如果你是供应商,你知道,我和 Cray 一起工作了一段时间,你必须运行每个人的代码,并且
他们会有 20 年历史的代码,他们不想更改他们的代码。因此,在这个领域中存在巨大的惯性,即遗留代码难以更改。而且,你知道,很多企业计算领域也是这样运作的。我的意思是,银行仍在运行用 COBOL 编写的代码。
但在 AI 领域,人们会一夜之间丢弃东西,第二天他们就会有一个新模型。他们不在乎这些东西。很有趣。它移动得非常快。你特别感兴趣或兴奋的新的或即将推出的模型架构有哪些?我对这些状态空间模型非常兴奋。还不清楚它们是否会获胜,但其中有一些想法最终……
可能会成功。从某种意义上说,它回到了循环神经网络。对,有趣。是的,你发现状态空间模型的哪些方面如此有趣?人们至少进行了几项研究,这些研究表明,较小的模型在训练较少的情况下会获得更好的结果。如果这实际上普遍适用,它们最终将取代转换器。我认为它们还没有达到那种状态。明白了。
我相信你是在斯坦福大学的兼职教授,而且你显然是那里计算机科学系的前任系主任,我相信。你在全国各地的大学和学院做演讲。
我想问两个问题。你发现自己经常给即将进入这个行业的人什么建议?此外,你从学术界学习了什么,这些学生在这个 AI 时代长大?好的,这两个问题都非常好。所以,你知道,第一个问题,实际上是在我一个月前在佐治亚理工学院做演讲后被问到的。而且,你知道,我的评论是,首先,要意识到,
新毕业生,他们真正拥有的是学习许可证。他们已经准备好很多理论和很多基础知识,但还没有真正有用或危险。因此,他们的第一份工作重要的是选择他们将学习很多东西并学习正确的东西的工作。因此,我认为那里的两个特点是选择一个地方
你知道,那里有很多非常聪明的人可以一起工作,因为你会向他们学习。并且正在处理,你知道,真正前沿的问题,因为你想学习关于前沿问题的东西,而不是关于不再是,你知道,处于前沿的东西。而且拥有良好的文化可能也很重要,因为,你知道,如果不是这样,那么你可能会陷入很多,你知道,肮脏的政治中,并拥有不愉快的经历。
所以我喜欢认为英伟达真的是所有这些人的理想场所,因为我们满足了所有这三个条件。我们有很多非常聪明的人正在处理前沿问题。我们有很棒的文化。
那么另一个问题是什么?我在学习什么?你从在 AI 时代长大的学生那里学习了什么,对吧?谁正在经历这些事情?是的。所以,你知道,这很有趣。所以这既包括学生,也包括我们在 MBITI 招聘的新毕业生。我真的很喜欢和他们交谈,因为他们有不同的视角。他们有点,你知道,
他们有点几乎认为某些事情是理所当然的。但另一方面,从那一点来看,当一项新技术出现时,他们会以不同的方式看待它,听到他们的观点会让我以不同的方式思考它。所以我喜欢每当出现一项新技术时,我实际上都喜欢与一些,你知道,新员工谈谈它,看看他们是怎么想的。而且,我也喜欢去大学和,你知道,与当前的学生,正在研究这些事情的研究生交谈,并仅仅获得他们的观点,因为,你知道,
关于接下来会发生什么的观点有时比我看到的更清晰,因为他们是在没有我们现在正在做的事情的很多包袱的情况下看到的。
十年后的学生不会学习什么,因为 AI 导致学生现在正在积极学习和参与?什么会消失?是的,这是一个有趣的问题。当我是计算机科学系主任时,我做的一件事是简化了我们的课程。所以我们只有很少的必修课,很多人对我非常不满,因为当他们的课程不再是必修课时,没有人会选修它。
嗯,也许不应该有必修课,我们应该让学生选修他们想选修的课程。但我希望有些东西是计算机科学的核心,嗯,你知道,算法、自动机理论,你知道,计算机科学的基本理论,如何编程,如何进行计算思维。但是我们学到的很多关于,嗯,排序,嗯,
通过,你知道,编写经典代码的方式不再是人们构建应用程序的方式,对吧?现在他们通过,你知道,获取 LLM 的 API 并,你知道,将他们的数据输入到其中来构建应用程序。所以我认为,你知道,现在出现的学生一代,当然在 5 年或 10 年后会更多,将会考虑如何连接,你知道,
通过一堆 API,这就是你将构建事物的方式。因此很难,你知道,某些东西必须消失才能腾出更多时间来学习。很难看出那会是什么。但是,你知道,我认为这将是更经典的编程方式。所以,
所以,是的,所以这听起来像你是在说编码几乎和编程几乎消失了。好吧,有人必须编写一些代码。所以我们有,你知道,所以我们有 PyTorch 之类的东西。对。非常有趣。比尔,这太吸引人了。我学到了很多东西。我真的很确定观众也会学到很多东西。所以非常感谢你抽出宝贵的时间。我们知道你很忙。所以非常感谢。这很有趣,迈克尔,我期待听到这个播客。
非常感谢您收听 Generative Now。如果您喜欢这一集,请帮我们一个忙,在 Spotify 和 Apple Podcasts 上对播客进行评分和评论。这确实很有帮助。如果您想了解更多信息,请在 YouTube、Twitter、X、LinkedIn 和其他所有地方关注 Lightspeed at LightspeedVP。Generative Now 由 Lightspeed 与 Pod People 合作制作。我是迈克尔·麦克唐纳,我们下周将与您进行另一次对话。到时候见。