We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

881: Beyond GPUs: The Power of Custom AI Accelerators, with Emily Webber

2025/4/22

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive AI Chapters Transcript

People

Emily Webber

Topics

Emily Webber: 我在计算机科学领域的成功，很大程度上得益于多年冥想和佛教修行培养的专注力和冷静的解决问题的能力。作为AWS的解决方案架构师，我的工作是与客户紧密合作，了解他们的需求，并解释AWS服务如何满足这些需求。SageMaker 是AWS的一个托管机器学习基础设施，它提供了一个完整的开发环境和工具，用于训练、部署和管理机器学习模型。我从SageMaker转向Trainium和Inferentia团队是因为我看到了基础模型的重要性以及高效的硬件基础设施对训练和部署大型模型的关键作用。在AI加速器编程中，内核是指用户自定义的函数，它直接在芯片上执行，而不是由编译器生成，从而可以优化算法的计算效率。AWS Neuron SDK 提供了一套工具，帮助开发者在无需深入了解底层芯片架构的情况下，使用他们选择的框架（如PyTorch或JAX）轻松利用Trainium和Inferentia加速器。Trainium和Inferentia与SageMaker良好集成，客户可以使用SageMaker的开发环境和工具来训练和部署在Trainium和Inferentia芯片上运行的模型。与GPU相比，Trainium和Inferentia等加速器具有更高的性价比和能效，特别适用于训练和部署大型AI模型。Trainium 2 比 Trainium 1 的计算能力提升了四倍，主要是因为每个卡上的神经元核心数量增加到 8 个，并增加了高带宽内存容量。此外，Trainium 2 还引入了 UltraServer 架构，将多个 Trainium 2 实例连接在一起，以实现更高的性能和效率。TP (张量并行度) 指的是用于处理单个张量的核心数量，它会影响模型训练和推理的效率。更改TP度可以优化性能，但也会因集体操作、内存使用和批量大小等因素而降低性能。Anthropic、一些初创公司和Databricks等客户正在使用Trainium和Inferentia芯片来训练和部署各种规模的语言模型，并从中受益。“Build on Trainium” 计划向从事前沿AI研究的学术界提供1.1亿美元的云计算积分。选择合适的AWS实例类型取决于机器学习任务的具体需求，例如训练还是推理，以及模型的大小和复杂度。我热衷于教学，因为我喜欢将复杂的技术概念简化，并与他人分享我的理解，帮助他们更好地学习和使用AWS服务。未来AI领域的技术挑战将集中在大型语言模型的改进、应用集成、高效训练和推理等方面，硬件技术也将持续发展。

Deep Dive

Chapters

Emily Webber's career path transitioned from international finance to AI and machine learning at AWS, driven by a love for data science and a desire to create positive impact. Her background includes a degree in finance, Buddhist studies, and a master's degree combining public policy and computational analysis. This unique background shaped her approach to problem-solving and technology development.

Transitioned from international finance to AI/ML
Studied Buddhism and meditation
Master's in public policy and computational analysis
Worked on distributed systems for AWS SageMaker

Shownotes Transcript

Emily Webber与Jon Krohn讨论她在亚马逊网络服务公司的工作，包括其Annapurna Labs开发的Nitro系统（一种可以增强云安全性和性能的基础技术），以及Trainium2如何成为AWS最强大的AI芯片，其计算能力是Trainium的四倍。了解AWS芯片的规格以及何时使用它们。更多资料：www.superdatascience.com/881本期节目由ODSC（开放数据科学大会）赞助。有兴趣赞助SuperDataScience播客节目吗？请发送电子邮件至[email protected]了解更多赞助信息。在本期节目中，您将了解：(08:36) Emily在AWS SageMaker和Trainium上的工作 (23:54) AWS Neuron如何让构建者定制他们使用框架的方法 (29:07) 为什么使用加速器比使用GPU更好 (35:29) AWS Trainium和AWS Trainium2之间的主要区别 (52:45) 如何在AWS Trainium和AWS Trainium2之间进行选择</context> <raw_text>0 这是第881集，嘉宾是AWS首席解决方案架构师Emily Weber。本期节目由ODSC（开放数据科学大会）赞助。

欢迎收听Super Data Science播客，这是数据科学行业收听率最高的播客。每周，我们都会为您带来有趣且鼓舞人心的人物和理念，探索机器学习、人工智能和相关技术的尖端领域，这些技术正在使我们的世界变得更好。我是您的主持人John Krohn。感谢您今天的收听。现在让我们化繁为简。欢迎回到Super Data Science播客。今天，我很高兴邀请到风趣、才华横溢且充满禅意的Emily Weber作为我们的嘉宾。Emily是亚马逊网络服务公司精英Annapurna Labs机器学习服务团队的首席解决方案架构师。她直接参与Tranium和Inferentia硬件加速器的开发，分别用于训练和进行AI模型的推理。

她还参与了NKI或NICI（神经元内核接口）的工作，该接口充当用于编程使用Tranium和Inferentia芯片的AWS实例的底层语言和编译器。她撰写了一本关于预训练基础模型的书籍。她在亚马逊基于云的机器学习平台SageMaker上为客户开发分布式系统已有六年时间。

她还领导着神经元数据科学社区，以及“基于Tranium的项目”的技术方面，这是一个为学术研究人员提供1.1亿美元计算信贷投资的项目。

今天的节目侧重于技术方面，最适合那些渴望了解当今庞大的AI模型与其运行的硬件之间关系的人。在本期节目中，Emily详细介绍了Annapurna Labs如何彻底改变云计算鲜为人知的故事，设计能够高效训练和部署具有数十亿参数的模型的硬件需要什么……

Trainium 2如何成为AWS上最强大的AI芯片，AWS为何向学术AI研究投资1.1亿美元的计算信贷，以及冥想和佛教修行如何增强您在科技领域的专注力和解决问题的能力。好了，准备好收听这精彩的一集了吗？让我们开始吧。Emily，欢迎来到Super Data Science播客。我很高兴邀请您参加节目。您今天从哪里打电话进来？

嗨，John。很高兴来到这里。我从华盛顿特区打电话进来。很好。世界上的这个地方正处于有趣的时期。

发生了很多事情，但我们不在此讨论。我们从未做过政治节目。我们不会深入探讨。在录制时，我很兴奋。我期待着参加在弗吉尼亚州里士满举行的Data and AI峰会，那里离华盛顿特区并不远，或者至少弗吉尼亚州不远。我一直很喜欢世界上的那个地方，弗吉尼亚州靠近华盛顿特区，除了交通拥堵之外。

是的，交通很糟糕。实际上，每年的这个时候都很可爱，因为樱花刚刚开始盛开。所以樱花的旺季在三月底到来。但我身在华盛顿特区的主要原因之一是因为它是亚马逊的HQ2地区。

所以它是我们的第二个总部。您可能记得几年前，我们进行了一次HQ2搜索，弗吉尼亚州水晶城获得了HQ2。所以几年前我搬到这里，成为那里所有活动和一切的一部分。

这很酷。但这让我想起了，最初它是不是应该在曼哈顿？它应该在纽约市，然后发生了反对它的起义，所以他们不得不选择其他地方，因为，我记不清具体原因了，但好像担心它会改变曼哈顿

太多，太快了，就像大量涌入已经很繁忙的地方的人一样。是的，有很多很棒的城市，显然有很多很棒的选择。我认为最初的规格是在三个城市之间分配。我认为当他们第一次宣布时，就像纽约、华盛顿特区。然后我想说田纳西州的某个地方，如果我没记错的话。然后，

然后这缩减为肯定的华盛顿特区地区以及其他一些地方。但是，是的，主要是华盛顿特区。很好。我很高兴它在那里进展顺利。听起来这是一个很棒的工作环境。当然，AWS正在做很多令人兴奋的事情。我认为我们可能会开始，我们几乎从不从某人的职业道路开始。

但在你的情况下，我们将这样做，因为你有一个独特的职业轨迹，我认为这为节目的其余部分提供了一些很好的背景。所以你从国际金融学位开始。

现在你已经在亚马逊工作了一段时间，从事人工智能和机器学习方面的工作。所以告诉我们一下你如何过渡到今天所做的事情，你对AI ML的吸引力。是的，完全正确。我会说我后来才接触到计算机科学。绝对的。我住在亚利桑那州，实际上我从普雷斯科特学院获得了学位。

我肯定学习的是金融。实际上我也对佛教感兴趣。所以我多年住在静修中心学习。是的，我学习冥想和各种事情。你看起来非常禅意，非常有同理心。

我们的听众不知道这一点，但在开始录音之前我们聊了一会儿。我想，哇，Emily真是个引人入胜、富有同理心的人。我认为在寺院里度过的那段时间得到了回报。是的，我发现自己经常回到这个平静的时刻

很多次，实际上，因为当我们在做计算机科学时，对吧，当我们试图解决一个算法问题时，试图解决一个计算问题，一个开发问题时，你知道，很多时候我们真正需要的是专注。实际上，我们需要能够将我们的思想带回到目标是什么，细节是什么，挑战是什么。

并且不要被过于专注于某事或害怕某事所压倒。因此，培养这种能够平静地安住和平静地专注的心理能力，老实说，在我的计算机科学学位中非常有帮助。

之后我在芝加哥大学学习，并获得了双学位，即公共政策硕士学位和计算分析学位。所以通过计算机科学的视角来研究公共政策项目。所以在那里我培养了对数据科学的热爱。我在一个名为“夏季公益社会奖学金的数据科学”的项目中实习，该项目

我们分析公共政策问题，并与非营利组织或非政府组织合作，分析他们的数据科学，然后向他们交付项目。所以这就是我非常感兴趣的地方，显然，在技术、技术开发和试图对世界产生积极影响方面。这让我来到了AWS。非常有趣。

非常好。是的，你已经广泛地使用了SageMaker，我们的许多数据科学听众都熟悉它。也许你可以解释一下，因为你比我更擅长解释SageMaker是什么。所以你可以让我们了解SageMaker以及你过去使用过的其他AWS AI服务。但现在你正在Tranium和Inferentia团队工作。它是硬件，计算硬件，你可以用它来代替GPU。你可以使用Tranium或Inferentia芯片。

来完成训练（对于Traineum）或推理（对于Inferentia）时的大部分繁重工作。是的，所以请告诉我们SageMaker、你过去使用过的其他AWS AI服务，以及为什么硬件、Traineum、Inferentia最近吸引了你。

是的，当然。所以我实际上作为我们最早的SageMaker解决方案架构师SA之一加入了亚马逊。所以，你知道，我得以与SageMaker早期的一些客户合作，并弄清楚……什么是SA？

酷。什么是SA？AWS的解决方案架构师，从根本上说，我们与客户合作。这意味着你的手指在心跳上。它们在业务的脉搏上或服务的脉搏上，因为你每天都在向客户解释服务的功能。

你与开发人员、数据科学家、客户和服务团队的领导层一起深入研究功能A的作用、运行情况以及未来需要做什么。所以我喜欢做解决方案架构师。我一直非常喜欢这个角色，因为你可以看到全貌。你可以参与整个生命周期。所以我是我们最早的SageMaker解决方案架构师之一。所以

所以SageMaker是AWS上的托管ML基础设施。从本质上讲，您可以使用SageMaker启动笔记本服务器，

使用SageMaker启动我们所谓的训练作业，即在作业的上下文中训练模型。使用SageMaker启动ML托管基础设施。我们在SageMaker中提供预打包的模型，您可以下载这些模型进行训练和托管。我们还有一个非常酷的开发环境。所以SageMaker Studio和统一工作室，可以让数据科学家

所以它实际上所做的是将托管开发环境的UI

与运行笔记本和运行分析作业的所有计算分开。我们将其打包得非常好。例如，SageMaker Studio是一个很棒的数据科学工作台，企业数据科学团队可以轻松地加入，拥有他们需要的所有工具来分析一些数据并训练一些模型。

非常好。是的。那么，过渡是什么？为什么你从AI领域的软件转向硬件？是的，当然。在SageMaker的多年时间里，

像许多人一样，我看到了基础模型的重要性。很明显，客户将越来越多地使用基础模型，用于各种用例，但模型的大小也越来越大，它们消耗了如此多的资源。所以我，

建立了我们许多分布式训练功能。我们正在与客户一起运行分布式训练研讨会。我们正在进行加速器健康检查。我们正在开发托管集群，这导致了一项名为SageMaker HyperPod的服务，这是一项完全托管的

并行环境，用于建立集群。因此，当您想在AWS上训练和托管大型语言模型和大型基础模型时，SageMaker HyperPOD是一种非常简单的方法，可以拥有一个托管的Slurm环境，您可以进入该环境并利用优化的库，并拥有各种健康检查和集群管理工具

已经为您提供，而无需开发这些工具。所以通过这段旅程，我确信基础模型是AI的未来。但我也越来越看到基础设施是成败的关键。从客户的角度来看，一切都归结为

我能获得多少加速器？这些加速器的尺寸是多少？它们有多健康？我如何在这些加速器上高效地训练和托管我的模型？一旦我意识到这就是游戏规则，这就是客户的主要关注点，我就

我只是想深入研究一下，开发一个新的加速器需要什么？如何在它的顶部开发软件堆栈？然后如何通过云的其余部分公开它？从根本上说，我喜欢这个商业机会。考虑开发新的加速器并将其提供给客户，这确实令人兴奋。但技术问题也很有趣。就像

绝对是一件令人高兴的事情，坐下来思考，好吧，我该如何为此算法编写内核？我们如何设计这个整个工作负载的通信集体，例如在云上重塑ML技术堆栈的许多基础，这在我看来是最大的吸引力。

我很高兴地宣布，我的朋友们，第10届年度ODSC East（开放数据科学大会East），2025年您不容错过的唯一会议，将于5月13日至15日返回波士顿。我将在那里主持一个为期四小时的动手研讨会，主题是用Python设计和部署AI代理。

ODSC East为期三天，内容丰富，包括动手课程和对尖端AI主题的深入探讨，所有课程均由世界一流的AI专家讲授。此外，还有许多很棒的社交机会。ODSC East是我世界上最喜欢的会议。无论您的技能水平如何，ODSC East都将帮助您获得AI专业知识，从而将您的职业提升到一个新的水平。不要错过。在线特别折扣即将结束。访问odsc.com/boston了解更多信息。

哇。是的，你对它的真正热情确实显而易见。绝对的。所以你已经说了几次“加速器”这个词。我只是想消除歧义。也就是说，之前我说你会使用Tranium或Inferentia芯片来代替GPU，那是……

“加速器”这个术语适用于它，它是一个更广泛的术语，包括Tranium、Inferentia和GPU。这些都是不同类型的硬件加速器，在Tranium和Inferentia的情况下，它们专门用于神经网络，用于像席卷全球的大型语言模型那样的深度学习模型，这些模型让你兴奋地进入这个领域。它是硬件驱动的。从远处观察这是一个非常有趣的现象，科学进步，在如何建模科学方面的新的想法

它们并不一定发展得很快。例如，多年后的Transformer理念仍然是主要的范例。在某些时候，这可能会被取代，并且建立在深度学习的基础上，这似乎是一个更根深蒂固的范例，很难撼动。当你设计加速器时，这可能是一件好事，因为它意味着你有一些线性代数，一些矩阵乘法运算，你可以说，我们五年后可能仍在这样做。

但是，是的，听起来这是一个非常令人兴奋的工作领域。在你描述你对你的工作最兴奋的事情时，你提到一个术语，我必须承认我不太理解。所以我敢打赌，我们的许多观众也不太理解，那就是内核的概念。所以，当你谈到算法内核时，这是什么意思？

绝对的。从根本上说，内核是由用户定义的函数。当你在Python级别进行编程时，我们并没有真正这样考虑。我们定义的一切都是用户定义的。所以我们说，我写的一切都是用户定义的函数。

这种思维方式越深入计算堆栈，就越会失效。所以，如果你想在Tranium和Inferentia上运行一个程序，例如，发生这种情况的方式是，你用Python编写你的程序，你用PyTorch编写你的程序，

然后你将通过称为PyTorch XLA的东西进行编译。所以是加速线性代数。PyTorch XLA将要做的是，它将获取你定义的模型，并将其表示为一个图。

从本质上讲。所以你的模型的结构表示为一个图。我们称这个图为空白，高级操作。所以你得到了这个空白图，然后从本质上讲，我们在从XLA生成的这个空白图之间进行握手，然后将其馈送到我们编译器的顶部。所以我们维护一个编译器，它获取你从PyTorch和PyTorch XLA生成的图

我们通过各种算法和流程将其转换，最终生成直接在硬件上执行的指令集。那么什么是内核？内核是你覆盖编译器的地方

你可以使用我们的内核库自己定义芯片上的操作。我们的内核库称为NICI，即神经元内核接口。所以从根本上说，内核

是由用户定义的函数，而不是通过编译器生成的函数。现在，内核的大小种类繁多，对吧？所以你可以有一个非常简单的内核，就像一个hello world函数。它就像，嘿，我做了一个matmul或一个张量加法，对吧？这就像让软件工作并确保你的环境已准备好。

但是大多数人会在此基础上构建以定义一个完整的操作。所以你会定义你的模型的完整前向传递或完整反向传递，甚至只是一部分，例如，也许只是MLP的上投影或下投影。

然后你所做的是研究该内核的计算优化。例如，你想查看数据移动。你想查看，你知道，利用率。你想查看你的内存利用率、计算利用率。我知道你过去邀请过Ron参加节目。所以像Ron一样，你知道，教给我们和全世界关于计算优化的知识。我们在编写时会尝试应用这些知识，

开发我们的内核。所以我们研究工作负载的计算需求，并试图改进它。这就是编写内核的核心，

实现你正在尝试改进大型语言模型的算法，我们将其作为内核实现，以提高其性能。一个极好的解释。你是一位杰出的老师，我们实际上将在本期节目的后面讨论你一直在做的教育工作。你在这方面是一种鼓舞，但你天生就是一个很棒的解释者。那是90

99百分位数的关于技术概念的解释，我听过。所以感谢你对内核的介绍。如果人们对此感兴趣，Ron Diamant的这一集是本播客的第691集。也是一个关于技术概念的惊人解释者。所以如果你想在本集中了解很多内容，我们谈论了很多关于设计加速器的内容。我在这集中学到了很多东西。太棒了。事实上，

Ron在这个领域是一位如此杰出的人物，在神经信息处理系统（NeurIPS）上，可以说是世界上最负盛名的学术AI会议。我在12月在温哥华参加了会议，我在午餐或晚餐时遇到了一个新朋友，我不记得具体的背景了，但他们从事Tranium和Inferentia芯片的训练工作，我说，哦，我们节目上有一位来自这个领域的人。他说，是Ron吗？是的。

所以，是的。他绝对是这个领域具有标志性的人物。是的，太棒了。其中有很多内容，有些人可能想回顾一下以再次学习关于内核的内容。其中有一个术语

我可能会快速为听众定义一下。所以你很随意地提到了NLP，作为你可以在内核中实现的事情之一。所以我猜想多层感知器就是指这个。所以就像一个基本构建块一样，它就像

当你考虑构建深度学习网络时，多层感知器就像，它是一个早期的深度学习网络，但你也可以将其视为现在可以扩展到更大架构的东西。是的。考虑我们如何表示内核的数据实际上非常有趣。所以MLP本身是，

当你设计一个婴儿MLP或一个微型MLP时，在PyTorch中，这样做非常容易。定义你的张量、定义你想要执行的操作并调用它非常容易。从PyTorch的角度来看，就是这样。你的工作完成了。你创建了一个MLP。

但是当你考虑它的规模时，它就变得非常有趣了，当你想要扩展它时，当你想要缩小它时，但当你想要实际处理它时，当你想要运行你定义的操作的计算时。实际上，它很快就会变得非常具有挑战性。所以……

当我们定义内核时，当我们在Tranium中定义程序时，我们想要做的一部分是考虑我们如何表示数据，我们如何从PyTorch的角度构建数据。然后实际上，诀窍，游戏，是尝试优化数据表示并优化硬件的程序。我们想要尝试做的是选择

数据结构和算法中的设计，这些设计利用硬件的一些底层功能来最终获得最佳利用率和最佳性能。然后，一旦你有了某种硬件和软件程序，它们就像同步运行一样，并且使用相同的假设，就像

那时你才能真正扩展并获得出色的利用率，然后获得出色的性价比。这就是我们真正想要帮助客户实现的目标。很好。说到非常流行的深度学习库（如PyTorch）以及这些库与你的硬件、Trinium Inferentia加速器之间的交互，

有一个名为AWS Neuron SDK（软件开发工具包）的东西，它是这些AI芯片的SDK，用于训练和Inferentia。你能告诉我们AWS Neuron如何使构建者能够使用他们选择的框架（如PyTorch或JAX），而无需担心底层芯片架构吗？

是的，当然。所以Neuron SDK是我们用来涵盖各种工具的术语。这些工具从本质上讲是我们提供给开发人员的功能，以便他们可以轻松地利用Tranium和Inferentia。一些工具是真正底层的工具，例如运行时，

驱动程序、将所有内容整合在一起的编译器。有些工具则高级得多。例如Torch Neuron X，TNX，或者本质上是分布式NXT中的Neuron X。所以NXT实际上是主要建模库，对于客户来说非常有用，当你想训练模型并想在Tranium和Inferentia上托管模型时，NXT打包了

许多底层复杂性，并使客户可以轻松访问它们。例如，编译你的模型由NXT处理，你的模型的分片实际上。所以，

获取模型检查点，例如Llama或Pixar模型，然后将其分片到实例上可用的加速器中，NXT实际上为你处理模型分片，从数据角度来看。所以获取检查点本身并将检查点分成N个分片，然后是通信，

以及优化器更新和前向传递。所以NXD是一个非常非常全面的建模库。所以NXD不仅可用于实现你自己的模型，还可用于下载和运行模型。所以当你想要

获取预打包的内容并对其进行测试，例如对齐或监督微调或托管。您可以下载预构建的模型包并使用NXD运行它们，只需使用您的实验和更改即可运行它们。在这些情况下，应该很少有复杂性暴露给客户。

非常酷。我们将在节目说明中提供Neuron SDK的链接。人们可以进一步查看。但是，像往常一样，这是你出色解释技术内容能力的另一个很好的例子。谢谢。

根据你之前在SageMaker方面的经验，我们之前已经讨论过，Tranium和Inferentia是否也与SageMaker一起工作？就像SDK允许你使用你选择的框架一样，SageMaker是否很容易与Tranium和Inferentia在硬件方面融合？

是的，当然。我的意思是，你可以在Tranium上运行SageMaker Notebook实例，你可以在Tranium上运行SageMaker Studio。所以如果你想说，开发一个新的内核或测试NXD，你可以在SageMaker中非常轻松地将其作为开发环境来完成。我们还有许多模型

我们已经在NXT上支持了这些模型，我们将通过名为SageMaker Jumpstart的东西提供这些模型，SageMaker Jumpstart是一种机器学习模型和LLM的市场，这些模型是预打包的并且可用的。所以当SageMaker客户在SageMaker Studio中浏览时，他们可以点击一个按钮来下载模型，

但他们实际上并没有下载模型。发生的事情是他们通过市场、训练和托管基础设施访问模型。许多软件都是由SageMaker完全管理的。然后客户可以自带数据集。他们可以微调模型。他们可以通过SageMaker Jumpstart托管模型。所以这绝对与Tranium和Inferentia很好地集成在一起。

嘿，我是你的主持人John Krohn。我很高兴地宣布，在这个北半球的春天，我将推出我自己的数据科学咨询公司，一家名为Y Carrot的公司。如果你是一位熟悉Y-Hat的ML从业者，你可能会明白我们的名字。

但无论你是谁，如果你正在寻找一个团队，该团队将数十年的商业软件开发和机器学习经验与在所有尖端方法（包括Gen-AI、多代理系统和RANG）方面的国际认可的专业知识相结合，那么你已经找到了我们。我们在整个项目生命周期中拥有丰富的经验，从问题范围界定和概念验证

到高容量生产部署。如果你想成为我们的首批客户之一，请访问whycarrot.com，然后点击“与我们合作”，告诉我们我们如何提供帮助。再次说明，这是whycarrot，YC A R R O T .com。

非常好。是的，你一直在与客户密切合作以采用Tranium。所以它正在快速发展，这可能是因为Ron Diamant几年前参加过这个节目。毫无疑问，毫无疑问。事实上，像苹果这样的大公司，苹果去年加入了你的reInvent CEO主题演讲，谈论他们对Inferentia和另一个名为Graviton的芯片的使用，你将需要向我们解释一下。是的。

因为我们从未在节目中谈论过这个。但是，是的，他们谈到了他们对Inferentia和Graviton的使用，以及为什么他们对Tranium 2感到兴奋，这是我们还没有谈论过的另一个话题。

Emily Webber与Jon Krohn讨论她在亚马逊网络服务公司的工作，从其Annapurna Labs开发的Nitro系统（一种可以增强云安全性和性能的基础技术）到Trainium2成为AWS最强大的AI芯片，其计算能力是Trainium的四倍。了解AWS芯片的规格以及何时使用它们。更多资料：www.superdatascience.com/881本期节目由ODSC（开放数据科学大会）赞助。有兴趣赞助SuperDataScience播客节目吗？请发送电子邮件至[email protected]获取赞助信息。在本期节目中，你将了解： (08:36) Emily在AWS SageMaker和Trainium上的工作 (23:54) AWS Neuron如何让构建者定制他们使用框架的方法 (29:07) 为什么使用加速器比使用GPU更好 (35:29) AWS Trainium和AWS Trainium2之间的主要区别 (52:45) 如何在AWS Trainium和AWS Trainium2之间进行选择 </context> <raw_text>0 在本期节目中。那么，像苹果这样的客户正在尝试解决的一些最有趣的技术挑战是什么呢？让我们从这里开始。你可以告诉我们关于这个Graviton芯片、Tranium 2芯片的事情，也许这与我在整期节目中一直想问你的一个普遍问题有关，而且每次你给出另一个精彩的解释后，我都一直忘记了，那就是为什么有人，例如听众，应该考虑

考虑使用像Tranium和Inferentia这样的加速器而不是GPU？也许这是一个很好的问题，可以从这里开始。然后我会提醒你其他导致这个问题的一系列问题。听起来不错。谢谢。谢谢。是的。所以，我的意思是，从根本上说，在AWS，我们真的相信客户的选择。就像我们相信一个

我们相信一个云服务提供商，它使客户能够选择数据集、选择模型和选择加速硬件。我们认为客户拥有这种能力并拥有真正最佳的选择对消费者和客户来说都是最好的。所以从根本上说，这就是方向。

Annapurna Labs是一家很棒的公司。Annapurna Labs多年来一直在为AWS构建基础设施。所以Annapurna Labs是一家亚马逊在2015年收购的初创公司，主要目的是开发虚拟机管理程序。所以他们开发了所谓的Nitro系统。是的，我们会详细讨论。所以他们开发了，是的，这就像科技界最酷的故事，也是最不为人知的故事。所以这就是内幕消息。

所以在2015年，人们10年前使用云的方式是你有一个叫做虚拟机管理程序的东西。虚拟机管理程序本质上是一个巨大的单片软件系统，它管理所有服务器的整个主机。虚拟机管理程序系统的挑战在于

它使得为云进行创新变得非常困难，因为所有在服务器级别的控制、通信和数据都在这个叫做虚拟机管理程序的巨大单片事物中实现。

所以Annapurna有了一个疯狂的想法，那就是将你需要在物理层面扩展到云的虚拟机管理程序的部分解耦。所以他们开发了今天被称为Nitro系统的系统，它为诸如在实例上运行的数据与控制实例的通信等方面提供了物理隔离。

这就是AWS如何扩展以及AWS如何提供如此强大的安全保证的方式，因为在物理上存在两个不同的控制。有一个物理芯片或硬件系统的物理组件来管理数据。

客户数据，还有一个不同的物理控制来管理实例的治理。所以今天每个现代EC2实例都是基于Nitro系统构建的。所以Manifernal Labs的第一个主要发展就是Nitro。这就是Nitro，就像硝化甘油，N-I-T-R-O。N-I-T-R-O，是的。爆炸性的。是的，是的。

在Nitro系统之后，Annapurna开始开发他们的第二个主要产品线，那就是Graviton。

Graviton是Annapurna Labs开发的定制CPU，基于ARM架构的定制CPU。如果你观看了re:Invent，你看到的一个亮点是，今天进入AWS的新计算能力中有一半以上实际上是Graviton CPU。

哦，是的。所以当你查看AWS上的实例时，当你看到一个系列的末尾有一个小写字母G时，例如C6G甚至G5G，第二个G表示它是一个Graviton CPU。这意味着你将以非常具有竞争力的价格获得更好的性能。呃，

Graviton CPU是我们的第二个主要产品线。然后Tranium和Infrentia是Annapurna Labs的第三个主要产品类别，现在让我们把这个整体

我们在开发基础设施和跨AWS扩展基础设施方面创造的强大能力。让我们专注于AI ML。当然，Inferentia是在几年前开发出来的，并且，你知道，已经推出了一段时间了。Tranium 3是我们的第三代芯片。

所以它是AI ML的第三代加速器。这就是为什么这是一个如此令人兴奋的时刻，对吧？因为你看到了Annapurna多年来取得的广泛成果和令人难以置信的结果。现在这完全专注于。现在一个很大的重点是AI ML。

所以当客户利用这一点时，从根本上说，他们感兴趣是因为他们获得了价格性能的优势。最重要的是，这是高度优化的计算的优势，这种计算非常节能。Aperna非常擅长识别

识别改进领域，只需将成本从等式中剔除，降低复杂性，并将性能和成本节省返还给客户。

同时意味着性能，并且在许多情况下超过性能。所以TRM2实际上是AWS上最强大的AI ML EC2实例。当你查看我们看到的性能指标时，这是一个非常令人兴奋的时刻。对于客户来说这是一个令人兴奋的时刻，对于整个团队来说也是一个令人兴奋的时刻。Tranium2是AWS上最强大的。

正确。哇，这太酷了。那么第一代Tranium芯片和Tranium 2之间有哪些主要区别呢？这是自Ron在节目中讲述Tranium以来，自第691集以来几年前的新内容。所以……

它是否像一种或多种概念上的重大变化，导致了从Tranium 1到2的飞跃？还是一系列渐进式变化，共同结合起来在Tranium 2中拥有如此强大的功能和成本效益？

是的，当然。所以我们尽量让它对你来说更容易。我们让它对你更容易的方法是，核心计算引擎设计实际上并没有太大区别。特别是1代和2代之间的神经元核心本身几乎相同。

所以这样做的优点是，这意味着你为1代和2代编写的内核以及开发，嗯，建模代码可以说像NXT一样，非常容易从1代迁移到2代。最大的区别。我可以打断你一秒钟吗？听起来，你是在说TRN 1和TRN 2吗？这就像，这就像Tranium的缩写吗？是的。好的。好的。明白了。这也就是，这是……是的。是的。

名称的缩写，也是实例名称本身。对，对，对，对。是的，明白了，明白了，明白了。很好。是的，TRN1和TRN2。对于我的打断，我表示歉意。请继续。不用担心。是的，所以TRN1和TRN2之间的主要区别在于，在TRN2上，你的计算能力是它的4倍。是的，这是一个很大的数字。这是一个很大的数字。之所以会发生这种情况，是因为每张卡上的神经元核心数量增加了4倍。

每张卡。所以在1代中，你拥有两个神经元核心，它们一起打包在一张卡中。然后你有两个HBM内存单元。这就是加速器，它们的组合。

在2代中，你有8个神经元核心。所以只需乘以4。你有8个神经元核心，你有4个HBM内存单元，每张卡本身就有96GB的HBM容量。在整个实例上，你有16张这样的卡。

所以在整个实例上，你有1.5TB的HBM容量。然后我们给你一个UltraServer。所以UltraServer是你将四个2代实例

然后这些都组合在一个巨大的服务器中。所以我们这样说的原因是，它是两个机架，四个服务器，然后是64张通过Neuron Link（我们的芯片到芯片互连）连接的卡。

这样一来，从一张卡到任何其他卡的跳数至少为两跳。当你进行像，嗯，在一个单一的1代实例上进行神经元顶部或神经元LS时，它会显示给你128个可训练的加速器，因为你的单个实例上有128个神经元核心。嗯，

我们实际上有一种对它们进行分组的方法。你可以根据我们所说的逻辑神经元核心对它们进行分组，这很酷，因为你可以根据工作负载更改所需的加速器大小，我认为这很有趣。

然后，是的，所有这些都被打包到这个巨大的超级服务器中。如果你观看了re:Invent，Peter DeSantis实际上在舞台上推出了一台超级服务器，嗯，并且花了他的大部分主题演讲时间来谈论它。它，它，它是一个如此令人敬畏的时刻。嗯，但是超级服务器是，

毫无疑问是在AWS上训练和托管最大语言模型的最佳方式。你拥有最强大的实例，以一种真正引人注目、创新的方式组合在一起，连接所有核心，并使它们非常易于训练和托管，同时最大限度地减少主机之间所需的跳数，因为它们在逻辑上都是一个服务器。所以超级服务器非常酷。

超级服务器听起来确实很酷。我可能会在这个问题上让你难堪，但是，比如说，一个大型语言模型有多少模型参数，你可以放在一个超级服务器上？是的。说实话，这是一个很难回答的问题，因为你可以放很多

但是，我的意思是，实际上你并不想最大限度地利用内存。实际上，你想给自己留出空间，比如你的批量大小、优化器、适配器。如果你正在训练它，你会想要多个副本，对于非常大的东西来说也是如此。如果你正在托管它，

你也会想要多个副本，因为你同时响应许多不同的用户。所以实际上这是一个非常复杂的问题，并且高度依赖于用例。但是我们使用的经验法则是，它不是能容纳多少，而是对于正常的用例来说实际上是什么。所以对于正常的用例，参数在700亿范围内的语言模型，

我们推荐它们用于1代。1代是对于那些不是巨型但仍然相当大的语言模型来说的一个不错的选择。1代为你提供了具有竞争力和强大的计算能力来训练和托管这些模型。参数远大于此的语言模型

转到2代。无论如何，去玩一个超级服务器，看看你能用它做什么。再说一次，我喜欢这个堆栈的原因是，NXD为你提供了与编译器的连接。所以当你用NXD实现你的建模代码时，通过

默认情况下，你会获得与神经元编译器和所有底层XLA优势的良好同步。但我们也会为你分片模型。所以当你想要尝试不同的TP度时，比如你想在1代上尝试TP度为8，但在2代上，你想尝试TP32、TP64和TP128，因为为什么不呢？并看看会发生什么。就像，

NXD使这样做变得非常容易，因为你只需要更改程序顶部的参数，然后就可以分片你的检查点本身并重新定义你的分布方法。所以，是的，NXD为你处理所有这些，我非常喜欢这一点。

你是否曾经感到孤立，被那些不分享你对数据科学和技术的热情的人包围？你是否希望与更多志同道合的人联系？别再犹豫了。Super Data Science社区是连接、互动和与600多名数据科学、机器学习和人工智能专业人士交流想法的理想场所。除了人脉网络之外，你还可以通过导师计划获得直接的职业支持，经验丰富的成员帮助初学者在职业道路上找到方向。

无论你是在寻求学习、合作还是提升职业生涯，我们的社区都能帮助你取得成功。加入Kirill、Adelant、我和数百名每天都联系的其他成员。立即开始你的免费14天试用，网址为superdatascience.com，成为社区的一员。很好。所以为了向我们的听众定义TP8、TP32、TP64的概念，它是这些模型参数的数字精度，对吗？是的。

不是。哦，不是？是的，不是。我所说的TP是指张量并行度。哦。所以有多少核心或多少，是的，有多少神经元核心你会用来托管一个神经元

例如，你的张量的副本。所以如果你正在进行TP为8，这意味着他们将消耗8个神经元核心来使用你的张量进行操作X。如果你正在进行TP为32，这意味着你将把你的模型分片到这32个神经元核心上。

在数据类型世界中，你会想到FP32、BF16和INT8之类的东西。我知道它们很相似，但含义却大相径庭。我说的是为我们的听众定义，但我最终的意思是为我自己定义。所以告诉我这个。所以这个TPA，TP32，你刚才解释的，我为什么要进行这些更改，进行这些更改会产生什么影响？

是的，当然。所以它的影响相当大。它对集体操作的影响很大。实际上，它会影响你的工作负载在全归约、例如减少散射或收集散射中花费的时间。所以这些是这些集体操作

支持你定义的程序并支持你的模型。它们在所有核心之间进行通信并收集信息。所以当你定期运行分布式训练和托管时，你会使用集体操作。了解这些集体操作对你计算的影响非常重要，当你分析你的工作负载并试图改进它时。所以，是的，

当你尝试不同的TP度时，它可以提高性能，也可能降低性能，因为集体操作的影响、对内存的影响，它会影响你可以容纳的批量大小，它会影响你的整体步长时间等等。

这就是为什么能够轻松测试不同的TP度很有帮助的原因。同样在2代中，因为你拥有这个

像LNC功能，逻辑神经元核心功能，它允许你根据以一组为单位进行分组（即LNC1）或以两组为单位进行分组（即LNC2）来逻辑地更改加速器的大小。这样做的结果实际上是减少了程序可用的加速器总数。

所以在2代中，LNC为1会向你的程序显示128个可训练设备或可用设备。但是当你将LNC设置为2时，数量就会减少。所以不是128，而是64个LNC。

它使它，你知道，在HBM带宽方面稍微更容易获得。像内存单元显然不会保持不变。我的意思是，内存单元在物理上保持不变。在这两种设置之间，硬件根本没有变化，但它会改变程序每个核心可用的数量。所以它，你知道，像这样的更改和修改让你，嗯，

你知道，在你的程序和工作负载中找到最佳平衡，同时通过NXT轻松地进行实验。我明白了。所以这些配置参数，如TP度，呃，

当我们处理一个巨大的大型语言模型时，它分布在许多不同的加速器、许多不同的计算节点上，这些类型的配置参数，如TP度，需要进行配置，以便为你的模型和你使用它的情况找出最佳配置。完全正确。

每秒可以获得多少个标记？你的第一个标记的时间是多少？你如何通过，你知道，减少资源来降低你的整体成本，但仍然能够，你知道，一次响应多个响应。所以当我们试图找到合适的实例并试图找到合适的实例设置时，我们需要考虑所有这些问题。非常酷。好了，现在我们非常了解为什么

Tranium芯片或Tranium 2芯片在听众考虑训练大型语言模型时可能是显而易见的选择，而Inferentia在部署大型语言模型时可能是显而易见的选择。给我们一些你已经拥有的客户的真实案例，他们能够有效地利用这些芯片。

是的，当然。所以我们的旗舰客户示例当然是Anthropic。Anthropic长期以来一直是Trayman和Forentia的活跃开发商和客户。所以这种合作关系非常出色。Anthropic是一个伟大的团队。支持他们作为客户是一种绝对的荣幸。我们正在

我们正在一起开发一些大型项目。我不知道你是否听说过Rainier项目。但是Rainier是一个绝对巨大的集群，我们正在与Anthropic合作开发，显然使用了最先进的terranium卡和实例。所以它只是……

这仅仅是与他们一起创新的乐趣。所以Anthropic是一个很好的例子。

太棒了，是的。他们当然是最前沿的AI领导者之一。对我个人来说，你可能不知道，Emily，经常收听节目的听众可能知道，我日常使用的大多数用例的首选大型语言模型是Claude。已经有一段时间了。所以是的，喜欢Anthropic。而且我毫不惊讶地听到那里有聪明的人在处理像Rainier项目这样的大问题。完全正确。

对于我们世界各地的听众来说，Rainier山是华盛顿州的一座大山，而不是华盛顿特区。是的。那是正确的。但是是的，不。然后，显然我们拥有来自各行各业的客户。所以Anthropic，你知道，是一个如此重要的客户。我们也与初创公司合作。所以我们与像Arcee这样的初创公司合作，

或者Ninja Tech正在训练和托管小型语言模型。在小型语言模型领域，这对客户来说令人兴奋，因为我们的价格性能和整体可用性非常有吸引力。他们喜欢他们获得的益处。他们喜欢价格。他们喜欢性能。他们喜欢模型。他们喜欢软件堆栈。所以我们确实在那里看到了一些巨大的进步。

我们还看到像Databricks这样的客户。我们正在与Databricks进行一些大型项目。不是小型初创公司。不是小型初创公司。是的，是的。不，我们正在与Databricks进行一些伟大的工作。然后现在我们正在通过Build on Tranium扩展到学术界。酷。Build on Tranium计划是什么？

是的。所以Build on Trinium是我们正在运行的一个信用计划，我们正在向从事AI未来工作的学者提供1.1亿美元的信用额度。

所以从根本上说，这是大学、学者、PI（首席研究员）向我们提交关于他们重大想法的研究想法的一种方式。我们想知道他们已经在Tranium上测试了什么，他们的早期建模和早期内核结果是什么。然后我们正在与他们一起扩展这些结果。

在一个最多包含40,000张1代卡的集群上。我们有一个非常重要的集群可供研究人员使用，呃，用于世界上最好的项目。所以，嗯，

是的，这是一个大型项目，当然。我们已经为此工作了相当长的时间。听起来确实很酷。我们将在节目说明中提供Build on Training计划的链接，供那些希望利用AWS提供的这个1.1亿美元计划的学术听众使用。

我还想强调另一个我了解的Tranium和Inferentia芯片的客户，那就是Poolside。我知道这一点是因为在第754集中，我们邀请了Poolside的首席执行官Jason Warner参加节目。这是一家非常酷的初创公司。它还没有Databricks那么大，但是

但是Poolside，他们正在尝试从软件、代码生成的视角来解决人工通用智能问题。Jason在第754集中提出了一些令人信服的论点，说明这可能是可行的。所以这是一个值得强调的酷炫剧集，也是另一个Tranium Inferentia客户。

绝对的。我们对Poolside的合作关系感到非常兴奋。当你试图弄清楚哪个实例是正确的时候，我们已经讨论了TRN1、TRN2，

Tranium，抱歉，Inferentia芯片。AWS上还有其他类型的实例可用。你如何为特定的机器学习任务选择合适的实例类型？是的，当然。所以当然，当你，让我们假设我们目前处于Tranium和Inferentia领域。所以当你在这个领域时，我的意思是，你确实有一些问题。显然，

我们有两条产品线，Tranium和Infrentia。但是神经元核心本身，就像基本加速单元一样，是相同的。实际上，神经元核心是相同的。软件堆栈也是相同的。所以你可以混合搭配，来回切换。良好的兼容性。

两者之间的区别在于实例拓扑结构的配置不同。对于1代，我们假设你将进行训练。所以我们将卡连接到所谓的环形拓扑结构或4D环形拓扑结构中，这意味着卡彼此连接。

以一种你可以轻松进行反向传递的方式。你可以轻松地收集所有卡的结果，然后更新优化器状态。所以卡之间的连接性更适合复杂的反向传递。

而在Inferentia系列中，同样是相同的神经元核心，但拓扑结构更适合于正向传递。所以当你研究架构时，你会看到

例如，你只有一行卡。它不是这个4D拓扑结构。它更适合于获取一个大型张量，在一个集群上分片一个大型张量，然后进行正向传递。这就是一些区别。另一个区别在于，在Inferentia中，

你有更多选择。你有很多不同的实例大小选项，包括你想要多少加速器，以及由此产生的HBM容量，

而在Tranium中，它的大小要么非常小，要么非常大。这就是为什么我们看到，你知道，在训练中有一个很好的好处，你使用单个，你知道，1代进行小型开发，然后将其扩展到，你知道，一个大型实例，然后尽可能多的实例。你并不真正需要这种灵活性。而在Inferentia中，你

你可能想要托管你的70亿或110亿参数模型，它不会有相同的计算需求。很好，这就像本期节目中的其他解释一样，是一个很好的解释。实际上，说到你的精彩解释，你确实有

有教育背景。我在节目的开头提到过，我们会讨论你做的一些教育方面的事情。例如，你写了一本名为《Python中的预训练视觉和大型语言模型》的大型15章书籍。它还有一个很好的副标题，即《在AWS上构建和部署基础模型的端到端技术》。简短的标题是《Python中的预训练视觉和LLM》。

所以这是一本大型的15章书籍。你也是一名兼职教授和初创企业导师。你创建了一个名为《AWS上的生成式AI基础》的课程。我们也将在节目说明中提供该课程的链接。当我把所有这些放在一起时，

为我们的听众提供背景信息，你参与我们之前讨论过的Build on Tranium学术计划可能完全不足为奇，因为这涉及到像加州大学伯克利分校、卡内基梅隆大学、德克萨斯大学奥斯汀分校和牛津大学这样的优秀研究型大学。所以，

非常，非常酷。我认为这是来自我们研究员Serge Massis的，他总是从我们嘉宾的背景中提取出非常有趣的部分。我引用了你在瑞士机器学习会议AMLD上说过的一句话，你讲述了意大利文艺复兴时期诗人弗朗切斯科·彼特拉克的故事。

以及这个故事与AI开发项目的关系。你能详细说明一下这个故事以及它如何影响你不仅对AI开发，而且对AI教育的努力吗？

当然。是的。有很多东西需要解释。让我们一步一步地来。嗯，再次声明，因为我没有计算机科学的本科学位，呃，我没有计算机科学的博士学位，我没有那个机会。我觉得我不得不自学很多东西。呃，显然我已经有了，你知道，杰出的导师，并且在推动我的杰出团队中工作，嗯，与推动我的杰出客户一起工作。嗯，

我喜欢技术的原因，我喜欢软件的原因是，在软件中，如果你构建它，你就可以理解它。至少我觉得是这样。无论事情多么复杂。

我是否没有上过那门课重要吗？我是否没有获得……方面的博士学位重要吗？如果我可以编写代码，我可以说服自己，我可能能够理解正在发生的事情。所以从这个角度来看，这就是我教学的角度，因为我理解我们生活在一个并非每个人都拥有他们可能希望拥有的每一个机会的世界中。但无论如何，我们都在这里，我们正在尽我们所能。

所以我喜欢教学，因为我喜欢把那些我很难理解、很难向自己解释的事情拿出来。但正因为具有挑战性，我才能找到一种方法来简化它。并且

我喜欢与他人分享这些，因为我知道这简化了他们的旅程，简化了他们的道路，当然也简化了他们在 AWS 上使用我自己的技术栈的体验。所以，我想，这种精神我一直都很喜欢。我一直都很喜欢。所以教育也是我喜欢的原因之一。这是一种扩展规模并帮助他人成长的方式。所以我真的很享受。是的。

我想谈谈彼特拉克的观点。我很高兴这个话题被提出来。有时候，你发布在互联网上的东西后来会以意想不到的方式出现，这真是太棒了。

我也是个人文主义者。我喜欢这个世界上很多东西。我喜欢艺术，我喜欢艺术史，我喜欢哲学，我喜欢以以前从未想过的方式思考问题。所以我这么做的原因是，我当时正在准备……

做一个特邀演讲，就像是在瑞士的一个会议上做特邀主题演讲一样。那是在大型语言模型刚刚开始流行，基础模型也刚刚开始流行的时候。所以我想找一句关于智力的精彩引言，让它听起来与当时的文化背景相符。所以我认为彼特拉克的引言会很好。所以我找到了一些关于……

人类智慧及其影响的精彩语句。有趣的是，我们生活在一个需要谈论人类智慧的重要性，需要谈论它是一个重要的事情的世界里。我不知道，我看到，在大型语言模型领域和通用人工智能领域发生了很多事情，我想，别误会我的意思，我当然完全支持扩展计算机的规模，并开发人工智能，但我同样非常关心人类智慧。嗯……

在我自己的生活中，把保持自己的智力作为目标，我发现这非常有价值。在我团队和同事的生活中，我也发现这很有价值。就像我们需要在发展机器智能的同时，继续发展我们自身的智能一样。

但这两者之间的平衡，我真的很享受，而且我觉得考虑这个问题很有趣。嗯，人工智能是为人类服务的，支持我们的智慧，以及我们的……

作为个人和作为社会，这实际上是本节目最近两集的主题。所以我们有两集主要致力于这种想法，分别是第 869 集和第 873 集，分别与 Varun Godbole 和 Natalie Monbaio 进行了访谈。是的，似乎，这正是我开始思考的事情。在录制节目的同时，我正在准备一个沿途的主题演讲……

这些主题也是如此。是的，我认为这里面有一些特别的东西。在我进入总结性问题之前，我最后一个技术问题是，Emily，你对接下来会发生什么的见解。显然，这是一个快速发展的领域，但你就在它的核心。他们正在研究像 Tranium 和 Inferentia 这样的硬件。那么，接下来会发生什么？是的，当然。我认为，五年前，这是一个问题，毫无疑问，大型语言模型将继续存在。这很清楚。如何……

这些模型将如何继续集成到应用程序中，它们的性质，它们的微调，构建在其上的自主系统，它们的预训练，它们的数据集选择，它们的评估。所有这些都会改变。所有这些都在变化中。所有这些都会发展。有一段时间，尤其是在我从事 SageMaker 工作期间，我看到……

随着时间的推移，将尽可能多的知识融入模型中变得非常有意义。它简化了开发团队的工作量，简化了数据管理的工作量，简化了应用程序管理的工作量。所以我认为你会继续看到人们尝试将知识融入大型语言模型的各种方法，比如在预训练阶段将知识融入大型语言模型，对吧？当你从头开始创建基础模型时。

当你进行监督微调以教它如何遵循命令时，你会这样做。当你调整语言模型以执行复杂的推理时，你会这样做。当你设计你的 RAG 系统时，你会这样做。当你设计你的自主系统时，你会这样做。但实际上，所有这些与神经网络本身的内容相比，都只是枝节问题。

所以我认为你会继续看到这种协同作用，人们在自主系统层面解决问题，然后被他们的 reg 吸收，被预训练吸收，被数据集本身吸收。然后，显然，硬件将继续发展。我们有很多……

在商店里，嗯，三层在重新发明时被预先宣布，三层正在到来，嗯，我们才刚刚开始，你会从训练和前面看到什么，是的，嗯，与 Nikki 与 Bill 合作进行训练，敬请期待，嗯，但就大型语言模型本身而言，就像……

是的，很多事情将继续如此。但它也，你知道，这有点令人鼓舞，因为核心问题是一样的。每个人仍然试图尽其所能地训练他们的模型，并找出如何最好地托管它，以及如何最好地对其进行推理，就像……

这并没有改变。我不认为这会改变。但现在，重点显然是语言模型，以及如何以最有效的方式、最好的结果、最好的结果组合来做到这一点。所以我认为在这个领域你会继续看到很多东西。精彩的回答。谢谢。有很多值得期待的东西。当然，这是由硬件驱动的。这就是现在正在发生的事情。

太棒了。Emily，这是一集精彩的节目。我学到了很多东西。我为我们的节目笔记记下了可能创纪录数量的链接，我将不得不，比如术语，人们在节目结束后可以深入研究的有趣术语。所以显然，本集中传达了大量的具体信息……

有用的内容。非常感谢。在你离开之前，我总是会向我的客人推荐一本书。是的！所以……

我今天实际上收到了亚马逊送来的这本书。我不知道这是否能传达出来。它可能传达不出来。我们的大多数听众只是听众。有一些 YouTube 观众。Emily 将亚马逊送来的书举到摄像机前。

这本书的标题是什么？是的。这本书叫做《为无声者发声》，是达赖喇嘛尊者写的。嗯……

我提到过，你知道，我喜欢冥想，我是一个佛教修行者。所以，当然，我喜欢阅读，你知道，就个人而言，我喜欢阅读达赖喇嘛尊者的著作。所以我非常期待阅读这本书，阅读它，并与他的……

挣扎，以及他的智慧产生共鸣。你知道，我认为达赖喇嘛尊者在将智慧与现代的同情心结合起来的同时，也坚持了他血统的力量，做得非常出色。所以我非常期待阅读这本书，并且我会根据这个基础初步推荐它。不错的推荐。我相信这是一本非凡的书。我过去读过达赖喇嘛尊者写的书。我读过《敞开的心》……

几年前，我认为很棒。它，呃，包括一些关于冥想的入门技巧。嗯，我已经，我已经冥想几年了，但里面有一些很棒的提示，还有一些很棒的人生建议。他似乎是一位智者。如果读他的书，他就是一个智者制造者。的确，的确。嗯……

他会，是的，他会让他的读者成为智者。嗯，就是这样。一个不错的 AWS 笑话。嗯，Emily。那么，在这集节目之后，我们如何关注你呢？是的，当然。欢迎你在 LinkedIn 上关注我。我会警告你，我在社交媒体上并不活跃。你怎么可能以佛教为中心并在社交媒体上活跃？这两者是不相容的。是的。

我不是说它们不相容。我只是在社交媒体上不那么活跃。我敢打赌这会让它更难。但是，是的，你是我做过的第一个播客。不。是真的。是真的。所以我很高兴打破我的播客泡沫。是的，在 LinkedIn 上关注我，但在 GitHub 上。我在 GitHub 上非常活跃。就是这样。我忘了提到这一点。在……

所以对于构建和 Tranium，呃……

我们刚刚结束了一场竞赛。所以我们向能够开发出最快 Niki Llama 的顶级团队提供 25,000 美元的现金奖励，这是使用 Niki 开发的最快 Llama 实现。所以比赛结束了，但我完全期待类似的项目再次出现。所以一定要继续关注更多信息。

但是，是的，我在 GitHub 上非常活跃。当你遇到 Neuron SDK 或 Nikki SDK 中的问题时，随时可以标记我。我会回复你。你知道，向我展示你的内核。我很想看看人们的工作。是的，让我们开始构建吧。

用 Werner Vogels 的话来说。还要提醒一下，我们在节目早期谈到了 NICI，但它是 N-K-I，Neuron Kernel Interface（神经元内核接口）。我也会在节目笔记中添加一个链接。太棒了。谢谢，John。谢谢你，Emily，抽出时间来。我很高兴你能参加你的第一次播客节目。你很自然，每个播客都应该邀请你。我甚至不在乎他们是否从事数据科学，只要能解释一些关于世界的美好事物。谢谢你，Emily。

谢谢你，Jim。与 Emily Weber 一起进行的这集节目非常有趣。她讲述了她的冥想和佛教修行背景如何为她提供了心理工具，帮助她在计算机科学领域取得优异成绩，培养了专注和冷静的解决问题的能力。

她谈到了由 Annapurna Labs 开发的 Nitro 系统，该系统于 2015 年被亚马逊收购，它在云基础设施中物理地分离数据和实例控制，从而提高了安全性和平滑性。她谈到了 Build on Tranium 计划是如何成为 AWS 的 1.1 亿美元投资计划，为在伯克利、卡内基梅隆大学、德克萨斯大学奥斯汀分校和牛津大学等机构从事尖端人工智能研究的学术研究人员提供云积分。

她谈到了 Tranium 2 如何提供比 Tranium 1 高 4 倍的计算能力，每张卡有 8 个神经元内核而不是 2 个，每个实例有 1.5 TB 的高带宽内存容量。

她谈到了 AWS Neuron SDK 如何帮助开发人员通过 NXD 等工具轻松优化和部署 Tranium 和 Inferentia 芯片上的模型，NXD 处理跨加速器的模型分片。她还谈到了诸如 TP（张量并行度）之类的硬件设计决策，这些决策会严重影响模型训练和推理效率，需要针对特定工作负载进行仔细优化。

与往常一样，你可以在 superdatascience.com/881 获取所有节目笔记，包括本集的文字记录、视频录制、节目中提到的任何材料、Emily 的社交媒体资料的网址以及我自己的网址。

如果你想亲自与我互动，而不是仅仅通过社交媒体，我很乐意在 5 月 13 日至 15 日在波士顿举行的开放数据科学大会 ODSC East 上与你见面。我将主持主题演讲，并与我的老朋友和同事、非凡的 Ed Donner 一起，提供为期四小时的 Python 实操培训，演示如何为现实生活中的应用程序设计、训练和部署尖端多智能体 AI 系统。

是的，我们也可以在那里一起喝杯啤酒或其他什么。当然，感谢 Super Data Science Podcast 团队的所有成员，我们的播客经理 Sonia Breivich，媒体编辑 Mario Pombo，合作伙伴经理 Natalie Zheisky，研究员 Serge Massis，撰稿人 Zahra Karche 博士，以及我们的创始人 Kirill Aromenko。感谢他们为我们制作了另一集精彩的节目。

感谢他们让超级团队能够为你创建这个免费播客。我们非常感谢我们的赞助商。你可以通过查看我们的赞助商链接来支持该节目，这些链接在节目笔记中。如果你自己有兴趣赞助一集节目，你可以通过访问 johnkrone.com/podcast 获取详细信息。

好了。与可能喜欢分享的人分享这集节目。在你最喜欢的播客应用程序上评价这集节目。我认为这有助于我们宣传我们的节目。如果你还不是订阅者，请订阅。随意将我们的视频编辑成短片或任何你喜欢的形式。只需提及我们即可。但最重要的是……

继续收听。我很感激你的收听，并希望我能够继续制作你多年来喜爱的节目。直到下次，继续在外面摇滚吧，我期待着很快与你一起享受下一轮 Super Data Science Podcast。

881: Beyond GPUs: The Power of Custom AI Accelerators, with Emily Webber 01:17:06 Share

Super Data Science: ML & AI Podcast with Jon Krohn

Deep Dive

Shownotes Transcript

881: Beyond GPUs: The Power of Custom AI Accelerators, with Emily Webber