We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 886: In Case You Missed it In April 2025

886: In Case You Missed it In April 2025

2025/5/9
logo of podcast Super Data Science: ML & AI Podcast with Jon Krohn

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive Transcript
People
S
Sharish Gupta
Topics
Sama Bali: 我将首先介绍 NVIDIA AI Enterprise,这是一个端到端的 AI 软件开发平台,它不仅可以加速数据科学流程,还可以帮助构建下一代 AI 应用。它包含 NIM 微服务,这是一种将各种 AI 模型作为容器化微服务交付的方式,方便开发者快速切换模型。此外,它还包含 Nemo、AI Blueprints 和 CUDA 库等组件,以加速 AI 应用开发和推理。CUDA 库,例如 Rapids 和 QML,可以显著加速数据科学任务。 Emily Weber: AWS 致力于为客户提供选择,包括在加速硬件方面。Annapurna Labs 开发的 Graviton CPU 和 Trainium 2 芯片是 AWS 在 AI/ML 领域的重要产品,提供高性能、高性价比和高能效的计算能力。Trainium 2 是 AWS 上最强大的 AI/ML EC2 实例。 Greg Michelson: Zerve 通过内置的 API 构建器和 GPU 管理器,降低了 AI 模型部署的难度,使数据科学家能够更轻松地将模型部署到生产环境中,无需依赖软件工程师。它处理了依赖项管理、模型序列化和基础设施问题,使数据科学家能够专注于模型构建。 Sharish Gupta: 使用人工智能个人电脑 (AIPC) 进行本地推理比依赖云计算具有诸多优势,AIPC 具有加速、个性化、私密和低成本等特点,适用于各种应用场景。AIPC 可以降低延迟,提高性能,保护数据隐私,并降低成本。

Deep Dive

Shownotes Transcript

这是第 886 集,我们 4 月份的“你可能错过了”节目。欢迎回到超级数据科学播客。我是你的主持人 Jon Krohn。这是一期“你可能错过了”的节目,重点介绍了过去一个月我们在节目中进行的最佳对话。

我们本月的 ICYMI(如果你错过了)从 Sama Bali 和 Logan Lawler 开始。Sama 来自 NVIDIA,Logan 来自 Dell。在第 883 集中,我问他们关于 CUDA 等库的问题,这些库构成了 NVIDIA GPU 上的 AI 软件堆栈。我喜欢 Sama 带我走的那条风景优美的路线,因为它将许多 AI 和新兴技术中的新概念都融合在了一起。

在这里,她谈到了 Nvidia 的新软件和服务以及它们如何互连。我想回到大约那个时候的 Nvidia 故事,以及 Nvidia 所做的事情的远见卓识,这反映在他们的股价中。

是这样的想法,好吧,深度学习将会非常庞大,或者让我们假设深度学习将会非常庞大。因此,让我们构建一个软件生态系统,回到你之前提到的观点,Sama,它支持这一点。所以,是的,所以告诉我们关于 CUDA、TensorRT 的一些信息,也许是一些历史以及为什么它们在这个 GPU 生态系统和这个 AI 时代如此重要。

是的。我实际上要先从 NVIDIA AI Enterprise 开始,对吧?只是补充说明我们如何做事情,特别是使用 Dell Pro Max AI PC。所以,将 NVIDIA AI Enterprise 视为我们的端到端 AI 版本

软件开发平台,它不仅可以帮助您加速数据科学管道,还可以真正帮助您构建下一代。它可以是生成式 AI 应用程序。它可以是计算机视觉应用程序。它可以是语音 AI 应用程序。它有很多组件。我们有 NIM 微服务。这是

我们如何将各种 AI 模型作为容器化微服务交付的方式。所以,从字面上看,想想世界上任何其他 AI 模型。我们与开源合作伙伴、专有合作伙伴合作。我们也有我们自己的 NVIDIA AI 模型。我们将这些 AI 模型中的每一个都放入容器中,然后添加我们的,你知道的,

我不会说秘密武器,因为每个人都知道 Tensor 或 TLLM 和各种服务,这些服务确实可以帮助您在 NVIDIA GPU 上获得最佳推理效果。我们将其作为微服务提供。原因是,您很快就会从 NVIDIA 的角度看到这一点,我们几乎将所有 AI 软件都作为微服务提供,因为

情况变化很快。我今天是一位开发人员,使用 Lama 3 构建了一个应用程序,猜猜怎么了?两个月后,Lama 3.1 推出,再过两个月,3.2 推出。因此,我们希望让人们能够非常非常轻松地尽可能快地交换模型,而不会真正中断整个管道。

所以这就是 NIM 微服务。我们已经获得了各种模型,如果您想构建一个数字人,实际上是构建与语音相关的应用程序,现在我们也有用于推理 AI 模型的 NIM 微服务。所以这是 NVIDIA AI Enterprise 的第一个组成部分。很快,在……之前

对于你们俩,以及我们的许多听众来说,微服务是什么,这将是显而易见的。但是,您可以为不知道的听众定义一下,以便他们了解它是什么以及为什么它很重要,为什么它有帮助吗?我实际上没有微服务的定义。我不会给你一个教科书式的定义,但我会给你一个实际的定义,对吧?酷。假设您是一位数据科学家,并且您已经创建了……

让我们假设一个使用 llama 3 的聊天机器人,您在没有微服务、没有 NVIDIA NIM 的情况下创建它。就像创伤所说的那样,每次该模型更新任何内容时,如果存在安全问题,所有这些东西,您都在做大量(我讨厌这么说)繁琐的后台工作才能将其部署到某个点。

当事情发生变化时,例如,如果您不喜欢,NIM 微服务的重点在于,您基本上可以用一行代码加载它,并且它的 LLM 部分已经为您完成了。它是容器化的,打包好的,随时可以使用。因此,数据科学家可以专注于,好吧,我将如何自定义它或在其周围构建任何应用程序包装器,而不是像,“哦,我需要在这里更新代码才能使其连接”。这就是 NIM 的重点所在

我可以用一行代码多快地利用 LM 视觉模型的力量,这就是 NIM 的力量。

它也可以在工作站上运行。它可以在 Dell Pro Max 服务器上运行。它几乎可以在任何地方运行。是的,那将是我的观点,关键点是使用这些 NIM 微服务,您不必确保 AI 模型已调整到 GPU,对吧?我们已经为您完成了所有这些工作。因此,一旦您在 Dell Pro Max PC 上本地下载它,它就已经了解它正在运行的 GPU 类型了。您唯一需要确保的是

你知道,您下载的模型适合您的 GPU 内存大小,但是有了 96 GB 的内存,您就拥有了整个世界。很好。所以在我说话的时候,我一直试图快速在线查找 NIM 的含义。我似乎找不到任何我能轻松找到的含义。它听起来就像,哦,我要泄露秘密了。它实际上代表 NVIDIA 推理微服务,但我们也使用 NIM 微服务。这就像奶茶一样。

它们的意思相同。土豆土豆。土豆品牌土豆。没错。奶酪 queso。我会这么说。我去餐馆,我会说,我想要奶酪 queso。然后我的妻子总是为难我。但是,是的,奶酪 queso。很好。是的,我现在完全明白了。感谢您给我们提供这些见解。这很有趣。它不是,它不是公开的东西。所以人们真的正在获得 NIM 的内部信息。是的,对于我们的听众来说,它的拼写是 N-I-M,

想知道我们正在说哪个词的人。它听起来就像那样。我全部大写。当然,我会在节目说明中添加指向它的链接。无论如何,我打断了你。哦,继续。哦,我还在谈论 NIM 微服务这个话题。我要说的是,我们有一个名为 build.nvidia.com 的网站。我们在这里托管所有这些 NIM 微服务。

这是一个很好的网站,不仅可以尝试这些不同类型的 AI 模型。您可以在网站本身进行原型设计。完全免费。您可以看到各种合作伙伴(包括 NVIDIA 模型)的模型。它们按您使用的行业或您尝试构建的用例进行分类。因此,很容易在周围移动,找到您想要使用的确切模型。

然后,一旦您想下载它,我们已经简化了它。因此,如果您真的注册了我们的 NVIDIA 开发者计划,我们实际上允许您下载这些模型,然后继续进行测试、实验,完全免费。完全没有费用。所以你可以继续。作为一名开发人员,我想尝试不同的模型,看看什么适合我的……

所以我们也喜欢这样做。太棒了。这是一个很好的总结。我要说的是,我很高兴你对 NIM 微服务有更多要说的话,因为我的过渡将是上次我打断你时,我认为你即将开始谈论 AI 企业的其他方面。所以现在我让你继续说。

因此,除了微服务之外,我们还有 Nemo,它可以真正帮助您构建、训练、微调您自己的模型,还可以让您为模型添加护栏,以便在部署应用程序时,您可以确保应用程序完全按照您想要的方式使用。我们有 AI 蓝图。将这些视为参考 AI 工作流程。所以

我们使您能够构建不同类型的 AI 应用程序。所以我们给您,将其视为食谱。您有逐步构建应用程序的过程。有一个参考架构过程。

但我们也使您能够向其中添加自己的数据。这就是每个公司获得自己优势的方式,对吧?您想添加自己的数据,这在此时此刻是您的差异化因素。因此,您可以构建不同类型的应用程序。我们还有什么?哦,我们有不同类型的框架和工具。所以我们确实支持不同类型的 AI 框架,如 PyTorch、TensorFlow,

我们还有我们的 CUDA 库。我认为现在是谈谈 CUDA 的好时机,它实际上代表计算统一设备架构。我不知道。我不知道。我已经使用这个词十年了。谢谢。

所以这确实在 AI 开发中发挥着至关重要的作用,因为它能够在 NVIDIA GPU 上进行高效的并行计算,对吧?所以这个想法是它的整个架构确实可以帮助您更快地训练不同类型的模型,这意味着在某些情况下,您实际上可以将训练时间从几周减少到几天,对吧?

它还可以帮助您获得越来越好的推理效果。由于这种并行处理架构,您会在 NVIDIA GPU 上看到更高的推理性能,如果您将其与仅 CPU 平台进行比较的话。我们现在有,我必须查找我们有多少 CUDA 库的正确数字,但是我们有……

大量的 CUDA 库,这些都是 GPU 加速库。我将给您一个 RapidScootEF 的例子,对吧?所以这个想法,Logan 之前也提到了这一点,是

RapidSchoolDF 的工作方式是它倾向于模仿许多数据框架(如 pandas、polars)的 API。因此,如果您正在数据科学工作流程中预处理数据的过程中,它实际上可以将整个过程在我们的 6000 个 GPU 上加速 100 倍。

无需任何代码更改。这就是它的妙处,作为数据科学家,我所做的只是添加一行 API 代码,然后它实际上

将整个过程加速 100 倍。从数据科学家的角度来看,这节省了大量时间。在 GTC 上,我们宣布了 QML,它也是我们的 CUDA 库之一。这也有助于您加速机器学习任务。因此,如果您使用的是 Skitlearn,您可以为您的 ML 任务获得高达 50 倍的加速。因此,这些库中的每一个,正如我所说,我们现在有很多这样的库,

但是根据您正在执行的数据科学任务,所有这些都旨在将工作卸载到 GPU,以便您可以看到巨大的加速。从 NVIDIA 的 AI 企业转向 AWS 的 Graviton 和 Tranium 2 芯片。这段剪辑来自我与 AWS 精英 Annapurna 部门的首席机器学习专家 Emily Weber 在第 881 集中的对话。

在剪辑中,Emily 解释了为什么人们可能会选择使用专门的 AI 加速器而不是 GPU。所以让我们从这里开始。您可以告诉我们关于 Graviton 芯片、Tranium 2 芯片的信息,也许这与我一直想问您的一个普遍问题有关,并且在您给出的每一个精彩解释之后,我都一直忘记了这个问题,那就是为什么有人,为什么听众,例如,应该考虑

考虑使用 Tranium 和 Inferentia 等加速器而不是 GPU?也许这是一个很好的开始问题。然后我会提醒您一系列导致这个问题的问题。听起来不错。谢谢。谢谢。是的。所以从根本上说,在 AWS,我们真的相信客户的选择。我们相信云。我们相信云服务平台。

你知道,提供商使客户能够选择数据集、选择模型和选择加速硬件。呃,我们认为,这对客户来说是好的,呃,拥有真正的选择,呃,最终对消费者来说是最好的,这对客户来说是最好的。所以,所以从根本上说,这就是方向。呃,

Annapurna Labs 是一家很棒的公司。Annapurna Labs 多年来一直在为 AWS 构建基础设施。因此,Annapurna Labs 是一家亚马逊在 2015 年收购的初创公司,主要用于开发虚拟机管理程序。所以他们开发了所谓的 Nitro 系统。是的,我们会讨论它。所以他们开发了,是的,这就像科技界最酷的故事,也是最少被讲述的故事。所以这里有一些内幕消息。

因此,在 2015 年,人们 10 年前使用云的方式是,您拥有这个称为虚拟机管理程序的东西。虚拟机管理程序本质上是一个巨大的单片软件系统,它管理所有服务器的整个主机。虚拟机管理程序系统面临的挑战是

它使云创新变得非常困难,因为服务器级别的所有控制、通信和数据都在这个称为虚拟机管理程序的巨大单片事物中实现。

因此,Annapurna 有一个疯狂的想法,即将需要在物理级别扩展云的部分虚拟机管理程序解耦。因此,他们开发了今天所谓的 Nitro 系统,该系统为数据(在实例上运行)与控制实例的通信提供了物理隔离。

因此,这就是 AWS 如何扩展以及 AWS 如何提供如此强大的安全保证的方式,因为在物理上存在两个不同的控制。有一个物理芯片或硬件系统的物理组件正在管理数据。

客户数据,以及一个不同的物理控制正在管理实例的治理。因此,今天的每个现代 EC2 实例都是基于 Nitro 系统构建的。因此,Annapurna Labs 的第一个主要发展是 Nitro。这就是 Nitro,就像硝化甘油一样,N-I-T-R-O。N-I-T-R-O,是的。爆炸性的。是的,是的。

因此,在 Nitro 系统之后,Annapurna 开始开发他们的第二个主要产品线,即 Graviton。因此,Graviton 是 Annapurna Labs 开发的定制 CPU,基于 ARM 的定制 CPU。

如果您观看了 re:Invent,您会看到一个亮点,那就是今天,进入 AWS 的新计算中有一半以上实际上是 Graviton CPU。

哦,是的。因此,当您查看 AWS 上的实例时,当您看到系列末尾的小 G 时,例如 C6G 或 G5G,第二个 G 表示它是 Graviton CPU。这意味着您将以非常具有竞争力的价格获得更好的性能。并且

Graviton CPU 是我们的第二个主要产品线。然后 Traneum 和 Infrentia 是 Annapurna Labs 的第三个主要产品类别,现在让我们采用这个大型的

我们在开发基础设施和跨 AWS 扩展基础设施方面创造的惊人能力。让我们专注于 AI ML。因此,Inferentia 当然是在几年前开发并推出的。Tranium 3 是我们的第三代芯片。

所以它是 AIML 的第三代加速器。这就是为什么这是一个如此令人兴奋的时刻,对吧?因为你看到了……

以及 Annapurna 多年来取得的令人难以置信的成果。现在,这完全专注于,现在一个很大的重点是 AIML。因此,当客户利用这一点时,从根本上说,他们感兴趣是因为他们获得了价格性能的优势,最重要的是,这是这种优势,你知道,高度优化的计算非常节能。Aperna 非常擅长识别改进领域,只需将成本从等式中剔除,降低复杂性,并将性能和成本节省返还给客户。

同时,你知道,这意味着性能,并且在许多情况下超过性能。因此,TRM2 实际上是 AWS 上最强大的 AIML EC2 实例。当您查看我们看到的性能指标时,完全停止。这是一个非常令人兴奋的时刻。对于客户来说这是一个令人兴奋的时刻,对于整个团队来说也是一个令人兴奋的时刻。Tranium2 是 AWS 上最强大的。

正确。性能和功耗对于衡量芯片效能当然至关重要,但是如果 AWS 的芯片没有用于部署 AI 模型,那有什么用呢?对于数据科学家数量超过软件工程师的团队来说,部署可能会成为一个真正的问题。在第 879 集中,我与 Zerve 的联合创始人兼首席产品官 Greg Michelson 博士讨论了模型部署的问题。

很好。所以数据科学家,甚至我自己,都难以处理的另一件棘手的事情是部署 AI 模型。所以对我来说,几十年来一直很直观的事情是打开

某种 IDE、Jupyter Notebook 等,开始输入一些数据,进行一些 EDA 并构建模型。但是对我来说,一直不直观的事情是,这可能只是因为我没有做那么多,有幸在机器学习工程师或软件开发人员、后端工程师所在的公司工作,他们会采用我创建的模型权重,并将它们放入生产系统。所以

在一个较小的团队或软件工程师需求量很大的团队(这种情况经常发生)中,最终可能会有更多的数据科学家创建模型,而不是有足够的软件工程师来部署许多公司。这会造成瓶颈。那么,ZURV 的内置 API 构建器和 GPU 管理器如何消除这些障碍?

是的,这不仅仅是瓶颈。这也是一种有问题的依赖关系,因为归根结底,部署这些东西的软件开发人员可能不是数据科学家。因此,他们很可能不明白应该做什么。而且,你知道,这种事情有很多微妙之处。因此,您很容易在这里引入错误。

所以,是的。所以如果您考虑部署过程,并且,你知道,有很多障碍需要克服。如果您曾经收到过 Slack 或电子邮件中的 Jupyter 笔记本并尝试运行它,您就会知道其中的一些是什么。对。就像您安装了错误版本的这个包一样。哦,您必须 pip install 一堆其他东西才能使其工作。因此,您可能需要花费一个小时的时间来尝试获取您的。

尝试甚至运行代码,假设您拥有数据并且所有文件夹和文件路径都相同等等。所以,你知道,归根结底,数据科学家今天花费大部分时间做的事情是构建原型。然后这些原型被交给另一个团队来进行重新编码

在另一个环境中,使用 Docker 化和部署以及管理服务器等等。但是对我来说,数据科学家并不明显知道如何做到这一点。而且他们很可能没有权限做这些事情,就基础设施等等而言。所以 Zerf 就像,

处理所有这些问题。因此,Observe 中的每个画布都支持一个 Docker 容器。因此,登录到该画布的任何人都无需担心依赖项,因为所有这些都保存在该项目中。因此,这些环境是可重用和可共享的,依此类推。因此,如果我想使用与……相同的 Docker 容器启动一个新项目,

另一个项目正在进行中,这很容易做到。因此,你知道,当你的团队加入了一位新的数据科学家时,他们不必在第一周就安装 Python 并确保一切正常,哦,我们使用的是 NumPy 0.19,而你安装的是 0.23。而且这些对话都不需要再发生了,因为我们管理着所有这些。

然后假设我训练了一个随机森林。我的意思是,你提到了使用你的权重。如果我训练了一个线性模型或逻辑回归模型,那么它可能只是一个需要传递的权重向量。但是,如果它是一个更复杂的模型,例如随机森林、XG boost 或神经网络等,那么它就不像只是“这里有一些权重需要放入公式中”那么简单。

这是一件更复杂的事情。然后您必须弄清楚,好吧,我将序列化此模型,将其腌制,然后转储所有依赖项并将其 Docker 化,然后将该东西传递出去。这对于许多数据科学家来说也超出了他们的技能范围。所以 Zerv 处理所有这些。因此,Zerv 中的每个块在执行时都会创建您已处理的所有变量的序列化版本。

因此,如果我在模型或块中训练了一个随机森林,那么它就在那里并且可以访问。因此,我可以从外部访问它,使用 API 等。我可以在其他层中引用它。因此,当需要创建 API 时,也许我想创建一个 POST 路由,在其中发送预测器列的有效负载。

然后我想要从该随机森林获得预测。那么,我就说,嘿,还记得那个随机森林吗?我只是指向它,而不必弄清楚如何打包它以便将其部署为 API。所以我们……

我们处理所有这些事情。然后在您部署和服务时,您也不必担心基础设施问题,因为我们所有的 API 都使用 Lambda,即无服务器技术,因此您没有长期运行的服务存在。它就在那里。因此,许多基础设施问题、DevOps 问题以及可能让您绊倒的挑剔的工程问题都是我们已经处理过的事情,以便用户可以轻松使用。

这意味着数据科学家可以开始部署他们自己的东西。但在某些组织中,他们可能仍然不被允许。然后我们有一个移交系统,可以很容易地将数据科学家所做的事情(顺便说一句,他们不再构建原型了)传递给其他团队来实际进行

部署。

我想知道,这种能力如何增强 AI 芯片的功能?当我们对您进行研究时,我们发现了一种称为 AI 芯片异构集成的技术。那么什么是异构集成?它如何影响 AI 芯片的性能和封装密度?密度对于构建越来越强大的芯片至关重要,因为显然,您可以在更小的空间中获得更多的晶体管,

芯片就越强大。是的,这是一个重要的领域,我之前在我们的谈话中也提到了它。所以这就像什么比摩尔定律更好。那么哪个维度推动了性能或允许性能扩展到不仅仅是在芯片上制造更小的晶体管?这是异构集成驱动的附加维度。也许让我……

快速用一句话回到 AI for AI。所以我们称之为,我们已经将其命名为我们称之为材料智能的方式。这是使用人工智能来推动电子应用中新型材料的开发。我们称之为材料智能。这就是我们的团队作为全球研发团队的工作方式,不仅仅是

以传统的方式,通过使用人工智能来替代实验来顺序改进材料的特性,以避免

避免不必要的实验,直接进入真正重要的领域。您可以在哪里真正为客户技术带来改变?您如何预测材料在客户设置中的工作方式以及它如何推动解决他们的问题,而不仅仅是

乍一看的化学性质。这就是我们推动新型材料开发的方式。我们谈论的是需要优化的数百万种不同的选择,以便推动材料的性能。这只是为了让您了解它如何融入 AI for AI。其次,然后推动客户改进性能的不同方面

他们设备的性能以及

缩小晶体管,构建更集成的系统,异构集成是这里的重要领域。你知道,它传统上始于所谓的所谓前端工艺,制造晶体管,而后端则是你以某种方式连接它,最终信号到达外部,这在更广泛的方案中被称为封装。

现在这两个极端之间有一些东西。这被称为异构集成,最终芯片不再只是一个芯片,一个单一芯片,当您将不同的芯片组合成一个系统时。在这个具体的例子中,我将其称为 COVOS。这些结构正在我使用的示例中构建。我也可以在这里使用不同的客户示例。只想使用一种在当前对话中非常常见的命名法。当您将芯片粘合在一起以构建内存堆栈时,例如。或者您构建一个内存堆栈,并且您几乎将其粘合在 GPU 旁边,以缩短数据传输时间并使其在将数据传输到 GPU 时更高效。

这被称为异构集成,以使其成为可能。当然,这需要比历史上用于封装的技术更先进的技术。更小的结构尺寸,更复杂的散热工作,举个例子,或者优化功耗。所需的精度需要不同的技术,更像前端的技术。

技术,这使得它当然成为材料创新和计量创新领域,正如我们公司所关注的那样。扩大现实世界应用的能力对于新的 AI 产品开发人员来说是必须的

我们4月份的“如果你错过了”节目包含了 NVIDIA 和 Dell 产品和服务提供的剪辑,包括 NVIDIA GPU、AI Enterprise 及其微服务的概述。你还会听到 AWS 如何专注于为客户提供选择及其 Graviton CPU 的强大功能,Zerve 如何开放对 AI 部署的访问,德国达姆施塔特的默克公司 (Merck KGaA) 的多芯片集成,以及为什么依赖云计算可能很快就会成为过去。

<raw_text>0 人工智能产品经理 Sharish Gupta 想出了一个易于记忆的助记符 AIPC,以帮助你确定你的特定应用程序是否非常适合使用 AIPC(人工智能个人电脑)进行本地推理,而不是依赖云计算。这是我来自第 877 集的最后一个“如果你错过了”剪辑。

所以我们正在讨论的是,将今天可能需要互联网连接并依赖某些云服务才能获得某种大型语言模型或其他基础模型功能的功能。但是,使用 MPU,你可以潜在地进行操作,推理时间调用,而不是通过互联网……

并使用云计算,你可以在本地设备上运行它。因此,你可能还会获得更低的延迟。你的依赖性更少。是的,跟我们说说现在能够在边缘进行操作而不是依赖云计算的其他一些优势。是的,我认为这是一个完美的过渡。事实上,这是我自己想出的一个助记符。

对于这些带有 NPU 的设备,使用的术语是 AIPC。我相信你听说过它,对吧?因此,为了考虑 AIPC 的好处,我用这四个字母创建了一个助记符。A 代表加速。基本上,你现在拥有一个本地硬件加速器,它可以为你提供诸如

翻译、转录、字幕和其他延迟非常重要的持续工作负载的低延迟、实时性能。这是 A。I 代表个性化。同样,这很棒,因为如果你有一个在你电脑上的 AI,它能够学习你的风格。例如,如果你正在创建电子邮件,如果你正在使用它来生成电子邮件,它正在学习你的风格,它开始以你的风格写作。

它非常适合,你知道,我们一直在与一家医疗保健客户合作的一个用例,其中,你知道,它有两个部分。我会谈谈第二部分。第一部分更有趣,但我认为它与我们稍后将要讨论的不同示例有关。但是 AI 解决方案的第二部分是他们正在获取

来自医生在急诊室对患者的诊断信息。他们正在使用这些信息来自动生成医生的报告。你知道,这些都是乏味的事情,医生不喜欢花时间在上面。他们宁愿去看下一位病人,进行互动,你知道,增加他们与病人相处的时间。他们给出的反馈是,你知道,有了这个,有了这个解决方案,现在我已经,它开始看到我正在改变的方式,

并编辑其初稿,它开始采用我的风格。现在它听起来就像我一样。我喜欢它,因为我不必做这个报告生成。它帮我做了,我有了更多的时间陪伴我的病人。这就是个性化的价值。第三个是 P,它是私有的。就像你说的,数据不必离开你的设备及其直接生态系统。

你不必将其来回发送到公共租户,甚至私有租户。你可能拥有可以访问的包含 PII 的机密信息,但你不想将其与私有租户合并。存在这样的敏感信息或未分类信息,这取决于你的角度。因此,数据的固有隐私

以及在你的设备上本地运行模型的固有安全性为你提供了这样的保证,即它比以前更私密。这就是 P。而 C,这非常重要,因为我从客户那里听到过,这是一个重要的成本范式转变。我开始从我们的一些早期,也许是最早采用设备上 AI 的用户那里听到这一点,

顺便说一下,这在今天并不普遍,对吧?就企业构建自己的 AI 功能和使用设备上加速器进行卸载而言。我们正处于 Dell Pro AI Studio 的矛尖,我们稍后会再讨论这个。但是早期采用者,他们说,我有一个金融服务客户告诉我,“Sharish,我的开发人员正在使用 CodeGen

他们正在使用我们的数据中心计算,我 15% 的数据中心计算都用于这些使用它进行代码生成或代码完成或编写测试用例、单元测试等的开发人员。他们都有电脑。我想让他们使用具有高性能 NPU 的 AI 电脑

这样我就可以卸载它了。我的意思是,我可以将计算从我的数据中心卸载,因为他们不需要 H100 来进行代码完成。我认为我可以使用你的 Dell 设备上的 NPU 来做到这一点。这也是一个真正的机会。仅仅因为你有计算能力并不意味着你应该使用它。这就像在正确的时间为正确的工作负载选择正确的计算或正确的引擎,对吧?所以有很多……

在即使从你的私有数据中心卸载到设备上功能也意义重大的用例。如果你实际上正在使用云计算,你将为每次推理付费,对吧?它是令牌和 API 访问。现在你有了 AIPC,对你来说是免费的。你构建了你的解决方案,你正在设备上使用它,

就是这样。因此,成本是一个重要因素。现在,你会争辩说,在云中进行推理的成本正在下降。它的扩展速度非常快。但是,我再次回到这一点,它是针对正确用例在正确时间使用的正确引擎。

好了,这就是今天的“如果你错过了”节目的全部内容。一定要关注我们即将推出的精彩节目。如果你还没有订阅这个播客,请订阅。但最重要的是,我希望你会继续收听。直到下次,继续努力吧。我期待着很快与你一起再次享受 Super Data Science 播客。