We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Efficient Deployment of Models at the Edge // Krishna Sridhar // #284

2025/1/17

MLOps.community

AI Deep Dive Transcript

People

Krishna Sridhar

Topics

Krishna Sridhar: 我在威斯康星大学攻读博士学位时,研究的是数值优化,最初是为了帮助石油公司优化税务。然而,我逐渐意识到,利用机器学习解决实际问题比帮助石油公司避税更有意义。因此,我转入了人工智能领域,并参与了苹果Core ML的设计,这是一个在边缘设备上部署模型的推理引擎。边缘计算的吸引力在于,它既能提供快速的用户体验,又能保护用户隐私,因为数据无需离开设备。例如,面容ID需要在300毫秒内完成身份验证,这需要在本地设备上运行复杂的神经网络。现在,我致力于构建能够应对快速变化的人工智能和硬件生态系统的稳定基础设施,让创新者能够轻松地将他们的AI模型应用到各种设备上,无论是最新的还是旧款的硬件。

Deep Dive

Shownotes Transcript

我是克里希纳,我是高通的工程副总裁。我在高通的新高通AI中心工作。我的咖啡总是拿铁加2%的牛奶。今天我们要把它带到边缘。是的,我确实这么说。所有关于边缘的AI。欢迎回到Animal Ops社区播客。我是你的主持人,德米特里奥斯。和克里希纳谈谈......

我必须了解高通在芯片领域所做的一切,但主要是为了让AI和ML开发人员更容易

获取他们的模型,将它们导入高通AI中心,然后轻松地将它们部署到高通芯片或任何其他边缘芯片上。他们为你提供了许多不同的统计数据,并帮助你针对你需要优化的内容进行优化。太棒了。

和他交谈真的很酷,因为我觉得我对边缘AI了解不够。而且很多人都在做一些了不起的事情。我问他他最喜欢的边缘用例是什么,他给了我一个完整的列表。他列举了一些,其中一个与板球有关,这并不是经常出现的一项运动。

让我们直接进入正题。和往常一样,如果您喜欢这一集,如果您与一位朋友分享,我会非常感激。并向高通大力赞助本集表示感谢。正是因为像您这样的赞助商,我们才能做这些很酷的事情。因此,如果您正在边缘部署,请务必查看高通设置的AI中心。让我们开始吧。

我感觉你做事的方式有一种模式。你创办公司,然后把它们卖给大公司。是的,是的,是的。好吧,我已经做过一次了,而且我还参与过一家发生第二次这种情况的公司。所以,是的。

这非常酷。那些公司是什么?一直都在AI领域吗?是的,一直都在AI领域。我在AI领域已经工作了,我不知道,将近11、12年了。所以已经很久了。非常酷。是什么让你想进入这个领域?我其实有一个有趣的故事。我在威斯康星州攻读博士学位,研究数值优化,而且我

我是认真的。我的博士论文是关于如何帮助石油公司优化其钻探的税收,你知道的。你找到了你人生的意义。是的。当时,我显然还年轻得多,我想,哦,这太酷了,有这么有趣的问题需要解决。有很多很酷的技术。然后,你知道,有一天我醒来,我想,等等,我实际上是在帮助

石油公司,你知道,优化他们的钻探税收。我的意思是,整个事情是如何发生的,本身就很有趣,那就是非洲的许多政府开始实施这些复杂的税法,这样,你知道,石油公司最终会向他们缴税。

然后这变成了一种猫捉老鼠的游戏,你就像,好吧,现在让我优化如何做到这一点。它本身就变成了一个有趣的问题。所以我一直在做这个。然后机器学习中出现了许多有趣的问题,当时它被称为机器学习,这些问题围绕着如何进行数值优化。这就是我进入ML或AI领域的方式。从那以后我就一直在这里。我认为这是一个更有用的工具

你知道,比帮助石油公司处理税收更有用的努力。是的,我能想象。从那时起,你已经走遍了世界各地,你一直在和苹果合作,并构建了一个平台,对吧?是的。所以我得到了一个独特的机会来帮助设计Core ML,它是苹果的推理引擎,用于在边缘部署模型。

在边缘部署模型的迷人之处在于,你知道,你可以以一种从体验角度来看非常快速的方式做一些非常有创意的事情,而且非常注重隐私。因此,你的数据不需要离开手机。

而且,好吧,你知道,当然,你知道,典型的例子就是面部ID或面部识别。现在每部手机都有这个功能。这意味着你没有机会将你的生物识别数据发布到云端,对其进行验证,然后将其发送回来。这不太说得通。但与此同时,你需要你的面部ID在,比如说,

300毫秒内工作。因此,你必须运行一些相当复杂的卷积神经网络,才能在你的手机上以一种极其安全的方式进行本地面部身份验证。这是一种在设备上的ML AI的例子。我要问你,我要和你做一个小的测验。假设你拿一部现代智能手机,用它拍照。

当你按下快门时,你认为在这300到700毫秒的时间范围内会运行多少个AI模型?好吧,我知道它会变得更好,因为我用眼睛就能看到。我会拍照,尤其是在你使用iPhone的肖像模式时。起初看起来不太好。然后......

它刷新或更新像素,然后,哇,就像魔法一样。现在看起来真的很好了。我能想象。如果我们说,我不想让你太疯狂,我会低估它,说五个模型。好的。这实际上并不是一个糟糕的猜测。我认为是25个数量级。

25?是的。所以对于你来说,这并不是一个小数字,你没有超过300到500毫秒的时间。如果你包括后处理,你最多只有一秒钟的时间。这就是你拥有的所有时间。它必须做所有事情,包括,你知道,构图,有时是人脸检测,重新着色,所有这些复杂的事情都必须在20到25毫秒内完成。你得到一张完美的照片。

正如你所看到的,手机在这方面越来越好。我不知道你是否看过最新的安卓手机。你有一些非常酷的功能,你知道,你有一群朋友,你知道,他们的眼睛并没有同时睁开。所以,你知道,你能找到每个人眼睛都同时睁开的那张照片吗?所以你必须处理一堆不同的帧,找到照片,你知道,拍出完美的照片。

所以所有这些都必须实时发生。你没有机会将所有这些信息发送到云端。你想要立即看到图片。所以你必须在设备上本地完成。即使是助手,即使你谈论的是谷歌助手或Siri,很多工作也必须在本地完成。当然,一个

大量关于回答问题的繁重处理发生在服务器上,但语音处理、文本到语音,很多都在本地进行,这样你就可以获得非常快速的体验,而且你也有很多计算能力就在你的手机上,比如最新的骁龙,你知道,你正在看40到45个顶点,它

所以你可以计算,你可以使用所有这些计算机来拍照,进行语音处理,进行视频处理。你可以在本地做很多事情。这就是让我进入这个领域的原因。这非常吸引人。回到那个问题,好吧,这样我也可以把它放在一起,

你喜欢在堆栈的哪个级别玩?你是如何看待它的?你的最佳位置或你的特殊秘诀在哪里?多年来,我有机会与堆栈的几乎所有层进行交互,从......实际上,在我回答这个问题之前,我会告诉你是什么让这个问题如此吸引人。

我谈到了,你知道,20到25个不同的,你知道,在相机上运行的模型。我认为在现代智能手机上,你可以有,你知道,数量级的模型在运行。你可能有数量级的应用程序建立在设备上的AI之上。所以这些数字相当大。重要的是,你知道,我们一直以来对这个问题的处理方法是构建其他人可以使用

因为我们并没有构建所有进入这项技术的所有模型。那不是我们的特殊秘诀。我们的特殊秘诀是构建系统,以便那些使用AI模型进行创新的人能够尽可能轻松、快速地将它们带入我们的硬件中。这意味着我们需要能够构建一个系统,该系统能够将研究人员在云端进行模型训练的任何内容转换为能够将它们带到设备上并在设备上运行它们。

让这个问题变得相当具有挑战性的是,AI创新的速度绝对令人难以置信。变化如此之快。云端用于训练模型的软件也在不断变化。他们使用不同的框架。过去,TensorFlow是当周的热门。今天,都是PyTorch。而且这个生态系统中的变化如此之快。与此同时,你的硬件创新也在以惊人的速度发生。五年前在手机或笔记本电脑中使用的硬件与今天的硬件看起来完全不同。

如今几乎所有手机和所有电脑都配备了专用神经处理器、神经引擎来运行专门的、你知道的、专门的AI模型。所以你的硬件在变化,你的AI和框架也在快速变化。你有两件快速变化的东西,一件在上面,一件在下面。这就是为什么这个问题非常有趣,因为你必须映射

顶部的快速变化的东西到底部的快速变化的东西。所以你必须拥有相当稳定的基础设施。这就是这个特定问题令人兴奋的地方,你如何构建稳定的基础设施来处理快速变化的AI生态系统和快速变化的硬件生态系统,从而允许某人将他们的最新模型不仅定位到最新的硬件,而且还可能定位到上一代硬件。

是的,这是一个很好的比喻,你如何谈论顶部和底部移动得如此之快,几乎就像你试图建立那个基础并拥有一个坚实的基础。但与此同时,你试图能够击中目标,而目标也在移动。所以基础在移动,目标在移动,你玩得很开心,试图在这两者之间玩耍。

是的,这就是让整个领域如此吸引人的原因。好的,现在更进一步,你正在高通工作,你在那里做各种关于设备上AI的酷事。在这种意义上,你如何看待它,就像回到比喻一样,能够理解所有这些较低级别的东西是如何移动的,同时也为

所有创新以及上层的一切是如何移动的。是的。所以有些事情变得容易了一些。我的意思是,我们看待它的方式是,你知道,你的经典计算机视觉、经典速度空间中仍然有很多事情正在发生。

但也有一些关于生成式AI的新事物正在发生,包括新的语言模型和新的图像生成模型。有趣的是,云模型,比如说两年前最好的云模型,其性能不如今天的最佳设备模型。

这本身就是一个令人着迷的事情。这基本上意味着,一两年前,我们可以用数量级或两个数量级更多的计算能力做的事情,我们现在可以在本地设备上完成。如今几乎所有最新的旗舰安卓智能手机都内置了语言模型。

做一些像总结、你知道的、完成、你知道的、文本、你知道的、回复之类的事情,可以在你的手机上本地完成。所以假设你收到一封很长的电子邮件,你知道,你知道,你的老板喜欢写超长的电子邮件,比如,你知道,25页,你可以点击总结,然后得到它的总结,这些信息可以保留在你的手机上。

现在,这些都是现在使用设备上的LLM完成的任务,这与比如说你捕捉智能手机并进行色调映射看起来有点不同。这与你的文本总结用例看起来有点不同。所以为了回答你的问题,发生了变化的是出现了更多用例

尤其是在Gen AI方面。但幸运的是,这些模型的许多架构从计算的角度来看看起来很相似。通常是转换器,它们看起来并没有那么不同。这使得它稍微容易一些。所以如果顶部的一切都在快速移动,但使用的技术是

相似,那么这允许我们构建伟大的系统,因为我们不一定要为你的相机和你的语言模型构建完全不同的系统。这就是过去两三年发生变化的一件事。越来越多的转换器被部署

它们看起来非常相似。事实上,在你的手机上运行语言任务的模型架构与比如说在你的汽车中高通芯片上运行的ADAS或驾驶辅助系统并没有太大区别。这两种问题使用类似的技术,这真是令人着迷。这使得我们的生活轻松了一些。

但硬件仍在不断创新,并且总是有新的硬件功能。所以这部分并没有完全改变。但我认为区别在于更细微的事情,比如精度。为了给你一个很好的例子,当你做一些像大型语言模型总结之类的事情时,它对精度的敏感度并不高,这意味着你可以

你可以用4位权重来做一些事情,比如说。而当你驾驶汽车时进行ADAS,并且正在精确计算下一辆车在哪里或行人在哪里时,这些东西对精度的敏感度非常高。所以你真的不能降低位数。你必须保持高位以保持高精度。

所以这就是我目前看到的不同之处,就像在硬件方面,你对不同类型的架构有稍微更细微的要求或变化,以适应不同类型的精度。我认为这与比如说两三年前相比有所不同。你认为是硬件的工作来做这种优化,还是

可以在软件层完成?这是一个很好的问题。我对此有一个很好的类比。如今几乎所有现代智能手机、汽车、笔记本电脑、你知道的、工业设备上的硬件,高通今天出货的几乎所有东西,

我们做了一件事,叫做异构计算,这意味着你有一个CPU,一个GPU和一个神经处理器。我给出的类比是,这是一个频谱,其中CPU是最灵活和可编程的技术,你可以用它做任何事情。你可以编程它来做任何事情。现在,不能保证所有事情都会很快,但你可以做任何事情。

另一方面,你拥有你的神经处理器,它非常专业。所以它可以做一些事情非常非常快。它被设计成做一些事情非常非常快。当你进行硬件级别的设计时,你通常可以获得数量级更高的效率、数量级更高的功耗效率和数量级更高的性能。而且

但这需要付出灵活性的代价。你不能编程任何东西。即使它在技术上是图灵完备的,但要编程所有东西并不容易。所以它只在某些方面有效。然后你拥有你的GPU,它处于中间位置,它更可编程,但它在某些方面也更有效。但它是一种这样的频谱。

所以这始终是一种舞蹈,就像,好吧,哪些功能是如此关键,我们需要将其引入硬件以获得数量级更高的效率,而我们可以用稍微低效的软件实现来做些什么,也许是在CPU上。这就是你始终在这个技术中所做的平衡。

是的,你拥有所有这些旋钮,它们为你提供了这些不同的权衡,对吧?我想你已经看到了一些令人惊讶的用例或权衡正在发生。在哪些领域或不同的具体情况下,你认为它不会起作用,或者它以某种方式进行了优化,让你有点惊讶?哦,这是一个好问题。我想说......

在过去的五年里,每当我看到硬件或硅片中描述的一些新功能时,人们都会对如何使用它抱有一定的期望。我通常会说,在预测方面,我的成功率为0%

人们最终如何使用它。因为很明显,人们最终会使用你告诉他们使用的东西,但人们总是会找到创造性的方法来在你的硬件上部署东西。从加速计算在这个神经网络领域开始的那一刻起,情况一直如此。因为人们,当你编写规范时,你以某种方式编写规范,但当程序员阅读规范时,他们以不同的方式阅读它。

他们做了一些非常令人着迷的事情,让我感到惊讶。而且,你知道,转换器就是一个很好的例子。我认为硬件不一定针对部署转换器进行了优化,但我们已经找到了一些方法来在软件中进行优化,以我意想不到的方式进行优化。而且,你知道,现在,我想说,在软件中部署它要高效一个数量级,主要是因为我们,你知道,

优化了部署这些类型的网络的软件。所以这种情况经常发生,人们会找到更有趣、更有创意和更具创新性的方法来在硬件上部署模型。好的,我们有了易于、困难的权衡、快速、缓慢或灵活性的频谱,我想,是一个X轴、Y轴类型的东西。

我们还了解了芯片针对特定场景进行优化的不同方式,无论是汽车内部的芯片,针对该精度进行了优化,还是手机内部的芯片,它并不一定需要该精度。

我感兴趣的是,当你关注设备上的AI和ML时,你认为我们遇到的一些挑战是什么,或者是一些可能在未来几个月内被克服的障碍是什么?或者你只是觉得人们正在努力解决一些他们以前没有遇到过的问题,因为正如你提到的,事情变得越来越好了。所以我们开始以过去不一定会达到的不同方式突破极限。是的,这是一个很好的问题。它实际上也与你之前的问题相关。所以,特别是对于这些SLM和LLM,至少我没有想到的是我们如何快速地遇到

内存问题。所以现在不仅仅是计算,你还必须考虑内存。现在这实际上已经成为最大的瓶颈,我们可以引入更大模型的速度与可以进行什么样的内存技术创新、什么样的,你知道的,

可以进行算法创新以减少内存消耗。这已经成为比原始计算本身更大的瓶颈。这就是过去,我想说,两年来有所不同的一件事。第二件事是,这是另一个令人着迷的约束,是能效或电池寿命,对吧?

对于许多移动计算来说,当我提到移动时,我的意思是PC,我的意思是工业芯片,我的意思是

你知道,即使是汽车,电池寿命也很重要,你也不想花费太多电池或电力来做这些事情。所以这是另一个领域,你可能会,你知道,你可能有原始的马力以,比如说,100英里的速度行驶,但你更喜欢以30英里的速度行驶,因为,你知道,

它消耗的电力更少,所以我举的例子是,嘿,我有一个LLM,它每秒可以生成50个令牌,而我每秒只能阅读50个令牌,所以你不需要以50个令牌每秒的速度给我信息,你可以以,你知道,10个令牌每秒的速度给我,我仍然可以,我仍然勉强可以阅读它,但它,你知道,消耗的电池寿命要少得多,所以这就是,你知道,

有时你可以选择的权衡。在过去几年中,这非常有趣。我认为仍然是瓶颈的第三件事是在有限的计算、受约束的环境设置中使用Gen AI做更多高质量的事情。

我的意思是,很明显,梦想是让像ChatCPG这样的东西完全在本地运行。但我认为它仍然消耗的计算能力可能比受约束的设备能够处理的计算能力多两个数量级。因此,仍然需要进行大量的创新,才能将这项技术压缩到更小的尺寸,同时提高计算能力。

所以这仍然是一个持续的练习。我认为为了让我们看到,而且我希望在未来几年内,会有越来越多的事情发生,你会看到越来越多的用例,这些用例非常吸引人,并且可以在任何设备上本地快速、快捷地发生,而不需要在云端进行大量的计算来完成所有事情。

是的。我想知道它是否是我们只是朝着你刚才谈到的照片的方向发展,以及每次拍照时都会有25个模型在处理照片。

我们将会有很多我们可以使用的模型,它们是小语言模型吗?或者我想这可能不是理想的架构或理想的方式来加载25个不同的模型,你只需要使用LORAs,但一定有一种方法可以利用小语言模型在这方面。我的意思是,我给出的类似的比喻是,特别是对于,

很多照片处理。这不像有25个完全不同的模型。他们共享一个共同的主干,并且有不同的头部。所以有很多共享计算。这允许你以高效的计算来做很多事情。所以对于LORAs之类的东西,这是一个类似的比喻。你必须共享计算。

你不仅要共享计算,还要共享内存,正如我所说,这已经成为最大的约束,以及空间,所以像你一样,作为一个,比如说,智能手机,你去买一部智能手机,你不想

30GB被模型占用。你希望它可能是1GB或2GB,因为你需要空间来存储你的照片、存储你的回忆等等。所以空间和内存,所有这些因素也都在考虑之中。所以我相信我们会找到更有效的方法

共享用例、共享计算、共享内存和共享空间,相同的用例。但我希望这些会发生。是的,你提到内存很有趣,因为几个月前我们邀请了MemVerge的伯尼·吴来这里,他非常多地谈论了我们如何来到这个内存是最大约束的地方。

他提到他试图实现的一件事是共享内存池。但这适用于大型GPU集群,对吧?这并不一定,甚至可能你将一堆CPU放在一起。我不知道。但你不会将一堆手机放在一起共享内存。所以这几乎是一个硬性限制。你不能那样做。

是的,我的意思是,但你可以选择在手机中拥有多个,比如说多个内核或多个NPU或多个GPU。你可以在这些内核之间共享内存。我的意思是,这些类型的架构,你知道,也可以做到。所以,是的,我的意思是,我认为这些技术仍然是我们需要研究的关键技术。

我们可以做更多很酷的事情。是的。这也是一个很好的观点,我不希望买我的手机,我的空间的一半已经被所有这些小语言模型或大型语言模型、半大型语言模型占用了。你必须购买升级后的手机,这样你才能为你的照片和视频留出一些空间。

是的,绝对的。事实上,我认为今天几乎所有手机都至少配备了8到12GB的RAM,因为你无法使用LLM。令人着迷的是,他们必须拥有更多的RAM,这样他们才能在其上进行更多的AI操作。他们并不一定需要更多的RAM来进行,比如说,更常规的应用程序,但这主要是因为AI。他们在高端手机中升级了他们的RAM。

是的。所以跟我谈谈你在高通AI中心所做的事情,因为我认为对于想要在边缘进行开发的开发人员来说,这里有一些有趣的事情。是的。他们想将模型放到边缘。是的,我可以很快地总结一下。所以,你知道,对于......

对于那些不知道的人来说,高通是世界上最大的硅片制造商。我们为手机、PC、汽车和工业自动化、物联网设备制造硅片。所以我们为许多功耗受限的环境制造硅片。而且

我们试图解决的一件事是,让开发人员(无论是这些设备或汽车或手机或PC的制造商,还是在这些设备上构建应用程序的人)能够尽可能轻松地将最新和最伟大的AI创新带到我们的设备上。

而且,你知道,我们有一句小谚语,那就是他们必须能够在五分钟内、五行代码内做到这一点。所以我们构建了一个系统,它允许人们,你知道,一旦他们完成训练,他们就可以说,嘿,这是我的模型。这是我想在其上运行它的设备。

然后继续。我们的系统会获取模型,将其转换为在我们神经处理器上最高效运行的方式,并对其进行优化。我们甚至在云端部署了物理设备,以便直接测量性能。我们会运行模型,测量准确性,并在五分钟内向开发者反馈结果,例如“此模型在这些设备上运行速度为 60 毫秒”。

这是在设备上运行模型的方法。这是您可以下载和运行的模型。如果您想进一步调整,这些是模型的性能特征。这是一个链接,您可以查看它并与同事分享,以便他们也了解您正在部署的内容。这是一个自动化程序,您可以将其编程到您的系统中。

因此,我们已经自动化了在所有设备上部署模型的过程。我们相信这是实现更多创新、更多迭代以及在所有不同设备上部署更复杂事物的关键。简而言之,这就是 Qualcomm AI Hub 的作用。好的,关于这一点,我有很多问题要问你,因为我假设我们有很多不同的工具

几代芯片被用于不同的设备。所以我会想到一个随机的例子,因为这就是我的想法。一个带有芯片的冰箱,我想在上面放置某种模型。但是冰箱可能会有

AI Hub 中有很多代芯片,它是否也会告诉你,“在该芯片上这样运行,在那个芯片上那样运行”?哦,更好的是。我们做得更好,我们还有一个配置,允许您在多代产品上部署相同的模型。

哦,不错。然后我们实际上在设备上有一个小型系统,它可以检测是哪一代,知道该特定一代有哪些功能,并相应地将操作或计算有效地映射到该芯片代。因此,我们也希望开发人员能够回到您的示例

创建一个可以在不同代冰箱上以不同方式运行的模型。也许在最新一代上它运行速度更快,在旧一代上它运行速度可能较慢,但它仍然可以运行

因此,这种灵活性也是我们可以做到的事情。我们都知道自动驾驶用例,或者只是汽车内的芯片。我们也知道手机里的芯片,因为我们每天都在玩它们。您在开发人员将 AI 部署到芯片或我们想不到的地方时,看到了一些有趣的用例吗?好的,我会给你一些我认为是

非常吸引人的用例。我将从移动设备开始,因为,你知道,我认为这是一个相当引人入胜的场景。所以,我是一个非常大的板球迷。我玩,你知道,我在一个业余板球联赛中打球。

你知道,这是一个非常激烈的联赛,我们会在周末打八个小时的比赛,是的,我的一个朋友曾经,你知道,他带着他的手机,然后把它连接到一个三脚架上,开始录制我们比赛前的练习赛,他说,嘿,你知道,我开发了这个应用程序,它可以进行实时跟踪

我不知道你是否看过板球或网球,或者我认为足球中也可能会有。有一个叫做 Hawkeye 的系统,可以进行实时......

球的实时跟踪,你知道,预测,所以在网球中,它会告诉你球是否进网,在板球中,它会告诉你球是否击中球门,你知道,在足球中,我猜它会预测球是否进门,或者球是否足够进门,或者

或者越位,也许。越位更像是人员跟踪,但这更像是球的跟踪,对吧?所以 Hawkeye 是一个系统,我认为他们每场国际比赛要收取大约 10 万美元或类似的费用。哇。只是为了进行实时跟踪。所以他说,嘿,你知道,我开发了这个东西,你可以在你的手机上使用它。你只需要插入你的手机,它就可以进行实时跟踪。它可以做,你知道,

跟踪系统中你想要做的许多重要事情,你只需要使用手机上的摄像头技术就可以做到。你不需要传感器,不需要激光雷达,什么都不需要,只需要手机跟踪。他把它做成了一个商业应用程序。我认为他们获得了大约 10 万次下载或类似的数量。上次我和他们谈话时,他们每天有 10 万次下载,因为人们开始使用它来......

你知道,在家中进行他们的,你知道,无论是他们的业余游戏、街头游戏还是其他什么,他们都开始使用它。所以我觉得这是一个相当引人入胜的用例,他们会在其中进行实时跟踪。他们会,你知道,自动地,你知道,自动地获取你的,比如说,30 分钟的,呃,

你知道,练习课程,并将其剪辑成最重要的部分。为了给出棒球的类比,就像,你知道,你只需要录制你的整个棒球课程,他们会将其分解成最重要的片段,在那里事情是,你知道,重要的事情正在发生,其他所有东西都被剪掉了。他们所有这些都在设备本地完成,我认为这非常令人着迷,因为设备上有足够的计算能力来完成所有这些工作。是的。

是的。所以我觉得这是一个相当引人入胜的用例,即使它是在移动设备上,它也是一个相当令人着迷的用例。这就是一个。我正在尝试从 PC 上考虑一个。在 PC 上,我看到了一些关于

你知道,音乐和自动调音以及自动生成音乐,比如自动 DJ 和类似的东西。我见过这样的东西,你知道,这非常令人着迷。你听音乐,你会想,哦,我的上帝,这实际上......

自动 DJ 一些音乐,在中间生成一些东西。所有这些,同样,都在 PC 本地发生。我认为这非常令人着迷。我实际上认为微软发布的用例,我不知道你是否玩过它,在最新的 PC 上,它被称为 Recall。这非常令人着迷,因为它可以在本地做很多事情,并且

并帮助你有效地搜索图片、屏幕截图以及计算机上正在发生的实际实时事件,我认为这些都非常令人着迷。你可以问这样的问题,嘿,我中午参加了一个会议。参加会议的所有人都是谁?它可以通过查看计算机中的内容、查看来回答这个问题

日历邀请周围的内容,可能是会议参与者的屏幕截图。可以在本地完成的令人着迷的事情。我对这个特定功能印象非常深刻。我绝对建议大家尝试一下。然后我会再添加一些我非常感兴趣的内容。实际上,在 Gen AI 中,我最印象深刻的事情是自动代码生成功能。

那些东西越来越好了。它实际上可以完成你的函数。程序员的生产力已经提高到人们开始使用它们后就无法再回去的地步。我认为这是另一个有趣的用例。就实际设备而言,我认为我在这些设备中看到了很多创新

在物理安全领域。这听起来很无聊,但我认为这很有趣,你可以有一个小型设备插入你的家庭和网络,它可以提取所有可能存在的不同摄像头的馈送,或者不仅仅是家庭,还有办公室。提取来自所有不同摄像头的所有馈送,对其进行分析,并且它可以实时完成所有这些操作。

然后只将重要的事情发送回云端。这也是物理设备在安全领域的一个相当引人入胜的用例,以前它需要大量的云计算。现在很多事情都在本地发生。我不知道你最近是否飞过......

在欧洲的航空公司,但他们有很多实时安全工作都在设备本地进行。你知道,他们计算你的面部特征,并进行实时检测。他们做了很多在安全领域本地发生的事情。你想想,机场里有多少摄像头和系统能够确保这一点

不是非常简单。但是,随着计算效率的提高,做这样的事情变得更加经济。因此,就新设备而言,我对物理安全领域的事情普遍感到着迷。当你说计算效率提高时,这仅仅是因为我们能够只抓取重要部分并在设备上有效地完成所有工作。

直到某些东西被标记为,“哇,这很重要”。它能够在设备上创建知道某些东西何时重要的处理过程。没错。我认为真正酷的部分是,你有一个小的,比如说一个小型的,你知道,SOC 或小型芯片插入摄像头,它可以进行大量的处理。而且,你知道,你拥有,这只会过滤掉所有不重要的东西。是的。

是的。所以再次浏览 AI Hub,我有一个模型。我想来,我在 PyTorch 中训练过,我想把它部署到 AI Hub 上的其中一个芯片上,用于我的冰箱,以便它可以扫描并告诉我我的菠菜是否变质了,或者类似的东西。也许在我的冰箱里有一个。我有一个小摄像头,所以它知道,嗯,

好的,这个菠菜,买新的菠菜。它会给我发送一条短信或类似的东西。我该如何在 AI Hub 上部署它并确保它在我的冰箱上运行?是的,所以,你知道,你在云端训练你的模型。一旦你完成模型的训练,你只需要使用 AI Hub 的 Python API。你说,好的,这些是我想要部署到的设备。

我们实际上会将其转换为所有这些设备。我们实际上在云端部署了与这些 SOC 对应的物理设备。我们将获取转换后的模型,在我们云端拥有的这些设备上运行它,准确地告诉你将获得什么样的延迟,将获得什么样的准确性,然后在几分钟内将所有这些结果反馈给你。真的就这么简单。当然没有什么比这更复杂的了。而由此产生的令人着迷的事情是

因为它是一个如此自动化的系统,它允许我们在其之上构建更有趣的东西。我们能够做到的是将大量集成引入系统。我们有 AWS 集成。我们与 Gatorloop 等公司有大量第三方集成。这些集成,例如 AWS 集成,允许我们做的事情是,它允许开发人员完全自动化该过程。

因此,他们使用 AWS,在他们的系统中启动大量训练作业,然后使用 AI Hub,在物理设备上启动大量优化、推理、编译和推理作业。你拥有整个自动化的系统,他们可以重新训练新模型,部署新模型,并且所有事情都为他们自动化。这是通过自动化边缘部署过程而发生的一个很酷的集成

通过这样做,接下来发生的一件很酷的事情是,我们现在与模型制造商建立了大量的合作关系。这些模型制造商,例如 Mistral 和微软,或者 Meta,他们通常会为云端发布他们的模型。

他们与许多云供应商合作,说,嘿,你可以在云端提供我们的模型进行推理。现在,他们也与我们合作,使所有设备都可以在本地设备上使用。因此,所有他们的模型都可以在 Qualcomm AI Hub 的本地设备上使用。他们只需访问 AI Hub,查看,哦,Mr. Slater 的模型可用,下载模型并开始使用它。

这使我们能够围绕边缘部署的自动化创建一个完整的生态系统。它基本上只是 DAG 中的又一步。是的。我们将继续构建。我们之前讨论过优化电池续航时间。我想知道,当我玩 AI Hub 时,如果我有这样的具体要求,我需要优化 X,我该如何操作?

这是一个很好的问题。所以,你知道,我们正处于提供关于设备上实际发生情况的第一组重要信息的时候。正如我之前提到的,所有 Qualcomm 的 SOC 都是完全异构的,这意味着你拥有 CPU、GPU 和神经处理单元。所以现在第一步,作为开发人员,你想知道

嘿,这是我的模型。它是在 CPU 上运行吗?它是在 GPU 上运行吗?它是在神经处理单元上运行吗?它部分在神经处理单元上运行吗?它在神经处理单元上的比例是多少?我如何才能让它全部在神经处理单元上运行?这是朝着优化效率迈出的第一步,因为在神经处理单元上运行的越多,通常效率就越高。因此,开发人员可以做的是调整他们的模型或有时与我们合作以

从软件角度改进神经处理单元的功能,以便他们可以使更多用例在神经处理单元上运行。这使他们能够真正优化效率,并使更多模型尽可能高效地运行。我不确定我是否完全理解,你将所有这些打包在一起

然后你还在将它部署到设备中,它实际上是什么样的?或者你将它打包,然后我获取它,然后我去在设备上部署它?更像是后者。我们将其全部打包,然后你下载该包,然后你就可以非常轻松地在你的设备上本地部署它。我们所做的是,我们已经自动化了所有关于

你知道,获取这个模型,转换它,测量性能,所有这些我们都自动化了。所以你只需要,你知道,训练你的模型,然后你说,好的,我想部署这个。然后你得到一个小包,然后你部署它。这非常简单。我们有很多示例,允许你获取该包并将其部署到。是的,那么它就会消除很多这样的问题,比如,哦......

我需要将这个模型烘焙到 Docker 容器中吗?这里最好的优化是什么,以便我可以针对此芯片进行优化?我可以看出其中的价值。所有这些都已自动化。为了展示它的真正广度,我们所做的是,我们已经......

我想说大约 150 个最流行的模型,涵盖所有不同的用例,语音、音频、视频、文本、视觉、小型语言模型、AI 生成,所有的一切。我们已经公开提供了部署所有这些模型的最有效方法的所有配方。因此,如果你访问该网站,你可以找到 150 种不同的配方,说明如何在所有不同的芯片上以最有效的方式部署所有这些模型。所有这些都已完全自动化。不错。

现在是真正的考验。它只适用于 Qualcomm 芯片,还是也扩展到其他芯片?好问题。所以,你知道,在移动和 PC 领域,如果你是一个开发人员,你通常会在多芯片环境中进行部署。假设,你知道,我给了你那个开发人员制作这个投球跟踪应用程序的例子。

他们正在将这个模型部署到 Android 手机上。他们正在将该模型部署到不同的 Android 手机上,在 iPhone 上,各种不同的手机上,对吧?完全正确。因此,至少在 Android 生态系统中,我们作为 Android 生态系统领导者的作用是确保这些类型的应用程序可以在 Android 空间中的各种不同的 SOC 上部署它们的模型。

因此,我们提供给开发人员的实际工件实际上可以部署到没有 Qualcomm SOC 的其他 Android 手机上。它们将在 CPU 和 GPU 上运行,但它们在这些非 Qualcomm SOC 手机上的运行效率相当高。这样做的原因很重要,因为我们希望使应用程序开发人员能够轻松地构建一个模型并将其部署到任何 Android 手机上

我们的观点是,它会在 Android 手机上快速运行,但如果它有 Qualcomm SOC,它会运行得非常快。这就是我们的看法。就像,我们并没有让它在其他东西上运行缓慢。

我们让它在 Qualcomm 上运行得更快。因此,我们确实确保从兼容性的角度来看,尤其是在 Android 和 PC 上,我们与所有标准兼容,我们与社区的其他成员兼容,这些模型可以部署到其他 SOC 上。但它们在 Qualcomm SOC 上运行速度非常快。这就是我们的理念。♪

Efficient Deployment of Models at the Edge // Krishna Sridhar // #284 51:33 Share

MLOps.community

Deep Dive

Shownotes Transcript

Efficient Deployment of Models at the Edge // Krishna Sridhar // #284