Data security is essential because without seamless security solutions, many valuable AI use cases never make it to production. Enterprises face challenges in deploying AI at scale due to the trade-offs between cost and security, often resulting in high costs for private infrastructure that can be prohibitive for ROI.
Homomorphic encryption allows computation on encrypted data but significantly increases latency, making it prohibitively slow for complex deep neural network operations. This latency penalty makes it impractical for many AI tasks.
Stained Glass Transform introduces stochasticity to data representations, making them unintelligible if intercepted while still being usable by the target AI model. It avoids the latency issues of homomorphic encryption by curating stochasticity specifically for machine learning tasks.
Multi-tenancy allows multiple users to share computing infrastructure, making it cost-effective but introducing security vulnerabilities. Even in private systems, multi-tenancy within an organization can expose data across different departments, creating security challenges.
Protopia focuses on minimizing data exposure by transforming data into randomized representations that are still usable by AI models. This approach reduces attack surfaces without significantly impacting system latency, allowing for secure and efficient AI operations.
Proof-of-concept purgatory refers to the stage where promising AI projects get stuck after demonstrating value in a POC but fail to scale into production due to challenges like security, cost, and infrastructure complexity.
Traditional encryption relies on keys to secure data, while Protopia's Stained Glass Transform introduces stochasticity to data representations. This allows AI models to operate on transformed data without needing decryption, reducing latency and improving usability.
The shift toward agentic AI, where systems operate independently, will require new approaches to data security. Agents interacting with data across multiple locations and systems will need solutions that manage data exposure in a programmatic and secure manner.
Protopia represents the idea of iterative improvement toward a better state, focusing on minimizing data exposure and attack surfaces in AI systems. It contrasts with the unattainable ideal of 'utopia,' where absolute zero data exposure is impossible.
Parallelization strategies, such as data and model parallelism, are crucial for efficiently using large amounts of compute resources to train and deploy AI models. These techniques help reduce power and time costs, especially for large-scale models like LLMs.
是什么阻碍了您的 AI 项目取得成功?Protopia AI 首席执行官兼前 NVIDIA 科学家 Eiman Ebrahimi 博士将带我们踏上一次引人入胜的旅程,探索 AI 数据安全和企业可扩展性方面的挑战。学习如何摆脱“概念验证炼狱”,解锁盈利的 AI 解决方案,并解决成本、速度和安全之间的权衡。此外,还将了解 Alan Watts 的哲学如何激发创新,并在 AI 领域推动有意义的变革。有兴趣赞助 SuperDataScience 播客剧集吗?请发送电子邮件至 [email protected] 获取赞助信息。在本集中,您将了解: (02:53) Protopia 在 AI 数据安全和隐私方面的作用 (11:45) 彩绘玻璃转换背后的功能 (22:20) Eiman 从 NVIDIA 到创立 Protopia 的历程 (25:37) 企业在 AI 项目投资回报率方面面临的挑战 (36:40) AI 系统中的多租户 (55:37) 彩绘玻璃转换的隐私保护功能 (01:09:31) AI 新兴趋势 (01:14:55) Alan Watts 的哲学及其与创业精神的联系 附加资料: www.superdatascience.com/843</context> <raw_text>0 这是第 843 集,嘉宾是 Protopia 首席执行官 Iman Ebrahimi 博士。欢迎收听 Super Data Science 播客,这是数据科学行业收听率最高的播客。每周,我们都会为您带来有趣且鼓舞人心的人物和理念,探索机器学习、AI 和相关技术的尖端领域,这些技术正在使我们的世界变得更美好。我是您的主持人 John Krohn。感谢您今天加入我。现在,让我们化繁为简。
欢迎回到 Super Data Science 播客。今天我很荣幸能邀请到极其聪明且口才出众的 Iman Ebrahimi 博士。Iman 是 Protopia AI 的首席执行官,这是一家位于德克萨斯州奥斯汀的风险投资支持的初创公司,它将敏感数据转换为特殊的随机格式,从而提高 AI 模型的准确性,保护隐私并降低计算成本。
在创立 Protopia 之前,Iman 在 NVIDIA 工作了十年,担任高级研究科学家和计算机架构师。他拥有德克萨斯大学奥斯汀分校计算机工程博士学位。
今天的剧集内容相对技术性较强,因此可能最吸引技术听众,但 Iman 的沟通能力极佳,任何对 AI 感兴趣的人最终都可能会非常喜欢它。在今天的剧集里,Iman 详细介绍了他如何从优化 NVIDIA 的 GPU 性能转向彻底改变 AI 数据安全,为什么大多数有前景的 AI 项目会陷入他所谓的“概念验证炼狱”,以及如何摆脱困境。
他详细地描述了在生产环境中运行 AI 模型的成本、速度和安全之间的实际权衡。他讨论了如何使您的企业 AI 产品盈利,为什么拥有您自己的私有服务器并不能像您想象的那样使您的 AI 系统安全,以及我最喜欢的,Alan Watts 的哲学教会我们关于创业和创新的知识。好了,准备好收听这精彩的一集了吗?让我们开始吧。♪
Eamon,欢迎来到 Super Data Science 播客。我们正在纽约进行现场拍摄。感谢您来到这里。感谢您的邀请。我们在 Neue Haus 的一个美丽的演播室里,他们有很棒的摄像机。他们的音频非常出色,我很高兴您能来这里加入我们和我们的听众。我相信我们也会很享受的。很高兴来到这里。
我们通过 Sol Rashidi 相识,她是我的第 781 集的嘉宾。它在 5 月份发布,是今年春天最受欢迎的剧集之一。它全部是关于确保企业 AI 部署成功的。在那次谈话中,她提到了 Protopia。非常酷。所以现在我们可以深入探讨为什么 Protopia 如此重要。其理念是
当您使用第三方大型语言模型 (LLM) 时,它具有巨大的能力。在许多情况下,您希望利用最先进的技术,或者可能是一个更节省计算资源的选项。但是您可能希望能够在供应商之间切换。并且您的客户和您希望确保您的数据安全。嗯哼。
有了像 Protopia 这样的解决方案,这是可能的。所以我们将用整集的时间来讨论这个话题。这将非常引人入胜,因为您可以深入了解技术细节。期待这样做。我认为快速扩展 Protopia 所做工作的范围的一件事是,是的,它基于您刚才描述的内容是准确的,它适用于大型语言模型,并有助于保护数据,当您
模型正在第三方系统上运行时,但这并不一定仅仅是关于第三方系统,它通常关注的是对大型语言模型或任何其他机器学习模型而言最有效的系统,您如何在使用这些模型时最大限度地减少数据的暴露,因此从
仅限大型语言模型或第三方系统略微放大一点,机器学习中数据暴露的话题一直是一个挑战,我很想深入探讨这个问题。太棒了。我们将要深入探讨。因此,您听起来可能是一位机器学习工程师、开发人员或可能是公司的首席技术官,但实际上,您是公司的首席执行官。您是一位技术型首席执行官兼创始人,据我了解,许多投资者都喜欢,我们的听众肯定也喜欢。
是的,因此 Protopia,感谢您在那里拓宽了范围,总的来说,是数据保护和隐私保护机器学习领域的领导者。让我们首先谈谈这个名字,Protopia。
这是我最近几个月才学到的一个词,因为我正在制作一个电视节目,我们其中一个工作标题是《破解乌托邦》。哦,哇。我很快发现这里有一些有趣的事情,那就是“乌托邦”这个词的意思是“没有地方”。它是希腊语“没有地方”的意思。因此,它旨在描述一种不可能实现的。没错。是的。
而 Protopia,所以这有点像在这个《破解乌托邦》系列的第一集中,我们会深入探讨,好吧,我们把这个电视节目称为《乌托邦》,因为这是一个人们熟知的名词,也许是地球上的天堂。但根据定义,它也是无法实现的。而 Protopia 是我们可以追求的目标。没错。我喜欢您把它作为第一件事提出来,因为
当我们回顾 Protopia 所做工作的各个方面时,希望它会越来越清楚地表明这个名字是如何贴切的。因为这个关于如何在系统上保护数据的话题,对吧?
如果我们要考虑一下它的乌托邦版本,那么在任何时候都会出现零,绝对零,而不是接近零,绝对零的暴露。但由于这几乎不可能实现,如果不是不可能实现的话,Protopia 将会是:你如何尽可能接近这个目标?你如何做到最大限度地减少围绕数据的攻击面,而不会
使整个系统陷入不可能实现的事情的泥潭中,这将使其无法应用。数据传输受阻是每个人都害怕的反乌托邦噩梦,无数电影都是围绕这个主题创作的。不,这是真的。我的意思是这将是一场噩梦,你知道,我们期望我们的设备......你知道,当我们使用任何数字工具时,我们希望一切都能立即完成,这很有趣
您已经很好地扩展了 Protopia 支持任何类型的机器学习情况的理念。但是大型语言模型 (LLM),我最初提到的那个,通常非常耗费计算资源。因此您必须等待。因此性能至关重要。您不希望数据安全成为瓶颈。是的,我认为存在一种
期望,即任何从事数据保护、数据安全工作的人都需要围绕他们可以使用的不同自由度轴进行工作。
其中一个在当今机器学习领域中是不可协商的,让我们称之为大型语言模型和生成式 AI 领域的当前焦点,
延迟,即您能够交互的速度,尤其是在您专注于推理时,这变得不可协商。您实际上无法构建严重依赖于保护数据的解决方案,尤其是在推理方面,如果您对系统的延迟造成重大影响,因为那样的话,它只会
开始妨碍最初的目的。这就是我们构建产品和解决方案的宗旨之一,即关注这些系统级需求,这些需求在任何人都可以想象的这些类型的工作负载的每个用例中都非常常见。是的,这绝对是主要关注点之一。
很好。非常有道理。我还想快速强调一下,我们并没有真正定义 Protopia。我们说它是可以实现的。因此,我对 Protopia 的理解是不断改进的理念。因此,您知道,您谈到了,您暗示了 Protopia 的含义,说乌托邦将是一种绝对没有数据安全风险且没有延迟的情况。但是,你知道,这可能永远无法实现。然而,
Protopia 这种持续迭代和改进的理念......因此,在能够安全高效地访问机器学习的背景下,我想这就是 Protopia 的重点,但在更广泛的意义上,它意味着......地球上的 Protopia,人类的生活质量、预期寿命的提高、更健康的生活质量延续到晚年、一种满足感、社区,所有这些都是我们为自己和我们的......
后代所梦想的。是的,如果我们要对这个定义进行某种映射,这将是地球上的 Protopia 到 AI 和数据空间,尤其是 AI 和数据空间的 Protopia,我认为这种迭代也具有以下方面:同样,我们看待这个领域的一种方式是,
已经有很多努力和技术投入到保护系统和数据安全中,数据安全部分来自系统安全。因此,我们在 Protopia 构建的技术,我们的重点也是补充这个更广泛的生态系统技术集合。并且
只有通过这些不同的层,您才能通过再次缩小各个不同级别的攻击面来实现更好、更完善的数据保护。现在,到目前为止,我们一直关注的问题的一部分是通过我们认为是
主动式数据安全方法来解决数据层面的攻击面,而不是被动式方法,而不是仅仅依赖于系统不被破坏,我们提出这样的问题:如果系统被破坏,那么
或多或少总是会发生这种情况,那么您如何主动地使该系统上的任何内容对可能遇到它的任何人(恶意行为者等)的用处最小化呢?是的,这实际上正是 Sol 在第 781 集中提到 Protopia 的确切背景,她在其中谈到 Protopia,我假设这是彩绘玻璃转换解决方案,它将原始数据转换为一种格式,即使以某种方式有人获得了它,对他们来说也没有什么意义。正确。其理念是利用机器学习模型的基本原理以及机器学习模型存在于相当大的、通常是表示空间中的事实。
因此,我们利用的是在该表示空间中移动的能力,这种方式使得处理该数据的底层模型仍然能够理解该数据。但是,鉴于存在本质上覆盖对模型具有相同含义的多种表示,
现在,如果您能够知道这些流形是什么样的,并开始在运行时随机选择表示,那么您现在就使跟踪移动目标对于任何看到这些表示的人来说都极其困难。这就是彩绘玻璃转换所做的一部分工作。
作为 Super Data Science 的听众,您可能不仅对像 ML 和 AI 模型这样的数据驱动功能感兴趣,而且还对底层数据本身感兴趣。如果是这样,请查看 Data Citizens Dialogues,这是一个由 Colibra(领先的数据智能平台)的员工带来的具有前瞻性的播客。
在这个节目中,您将直接听到来自业内巨头、创新者和来自达特里克斯、Adobe 和德勤等一些全球最大公司的高管的第一手资料,因为他们深入探讨了数据领域最热门的话题。您将深入了解数据治理和数据共享等广泛主题,以及如何确保在全球范围内的数据可读性等具体细微问题的答案。
对于那些对数据质量、数据治理和数据智能感兴趣的人来说,我发现 Data Citizens Dialogues 是对这个播客的良好补充,因为这些话题我通常不会在这个节目中深入探讨。因此,虽然数据可能正在塑造我们的世界,但 Data Citizens Dialogues 正在塑造对话。在 Apple、Spotify、YouTube 或您收听播客的任何地方关注 Data Citizens Dialogues。
流形是什么意思?也许当我想起,好吧,我的原始数据,假设我正在查询大型语言模型时,您可以让我对它有所了解。所以我说......
鉴于这种情况,请给我一些关于如何提高我的利润率的想法。我上传了我公司的一些专有电子表格。我将其发送给 OpenAI、Anthropic 或 Quikir,让他们分析数据,给我一些反馈。但在传输过程中,我利用了 Protopia,特别是彩绘玻璃转换解决方案,
我的数据是如何从仅仅是字符字符串变成......是的。如果我们只举一个问题和包含信息意义的文档的例子,对吧?今天,
当需要将该数据发送到运行语言模型的平台时,您提到了三个专有模型,对吧?我们可以再次将其扩展,并考虑开放模型,对吧?因为开放模型通常被认为是,哦,如果我有开放模型,那么因为我可以控制模型,所以我更安全,对吧?但最终,该开放模型仍然需要在某个地方运行,我们正在做什么,我们
我们正在思考和关注的是
该模型运行的平台。这与最终用户(企业)是否信任模型提供商无关。事实上,我们假设他们确实信任。情况并非企业认为模型提供商是恶意的。根本不是这样。他们确实信任他们的供应商,但最终这些模型是在某个地方运行的。那个地方是一个计算平台,就像任何其他计算平台一样,可能会受到破坏。它可以是任何简单的事情,例如
人为错误,它可能是某人没有设置双因素身份验证,非常简单的错误会导致严重的后果。网络钓鱼邮件。对。所有这些事情都会不时出现,并且发生了一些妥协,对吧?现在,您提到的文档正在发送,这些文档最终以纯文本形式出现在这些目标平台上。该纯文本转换为嵌入向量,
具有一对一的关系。存在一个嵌入函数,它从标记转换为嵌入向量,然后嵌入函数之外的模型其余部分计算一些广告,对吧?嵌入层之后的模型的第二部分
存在于比嵌入函数的范围覆盖的范围大得多的、更大的表示空间中。因此,想象一下一个非常大的表示空间,其中包含各种嵌入向量,并且其中一部分是嵌入函数的范围。对吧?什么
我们使用我们的核心产品(称为彩绘玻璃引擎)所做的是,我们在训练后步骤中启用,一旦大型语言模型或任何其他机器学习模型经过训练,我们就启用识别这些,将其视为
概率分布或数学函数,这些函数将嵌入函数范围内的任何给定嵌入映射到该更大分布空间中的许多其他可能性。一旦您有了这个,现在作为一个函数,定义这些关系的函数集就变成了我们所说的彩绘玻璃转换。现在,彩绘玻璃转换实际上本身就是一个非常小的机器学习模型。它是一系列层。
但它有一些非常特殊的地方,那就是它不是一组权重。它是一组概率分布。
因此,在运行时,当您运行彩绘玻璃转换时,您不会将数据记录从它作为确定性嵌入所具有的内容重写为另一个确定性嵌入。您正在对我说过的那个流形进行采样,其中您有一个确定性嵌入变成了许多不同可能性的一个样本,对于目标模型来说,这很重要,这就是为什么重要的是要意识到,对于它所针对的模型来说,这意味着相同的事情。
但除此之外,它是在那个更大的表示空间中的一个样本,并且与最初被传输的标记之间没有一对一的映射。现在,在您给出的示例中,
您谈论的是专有模型,在这些情况下,模型提供商需要为他们的模型提供彩绘玻璃转换;对于开源模型,基础设施提供商 Protopia 本身或客户可以使用彩绘玻璃引擎自己创建转换。非常酷,我现在确实理解您正在描述的内容,对于我们那些还不熟悉向量嵌入概念的听众来说,这是一个
绝对标准的,事实上,我不知道有什么大型语言模型能够在自然语言数据上工作,大型语言模型本质上就是这样,而无需转换语言。那里有一些词。因此,您知道,因此您有一串字符,您输入到您的
是您的查询,它被转换为您多次使用的词,即标记,这在大多数情况下是一种标记,它有点像一个词或一个词的一部分,因此您可以认为,如果您将一百万个词传递给大型语言模型,那么
经验法则是,最终可能会有大约 70 万个子词标记。因此,这些子词标记随后被转换为您刚才描述的嵌入空间,它是一个数字序列。您可以将其视为地图上的坐标,地图是二维的,平面地图。因此您有纬度和经度,并且
这与之相同,只是您可能有 1000 或 2000 个维度。高维空间。高维空间。正是这种高维度使得大型语言模型能够具有如此多的细微差别。因此,如果您考虑在地图上,好吧,您稍微移动一下纬度,稍微移动一下经度,您知道,这会改变您在地球表面的位置。您可以逐渐从......
温暖且种植水果的山谷到山峰,方法是改变纬度。因此,当您朝一个方向移动时,它的描述会发生变化,同样地,我会说您有一个一千维的空间,这其中一千个方向都可以与所表示语言的现实世界含义的变化相关联。没错。因此,当您描述一个
彩绘玻璃转换与这些嵌入一起工作时,它不会,它不会对应回某个特定元素
词序列和专有词序列,它只是,它只是这些词的一般含义。——它是这些词对特定目标模型的理解的一般含义。——对。——对吧?这就是为什么当您描述一个
彩绘玻璃转换与这些嵌入一起工作时,它不会,它不会对应回某个特定元素
词序列和专有词序列,它只是,它只是这些词的一般含义。——它是这些词对特定目标模型的理解的一般含义。——对。——对吧?这就是为什么当您描述一个
动态发生的嵌入采样相结合,这使得这些嵌入现在极其难以仅仅反映原始纯文本信息是什么。我们实际上正在创建一个解耦,即最初纯文本信息的拥有权,其中企业中的某些数据所有者作为这种技术的使用者需要在今天适应
好吧,可以使用该目标平台,而不管模型是开放的还是封闭的。可以使用该平台。今天,决策是基于纯文本暴露做出的。但现在数据所有者可以理解,纯文本实际上永远不会离开我创建的任何信任边界。并且超出该信任边界,如果我转换数据,那么我在那里之外暴露的内容不再是纯文本。
因此,现在的问题变成了您可以使用哪些平台、哪些目标计算基础设施,而您通常不会使用这些平台。在许多用例中,我们发现由于这个问题,很多用例根本没有实现。说得非常好。您是一位优秀的复杂信息解释者。很高兴能请您解释这些事情。是的,谢谢。那么让我们深入探讨一下......
您是如何最终构建这些解决方案的,因为我和您之前聊天时,听起来数据安全并不是您一直以来最令人兴奋的话题。我认为数据安全是许多像我一样来自高性能背景的人们的一个话题。我的
我在 Protopia 之前的工作非常专注于提高系统的性能。你在 NVIDIA 工作,对吧?是的,我在 NVIDIA 工作了近 10 年,至少有一半时间,如果不是大部分时间的话,无论是在产品还是在研究方面,都专注于提高 GPU 系统的性能。现在,考虑到各种不同的目标应用空间,但是
几乎完全是,我们如何使这些系统更快、更强大?在我从事这些问题工作的最后几年里,我们所做的大部分工作,在使 GPU 系统更快、更强大的世界里,无论是提高 GPU 间通信速度,
还是提出新的方法来通过编程语言描述局部性,以便底层系统(无论是在微架构的缓存中还是访问内存)都能更好地保持在内存系统中物理上接近的、紧密相邻的数据。
所有这些都专注于性能。有时功耗也会成为一个重要组成部分。但有一段时间,我们开始,当我说“我们”时,不仅仅是我,高性能计算领域的许多其他人都开始意识到,从系统的角度来看,还有一些真正需要解决的问题。
到了这样的程度,其中一些问题非常大,如果不能以某种无缝的方式解决,那么在使系统更快、更强大、更大的方面发生的一些创新实际上将不会被使用。因为如果,同样,用户、企业需要在这些系统上进行的投资如此之高,以至于
投资回报率落后于某个瓶颈,那么如果不解决瓶颈
投资就不会回报。因此,使事物更快、更大、更强大的这种创新周期将不会有任何进展。这就是让我对数据安全感兴趣的原因,因为当我看我们在这各种系统架构工作中所构建的内容时,它开始成为一个会冒出来的问题。再次回到 Sol Rashidi 的第 781 集,
在那集节目中,她谈论的大部分内容是获得 AI 项目的投资回报率。这很重要。是的,一个商业上成功的项目。您所说的意思是,在 NVIDIA,您一直在努力提高这些系统的性能。
并且,您知道,因此减少了延迟,您提到了降低功耗,您知道,因此您在意识到和开发允许我们在过去 18 个月中拥有这些神奇的 AI 功能的硬件方面发挥了作用,现在世界上的 AI 功能越来越强大。太棒了。感谢您。但您所说的意思是
您可能意外地发现,企业对其中一些系统的采用速度比预期的要慢,因为人们担心,好吧,这性能很高,但不一定安全。是的。我认为,我认为,嗯,观察结果是,当您考虑在研究中进行的工作时,嗯,
通常,研究的任务是展望 5 到 10 年。
因此,如果您查看我们现在正在从中受益的任何事物,无论是已经构建的、能够训练这些神奇模型的系统,还是模型本身的软件架构,如果您拉动一下它是什么时候进行的研究的线索,那么最初的研究将是在很久以前进行的,但是
它的主要部分开始在提前 5 到 10 年的时间段内组合在一起。这也创造了看到其他问题的可能性。当您解决了一些问题后,您现在会看到其他问题,这些问题也将在 5 到 10 年后出现,但其中一些问题开始变得非常严重,看起来如果您不解决这个问题,那么其他所有事情实际上都不会实现。
因此,您刚才所说的我们已经看到企业被这个问题困住了,这种情况并没有发生。但我们可以看到这可能会发生。对。我认为我们在 2023 年和 2024 年看到的是这个问题的出现,在这个问题中,一件非常令人兴奋的事情发生了。
发生在行业中,对吧?大型语言模型 (LLM) 开始成为人们可以使用的东西,并且在概念验证层面上的价值,100% 的人都开始看到了,对吧?在 2022 年,进行了大量的尝试。2023 年,人们变得更加认真,开始真正花钱,定义一些真正的、实际的用例,这是一个关键词,这些用例可以为企业创造巨大的价值。可以。
但是,一旦确定了这些高价值用例,如果您查看进入这些用例的数据,这些数据会创造价值,这些需要从企业中这里和那里提取的数据记录,让我们假设他们已经准备好这样做。因此,他们已经进行了一些数据清理。当您查看该数据属于哪些层级时,它通常不属于非敏感数据层级。如果您考虑所有企业数据
存在的数据,让我们用宽泛的笔触将其称为三个层级。存在非敏感层级,然后存在一些受限的层级。通常,在一个组织中会有三到五个层级。然后您有一些绝密信息,对吧?让我们忘记非敏感信息和绝密信息。在这三到五个数据层级之间的所有内容,这就是人们谈论的大多数真正有趣的用例所在。
但是现在,在 23 年和 24 年之后,至少我们看到的是,许多这些用例只会停留在那里,人们要么会尝试再采取一些步骤来证明该用例实际上会创造价值。但是需要问一个问题,您将在哪里以高性能的方式大规模运行这些模型
才能交付组织董事会要求的价值。这就是事情开始变得比我只需要一个强大的模型更复杂的地方。还有很多其他因素需要考虑。准备好将您在机器学习和 AI 方面的知识提升到一个新的水平了吗?加入 Super Data Science,访问不断增长的超过 40 门课程和 200 小时内容的图书馆。
从初学者到高级专业人士,Super Data Science 都为您量身定制了课程,包括大型语言模型、梯度提升和 AI 方面的内容。通过 17 条独特的职业路径来帮助您浏览课程,您将专注于您的目标。无论您是想成为一名机器学习工程师、生成式 AI 专家,还是只是将数据技能添加到您的职业生涯中,Super Data Science 都能满足您的需求。立即开始您的 14 天免费试用,网址为 superdatascience.com。
这太引人入胜了。我感觉就像一位风险投资人正在听你的推介,我心想,我需要把钱投进去。这个问题不解决,世界还能继续运转吗?在我们深入探讨之前,先谈谈其他方面。刚才谈到Protopia如何帮助投资者大规模、安全、高效地部署大型语言模型和其他机器学习模型,这真是令人着迷。但首先,让我们先简单了解一下你在英伟达的经历,以及你在那里进行的研究最终如何促使你创立Protopia。好的,跟我们说说动态架构视觉吧。
听起来很有趣。哇,真是久远的故事。动态架构视觉如何影响云端AI服务的可扩展性和效率?是的,这项研究工作,我是第一作者,Surush当时在GSD工作。这篇论文还有一些业界合作者。
这是对云端AI服务最终将如何发展的一种更广泛理解的一部分。如果我们要将这项研究工作放在时间背景下,那就是在某个时间点上,过去大约10年里已经做了很多工作,主要集中在机器学习训练上。
深度神经网络训练。当时,人们开始关注如何大规模地部署模型并以经济高效的方式进行部署,因为一旦你开始训练这些模型,并且有能力训练它们,而这波研究浪潮已经出现,接下来的自然问题是,好的,我们如何以经济高效的方式大规模地做到这一点?而且
这篇论文特别关注的是 systolic array 架构。什么是 systolic?我今天早上刚做完年度体检
作为体检的一部分,他们测量了我的收缩压和舒张压。但这可能与之不同。Systolic arrays实际上是一个概念,我认为它可以追溯到70年代后期,这些架构具有非常紧密耦合的处理单元。其理念是能够以对某些类型的计算(例如神经网络中发生的计算)非常有利的方式组织片上内存中的这些处理单元,但不一定适用于所有通用计算。它们的重要性曾一度起伏不定,但随着深度神经网络在
行业中变得越来越重要,它们又卷土重来了。我认为,例如,TPU就可以归类为Stalag-ray架构。TPU而不是英伟达GPU。不,因为英伟达GPU历来都是为图形设计的,但它们也恰好非常擅长
进行机器学习中涉及的那些类型的任务,并且在过去10年中,经过高度调整,在这方面变得非常出色。但是,无论 systolic arrays 是否优于GPU,这是一个无关紧要的话题。
这篇论文实际上关注的是“推理即服务”的概念。你拥有模型,它们已经过训练,现在你有很多不同的用户,你试图向这些用户提供这些模型。你所询问的这篇论文探讨的主题,裂变是使用的词,就是你拥有这些 systolic arrays,许多不同处理单元的大型基板,但现在你需要服务......
可能不需要所有这些功能的模型,你如何以经济高效的方式做到这一点?在硬件基板方面,成本效率通常会导致这样的问题:好的,你运行的是什么?该基板的利用率有多高?所有这些处理单元实际上都在使用吗?因为一旦你启动了这个东西
你正在向它供电。它坐在数据中心的机架中,正在冷却。这其中有很多成本。启动的这部分硬件的利用率有多高?因此,当你查看执行推理所需的硬件数量时,这只是机器学习过程的预测部分,训练后部署后,
模型通常不需要整个硬件基板。因此,如果你启动整个基板,而你只是使用它的一小部分来服务模型,那么效率就不高。因此,这些基板上的多租户是业界熟悉的。问题是如何做到这一点。这篇论文特别讨论的是如何动态处理
分解大型 systolic array,以便能够以多租户方式提供这种推理即服务,以及需要包含哪些微架构细节,互连需要是什么样子,片上内存需要如何组织自身,论文中有很多Surush提出的很酷的想法,但是你提到这篇论文很有趣,是因为推理即服务这个特定问题
能够以多租户方式部署事物,以便使其具有成本效益。我们应该快速定义一下多租户。多租户只是意味着有多个不同的用户,现在我们暂时将其抽象地称为用户,他们正在接收服务,形式是发送请求,在大型语言模型的上下文中,我们称之为提示,
包含一些模型将用某些内容进行响应的上下文,而这些多个用户正在共享硬件基板,现在共享硬件基板可以在多个不同的级别上发生,在本例中,在该论文中,我们讨论的是芯片级别,但多租户并不一定需要发生在芯片级别,它可以发生在某种程度上
机架级别或机架级别也是如此,因此这取决于你讨论的抽象层,但多租户只是意味着有属于不同用户的不同租户,是的,多个租户,例如,你和我都同时在
我们的笔记本电脑浏览器上使用ChatGPT,它们都可以发送到同一台服务器或同一芯片,我的请求和你的请求可以同时在同一硬件上处理。没错。这涉及很多不同的东西。它涉及所有这些用户基本上都有在这些不同系统上进行的活动会话。现在你可以想象所有这些不同的
用户将使用他们自己的数据。所有这些不同的用户将拥有他们自己的凭据来与他们的会话进行交互。因此,多租户是一种
我们一直以来都在关注如何提高机器学习推理系统使用效率的方式。事实上,独立于Stalag arrays的GPU也具有这种重要的内置功能。因此,英伟达MIGS多实例GPU就是一个例子,它可以做同样的事情,其中一个
GPU可以分解成七个微型GPU,而这些微型GPU中的每一个都可以分别处理用户的应用程序,这可以追溯到同一个概念,即如何提高效率,现在我们讨论的是处理单元内部
正如我提到的,这也可以跨越具有八个GPU的板,每个GPU处理不同的实体集,这也是多租户的,因此,整个领域实际上是我们开始看到数据保护重要性的原因之一,因为在多租户系统中,因为你有多个不同的用户,有多个不同的会话
任何这些用户会话背后的数据所有者都必须考虑这样一个事实,即他们发送到其会话的数据正在进入某种程度上与其他实体共享的基础设施,对吧?并且非常非常重要的是要注意,这并不是说这个目标系统根本不安全。
但是,一旦它成为多租户系统,安全性就成为该系统上所有人员和实体的共同责任。因为一个实体做得不好可能会导致系统遭到破坏,现在你还有其他人的数据在同一个系统上。因此,这在历史上一直是一个问题,
作为一个行业,我们采取的方法是,好的,如果我们只是让它成为一个组织的租户呢?对。因此,如果我不想与其他组织共享某些层级的数据的租户,并且我要去同一个基础设施提供商那里,我会要求我自己的租户。
很好。这是改进情况的一件事。这通常会更昂贵。绝对的。它通常需要你对将要使用该系统多长时间做出某种程度的承诺,以便它仅对你个人私有,因为成本需要共享。然后还要认识到的是,多租户仍然存在于组织内部。
你可能会说该组织只有一个租户,但现在你同一个组织内部的不同部门拥有不同的数据所有者孤岛。你有一个组织,它有一个人力资源部门、一个财务部门和另一个处理健康记录的部门。这些通常不是相同的数据所有权配置。因此
即使在一个组织内部,拥有你自己的租户仍然需要考虑数据如何暴露的问题。对吧?这就是当我们考虑系统时,当我们考虑这些系统对企业的投资回报以及企业如何考虑时
他们可以在哪些用例中创造价值,以及他们需要为这些用例带来成果而进行哪些投资,挑战就开始出现了。因为如果企业落后于,我需要为不同的数据所有者创建私有系统才能运行他们的模型,你正在竞争
你同时面临两个优先事项:这些系统的效率和成本,也就是投资回报的部分,以及这是否最终会真正发生以向你展示投资回报。这两个相互竞争的优先事项是数据安全如此重要的原因。为了将它与我们之前讨论的内容联系起来,数据安全是如何发挥作用的,
如果没有无缝的数据安全解决方案,所有这些在系统方面、微架构方面的重大创新,
它们不会转化为企业方面的价值。我们在Protopia对这一领域的理解是,这是一个我们需要作为行业来解决的问题,以便所有这些真正伟大的创新都能在现实世界中创造价值。如果没有它,整个创新周期很可能会停滞不前。
数学构成了数据科学和机器学习的核心。现在,通过我的机器学习数学基础课程,你可以牢固掌握这些数学知识,特别是必要的线性代数和微积分。你可以在我的YouTube频道上免费获得所有讲座,但如果你不介意为Udemy版本支付通常很小的费用,你将获得YouTube上的所有内容,以及练习的完整解答和官方课程结业证书。
正如节目中无数嘉宾所强调的那样,要成为最好的数据科学家,你必须了解基础数学。因此,请查看节目说明或jonkrone.com/udemy中的我的机器学习数学基础课程的链接。那就是jonkrone.com/u-d-e-m-y。所以,为了用我自己的话说来重述一下,机器学习创新......
例如,现在最突出的生成式AI创新。自2023年以来,许多组织和企业一直在对这些能力进行概念验证。这些概念验证,当向公司高管展示时,会说,哇,这太不可思议了。你向用户展示它,他们会说,哦,我的天哪,我迫不及待地想上手试试。
然后是弄清楚如何将该概念验证部署到可扩展的、真实的、安全的生产系统中的艰苦工作。由于你概述的这些权衡,
安全与成本,你知道,说,好的,我们想要超级安全。因此,你知道,我们将专门使用大型GPU的服务器,你知道,昂贵的服务器来运行,这将仅用于我们组织中的这种用户。这意味着该服务器可能每周只使用几个小时。对。因此在这种情况下,
你已经解决了安全问题或部分安全问题,一些安全问题。但成本是如此高昂,以至于即使功能很棒,人们也很喜欢它,投资回报率
太贵了,无法获得正回报。你亏损了,投资亏损了。所以绝对正确。现在,让我们再加入一个非常重要的因素,那就是时间。我们正在耗尽创造价值的时间。而我们指的是这个行业,对吧?有一个时钟在滴答作响,对吧?
对作为行业对构建应用程序和系统所做的所有投资。将其转化为价值是必要的。毫无疑问,这是必要的。而且有一个时间框架,因为人们都在关注企业,他们正在为这些概念验证花钱,试图达到,好的,生产价值。
因此,我认为业界已经意识到的一件事是,我们需要易于使用或快速使用的解决方案。因此,引入全新的框架也相当具有挑战性。这也是我们如何处理产品的一个原则,即我们如何适应哪些解决方案?
正在构建的软件和硬件基础设施,以使我们正在构建的内容能够在数据层缩小攻击面,从而补充系统安全中发生的事情,并且不需要用户做任何明显不同的事情。
这带来了很多实际的经验,例如,我们已经关注市场以了解市场的演变,因为这也是不断发生的事情。例如,你会注意到,围绕开源的许多工作都集中在
好的,它是开放模型,权重就在那里。因此,如果有人想要控制模型的实现,有人是企业,他们可以从Hugging Face或其他来源获取它,他们可以部署它,对吧?虽然这是事实,但如果你看看最强大的开放模型,我们以Llama 3.1 405B为例,对吧?它改变了开放与封闭的游戏规则,因为它非常非常强大。而且
如果你考虑大规模部署Llama 405B,是的,这是可行的。但在基础设施上大规模地建立它,并让许多数百甚至数千用户在某些基础设施上使用它,确实需要一些不容易找到的人才。并非所有规模的企业都能获得这种人才。这就是我们看到基础设施提供商都在努力使其易于使用的原因,这样,你需要的基础模型,即使是开放模型,他们也会为你设置在基础设施上并为你管理它,以便
你的企业开发人员只需访问API,他们就可以与该API交互并在其周围构建应用程序。一些努力将更进一步。围绕开源的应用程序提供商的整个新兴领域,他们将采用开放模型并在其周围构建应用程序,以方便企业使用,因为如果没有它,
这些用例将不会出现,因为这需要太长时间。而花费太长时间最终会导致在2023年定义的那些用例实际上无法再次投入生产。而这个主题,使之成为一个容易进入的切入点,我认为存在于这个堆栈的所有层中,从应用程序提供商、基础模型提供商一直到基础设施提供商。明白了。是的。
你已经非常出色地涵盖了很多内容,我想深入探讨一下你拥有的另一个研究主题,因为它也与我们今天面临的问题有关,这就是并行化。
你在英伟达做了相当多的关于并行化的研究和发表,它解决了另一个方面或与我们今天作为行业面临的各种问题相关联,正如你在上一个答案中提到的那样,我们试图作为行业从这些极其昂贵的技术中实现价值。
我们正在开发和部署的功能、系统。是的,并行化策略,我认为它们属于
从微架构改进到系统方面再到纯软件的抽象层。你如何最好地利用你拥有的大量计算资源?这项特定工作是在当时,我认为直到今天仍然如此,人们付出了很多努力
努力如何最好地利用数千甚至数万个GPU来减少训练新模型的功耗和时间。当时对我来说真正有趣的一个方面是人们开始关注的各种不同的并行化模式。当时,数据并行可能是主要方法。模型并行才刚刚开始成为人们关注的对象。
我认为你提到的论文是我们研究不同类型的模型并行的地方,一种是传统的模型并行,然后是流水线并行。在那之后,张量并行也被添加到混合中。而且有
有整个初创公司专注于如何最好地实施这些各种并行化策略,并产生非常非常大的影响,因为即使在谈论的规模上提高百分之几,也意味着很多钱和很多能源。这在这个问题中非常重要。但有趣的一点是,
这些问题都高度关注训练方面。当我们考虑世界上有多少人在进行训练时,从头开始大规模训练模型,当然会产生重大影响,因为仅仅从能耗的角度来看,对吧?而且我们一直在改进这些模型,这是一个非常非常大的问题。但是
随着我们进入现在更多地使用模型来定义实际预测任务和构建应用程序的领域,推理方面也是你考虑计算将在未来10年、20年内被使用最多的地方。很可能大部分计算都将是推理。因此
我认为你提到的那部分研究,我认为那是我的兴趣开始发生转变的地方。再次从硬核开始,我们正在提高对最计算密集型任务的性能,当时,
训练是主要的事情。事实上,当时人们来回讨论大型语言模型的训练是否是我们在思考或大型推荐系统上花费时间最多的计算密集型任务。当时作为该领域的研发人员,我都在关注这两个问题。但是现在
回顾四年前,那是我大部分兴趣所在。这种兴趣大约在2019年、2020年左右开始转向思考关于推理的问题?我们如何扩展推理,以及如何通过高效的计算来提供所有这些,这与我们刚才讨论的一些内容有关。所以现在你之前提到了Llama 3.1.405b,对吧?
你可能对需要多少种最先进的英伟达GPU才能在推理时运行这么大的模型有更好的了解,但它将是多个。是的,我相信如果它以其基线容量运行,它是32个H100。哇。所以你甚至需要四个GPU盒子才能建立一个实例。一个实例。因此,如果你考虑对其进行任何类型的
微调或尝试服务许多不同的用户,那么你正在谈论多个这样的实例,以便能够及时有效地完成微调,但是是的,这就是你开始理解维护这些系统的复杂性的地方,这就是为什么......
认为每个人都会自己做这件事并非易事,即使从理论上讲这是可行的,对吧?没有什么能阻止你去云端获取32个GPU并尝试建立它。但是你多久才能为此建立一个可用于生产的系统?我认为有时会被低估一点。毫无疑问。好的,很酷。所以我们现在已经为你的历史工作、研究以及我们今天作为行业在效率、创造价值和同时拥有安全方面面临的许多问题奠定了基础。所以现在,跟我们说说Protopia和你的这个彩色玻璃变换解决方案,这个产品,
是什么让它具有隐私保护功能和独特性?是什么让彩色玻璃能够解决我们在本集迄今为止描述的这些问题?是的,非常非常好的观点,可以将这些点连接起来,所以我们确实讨论过它的隐私保护方面,例如这个概念,我们
从确定性表示到这些仍然可以被目标模型使用的随机表示。现在,谈谈是什么让它比一些已经研究了相当长时间的现有技术更易于使用是件好事。有一组特定的
我们在设计彩色玻璃变换作为一种方法时做出的权衡,这也符合我们整个Protopia与Utopia的叙事。事后想想很有趣,那就是我们认为这意味着要使可能从目标系统泄露的数据对于遇到它的不良行为者来说难以理解。我们保护数据的标准方法一直是加密,并且仍然是我们思考事物时的黄金标准。如果我们加密了数据记录,而某人无法访问密钥,那么我们倾向于认为它是安全的。
尽可能安全,对吧?我的意思是,这基本上就是我的底线。密钥管理是当事情开始传递时会让事情变得困难的事情之一,但它是安全的,对吧?
现在,当我们想到加密时,存在一个已经存在了很长时间的研究领域,它被称为同态加密,它关注的是,好的,如果我们根本不将数据从加密模式中取出,而是在其上进行所有计算,会怎么样呢?并且几十年来,人们一直在进行同态加密的研究,并且仍在取得进展和改进,今天推出的新技术
版本的今天推出的产品都关注这一点。同态加密的最大挑战通常是,当你想到复杂的深度神经网络中进行的操作时,在同态加密中实现这些操作是可能的,但往往会增加实际任务的延迟。对,对,对。我们谈论的是多个数量级。
以至于它对您试图执行的任务的影响变得过高。我们所做的是将加密视为向数据添加随机性。彩色玻璃做出了权衡,说,如果我们添加到数据中的随机性不仅仅是随机的,这会导致我们刚才讨论的同态加密的挑战,
但它是针对目标任务进行策划的,不会产生延迟惩罚。你如何做到让目标任务仍然可以在该随机数据上运行?我们发现将此变为现实的机会是机器学习本身的性质。
这就是为什么彩色玻璃今天主要或专门在现实世界中用于机器学习模型作为目标,而不是一些任意的计算。因此,就像我们一直以来处理系统问题的方式一样,我们对问题进行了限制,说如果我们的目标只是机器学习、深度学习模型,我们该如何使用随机性来保护数据而不会产生延迟惩罚?
因此,当你问它有什么独特之处时,那就是正在非常刻意地进行的特定权衡。因此,现在问题变成了,那么这种随机性是什么?你怎么知道什么随机性不会影响目标模型?这就是
真正有趣的数学发挥作用的地方,我们把这个特定问题本身作为一个机器学习问题来制定。所以我们说我们想知道随机性是什么,让我们去学习它。让我们使用机器学习来学习随机性。因此,我们所做的,我们的核心产品彩色玻璃引擎所做的,是它采用给定的预训练模型,并在训练后步骤中,
它使用你今天使用的相同机器学习工具来重新制定问题。因此,它本质上是对PyTorch的扩展,现在你可以使用机器学习来学习你可以添加到数据中的随机性,你将来会将这个预训练模型发送给它,这样这个模型仍然可以运行。
这涉及一些我们可以讨论的数学知识。但本质上,这就是正在发生的事情。这就是使它不会以显著方式改变工具的原因。这是一个你可以添加到现有训练循环中的训练后步骤。这是我们的一个原则。它不会以有意义的方式影响推理时的操作延迟,因为我们正在学习的训练
层集的复杂性是可以控制的。我们以不会在计算空间中爆炸的方式来定义它。第三,我们正在针对机器学习模型进行所有这些操作,这样就不会涉及密钥,并且当数据被转换时,模型可以直接在目标数据上运行。哇,这太酷了。然后是那个术语,彩色玻璃,
这是否与现实世界中彩色玻璃窗如何混合和散射光波的理念有关?所以有点像,你知道,它引入了一种随机性。是的。是的,它确实如此。而且我们
我们今天大部分时间都在讨论语言模型和文本作为数据模式,对吧?但是我们关于彩色玻璃和引擎以及如何学习这些转换的所有内容,都适用于任何机器学习模型。因此,对于计算机视觉,当你查看这些转换后的数据记录在图像空间或视频中是什么样子时,转换后的图像是什么样子,看起来就像你有一个
彩色玻璃画,你坐在它非常近的地方,所以你在另一边看到的是,就像你描述的那样,这是一个高度分散的散射表示,作为人类你无法真正理解,但想象一下,如果模型坐在另一边,彩色玻璃是针对模型的。很好,这次谈话太棒了
我们在研究中发现了一些与我们刚才讨论的话题相关的资料,Protopia 发布了一系列富有见地的文章,名为《高管安全数据和有效 AI 指南》。我们会在节目说明中添加链接。这篇文章恰好是与我们从本集开始就一直在谈论的 Sol Rashidi 合作完成的。该系列的第二篇文章名为《AI 系统中的风险和缓解策略》。我很想听听您对......
企业经常忽略的最大的 AI 风险是什么。在我看来,考虑到您最近一直在谈论的同态加密,当人们进行计算时,无论是在云设备上还是边缘设备上,都存在安全漏洞。
这是你无法控制的,而且会一直出现。我认为让我们深入探讨一下这个风险以及 Protopia 如何减轻这个风险。是的,我认为我们在关于风险的三部分系列文章中谈到的内容是,当我们考虑经常被忽视的是什么时,就会发现围绕 AI 和语言模型的新型使用模式与......
过去仅使用任何应用程序的数据使用方式不同。主要区别在于系统越来越复杂难以维护。我并不是说仅仅是训练这些非常大的系统。不。回到开放模型的例子,大规模地为许多用户部署它并管理这项非平凡的任务。
可行,非平凡。企业需要时间才能获得价值。他们需要他们的基础设施提供商、应用程序提供商来帮助他们做到这一点。企业中的数据所有者并不真正想参与,也无法参与这些系统中发生的所有实施细节。现在,一个常见的思维过程是说,如果......
实施以某种方式在我的 VPC 内部或本地进行。它比在其他地方要安全得多。我认为这有时会被忽视,因为归根结底,如果您有一些实体提供帮助,实施细节并不特别清楚,对吧?而该实体可以只是您组织的 IT 部门或外部人员,对吧?数据所有者,对吧?
不想也不愿花时间参与数据的每一个实施细节,直到什么时间点被加密,什么时间点被解密,之后是否被存储,如果被存储,存储了多长时间,所有这些都会影响到是否接受实施是否良好
这些部署模型和这种数据使用方式相对来说是新的。新的,它是基于......裸露的。它是裸露的。它是原始的,并且未加密。它会暴露数据。这很有趣。实际上很有趣。词语的错误使用。但是模型是新的。因此,我认为从组织角度来看,我们看到企业正在努力应对的是......
再次回到这个概念,好的,我们需要实施哪些系统安全功能?它并没有考虑,并不总是考虑,许多人都知道这一点,但并不总是考虑,即使是本地系统,通常只需要运行一个错误的容器就会因为您正在使用的最先进软件中的一些漏洞而暴露整个系统。
知道这是可能的,并且不希望仅仅阻止触及某些敏感数据层的每个用例。这可以是代码。代码补全是最重要的、最大的用例,现在发布了 RAG,就像这是出现的最重要的企业用例一样,对吧?代码补全、代码重构、编写代码片段和更大的代码体。这些用例会一直出现。
然而,很难想象将组织中的代码称为非敏感代码,并且可以将其发送到任何平台。它不能。因此,为了让这些事情取得进展,能够主动确保如果和何时发生数据泄漏,它不会以未加密、裸露、原始的方式暴露,对吧?我认为我们......
一旦他们意识到这是一个阻碍创造价值的方面,就会发现组织非常有兴趣深入研究。因为当我们与组织交谈时,我们的观点根本不是说你不应该做某事。市场上有大量的工具可以帮助他们阻止请求发送到他们不想要的服务,或者帮助 CISO 了解正在使用哪些系统,哪些数据源连接到哪些模型。而这些
这些都是组织需要具备的整体 AI 安全态势中非常重要的组成部分。但是,当您需要创造价值时,如何安全地做到这一点?这就是我们一直在进行许多有趣对话的部分。这太吸引人了。展望未来,随着 AI 中出现的下一个重大趋势,
您知道,随着我们从生成式 AI 系统(如大型语言模型)如此有效地转变,我们越来越深入到自主式 AI,我们信任这些生成式系统能够独立工作,而不是仅仅由我们调用来提供一些信息。是的,所以自主式 AI 或您在未来看到的哪些变化,以及这与我们在整集中讨论的安全效率权衡有何关系?是的,我认为这很有趣......
观察围绕大型语言模型和 AI 的应用程序空间很快不会是,哦,有一个大型语言模型,有一个应用程序。我们只需要保护它就可以了。这是更广泛的潜在代理系统的一部分。似乎市场如何发展以利用这些模型的叙述越来越多。
从数据安全角度来看,这意味着我们再次需要考虑不同的问题,哦,一切都会存在于一个紧挨着数据所在位置的系统上。因为如果您有代理,那么这些代理会处理不同的数据源。它们可能在不同的地方。有些会在本地。有些会在私有云中。有些可能在公共云中。
云由应用程序提供商为您提供服务,为了使其业务模式有效,需要运行多租户。因此,突然之间,在这些系统之间的数据暴露的思考方式将需要有所不同。我认为不仅仅是我们在这个领域进行创新。实际上,在同态加密领域正在发生很多创新。并且
需要考虑它在何处适用。事实上,我认为就在几周前,苹果宣布了一些新的同态加密版本,用于信息检索等它们正在着手的事情。并且有一些
问题可以通过能够以同态加密模式执行某些操作来解决。事实上,Thinglass 本身就是一个在同态模式下运行的绝佳应用程序。因为您可以想象,如果您正在获取纯文本信息并将其转换为转换后的表示形式,那么在完全加密的情况下执行该操作非常棒。
因为您以完全同态的方式执行此操作,但是然后您会释放其余的计算,这可能非常复杂,并且难以以同态方式实现它,以便在可访问的硬件上运行,并且最有效地运行它。因此,当您问数据安全将是什么样子时,我认为数据安全将需要在这些自主系统中以更复杂的方式发展
将模型用作解决问题的更大系统中的组件,我们需要关注
这些不同的组件在哪里运行?这些系统的可接受暴露参数(就您需要发送给它的数据而言)是什么?以及如何以编程方式管理它?我们相信,彩色玻璃是这种更广泛的系统的一个重要解锁,并且需要并将会与这些其他技术相结合。因此,与您在本集前面讨论的内容相关联,您谈到在进行研究时,您希望展望五年、十年后的问题。您刚才再次强调了 Protopia 开发的解决方案将如何解决未来的问题。是的,我们非常深入地研究合作伙伴关系,以便以最快的方式促进交付这些尖端解决方案。我认为我们在整个生态系统中看到的一件事是,从......
使这一切成为可能的最大企业,一直到在这个领域非常活跃并构建许多非常重要的技术的初创企业。合作并能够提供更广泛的解决方案对于真正交付价值至关重要。因此,我们花费了大量时间,再次从基础设施提供商到......
基础模型的构建者本身,到在其之上构建的应用程序提供商,找到我们可以从最顶层的用户一直到需要处理这些数据以创造价值的基础设施解锁数据使用的方法,我们如何在这个堆栈中插入是一个很大的部分,再次能够交付更大的价值
该行业真正需要生存。非常酷。所以我们最近在纽约录制这集节目之前亲自见面了。我们在奥斯汀,你的家乡见面了。是的。也是 Protopia 的总部所在地。是的。当我们在喝酒时,我们开始谈论艾伦·瓦茨。
所以我知道,你知道,艾伦·瓦茨是我之前在节目中重点介绍过的人。我认为是第 800 集,如果我没记错的话。哦,哇。这是准确的。因为这是第 100 集。因此,对于每 100 集,我都做了一些特别的事情。好的。而且我很确定对于第 800 集,我朗诵了。
艾伦·瓦茨演讲的一部分,他的梦想演讲。所以,无论是 800 集还是 700 集,它都会在节目说明中。所以我也在那次谈话中了解到,你博览群书。所以我现在真的很感兴趣,我问所有客人的一个问题,我迫不及待地想听听你对我们的书籍推荐是什么。
书克莱默。好吧。既然我们正在谈论艾伦·瓦茨,我觉得有必要,尽管有很多很多真正令人惊叹的书籍浮现在脑海中。但我认为艾伦·瓦茨的《不安全感智慧》是一本非常非常重要的书。而且我认为它的主题实际上与很多......
发生在这种创业领域的事情相符。不需要与之联系。我认为生活中有很多主题都属于这本书所谈论的世界。但最大的收获只是说,如果我们专注于我们几乎痴迷于......
想要告诉自己或其他人我们确切地知道某些事情。我认为它强调了这不是必要的。它强调了这种痴迷的许多次生效应,让我们感觉自己知道答案。或者我们知道会发生什么。或者我们知道会发生什么会导致......
生活中并没有真正过得愉快。这是正确的,也是不必要的。因此,这本书论证了在您处理生活的方式以及在给定情况下如何享受生活方面,有很多自由......
非常稀有的机会,以及您可以对现状以及任何特定时刻的体验更加感激,通过分离......
从这种需要确定事情的痴迷中解脱出来。所以这是一本强烈推荐的读物。很好。是的,我认为正是这本书让我们开始谈论艾伦·瓦茨。你之前也推荐给我了,我已经订购了。它正放在我床边一堆书的最上面,我还没有机会开始读。因为我通常不是多本书阅读者。我读完一本再读另一本。你现在在读什么?
我快要读完了。我距离读完库尔特·冯内古特的《感谢你,罗斯沃特先生》还有十几页。是的。很好。所以我非常喜欢库尔特·冯内古特,已经......
超过十年了。但一年前,我决定按时间顺序阅读他所有的小说。因为我,你知道,我这里读一本那里读一本,你知道,从他最著名的一本开始,《泰坦的号角》、《猫的摇篮》、《第五号屠宰场》。然后随机挑选一些。我想,你知道,我想把它们都读一遍,我想按顺序读。按顺序阅读实际上是一种非常有益的体验。
因为他有反复出现的角色和地点,有时他们实际上是来自其他书籍的同一个角色,或者其他时候他们碰巧有相同的姓名。这就像巧合。但看到他的思想发展很有趣
还有另一件关于这样做的非常有趣的事情是,他......他的书总是放在科幻小说部分。是的。但他的早期作品中有两部,包括......谢谢......谢谢......上帝保佑你,罗斯沃特先生。这就是它的名字。上帝保佑你,罗斯沃特先生是书名。并且......
上帝保佑你,罗斯沃特先生,以及按时间顺序排列的之前的书,是......哦,我的天哪,我忘了它的名字,但它遵循......是的,我完全忘了书名。我们必须把它找出来,然后把它放在笔记里。是的,没错。但这两本书都不是科幻小说。它们只是小说。有趣。所以他从科幻小说开始,然后他短暂地,至少在这两本书中......
实际上,我知道下一本书是《第五号屠宰场》,它确实包含科幻元素。所以很有趣的是,你知道,在我进行这个过程之前,我并不知道他拥有《夜》,《母亲之夜》是前一本书的名字。我没有读过那本。
《母亲之夜》和《上帝保佑你,罗斯沃特先生》。小说,不是科幻小说。另一件关于按时间顺序阅读的有趣的事情是,例如,我说我还有大约十几页就读完了《上帝保佑你,罗斯沃特先生》。他在倒数第 12 页提到了德累斯顿的轰炸。然后下一本书,《第五号屠宰场》,全部都是关于德累斯顿的轰炸。
所以这很有趣,因为你可以深入了解艺术家在创作过程中的想法。无论如何。你刚才说的是其他的。我建议你什么?你推荐了《走出你的思想》。哦,是的。是的。《讲座》。《讲座》。是的,《走出你的思想》是艾伦·瓦茨的一系列讲座,这些讲座已经被收集到这本书中。
很好。是的,我迫不及待地想读它,因为《不安全感智慧》对我来说是一本非常重要的书。强烈推荐。喜欢这个。非常感谢你今天抽出时间与我们在一起。你的讲话精准度让我印象深刻。
你说话的清晰度,如果人们想在这集节目之后了解更多关于你的信息,他们应该怎么做?他们应该如何关注你?我认为大多数这类信息都是从 LinkedIn 上发布的。所以我们肯定可以在那里联系,protopia.ai 也是我的电子邮件地址。所以很乐意联系。很好。你提供这个电子邮件地址真是太好了。
是的。非常感谢你,伊曼。是的,也许我们能够再次关注 Protopio 的旅程,看看我们在未来几年是如何朝着天堂前进的。喜欢这个。感谢你的邀请。
与极其聪明和清晰的伊曼·埃布拉希米一起度过了多么精彩的一集。在今天的节目中,伊曼介绍了 Protopia 的彩色玻璃转换如何允许机器学习模型使用转换后的数据表示,这些表示保留了模型的意义,但如果被拦截则无法理解。他谈到了企业 AI 中安全性和成本之间的关键权衡。那就是专用私有基础设施安全但通常过于昂贵,而共享基础设施具有成本效益但存在安全风险。
他谈到了为什么数据安全对于获得 AI 投资的投资回报至关重要。也就是说,如果没有无缝的安全解决方案,许多有价值的用例永远无法投入生产。
他谈到了多租户(多个用户共享计算基础设施)如何在看似私有的系统中产生安全漏洞,未来的基于代理的 AI 系统趋势将如何需要新的数据安全方法,因为代理会在多个位置和系统之间与数据交互,以及他谈到了主动而非被动方法对数据安全的重要性,重点是使泄露的数据无法使用,而不仅仅是试图防止泄露。
与往常一样,您可以获得所有节目说明,包括本集的文字记录、视频录制、节目中提到的任何资料、伊曼的社交媒体资料的网址,以及我自己的网址 superdatascience.com/843。
当然,感谢 Super Data Science Podcast 团队中的每一个人,我们的播客经理 Sonia Brayovich,我们的媒体编辑 Mario Pombo,合作伙伴关系经理 Natalie Zheisky,研究员 Serge Mercise,我们的撰稿人 Zahra Karchei 博士和 Sylvia Ogwang,以及我们的创始人 Kirill Aramango。感谢他们为我们今天制作了另一集精彩的节目。为了让超级团队为您创建这个免费播客,我们非常感谢我们的赞助商。是的,你,你可以自己支持这个节目。
通过查看我们的赞助商链接,这些链接在节目说明中。如果您自己有兴趣赞助一集节目,您可以通过访问 johncrone.com/podcast 获取详细信息。与您认为可能会喜欢这集节目的人分享这集节目。在您最喜欢的播客应用程序上进行评论。这对我们来说非常有帮助。订阅,显然,如果您不是订阅者并且您喜欢这个节目,是的,订阅。但最重要的是,
我希望你能继续收听。我很感激你能收听,我希望我能继续制作你多年来喜欢的节目。直到下次,继续在外面摇滚,我期待着很快与你一起享受另一轮 Super Data Science Podcast。