We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Federated learning in production (part 1)

Federated learning in production (part 1)

2025/5/30
logo of podcast Practical AI: Machine Learning, Data Science, LLM

Practical AI: Machine Learning, Data Science, LLM

AI Deep Dive AI Chapters Transcript
People
P
Patrick Foley
Topics
Patrick Foley: 传统的机器学习方法依赖于集中式数据训练,但这种方法在处理隐私敏感或数据量巨大的场景时会遇到挑战。联邦学习提供了一种替代方案,它不将数据集中,而是将模型发送到数据所在的位置进行训练,从而在保护隐私的同时实现分布式训练。这种方法与传统的分布式训练密切相关,但更加强调隐私保护的重要性。在联邦学习中,需要特别关注如何验证模型不泄露关于数据的敏感信息,以及如何应对来自多个互不信任的参与方的潜在威胁。因此,联邦学习不仅仅是一种技术手段,更是一种在多方协作环境下,保障数据安全和隐私的策略。 Patrick Foley: 在实际操作中,联邦学习框架首先需要对模型有一个共同的理解,然后将模型分发到各个参与方。在实验启动时,会有一个中心服务器(或称为聚合器)负责与所有参与方通信,分配任务并提供最新的模型权重。客户端(或称为合作者)则在本地运行代码,并根据联邦学习计划进行训练。这个计划包含了模型的超参数、网络配置等重要信息。为了确保数据安全,需要进行严格的审查流程,尤其是在医疗机构等对数据隐私有严格要求的场景下。在训练过程中,模型权重会被限制在NumPy字节中传输,以避免潜在的代码注入风险。训练完成后,各个参与方会将更新后的模型权重发送回聚合器进行整合,这个过程可以通过加权平均等方法实现。通过这种方式,联邦学习可以在保护数据隐私的前提下,达到接近集中式训练的准确率。 Patrick Foley: 联邦学习的聚合方法有很多种,其中FedAverage是最常用的算法之一。但针对数据异质性问题,还有其他算法可以更好地处理不同客户端之间的数据分布差异。例如,FedOpt算法会考虑各个合作者的损失项,以便更快地收敛到全局最优模型。虽然这仍然是一个活跃的研究领域,但通过应用这些先进的聚合方法,联邦学习通常可以达到与集中式训练相媲美的性能。在实际应用中,联邦学习已经被成功部署在医疗、金融等多个领域,例如脑肿瘤分割、文本预测等。这些案例充分证明了联邦学习在保护数据隐私的同时,实现高效模型训练的潜力。

Deep Dive

Shownotes Transcript

在本系列关于联邦学习的两集播客的第一集中,我们与英特尔的 Patrick Foley 一起深入探讨了联邦学习和分布式 AI 框架不断发展的世界。我们探讨了 OpenFL 和 Flower 等框架如何实现跨数据孤岛的安全协作模型训练,尤其是在医疗保健等敏感领域。对话涉及现实世界的用例、分布式 ML/AI 实验的挑战,以及为什么隐私保护技术可能成为将 AI 部署到生产环境中不可或缺的关键。 参与者: Patrick Foley – 领英 Chris Benson – 网站、GitHub、领英、X Daniel Whitenack – 网站、GitHub、X 链接: 英特尔 OpenFL 赞助商: NordLayer 是一个为现代企业构建的即时启用网络安全平台。它在一个易于使用的平台中结合了 VPN、访问控制和威胁防护。无需硬件。无需复杂的设置。只需不到 10 分钟即可实现安全连接和完全控制。NordLayer 年度计划可享受高达 22% 的折扣,使用优惠券代码 practically-10 还可以额外享受 10% 的折扣。</context> <raw_text>0 欢迎收听 Practical AI 播客,本播客旨在使人工智能对所有人来说都实用、高效且易于访问。如果您喜欢这个节目,您一定会喜欢 The Change Log。周一发布新闻,周三进行深入的技术访谈,周五则是一个适合您周末休闲欣赏的精彩脱口秀节目。您可以在收听播客的任何地方搜索 The Change Log 找到我们。

感谢我们的合作伙伴 Fly.io。在五分钟或更短的时间内启动您的 AI 应用。请访问 Fly.io 了解详情。♪

欢迎收听 Practical AI 播客的另一集。我是 Daniel Witenack,PredictionGuard 的首席执行官,一如既往地由我的联合主持人 Chris Benson 陪同,他是洛克希德·马丁公司首席 AI 研究工程师。Chris,你好吗?今天过得很好,Daniel。你呢?

还不错。我得说,我今天思绪有点分散,可能分布在各个主题上,在不同的会议之间来回跳转。谢天谢地,我们今天将继续这个主题,进行关于联邦学习的讨论,因为我很高兴 Patrick Foley 能来到这里,他是

英特尔专注于联邦学习的首席 AI 架构师。Patrick,你好吗?很好,感谢邀请我参加节目。是的,当然。我曾说过,我们 PredictionGuard 的一位工程师 Aishwarya(向她致敬)不久前在伦敦的 Flower 大会上发言,我想我碰到了你。所以很高兴

很高兴能得到这个线索。但自从我们上次讨论联邦学习以来已经有一段时间了,我们在之前的剧集中讨论过这个话题。但我很好奇,对于那些可能一直在听到很多关于

大型语言模型和大型语言模型或生成式 AI 的听众来说,现在已经有一段时间了。让我们回到这个话题,你能为我们设置一下场景,并大致解释一下联邦学习的含义吗?是的,当然。在我们继续之前,我今天分享的观点和意见仅代表我个人,并不一定反映英特尔公司的立场。

机器学习的主要训练范式是将您的数据集中化,然后在本地数据上训练您的模型。

在许多情况下,由于隐私问题或数据量过大,您无法集中数据。因此,有一种不同的技术,它不是将您的数据发送到中心位置,而是将您的模型发送到数据所在的位置,并在那里进行训练。正如您从描述中可能可以看出,它与分布式训练密切相关。但是,它更加关注隐私

问题。因此,您如何验证模型没有封装有关数据和威胁者的信息,因为这不仅仅是一个人控制所有基础设施,而是多个可能互不信任的参与方。这就是我们需要关注这些问题的许多差异来源。

为了更深入地探讨一下,也许可以更深入地探讨一下。所以,如果您将模型带到……

到这个分布式数据中,也许可以带我们了解一下训练流程,我想。所以您将模型发送到拥有数据的地方,在这个训练过程中会发生什么,或者它与人们习惯听到的训练方式有何不同?

是的,当然。现在有很多封闭源和开源的联邦学习框架。我领导着 Open Federated Learning(OpenFL)开源项目。许多人都是以同样的方式进行的。但这实际上涉及到首先对模型有一个共同的认识。

然后,可能会有一个分发工作区或代码的阶段,以便每个人都有记录要在其基础设施上运行的代码。因此,在实验启动时,有一个服务器或我们称之为聚合器的中心点,每个人都通过该服务器进行通信以进行工作。

他们应该执行哪些任务,或者他们应该在其上进行训练的最新模型权重是什么。然后,客户端被称为协作者。因此,每个人都可以看到该代码是什么,并且

我们有联邦学习计划的概念,其中包括代码本身之外的所有内容。这可能是模型的超参数,您可能想知道的一些网络细节,是否使用了 TLS、相互 TLS,

以及如果您是希望在其基础设施上运行软件的医院,并且由于 HIPAA 或 GDPR 的考虑而不希望公开您的数据,那么您可能关心的许多其他事情。因此,提前进行审核过程非常重要。然后,一旦完成审核,就可以实际启动实验。

这意味着对于聚合器或服务器来说,它正在启动启动 gRPC 服务器或某种 REST 服务器的应用程序。然后,对于协作者来说,他们只是启动他们的本地进程并与该本地服务器建立连接。因此,流程是,这实际上是实验进行的所有设置。但是聚合器有一个……

初始模型权重,每个人都将在实验的第一轮中进行训练。然后每个人都收到这些模型权重,这并不是模型的全部内容,我们把事情分成这个供应阶段和运行时阶段,这样我们就可以限制实际发送的内容。

跨网络。我们不需要发送 Python 对象,因为发送 Python 对象的风险要高得多,因为它们能够发送可能随后泄露您的数据的代码,并且这些代码不一定是提前审核过的。因此,信息窗口非常小,并且

我们将通信路径限制为 NumPy 字节。这样做的优点是,如果您只处理模型权重,那么这意味着您可以跨许多不同的深度学习框架进行训练。因此,我们可以使用 PyTorch 模型、TensorFlow 模型等,

您可以将这些模型权重发送到网络。您可以填充已提前发送给您的 Python 代码,进行本地训练。然后,根据您拥有的更新或根据您的本地数据,您将更新后的模型权重发送回聚合器,然后以某种方式将它们组合起来。

在最简单的情况下,这可能是基于您在每个协作者本地可能拥有的数据集数量的加权平均值。然后,这实际上构成了联邦学习训练的一轮。然后,我们看到,仅仅使用这些简单的方法,您就可以达到 99% 的准确率,而使用单独在集中数据上训练的模型则无法达到。

我很想知道,当您谈到将每个数据聚合回主服务器时,您谈到了不同的聚合方式。我很想知道,算法上是否有许多不同的方法

来进行这种聚合?或者大多数情况下它是否遵循相同的机制?人们是否倾向于选择不同的数据聚合方式?我只是想知道从业者之间通常有多少差异?

是的,这是一个很好的问题。我们发现 FedAverage 在很多情况下都能很好地工作。因此,FedAverage 是 Google 首创的联邦学习的原始聚合算法。这可以追溯到 2017 年。他们实际上是在那时首次创造了联邦学习这个术语。但是……

但是,还有一些其他算法能够更好地处理不同客户端站点之间可能具有不同数据分布的数据异构性。因此,在这种情况下,您可能需要忽略一些异常值,或者以不同的方式合并它们的本地更新,以便您可以捕获这些信息或更快地收敛到全局模型,该模型在所有这些不同的数据分布上都能表现良好

。因此,有一些算法确实试图捕获这些信息。因此,FedOpt 就是其中一种算法,它包含了不同协作者的损失项。这确实是一个热门的研究领域,但我们发现它确实有所不同。但是,通过应用其中一些顶级方法,您通常可以达到与单独的集中数据相比相当好的收敛点。

Patrick,我很想知道,我们能否讨论几个用例,指出过程中的参与者。我们已经讨论了聚合。我们已经讨论了这些。

您称之为客户端或协作者。因此,这组拥有模型并对模型进行更新的分布式协作者,这些更新随后会重新聚合在一起。如果您能重点介绍一下,例如,在该行业的这个模型中有一个用例。参与方将是

聚合方,以及该基础设施的运行位置。参与方将是协作者,模型将在其中分发。这将非常有帮助。是的,当然。我将,我将采用一个……

我的团队参与的联邦学习的第一个实际部署。因此,大约在 2018 年左右,英特尔开始与宾夕法尼亚大学合作,尝试在医院中部署联邦学习,用于脑肿瘤分割。这发生在 Google 发布其关于联邦学习的开创性论文之后不久,该论文表明,这在 Android 手机上的文本预测方面取得了巨大成功。这是联邦学习的医疗应用。然后,这发展到我们可以证明我们可以达到 99% 的准确率,而集中训练的模型则无法达到。然后,这扩展到

一个更大的现实世界联邦,我们能够在全球大约 70 家不同的医院进行训练。因此,这些医院中的每一所都代表了我之前提到的架构中的协作者。

然后,宾夕法尼亚大学充当了中心点或聚合器,用于填充初始模型。这是一个三维卷积神经网络,一个分割模型。使用 DICOM 数据,然后尝试根据该图像估计胶质母细胞瘤脑肿瘤的位置。嗯,

因此,有协作者和聚合器。这就是它的高级概览。但是,除了这种更……

我认为是香草联邦学习架构之外,还需要处理许多其他细节。这实际上源于在存在隐私风险的情况下,如何识别错误标记的数据存在许多问题。因此,这实际上需要数据科学专家或具有联邦学习背景的人员来深入研究如何识别数据

这些转换问题可能会出现。因此,宾夕法尼亚大学承担了大部分责任。英特尔的工程师也参与了很多这些工作,

我指的是,这些不同的 IT 管理员和各家医院的数据所有者只是试图找出可能存在错误标记的数据集或类似情况。但这确实表明,参与者的整体布局存在差距。我们需要拥有更多这种共享平台,以便您可以安全地交换这些信息并访问这些数据。从这项研究出来之后,我们一直在努力解决这个问题。

朋友们,NordLayer 是为现代企业构建的即时启用网络安全平台。它结合了所有优秀的功能,VPN、访问控制、威胁防护,并且都在一个易于使用的平台中。无需硬件,无需复杂的设置,只需安全连接。

和完全控制。不到 10 分钟即可完成。无论您是企业主、IT 管理员还是网络安全团队的成员,NordLayer 都能满足您的需求。以下是一些用例。企业 VPN。您多久旅行一次?需要从一个端点到另一个端点建立安全连接。访问资源。防止在线威胁。防止 IP 泄漏。

这种情况经常发生。威胁防护呢?如果您想防止恶意软件,或者风险很高,您身处何处?您在咖啡店。

恶意软件、勒索软件、网络钓鱼,这些事情每天都在发生,没有受到保护的用户就是受害者。威胁情报呢?如果您可以在威胁升级之前就发现威胁,那该怎么办?您可以识别、分析和防止内部和外部风险。这就像每天都在处理暗网内容。数据泄露、泄露管理,

严重的事情。当然,我们的听众可以获得非常棒的优惠。NordLayer 年度计划可享受高达 22% 的折扣,使用优惠券代码 practically-10 还可以额外享受 10% 的折扣。是的,这是单词 practical,然后是 L-Y-10。所以是 practically-10。第一步是访问 nordlayer.com/practicalai。

使用代码 PRACTICALLY-10 可额外享受 10% 的折扣。再次强调,网址是 NordLayer.com/Practical AI。

Patrick,我想知道,您在那里提供了一个非常好的例子,说明了医疗保健用例,分布式协作者是这些医院,聚合器是大学。当然,其中还有一些相关的细节,我相信,你知道,这些细节很难解决和研究。我想知道,

我想知道的一件事,这可能是人们心中想到的事情,

在我们围绕人工智能和机器学习的氛围中,与联邦学习相关的模型类型是什么?对于刚进入人工智能领域的人来说,这可能有点令人震惊,嘿,仍然有很多非生成式 AI 模型。实际上,大多数人工智能模型(姑且这么说吧)或机器学习模型都不是生成式 AI 模型。

因此,他们可能会惊讶地发现仍然有很多这样的模型。我认为根据您之前所说,这些类型的非生成式 AI 模型与联邦学习程序或框架相关。但是,您能否让我们大致了解一下相关的模型类型,并将其与我猜想的一些实际约束联系起来,

管理这些联邦学习实验,例如可用的计算能力、网络开销等等,以及这在某种程度上决定了目前以这种方式训练的模型类型。是的,当然。我认为到目前为止,大多数联邦学习的实际部署都集中在非生成式 AI 模型上。

我举的例子是这种 3D 分割类型的用例。已经有很多其他此类分类模型的部署。从框架支持的角度来看,联邦学习真正关注的是神经网络。这样做的原因不仅仅是因为过去 10 到 15 年神经网络取得了所有进步,还因为您在所有这些站点上都有一个共享权重,这些站点将分发这些模型。我的意思是,作为一个比较点,所以说支持向量机或随机森林将拥有某些东西,这将

从根本上基于您在这些站点之一本地拥有的数据分布。因此,使用神经网络并将其用于联邦学习,这使我们能够拥有更清晰的方法来组合这些权重以进行聚合,而无需提前了解太多有关数据分布的信息。我必须说,有一些方法可以对这些其他类型的场景执行联邦学习。因此,我们最近在 OpenFL 中添加了对联邦 XGBoost 的支持。还有其他类型的算法实际上表现得相当好。我的意思是,回到生成式 AI 的部分,这当然也是联邦学习的一个重要关注领域。我们有很多客户一直在询问

他们如何将大型基础模型、生成式 AI 模型用于联邦学习和这种隐私保护方式的训练。为了达到您的观点或关于

我们遇到的规模限制的问题,对于这些大型生成式 AI 模型来说,这当然是一个问题。我们非常幸运地拥有 PEFT 和量化等技术,这些技术可以应用,因此您不需要一次训练所有 700 亿个权重,并将它们分布到网络中,因为随着联邦规模的扩大,

当然,由此产生的网络流量也会很多。因此,通过尽可能缩小规模,我们仍然可以支持这些类型的模型,但我认为我们仍然必须使用这些附加方法,而不仅仅是基础训练,因为规模和

训练它们所需的时间当然始终是一个问题。是的。对于那些或多或少熟悉某些术语的听众来说,这些 PEFT,这是参数高效的方法,其中可能只使用模型函数的一些参数。

在训练过程中进行更新,并在那里创建一些效率,量化方法是通过降低这些参数的精度来限制总参数集的精度或大小。

参数。我想知道,Patrick,我们已经自然而然地谈到了这一点,但您开始谈论添加功能之类的请求。显然,在您的情况下,我认为我们主要讨论的是 OpenFL。我想知道您能否简单地介绍一下。现在我们已经更广泛地讨论了联邦学习,它是什么,一些

用例等等。显然,需要框架来支持此过程,OpenFL 就是其中之一。您能否更高级别地向我们介绍一下该项目?是的。OpenFL,Open Federated Learning(开放式联邦学习)的缩写,自 2018 年左右就存在了,它源于我们与宾夕法尼亚大学进行的研究合作。其他联邦学习框架所做的是,它们真正从一个

然后扩展到现实世界和生产部署。我们采取了相反的方向。我们必须处理将此框架部署到医院时出现的现实问题以及由此可能产生的挑战。当我说我们时,我的意思是,这是英特尔我的团队之间的合作,该团队更专注于如何采用这些技术并将其部署到

将它们带入产品中,宾夕法尼亚大学,以及英特尔的安全性与隐私研究实验室。当然,他们也非常专注于研究,并且长期以来一直在思考安全和隐私以及机密计算。因此,这实际上是将研究与医疗保健和脑肿瘤分割类型部署方面的专家结合在一起的自然合作

将正确的功能带入这个框架中,该框架最初是英特尔的一个大型研究项目,但此后已成为一个更大的框架,专注于如何在公司之间或非常大型公司之间执行此操作。

涉及学术界的部署类型,以及如何将不同的参与方聚集在一起。是的。显然,它被称为 OpenFL。我认为人们可以在开源社区中的某个地方找到它。我还看到它与 Linux 基金会有一定的关联,如果我理解正确的话。您能否谈谈这些事情,以及

我认为生态系统中人们可以找到哪些东西,以及参与者是谁,以及发展方式。是的,当然。因此,OpenFL 最初是英特尔的一个封闭源项目,然后我们在 2020 年左右将其开源。此后,我们将其捐赠给了 Linux 基金会,

该基金会的数据和人工智能子组。原因是,开放就在名称中。我们希望这成为一个真正由社区驱动和拥有的项目。这就是我们认为随着时间的推移,它将获得最大吸引力和成功的途径。因此,我们不希望英特尔成为负责完全控制其发展方向的人,为了真正成为一个成功的开源项目,您需要考虑社区,

解决这些问题,并让他们在许多情况下掌控方向。因此,英特尔仍然在 OpenFL 的开发和路线图中占据很大比重,但我们有一个由 Linux 基金会管理的技术指导委员会。我是该指导委员会的主席,但我们也有

Flower Labs,它支持 Flower 联邦学习框架,也是该技术指导委员会的参与者。我们有来自 FATE 的代表,FATE 实际上是我们的竞争对手/合作者,Leidos,以及宾夕法尼亚大学。

他们的教师实际上已经搬到了印第安纳大学,但他们仍然代表着我们最初的合作。他们是我们长期的合作者,他们继续对联邦学习在研究目的上的最适用领域拥有强烈的愿景。

我想就使用情况而言,有时对于开源项目来说,这很难衡量。但是,你知道,你能谈谈这个吗?也许,你知道,你刚参加了 Flower 大会,我相信你正在以其他方式参与社区,在其他活动和在线活动中。

您能否谈谈过去几年您在联邦学习的实际使用以及 OpenFL 项目的参与方面所看到的情况,以及这种势头是什么样的,您如何看待它随着时间的推移可能发生的变化,以及您如何看待这种发展趋势?

是的,当然。我认为它自 2020 年左右以来确实有所发展。我们,我们拥有当时世界上最大的医疗保健联邦。我们在自然通讯中发表了一篇论文,展示了我们所做的工作。但是,

很明显,其他框架也开始涉足许多现实世界的联邦学习。我参与 Flower 峰会是因为,实际上,英特尔我的团队和 OpenFL 在过去三年左右的时间里一直在与 Flower Labs 合作。

我们共同对联邦学习的互操作性和标准非常感兴趣。我认为我们双方很早就认识到,与深度学习研究相比,联邦学习还比较新。我们正在探索

我们已经看到,事情正在朝着与早期存在的深度学习框架相同的方向发展,在早期,这些框架大量涌现。然后,随着时间的推移,这些框架之间会发生更多整合,因为一个生态系统变得更加成熟,或者它们在不同的方面进行了专门化。

因此,我们一直在与 Flower 和其他团队密切合作,研究如何在我们的框架之间建立这种互操作性,并努力达到这样一种状态:我们对其中一些较低级别的组件有一个明确的标准,因为最终我们正在解决问题。

一遍又一遍地解决相同的问题,而我们的不同实现之间并没有真正需要这样做。如果您已经做过一次,那么如果您以正确的方式完成,那么您应该能够利用该核心功能,然后将其导入到您想要的任何库中。这确实是开源精神,站在巨人的肩膀上。

这就是我们希望前进的方向。因此,在 Flower 峰会上,我们现在已经能够运行 Flower 工作负载。这是我们的竞争对手/合作者,但我们可以在 OpenFL 基础设施之上运行他们的工作负载。并且

进入我们专门化并确实存在差异的部分。因此,Flower 在建立大型联邦学习社区方面做得很好。我认为,对于联邦学习的扩展及其可见性,他们创造了奇迹。他们也与研究有着非常密切的联系。因此,我认为他们看到了

人们想要为隐私保护 AI 做的各种事情。由于我们在安全和隐私、机密计算以及如何真正深入思考如何防止联邦学习和这些分布式多方工作负载的威胁方面拥有历史,因此 OpenFL 也一直在思考这个问题。我们有幸来自英特尔,

实际上发明了许多机密计算技术,例如软件保护扩展。因此,您可以完全在这些安全区域内运行 OpenFL,这意味着即使是本地 root 用户也无法看到应用程序中实际发生的情况。如果您在此基础上使用其他服务,

例如英特尔信任授权,则允许您实际远程验证其他人是否正在运行他们应该运行的工作负载。因此,这里的部分愿景以及我们为什么如此兴奋地与 Flower 合作的原因是,现在您可以运行

作为 Flower 社区的一部分,这个非常大的社区,您现在可以在英特尔硬件上的这些机密计算环境中使用 OpenFL 运行这些工作负载。因此,所有这些事情是如何流动的,这是一个链条。但这是我们与更广泛的联邦学习社区一起努力的方向,我们对此感到非常兴奋。

Patrick,这对我来说真的很有趣。我学到了很多东西。你让我开始思考,我开始思考在我的生活中,在我的世界中,OpenFL 是什么。我真的很专注于代理用例。

在本系列关于联邦学习的两部分访谈的第一部分中,我们与英特尔的 Patrick Foley 一起深入探讨了联邦学习和分布式 AI 框架不断发展的世界。我们探讨了 OpenFL 和 Flower 等框架如何实现跨数据孤岛的安全协作模型训练,尤其是在医疗保健等敏感领域。此次谈话涉及现实世界的用例、分布式 ML/AI 实验的挑战,以及为什么隐私保护技术可能成为将 AI 部署到生产环境的关键。 参与者: Patrick Foley – 领英 Chris Benson – 网站、GitHub、领英、X Daniel Whitenack – 网站、GitHub、X 链接: 英特尔 OpenFL 赞助商: NordLayer 是一个为现代企业构建的、可随时切换的网络安全平台。它在一个易于使用的平台中结合了 VPN、访问控制和威胁防护。无需硬件。无需复杂的设置。只需不到 10 分钟即可实现安全连接和完全控制。NordLayer 年度计划可享受高达 22% 的折扣,使用优惠券代码 practically-10 还可以额外享受 10% 的折扣。</context> <raw_text>0 而且,你知道,在边缘,某种程度上,是物理 AI,执行该操作的物理设备。而且,你真的让我思考了所有我们可以将联邦学习应用于这些环境的方式。我,我在想,是否存在,什么,什么,什么,

是,你知道,显然是一波巨大的活动。我们尤其是在过去一年左右的时间里看到,围绕着在物理上进行联邦学习的故事,不仅仅是在不同的数据中心等地方,你拥有它,而是在边缘设备上,你存储了大量数据在这些设备中,并且你正在运行一个遗传算法。

你知道,操作和那些,并且你想要尝试,嗯,去,去,去将联邦学习应用于该环境。关于它的发展方向以及现在的情况和未来可能的发展方向的想法是什么?是的。所以,我的意思是,这将是一个很大的领域。我们,

我们完全预期这将是我们想要支持的事情。因此,对于智能体来说,神经网络是组件之一,然后你拥有根据神经网络提供的任何信息实际执行操作的工具。因此,从根本上说,我们可以通过训练神经网络并以保护隐私的方式进行训练来绝对支持这些智能体用例。

所以我认为,一个尚未得到充分研究的领域,我认为对此越来越关注,但大型语言模型如何操纵

以某些其他神经网络无法实现的方式记住数据。因此,这确实是一个热门的研究领域。但我认为,这取决于你如何训练这些模型,以及最终如何部署它们。因此,如果你在已经存在数据的边缘进行训练的这种架构之上使用隐私增强技术,那么你将获得更大的信心,即不会有你的信息以某种方式暴露在模型最终出现的地方。

模型最终出现的地方。是的。就记忆而言,你在这里谈论的内容将类似于,嘿,我正在训练,在这个设备上,假设它只是一堆人的客户端,并且理论上这些客户端的通信包含个人信息,对吧。

大型语言模型可以以分布式方式进行训练,但会通过集中聚合的模型泄漏数据。我理解正确吗?就是这样,就是这样。我们一直都有客户来找我们,问我们如何才能确保我的数据不会泄漏到模型中?

我们用来处理这个问题的最好的方法是,那里存在不同类型的技术。你拥有可以应用噪声的差分隐私,这样你就可以在共享这些模型权重时尽量不暴露任何关于你的数据的根本信息。

你还有其他技术,例如,同态加密,你可以在模型实际发送用于聚合之前对其进行加密。但实际上,并非所有方法都是完全万无一失的。正如我们所说,没有免费的午餐。然后是机密计算,它具有以下优点:你实际上可以在这些完全受限的环境中进行训练,即使是 root 用户也无法访问这个受保护的小环境。

加密内存区域。但这最终需要你在边缘拥有硬件才能执行那种事情。所以这才是真正的挑战所在。还有一些统计方法可以用来估计数据泄漏到模型中的情况。OpenFL 支持一个名为 Privacy Meter 的工具。

它实际上允许你根据你所做的本地训练来训练一个影子模型,然后根据你拥有的本地数据分布和你所训练的精确模型拓扑结构来获得某种关于百分比风险的图表。因此,我认为,在如何尝试量化数据泄漏量方面,可见性有所提高。

但对于某些技术来说,代价是模型整体准确性的降低。因此,你必须根据每个实验、每个模型和每个数据分布来调整这些内容。这就是需要来自该领域有经验的人员进行一些工作和提出建议的地方。

我还有一个问题,也许这是一个奇怪的问题。所以请听我说,听我说这个。在你说话的时候,我一直在思考这样一个事实,即围绕着隐私和 AI 的整体情况可能正在发生一些变化。

由于某种原因,人们似乎现在想要将大量数据发送给第三方 AI 提供商。我认为人们逐渐变得更加老练,并且开始理解这其中的含义。

将你的数据发送给第三方,指的是使用来自模型构建者的第三方 AI 模型提供商,而不是在其自己的基础设施中运行。但肯定有一个更广泛的,比如这已经将隐私话题带给了更广泛的受众。也许不是那么

以前,可能存在这种关于联邦学习的讨论,在数据科学家、研究人员、那些试图训练模型使其越来越好的人之间。现在似乎存在关于隐私的更广泛的讨论,你知道,AI 提供商和许多人都在谈论这个问题。当然,我们已经看到人们

我们当然也与他们合作,以构建他们自己的私有 AI 系统。但我想从你的角度来看,你有点像在杂草丛中或战壕里,我想这是最好的词,就是帮助人们解决他们实际的隐私问题。你是否看到围绕着 AI 加隐私的格局或认知发生了某种变化,在某种程度上

你知道,如果可以的话,在 ChatGPT 时代之后。是的,绝对的。因此,OpenFL,这是我的团队直接支持的开源项目,但我的责任还包括另一个方面,那就是在 OpenFL 之上构建,以真正解决

许多客户的担忧。我的团队实际上正在 OpenFL 之上构建一项名为英特尔 Tybur Secure Federated AI 的服务,这使得企业客户更容易部署安全的联邦学习。因此,对于我们与之交谈的许多人来说,他们真正担心的是

我的意思是,他们拥有在他们的本地数据集上表现非常好的这些基础模型,但他们最终无法访问边缘或他们正在合作的一些子客户生成的那些数据。他们不一定是联邦学习方面的专家。因此,我们已经从许多不同的方面听说过,如果……

存在一项服务可以提前为他们提供大量基础设施和建议,以便轻松部署这项服务。那么,这将使他们更容易执行许多这些实验,并验证这是否会长期有效。我之前谈到了机密计算的使用以及它如何成功地用于这种事情。而且,

这是我们一直在努力专门研究并为许多客户群简化的一个领域。因此,如果你拥有英特尔 SGX 等技术,并且这些技术可用于参与此联邦学习实验的各方的范围,那么这将为你提供一些非常好的特性。你不仅可以将这些不受信任的管理员从威胁边界中移除,还可以验证你的模型 IP,因此

模型权重,甚至模型拓扑结构本身都不是应该访问它的人所泄露的东西。如何保护你的知识产权。我的意思是,当然还有数据,联邦学习的主要关注点之一就是不向窥探者泄露数据,而是模型本身。我认为对于我们许多医疗保健客户来说,他们将花费数百万美元来获得 FDA 的批准。因此,

将其泄露给某人会对他们之前所做的所有工作构成风险。多年来,我们已经从许多客户那里听到了这一点,但我认为有一个

正如你提到的,由于生成式 AI,人们对此的关注度更高。我认为它为在现实世界中部署这些模型的好处打开了大门。我很想知道,通过这次谈话我学到了很多东西。当我们,我认为我可能一开始就,我们过去曾与一些人进行过联邦学习方面的谈话

我认为我仍然有点纠结于分布式数据是联邦学习的驱动力。你之前提到过,你知道,就是这样,但更重要的是,在我看来,在这段谈话中,这些围绕隐私的担忧,可以采取许多不同的形式,从保护个人个人数据到知识产权保护,到监管,等等,你知道,

是否可以说这些可能是联邦学习的主要驱动力?因为在我看来,这就是这段谈话随着时间的推移所发展到的方向,而不是我所预期的,那就是更分散的,你知道,我刚才提到了边缘问题。我只是想知道,你认为,我理解正确吗?就目前而言,驱动因素是什么?绝对是正确的方向。当我之前谈到 OpenFL 架构中参与者之间的区别时,我提到了协作者和聚合器,当每个人都天生相互信任或存在某个中央机构时,这对于单个实验来说就足够了。因此,这里与宾夕法尼亚大学和联合肿瘤分割倡议的并行性,这是世界上最大的医疗保健联盟,每个人都信任最终部署这些工作负载的宾夕法尼亚大学。

随着联邦学习规模的扩大,以及你可能不认识的人加入其中,你需要有其他方法来建立这种信任。因此,治理是 OpenFL 中缺少的部分。这就是我们在其基础上构建我们所建立的服务的地方。因此,你如何提前审查模型,如何拥有一个实际记录这些信息的中央平台

各方都同意将在其基础设施上运行的工作负载,并以不可修改的方式确定将要训练的数据集是什么,实际参与实验的不同身份是什么。治理是许多我们一直在与之交谈的客户非常关心的问题。如果你想要跨竞争类型的联盟,你可能会有

两家不同的制药公司,他们拥有大量内部生成的数据。通过合作来训练他们各自的模型或竞争对手的数据,他们可以获得相互的利益。他们可能达成了某种协议,规定最终生成的模型是什么,他们有收入分成协议或类似的东西。拥有一个平台来能够在竞争环境中建立这种类型的合作,这正是我们……

长期以来,我们看到联邦学习的发展方向。我们正在努力寻找一种实现这一目标的方法。是的,你已经开始进入一个可能很好的结束我们谈话的地方,那就是展望未来。你一直在研究 OpenFL,

以及其他一些工作已经有一段时间了,并且一直与社区互动,当你展望未来时,未来几年对你来说最令人兴奋的是什么?是的,我认为真正令人兴奋的是,我的意思是,不同参与者之间的合作,我认为现在真的很令人兴奋。

我认为对我个人来说是很有动力的,因为现在有一种精神,对于深入研究这个领域的人来说,一切都是新的和令人兴奋的,人们想要弄清楚如何推动一切向前发展。我认为生成式 AI 确实为此起到了催化作用。就弄清楚我们如何让人们

访问那里孤立的数据,以及我们如何以一种实际上使行业能够采用这些技术的方式来做到这一点。因为我们不希望联邦学习永远停留在研究领域。我们希望真正将它向前推进,使其成为在存在这些当然非常普遍的隐私问题时,大规模进行机器学习的主要方法之一。它们对公司来说很常见,对个人来说也很常见。因此,开放这些孤岛是其中一件我认为这样做将带来很多好处的事情。这种好处将以更准确的模型或我们期望的长期更强大的模型的形式出现,这仅仅是因为增加了对数据的访问。

太棒了。就是这样。这非常令人兴奋。我希望很快能再次邀请你参加节目。你知道,明年,无论何时我们看到其中一些内容发挥作用,感谢你的工作,以及团队的工作,更广泛的社区在你所做的事情上的工作。是的,继续努力。感谢你抽出时间。感谢你邀请我参加节目,Daniel 和 Chris。非常感谢。谢谢。

好的。这是我们本周的节目。如果你还没有查看我们的 ChangeLog 时事通讯,请访问 changelog.com/news。在那里,你会发现 29 个理由,是的,29 个理由说明你应该订阅。

我会告诉你第 17 个理由,你实际上可能会开始期待星期一。听起来好像有人得了星期一的病。changelog.com/news 上还有 28 个理由在等着你。再次感谢我们 Fly.io 的合作伙伴、Breakmaster Cylinder 的节拍以及你们的收听。现在就到这里,但我们下次再聊。