We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

The path towards trustworthy AI

2024/10/29

Practical AI: Machine Learning, Data Science, LLM

AI Deep Dive AI Chapters Transcript

People

Elham Tabassi

Topics

Elham Tabassi: NIST 的使命是促进美国的创新和工业竞争力，通过发展测量科学和标准来增强人们对技术的信任，目前正将此应用于人工智能领域。NIST 通过与利益相关者进行开放透明的合作，开发工具、指南、框架、指标和标准来支持产业和技术发展。为了理解AI系统的信任构成，NIST与开发技术和研究技术影响的社区（包括经济学家、社会学家、心理学家和认知科学家）进行合作。NIST 的 AI 风险管理框架 (AI RMF) 是一个自愿框架，用于以灵活、结构化和可衡量的方式管理 AI 风险，并通过与 AI 社区的合作开发。AI RMF 将 AI 系统的信任定义为有效可靠、可问责透明、安全可靠、可解释和可理解、保护隐私并避免有害偏见的系统。NIST 试图通过示例（例如医疗保健中的 AI 系统）来解释 AI 中信任的概念，强调有效性、可靠性、安全性和隐私等关键因素。白宫关于安全、可靠和可信赖的人工智能开发和使用的行政命令加强了 NIST 在培养人们对人工智能的信任方面的努力。白宫的行政命令促使 NIST 加快了开发评估、安全和网络安全指南、促进共识标准以及为 AI 系统评估提供测试环境的工作。NIST 通过征求意见和公开评论来交付行政命令中规定的内容，并发布了关于生成式 AI 的 AI RMF 配置文件等文件。NIST 的生成式 AI 配置文件描述了生成式 AI 技术特有的或加剧的风险，包括信息操纵、有害内容、数据隐私风险和环境影响等。NIST 通过识别、测量和管理 AI 风险来促进 AI 系统的信任，这包括确定信任特征、测量方法和风险缓解策略。AI RMF 的建议分为治理、制图、衡量和管理四个功能，为风险管理提供结构化方法。组织可以通过阅读 AI RMF 和使用其配套工具包来实施 AI 风险管理，从治理和制图功能开始，并根据具体情况逐步实施其他建议。组织不必完全实施 AI RMF 中的所有建议，可以从阅读 AI RMF 和配套工具包开始，选择少量建议进行实施，并根据具体情况逐步实施。AI RMF 工具包为每个子类别提供了建议的行动、信息性文件和透明度建议。组织应根据自身资源和专业知识，优先考虑 AI RMF 建议的实施，并持续监控和管理风险。AI RMF 提供了特定行业或技术领域的配置文件，以帮助组织根据具体情况实施风险管理。已经有一些实体正在开发用于实施 AI RMF 的工具，NIST 正在与社区合作，关注工具的运营和实施。NIST 关注人工智能的未来发展，包括改进人工智能评估、建立更强的科学基础以及开发清晰易懂的技术健全的标准。NIST 希望看到人工智能技术被用作科学发现的工具，以促进精准医疗、个性化教育和气候变化研究等领域的进步。需要更好地理解人工智能模型的工作原理，并开发出可靠的评估方法来确保系统的可靠性和有效性。需要开发出清晰易懂的技术健全的标准，以促进人工智能评估、保证和治理的全球互操作性。 Chris Benson: 作为 AI 从业者，对 NIST 提供的指导表示赞赏，并强调了其在政府、行业和公众之间的作用。

Deep Dive

Chapters

Elham Tabassi introduces NIST's mission and its role in advancing AI technology through multi-stakeholder collaborations, emphasizing the importance of trust and risk management in AI systems.

NIST is a non-regulatory agency under the Department of Commerce focused on advancing U.S. innovation and industrial competitiveness.
The agency cultivates trust in technology by advancing measurement science and standards.
NIST's AI Risk Management Framework (AI RMF) is developed through open, transparent collaborations with diverse experts.

Shownotes Transcript

欢迎收听实用人工智能播客。如果您从事人工智能工作，渴望了解或好奇人工智能相关技术如何改变世界，那么这正是适合您的节目。感谢我们的合作伙伴 FlyIO，他们提供可在三十多个地区、六大洲运行的 Fly Transformer 容器，让您能够在靠近用户的地区启动应用程序。我们将在节目中进一步探讨。

各位朋友们，我今天很高兴地邀请到来自 Timescale 的新朋友。那么，让我们了解一下 Timescale 是什么。

Timescale 是一个 PostgreSQL 公司。我们在云端和开源生态系统中构建工具，让开发者能够在 PostgreSQL 中做更多事情。例如，使用它来处理时间序列数据，以及最近的 AI 应用，例如 Cragg 和类似的代理。

如果我们的听众想开始使用 PostgreSQL、Timescale 和 AI 应用，您会给他们什么建议？

如果你是开发人员，想涉足 AI 应用领域，或者你对该领域不断涌现的创新感兴趣，想要参与其中，那么好消息是，今天任何开发人员都可以通过他们已经熟悉和喜爱的工具成为 AI 工程师。

我们在 Timescale 中进行的与 PostgreSQL、AI 项目相关的合作，让开发者可以使用他们已有的工具和数据库（PostgreSQL）构建 AI 应用。这意味着您可以提升职业生涯，开展大胆、新颖和有趣的项目。

您可以增加技能，而无需学习全新的技术。最棒的是，这一切都是开源的。AI 和 PostgreSQL 向量数据库是我们的开源项目，您可以使用 Docker 在本地机器上运行它，并按照 Timescale 提供的教程学习如何构建 AI 应用，例如 Cragg，而无需学习十种不同的新技术。

只需使用您可能已经熟悉和精通的 PostgreSQL 和 SQL 语言即可。所以，今天就开始吧。访问 Timescale 的 GitHub 页面，找到 PostgreSQL AI 项目或 PostgreSQL 向量数据库项目，并按照教程开始学习如何使用 PostgreSQL 成为 AI 工程师。

好的，只需使用 PostgreSQL 开始 AI 开发，构建 Cragg，搜索 AI 代理，并使用开源工具。访问 timescale.com/flash-ai，体验 PostgreSQL AI 和 PostgreSQL 向量数据库，所有这些都可以在您的本地桌面运行。

欢迎收听另一期实用人工智能播客。我是克里斯·本森，我是洛克希德·马丁公司的首席 AI 研究工程师。很遗憾，我的同事今天无法与我们一起参与，但我很荣幸地向大家介绍埃尔汗·塔巴西，他是美国国家标准技术研究所 (NIST) 的首席 AI 顾问。

欢迎来到节目，埃尔汗。感谢您接受我们的邀请。

你们在这个领域做了很多工作，为 AI 奠定了基础。对于那些不熟悉的人，您能否简单介绍一下 NIST，以及你们在 AI 领域和其它领域的工作，以及您的角色？

NIST，即美国国家标准技术研究所，是美国商务部的一个非监管机构，成立于 1901 年。我们的使命自那时起就没有改变，即推动美国的创新和产业竞争力。我们的研究范围非常广泛，从制造最精确的原子钟到模拟野火行为。但最重要的是，我们长期以来一直致力于培养对技术的信任。我们通过推进计量科学和标准来做到这一点，这些标准使技术更加可靠、安全和私密，换句话说，更加值得信赖。我们在 AI 领域也正在开展类似的工作。

正如我之前提到的，NIST 成立于 1901 年，目的是制定重量和度量标准。我们致力于创建和发展度量标准，例如长度、质量、温度、时间和电力，所有这些都是技术创新和竞争力的关键。在 21 世纪之交，我们继续沿着同样的道路前进，与整个社区合作，为我们这个时代先进技术（人工智能）制定合适的标准和计量科学。我们所做的工作，至少在日常工作中，与过去一个世纪所做的工作类似，或者说是改进版本，重点是帮助行业开发具有科学严谨性的方法。

我们想强调的一点是，我们通过多利益相关者、公开和透明的合作来实现这一点。虽然我们拥有许多优秀的专家和专业知识，但我们知道自己并非无所不知，因此，建立共识和获得整个社区的支持至关重要。我们倾听、参与、收集反馈，并制定计量标准，以支持行业和技术发展。我们已经为 AI 风险框架、计算和网络安全做了类似的工作，并且正在继续努力改进风险管理和可信 AI 系统的方法和措施。

这是一个很好的介绍。我很好奇，您谈到了合作，您似乎处于政府对这些技术的兴趣以及与之相关的行业问题之间。您与许多组织合作，特别提到了信任。您能否谈谈这些合作是如何运作的，技术中的信任是如何发展的，以及在 AI 和相关技术中如何开展这一过程？

谢谢您的问题。正如我所说，我认为我们与利益相关者进行互动、与社区合作并征求意见，利用社区的知识，并建立在社区已取得的良好成果之上，通过与所有专家的合作，建立必要的技术基础，从而制定科学有效的方法和标准，这非常重要。

在 AI 领域的合作方面，我们都知道 AI 具有多方面的含义，为了理解信任的概念，以及哪些因素使 AI 系统值得信赖，我们在制定 AI 风险管理框架时，以及与社区的早期互动中，都认识到这一点。我们不仅需要技术开发社区（数学、统计学和计算机科学专家）的意见，还需要研究技术影响的社区（经济学家、社会学家、心理学家和认知科学家）的意见。

我们需要将他们聚集在一起，因为 AI 系统不仅仅是数据和计算机算法。它们是数据、计算机算法、人类、环境以及受系统影响的人类之间复杂相互作用的结果。因此，与社区中具有不同专业知识和背景的众多参与者进行互动，对于回答关于信任以及信任的构成方式的问题至关重要。

正如我所说，这是我们在制定 AI 风险管理框架（AI RMF）时，一个重要且核心问题。简而言之，AI RMF 是由国会指导的，是一个用于以灵活、结构化和可衡量的方式管理 AI 风险的自愿框架。正如我们对任何其他事物所做的那样，它是在与 AI 社区密切合作，并与具有不同背景、专业知识和观点的多样化群体互动的情况下制定的。特别是，我们关注信任的概念，以及哪些因素使 AI 系统值得信赖。

当我们开始这个过程时，已经有一些非常优秀、基于价值观的文档讨论了 AI 系统的非歧视性、道德性等问题，以及许多其他论文和出版物。关于什么是使 AI 系统值得信赖的观点有很多，这些观点并不完全一致。因此，信任不是可以用完美触发器定义的属性，但基于我们与社区的合作、互动和咨询，我们确定了建立 AI 系统信任的关键要素。AI RMF 将信任描述为有效、可靠、负责、透明、安全、安全、弹性、可解释和可干预的，并能有效管理有害偏见。AI RMF 更进一步，为每个特征提供定义，让社区对每个特征的期望达成共识，并讨论这些特征之间的相互关系和权衡取舍，例如如何在保证安全性的同时保护隐私或增强可解释性。

我很好奇，随着我们深入探讨这些主题，关于信任的一个方面是，我们这些在该行业工作并每天开发 AI 的人，会遇到一些工作问题，NIST 提供的指导非常宝贵，特别是参与到制定和实施这些标准的过程中。

但在我们深入探讨所有这些之前，还有许多人不在我们这个行业。他们对 AI 感兴趣，每天都在新闻中看到它，并试图了解我们正在开发的技术。许多收听此播客的听众，我们可以称之为“对 AI 感兴趣的人”，而不是“AI 从业者”。

我们是实践者，同时也是对 AI 如何融入我们生活感兴趣的人。我想知道您是否可以花点时间，从信任和 AI 的角度，为那些不是直接从事该行业的人解释一下。NIST 如何尝试为更广泛的公众解释这些概念？还是主要面向从业者？您如何看待这一点？

谢谢您的问题。让我用一个例子来回答。我们正在见证 AI 技术的巨大进步。仅仅在过去一年，我们就看到了许多强大模型的发布。我们还看到这些技术正在融入社会和工作方式。我想用医疗领域 AI 系统的应用来解释信任的概念。例如，在医学影像中，我来自计算机视觉领域，所以我很熟悉。

当我们进行脑部医学影像时，问题是那里是否有肿瘤？AI 可以帮助医生做出决定。

首先，对于这些系统，我们希望从 AI 风险管理框架的角度来讨论信任。我们希望这些系统是有效和可靠的。我们希望确保其准确性。

我们希望误报和误诊率较低，因为我们不想让患者因为系统错误而感到恐慌，或者相反。我们希望系统按预期运行。

我们希望系统有效且结果可靠。此外，我们还希望系统安全且具有弹性，因为如果系统被攻击，并且许多个人信息落入不怀好意的人手中，我们希望系统能够保护隐私。我们已经听说过，特别是大型语言模型，它们有记住训练数据的倾向。即使在大型语言模型出现之前，也有论文表明，具备一定专业知识的人可以从 AI 系统中推断出训练数据。因此，如果系统已使用真实患者数据进行训练，我们不希望有任何漏洞会导致这些个人信息的泄露。

我们希望系统具有可解释性和可理解性。如果系统说存在肿瘤，我们希望它能提供一些解释，说明为什么做出这样的判断。当然，对于不同的受众（医生、技术人员或患者），解释的复杂程度和信息量也会有所不同。当然，我们希望系统公平，不应针对特定人口群体更准确。通常，如果训练数据存在偏差，就会发生这种情况。所有这些最终目标都是为了建立对这项技术的信心，确保这项技术能够发挥作用，并为做出更好的决策提供结果、预测和建议。

在这种情况下，分析脑部扫描以查看是否存在肿瘤。所有这些都是为了让 AI 技术发挥其潜力，成为强大的工具，并以积极的方式改变我们的工作方式，同时最大限度地减少技术带来的负面影响。

朋友们，我今天很高兴地邀请到 Retool 的创始人兼首席执行官大卫。大卫在内部软件开发领域确实做出了巨大的贡献。在开始之前，您能谈谈内部软件的理念吗？

是的，我们七年前开始做这件事，并开始构建 Retool。核心思想是内部软件是一个巨大的、人们很少关注的领域。令人惊讶的是，内部软件占全球所有代码的 50% 到 60%。

如果您考虑一下，我们大多数人，硅谷的许多人，都在为公司工作，无论是 Airbnb、谷歌还是 Meta，这些都是软件公司，销售软件和附加软件。但您是否想过，世界上大多数软件工程师实际上并不在这些软件公司工作？世界上大多数软件工程师实际上并不在这些软件公司工作。

所以，我们考虑一家像 LVMH 或可口可乐这样的公司。他们每天都在做的软件，基本上都是内部构建的。我认为我们开始构建 Retool 的原因有两个。首先，内部软件是一个巨大的领域。其次，如果您查看所有这些内部软件，它们非常相似。

例如，如果您查看 Zara 或可口可乐，这两家公司在业务上截然不同，一家是服装公司，另一家是饮料公司。但是，他们内部构建的软件通常非常相似。

它基本上是由表单、按钮和表格组成的，这些都是非常常见的构建模块，以不同的方式组合在一起。如果您考虑一下，不仅仅是 UI，还有许多逻辑，例如与数据库的连接、身份验证和授权，这些都是常见的构建模块，人们可以用来构建工具。

首先，我们意识到内部软件是一个巨大的领域。其次，开发人员正在构建这些软件。所以，我们能否创建一个更高层次的框架来构建所有这些软件？这将非常酷。

这真是太棒了。好？所以听众真的适合所有人，适合企业，适合大规模，适合开发人员。如果你发现自己，不是你的头脑，那么看看重新发布的红外套闪现的变更日志，这是构建国际软件的工具。你帮个忙，今天免费试用或开始演示。

我知道，在2023年初，NIST发布了我们一直在谈论的AI风险管理框架，但几个月后，几乎就在一年前，也就是10月下旬，白宫发布了关于安全、安全和值得信赖的AI开发和使用的行政命令。所以我想了解行政命令的发布如何改变、加速或改变了NIST已经开展的工作。你们已经通过框架和其他活动参与到人工智能中。你能描述一下行政命令对你们工作的实际影响吗？

当然。为了回答你的问题，如果我可以的话，可以从2023年1月发布AI风险管理框架到2023年10月30日发布行政命令。AI风险管理框架于2023年1月发布，同年3月，我们发布了AI资源中心。

这是一个一站式知识、数据和工具，用于AI风险管理，包括AI风险管理框架及其手册，以一种交互式和易于搜索的方式呈现。顺便说一下，AI资源中心仍在开发中，我们希望不断添加更多功能。例如，标准库和矩阵。

我们希望成为所有信息的综合平台，也是不同专家之间开展活动的场所。2023年6月，在发布AI风险管理框架之前，ChatGPT 3于2022年11月发布，ChatGPT 4于2023年2月发布。因此，为了应对所有这些新发展和先进技术，我们组建了一个AI生成公共工作组，超过2000名志愿者帮助我们研究和了解通用人工智能的风险。

然后，正如你所说，在10月份，我们收到了关于安全、安全和值得信赖的AI的最新行政命令。这份行政命令建立在我们从AI风险管理框架、手册、资源中心到生成AI公共工作组所开展的基础工作之上。它极大地推动了AI的信任培养工作，并为我们提供了一些明确的时间表，特别是针对今年需要开展的评估。它规定了安全和网络安全指南，以促进共识空间标准的制定，并为AI系统的评估提供测试环境。所有这些指南和基础设施，与新闻的性质一样，将作为AI社区的志愿资源，以支持AI的信任发展和负责任的使用。

我们以与开展所有工作相同的方式来完成这项工作，即向社区发出信息请求，根据收到的反馈意见发布草稿文件供公众评论，根据收到的评论意见制定最终文件。我们非常重视这些文件，所有这些文件都在2023年7月26日之前发布。

其中一份文件是关于生成AI的AI风险管理框架概况。文件编号是这个。我们喜欢用数字来指代所有内容。这份文件是NIST AI 600-1，它根据我们与生成AI公共工作组的讨论和反馈，对AI风险管理框架进行了补充研究。我想总结一下，这份文件的核心贡献在于描述了生成AI技术带来的新风险或加剧的风险。这些风险包括：CBR信息能力的访问和同步，可能导致CBRN（化学、生物、放射性、核）虚假信息和危险、暴力、仇恨内容的设计能力，数据隐私风险，环境影响，人机配置，信息完整性，信息安全，知识产权，有害内容，价值链和组件集成概念，以及生成AI的二元部署开发人员，现在我们正在处理第三方组件（包括数据）的上游，这些组件是价值链的一部分。因此，你们正在开展的工作之一是与社区合作，以更好地了解AI技术堆栈，了解不同AI参与者的角色，以便更好地进行风险管理。

是的，你在谈论这个。你能描述一下，当我们谈论AI风险、建立技术信任的努力时，如何将这些联系起来？在识别这些风险并列出这些风险之后，如何通过风险缓解来实现信任，从而帮助人们实现生产性技术应用？这个问题是否有意义？

当然有意义。我将尽力回答。AI系统并非天生具有风险，通常是环境决定了是否会产生负面影响。例如，我通常使用的例子是，如果我使用面部识别来解锁手机，那么机场的面部识别与我们现在用来登机的面部识别技术是一样的，但由于环境不同，风险和我们希望系统以值得信赖的方式运行的保证水平也不同。

因此，我们在AI信任方面的工作尝试首先是解开概念，尝试了解使系统值得信赖的特征，这有助于回答如果我想知道系统是否值得信赖，需要衡量哪些特征的问题。我列出了七个更有效和可靠的特征，以及六个安全集合，以尝试。这为我们提供了一种更系统化和结构化的方式来了解哪些维度、哪些特征共同构成了一个值得信赖的系统。顺便说一下，AI风险管理框架也谈到了这一点，即并非每个特征本身都能使系统值得信赖。你可能拥有一个非常安全但并不有效或准确的系统。这不会产生信任，一个准确性很高但安全性很差的系统也不会产生信任。这再次为我们提供了一种更结构化的衡量方法。

下一步是如何衡量方法和矩阵。这些类型的测量提供了有关系统限制和能力的信息，以及这些限制和能力可能造成的风险和影响。然后，我们可以根据这些信息提出风险缓解和管理措施。AI风险管理框架的建议实际上是根据政府的四个功能（映射、测量和管理）进行分类。政府正在为组织提供关于程序、流程、规则和责任的建议，以有效地进行风险管理。

那么，问责制在哪里？映射功能中的角色和责任，提供关于使用内容的建议，回到面部识别示例，了解AI系统运行的环境，了解受这些系统影响的社区，识别特定环境中的风险，了解适用于此使用环境的法律、法规和政策。测量功能提供关于如何衡量所有已识别风险的建议，以及如何考虑所有这些信任特征之间的权衡。在管理风险方面使用所有这些信息，建议可以从可以实施的保护和缓解措施，到有时无法缓解，只能接受、转移或系统风险过高而不能开发或部署。这就是AI风险管理框架的过程。

互联网上有很多关于你的个人信息，你知道的，任何人都能看到这些信息。比你想象的要多。你的姓名、联系方式、服务安全号码、家庭地址和过去地址。

甚至还有关于你家人成员的信息，甚至可能包括你宠物的名字，所有这些信息都被数据经纪人收集并出售。很明显，这些数据经纪人从你的数据中获利。他们将你的数据视为商品。

任何人都可以购买你的个人信息。他们可以进行身份盗窃。他们可以进行网络钓鱼。

他们可以进行网络钓鱼。他们可以骚扰你。他们可以向你发送不需要的垃圾邮件。他们可以不断地打电话给你。这是我经常遇到的问题。

但现在你可以使用DeleteMe来保护你的在线隐私。作为一名在网上公开存在一段时间的人，尤其是一个经常在网上分享自己观点的人，我非常清楚安全和隐私的重要性，并且认真对待这一点。在网上找到任何人的个人信息比以往任何时候都更容易。所有这些数据都存在于互联网上，并且可能在现实世界中产生实际后果。这就是我为什么对最近找到的这个解决方案感到兴奋的原因。

本节目赞助商之一是DeleteMe。DeleteMe是一种订阅服务，可以将你的个人信息从数百个在线数据经纪人那里删除。注册后，你可以告诉DeleteMe你想删除哪些信息，他们的专家会从那里开始。

他们会定期向你发送个性化的隐私报告，显示互联网上关于你的信息，他们在哪里找到这些信息以及他们删除了什么。DeleteMe不仅仅是一次性的服务。他们一直在为你工作，不断改进。

删除你不想在互联网上看到的信息。简单来说，DeleteMe会为你完成所有繁重的工作，从数据经纪人网站上删除你的数据、家人信息以及你不想公开的任何信息。下一步是控制你的个人数据，并永远保持其私密性，方法是订阅DeleteMe。

现在，为了我们的听众，我们提供了一个特别折扣。当然，这太棒了。通过发送“practical”到640000，你可以享受DeleteMe计划的20%折扣。发送“practical”到640000。

当然，你可能已经知道了，但短信和数据费用可能适用。总之，再次发送“practical”到640000，即可享受20%的折扣。DeleteMe，享受吧。

这对我来说非常有用，因为它帮助我理解和构建政府的测量和管理方法。你刚才谈到了一些非常有趣的事情，即你正在尝试衡量值得信赖的特征，但这不仅仅是一个问题，也不是非黑即白的问题。

你拥有一个特征集合，这些特征在不同的用例中有所不同。这听起来就像你拥有不同用例的特征概况。如果你作为NIST的消费者，在一家小型AI公司工作，并尝试实施NIST的指导方针，并通过政府的映射、测量和管理流程评估你自己的特征概况，那么如何构建这种框架？如果你刚刚开始并尝试实施这些指导方针，你能谈谈一家可能以前没有这样做过的组织如何开始实施特定用例，以及如何开始这个过程吗？

首先，我想说，你不需要实施AI风险管理框架中的所有建议才能进行完整的风险管理。因此，我们的建议是先阅读AI风险管理框架。它不是一个很长的文件。

我想它大约有30到35页，所以先对它有一个整体的了解，然后查看AI资源中心中的手册。但是，AI风险管理框架中的每个建议都是高层次的，分为功能、类别和子类别。

因此，从宏观角度来看，我们提供关于目标的建议，然后针对每个建议提供更具体的建议。手册中的每个子类别都包含一些建议，我认为有许多子类别，它们提供了建议的操作、信息文件，供你阅读以获取更多信息，以及关于实施该子类别的透明度和记录的建议。

因此，我们通常建议先了解AI风险管理框架，花一些时间阅读手册，了解可以做的事情。然后，根据用例，根据你想要做的事情，从AI风险管理框架中选择少量建议，并开始实施这些建议。政府的映射功能是一个有用的起点。政府提供关于你为成功风险管理所需设置的建议。

因此，我可以提供一些关于组织所需资源和团队的建议，以便他们能够根据自己的资源和团队进行调整。正如我们之前讨论的，映射功能提供了关于更好地理解环境和需要衡量内容的建议。我还想补充一点，政府的映射、测量和管理功能没有特定的顺序。这取决于用例和需要完成的任务。

起点可以是任何功能的建议。我们通常建议从映射和管理开始，然后从几个子类别或建议开始，根据组织的资源和专业知识进行优先级排序，当然，根据他们自己的风险管理。最后，还要记住，风险管理不是一次性的活动，你完成一次就说“我的AI系统风险管理完成了”。数据漂移、模型漂移等情况会发生，模型会根据用户和环境的交互而发生变化。因此，我们建议持续监控和风险管理。因此，我认为映射或管理建议之一是重复评估风险。

因此，我的建议是，我提到了AI资源中心，提到了手册，还提到了AI风险管理框架中的概况。我不断强调使用环境的重要性，以及AI系统部署、开发和风险管理中的环境重要性。同时，AI风险管理框架的设计目的是跨部门和技术的。

我们试图建立一些基础，一些共同的实践，需要了解或建议进行风险管理。但是，我们也有一节关于AI概况和垂直构建建议。这些是AI风险管理框架中特定用例或使用领域或技术领域的概况或激励措施，以便每个子类别可以细化或与该概况对齐。

例如，可以有一个用于医学图像识别的AI风险管理框架概况，或者我们可以想象一个用于金融领域的AI风险管理框架概况。我们被要求与社区合作开展这项工作。AI资源中心上发布了一些概况，其中一个是由劳工部为包容性招聘制定的，另一个是由劳工部为AI中的人权制定的。这些可以为组织提供一些开始的视角或想法，除了概况之外，我们还发布了一些用例，并将发布更多用例，这些用例将展示不同组织如何使用AI风险管理框架，这将有助于提供更实际的AI风险管理框架使用示例。

不，那是一些很棒的建议。嗯，我实际上想就这个问题提出一个后续问题，作为我后续问题的序言，如果我理解正确的话，我想去阅读或查看AI风险管理框架（AI RMF）文档。它不长，很容易阅读。去看看手册。看看子类别，我相信你说有七十多个，你知道，它提出了建议的行动和对其他文件的引用。

嗯，然后开始逐步、少量地处理你提到的功能，从制定治理地图开始，然后是怎样组建资源和团队，然后循环往复地进行特定于你所在行业的重复评估。当你这样做的时候，我觉得这对我来说非常实用。我们实际上是实践者，所以这很吸引人。

嗯，我想问一下，现在有没有，或者你是否预期会有类似的工具，如果你看看软件行业以外的情况，大型软件行业作为先例，标准、工作流程和最佳实践在整个软件开发领域兴起，围绕着如何进行敏捷方法论等各种不同的软件开发方法，出现了很多工具。你是否预期会有工具，或者你还没有考虑过什么样的工具可能有助于AI开发团队？嗯，当他们组建这些团队和资源时，以便他们随着时间的推移能够高效工作。你如何看待未来的发展？或者你认为这是否会像我们在软件和其他领域看到的那样形成一个小型工具行业，那里有很多工具支持？

是的，我们已经开始看到一些这样的情况了。所以有一些实体正在为实施AI RMF和相关工具开发工具，并将其发布到他们的网站上。如果我可以简单地回顾一下，感谢你对我的总结，我的问题很长。

它很好。我学到了很多。

很多。我建议听众从AI资源中心开始。你的网站是AI资源中心（AIC），AI风险管理框架（AI RMF）也在那里。手册以交互式和可过滤的方式呈现。所以，如果他们的业务只是，你知道，有开发人员，他们可以首先过滤所有，你知道，从七个建议中，只针对开发人员的，所以他们不必处理所有内容。

或者，如果他们只关心部署和部署中的偏见问题，他们可以去过滤，你知道，针对部署的AI参与者，以及针对偏见的特征，这可以节省他们一些时间，所以这是我们网站上的一些信息，以及关于我们如何以更合适的方式提供信息的提示。是的，已经有一些实体开始开发更多针对AI风险管理框架（AI RMF）的工具，例如针对生成式AI的工具，以及我们在社区中开展的工作，我们正在关注运营化。所以，无论是为运营化和实施AI风险管理框架（AI RMF）所需的工具，还是强调社区参与以及社区输入在所有这些事情中所扮演的角色。一些工具可以由我们开发，但大多数工具是由社区开发并由社区共享的，我们支持这一点。

我们看到更多这样的情况。我也希望如此。这真是令人着迷。你给我们的框架非常棒，你知道，它可以应用于许多不同的垂直领域和许多不同的方式，但其指导方针仍然灵活。在我们结束的时候，我们已经看到AI技术和围绕它的行业都取得了很大的进步，而你正处于这些指导方针和标准在政府和行业之间汇聚的中心。

展望未来，当你不在特定会议中，只是在思考事情的发展方向时，你对未来的看法是什么？无论是关于这个角色，还是关于整个行业和技术的发展方向，因为它的发展速度如此之快，如此之快，它正在改变商业的面貌，改变我们作为人类和员工的面貌，以及我们可用的工具。我真的很想了解你对未来几天和几年的看法。

我认为，对我来说，我的目标是看到这项强大的技术被用作一种科学发现工具，就像你在做的那样。科学发现就在那里。

我认为，我们将看到许多进步，例如精准医学、个性化教育、气候变化等等，这些将使我们所有人的生活变得更好。嗯，我必须说，我被一些事情感动了，比如阿尔法狗，我认为它需要很多认可。

但是，所有对AI的认可，以及那些奖项，我们也都非常清楚，AI可以做的事情以及社区需要做的事情。我认为我们都同意，我们对这些模型的工作方式还知之甚少，我们应该对此做些什么。我们需要更好地理解这些模型的工作方式。

有能力和局限性，这让我想到评估和测试这个重要话题。在播客的开头，我们谈到将信任的概念融入需要衡量的事情中是很重要的。但归根结底，我们需要可靠的衡量标准来确保系统是可靠的。

作为一家测量科学机构，我们非常赞同卡尔文勋爵的一句话，即如果你无法测量它，你就无法改进它。所以，如果你想提高系统的可靠性和可信度，我们需要很好地掌握如何测试它们以及如何评估其可靠性和有效性，以及我们对如何测试AI系统的了解。我们对如何测试AI系统了解得非常有限。我们需要更好的评估。

正如我们所看到的，基准测试很容易，但很快就会饱和。我们需要更好地理解它们的工作原理。这关系到建立对这项技术的信任，并让用户，每个人都相信这个系统有效。第三点，一旦我们建立了知识库，一旦我们有了良好的科学基础，一旦我们通过研究和与社区合作建立了技术基础，让我们制定清晰、易于理解且技术上健全的标准，以帮助全球改进AI评估、AI保证和AI治理。

太棒了。非常感谢你参加我们的实用AI播客。就如何构建框架而言，这非常有指导意义，我肯定会将这些信息用于未来的工作。非常感谢你今天抽出时间与我们交谈。

很高兴有机会在这里谈话，并且真的很享受这次谈话。谢谢。

好了，本周的实用AI播客就到这里。如果你还没有，请现在订阅，了解所有这些方法，并加入我们的免费Slack团队，在那里你可以与丹尼尔、克里斯和整个Changelog社区互动。今天就在实用AI播客社区注册。再次感谢我们的合作伙伴Fly AI。

经常光顾的听众，感谢你收听。我们很高兴你抽出时间与我们在一起。这就是节目。下次见！

The path towards trustworthy AI 51:46 Share

Practical AI: Machine Learning, Data Science, LLM

Deep Dive

Shownotes Transcript

The path towards trustworthy AI