We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Why AI needs a "nutrition label" (from TED Talks Daily)

Why AI needs a "nutrition label" (from TED Talks Daily)

2024/8/6
logo of podcast The TED AI Show

The TED AI Show

AI Deep Dive AI Chapters Transcript
People
K
Kasia Chmielinski
Topics
Kasia Chmielinski:本演讲的核心论点是,当前的人工智能系统如同缺乏透明度的三明治,其内部的数据和算法如同“配料”一样难以被公众了解,这导致AI系统可能对特定人群造成负面影响。为了解决这个问题,演讲者提出了AI系统需要“营养标签”的观点,这如同食品的营养标签一样,可以帮助人们了解AI系统的“配料”,从而做出更安全和更明智的选择。演讲者还呼吁加强AI监管,并提出了三个原则:公司应该告知公众他们收集的数据;公司应该在使用数据之前告知公众他们将如何使用这些数据;构建AI的公司应该告知公众他们用来训练AI的数据。只有这样,才能确保AI系统的公平性和透明性,并最大限度地减少AI系统可能造成的危害。演讲者还提到了生成式AI带来的新挑战,以及数据收集规模的不断扩大,这使得AI的透明度问题更加突出。

Deep Dive

Chapters
Kasia Chmielinski introduces a food metaphor to explain the need for transparency in AI systems, comparing unknown AI ingredients to a sandwich that sometimes makes people sick without revealing its contents.

Shownotes Transcript

三明治与人工智能有什么关系?数据改革家卡西亚·赫米林斯基用一个有用的食物隐喻帮助我们思考人工智能——并解释了为什么人工智能系统应该具有“营养标签”以确保开发出更公平、更透明的算法。这是一集TED Talks Daily。每个工作日,TED Talks Daily都会以音频形式为您带来最新的演讲。加入主持人兼记者伊丽莎·胡,聆听关于从人工智能到动物学以及介于两者之间的一切主题的令人深思的观点——由世界领先的思想家和创造者提出。在您的一天中留出一些空间来改变您的视角,激发您的好奇心,并学习新知识。在您收听播客的任何地方都可以收听TED Talks Daily。</context> <raw_text>0 嘿,这里是Belovel。TED人工智能秀将短暂休整。但别担心。在此期间,我们想分享TED音频集体中的另一个节目,我们认为您会喜欢。请享用。您正在收听TED Talks Daily,我们每天都会为您带来新的想法来激发您的好奇心。我是您的主持人,伊丽莎·休。

三明治与人工智能有什么关系?数据改革家卡西亚·赫米林斯基用这个有用的食物隐喻帮助我们思考人工智能,并分解人工智能的成分,以展示它们有时如何让我们生病,以及如何在休息后使这些算法更健康。想要一个具有无与伦比的强大功能、速度和

和控制力的网站?试试Bluehost Cloud,这是Bluehost的新型网络托管计划。由WordPress专家为WordPress创建者打造。凭借100%的正常运行时间、令人难以置信的加载时间和全天候的WordPress优先支持,您的网站将以闪电般的速度实现全球覆盖。借助Bluehost Cloud,无论流量多大,您的网站都能轻松应对流量激增。此外,您还可以自动获得每日备份和世界一流的安全保障。立即访问bluehost.com开始使用。

现在,是今天我们的TED演讲。现在,我还没有见过你们中的大多数人,或者说实际上是任何一个人,但我感觉房间里的氛围非常好。所以我认为我想请你们所有人一起用餐。你们觉得怎么样?好!这么多新朋友。所以我们要到这家咖啡馆去。他们供应三明治。三明治真的很好吃,但我必须告诉你们,有时它们会让人非常非常难受。是的。

我们不知道为什么,因为咖啡馆不会告诉我们如何制作三明治,他们不会告诉我们配料,然后当局也没有办法解决这个问题。但提议仍然有效,所以谁想要一个三明治?一些勇敢的人,我们之后可以聊聊。但对于你们其他人,我理解。你们没有足够的信息来做出关于你们安全性的良好选择,甚至无法解决这个问题。

现在,在我进一步增加这里的焦虑之前,我实际上并不是想让你们生病,但这与我们目前制作算法系统(也称为人工智能或AI)的方式是一个比喻。现在,对于那些没有想过人工智能和三明治之间关系的人,不用担心,我来帮你们。我会解释的。你们看,人工智能系统,它们为社会带来益处。它们养活我们。但它们也让我们不稳定地生病。

我们无法获得构成人工智能的成分,因此我们实际上无法解决这些问题。我们也不能像停止吃可疑的三明治那样停止使用人工智能,因为它无处不在。我们常常甚至不知道我们正在遇到一个基于算法的系统。

所以今天,我将告诉你们一些我看到的人工智能趋势。我将借鉴我在过去二十年里构建这些系统的经验,告诉你们我和其他人构建的用于研究这些AI成分的工具。最后,我将给你们留下三个原则,我认为这将使我们与构建人工智能的公司建立更健康的关系。我将从一个问题开始,我们是怎么走到这一步的?人工智能并非新事物。我们与人工智能共存了二十年。

每次您在线申请东西、开设银行账户或通过护照检查时,您都会遇到一个算法系统。我们也与人工智能的负面影响共存了20年。这就是它让我们生病的方式。这些系统被部署在广大民众中,然后某些子集最终受到负面、不成比例的影响,通常是基于种族、性别或其他特征。

我们需要能够理解这些系统的成分,以便我们能够解决这些问题。那么人工智能系统的成分是什么呢?数据为人工智能提供动力。人工智能将看起来像你提供给它的数据。例如,如果我想为糖尿病创建一个风险评估系统,我的训练数据集可能是某个地区的成年人。所以我将构建该系统,它将非常适合该地区的那些成年人。但它不适用于其他地区的成年人,或者可能根本不适用于儿童。

所以您可以想象,如果我们将此部署到所有这些人群中,将会有很多人受到伤害。我们需要能够在使用数据之前了解数据的质量。但我遗憾地告诉你们,我们目前生活在所谓的“数据蛮荒时代”。在使用数据之前很难评估数据的质量。没有关于数据质量评估的全球标准。关于如何使用数据以及可以使用哪些类型的数据,几乎没有数据法规。

这有点像食品安全领域。如果我们无法了解配料的来源,我们也不知道它们是否安全可供我们食用。我们也倾向于将数据拼接在一起。每次我们拼接这些数据时(我们可能在互联网上找到、抓取,我们可能会生成它,我们可能会获取它),我们都会丢失有关数据质量的信息。构建模型的人并不是找到数据的人。因此,还有更多信息丢失了。

现在,我一直在问自己很多问题,关于如何在使用数据之前了解数据质量?这源于二十年来构建这些系统的工作经验。我接受训练的方式与人们今天所做的一样。你为分布的中间部分构建。那是你的普通用户。对我来说,我的许多训练数据集都包含有关来自西方世界、说英语、具有某些规范特征的人的信息。

我花了很长的时间才意识到我不是我自己的用户。所以我认同非二元性别,混血儿,我戴助听器,而且我根本没有出现在我正在使用的数据集中。所以我构建的系统实际上对我不起作用。例如,我曾经构建了一个系统,反复告诉我我是一个白人东欧女士。这对我的身份造成了很大的影响。

但也许更令人担忧的是,这是一个将在医疗保健中部署的系统,您的背景可以决定疾病的风险评分等因素。所以我开始想知道,我能否构建工具并与他人合作来做到这一点,以便我可以在使用数据集之前查看数据集内部?2018年,我在哈佛大学和麻省理工学院参加了一个研究员项目,我和一些同事决定尝试解决这个问题。因此,我们启动了数据营养项目。

这是一个研究小组,也是一个非营利组织,它为数据集构建营养标签。与食品营养标签类似,这里的想法是您可以在使用数据集之前查看数据集内部。您可以了解成分,查看它是否适合您想要做的事情。我们启动这个项目时考虑了两个目标受众。第一个受众是构建人工智能的人,他们正在选择数据集。我们想帮助他们做出更好的选择。第二个受众是构建数据集的人,

事实证明,当你告诉某人他们必须在某物上贴上标签时,他们会事先考虑成分。这里的类比可能是,如果我想做一个三明治并说它是无麸质的,我必须在制作三明治时考虑所有成分:面包和配料、酱汁。我不能只是把它放在三明治上,然后把它放在你面前,然后告诉你它是无麸质的。现在,我们对我们所做的工作感到非常自豪。我们将其作为设计,然后是原型,最终成为其他人制作自己的标签的工具。

我们与微软研究院、联合国和全球教授等机构的专家合作,将标签和方法整合到他们的工作流程和课程中。但我们知道这只是第一步。这是因为在每个数据集上贴上标签实际上非常困难。这归结于为什么要在数据集上贴上标签这个问题。第一个原因很简单。那是因为你必须这样做。

坦率地说,这就是食品营养标签存在的原因。这是因为如果他们不把它们放在盒子上,那将是非法的。但是,我们并没有真正的人工智能法规。我们对数据的使用几乎没有监管。现在,有一些法规即将出台。例如,欧盟人工智能法案本周刚刚通过,尽管没有关于提供训练数据的要求,但它们确实有关于创建透明标签的规定,例如数据集营养标签、数据表、数据声明,

这个领域有很多。我们认为这是一个非常好的第一步。你可能在数据集上贴上标签的第二个原因是,它是一种最佳实践或文化规范。这里的例子可能是我们如何开始看到越来越多的食品包装和餐厅菜单包含有关是否存在麸质的信息。这不是法律要求的,尽管如果你这样说,它最好是真的。

人们将此添加到他们的菜单和食品包装中的原因是,人们越来越意识到这种过敏症或疾病的严重性。因此,我们在这个领域也看到了一些变化。构建数据集的人开始在他们的数据集上贴上营养标签、数据表,而使用数据的人开始请求这些信息。这真的很令人鼓舞。你可能会说,“卡西亚,你为什么在这里?一切似乎都进展顺利。似乎越来越好了。”

在某些方面,确实如此。但我也是来告诉你们,我们与数据的关系正在恶化。在过去的几年里,人们对收集数据集的兴趣激增。公司正在抓取网络数据。他们正在将数百万小时的YouTube视频转录成文本。据估计,到2026年,他们将用完互联网上的信息。他们甚至正在考虑收购出版社,以便他们可以访问书籍中的印刷文本。

那么他们为什么要收集这些信息呢?他们需要越来越多的信息来训练一种称为生成式人工智能的新技术。我想告诉你们这些数据集的大小。如果你看看GPT-3,这是一个在2020年推出的模型,其训练数据集包含3000亿个单词或单词的一部分。现在,作为参考,英语包含不到一百万个单词。

仅仅三年后,DBRX就推出了,它是在8万亿个单词上进行训练的。所以从3000亿到8万亿,三年时间,数据集越来越大。随着每个后续模型的推出,数据集实际上越来越不透明。即使我们能够访问如此庞大的信息,如果没有任何透明度工具,也很难查看内部。生成式人工智能本身也引起了一些担忧。

您可能通过ChatGPT遇到过这种技术。我不需要知道你在互联网上做什么,那在你和互联网之间,但你可能知道,就像我一样,使用ChatGPT和其他生成式人工智能技术创建信息并将其发布到网络上是多么容易。因此,我们正在面临这样一种情况:我们将遇到大量算法生成的的信息,但我们不知道它,也不知道它是否真实。这增加了人工智能潜在风险和危害的规模。

不仅如此,我很抱歉,但模型本身正受到越来越少的美国科技公司私人参与者的控制。如果我们回到我们的咖啡馆类比,这就像少数私人参与者拥有所有成分,他们在全球制作所有三明治,而且监管不多。所以此时,你可能很害怕,可能感觉有点不舒服,这很有讽刺意味,因为几分钟前,我要请你们所有人吃三明治,你们说好。这就是为什么你不应该接受陌生人的食物的原因。

但我如果对未来不乐观的话,就不会站在这里了。这是因为我认为我们在监管和文化变革方面拥有动力,特别是如果我们与关于公司如何处理数据的三个基本原则保持一致。第一个原则是,收集数据的公司应该告诉我们他们正在收集什么。这将使我们能够提出诸如以下问题:它是受版权保护的材料吗?该信息是私人的吗?你能否停止?它还将数据开放给科学研究。第二个原则是

收集我们数据的公司应该在他们对数据做任何事情之前告诉我们他们打算如何使用这些数据。通过要求公司告诉我们他们的计划,这意味着他们必须有一个计划,这将是一个很好的第一步。这可能还会导致数据捕获的最小化,因为如果他们不知道他们已经打算如何使用数据,他们将无法捕获数据。最后,原则三:构建人工智能的公司应该告诉我们他们用来训练人工智能的数据。

这就是数据集营养标签和其他透明度标签发挥作用的地方。在数据本身不会公开的情况下(这很可能是大多数情况),标签对于我们能够调查成分并开始寻找解决方案至关重要。所以我想给你们留下一个好消息,那就是数据营养项目和其他项目只是全球人工智能问责制运动的一小部分。

Disset营养标签和其他项目只是第一步。即将出台的法规,文化规范正在发生变化,特别是如果我们遵循这三个基本原则:公司应该告诉我们他们正在收集什么,在他们对数据做任何事情之前告诉我们他们打算如何使用这些数据,以及构建人工智能的公司应该解释他们用来构建系统的数据。我们需要让这些组织对其正在构建的人工智能负责

通过询问他们,就像我们对食品行业所做的那样,里面有什么,你是怎么做的?只有这样,我们才能在问题发生之前而不是发生之后减轻问题,并通过这样做,创建一个对每个人都更健康的集成算法互联网。谢谢。

节目的支持来自LinkedIn。LinkedIn广告允许您建立正确的关系、推动成果并在尊重环境中接触您的客户。他们没有受到轰炸。这是非常有针对性的。您将直接接触并与

拥有十亿会员、1.8亿高级管理人员,似乎每个人都在LinkedIn上,以及1000万高管,您将能够通过专门为B2B构建的定位和衡量工具来推动成果。在技术领域,LinkedIn产生的广告支出回报率是

比其他社交媒体平台高出两到五倍。您将与尊重您所在B2B领域的合作伙伴合作。79%的B2B内容制作人员表示,LinkedIn为付费媒体带来了最佳效果。立即开始将您的B2B受众转化为高质量的潜在客户。我们甚至会在您的下一次活动中为您提供100美元的信用额度。访问linkedin.com/TEDaudio领取您的信用额度。网址是linkedin.com/TEDaudio。适用条款和条件。LinkedIn,最佳去处。

这是卡西亚·赫米林斯基在2024年TED沙龙大型赌注活动上的演讲,由洛克菲勒基金会支持。如果您对TED的策划感兴趣,请访问TED.com/curation guidelines了解更多信息。今天的节目就到这里。TED Talks Daily是TED音频集的一部分。本集由我们的团队Martha Estefanos、Oliver Friedman、Brian Green、Autumn Thompson和Alejandra Salazar制作和编辑。

由Christopher Fazey-Bogan混音。Emma Taubner、Daniela Balarezo和Will Hennessey提供额外支持。我是伊丽莎·休。明天我将带着一个新的想法回到您的订阅源。感谢收听。