We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Sean McGregor on the AI Incident Database and the AI XPRIZE

2021/7/6

Last Week in AI

AI Deep Dive AI Chapters Transcript

People

Sean McGregor

Topics

Sean McGregor: AI事故数据库的灵感来自航空等行业，旨在收集和分析AI系统中的事故案例，以改进AI系统设计，提升安全性。数据库对"损害"的定义宽泛，包含任何存在损害或潜在损害的情况。数据库的目的是为了帮助AI工程师和研究人员了解AI系统的缺陷，并制定相应的解决方案，避免类似事件的发生。数据库收集了来自世界各地的案例，并允许第三方对数据进行分析和分类。最终目标是构建一个更安全可靠的AI系统，造福社会。 Sean McGregor: 在AI XPRIZE项目中，评判标准是项目对社会的益处，而非技术本身。该项目旨在奖励利用AI改善世界的项目。最终获奖的项目涵盖了打击人口贩卖、改善心理健康治疗和消灭疟疾等领域，体现了AI技术在改善人类福祉方面的巨大潜力。 Sharon Jo: 对AI事故数据库的讨论，涵盖了数据库的创建初衷、数据收集方法、公众和企业对数据库的反应，以及数据库在促进AI安全和责任方面的作用。对AI XPRIZE项目的讨论，涵盖了该项目的评判标准、参与团队及其项目，以及该项目对AI技术发展和应用的影响。

Deep Dive

Chapters

The AI Incident Database collects failures and incidents in AI to inform industrial practices and improve safety, inspired by similar databases in aviation.

Shownotes Transcript

对Sean McGregor的采访，他是神经加速器初创公司Syntiant的机器学习架构师，也与XPRIZE基金会合作，并且是AI合作组织的AI事件数据库的创建者和维护者。订阅：RSS | iTunes | Spotify | YouTube 音乐：Deliberate Thought，灵感来自Kevin MacLeod (incompetech.com) </context> <raw_text>0 您好，欢迎收听Skynet Today的Let's Talk AI播客，在这里您可以听到AI研究人员关于AI实际情况的讨论。我们每周发布AI新闻报道，还会采访AI领域的人士。我是主持人Sharon Jo。在这个特别的访谈节目中，我们将听到Sean McGregor的分享。

Sean是神经加速器初创公司Syntient的机器学习架构师，他与XPRIZE基金会合作，负责构建IBM Watson AI XPRIZE的架构，该奖项在上周刚刚颁发了500万美元的“AI向善”奖。他也是AI合作组织的AI事件数据库的创建者和维护者，这将是我们今天讨论的主题。Sean，非常感谢您参加本期节目。

谢谢，Sharon。很高兴来到这里。我对AI事件数据库非常兴奋。我们在每周的AI新闻播客中聊过它。你能否快速地概述一下它的功能吗？当然。AI事件数据库的灵感来自航空等领域的类似数据库，在那里……

收集所有故障、事故、事件到一个地方。然后，利用这些故障集合来改进工业实践和设计，使这些系统更加安全，更好地服务于世界。因此，对于AI来说，这似乎是一个自然的契合点，因为，你知道，与

你只需要改进设计，而不需要发挥你的想象力。对于智能系统来说，你往往不知道事情会如何出错，直到你得到一个例子，然后你就会拍拍额头说，哦，我

当然，这是我们需要解决的问题。因此，将所有这些故障收集到一个地方，并利用它们来告诉公司产品负责人、公司机器学习工程师以及公众AI的优缺点以及在真正实现适用于现实世界的强大AI之前需要解决的问题，这在直觉上是自然而然的。

是的。您涵盖了许多不同类型的事件，这些事件要么造成近乎伤害，要么确实对人们造成伤害。我看到您的网站上专门对伤害和近乎伤害进行了定义。为了让听众了解其中的一些内容，这里有一些非常棒的例子：

谷歌的YouTube儿童应用因不当内容而受到批评就是其中之一。如果您还记得，几年前，YouTube儿童应用中出现过不当内容。此外，还有谷歌照片将黑人识别为大猩猩的事件，

这是关于谷歌的计算机视觉算法将许多黑人识别为大猩猩的新闻报道，这是非常不合适的。

最后，一名特斯拉司机在使用自动驾驶功能时观看《哈利·波特》时丧生，这涵盖了从软件世界到造成人员死亡的特斯拉车祸等各种事件。您能否告诉我您是如何提出伤害定义的，以及您是如何收集所有这些事件的？

当然。最初，而且现在也是如此，伤害的定义是有意地广泛的，只要存在伤害或近乎伤害，我们通常都会倾向于包含这些事件。我们与乔治城安全与新兴技术中心合作制定了目前数据库中的定义，并且

我们一直在与他们广泛合作。实际上，一个新功能即将推出，可能就在本期播客发布前后，其中包括一个分类法，它根据许多表格条目、许多类型的

伤害类型、相关实体对数据库中的所有事件进行分类。我很高兴能将其发布到世界各地。因此，伤害的定义基本上是，如果你要将其概括成一句话，那就是类似于，有人说存在伤害。而且，这

足以让人们想要从这些事件中学习，并防止这种情况在未来再次发生。是的。对于这些事件中的每一个，我看到您列出了大量相关的新闻文章。因此，许多事件都受到了相当多的关注。

当您发布AI事件数据库时，反响如何？因为我知道，公司名称就在那里，并且收集了关于谁的事件最多或至少人们已经报道的数据。从公司和公众的角度来看，反响如何？因为我觉得这早就应该做了。

是的，我完全同意。我认为您对公司和公众的区分很有用。我认为对于公众来说，这更多的是AI的奇观。我认为该数据库满足了他们的重要需求，它将所有这些不同的观点收集到一个地方，以便他们能够筛选并通过综合不同的观点来找出真相。

但总的来说，你可以预期更多的人会阅读《连线》杂志的文章，而不是阅读事件数据库本身。因此，从公众的角度来看，……

数据库中包含的内容可能比数据库本身更有影响力。数据库通常旨在防止这些事情在未来再次发生。它试图告知公司中的机器学习工程师或研究人员（像我一样），以便……

你知道，当我需要去公司领导层那里说，“嘿，我们需要额外花费X时间和数十亿美元来解决这个问题。否则，你就会在《连线》或《麻省理工学院技术评论》等杂志上看到一篇关于该系统有多糟糕的文章。”而且，

因此，它是一个非常有用的公司工具，也是人们和公司想要能够使用的工具。你实际上已经可以在数据库中的许多事件中看到这一点，在很多情况下，这些事件的来源是或曾经是在大型科技公司工作的人。他们非常有兴趣将这些资源整合在一起。

而且，你知道，公司内部对事件数据库之类的观点有很多不同。我认为你问题中要涵盖的最后一组人可能是公司传播官员以及他们试图向世界发布的信息和一切。而且，

我认为他们不必太担心那些通常比新闻报道本身关注度更低的新闻文章的集合。而且，

实际上可能存在一种规范化效应，即让人们知道这些事情有多难，这可能实际上对公司信息传递方面有点用处。我认为我们不应该将失败正常化，但我认为……

了解AI的当前技术水平对于负责任地做到这一点非常有用。

是的。可能还有一类积极从事这项工作的机器学习研究人员和工程师。而且，你知道，我看到每篇新闻文章出现，然后它就消失了，你不会一次性记住所有内容。我认为这个数据库使得，你知道，我可以回到它这里，我可以看到我们在所有这些事情上的进展，即使我们已经从一些事件中取得了进步。

并改变我的做法，对吧？所以这可能又是另一类。是的。

是的，数据库的起源故事的一部分是，很明显，很多人都在维护这些非正式列表，并开发他们自己的故障目录，并将其用于他们的修辞目的，以向管理层解释他们正在构建的系统的功能和局限性。是的，我同意。

而且，我的意思是，这在某种程度上也是源于你自己的工作，对吧？起源故事。是的。是的。而且，大概在11年前，我记得，

非常清楚地记得那一刻，就在我的博士项目中，我意识到机器学习同时具有令人难以置信的强大功能，但也极其脆弱，并且非常缺乏许多……坚实的理论和基础，你可以在很多……

计量经济学工作中建立这些基础，你非常努力地研究变量之间的关系。许多机器学习系统的行为都是通过数据产生的，这是一个

危险的事情。因此，在我的博士学习期间，我开始兼职从事其他人所说的技术行动主义。我实际上花了一段时间来弄清楚如何

将可用的密码学应用到谷歌邮件或Gmail消息、Facebook聊天等内容中，网络上的其他大部分内容也取得了一些成功。但我最终陷入了一场猫捉老鼠的游戏，我们开发的技术看起来很像垃圾邮件发送者和从系统中抓取数据的人，

但是，在我的研究生学习工作的另一面，我正在研究……

强化学习应用于野火抑制策略。决定你应该如何应对野火，你应该扑灭它吗？你应该让它燃烧吗？模拟森林几个世纪的时间跨度，以便得出这些决定，并对在……

模拟器、强化学习以及你带到这些模拟器奖励函数中的价值观之间交汇处可能产生的奇怪事情有了非常深入的了解。我发现，在这种情况下，如果你应用不同的奖励函数，例如，如果你更重视森林的生态，而不是木材，或者不如吸入烟雾那么重视，这也是林业政策中的一个主要因素，

你将应用于它的策略将从扑灭所有野火转变为让所有野火燃烧。这确实让我意识到，我们正在开发的智能系统正处于社会、技术能力以及不同选民群体带来的价值观的完美风暴之中。我……

因此，开发了许多系统来呈现技术和代码的民主性，并使其能够被那些没有花几年时间来拼凑一个部署到现实世界的解决方案的人们所访问。

是的，我认为这也说明了这些系统中的一些可能有多么脆弱，或者它们可能有多容易适应，从一种行动或一种策略转变为另一种行动或策略。是的，我觉得在一个理想的世界里，我们希望我们的AI系统能够找到这个完美而细致的解决方案。

是的。它似乎已经落入我们太熟悉的、我们已经为自己创造的阵营中，这可能是基于训练数据，也可能是基于我们放入算法中的许多其他因素。是的。这就是为什么AI领域的代表性如此重要的原因，因为

AI领域的人们发现自己处于一个他们往往没有要求或不想要的位置，那就是做出这些被复制数百万或数十亿次并对世界产生巨大影响的重大决策。

为了让那个人，我认为，对他们做出的工程决策感到平静和安心，必须有更多的东西……将这些决策公之于众，并使其……更民主或更容易获得。因为如果没有这些，我们……将不会处于一个很好的状态。

是的。希望AI事件数据库，让我们稍微回到一点，将有助于……我不知道，一些决策过程，或者至少让我们意识到我们一直在做的一些事情。是的。AI事件数据库在许多方面是一个……

开发一个清单，列出你需要解决的事情，以便部署到与事件相关的那些问题。这对你的工程流程来说是一件非常有用的事情。太好了。

是的。我喜欢它不仅仅是一个……清单。您还在您的清单上添加了数据，例如，您有排行榜，这些排行榜……提交者、顶级提交者、各种文章的顶级作者、顶级域名。我认为这非常有趣，尤其是在几乎给予某些媒体机构报道的荣誉方面。是的。

你可以看到哪些媒体机构的人员正在报道这个领域的问题，并且深入地报道，以及专业知识和第四权力机构在哪里。这也是一件非常有用的事情。在我们即将发布的下一个更新中，它将包含更多统计数据和……

超越所有文章非结构化全文的内容。令人兴奋。是的，非常令人兴奋。让我印象深刻的一件事是，你知道，你那里有一些非常著名的公司，它们……

开发AI系统并将其带到世界各地。他们是那些拥有数百万或数十亿美元预算来实现这些目标的公司。但也有大量的……

属于其他类别的公司，这些公司是领先研究的下游公司。这表明它目前正在社会中传播。现在有更多参与者参与这些系统的部署。

哦，这太有趣了。所以这几乎就像，我的意思是，我们有这些事件，但如果我们也能追踪该事件的来源，因为它们并不一定来自……它们实际上并没有在内部进行这项研究，他们只是应用了已经发表的东西，这将非常有趣，看看……这到底是什么？从研究人员的角度来看，尤其是在学术界的研究人员，你一直在做的工作的意义是什么，对吧？是的。

所以……

到目前为止，Anson数据库的影响让我非常高兴。我们实际上已经有来自157个不同国家的用户访问过它，这就是我们需要做更多工作以使其能够代表世界各地发生的Anson事件的地方。我们需要这些人进来贡献他们的见解，因为这是……

例如，在中国发生的事情，我们可以从美国类似系统的应用中学到很多东西。

并且可以在那里进行大量的知识共享。我希望增加更多功能，以便对来自非英语媒体的事件报告进行翻译。目前，它完全是英语。尽管如此，在……

顶级国家中，中国和印度实际上有很多用户进入系统。还有大量的芬兰人。我不知道芬兰发生了什么，为什么会有这么多用户，相比于芬兰的人口数量。但如果有人能向我解释一下，我会……

我很想知道他们为什么都进来了。所以我们的VPN正在路由到那里，这就是原因。是的，这实际上有人向我建议过，我想知道这是否是一个非常真实的可能性，在这种情况下，我们有很多VPN用户。这也很奇怪。然后在……

博士论文中，关于……野火工作的内容。我认为，

最大的收获是整个政策领域在多大程度上陷入了政治泥潭。我们需要将此作为一项问题来解决，即在荒地和城市界面（WUI）等地区建造房屋意味着什么。

你知道，谁承担了野火扑灭的成本，以及它是社会承担的成本还是那些在历史上发生过火灾的地区花费数百万美元扑灭火灾的人们个人承担的成本，而这保护的是一座价值十万美元的建筑。

因此，我在这方面的大部分工作是构建视觉分析系统等，以便了解基于改变奖励函数而产生的优化。我看到了一些影响，但最终，我觉得该系统不适合

对活火山做出扑灭决定，它适合那些制定政策的人，例如，当他们编写包含这些优化的森林管理计划时，人们为什么会在向他们大喊大叫。——是的。

也许作为数据库的一部分，可以添加另一部分内容，即什么问题是僵局，或者AI目前无法解决或不应该应用于什么问题。是的。数据库本身，让我稍微介绍一下它的设计，因为我认为解释数据库带来的声音及其立场很重要。

定位是我们构建数据库的方式，它旨在多角度呈现数据及其特征。

这意味着我们正在呈现多个出版物、关于该事件的多个报告。因此，您可以有一个列表，我认为我们的数量最高达到30多个与某个事件相关的出版物。这些出版物都带来了自己的视角，它们可以根据自己的意愿在任何方向上产生偏见或不偏见，这取决于它们……

说得通。但是，数据库本身所做的是，它没有说明这是数据库的发现。这是一个小组已经开会并决定X公司有错，影响是100亿美元。这实际上……

阅读它并提炼所有这些不同观点的人可以根据我们正在开发的这个基础设施来提炼它，这个基础设施将所有这些不同的观点都整合到其中。因此，我们有……

事件报告中包含的人们的观点。我们还即将推出一个新的分类法功能，允许第三方浏览数据库并应用他们自己的编码集或对数据集进行定性分析，然后将其整合到数据库中，无论是全文还是……

表格或分类形式、数字形式，这取决于他们试图做什么。而且

作为一名机器学习研究人员，我对这个数据集将变得多么丰富以及你可以如何构建系统来监控整个互联网上已报道但尚未提交到数据库中的事件感到非常兴奋。因此，可以持续监控世界各地AI的动态以及哪里出了问题。

因此，这里有一个很好的机会和NLP研究，我希望人们能够参与其中。这真的很令人兴奋。我喜欢它。当您扩展到不同的语言时，我也能想象到，对于您将要关注的单个事件，也会存在文化差异和不同的文化观点，并且您可能会添加这些观点，然后为每个事件提供这些不同的观点。

确实。也许如果所有内容都翻译成每种语言，每个人都可以阅读所有这些观点。那将非常令人兴奋。我知道我会说多种语言，我知道新闻听起来很不一样，或者观点会随着语言或文化的改变而发生很大的变化。

是的。我认为这尤其重要，因为许多系统都是全球性的。因此，在美国发生的事件可能在印度就不是事件，反之亦然。需要大量的文化理解才能创建一个在所有环境中都能做出决策的全球模型。

是的，同意。同意。现在让我们从AI事件数据库转向您与XPRIZE的工作。我很想聊聊这个奖项，它奖励的是什么，整个过程以及您参与了多长时间。

当然。我于2017年首次加入XPRIZE项目。那实际上是在我完成博士论文答辩之前不久。XPRIZE基金会刚刚宣布了一个“AI向善”奖。因此，以某种形式改善世界，利用AI来做到这一点。这与XPRIZE基金会通常的做法大相径庭。它最出名的是

安萨里XPRIZE，我认为该奖项是在大约20年前颁发的。那是关于太空进入的。你能否在两周内用同一个平台两次到达太空，超过冯·卡门线？这实际上是启动了

可重复使用性和太空进入的努力。在那之后，它在各个领域进行了一系列的重大挑战竞赛，包括碳捕获、教育。在每一个领域，它基本上都是挑战特定的、技术无关的。因此，您可以应用任何您想要的技术来解决问题，但需要对您需要解决的问题进行定义。

然而，在AI的情况下，方法是您将改善世界。您将使用AI。因此，它是技术特定的、挑战无关的。然后，您将根据您通过进步改善世界的程度进行定性评判。因此，大约四年前，我们收到了大约150份关于AI的提案。

团队将如何竞争这笔由IBM慷慨资助的500万美元奖金。在接下来的时间里，大量的工作是弄清楚如何适当地评判他们，使他们能够取得成功，并确保他们的工作能够最大限度地造福社会。就像

从我们今天早些时候的谈话中，有充分的理由相信，即使是那些出于良好意愿的事情也可能出错。我们必须找到方法来确保不会发生这种情况。因此，多年来，我们已经……我们最初是根据他们所解决的问题来按时间安排事情。

在最初的几轮比赛中，我们招募了一组主要是AI学术界人士，他们采用了主要学术评审流程来评审团队的报告，并由评委选择最值得晋级的团队。然后在上周，我们……

来到了比赛的决赛，三支队伍争夺奖金。第一名获得300万美元，第二名获得100万美元，第三名获得50万美元。其余的50万美元则颁发给了该组之外的两支队伍。从第三名到第一名，

第三名是Marinus Analytics。他们实际上致力于寻找和保护被贩卖人口的人。他们实际上会爬取很多人。

互联网上很多人，寻找失踪或被贩卖人口的人。然后他们利用这些信息试图将他们从困境中解救出来。第二名是AI Fred，这是一家……

进行临床抑郁症治疗的初创公司。我们在心理健康治疗中面临的一个问题是，不同的人对心理健康药物和实践标准的反应不同。而且，这……

非常困难、费时费力，对心理健康行业以及个人来说都是如此，要找到最佳治疗方法。因此，该团队所做的是，他们开发了能够概括并建议治疗方案的系统。

基于过去患者数据的治疗方案，并帮助系统化改进心理健康行业的实践标准。

最后，大奖得主是疟疾根除项目。世界各地开展了大量的蚊子防治工作，试图根除特别是那些导致疟疾的蚊子。

疟疾在某些地区的爆发。他们结合了几个不同的因素来帮助识别，例如，哪里有积水。如果你知道水在哪里，你可以去喷洒这些水，以消灭其中的蚊子。而且，

他们做了诸如开发蚊子传播模拟器和这些活动有效性之类的事情。他们将许多这些智能技术交给了特别是几个非洲国家的人们，并将其放入智能手机中，帮助他们了解蚊子防治措施最有效的应用方法在哪里。是的，

因此，这只是150多个团队中三个团队的样本，所有这些团队都在争夺XPRIZE大奖，这实际上是一个很好的实验室，可以让我们了解如何利用AI改善世界。我们今天谈论了很多AI可能造成的负面影响，

我进入AI领域并不是为了成为批评家。我进入这个领域是因为我认为它非常强大，是我们绝对应该构建并带入世界的东西。我们只需要投入时间、精力和努力来确保它是有益的。

我喜欢它。“AI向善”。它也可能是好的。它是一种工具。当然，它可以作为一种武器，但它可以用于两者。这些都是大型项目。我对每个项目的规模以及他们所取得的成就印象深刻。

现在，让我们以更轻松的语气结束，您工作之外有什么爱好或习惯吗？这是一个我们经常问的问题，除了所有这些之外，您还做什么？也许所有这些都是您的爱好了。你说得对，我确实认为……从事事件数据库之类的项目是一种……充满激情的项目。这……

与我的公司职业非常接近，以至于这两者有点混杂在一起。我认为，离开AI领域，我可以说我喜欢跑步，我参加田径运动超过十年了，并尝试不时地扮演长跑运动员的角色。我一直都是短跑运动员，而我

对Sean McGregor的采访，他是神经加速器初创公司Syntiant的机器学习架构师，也与XPRIZE基金会合作，并且是AI合作组织的事件数据库的创建者和维护者。订阅：RSS | iTunes | Spotify | YouTube 音乐：Deliberate Thought，灵感来自Kevin MacLeod (incompetech.com) </context> <raw_text>0 是的，还有烹饪之类的。Netflix。在大流行结束的时候谈论爱好有点困难，因为有一段时间人们可以在公共场所做的事情数量减少了。我当时在攀岩，诸如此类，但有一段时间很难去攀岩馆。哦，当然。是的。我以前也是短跑运动员，所以这很酷。酷。

酷。好吧，非常感谢你参加播客，Sean。好吧，感谢你邀请我。很高兴能和你交谈。太棒了。非常感谢收听本期Skynet Today的Let's Talk AI播客。你可以在skynettoday.com上找到与今天主题类似的文章，并订阅我们的每周新闻通讯。无论你在哪里收听播客，都可以订阅我们，如果你喜欢这个节目，请别忘了给我们评分。请务必收听我们未来的节目。

Sean McGregor on the AI Incident Database and the AI XPRIZE 34:26 Share

Last Week in AI

Deep Dive

Shownotes Transcript

Sean McGregor on the AI Incident Database and the AI XPRIZE