We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Hate Speech, Applied AI, NYPD, & Grades

2020/8/26

Last Week in AI

AI Deep Dive AI Chapters Transcript

People

Andrey Kurenkov

Danielle Bashir

Sharon Zhou

Topics

Danielle Bashir: 本周新闻主要关注 Facebook 利用 AI 检测仇恨言论的挑战，包括图片、模因等混合媒体内容的识别难度；AI 研究社区对现实世界问题的关注不足，以及算法偏差导致的社会不公平问题；纽约市警察局使用面部识别技术引发争议；英国政府使用算法决定 A-level 和 GCSE 考试成绩的失败案例。 Andrey Kurenkov: Facebook 在仇恨言论检测方面取得了显著进展，但仍面临挑战，尤其是在处理模因等混合媒体内容方面。同时，许多 AI 研究人员更关注理论问题，而忽视了现实世界问题的解决。算法偏差问题也需要引起重视。英国政府使用算法决定考试成绩的案例说明，在大型 AI 应用中，需要考虑备选方案和公众意见。 Sharon Zhou: Facebook 的 AI 系统在检测针对少数群体的仇恨言论方面表现较差，这凸显了算法偏差问题。模因是 AI 检测仇恨言论的一大挑战，因为需要同时处理图像和文本信息。纽约市警察局使用面部识别技术搜捕 Black Lives Matter 活动家的事件，其动机和面部识别技术的作用尚不明确。英国政府使用算法决定考试成绩的决定是错误的，因为它忽视了学生的个体情况，并导致了不公平的结果。

Deep Dive

Chapters

This chapter discusses Facebook's efforts to use AI for detecting and removing hate speech and misinformation, highlighting challenges such as the complexity of mixed media content like memes and the AI's uneven performance across different demographics.

Shownotes Transcript

我们对上周重大 AI 新闻的最新综述！此外，斯坦福人工智能实验室的博士安德烈·库伦科夫和莎伦·周讨论了新闻并提供了他们的想法。这是我们第一次尝试这种组合格式——请填写听众调查，让我们知道您对此有何看法：bit.ly/ltasurvey 查看此处讨论的所有故事以及更多内容：www.skynettoday.com 主题：深思熟虑 Kevin MacLeod (incompetech.com) </context> <raw_text>0 您好，欢迎收听 Scanner Day 的 Let's Talk AI 播客，在这里您可以听到 AI 研究人员关于 AI 的实际情况以及哪些只是耸人听闻的标题。本周，我们将尝试一种略微不同的格式，首先介绍我们上周的 AI 简报，总结上周的新闻故事，然后由我和博士莎伦进行讨论。

如果您能通过 bit.ly/LTAsurvey 向我们提供对此新格式的反馈，我们将不胜感激。再次，请填写 bit.ly/LTAsurvey 上的这份简短调查。现在让我们听丹妮尔·巴希尔介绍我们的第一个环节，总结我们将要讨论的新闻故事。

您好，欢迎。这里是 Skynet today 的 AI 周刊，我是丹妮尔·巴希尔。本周，我们将关注现实世界中的 AI、纽约警察局针对“黑人的命也是命”抗议者的行动以及对上周 A-level 故事的后续报道。

首先，关于 Facebook，我们很清楚的一点是它覆盖面广。直到 2017 年，Facebook 才开始承认其向数百万用户传播有害言论、宣传和虚假信息的能力。Facebook 投入巨资控制有害内容，将内容审核外包给世界各地的审核员。现在，Facebook 正在开发 AI 来检测和删除仇恨言论和虚假信息。

《快公司》报道称，虽然 Facebook 取得了重大进展，但它仍在继续处理相关问题。NBC 新闻泄露的一份 2019 年 7 月的文件指出，Facebook 系统标记并主动删除了针对白人的仇恨言论帖子比例高于针对少数群体的帖子。

但更大的挑战还在前方。有害内容不仅存在于文字中，也存在于图像中。Facebook 的研究人员已经设计出检测有害图像的技术，但这些技术效果不佳，Facebook 的首席研究员怀疑目前的方案无法产生擅长检测有害图像且效率足以大规模运行的系统。

混合媒体内容（例如将图像与语言结合在一起的模因）正成为 Facebook 上的主要内容，并且可能带来更大的挑战。尽管他们取得了进展，但 Facebook 与虚假信息的斗争才刚刚开始。他们必须全力以赴才能跟上。

虽然 Facebook 的研究人员正在尽最大努力解决有害内容问题，但其他人却生活在象牙塔中。马里兰大学帕克分校的助理研究教授汉娜·克纳为《麻省理工学院技术评论》撰写文章称，机器学习界似乎认为解决现实世界的问题是一项意义有限的努力。

自然语言处理在今年早些时候也有类似的认识。虽然人工智能的目标是推动机器智能的前沿，但新的发展往往表现为新的算法或程序，这些算法或程序通常只能对基准数据集产生渐进式改进。这种形式的进步表现出有缺陷的学术研究和排行榜追逐。

与此同时，仅仅是应用的迹象就会导致研究在顶级 AI 会议上被边缘化。这是一个巨大的问题，因为机器学习是促进健康、农业和许多其他领域的有前途的方法。但许多研究人员并没有将他们的脑力用于解决现实世界的问题，而是陷入了感觉像是游戏的竞争中。这在其他方面也是一个有问题的趋势。

优先考虑基准测试中的性能而忽略现实世界的应用，会导致像 AI 偏差这样的问题不受限制地出现。基准数据集通常不能代表现实世界，并且包含会转移到训练模型中的偏差。但专注于排行榜的研究人员不太可能看到这些影响，并创建真正对人们有帮助的系统。

当 AI 研究人员似乎在追逐错误的目标时，那些可以使用 AI 来创造真正的改变和解决实际问题的人并没有获得他们本可以获得的那么多好处。该领域需要再次自问，我们的目标是什么？如果这个目标包括对世界产生具体的积极影响，那么该领域可能需要重新考虑其在应用方面的立场。

说到应用，警方有很多应用。上周，纽约警察局包围了 28 岁的德里克·英格拉姆的家，他是一位著名的“黑人的命也是命”活动家。《哥谭主义者》报道称，纽约警察局部署了面部识别技术，使用他 Instagram 页面上的照片找到了英格拉姆。

在 6 月的一次反对警察暴行的抗议活动中，英格拉姆据称用扩音器对着警官的耳朵大喊大叫，之后于 8 月 7 日遭到身穿防暴装备的警官的袭击，持续数小时。纽约警察局的面部识别部门每年使用面部识别软件识别数千起案件中的潜在嫌疑人，利用数据库中的嫌疑人照片生成可能的匹配项，然后由调查人员进行分析。

BuzzFeed 的一项调查还显示，纽约警察局经常使用 Clearview（这家有争议的面部识别公司未经同意就收集数百万美国人的照片）。纽约警察局表示，他们使用面部识别来收集犯罪嫌疑人的线索。在英格拉姆的案件中，他们说他的喊叫导致一名警官暂时性听力受损，因此构成袭击。

一些人认为纽约警察局使用面部识别令人担忧，因为它似乎压制了异见，而另一些人则认为英格拉姆的行为太过分了。英格拉姆的案件尤其似乎更棘手，但我们将不得不继续应对面部识别在警务中的作用以及它如何影响我们作为公民。

最后，对我们上周故事的快速跟进。您可能还记得，由于学生无法像往常一样参加期末考试，英国政府选择使用算法为参加 A-level 和 GCSE 的学生分配分数。但是，该算法并没有考虑个别情况，而是优先保持成绩的正态分布。

该算法还考虑了学校之前的表现，这可能会降低高分学生的成绩。《卫报》报道称，英国教育大臣加文·威廉姆森宣布，政府将取消用于代替考试颁发成绩的标准化模型，该模型造成了如此大的混乱。威廉姆森为该模型造成的困扰道歉，并表示 A-level 和 GCSE 成绩将恢复为教师评估的成绩。

很高兴听到英国教育部正在采取行动来修复其算法造成的损害。让我们希望这能教会我们一个教训，即确保人类将来会检查 AI 的决定。

本周就到这里。非常感谢您的收听。好的，这就是故事的总结。感谢丹妮尔制作了这个节目。现在我们将开始我们的讨论，我们将更深入地探讨一些我们感兴趣的细节，并对这些故事进行研究人员的解读。我是安德烈·库尔尼科夫，斯坦福视觉与学习实验室三年级的博士生。我的研究主要集中在机器人操作的学习算法上。

和我一起的是我的联合主持人。我是莎伦，是机器学习小组的三年级博士生，与吴恩达一起工作。我的研究方向是生成模型以及将机器学习应用于应对气候危机。

很好。那么让我们开始讨论上周的新闻故事，首先是《快公司》网站上的“Facebook 用于检测仇恨言论的 AI 面临其有史以来最大的挑战”的故事。正如您从丹妮尔那里听到的那样，该故事主要讲述了 Facebook 为……

以及使用 AI 检测仇恨言论的必要性。我们将深入探讨一些超出基本总结的更有趣的细节。我发现有趣的一点实际上是取得的进展的数量。今年第二季度，Facebook 报告称，它删除了 1.04 亿条违反其社区标准的内容。

其中 2200 万条内容仅在第二季度，而第一季度为 960 万条，两年前仅为 250 万条。因此，要么仇恨言论越来越多，要么检测和处理仇恨言论的能力越来越强。莎伦，你呢？这篇文章中哪些细节让你觉得有趣？

对我来说，最突出的一点绝对是模因。事实上，模因对 AI 来说是一个非常非常大的挑战，因为机器实际上必须同时查看模因的文本内容以及与其相关的图像。Facebook 还有一个仇恨模因挑战，用于检测模因是否具有仇恨性，甚至是……

准确的，或者给出一个问题，例如，这个模因是刻薄的还是友好的？它说：“我喜欢你今天的气味。”但如果是一朵玫瑰的图片，那就没问题。如果是一只臭鼬的图片，那就没那么好了。你知道，这是讽刺的。所以我认为检测多模态讽刺非常具有挑战性，在我……

当然，在提出这个挑战之前，我没有想过这个问题。我见过一些模因似乎明显有点不合适，但绝对带有讽刺意味。事实上，很多模因都有这种特点。所以我认为是模因，以及一般的图像，以及与一些文本或大量文本相关的图像。

它提出了一个有趣的挑战。是的，我们在录音前进行了一些讨论，发现这个仇恨模因挑战的存在非常有趣，我之前也不知道。是的，这似乎有点类似于 Facebook 去年提出的深度伪造挑战，是他们推动更多研究进入该领域的一种方式。因此，显然，仇恨言论模因是一个大问题，希望 AI 能够在解决这个问题方面发挥作用。

我还发现另一件有趣的事情，也许并不令人惊讶，但值得注意的是，在我阅读这篇文章之前我并不完全了解的一点是，NBC 新闻获得的一份泄露的 2019 年 7 月的报告显示，Facebook 的 AI 系统在检测针对白人的仇恨言论方面比检测针对少数群体和边缘化群体的仇恨言论更好。

这只是现实世界中 AI 对少数群体和边缘化群体效果不佳的另一个例子。这也是我们应该真正意识到这种可能性，以及作为 AI 研究人员和从业人员，我们应该努力应对这些不平等现象的原因。

接下来是第二篇文章，《技术评论》上的“太多 AI 研究人员认为现实世界的问题无关紧要”。丹妮尔总结了这篇文章，这篇文章内容辛辣，基本上说 AI 社区认为解决现实世界的问题不值得他们花费时间，或者与更具理论性的、更普遍的问题相比意义有限，可以说是象牙塔问题。我……

我发现这篇文章中真正有趣的一点是，我可能会反驳这篇文章，并说两个曾经被视为仅仅是应用的非常重要的应用是计算机视觉和自然语言处理 (NLP)。我认为对于这两个应用来说，它们都被视为边缘应用，由应用驱动，但它们可以发展成……

AI 社区关心的领域。我认为，也许 AI 走向世界比人们想象的要快。因此，这种转变并不像它可能的那样快。但我认为很多……

可能是那些提出这些问题并推动其中一些问题的人。我认为，像 Facebook 这样的公司应用 AI 会看到我们原本看不到的问题，就像模因一样。我从未想过这一点。是的，所以我认为我仍然比这篇文章更乐观。安德烈，你怎么看？是的。

是的，我也对这里提出的观点持怀疑态度。这篇文章的作者是汉娜·克纳教授，她研究用于农业监测和粮食安全的遥感应用的机器学习方法。因此，她当然属于研究界，她实际上在文章开头就指出……

她收到的一篇较新投稿的评论指出，该投稿提出了一种针对原始且极具吸引力问题的解决方案，但它是一种暗示，其意义对于机器学习界来说似乎有限。这被用来激发关于太多研究人员认为现实世界的问题无关紧要的讨论。还指出，人们过于重视在基准测试上取得进展。当然，在某种程度上，这是正确的。

但与此同时，我认为这篇文章没有提到 AI 研究中应用的许多方式。例如，欧洲的其他会议，如 WACV 或机器人会议，如 RSS，实际上确实有针对应用的特定轨道，甚至还有针对应用和系统的奖项。

因此，首先，我认为重要的是要注意这一点，NeurIPS 作为会议，总体上可能更倾向于理论，而应用对于该会议来说不太合适。是的，我想说的是，很多 AI 都是应用。它是目标检测，它是字幕生成。它可能是一组商定的应用，总的来说，也许很难推动一个新的应用。

但这也确实有很多 AI 研究是应用的。因此，了解这一点很重要，有些论文因为问题和基准测试没有确立而未被接受和认可。当然，审查在各种方面都是有缺陷的。但正如你所说，莎伦，也有理由不完全同意这一点。是的。

是的。因为我可以看到，危险的模因是一个新的问题，现在在 AI 中，这可能会激励我们。所以我会说，现在被视为主要应用的一些应用……

在医学和气候变化领域，这篇文章提到了后者。对于医学来说，实际上，很多关于医学应用的论文都被 NeurIPS 接受了。所以我认为这是存在的。我认为气候有点不同，而且一直比较困难，并且一直通过 NeurIPS 研讨会渠道推动，我帮助组织了 iClear 研讨会……

气候变化研讨会，我们还有一个 NURBS 研讨会，但这就是我们在该领域培养更多研究的地方。但当然，我在 NURIPS 上看到的所有医疗保健工作都以这样一种方式激励它，即它仍然是一种可以用于其他事物的新型架构，但该问题主要是在医疗保健领域发现和激发的。我会说……

我认为这是真正推动 NeurIPS 并让人们真正欣赏的正确类型的应用……

所以我，我，是的，我实际上发现神经网络比我预期的更受欢迎，说实话。嗯，但我的意思是，话虽如此，推动排行榜是一个巨大的问题。嗯，虽然我会说拥有其中一些东西也很重要，因为这样人们就有明确的目标了。只是，我们需要时不时地重新评估我们的目标。是的。是的。

也许，我的意思是，这篇文章的标题是“太多 AI 研究人员认为”，所以我想问题是，多少算太多？可以公平地说，也许我们应该有更多场所进行更纯粹的应用研究，其中没有新的架构和新的算法。它只是解决现实世界的问题，并表明可以使用已知技术来解决它。

当然，在许多会议上，使用已知的东西并将其应用于新事物的那种论文更难被接受和认可。但我认为这篇文章本可以更细致入微，并在解决我们提出的反馈意见的同时提出这些观点。接下来是我们的下一篇文章。这篇文章……

非常令人担忧，实际上有点奇怪，而且让我感到惊讶。所以这篇文章是《哥谭主义者》网站上的“纽约警察局在围攻‘黑人的命也是命’活动家公寓时使用了面部识别技术”。是的，所以故事的高潮是纽约警察局显然使用了面部识别技术来证明这次突袭是合理的。

这篇文章实际上说，可以看到一名警官在该部门外拿着纽约警察局面部识别部门的线索报告。纽约警察局确实证实了他们在这种情况下使用了面部识别技术，但方式和程度相当模糊。对我来说，这篇文章相当奇怪。我不知道该如何解释这件事，除了……

似乎我们应该获得更多细节。莎伦，你怎么看？是的，我认为这对德里克·英格拉姆来说非常不幸。但我确实质疑面部识别部分的作用。主要是警察试图证明……

因为对警察的暴行，比如我们的…… 他们应该拥有面部识别技术，比如更多这样的技术，还是因为…… 或者，或者更确切地说，他们不应该拥有它，因为发生了这起事件？这篇文章并没有明确说明。因为我实际上并不认为面部识别技术真的被用于……也许它确实帮助支持了一些事情，但它……

他们知道他是谁，我认为。我以前甚至听说过他的名字。所以，我认为警察已经知道他是谁，并且可以很容易地找到他的地址。所以我不知道这在什么地方发挥作用。我会说这可能是对人们……

面部识别技术和警察暴行。所以它可能只是试图将所有东西放在一起，以撰写一篇精彩的媒体文章。但我也会说我不确定。是的，不清楚。我认为这篇文章提到，英格拉姆的律师多萝西·沃尔登……

实际上，它被引用为说：“我们期待揭露这种有问题的意识形态在警官未经授权突袭公寓的决定中扮演了什么角色，如果有的话。”所以似乎可能存在一种模糊的联系，引发了关于这个话题的更广泛的讨论。

显然，布拉西奥市长确实签署了一项关于监控技术的警察监督法案，该法案将迫使该部门披露更多关于其监控能力的信息。因此，这也许也表明，我们确实应该对这种技术的用途有更清晰的解释，这样我们才能知道它是否被合理使用，或者它是否被用来证明犯罪是合理的。

我不知道，不应该发生的突袭。对。在一个更好的方面，我们的最后一篇文章的标题是“A-level 和 GCSE 成绩将根据英格兰的转向而基于教师评估”。这篇文章发表在《卫报》上。同样，这篇文章基本上触及了……

不久前关于英国将如何基本上使用算法根据学生的以往成绩来分配考试分数，而不是实际参加考试的愤怒。大约 40% 的预测结果被下调。这意味着如果学生的成绩被下调了两三个等级，

这可能意味着失去大学名额。这太糟糕了，特别是如果你什么都没做，或者它甚至不符合你本应该获得的成绩。所以我认为这绝对是糟糕的，并且会加剧英国的社会经济差距，

是的，这篇文章确实指出，40% 的预测结果被下调，随后引发了巨大的公众抗议。有很多悲惨的故事，我们上周对他们为什么要这样做感到困惑。为什么将这个重大的决定委托给一个显然不会完美的算法？

为什么甚至要以这种方式推出它？这显然会导致许多人感到失望并质疑它。

因此，他们撤销该决定是一件好事，但这整个事件仍然令人费解。我的意思是，它仍然不完美，对吧？所以现在他们仍然不会参加考试，因为这有感染 COVID 的风险。但教师将根据学生的以往表现来评估他们接下来应该做什么以及他们有什么资格。我认为，好吧，

好吧，所以现在我们有一个人类算法，它将存在于几个，对不起，非常多样化的人类算法中，这些算法将分配这种事情。我可以预见很多教师受贿的情况。是的，所以我的意思是，两者都有利弊，我想。它并不完美，但我们会看到，因为我认为这样的事情可能会……

随着我们的前进，可能会变得更加普遍。这确实让我感谢美国对人们能力的“整体审查”，

是的，这篇文章确实提到了教育部长的反驳意见，即该算法的论点是，它将确保全国范围内标准化的结果，并与往年保持一致。所以，确实有理由支持它，但他们似乎应该仍然考虑……

为人们提供 B 计划。我想，对于如此重大的结果完全由算法决定且没有追索权，公众的强烈抗议似乎是不可避免的。也许这是一个很好的例子，说明如何大规模地利用 AI，并且在未来尝试这种事情时，可以做得更好。

是的，我绝对认为这可以做得更好，从某种意义上说，也许将来可以有一个模型，每个人都同意它，它只查看某些历史数据，而你实际上没有这个考试。我认为让算法实际预测你的考试分数有点困难。

我不知道，感觉真的很不对劲，因为你就像，“我没有参加这个考试。别给我打分。”所以我认为框架上也存在问题。对。所以，是的，对于成绩被下调的学生来说，好消息，希望如此，并且……

最终，也许是好消息。我认为大多数学生都应该获得更高的分数，仅仅是因为他们熬过了这一年，并且因为他们无法在 A-level 上证明自己。也许他们应该得到应有的好处，而不是被迫进入不同的类别等等。对。是的。

就这样，感谢您收听本周 Skynet Today 的 Let's Talk AI 播客。您可以在 skynettoday.com 上找到我们今天讨论的文章，并订阅我们的每周通讯，其中包含类似的文章。请填写您对这种格式的喜爱程度调查：bit.ly/LTAsurvey。无论您在哪里收听播客，请订阅我们。如果您喜欢这个节目，请不要忘记给我们评分。

务必收听下周的节目。

Hate Speech, Applied AI, NYPD, & Grades 26:42 Share

Last Week in AI

Deep Dive

Shownotes Transcript

Hate Speech, Applied AI, NYPD, & Grades