We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI Fails to Diagnose COVID-19, Difficulties with AI Regulation, and more on Surveillance

2020/5/2

Last Week in AI

AI Deep Dive AI Chapters Transcript

People

Sharon Zhou

Topics

Andrey Kurenkov和Sharon Zhou：许多用于诊断和预测COVID-19感染的AI模型存在偏差，数据质量差，且缺乏对照组，因此不适合临床使用。这些模型的缺陷包括使用不能代表病毒感染人群的患者数据、使用注释不良的数据以及缺乏与已建立的机器学习模型的基准测试。此外，这些模型仅预测已死亡或康复患者的结果，而没有预测仍有症状的患者的结果。同行评审期刊能够有效避免AI诊断模型中许多缺陷的出现，而许多快速发布的模型存在这些缺陷。高质量的同行评审研究，例如发表在《细胞》杂志上的研究，提供了更可靠的COVID-19诊断模型，但其发布需要时间。为了改进医学诊断预测模型，应该采用Tripod清单等最佳实践检查清单，以避免数据偏差等问题。 Sharon Zhou：当前的AI模型，特别是监督学习模型，需要明确定义的真实值才能有效运作，而法律和伦理判断的真实值往往难以定义和量化。由于法律具有情境性和灵活性，AI无法自动化公平性评估。法律中许多基本概念，例如弱势群体和优势群体的构成、遭受损害的严重性和类型以及证据的相关性和可采性要求，都需要司法机关在个案基础上做出规范性或政治性选择，这无法被AI自动化。以色列拥有大量的AI公司和新技术研发，这在一定程度上是由于其在AI领域的大量投资和学术合作。以色列在AI领域的产业活动非常活跃，这值得关注，因为它与西雅图的联系可能会影响美国AI的发展。

Deep Dive

Chapters

The discussion focuses on a paper criticizing AI models for COVID-19 diagnosis, highlighting biases and flaws in data usage, and questioning the rush to deploy untested models.

Shownotes Transcript

斯坦福人工智能实验室的博士生Andrey Kurenkov和Sharon Zhou讨论了本周人工智能的主要新闻。查看此处讨论的所有故事以及更多内容，请访问www.skynettoday.com 主题：深思熟虑 Kevin MacLeod (incompetech.com) 根据知识共享许可协议授权：署名 3.0 许可证 </context> <raw_text>0 您好，欢迎收听Skynet Today的“让我们谈谈AI”播客，在这里您可以听到AI研究人员关于AI的实际情况以及哪些只是耸人听闻的标题。本周，我们将研究AI诊断COVID-19病例的情况，然后我们将讨论最近关于AI公平性的一些工作，以及西雅图的多个学术和行业团体与以色列AI领域的联系。

我是Andrey Karenkov，斯坦福视觉与学习实验室三年级的博士生。我主要专注于机器人操作的学习算法。和我一起的是我的联合主持人。我是Sharon，斯坦福机器学习小组三年级的博士生，与吴恩达一起工作。我的研究方向是生成模型，改进神经网络的泛化能力，并将机器学习应用于应对气候危机。

Sharon，我猜你最近一周过得很忙，因为现在ICLR 2020会议正在进行中，即学习表征会议，这是一个大型AI会议，并且首次完全在线举行，完全虚拟化。

那么情况如何呢？你如何享受作为完全虚拟会议的体验？实际上，这真的非常酷。我真的很喜欢他们提前将许多演讲上传到网上的事实，这样你就可以在自己的空闲时间观看。我还与人共同组织了一个关于使用AI应对气候变化的研讨会，我们实际上将其作为一个为期五天的研讨会

每天都专注于气候变化的一些重点领域。所以这非常令人兴奋，但也相当令人筋疲力尽，实际上要迎合所有时区并协调各种Zoom电话会议。因此，我认为实时处理事情颇具挑战性。但是

实际上，所有这一切的一个好处是，当我们进行小组讨论时，小组成员开始变得更加自在，并且比在有人在场的情况下更多地进行相互交流。我认为人们在那里会有点紧张。所以我认为小组成员不那么紧张了，开始互相交谈。看到这种情况真是太棒了。

有趣。那么你比前几周花更多的时间在Zoom和各种视频通话上吗？比我想要的要多。正如有人所说，Zoom现在已经让人Zoom疲劳了。

但我更喜欢Zoom胜过所有其他可能的平台。Slack的平台实际上非常好，因为我觉得现在Zoom的礼仪不再需要你的视频打开，因为人们可能越来越倾向于穿着睡衣。所以我觉得，呃，

在工作时，这些Slack通话实际上非常好，因为Slack实际上具有一个很酷的功能，你可以在正在共享屏幕的人的屏幕上进行绘图。这非常酷。很高兴知道这一点。实际上，我并不知道。关于ICLR就先说到这里。请查看网上的视频，了解更多关于今年ICLR正在进行的酷炫研究。

现在让我们谈谈关于COVID-19与AI的话题。我们将深入探讨一篇题为“COVID-19感染诊断和预后预测模型，系统综述和批判性评价”的论文。

因此，虽然许多研究人员都急于利用AI工具来帮助对抗COVID-19危机，但这篇论文表明，其中数十个模型实际上存在很大的偏差。他们没有考虑受病毒感染的人群的代表性患者数据。他们使用注释不良的数据。他们没有针对已建立的机器学习模型进行基准测试。

他们还发现，这些模型只预测了那些已经死亡或康复的患者的预后，而不是那些仍然有症状的患者，所以只包括COVID-19患者的一个子集。所以基本上，有很多批评，这篇论文，这篇系统综述

对所有这些模型进行了评估，以了解它们的缺陷所在。所以真正有趣的是，在英国医学杂志上与这篇论文一起发表的一篇评论文章中，编辑们实际上说，这些模型“非常糟糕”，以至于没有一个模型可以推荐用于临床使用。是的。所以非常，非常有趣。

调查结果很有趣，它确实表明，当我们急于尝试利用AI并开发诊断模型时，有很多方法会出错，而且匆忙推出实际上可能会弊大于利。

我们已经讨论了很多关于各个团体如何尝试开发模型的问题，但这篇综述对于更仔细地评估它们并展示所有这些似乎很常见的缺陷非常有趣。我想知道，Sharon，作为比我更了解AI医学的人，

在用于图像诊断的AI研究中，这种类型的缺陷是你以前见过的吗？你以前见过评估现有技术的其他调查吗？我没有见过那么多系统性的调查，而是当论文经过同行评审时，这些缺陷要少得多，尽管这些缺陷确实存在。希望人们确实会将这些作为他们工作的局限性。

但是，同行评审期刊通常会阻止许多这些缺陷出现，阻止它们被发表，这与我认为大多数这些论文可能发表在非同行评审的渠道上的情况不同，因为他们想尽快发布一些东西来帮助解决这种情况。最近《细胞》杂志上有一篇来自

中国团队的文章，使用了6000张胸部CT扫描图像，这些图像已经公开发布，其中约有2000例是COVID阳性病例，2000例是其他肺炎病例，因此可能与COVID混淆，我们需要确保能够很好地区分，以及约2000例是正常的，即那些没有任何这些病理的人。

这篇文章现在才刚刚发表，显然是经过同行评审的，因为它发表在《细胞》杂志上。但显然，经过同行评审需要时间，并且需要时间来减轻这些缺陷并获得审稿人的反馈。嘿，你需要确保你正在训练的分布代表了

例如，你的测试分布，或者你在论文中声称的内容。是的，正如你所说，这是一个很好的例子，说明为什么同行评审非常重要，为什么有时需要研究缓慢。实际上，更具体地说，这项调查考察了来自PubMed、InBase的论文，

其中包括Ovid、BioArchive、MedArchive和Archive上的论文，这些都是预印本网站。因此，这些是你可以在无需经过同行评审的情况下发表研究的地方。这项调查包括在1月初至3月底之间发布的论文。

一方面，我认为这并不太令人惊讶或有缺陷，因为研究人员当时正在使用他们可以获得的数据，并且他们正在像Archive这样的网站上发布这些数据，以便尽快发布。

另一方面，我认为质疑是否值得匆忙发布这些东西是有趣的，因为最终结果表明它们存在这些严重的缺陷，并且无法投入使用。是的，速度和准确性之间总是存在这种张力。理想情况下，我们可以同时拥有两者，但有时为了速度可能会忽略某些事情，并且在开始时可用的数据也较少。

我希望这些论文确实声明它们不能用于临床用途，但我希望它们能够推动某种可能对其他研究人员有帮助的结果。这是我的希望，但我并不确定。是的，至少这可以作为一个例子，并且……

一个反思和更新我们做事方式的时刻。这项特别的调查还建议机器学习研究人员采用所谓的“三脚架清单”，这是一个包含22个项目的清单，旨在改进诊断和医学预测模型。

因此，它本质上是一种最佳实践清单，以确保你的数据中没有偏差等等，由医生和数据科学家开发。所以现在我们有了这个结果，表明许多人急于发布模型

立即犯了一些关键性错误，也许可以更改这套最佳实践，以便默认情况下，人们可以避免这些错误。当然，同行评审也需要在那里进行捕捉。

是的，绝对的。我正在查看“三脚架”清单中的项目，其中一些项目有点，我认为，比较宽泛，很难确切地说它是否有帮助。但我认为其中一些实际上会有所帮助，因为当你仔细检查时，你会意识到，哦，我实际上没有考虑过这一点。

我没有想到这一点。例如，其中一个项目是明确定义用于开发多变量预测模型的所有预测因子，包括如何以及何时测量它们。也许你忘记了，哦，它们是什么时候测量的，你知道，哦，我没有把它写进去。所以我认为……

这个框架可以帮助人们在将这些细节添加到论文中时唤醒他们的记忆，并希望在他们仔细检查这个清单时考虑这些局限性。我认为在核心AI机器学习研究中，我们已经制定了一些这样的清单，例如，向NeurIPS提交论文。你必须检查你的模型的各种内容，以及你是否要发布你的代码。

以及你是否包含了例如你为某事进行的运行次数，以及标准差等等。所以我认为，这在核心ML社区中确实存在。看到一个应用于此的例子非常有趣。

是的。是的。所以总的来说，这又是另一个例子，表明AI并不是某种总是有效的超级先进的东西。作为从业人员，我们需要谨慎。这并不是说，你知道，AI已经达到人类水平，可以自动避免这些错误。实际上，你需要小心数据。但为了转向另一个话题，我们已经对COVID进行了足够的讨论。

接下来，我们将讨论一篇来自Medium的文章，该文章报道了Sandra Watscher的一次采访或讨论，主题是为什么欧盟的公平性无法自动化。Sandra Watscher是Berkman Clyde中心的教员助理，哈佛法学院的客座教授，

以及法律与伦理以及AI的副教授和高级研究员。所以基本上是一个在这个关于伦理、法律和AI的对话中拥有许多资历的人。Berkman Client中心实际上发布了对这位教授的采访，了解她对AI监管的看法以及为什么公平性无法自动化的原因。简短的版本，这非常有趣，是

事实证明，法律的编写是为了具有相当的背景性和灵活性。其中一句引言是，法院并不坚持使用一致的方法或指标来评估反歧视案件。事实上，欧洲立法中的判例法包含了我们所说的情境平等。法律和判例法是有意灵活和流畅的，以便在不断变化的社会中提供适当的法律回应。

所以，从一些这方面有专业知识的人那里得到的信息，这似乎是一个非常有趣的事情。所以我想知道，Sharon，你是否见过类似的东西，关于这个概念以及为什么公平性指标无法自动化的原因？因为这对我来说绝对是新的。

我绝对认为她在这里陈述的内容非常有效，因为现在的人工智能，特别是监督学习，需要一个定义明确的真实情况才能发挥良好的作用。

即使真实情况略有动摇，我们也必须采取所有这些不同的方法来尝试使其发挥作用。例如，在医学中，一位医生往往无法给出真实情况，因为医生之间存在分歧。因此，我们可能会从三位不同的医生、八位不同的医生、十位不同的医生那里获得对同一张X光片的评估，例如。

并了解他们对这里诊断的看法。当然，我知道这听起来有点令人担忧，但这实际上是我们解释事物的方式。而这是解释一些实际上具有科学基础真实情况的东西，对吧？例如，这个人确实患有某种病理，例如肺炎。但是

但是我们必须通过医生，而他们意见不一。即使是这样，我们也必须考虑，嘿，我们是否采用医生所说的平均值？我们是否采用众数？我们是否根据医生的专业知识对他们进行加权？我们如何真正将这些结合起来来监督这里的人工智能算法？在这里，Wachter所说的意思是，当……

事情高度依赖于情境，并且在这种情境下需要大量信息，如此之多以至于很难从人类的专业知识中将其编码到AI中。并且它依赖于直觉和所有这些难以编码，因此难以给出真实情况的事情。

尤其是在这些系统随着时间的推移而发展的情况下。这绝对让我想起我今天在ICLR上观看的Jan LeCun的一场演讲，他因在AI、基础AI方面的工作而获得了最近的图灵奖。他基本上说，现在神经网络、深度学习的真正目标是，这些系统是非常确定性的系统。

但他认为未来是自监督的。我们在之前的剧集中讨论过自监督，但它本质上是模型从自身学习，并从它已经获得的数据的各个方面学习。

并创建像潜在变量模型这样的更动态的模型，而不是那么确定性的模型。因此，Sandra Wachter在这里所说的内容让我想起了这一点，就方向而言，希望AI能够采取这种方式，这样我们就可以潜在地开始辅助一些这些选择，也许，除非我们认为作为人类，我们永远都不希望将这件事自动化。是的。

是的，是的。因此，对于在做出决定时需要考虑大量数据这一点，这次采访中提出的观点之一是，许多构成索赔的基础概念，例如弱势群体和优势群体的构成、遭受的损害的严重程度和类型以及证据的相关性和可采纳性要求，都需要司法机关在个案基础上做出规范性或政治性选择。

因此，即使是提交的证据也需要人工审查。它也与医学背景相关，因为医疗专业人员需要在做出关于数据及其输出的决定时与AI系统进行互动和合作。它不能完全自动化。

此外，Wachter在这篇采访中提出了两点。第一，法规，法律本身，需要进行一些更新，使其不那么依赖于情境，以便能够允许进行一些监管，但也需要灵活性，并且仍然需要在某种程度上能够逐案处理，而不是走得太远。是的，我还有一个。好的，所以……

很高兴我们有像这样的专家在思考这些话题。这绝对让我想起了我的一个朋友，他拥有法学学位，

他告诉我，当他接近人们并首先谈论AI可以为法律做些什么时，人们会非常紧张，并想到所有这些偏见。但是，当然，当他开始与某人交谈，并且他开始谈论人类有多么偏见时，然后他过渡到AI如何潜在地减轻一些偏见，那么人们就会非常乐意接受。

整合AI。所以这也是我们如何构建AI将要做什么以及AI的作用。嗯，我认为，正如Wachter指出的那样，比较人类做什么与AI做什么以及哪一个更偏见将是具有挑战性的。我认为，我认为这将非常，非常，非常难以量化。嗯，关于，呃，

伦理以及围绕它的元讨论就先说到这里，也许可以更深入地探讨监控。所以这里有趣的是，有一篇《西雅图时报》的文章，名为“两个AI城市的传说，西雅图与以色列监控网络的联系”。

所以这里真正有趣的是，虽然你可能知道，以色列等国家正在部署AI来监控其公民，以遏制冠状病毒的传播，但你可能不知道西雅图和以色列的AI生态系统实际上由于微软和亚马逊收购了几家以色列在线初创公司而有着非常密切的联系。

并与西雅图人工智能研究所AI2建立了强大的学术联系。例如，这篇文章说：“要从巴勒斯坦进入以色列，去年夏天安装在卡兰迪亚和其他26个检查站的面部识别系统激怒了人权倡导者。”

面部扫描仪是由以色列人工智能安全初创公司AnyVision开发的，该公司与位于雷德蒙德的微软有联系。微软的风投基金M12因去年6月参与对这家AI安全公司7400万美元的投资而受到批评。AnyVision没有回应反复的请求。所以基本上，西雅图是

许多学术和行业团体的所在地，这些团体与以色列AI生态系统有着非常非常密切的联系。这似乎正在推动全球AI监控技术的采用。毫不奇怪，这引起了争议。虽然这些用于监控的AI系统正在以色列部署，但它们并没有在美国部署，但它们之间有着非常非常密切的联系。

是的，我们已经讨论了很多关于Clearview以及它如何在美开发面部识别技术的问题。我想这篇文章指出，以色列还有其他公司正在从事这项工作。因此，他们开发了这些检查站扫描仪，并且有人担心这会导致更大规模的监控。虽然……

这只是说存在联系，微软等大型公司与以色列的这些公司之间存在联系。我想值得注意的是，存在这种网络，并且可以推测，存在联系确实会导致影响，如果以色列的监控发展更多，那么它也可能更容易在美国传播。

我想知道，Sharon，你是否知道以色列有如此众多的人工智能公司，并且正在开发如此多的新技术？我实际上主要是因为去年的ICML。哦，不，对不起。不是ICML。

好的，重说一遍。我实际上是因为去年我在以色列特拉维夫参加的一个名为UAI（人工智能中的不确定性）的会议。

那时我了解了所有这些以色列初创公司和在那里进行的AI研究。以色列正在进行相当多的AI研究。我认为我时不时会惊讶于在Crunchbase上找到一家位于以色列的公司。我认为我看到这种情况越来越多。但我认为那次旅行真的让我很惊讶。

哦，这是一个大型的AI中心。他们实际上要求

我的导师吴恩达在他们关于AI的大型会议，全国性会议上发言。我只是没有意识到他们在多大程度上是一个AI中心。是的，程度对我来说也是新的。虽然有趣的是，我以前住在以色列。我在小学在那里住了七年，我的家人仍然在那里。

所以我意识到特拉维夫是一个科技中心。特拉维夫有很多软件工程师和初创公司。但这篇文章指出，根据Startup Nation Central的一份报告，2018年，人工智能公司获得了以色列全国近40%的风投资金。所以看到以色列有如此大量的

产业活动，这非常有趣。并且由于它也与西雅图有联系，因此值得关注它，并了解那里的可分割元素可能会如何影响这里发生的事情。

这篇文章指出一个有趣的事实是，去年秋天，微软实际上聘请了前美国司法部长埃里克·霍尔德来审核AnyVision，这是一家我们提到的以色列AI安全初创公司，微软的风投基金为其提供了7400万美元的资金。他们

他们这样做是因为他们担心该公司对巴勒斯坦人的监控，并发现它，“目前并没有为媒体报道中声称的西岸大规模监控计划提供动力”。根据3月27日的一份声明，微软非常关心此事。但即便如此，微软的M2还是宣布将撤资AnyVision，因为它无法行使对该技术的监督或控制。

我想这值得注意，因为如果微软或亚马逊正在投资以色列的监控技术及其发展，那么已经有很多审查关注美国公司正在做什么。所以我们当然应该记住，AI现在是国际化的，这些公司是国际化的，它们可以，你知道，

它们可以通过其他方式影响AI的发展。

这篇文章还指出，除了强大的行业联系之外，还存在大量的AI研究学术合作，例如华盛顿大学与以色列机构巴伊兰大学和特拉维夫大学之间的合作。这些也是研究中心。因此，总的来说，这种关系我认为值得注意的是，

AI研究和AI发展是相当国际化的，现在不同大城市之间的联系越来越紧密。

最后，非常感谢您收听本周Skynet Today的“让我们谈谈AI”播客。您可以在skynettoday.com上找到我们今天在这里讨论的文章，并订阅我们的每周新闻通讯，其中包含类似的文章。无论您在哪里收听播客，请订阅我们，如果您喜欢这个节目，请不要忘记给我们评分。请务必收听下周的节目。

AI Fails to Diagnose COVID-19, Difficulties with AI Regulation, and more on Surveillance 27:01 Share

Last Week in AI

Deep Dive

Shownotes Transcript

AI Fails to Diagnose COVID-19, Difficulties with AI Regulation, and more on Surveillance