大家好,我是特里斯坦。今天我们有一期特别节目,邀请计算机科学家奥伦·埃齐奥尼来谈谈一个检测AI生成内容的新工具。随着AI技术的进步,区分现实与虚幻的能力只会越来越强。深度伪造技术已经被用来诈骗、勒索、影响选举,而且有很多网站声称能够检测一段内容是否是用AI生成的。但是,如果你用过这些网站,你会知道它们至少可以说是不可靠的。
也有一些人正在努力构建更好的工具,这些人了解人工智能的科学,并希望看到一个未来,在这个未来,我们能够真正知道互联网上什么是真实的。其中一人就是奥伦·埃齐奥尼,他是艾伦人工智能研究所的创始首席执行官,他的非营利组织truemedia.org刚刚推出了他们最先进的AI检测工具。
在这里,我想说的是,在人文科技中心,我们认为,不仅要指出问题,还要突出为解决这些问题所做的重要工作,这一点至关重要。所以,我非常高兴今天能邀请奥伦来节目中谈谈这项工作。奥伦,欢迎来到《你全部的注意力》节目。谢谢你,杰森。很高兴来到这里。正如我稍后会解释的那样,与你进行这次谈话对我来说尤其有意义。
好吧,让我们直接进入正题,因为我相信我和你第一次见面是在2023年7月与拜登总统会面讨论人工智能的时候。你能给我们讲讲那个故事吗?我很乐意。我突然收到一封电子邮件,里面有一份邀请,邀请我参加在旧金山举行的一次小型会议,与会者包括拜登总统、纽瑟姆州长以及他的部分关键工作人员。
会议的目的是让我们几个人聚在一起,与他分享我们对人工智能的想法,让他了解哪些是最重要的。我可能是你在播客中会遇到的对人工智能比较乐观的人之一。所以我参加了这个小型会议。
所有的一切,我不会说火力全开,但都是满怀希望的。我们进行了一次非常有趣的谈话。我们中的许多人谈到了登月计划,也谈到了担忧。令人惊奇的是,我从会议中出来后,对您提出的情况特别担忧。您强调的担忧是深度伪造技术的潜力
会突然而剧烈地影响我们的社会,无论是经济上,比如五角大楼被炸毁的照片导致市场突然下跌(你提到的),以及其他潜在的经济情况。在与总统会面的背景下,我自然而然地想到了政治上的情况。
我们已经看到了一些例子,比如在新罕布什尔州初选中拜登总统的虚假机器人电话。我们在斯洛伐克也看到一个例子,它是在选举前两天发布的。我开始痴迷于这个担忧,如果……
如果在选举前48小时、24小时内,有人发布一个假消息,会改变选举结果,尤其是在我们11月即将举行的竞争激烈、选情非常胶着的选举中。
让我们来谈谈你正在推出的工具,以及构建它的过程,因为你是一个非营利组织,你必须筹集独立的资金来做这件事,这关于AI的一个有趣的事情是,数万亿美元的资金正在投入到提高AI的强大功能及其所能做的一切上。但并没有数万亿美元的资金投入到使其安全上。
这是非常、非常真实的。我认为我们对人工智能的投资确实非常不平衡。正如我提到的,我从我们的会议中出来后,脑子里一直想着这个担忧,我说:“好吧,让我们看看现有的工具能做什么。”我首先发现的是,基本上没有任何工具。所以我第一个意识到的是,市场上存在巨大的差距。
我很幸运能够与优步联合创始人格里特·肯普会面,
他通过他的慈善组织camp.org为我们提供了资金。然后我们开始构建这个工具,使其可供媒体组织、事实核查员使用,最终可供广大公众、任何关心此事的人使用,使你能够做一件非常简单的事情。从Facebook、X(前推特)、TikTok等平台获取社交媒体网址,
将其粘贴到我们的搜索框中,然后点击分析。评估它是否包含虚假内容、被AI操纵的内容或真实内容。我们有这个工具,它可以在truemedia.org免费使用。欢迎大家来查看。奥伦,这个工具到底是如何工作的?你是如何训练一个模型来检测深度伪造的?
我认为有两点非常重要需要解释。第一个是机制。我想强调的是,与我们的工具互动非常简单。你可以通过使用电脑上的图像或视频、音频,将其上传到我们的网站。在一分钟左右的时间内,你就会得到我们的评估。
或者,你也可以从TikTok、Facebook、Instagram等平台,甚至包括特朗普的社交网络True Social(那里也出现过不少假消息),获取社交媒体网址。你只需将网址粘贴到我们truemedia.org主页上的搜索框中。点击分析,你就会得到结果。因此,用户交互非常简单。
但是现在让我们深入了解一下,看看当你这样做时会发生什么。当你这样做时,首先从概念上来说有两件事。首先,我们提取媒体。然后我们将其发送给许多供应商。我们只是将其发送给他们,并询问他们的意见,例如Reality Defender、Hive。
所以这些都是现有的深度伪造检测器,你试图获得一种专家混合,一种检测器综合。没错,没错。我们希望在这样做时尽可能全面。在他们进行分析的同时,我们也有自己的模型来查看各种技术特征。例如,视觉噪声的分布或模糊区域,所有这些我们开发的迹象
进行评估。我给你举一个非常酷的例子,让你了解这有多深入。顺便说一句,我们不仅仅分析信号,我们还分析语义。我们获取视频的文字记录并进行评估。我们使用一种叫做反向搜索的技术在整个网络上搜索,看看这张图片之前是否出现过?它是否是我们在其他地方看到的东西的修改版本?所以我们在网上使用了许多技巧
在幕后,因为没有灵丹妙药,我们使用了所有能找到的技巧来做到这一点,但我想要和你分享一些东西,让你了解这有多复杂
所以有一种叫做唇形同步的技术,你可以拍摄一个人的视频,然后添加不同的音频轨道。所以现在他们说的话实际上并不是他们说的。这真的很奇怪,对吧?因为他们的嘴唇没有对齐,对吧?这就像过去糟糕的配音一样。但是现在有了唇形同步技术,他们实际上可以修改嘴唇。
看起来这个人实际上是在说你让他们说的话,对吧?这太可怕了。事实证明,音频轨道和视频轨道之间存在细微的差异。所以实际上,哈尼·法里德和他的一个学生,对吧?他是伯克利大学的教授,该领域的权威人士,他想到,如果我们……
分析文字记录,对吧?我们录制音频并将其转录。然后我们使用唇读软件来分析嘴唇在说什么。现在,由于这些差异,你用唇读看到的和你在文字记录中听到的内容会有很大的不同。而当这种情况发生时,这暗示着这是假的。所以它向你展示了创造力和我们所付出的巨大努力
试图找到这个确凿的证据,告诉你,啊哈,这是一个假货。你能谈谈现有系统的性能或准确性以及为什么你的系统可能更准确吗?
当然。首先,让我们明确地说明我们正在谈论的内容,那就是图像、视频和音频。我们不处理可能存在解释空间的事实问题,也不处理文本,因为文本肯定可以伪造。这是一个完全不同的领域。但在这三方面,并没有……
真正可用的工具,实际上我们做得更进一步,在X上放置了一个机器人,那里有很多这样的东西很猖獗,你只需标记一个True Media机器人,它就会获取线程中的内容,分析它,并在回复中发布其分析结果,所以我们正在
使任何人和每个人都能使用这项技术。但现在要回答你关于质量的问题,这非常重要。作为一个学者,我开始研究不同的模型和不同的供应商,并评估这些工具。我很快发现这里没有灵丹妙药。不同的人做出了非常强烈的声明,也有一些非常高质量的技术。我们有许多合作伙伴,包括
Pindrop负责音频方面,Reality Defender、Hive、欧洲的Sensity,以及许多在分析方面做得不错的组织。我们首先做的是,当我们收到查询时,为什么不将其发送给所有这些组织呢?
同时访问他们的API并收集响应以形成分析。所以我们这样做了。当然,当你能够同时咨询所有专家时,你往往会得到更好的结果。然后我们进一步使用了开源模型,来自学术界的模型,我们自己开发的模型。我们在我们在社交媒体上找到的数据上对它进行了微调。但底线是我们……
准确率舒适地超过90%,这非常好,但也要知道,它也容易出错,对吧?这意味着如果你进行100次查询,我们可能会在其中10次查询中犯错,我们会在用户界面中做各种事情来解决这个问题,这样你就不会对我们的评估产生错误的印象。
所以很明显,这是一个猫捉老鼠的游戏,因为人们记得,当你几年前生成人物图像时,它不擅长的是把手的细节做好。所以如果你仔细观察,手上的手指总是比正常人多。这是一个人类可以检测到的信号。
但是随着AI越来越好,人类可见的这些信号消失了。相反,你必须寻找更多这些不可见的信号。我很好奇,你发现机器可以捕捉到而人眼或人耳无法捕捉到的信号,有什么令人惊讶的吗?是的,我们发现这项技术有了显著的进步。
到一个非常关键的点,事实上,现在人们再也无法分辨了。实际上很多人认为,“哦,无论我是否能看到手,我都可以眯着眼睛看一眼,我可以分辨出来。”
所以我们发起了一个测验,只使用社交媒体项目,在社交媒体上发布的政治深度伪造内容。我们发现人们通常无法分辨。纽约时报做了多次测验,最近一次是关于视频的,之前一次是关于面部的。当你参加这些
测验时,你会很快感到谦卑。你无法分辨。所以事实是,即使在当前的技术状态下,正如你指出的那样,它还在不断改进,如果人们认为他们能够分辨出来,那就是在自欺欺人。
是的。我认为让人们记住这一点非常重要,我记得我看到深度伪造的时候,你知道,当你看到它走向何方时,它会引起警觉,但你总是会说,但归根结底,我仍然可以分辨出这是由计算机生成的。我认为在AI的许多领域,无论是生物学、化学、数学、科学方面的AI能力,还是生成虚假媒体,我们都会看看今天的这些能力,然后说,哦,但你看,它在这里失败了,在这里失败了,在这里失败了。然后我们说,所以你看,没有什么好担心的。
但是如果你看看它的发展速度,我们不希望在能力如此强大之后再设置护栏。我们现在就要设置这些护栏。所以我很感激你一直在做这项工作。我考虑了一下,我们所做的只是稍微铺垫一下,因为在这个领域存在一个完整的参与者生态系统
在这个领域,人们会使用不同的术语。给媒体加水印、媒体的来源、披露、直接披露、间接披露与检测事物。你能否简单地向我们介绍一下这个领域中不同的方法?我认为拜登总统的行政命令要求对媒体加水印。
所以所有这些术语,如来源、水印等,都指的是试图标记、追踪媒体项目来源的技术。为了简单起见,我将使用图像作为例子,并追踪对它的更改,并提前向你提供这些信息。这是一项非常重要的技术,它只有一个主要的致命弱点,那就是
目前,它完全不切实际。它不切实际的原因有两个。第一个是,事实证明,这些水印,无论是可见的还是不可见的,都相对容易去除。第二个是,即使我们能够以某种方式成功地坚持对所有AI生成的媒体加水印,正如你指出的那样,这是一个很大的“如果”,
除非你用来消费媒体的应用程序寻找它,否则它没有任何作用,对吧?所以如果它是你的浏览器,如果它是你的Facebook应用程序,如果它是你的TikTok应用程序,如果它不坚持
检测它,那么它就没有作用,对吧?因为没有人会经历一堆繁琐的操作,不是没有人,而是大多数人只是消费他们得到的东西。他们不会打开各种东西。所以除非你作为消费者使用的应用程序反映了水印,否则无论它是否存在,它都没有任何作用。因此,如果你删除它,
没有人会注意到。如果它存在,也没有人会注意到。为了使这项技术切实可行,我们必须达到这样的程度,
我们消费媒体的方式总是会告诉我们这是假的还是真的。Facebook、Twitter甚至Tinder这样的约会应用程序不应该直接在其所有产品的工作方式中实现这种深度伪造检测吗?他们不应该只是嵌入True Media来检查所有通过它的媒体吗?
绝对的。如果你想确保你看到的是真实的,你录制的视频没有被盗,基本上,以各种方式,那么我们需要做一些类似的事情。我确实与主要的提供商,也就是你所说的社交媒体网络进行了交谈。
总的来说,我不会说他们正在急于这样做,他们没有经济上的激励,这就是为什么立法是合适的,当然也存在第一修正案的问题等等,从某些案例开始,儿童色情实际上是我们做得比其他方面更好的一个方面。当然,政治是一个关键因素。你不能只是有政治广告。我们是如此视觉化的生物,对吧?各种政治广告或社交媒体帖子迎合人们的低级本能,混淆视听,所有这些都没有任何适当的分析和执行。
在我们的工作中,我们经常重复沃伦·巴菲特的商业伙伴查理·芒格的一句话。如果你给我看激励,我会给你看结果。正如你所说,这些公司没有动力去实施这项技术,特别是如果这会让他们花钱的话。而我想要问你的问题之一是,我认为他们不只是实施深度伪造检测的原因之一是,这涉及到运行更多的服务器、更多的计算,你知道,每个上传的内容都会让他们花费一些服务器成本,比如处理图像、处理推文、处理TikTok视频,将其放在服务器上。
将其放在服务器上。而这将涉及到进行额外的检查,这将花费他们额外的资金。那么,是什么成本阻碍了这一点呢?这里确实存在成本,但考虑到这些组织的巨大能力,成本非常小。我认为担忧是不同类型的。你完全正确,这样做存在一些不利因素,但这与其说是成本,不如说是其他原因。那么,这些不利因素是什么呢?首先,这些东西……
从某种意义上说,最糟糕的东西表现得非常好,正如你所记录的那样,算法会传播这些东西,人们会点击它,所以最重要的激励是收入而不是成本,这些东西会赚钱,我们在这里面临着一种公地悲剧,他们没有
认为自己有责任确保我们能够获得真相,甚至关于信息,对吧?某些事情可能是真的,但仍然是被操纵的,对吧?这并不意味着它是错误的,但他们不认为自己有责任让公众知道这是被AI操纵的。
是的,我也能理解,如果像Facebook或TikTok这样的科技平台被迫实施这种深度伪造检测,而他们有10%的失败率,那么他们将面临各种正当的攻击,因为他们驳回了实际上是真实的内容。
我认为对准确性的担忧是一个非常合理的担忧。但我认为,拥有信息,特别是经过教育的信息,总是一件好事。所以我不会建议任何人丢弃任何东西。
删除请求等等。这就是我们进入第一修正案问题的地方。我的建议是添加一个标签,说明这似乎是自动合成的。根据trumedia.org(当然,这是一个非营利性、非党派机构)或其他机构的评估,这可能值得怀疑。而且我认为我们可以将准确率提高到90%以上。
但它总是会犯错,这就是为什么我认为最重要的事情是,当某些事情可能值得怀疑,并且它可能是由于其来源,也可能是由于我们的分析或其他工具,你只需要在你转发之前多花一分钟时间
给10万粉丝,当他们转发它时,它会以病毒式传播。随着这项技术的应用,我们能做的最重要的事情就是花点时间说:“等等,我确定这是真的吗?这到底是从哪里来的?”你强调了一个非常重要的观点,我希望听众能够理解,这在我们工作中被称为反常的不对称性。你可以100%地创造一个深度伪造。
你不能100%准确地检测到一个深度伪造。要达到100%需要多年的研究,而你,奥伦,已经签约你的组织和非营利组织来做所有这些工作,以越来越接近。所以,在存在这些不对称性的任何地方,我们都应该首先投资于防御,而不是仅仅将所有这些新的AI进攻能力传播到社会中。
所以,奥伦,我认为我们在这个播客中真正想要做的是描绘我们如何走向理想未来的图景。而且,你知道,你正在努力构建一个工具,但正如你所说,它不是灵丹妙药,它只是整个解决方案生态系统中的一个工具。如果你把这个问题当作现实崩溃的千年虫来对待,你是否对工具套件或生态系统有一个整体的想法?
我认为生态系统正是合适的词语,因为我认为我们每个人都应该发挥作用。
我认为监管机构,正如我们在加州所看到的,并希望它会成为联邦法规,许多州会效仿加州。然后,当你在州一级有一系列零散的规章制度时,有时它会被提升到联邦甚至国际规章制度。所以我认为这是一个重要的组成部分。它需要做得正确。这里需要平衡公司在保护言论自由权利方面的负担,但同时也要创造
为我们创造一个合适的世界,尤其是在政治、非自愿色情等极端危害的案例中。所以我认为这非常重要。一旦你有了这些,你就需要工具来检测某些东西是假的,无论是水印、像我们在Trimedia.org那样的事后检测,还是两者的结合。你不能在没有执法的条件下制定规章制度。所以我认为规章制度和执法是相辅相成的。
我真的很希望在这种情况下,社交媒体公司能够站出来,意识到我们正在遇到我认为是民主的致命弱点,即人工智能和社交媒体的结合,这种结合可以扰乱选举。而且我确实相信他们可以做得更多。然后是最后一点,也是在某种程度上最重要的一点,那就是我们今天在这个谈话中所做的,提高认识
提高媒体素养,确保每个人都运用常识,确保每个人都对所看到的东西抱有适当的怀疑态度,你确定这是真的吗?
即使在今天,我们确实有一些组织,如路透社、美联社等,它们拥有广泛的事实核查组织。有时,我们只需要花一点时间来确保我们所看到的东西以及我们对它的情绪反应确实是真实的。如果我们在生态系统的这些不同要素上共同努力,我认为情况会好转。而且我担心在好转之前会变得更糟。
好吧,在这个令人沮丧的音符上,这是一个很好的结束音符。奥伦,谢谢你来到《你全部的注意力》节目。谢谢你,特里斯坦,谢谢你激励我参与这项工作。我既受到鼓舞,又感到恐惧,但也高兴我们正在尽最大努力在2024年做到这一点。
在我们结束之前,我只想说,这显然是一个巨大的问题。这需要一套完整的解决方案和新工具,从人性验证到要求我们拥有嵌入每个照片中的加密签名的全新相机。这些事情需要一些现在正在提出的新法律。
我想向长期致力于解决这个问题的众多人士致敬。从人工智能伙伴关系和该领域不同问题的本体论,到内容来源和真实性联盟或C2PA(这是一个长期致力于这些问题的公司集合),以及witness.org等非营利组织和Truepik等公司。我想确保人们去看看他们的工作,因为我们需要所有这些倡议都能成功。
还有一件事,请不要忘记向我们发送你的问题。你可以发送电子邮件至[email protected],或者在你的手机上录制语音备忘录,然后发送给我们。
录制这个播客的一个奇怪之处在于,我们的小团队坐在Zoom会议上,我们进行这些节目,我们无法感受到数百万听众的存在,你们想要更深入地了解这些主题。你们有问题,你们喜欢某些节目,你们不喜欢某些节目,我们真的想听到你们的意见。所以请发送你们的反馈和问题,我们可以将它们纳入未来的“问答”播客中。
谢谢。
你可以在humanetech.com找到节目说明、文字记录等等。如果你喜欢这个播客,我们非常感谢你在Apple Podcasts上对它进行评分,因为它可以帮助其他人找到这个节目。如果你一直坚持到这里,让我再次感谢你给予我们你全部的注意力。