We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Robustness, Detectability, and Data Privacy in AI // Vinu Sankar Sadasivan // #289

Robustness, Detectability, and Data Privacy in AI // Vinu Sankar Sadasivan // #289

2025/2/7
logo of podcast MLOps.community

MLOps.community

AI Deep Dive AI Chapters Transcript
People
V
Vinu Sankar Sadasivan
Topics
Vinu Sankar Sadasivan: 我认为目前声称能够检测AI生成文本的工具并不可靠,水印技术只是文本检测方法之一,但并非唯一。过去文本水印技术是在文本中加入拼写错误或空格模式,但现在AI水印技术已经发展。水印技术在有攻击者的情况下效果会打折扣,我的论文研究了四种检测器,水印是其中之一。随着语言模型越来越大,检测变得越来越困难,因为它们可以轻松模仿人类的写作风格。水印只是我们论文中分析的工具之一,如果攻击者真的想攻击,很容易被打破。我们的理论表明,目前不存在万无一失的技术,水印技术可以作为一层安全保障,但很容易被移除。仅仅通过提示很难使AI生成的文本看起来更像人类,因为模型已经经过微调,可以更好地嵌入AI签名。我在论文中使用释义器,因为这与我们的理论一致,并且也为了攻击水印技术。对于水印技术,不能说集合B中的所有段落都是水印文本,因为这会导致人类写作的文本也被检测为水印文本。使用这些检测系统需要在第一类错误和第二类错误之间进行权衡。我认为AI巨头们最近采取了一些措施,使模型更容易被检测到。

Deep Dive

Chapters
AI text detection is not foolproof. Watermarking is one technique, but it's not effective against determined attackers. The paper explores various detection methods and demonstrates their vulnerabilities.
  • AI text detection methods are not completely reliable.
  • Watermarking is a technique that can be broken by attackers.
  • There is a fundamental trade-off between detecting AI-generated text and avoiding false positives.

Shownotes Transcript

嗨,我叫维努·尚卡尔·萨达西万。我是马里兰大学四年级的博士生。目前,我是一名谷歌DeepMind的全职学生研究员,从事AI越狱研究。所以今天我们将更多地讨论AI检测的难度以及这些AI模型的返回,尤其关注生成模型。

是的,我通常不喝咖啡。如果我喝咖啡,我会点拿铁。世界上的好人们,你们好!欢迎回到MLOps社区播客。我是你们的主人,迪米特里奥斯。今天我们将讨论红队攻击,以及如何越狱这些模型。维努。

写了一篇完整的论文和博士论文,关于如何识别LLM生成的文本。所以我们谈到了水印技术,以及它是否是徒劳的。别忘了你,我们有一个热门歌曲推荐。来自巴西的老蒂姆·迈亚。蒂米·迈亚。♪

让我们开始吧。

好的,让我们从为什么水印技术如此困难开始。你基本上告诉我,或者你没有说出来,但我读懂了我们在录音前对话中的言外之意,那就是,

所有你看到的那些东西,你可以提交一段文本,它会告诉你AI生成的文本和非AI生成的文本的百分比是多少。这有点胡说八道,对吧?好的。我不会说这是胡说八道,但我认为我们不应该完全依赖它。是的。

我们有一篇论文研究了不同类型的检测器。首先,水印技术只是我们正在研究的一种检测器,它一直是一种主要且著名的水印方法。水印技术已经存在很久了。它已经存在于图像和文本中很长时间了。

对于文本,以前我们会在文本中加入拼写错误,例如,如果拼写错误不断重复,则表示水印或双空格或空格或标点的模式,这些东西可能就像水印一样。但现在情况发生了变化。AI正在蓬勃发展。人们已经开发了新的水印方法。

所以我看到水印技术是一种非常好的技术。但问题是,当存在你正在关注的环境中的攻击者时,它可能不像我们想象的那么有效。在我们看到的论文中,我们研究了四种不同类型的检测器。其中最重要的一种是水印技术,它也确实效果很好。其他类型是使用训练过的检测器,我认为现在大多数

现有的检测器都在使用这种方法,因为语言模型还没有完全被添加水印。并非所有语言模型都被添加了水印。

所以它基本上就是一个分类器,你给它一个输入,它就像说狗或猫一样,它只是说AI文本或非AI文本。另一种是零样本检测器,你不需要训练网络,你只需要使用网络来查看统计数据,查看损失值,如果损失值较低,它可能就是AI检测文本的一部分,如果它......

不是低损失值,它是人工生成的文本,因为通常AI文本质量更高。因此损失值较低,因此它是AI文本。检索是另一种方法,你将所有AI生成的文本存储在数据库中,然后基本上搜索给定的候选文本,该文本是否存在于数据库中。所以我们研究了所有这些类型的检测器,并在经验上

以两种方式打破它们。一种是使AI文本看起来更像人工文本,另一种是使人工文本看起来更像AI文本。因此,第一类和第二类错误都是。我们还展示了这些检测器之间基本权衡的理论。我们表明,随着语言模型越来越大,检测变得越来越困难,因为如果你直观地思考,语言模型

能力非常强,当它们变得更大时,如果给它们相关的指令,甚至足够的数据,它们可以很容易地模仿人类的写作风格,是的,或者甚至更多的数据,所以如果我给出一个更长的文本,例如,这是唐纳德·特朗普的写作或说话方式,如果我要求它在给定大量数据的情况下模仿,它可能会模仿得非常好,并且随着语言模型变得更大,它会变得越来越难,所以这是另一个担忧,所以......

水印技术只是我们在论文中分析的工具之一,我们表明如果攻击者真的想要攻击,很容易破坏它们。因此,这篇论文的要点是,如果有人真的想要攻击某些东西,他们现在将无法访问任何万无一失的技术。我们的理论表明,不会存在这样的东西。所以现在拥有像水印这样的安全层真的很好。

只是为了处理人们直接使用AI模型中的AI文本的情况,我们可以使用水印技术很好地检测此类文本。但是如果我真的很想删除它,很容易删除它。

现在,人们在什么情况下A,想知道它是否是AI生成的文本,然后B,有人想要对抗并且不让对方知道他们只使用AI生成的文本?是的。是的。这是一个好问题。所以我不希望显示它是AI文本的情况是,当我是学生时。

或者当我试图作弊时,我提交我的作业,但我使用ChatGPT来写我的答案。在这种情况下,我不希望我的教授知道我使用AI来提交我的作业。这是人们现在正在关注的一个主要场景,因为那里有很多现金,有很多钱。因此,所有领先的文本检测工具基本上都专注于剽窃目的,因为那里有很多钱。

而你真正想要检测的另一种情况是,剽窃也是一种情况。这就像一个极小极大博弈。学生们想让它看起来像人工文本,但教授们想让它看起来像AI文本,如果它确实是AI文本的话。另一种情况可能是垃圾邮件、网络钓鱼,这些尝试中你可能实际上是在与一个不是人类的聊天代理交谈。他们可能会被编写成欺骗你进行一些诈骗。

如果他们可以访问AI,那么他们更容易扩大这些诈骗尝试,这非常危险。如果以后出现一个AI模型,它非常自然,它将文本转换为语音,他们基本上模拟了一个呼叫中心,同时与多人交谈,试图诈骗他们并从中赚取大量金钱,那该怎么办?

所以在这里,他们真的会想要使AI文本或AI语音或任何模式看起来更像人类,这样人类就无法检测到它,但他们仍然可以做任何他们想做的事情,他们对抗性的目标,而不会被抓住。现在,你提到过你打破了这些不同的设置或检测器的方法。一种方法是使AI生成的文本看起来更像人工文本。

那只是通过提示吗?不。我们所做的是,这是一种你实际上可以做到的一种方法。但正如我们在对话前讨论的那样,系统的演变使得这样做变得更加困难。所以现在我认为这些模型已经被很好地微调,以便更好地留下AI特征。所以实际上使用AI方法

输入提示来改变检测或影响检测效果变得更加困难。我最近一直在尝试使用所有这些工具,Gemini、ChatGPT和Anthropic Cloud,看看你实际上如何给出提示以使它们看起来更不像AI文本。

所以我不能真正从中进行研究,因为很难自己手动提示数千个文本,然后做一些事情。但我主要发现的是,对于大多数这些AI模型来说,通常如果我给出这样的提示,例如将被动文本转换为主动文本或

诸如使用更简单的句子,不要使用更长的句子,避免使用和或标点符号之类的东西,如果我给出模型通常用来编写高质量文本的此类特征,并使它们试图通过使用更低质量的文本,例如使用

更贫乏的词汇量,就像人类会停止使用大量标点符号并编写更短的句子一样。有时我会让他们崩溃,但这很难。我一直在注意到这一点,因为我每隔一段时间就会尝试一下。所以每隔几个月,我都会尝试一下。我发现这样做越来越难了。所以我们在论文中所做的方法是

这与我们论文的理论相符,即基本上使用一个释义器,我们这样做的原因是为了使我们进行的攻击,即我们进行的经验性攻击与我们的理论相符,另一个原因是,我们还想攻击水印技术,而第一个AI水印文本论文,AI文本水印论文展示的方法是

改变单词,只需用另一个单词替换单词,所以这是你会想到的第一个简单的攻击,所以给定一个AI候选文本,你可以通过改变单词来对其进行最小编辑,添加一些同义词或改变一些波动,例如添加像和或之类的词,以使编辑距离最小,是的,来

看看我是否可以打破它。所以这基本上就像你说对所有出现delve的地方使用控制F,然后你将所有delve替换为另一个。好的,我明白了。然后它会顺利通过。

对于其他一些检测器来说,情况就是这样,但对于水印技术来说并非如此。所以水印技术对它相当稳健。所以如果你真的想通过只改变单词来攻击水印技术,你可能需要几乎改变50%的单词,这是一项非常艰巨的任务,对吧?因为你不能改变很多单词。即使给定一个包含10个单词的句子,你也几乎无法改变其中的两三个单词。

而不会影响句子的质量或含义。这就是释义器非常重要的原因。基本上,给定一个句子,我可以完全改变它的结构。我可以将主动语态句子改为被动语态,所以它完全翻转,改变了结构。我可以使用释义器用和或之类的词连接不同的句子,如果我只是简单地改变段落中的不同标记或单词,则不会出现这种情况。

所以我想为了更好地解释这种攻击,重要的是要了解水印技术的工作原理。是的。第一个文本水印论文是如何做到的,它是一个简单的算法。呃,

但是,但是如果给定的话,它确实效果很好,所以你正在写一段话,这样想:你正在写一段话或一篇关于狗的文章,所以你说狗在玩,这就是人类写文本的方式,你不会确切地考虑如何选择单词,你只想选择一个有意义的单词,但水印AI会考虑的是,好的,我从单词what开始。

现在对于下一个单词,我必须只从我拥有的50,000个单词词汇表中的25,000个单词中选择单词。所以假设我的词汇表中有50,000个单词。AI会将其分成两半。他们称一半为红色列表,另一半为绿色列表。现在AI会专注于始终从绿色列表中选择单词。

所以最终当它逐字写作时,它会试图使段落中的大部分单词都来自绿色列表。所以人类会做的是,人类不知道红色列表和绿色列表是什么。所以他或她最终可能会从红色列表或绿色列表中选择大约50%的单词,对吧?而这个水印AI模型会做的是,它最终会得到一个大部分包含绿色列表单词的段落。

这就是水印。所以AI模型知道,给定一段话,其中包含90%的绿色单词和10%的红色单词。所以它很可能是AI文本。但是给定人工文本,好的,它大约包含50%的红色单词和50%的绿色单词。

现在还有更高级的版本,它在质量方面做得更好。所以他们会做的是,而不是对红色列表和绿色列表进行硬划分,因为有时当我写巴拉克·奥巴马这个词时,奥巴马这个词可能在红色列表中,但我希望它在绿色列表中,因为我在巴拉克之前写了这个词,我希望奥巴马出现在巴拉克之后。所以什么

他们会做的是,我会使这个红色列表、绿色列表划分动态化。所以每一步我都会选择一个新词,我的红色列表和绿色列表会不断变化。该死,好吧。这将根据之前写的单词而改变。所以如果我写了巴拉克,那么对于下一个单词,绿色列表和红色列表将由该单词巴拉克决定。所以它将被建模成奥巴马大部分都在绿色列表中。诸如此类。

所以这就引出了一个问题,所有模型提供商或所有模型创建者都需要在其模型中包含此功能才能使其具有价值,对吧?而且你们也必须就如何操作达成一致,这样当你们拥有某种水印检测器时,它就可以检测到是否是AI生成的内容。我想你可以......

所有不同的模型,每种模型都有其自己的水印风格,然后检测器可以拥有所有这些不同的检测方法。但是你需要从模型级别开始。如果模型提供商没有这样做,那么你就无法检测到它。这是一个非常好的观察结果。这是水印建模者现在面临的主要限制之一。我很高兴你指出了这一点。所以,

如果OpenAI对其模型进行了水印处理,而Gemini没有进行水印处理,反之亦然,这没有任何意义,因为这些是隐藏的模型,如果攻击者想要使用该模型,他们会选择现有的未加水印的AI模型。而另一个主要问题,我不知道现在没有人谈论这个问题,那就是我们已经发布了开源模型,这些模型没有加水印。

所以我有了Llama 3.2,更大的模型。我总是可以下载并将它们保存在我的硬盘中。它们现在可以很好地完成任何我想做的事情,例如诈骗或剽窃。我总是可以使用它们来编写AI文本,至少就我们现在认为好的质量而言。

也许,我的意思是,至少与人类不相上下。所以我们仍在尝试进行水印处理也很疯狂。好的,我理解将来它可能会更强大。水印技术可能是我们想要的东西。但在某种程度上,我们已经造成了损害。将来需要造成损害的人仍然可以使用现有的未加水印的开源模型进行大量自动化。

对。而且,如果所有这些AI公司都采用不同的水印方案,那么将来检测可能会更加困难,就像你提到的那样。

所以他们总是必须步调一致,有人监管他们如何加水印以及如何进行检测等等。因为假设将来有10,000家AI公司,你不知道来自哪里。你可能会在检测哪个来自哪里以及查看AI文本的持久性方面进行大量计算,这......

可能很难。是的。所以这个问题有一些技术上的限制,我们还没有解决。是的,妖怪已经逃出了瓶子。那么你打算怎么做呢?特别是对于AI模型生成的SEO生成内容,你可以看到,我不知道谷歌......

是否会惩罚你,如果你一次发布大量不同的博客文章,而你只是在大量输出AI生成的内容。我认为我在他们的SEO更新中某个地方读到过,如果它对最终用户有价值,那么你的SEO分数就不会受到影响。但你必须想象一个世界,他们正在寻找,他们正在看到,嘿,这是

90%是AI生成的。如果他们能弄清楚这一点,他们就会想要这样做。但现在几乎就像,是的,也许他们可以稍微弄清楚一点。正如你所说,如果他们对事物进行了水印处理,如果每个人在水印处理方面都步调一致,那么它将是有用的,或者我们可能会看到这一点。但在目前,这种情况并没有发生。是的,是的,这是真的。

那么在继续讨论我最喜欢的另一个主题红队攻击之前,关于水印还有什么要说的吗?是的。我认为我当时正在谈论我们在论文中进行的去除水印的攻击。所以现在存在的文本水印中真正重要的事情是它对之前采样的单词的依赖性。所以如果我采样了巴拉克,我想接下来采样奥巴马。

所以对于下一个单词,我可能会有一个随机的红色列表或绿色列表,但我将增加采样奥巴马这个词的概率,以便对其进行采样。这是一件事,这样文本质量就不会受到影响。另一件事是绿色列表和红色列表现在是动态的。所以它会随着每个单词而改变,这取决于之前的单词。它基本上是用于将词汇表划分为红色列表和绿色列表的随机数生成器的种子。

所以水印技术的工作原理就是这样。如果你想攻击它,如果你只是想想,如果我在中间改变一个单词,它可能会影响下一个单词的红色列表和绿色列表,对吧?因为那可能不会出现在红色或绿色列表中。哦,是的。但问题是,如果我只做了一个词,它只会改变下一个词的红色或绿色列表。所以如果我需要完全改变其中的绿色单词数量,我必须进行大量编辑。

但是如果我重新排列这些单词呢?那么这种结构,顺序就被完全打乱了,红色列表和团队列表现在完全是随机的了。

这就是你改写句子时发生的事情。你通常不会试图保留单词的确切顺序,但你会写它们,以便它基本上被改写了。所以如果我有一个较长的句子,我可以交换句子A和B。我可以说B和A。即使在A中,我也可以改变语法,或者我可以将主动语态改为被动语态等等,甚至同义词等等。

所以我们研究的攻击是使用AI模型本身来释义AI文本。理想情况下,你希望AI释义的输出也被检测为AI文本,因为它又是AI,而不是人类。所以我们观察到的是,如果你使用释义器模型来释义AI文本,那么对于许多这些检测技术来说,你得到的输出大多被检测为人工文本。

但最强大的技术之一是水印技术。它仍然对释义有点稳健,因为当前的释义器没有经过训练来做到这一点。所以如果我们给释义器非常好的手动提示,我们实际上可以在一次性完成。但我们最终展示的是一种叫做递归释义的东西,你释义一次的AI文本将再次被送回释义器再次释义。

所以它将被释义两次。然后你可以根据水印的强度继续这样做多次,无论你想要多少次。所以我们发现,只需两轮递归释义,水印算法的准确率就会下降到50%以下。所以我们只是看到两轮释义就足以打破水印算法。

这也就是我们在理论中所展示的。所以这个理论是这样的。假设你有一个文本分布,它基本上是AI文本加上人工文本,这是它的一个子集,对吧?所以它可以是任何东西。所以给定一个句子,一段话A,我也可以查看另一个集合B,它基本上是与A在含义上相似的所有段落。

所以即使我从B中取一些东西,我也没关系用它来替换A,对吧?但问题是,对于水印来说,在集合B中,假设有100个段落我可以用来替换A。对于水印代理来说,我不能说在所有100个段落中,有50个是加了水印的,因为如果是这样的话,人类写一段话很可能会有50%出现在加了水印的标签中。

所以我必须确保人类写出具有相似含义的段落的可能性较小,因为它必须加水印。为此,在100个段落中,我必须说,好的,只有一个或两个句子被标记为加了水印,而其他句子没有。尽管如此,假阳性率,即人类写出的文本被检测为AI文本的概率为1%或2%,这相当高。但好的,让我们宽容一点。假设说,好的,只有一个或两个。

100个文本被标记为AI水印文本。但现在问题是,这很容易。我有第一个句子被标记为AI水印。如果我使用一个非常好的释义器,然后从第一个文本跳转到100个文本中的一个随机文本,那该怎么办?所以我很可能会跳到一个没有水印的文本上,因为水印的设计方式是它很可能会跳到另一个我不想要的文本上。

所以如果你看看这个,这是一个权衡。如果我试图提高水印对释义的强度,我必须将这个数字1/100标记为加水印的增加到10/100标记为加水印的或50/100标记为加水印的。但如果我这样做,我最终会让一个无辜的人被错误地指控为剽窃。

机会更大。所以如果我们使用这种类型的检测系统,它本质上是在第一类错误和第二类错误之间进行权衡。这就是我们的理论所展示的。所以我们的理论表明,即使对于那里可能存在的最佳检测器,我们也使用分布之间的距离来限制该模型的检测性能,这是一个术语,我们不需要深入探讨。

但本质上,对于那里可能存在的最佳检测器,我们并不是说这是水印技术,但即使是比水印技术更好的东西,理论上那里可以访问的最佳检测器也受到我们在论文中描述的数量的限制,这仍然不是100%可靠的。

而且它的性能仍然与真阳性率和假阳性率(即第一类错误和第二类错误)之间存在权衡。你必须降低其中一个错误才能使另一个错误更好。所以这是我们论文中展示的主要亮点或主要结果。

因此,接下来,释义现在被认为是一种非常好的攻击方法。许多领先的文本检测工具,如Turnitin,一直在使用方法来处理它。但他们在最近的博客文章中提到的内容是使用一个释义检测工具,它可以告诉你AI文本是否被释义。如果它被释义了,你可以说它是不是AI文本。

问题是,如果你这样做,你最终会损害你的真阳性率。是的。好吧,是的,这听起来就像你有一个上限和下限,或者光谱的左右两侧。你越向光谱的右侧移动,你就会得到这些假阳性。是的,完全正确。无论你尝试做什么,你都无法获胜。是的,完全正确。是的。

所以如果检测无辜的孩子为剽窃者能赚到更多钱,好的,你可以选择那样赚钱。但如果大部分钱是......好的,作为一个AI检测工具,我可能想说,好的,我抓到了更多剽窃的学生。也许这对他们来说更有效率。但这实际上可能会让他们因为错误地指控学生而声誉受损。所以这是一个他们需要做的选择。

但真正的问题是,我们真的想将它用于如此严格的剽窃检测吗?因为我认为随着我们继续前进以及这些技术的出现,我们必须找到一种方法来协同使用它们来完成我们的工作,因为它们提高了我们的生产力。与其用它来取代我们,我相信它提高了我们的生产力,我们必须学习将它们

用作工具,而不是完全将它们用于剽窃。是的。你刚才谈到了一秒钟,你提到你感觉让它变得越来越难了,让,

这些模型更像人类写作,它们几乎正在接受训练,或者它们正在接受红队攻击,不要像人类一样写作,并拥有自己独特的AI声音,是的,是的,所以我认为这只是一个推测

我不确定实际上是什么构成了这些模型的训练。所以,但是是的,从表面上看,我认为这些AI巨头已经采取了最近的措施,使这些模型更容易被检测到。可能是这样,也可能是AI检测公司在改进其检测器方面做得更好。可能是两者之一。但是

呃,我也觉得,在引入水印的某个时间点,这些模型的文本质量实际上下降了一点。当我看到推特上的一些评论时,我看到有时人们会说,是我一个人还是其他人也觉得ChatGPT的文本质量下降了一点,我不确定是不是因为在它上面添加了这种训练,也可能是因为他们添加在模型顶部的其他安全调整,实际上牺牲了性能。

这可能是他们添加到模型顶部的某些其他安全调整,实际上会影响性能。

是的,这是一个副作用。这是它的副作用。所以每件事都有权衡。如果你试图使检测更好,你必须在文本质量或检测的I型或II型错误等方面进行权衡。但我认为,是的,我的猜测是模型可能经过微调以使检测更容易,因为最近各国政府一直在推动这些科技巨头在其产品中嵌入水印。

DeepMind最近在《自然》杂志上发表了他们的水印论文,Meta也一直在尝试,一直在参与图像水印等工作。OpenAI,我不确定他们的情况如何,但我认为所有这些公司都面临着在其产品中添加水印的压力,所以他们正在尝试可能做的事情,可能会使检测更好。

但这些是我认为我一直在注意到的趋势,这再次是一种猜测。但我认为所有这些模型的一个共同特征是它们都被训练成具有非常好的文本质量。所以这可能是它的另一个副作用。他们试图使用非常优美的词语和修辞手法,诸如此类的东西,使文本看起来非常漂亮,装饰性的词语等等。

所以如果我们给出一些指令,在我看来,以前很容易。我认为这是因为这些模型一直在进行的训练,使检测变得容易得多。所以最近,如果我尝试这样做,好吧,我只是说,好吧,让它听起来像唐纳德·特朗普说的那样,从模型中出来的文本仍然被检测为AI文本,而在我一年前左右检查时情况并非如此。

所以是的,可能是模型被训练成那样,或者检测工具随着时间的推移而改进。好的,让我们转向红队行动,告诉我红队行动多年来是如何因为......而改变的。

所有模型都在变得更好。我认为有更多的人正在对模型进行红队测试,无论他们是否为此获得报酬。每个人都喜欢思考或喜欢能够说,我让ChatGPT或你最喜欢的模型说出或做到这一点。这几乎就像一个我们可以佩戴在互联网上的荣誉徽章。那么多年来你看到了什么,它有什么不同?是的。

我认为这就像我们在AI中看到的非常近期的进步。人们试图越狱,人们试图进行红队测试。但我希望看到更多这样的情况,它始于人们,然后转向自动化的事情,因为人们付出的努力几乎相似,因为它只是手动尝试,反复试验。你从模型中获得的一些见解,你得到的反馈,你把它放回问题中,这是一个迭代过程。

所以它就是这样开始的。它被称为“立即做任何事”(DANT)。有一个页面,人们在那里想方设法越狱这些模型。你可以编写手动系统提示或编写手动输入提示,以使模型认为你是无辜的,你不会做有害的事情。

所以其中一些,我认为,经典的例子是,你必须让模型说出如何制造炸弹,出于某种原因,你可以在谷歌上找到它,但你不希望你的模型输出。

哦,我从未想过这一点。是的。但是我的意思是,是的,当然。这仍然是一个需要记住的好目标。但是是的,我的意思是,你现在可以把它作为一个玩具例子。我们不希望模型谈论某些事情。好的。这完全没问题。我们只是不想让它谈论它。我们该如何做到这一点?

因为炸弹可以在不同的上下文中出现,对吧?我们不能只使用词语过滤算法。炸弹可能是爆炸物。或者我也可以说,那是炸弹。也许要说那是一件很棒的事情或类似的事情。是的。我不知道你会在什么情况下使用它,除非我理解它是什么。所以我不能只使用字符串匹配算法,看看,好吧,如果其中有炸弹,我就不回复。这行不通。即使是“螺丝”这个词,如果我说炸弹,

我要拧紧它,这可能没问题。但如果我说我要把你搞砸,那可能就是冒犯人的话。

所以有些事情是上下文相关的。所以不仅仅是给出事物的上下文。在大多数情况下,词语过滤并不容易。而且,如果你必须创建一个这些词语的黑名单,那将非常庞大。你最终无法做到这一点,尤其是在这些模型现在变得多语言的情况下。很难维护一个你想过滤的词语列表。

但是人们过去做的事情是手动编写巧妙的系统,他们说我的祖母病了或诸如此类的事情。我必须为她制作一种神奇的药水,或者说这是我的学校项目。我真的很想取得好成绩。这很有趣。这正是你试图愚弄一个人让他们回答问题的方式,说,行动,利用同情方面。

呃,情感方面,让模型说出,因为它们在某种程度上与人类对齐,最终会破坏它,因为这就是它们被训练的方式,它们也与人类价值观安全对齐,所以可能预期它们会通过这些方法被破坏,一个普通人或一个低于平均水平的人会根据你训练的方式被破坏,是的......

那是红队行动的最初演变,就像它开始的地方,人们展示了,好吧,这些手动技术可以让我编写提示来破坏它们。

最初作为提示工程技巧,人们最初使用提示工程来提高模型的性能,但现在他们开始使用它来破坏模型。但现在更像是一个迭代过程。所以你用提示提出一个问题,它没有回答。你最终改进提示,但你基本上没有得到太多信号。它最终会说,我无法回答你的问题,但这对你来说并不是一个好信号,但你最终会反复试验。

反复改进你的输入,以便模型在你的攻击的某个后续迭代中以某种方式被破坏,但从那时起,它已经有了很大的进步,更多的人已经到了现在更自动化的地步,这更危险,因为然后攻击变得可扩展,并且造成的危害比你手动系统提示时要大得多,所以......

模型之后做了什么。所以攻击者之后做了什么。去年有一篇来自Andy Zhu的论文,他们在论文中介绍了一种名为GCG的算法,这本质上是一种基于梯度的算法。所以,如果我有一个问题,如何制造炸弹,我可以之后添加20个随机标记。

然后使用梯度来优化它,以选择一组随机的20个标记,基本上是后缀标记,这些标记没有任何意义。但是当将其作为后缀添加到输入“如何制造炸弹”中时,模型就会崩溃。这对我们来说没有任何意义,但模型以某种方式解释了这一点并崩溃了。如果我们从机器学习对抗性文献中来看,这是非常预料之中的事情,因为机器学习模型,本质上是神经网络,

可以用一些输入扰动来破坏。这是对抗性文献中一个众所周知的策略,但问题是对于语言模型来说很难做到,因为它们的工作方式与我们使用的传统机器学习模型非常不同。

因为在传统的机器学习中,人们主要关注的是计算机视觉和连续数据,在那里你可能有,比如说,图像,这是一种不同类型的数据,你拥有连续数据,对吧?它只是像素值在0到255之间或在-1到1之间。它只是连续数据。但是对于文本,当你来到文本时,它们只是离散数据,比如说,50000个标记。所以你只需要说这个标记是255,或者可能是50000或类似的东西。所以它们是离散的。

所以问题是,当你对它进行梯度计算时,相对于输入进行梯度计算,由于输入是离散的,所以在所有点上对它们进行梯度计算非常困难,因为它们根本没有定义。

所以当我们试图对语言模型进行攻击时,大多数情况下攻击都是无效的,但这项最近的工作做了多个技巧或多个黑客手段来使它奏效。这就是最终结果,你添加随机的术语,在问题的末尾添加随机的后缀,它就会崩溃。

它只是随机的词语,如果......就像我可以有我的提示,然后我可以想到随机的词语,或者你是否会在末尾添加特定的词语,或者只是特定的字母?对我们来说看起来是随机的,但对模型来说,它并没有说模型特定的词语,只是优化以使其崩溃。

但是攻击者如何知道优化的词语是什么?是的。一种方法是,如果你可以直接访问模型,你可以通过获取模型的梯度并更新词语来优化模型。他们展示的另一种方法被称为可迁移性,这再次是一种非优化的

对抗性声誉中的现象,你所做的是,你可以访问三个或四个开源模型。你找到一个破坏所有模型的后缀,对吧?现在,如果你将这个后缀用于你从未访问过的新的模型,它最终可能会被破坏。这就是可迁移性。他们表明这些后缀可以转移到新模型。所以你可以使用LAMA来训练后缀,并用它来破坏可充电性。所以没关系。这不是关于......

它的训练。这实际上是关于模型架构的。没错。这可能是一件事,因为大多数这些模型都是基于转换器的。这是一件事。另一件事是数据。大多数这些模型最终使用非常相似的数据。结构相同。所以你可以破坏它们的方式......

相似,这可能就是我认为可迁移性有效的原因,因为在我研究过的许多语言模型中,可迁移性都非常有效,我认为这是因为用于训练的底层相似文本,所以这是一个我们可以说的漏洞,模型提供商如何应对它?是的。

所以一种方法是再次使用自动化的红队测试来对抗这一点。这是一种方法。好的,让我们再次以顺序的方式来看一下防御系统工具的演变。

所以第一个,我向你讨论的这种特定方法只是添加随机的术语,对吧?所以如果你在这里看,文本的质量会变差。所以一种更容易的方法是,我查看输入提示的文本质量。如果它真的很差,我就不会回答。我只是说我不理解你的问题。这是一种方法。这就是为什么后来的攻击会提高后缀的可读性。他们实际上制作了可读的文本,

并进行类似的攻击,因此模型无法根据文本质量进行检测,因此模型最终会做的一件事是思维链,另一件事是使用Llama Guard,他们使用Llama模型的副本进行训练,使其成为一个分类器,它被训练来查看此输入是否有害与否。

对。所以一个预训练的Llama模型被用来执行分类任务,它被赋予一组有害的问题和一组无害的问题,并可能给出标签0或1。如果为1,则有害。如果为0,则无害。

你还可以添加这个分类器的训练数据集,这些是我们之前设计的对抗性提示,以使它们对这种攻击具有鲁棒性。但是同样,如果你使用AI来防御AI,你管道中的AI,如果其中一个被破坏,所有都会被破坏。是的。

因为这一切都在输入端,对吧?在输出端没有发生任何事情。或者如果它通过输入万能方法,是否还有另一个在输出端发生的过滤器?

这些系统有多种工作方式。有些只在输入端工作,因为如果你真的想节省计算时间,最好查看输入。但是如果你有能力查看输出和输入,那是最好的方法。所以Dharma Guard最终会查看输出和输入,如果它有能力这样做的话。

有些方法甚至会查看模型的内部激活。并且有一些检测器被训练来查看,如果我有一个转换器层,如果我查看其中不同神经元的激活,如果,比如说,一组这些神经元激活得更多,那可能是有害的提示。所以甚至有一些方法会查看这些模型的内部激活,以查看它是否是有害的文本。

所以这就像潜空间的黑暗面。他们可以知道它在哪里,那些偏僻的小巷,他们可以说,嘿,如果你在潜空间的这些偏僻小巷里旅行,你可能在做坏事。没错。所以他们称之为断路,你试图让模型理解它是否正在

它的激活正朝着它的黑暗面发展,然后就在那里断开它,停止生成,就是这样,这就是为什么有时你看到模型只是停止生成一些它们可能不确定的事情,或者它们只是电路被切断了,所以它们不会继续下去,因为它可能会导致一些有害的事情。

你有没有看到,因为我知道你现在正在为DeepMind进行大量的红队测试,对吧?我可以想象你一直在玩弄所有模型,而不仅仅是DeepMind的模型。那么你有没有看到某些模型更强大,而某些模型更弱的不同方式?我认为......

这,再次,红队测试对我来说是一个更广泛的术语。因为在我的上一项工作中,它发表在IHML上,我们研究了红队算法,我们找到了一种自动化算法来制作,再次,可读的后缀,它会破坏模型,但速度很快。我向你提到的GCG算法需要大约70分钟来优化后缀。

这非常长。所以我们所做的是我们的攻击只需要一分钟的GPU时间来获取模型。这就是我们在ICMN上发表的内容。在那篇论文中,我们只是提出了这个算法,但这个算法的能力是巨大的,因为它速度很快,而且当时在学术环境中GPU较少,我们可以尝试不同的攻击。所以一个是越狱,我认为这是一种红队测试,我会说它

存在。我们做的另一件事是所谓的幻觉攻击,我们改变提示,以便模型最终产生更多的幻觉。

第三个是所谓的隐私攻击,我们攻击提示,以便现有的隐私攻击性能得到提升。例如,有一种叫做成员推理攻击的东西,你想看看,比如说,我从哈利波特中截取了一段文字,并询问它是否是你的训练数据的一部分。所以有一些攻击可以很好地做到这一点。但最终......让我......它......

所以,是的,我们现在还不能保证这一点,但我肯定大多数这些模型都使用了哈利波特进行训练。是的。他们有时会从哈利波特中生成完全相同的文本。哦。

是的。哦,这是经典的。是的。所以这些模型,我们所做的是第三种攻击是隐私攻击,我们攻击输入,以便隐私攻击的性能得到提高。你可以想到不同类型的攻击,人们只关注越狱的红队测试。但我们注意到它确实取决于你的训练。Llama是一个我所知道的非常好的开源模型,它擅长抵抗越狱。

所以当你将它与其他模型如Mistril的模型或Vicuna或Llama以及类似的模型进行比较时,我们发现Llama对越狱尝试相当稳健,就像ChatGPT或Claude或Gemini一样,但是

Cloud在防御方面做得非常好。大多数情况下,它们在后台有很多安全过滤器和思维链,我理解这就是为什么它们在这方面非常擅长,因为它们主要是一个AI安全研究组织。所以他们更关注安全。我假设他们在使它们在安全方面变得更好方面投入了更多计算资源。

但是是的,回到开源模型,Llama在抵抗越狱方面一直很好。所以我们发现,当你要求它生成假新闻时,更容易越狱Llama。Llama有一个漏洞,它会生成更多假新闻。与其他模型相比,更容易让它们生成假新闻。

这里需要注意的一点是,这只是越狱攻击,所有这些模型都被微调以抵抗越狱攻击。但是当我们转向幻觉攻击时,我们发现Llama与所有其他模型相比同样容易受到幻觉攻击的破坏。

所以幻觉攻击本质上是我们在添加后缀,模型最终会说,好吧,吃西瓜籽对你有害。你甚至可能最终会死于吃西瓜籽。或者走进衣橱,如果你走进衣橱,你可能会死。诸如此类的事情。我们有实际的例子,Llama在攻击后最终会这样做。

它运作方式的疯狂之处在于它确实取决于你如何微调你的模型。如果你忘记微调你的模型以使其对幻觉攻击具有鲁棒性,你的机会就没了。所以一旦你部署了模型,它就在那里了。人们可以攻击它以使其产生更多幻觉,散布虚假信息。

所以是的,它确实取决于你的训练,你的训练是如何进行的。所以当将这些开源模型与已经存在且不是开源的、封闭的模型进行比较时,我认为......

它们已经被广泛微调以抵抗这些技术。而且至少在学术环境中也是如此。我们实际上会让他们知道这种攻击的存在。我们将要发表它们。所以如果这是一个非常重要的攻击,他们会有时间去适应它。而且这些......

公司有这些项目,你之前问过他们是否被付费来攻击,他们有一个赏金计划,你对他们进行红队测试,找到漏洞并向他们报告,模型实际上会训练以使它们在这方面变得更好。所以他们实际上正在进行良好的红队测试研究,以便在他们组织之外的其他人破坏它之前领先一步。所以我认为随着这种情况变得更多

就像开源社区的成长一样,如果红队社区发展壮大,并且超过了公司拥有的社区,那么公司可能难以应对将会存在的红队方法,但我们可以使它

更难让攻击者通过添加这些模型使用的防御措施,这些公司现在正在使用。但是是的,再次,这与检测中存在的问题相同。我相信要找到越狱的完整解决方案并不容易,因为如果你仔细观察,越狱本身的定义对我们来说并不完全清楚。

我们不应该向模型回答哪种类型的问题?如果我们不知道这一点,我们也不知道如何训练模型来做到这一点,这就是我们正在研究的根本问题。所以如果我们无法定义问题,我们如何找到一个定义明确的解决方案?所以我们需要首先定义问题,这是非常模糊的。

因为上下文会发生变化,有害问题的范围也会发生变化等等。