We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Auditing LLMs and Twitter

Auditing LLMs and Twitter

2025/1/29
logo of podcast Data Skeptic

Data Skeptic

AI Deep Dive AI Chapters Transcript
People
A
Asaf
E
Erwan Le Merrer
G
Gilles Trédan
Topics
Asaf: 本期节目讨论了图论方法在大型语言模型(LLM)幻觉检测和Twitter影子封禁检测中的应用。我们首先探讨了LLM在生成空手道俱乐部图时出现的幻觉现象,并分析了其原因。LLM并非为图而设计,其能够处理图是令人惊奇的。 Erwan Le Merrer: 我们认为LLM处理图的问题更像是一个记忆和统计问题,而不是图论问题。如果LLM能够更多地接触到这个数据集,它可能会更好地重现它。 Gilles Trédan: 我们研究了Twitter上的影子封禁问题,发现Twitter声称不存在影子封禁与数据结果不符。我们使用图论方法检测影子封禁,并发现影子封禁并非随机的,而是集中在某些社区。我们使用流行病模型来模拟影子封禁的传播,该模型能够很好地解释观察到的现象。 Erwan Le Merrer: 我和Gilles的学术合作始于博士期间,我们一直研究图论在分布式系统中的应用。在分布式系统中,节点和边代表了各个参与者及其之间的协作模式。在处理数百万个节点的分布式系统时,可扩展性是一个挑战。我们还将图论应用于分布式系统、算法执行、推荐算法和LLM审核等多个领域。 我们要求大型语言模型生成著名的图,例如空手道俱乐部图,来研究其幻觉行为并试图从中了解模型内部结构。我们设计的提示很简单,要求模型以Python边列表的形式输出指定的图。我们通过图编辑距离和度数序列来衡量大型语言模型生成图的幻觉程度。即使大型语言模型生成的图不是完美的复制品,我们也关注其是否保留了原始图的结构特征,例如社区结构。与传统的基于二元问题的LLM评估方法相比,使用图作为提示可以获得更多信息。我们使用图集距离(GAD)来衡量大型语言模型的幻觉程度,该指标与幻觉排行榜上的结果具有良好相关性。图集距离是一种计算密集型且粗略的图距离度量方法。不同大型语言模型在生成图时犯的错误是不同的。 我们利用多种方法检测影子封禁,包括搜索禁令、回复禁令以及幽灵禁令等。我们使用流行病模型来模拟影子封禁的局部性。 Gilles Trédan: Twitter将影子封禁归咎于bug,但我们认为这掩盖了更深层次的原因。我们通过分析Twitter用户的邻居中影子封禁用户的比例,发现存在显著差异,这表明影子封禁并非随机的。我们使用流行病模型来模拟影子封禁在Twitter网络中的传播,该模型能够很好地解释观察到的现象。我们利用Twitter用户ID的特性进行随机抽样,以避免引入偏差。

Deep Dive

Chapters
This chapter explores the accuracy of LLMs in recreating the Zachary's Karate Club graph. The researchers tested multiple LLMs, measuring their ability to reproduce the graph's structure and community properties, introducing new metrics to evaluate the quality of the LLM's output and comparing the results to existing hallucination benchmarks.
  • LLMs were prompted to generate the Karate Club graph as an edge list.
  • The accuracy of LLM outputs was measured using graph edit distance and a novel metric called Graph Atlas Distance (GAD).
  • Results showed varying degrees of hallucination across different LLMs, with some showing remarkable accuracy while others generated significantly distorted graphs.
  • The study highlights the potential of using graph-based approaches to understand the internal workings of LLMs and to evaluate their performance in handling complex data structures.

Shownotes Transcript

我们的嘉宾埃尔万·勒·梅雷尔和吉尔斯·特雷丹是图论和分布式系统领域的长期合作者。他们分享了他们在应用基于图的方法来理解大型语言模型(LLM)的幻觉和社交媒体平台上的影子禁令方面的专业知识。在本集中,听众将学习如何使用图结构和指标来揭示算法行为和平台审核实践中的模式。关键见解包括:使用图论评估LLM输出;揭示幻觉图中的模式,这些模式可能暗示模型的底层结构和训练数据;以及应用流行病模型来分析推特上影子禁令的不均匀传播。-------------------------------想要收听无广告版本?试试我们的图论课程?加入Data Skeptic+,每月5美元或每年50美元 https://plus.dataskeptic.com</context> <raw_text>0 您正在收听Data Skeptic:图与网络播客,该播客探讨了图数据结构如何影响科学、工业以及其他领域。欢迎收听Data Skeptic:图与网络的另一期节目。阿萨夫,正如你指出的那样,这是一部双重特辑。我们有两名嘉宾,两个主题。

我们将讨论一下他们关于检测推特影子禁令的工作。但我们首先会谈论一个更及时和热门的话题,那就是大型语言模型和图的交叉点。特别是,他们要求图记住或输出空手道俱乐部,然后观察LLM产生该图幻觉的程度。

对他们来说?我不得不自己检查一下。所以我要求ChatGPT输出Zachary空手道俱乐部数据集的边列表。实际上,它错过了两条边。嘿,还不错。是的,我有点惊讶,因为它是一个如此经典的数据集。当然,该数据集是公开的。

所以这是一个非常有趣的问题。它为什么会产生幻觉?我想我对大型语言模型的辩护是,它并非为图而构建的。它是为下一个标记预测和处理文本而构建的。在这个过程中,Transformer架构能够理解图,这几乎是奇迹般的。

所以假设我当场问你,没有准备时间,没有笔记,让你根据记忆重建你对空手道俱乐部数据集外观的最佳回忆。

你可能会得到大约正确的节点和边的数量,你可能还会记得对它的研究表明它分为两个社区。所以你可能会画出一个有两个社区的东西。你会从记忆中捕捉到这些与数据集相符的属性,而不是仅仅是一个随机边链接的列表。是的。实际上,如果我们谈论的是Zachary空手道俱乐部数据集,

我和我的孩子们一起记住了它。我们用意大利面制作了一个网络,空手道俱乐部。

我为网络科学大会上的网络科学竞赛拍了一张照片。实际上,它获得了第一名。是的,我的孩子们有一种用意大利面进行布局的自然方法。所以我记住了它。但我认为我思考图的方式和LLM的工作方式完全不同。当然。这是……

额外的挑战,因为它们在思维方式上受到限制。你知道,Transformer架构预测的是下一个标记,而不是我觉得我在思考网络的整体性时做了一些更高级的事情。但实际上,如果它遇到这个数据集越来越多,它可能会在重现它方面做得更好,对吧?所以我并不认为这是一个图的问题,而更多的是一个……

记忆问题,一个统计问题。好吧,也许他们更重要的网络研究成果是他们在影子禁令方面的工作。但他们是在推特数据更容易获得的时候研究推特的。当时,是的,推特说没有影子禁令,但数据却表明并非如此。有趣的是他们是如何发现谁被影子禁令封禁的。因为我认为他们获得了大约500万用户,

他们必须检查每个人是否被影子禁令封禁。他们是如何做到的非常有趣。是的,我们将在采访中讨论他们如何找到真相的几个步骤。这不仅仅是像说,“哦,我没有获得足够的转发。我一定是受到了影子禁令。”那样简单的事情。它比这更具体。

因为我有时感觉自己受到了影子禁令。我感觉几乎每篇文章都在某种程度上受到了影子禁令。私下里,这很有趣,因为他们说他们谈到了这种方法,但他们没有说他们是如何将其复制了500万次。这听起来……

像是很多研究。我认为他们下载了很多数据。那时,API更开放。另一个点是讨论网络科学和流行病学的网络模型。影子禁令就像网络中的一种病毒性疾病吗?我认为这是

重要的是要记住,网络科学是COVID-19期间使用的不同模型背后的基础,对吧?每个人都听说过它们,比如SI、SIR等等。但只有当你了解到我们应该感谢网络科学时,才会明白这一点。我们的嘉宾使用这些模型来研究网络动态

向你展示了,你不仅可以使用它来研究实际疾病,还可以将其应用于在线社交网络或研究大型数据集中的病毒性传播。是的,你可能会得到截然不同的参数,但所有方法似乎都相当普遍。这就是网络科学的全部意义所在。让我们直接进入采访。来自法国雷恩INRIA的埃尔万·勒梅雷尔。

以及来自法国图卢兹CNRS的吉尔斯·特雷丹。在我们开始讨论今天要讨论的一些工作之前,你能谈谈你们的学术合作是如何开始的吗?

所以很久以前,在很久以前,我们在雷恩一起攻读博士学位。我们从那时开始合作,不知何故从未停止过。这就是原因。是的,我们开始在一个对分布式系统感兴趣的团队中工作。对于分布式系统,经常有一种方法或一种通过图来观察事物的方法,因为当然我们有代理或对等体一起协作,而图是

很好的抽象来考虑这一点,所以我们对此很感兴趣,我记得我们的第一次合作是将中心性引入计算机科学,因为在此之前有很多物理学家

从事这项工作。我们注意到,在这个分布式系统世界中,图中心性当时并没有达到那个程度,所以我们的第一次合作是关于这个的。它相当成功,我们继续研究这些主题。当您将图应用于分布式系统时,节点和边是什么?

所以当您有一个分布式系统时,这意味着它被定义为与客户端-服务器模型相反,在客户端-服务器模型中,客户端会访问一个服务器,该服务器拥有整个模型。在对等网络中,每台计算机在某种程度上都是平等的,没有任何一台计算机具有更高的权力。

问题是,您可以想象具有数千或数百万个此类对等体的系统,您必须组织的是这些对等体之间的协作模式,以便整个系统实现您赋予它的更大目标。例如,考虑一下对等下载。谁与谁连接才能实现数据共享或下载?您是否面临任何可扩展性挑战?数百万个节点听起来像是很多需要处理的东西。

是的,可能吧。当然,在实验上,这无法实现,但当时的理念是提出模型和证明,至少证明我们提出的算法可以扩展。

有趣的是,我们当时创造的中心性,即我们称之为二阶中心性,是您可以以分布式方式计算的第一个中心性之一,它源于我们所谓的随机游走。随机游走是一种可以在图中从一个节点跳转到相邻节点的过程。由此,我们提出了中心性。

但有趣的是,这并不是真正可扩展的,因为我认为我们的可扩展性是N的三次方。所以对于小型图来说还不错,不是那么大的图,除非你想等很长时间。所以可能不是数百万个图,但它仍然具有影响力,因为它是最早的

之一,它表明我们可以以分布式方式做事。而且我们认为,与其他中心性本身相比,它也带来了一些有趣的度量。所以后来可能对它进行了一些改进,但我们停止了这项工作。所以可扩展性是一个大问题。当你在实验室里想展示它时,通常你会尝试通过分析来证明它,然后也许你会拍摄数百个节点,但很难达到大量的节点。

好吧,团队的名称是ASAP,是“尽可能可扩展”的首字母缩写。所以你是对的,这绝对是一个核心问题。好吧,我很快就会开始讨论我邀请你们来讨论的主要论文,大型语言模型从结构的角度对图产生幻觉。但在我们深入探讨之前,我很想知道,你们开始在分布式系统中研究图。大型语言模型似乎有点遥远。在此过程中,你们还有哪些其他有趣的亮点应用了图?

是的,没错。这是在路上,因为我们有时决定从外部角度看待远程执行的算法。例如,您是一个客户端,并且正在连接到服务器,所以这绝对不是分布式的。但随后我们有兴趣了解我们可以从在第三方机器上执行的算法中学习或推断什么。

而我们关于该主题的第一批作品之一是某种

你称之为用于进行对等排名算法。现在你把所有东西都称为机器学习模型或人工智能。我们也在这里应用了一种图,一种图的思维方式来开始解决我们当时遇到的问题。所以这是自然而然的。然后我们对推荐算法感兴趣,比如YouTube上的推荐算法,它也会使用图来尝试回答几个问题。

然后也在推特上讨论影子禁令。也许我们稍后会用图来讨论这个问题。然后当然还有分类器,因为大约两年前,这可能是机器学习的主要主题,我的意思是机器学习的趋势。现在LLM出现了,我们决定研究我们所说的审核这些系统,这意味着你面对的是第三方。我们试图设计算法或展示你作为审核员可以做什么或不能做什么,例如

你有一个监管机构决定它想要更多地了解第三方对其远程模型或远程人工智能做了什么。你运行一些算法并试图提取一些信息来衡量,例如,偏差。

或推断远程执行的内容。所以从分布式系统最终到非常集中的系统这是一个平稳的路径,但我们试图审核它们。因此,当您操作分布式系统或与分布式系统交互时,您无法看到其完整状态。

因此,您需要设计能够以某种方式找到探索或测量此全局系统状态的方法的算法。这适用于对等网络,也略微适用于网络。这些网络是算法的产物,这些算法以某种方式让每个路由器或每个节点做出决策。

但最终,没有人知道它处于什么状态,但它具有重要的意义。所以我们开始设计,让我们说,测量我们的系统以测量网络的状态。然后它继续设计算法来测量其他算法的状态,让我们这么说。这就是我们逐渐转向透明度的过程,我认为。

好吧,我认为大多数听众已经知道大型语言模型会产生幻觉。是什么让图成为幻觉的特定方面?为什么这特别有趣或值得研究?

由于我们有这种图挖掘背景,而且我们也对审核感兴趣,并且我们对LLM的热门话题感兴趣,我们真的试图说我们如何导入图或用图来思考幻觉问题。所以我们绞尽脑汁,

我们已经认为人们现在会问LLM任何问题,但显然没有人真正向他们询问图,尤其是非图。所以我们开始说,问问LLM怎么样?提示是……

例如,给我著名的空手道俱乐部图,这是最著名的图应用之一。因为有了这个问题,我们就有了一个背景。由于我们在图挖掘和网络科学方面的工作,这个图是已知的。还有一些未知的图。我们的想法是尝试从DLLM中提取数据,看看它们会回答什么。

所以我们知道它们会产生幻觉。问题是这种幻觉能揭示什么?我们如何利用这种幻觉来理解LLM的内部结构?

是的,答案并不明显,因为当然,如果LLM接受过一些,我不知道,个人数据的训练,例如某些人的地址,例如,现在我们知道它们拒绝回答,因为这是个人数据。所以我们想,好吧,他们可能,因为我们知道他们吞噬了大部分互联网和当时可用的干净数据。所以问题是,

它们会很好地或至少正确地回应,还是会稍微产生幻觉,或者完全产生幻觉,或者根本不回应任何东西。这是一个信息,因为在我们通过API询问的21个在线LLM中,大多数LLM都以某种方式回应,我们真的认为它们吞噬了

这些著名的图,否则它们不可能回应它们所回应的内容。我们可以聊聊实验核心中的提示吗?我想这类似于以JSON格式输出空手道俱乐部网络,或者你们想从LLM中得到什么?所以提示确实是给我所谓的X图作为简单的Python边列表。

然后我们通常首先从某些LLM那里得到一些冗长的信息,然后它们像预期的那样抛出NotDoIt列表。

或多或少准确,正如我们可能要讨论的那样。但这很简单。只需复制粘贴或抓取此答案,然后我们就可以用网络意义上的一些基本函数来处理这些图。就是这样。我们可以玩图。他们回应了。也许你也可以讨论一下提示的困难部分,那就是让他们不回答。是的,很容易。

打印nx.karateclub,你将得到该图。所以我们希望他们实际上给出列表,而不是获得此列表的方法。这是令人信服的,难以令人信服的部分。是的,没错。对于一些……

你必须强制说,不要给我提供生成图的代码。我想要边列表。还有一件有趣的事情是,一些LLM拒绝回应,例如,当你查询佛罗伦萨家族图时,

一些LLM拒绝回应,就像这是关于某个家庭的私人信息一样,我无法回应。所以如果我们想让这21个LLM基于它们的输出进行比较,那么还需要进行一些基于提示的过滤。所以是的,肯定有一些提示工程,但这没关系。

所以如果它能够忠实地重现,基本上如果LLM记住了空手道俱乐部数据集并成功地输出了它,那将是一个完美的得分。但我不知道这是一个二元测试。甚至同构图也可能是一个完美的得分,但你可能会错过一些边或推断出过多的边。你们是如何衡量它产生幻觉的程度的?

所以我们知道,例如,空手道俱乐部图有34个节点和78条边。所以我们没有考虑标签,因为大多数标签都从……开始,你知道的,在真实的图中,它从零开始,它结束……

它结束的地方,有时它们只是交换了所有标签或从1开始,所以我们决定只查看拓扑结构,没有任何标签,对吧,所以好的,你有两个图,所以你首先想到的可能是图编辑距离,对吧,看看我们如何从真实的图

一个地面实况空手道俱乐部图到输出的空手道俱乐部,据说是LLM的空手道俱乐部图。我们取了

两个图的度数序列,我们只是取了这两个度数序列之间的距离。这样,我们可以对哪个幻觉较少进行排序。例如,在这个Caltech俱乐部图中,我们在论文中有一个表格,LLM的幻觉较少,它是DBRX LLM。

其次是ChatGPT 3.5和4.0,它们给出了相同的回应。然后在下半部分,你真的会发现一些旧的网络,至少基于这个指标是这样。

我们很高兴答案并不完美。实际上,这不是我们对大型语言模型的期望,我们的意思是,我们不希望它们存储所有提供的信息。我们并没有简单地说,如果答案,如果有什么不同,如果图是

答案图不是原始图的完美副本。我们还没有说这是一个失败。我们感兴趣的是这些失败如何影响一般的图,让我们说一般的结构。我的意思是,例如,我们要求的空手道俱乐部

是社区检测的一个中心基准图,例如,它在其中发挥了关键作用,成为大多数,让我们说,中心化方法,中心性社区检测方法被测试的图。从这个意义上说,我们想要测试的是,即使答案图与空手道图不完全相同,

如果答案图仍然捕捉到了社区的重要性或这种显着的社区结构。我们想要了解的是,尽管没有记住该图,但LLM是否以某种方式保留了其巨大的社区结构或其显着的社区结构的记忆。我认为你提出了一些很好的观点。对我来说,尤其是有共鸣的是,期望

幻觉图或输出图将与原始图具有这些相似之处。就像你说的,我们不期望LLM记住空手道俱乐部。它不是数据库。同样,我知道这个数据集。我没有记住它。但如果你给我看一个随机图,我会说这不是空手道俱乐部。

如果你给我看一些大致有两个社区的东西,我可能会说这可能是空手道俱乐部。你是否发现幻觉图符合这种嗅探测试?它们似乎忠实地重现了它,还是你看到了随机性?有一些LLM,它们是

我的意思是,幻觉很少的边。例如,DBRX LLM,例如,只添加了两条边。所以你不能说这是随机的东西。它吞噬了那个图,并且能够相当正确地抛出它。GPT也运行得很好。LAMA 700亿运行得很好。然后,当然,你还有所有这些退化的梯度。

也许现在是时候讨论一下LLM是如何根据它们产生幻觉的方式来判断的了。通常在社区中,你会问一些真正二元的问题,或者可能有三个答案或最多四个答案。数据集有成千上万个这样的二元问题。你会说这个LLM更好,因为它正确地回答了问题。但在这里,只有一个问题,

一个提示,我们可以获得更多信息。实际上,由于在一个给定图中可以拥有的边数,你可以从每个提示中获得高达n平方位的信息。所以这真的是这个想法的关键点。通过一个请求,你可以获得比一个二元问题多得多的信息。由于我们面对的是在线的真实LLM,

我们需要一个地面实况来查看图的这个提示是否有意义,或者是否可以与其他用于测量幻觉的数据集进行比较。这就是我们通过与一些数据集或一些名为“幻觉排行榜”的在线网站进行比较所做的。幻觉排行榜向LLM发送50000个

二元问题来排序,以对产生幻觉最多的LLM进行排序。我们实际上只抛出了五个。我们决定使用图集。如果你也熟悉这个图集,可能就是这样。所以我们只是从这个图集中提取,这是一个包含许多许多小型图的列表。我们决定使用图集中的前五个

连通图。所以我们首先查询LLM,第一个连通图,然后是第二个。我们这样做五次。五次提示。这次不像空手道俱乐部,只有一次提示。我们对微小的图进行五次提示。我们测量了这些微小图上每个图的幻觉。

我们对这些图的幻觉幅度取平均值,然后得到一个距离,一个幻觉幅度。我们在论文中称之为图集距离。所以我们不是抛出50000个问题,而是带来了5个。

提示给每个LLM,然后我们进行排序。它与这个幻觉排行榜很好地相关。好吧,在介绍了GAD,图集距离之后,我们现在有了一个很好的数学方法来测量,所以我们可以进行排序等等。但由于这是一个新的度量,我真的不知道该怎么说它是一个好分数还是一个坏分数。你是否发现表现最好的LLM正在忠实地重现一些看起来像空手道俱乐部的东西?

至于图集距离,这是一种非常特殊的方式来捕捉地面实况和答案之间的距离。首先,它是计算密集型的。这就是为什么我们只关注小型图的原因。但对于它来说,所有失败都是一样的。

所以不知何故,如果你忘记了埃隆·马斯克和唐纳德·特朗普之间的联系,这与忘记我和我的邻居之间的联系是一样的,例如。无论如何,这是一个错误。然而,在许多应用中,这些错误很重要。所以关于什么是好的图距离,存在一场无限的斗争。但我认为图是如此的多样化,以至于无法用单个距离来捕捉它们。你需要从不同的角度和维度来感知它们。

图集距离可能是我们在这篇论文中唯一有坚实基础的距离,但它是一种非常粗略的方式,我想说。好吧,那么你将要查看的一堆好的指标之一,对吧?是的,是的,是的,绝对的。当你查看输出的图时,你是否发现各种LLM犯了类似的错误,或者它们做错的事情存在多样性?

据我们所知,存在巨大的多样性,这非常有趣。也许这可以用作某种指纹识别方法,因为我们也主要从事分类器的指纹识别工作。现在这是指纹识别LLM的趋势。但从我们看到和报告的内容来看,至少我们报告了几种

论文中的图输出。所以它们看起来非常不同。你可以看到带有不同指标的表格。它们都是不同的。是的,t-SNE图非常具有说明性。我想鼓励听众去查看这篇论文并查看它。

在多大程度上你认为提示工程或在那方面的持续工作可以改进所有这些?也许你只需要在提示开始时说,你是一位拥有多篇成功出版物的图论博士候选人。现在回答这个问题,你知道吗,这会有帮助吗?

也许在下一个LLM吞噬了我们的论文之后,我们可以直接回答你自己的图集距离。这样,我们就没有任何东西需要计算了。那将是很棒的。对。是的,图中的这种幻觉的想法很吸引人。我期待着看到你们将它带到哪里。

如果我们可以转向的话,你能分享一些关于你提到的其他工作的信息吗?这些工作涉及对推特上影子禁令的研究?据我回忆,推特的立场,至少在当时,是他们没有进行影子禁令。对吗?

没错。我会把发言权交给吉尔斯来处理技术部分。但最初的想法是他们说我们没有进行影子禁令。最后,因为我们已经试图从第三方算法或模型中测量事物,我们说,我们是否可以对他们的说法不给出是或否的答案,而是至少提供一些测量结果并让读者意识到

让他们对这件事发表意见。当时也有很多人……现在情况发生了巨大的变化,但在美国,共和党人认为他们受到了影子禁令。所以报纸或网上有很多说法,说影子禁令确实存在。所以我们决定通过进行大量的数据收集来仔细研究这个问题

然后对其进行统计分析。吉尔斯,如果你愿意的话。引发这项研究的原因也是推特说这是一个错误。

所以共和党人在这种情况下是这样说的,但用户抱怨的是,例如,目睹了许多邻居,他们的一些答案受到了影子禁令。所以他们回答说这是一个错误。对我们来说,我们认为这是一个好方法

不知何故,这是一个好方法来避免任何审查,因为任何事情都可能是一个错误,我们认为其中有更深层次的含义,他们暗示这并非由于某些行为或某些事情,而不知何故是随机的

如果这是一个错误,那么它应该均匀地影响每个人,这种观点可以转化为一个假设。这个假设可以在网络上进行检验。具体来说,我们所做的是,我们对推特进行了采样,我认为最终大约有500万个个人资料。所以我们所做的是,我们从一群随机用户、一群名人以及一群政治家开始,例如,三个人群。首先我们观察

在他们的邻居中,有多少比例受到了影子禁令?我们看到了它们之间巨大的差异。这意味着有些用户的邻居或最近的联系人中,高达47%受到了影子禁令,根据我们拥有的检测器。而让我们说,平均而言,我认为是2.3%。

这种巨大的差异告诉了我们一些关于影子禁令原则的信息。其理念是,不知何故,你并不平等,因为让我们说,如果你抛掷一枚硬币,其中有2.3%的……

正面朝上,其余的是反面朝上。然后你的数百个朋友抛掷同一枚硬币。你的47%的朋友得到正面的可能性非常非常低。这是一种让我们能够以某种方式,让我们说,攻击这种断言的方法,即它是一个错误。我们

最终重新表述的是,如果这是一个错误,那么它就是,让我们说,比其他地方更频繁地针对或落在某些社区上。所以我们也可以说它不是一个错误,因为这就是图发挥作用的地方。如果我们将影子禁令视为在图上像疾病一样传播,这也是从事图分析的人们所熟知的事情,

那么我们可以很好地模拟我们从这500万个个人资料中提取的真实自我图。同样,一些随机个人资料,然后邻居创建一个图。这是一个两跳的自我图。有些非常密集,有些很稀疏,因为它是基于交互的。

我们的嘉宾埃尔万·勒·梅雷尔和吉尔斯·特雷丹是图论和分布式系统领域的长期合作者。他们分享了他们在应用基于图的方法来理解大型语言模型(LLM)的幻觉和社交媒体平台上的影子禁令方面的专业知识。在本集中,听众将学习如何使用图结构和指标来揭示算法行为和平台审核实践中的模式。主要见解包括:使用图论评估LLM输出;揭示幻觉图中的模式,这些模式可能暗示模型的底层结构和训练数据;以及应用流行病模型来分析推特上影子禁令的不均匀传播。-------------------------------想要收听无广告版本?试试我们的图论课程?加入Data Skeptic+,每月5美元或每年50美元 https://plus.dataskeptic.com</context> <raw_text>0 并且通过这种流行病的视角,通过这种流行病模型,我们试图拟合一个传播模型,它很好地解释了我们在该进化图中看到的影子禁令人数。因此,正如我一开始所说,这个模型比已知的影子禁令可能性更可信。所以,我们的想法并不是说这是一个流行病的传播,而是

那些可能容易受到影子禁令影响的邻域,也许它们确实如此。这是对发生的事情的一种模型。是的,它拟合得相当好。是的,基于此,我们进行了这项研究。这很有趣。

关于我们最终使用流行病模型的原因。这是因为,当你观察到一些邻域确实受到了影子禁令的困扰,而另一些邻域几乎没有受到影响时,你会认为某种局部现象正在起作用。而一个专门的工具,或者说一个用来捕捉这种现象的工具,就是易感感染模型的概念,以及某种程度上污染的概念。

我们并不是说你可以通过污染而受到影子禁令的影响,而是污染是一种用来模拟我们目睹的某些邻域中影子禁令发生的局部性和非常不均匀的局部性的工具。

这并不意味着它是污染的产物。事实上,我们不知道它来自哪里。也许我们可以给出一些答案线索,因为我们检查了污染最严重的个人资料。老实说,我很高兴我们审查了他们,因为他们可以说是“不适合工作场所”类型的个人资料,并且像这样成群地连接在一起。所以这在某种程度上证实了

我们走在了正确的道路上。好吧,2.3% 对比 47% 是一个非常明显的差异。你已经测量了一种现象,但这取决于你的检测器。你能分享一些关于你如何确定是否存在影子禁令的细节吗?

一切都始于一群德国人在GitHub上发布了一些方法,让我们说一些检测影子禁令的测试。所以我们所说的影子禁令可能是一个总称,用来定义最初的影子禁令。它开始于,它的一个出现是在一个论坛上,让我们说IRC和所有这些聊天工具上,在那里一些巨魔会进来

骚扰每个人。但如果他们被某个管理员踢出,他们就会简单地更改他们的昵称,然后一次又一次地回来。所以管理员想出了这种技术,叫做影子禁令。影子意味着我没有告诉用户他被禁了,而禁令是因为我实际上禁了他。而结果或行动是停止将巨魔的信息转发给

频道中的所有其他成员,而不是踢出巨魔。所以巨魔只会看到他的信息没有得到回应,并且会感到沮丧。这就是这个想法。在推特上,我们不得不变得有创意,或者说,我们利用了不同的东西。所以起点是那些德国人提供的测试。

和不同的个人资料可见性降低。例如,一个非常简单的例子是,当你输入一些用户的姓名时,它应该在搜索字符串中自动完成。那时,它应该。好吧,你可以观察到,对于某些帐户来说,这种情况不会发生。所以这就是我们所说的搜索禁令。

我认为是完成禁令,我不记得了。还有一个步骤是,当你搜索用户时,它甚至不会出现在搜索结果中。这也许就是搜索禁令。其他的……

例如,我们测试的是回复禁令,即当你回复某些信息时,当有很多回复时,有时你会看到这些额外的回复隐藏在一个小按钮后面,你必须点击才能显示额外的回复。

即使没有其他答案或很少有其他答案,这种情况也会发生在影子禁令用户身上。他们总是会被降级到“显示更多回复”列表中。

最后一个是幽灵禁令。我不确定我是否想详细说明,但这与一些可见性有关。也许总的来说,影子禁令意味着不同的可见性。巨魔从他的角度看到的和其他用户看到的不同。正是通过利用这些不同的可见性,我们才能检测到一些东西。

可能还有一些我们从未关注过或从未知道存在过的技术。而那些我们无法谈论。我的意思是,我们对它们没有任何结果。好吧,是的,我的第一直觉是我应该看看一个受欢迎的人每次是否获得相同数量的转发?但当然,他们可能发布了一篇无聊的帖子。这就是它没有得到转发的原因。但是你有很多指标可以关注更具体的事情。

像我们这样进行抽样是很困难的,例如从种子个人资料开始,环顾四周。如果你探索,比如说,这样一张大图的一部分,你会引入偏差,因为你从特定的点开始,这在某种程度上可能会影响你下游的结果。在这种图中很难找到基线。但幸运的是,旧版本的推特有点像一个漏洞。32位的……

用户标识符,它们是连续填充的。这意味着用户会根据他们的加入时间获得一个数字。这些数字是密集的,这意味着你可以抛出一个介于0和2的32次方之间的随机数,并落在某个个人资料上。这

给了我们一种在推特空间中随机抽取用户的方法,这非常罕见,而且对统计分析非常有用。我认为你的研究是在推特出售之前进行的,如果我没有记错的话。特别是他们称之为“推特文件”的东西,这是一些关于许多、许多主题的大量信息转储。

“推特文件”中的任何内容都证实了你们的发现吗?在那之前,我认为他们删除了他们的帖子。我的意思是,在一些记者询问这篇论文后,他们拒绝发表评论,然后他们删除了它。我们不能说这是因为我们的工作,但它是在此之后发生的。所以也许它有一些影响,也许没有。但至少他们知道这项工作,说从统计学上讲,他们不可能不进行禁令。

关于“推特文件”,我不确定它是否属于“推特文件”,但在互联网上的某个时候,有一个所谓的推特管理界面屏幕截图在流传。它的来源不明,所以你可以选择相信或不相信。它显示了一堆按钮,这些按钮与我们测试的不同影子禁令操作相对应,这帮助我们增加了对结果的信心。

好吧,让我们看看。我们今天已经涵盖了很多伟大的工作。我想给你一个机会,问问你们下一步要去哪里,如果你想分享你目前的研究或即将推出的内容。仍然是在用户或审核员的角度对模型、远程模型进行审核,并尝试找到一些

关于如何将新的提示、也许新的数据结构应用于对这些引人入胜的远程模型的质疑的令人兴奋的想法,以便我们可以理解一些远程执行并对我们的生活产生巨大影响的这些黑盒子。所以这是我们的主题,我们将根据我们目前的想法来探索一些事情。至少在我们看来,这是非常令人着迷的。

我想补充一点,也许我们的观点是尝试找到一种方法来正确捕捉或测量平台的行为。平台与社会的互动引发了许多问题,我认为随着LLM的普及,这将变得更加重要。

它引发了很多辩论等等。例如,围绕影子禁令,很多人都在讨论这个问题。我们认为,我们能否对这场辩论给出一些,让我们说,强有力的答案?我们只对审核中的一小部分感兴趣,那就是正确地测量事物。让我们说,哦,它不是……这就是我们关注的重点。随着LLM和这种开放式的互动,我认为我们将有很多工作要做,才能想出一些巧妙的方法来……

让我们说,从这些平台中提取信息,并提取可靠的信息。绝对的。随着LLM的普及,我认为我们肯定需要越来越关注审核之类的事情。所以我很高兴知道像你们这样的家伙正在关注这些问题。谢谢,凯尔。谢谢。是的,非常感谢你们抽出时间来分享你们的工作。感谢你们的兴趣。这太棒了。再见。