在本集中,听众将了解行动网络——基于图的叙事表示,其中节点是参与者(例如人、机构或抽象实体),边代表它们之间的行动或关系。 将介绍这些网络的是我们的嘉宾 Armin Pournaki,他是马克斯·普朗克数学科学研究所和 Lattice 实验室(ENS-PSL)的联合博士候选人,专门从事计算社会科学,他开发了使用自然语言处理和网络科学提取和分析政治叙事的方法。 Armin 解释了这些方法如何揭示围绕同一事件的冲突叙事,正如在关于 COVID-19、气候变化或乌克兰战争的辩论中所见。听众还将了解这种方法如何使大规模话语——从数百万条推文或政治演讲——更加透明和易于理解,从而为研究数字社会中的两极分化、议题一致性和叙事驱动的劝说提供工具。关注我们的嘉宾 Armin Pournaki 的网页 Twitter/X Bluesky Papers in focus 如何影响者和倍增器推动 Twitter/X 上的两极分化和议题一致性,2025 年 基于图的方法从公共话语中提取叙事信号,2024 年 </context> <raw_text>0 您正在收听 Data Skeptic:图与网络播客,该播客探讨了图数据结构如何影响科学、工业以及其他领域。
欢迎收听 Data Skeptic 图与网络播客。今天的节目中,我们将介绍行动网络的概念。如果您不知道这是什么,别担心。这是访谈的重要组成部分。简而言之,行动网络是一种相当新颖且有趣的方法,它可以将自然语言转化为网络结构,从中我们可以研究话语中的叙事。
我们今天的嘉宾 Armen 研究了社交媒体数据和一些来自欧盟的官方政治话语文件。他的技术在这两个领域都适用。因此,事不宜迟,让我们直接进入访谈。♪
我的名字是 Armin Purnake。我是莱比锡马克斯·普朗克数学与科学研究所和巴黎科学政治学院媒体实验室 Lattice 实验室的联合博士候选人。您能分享一些关于您正在研究的内容的细节吗?在我的博士论文中,它属于计算社会科学领域,我正在开发一种方法,该方法使用自然语言处理和网络科学的组合来提取和分析大型文本语料库中的叙事。
目标是更好地理解叙事在社会政治现象(如两极分化和议题一致性)中所扮演的角色。我们可以放大“叙事”一词吗?在您的研究背景下,这意味着什么?在我的研究背景下,我主要关注政治叙事。
及其在政治沟通中,甚至可能在政治劝说中的作用。我以一种允许我随后使用网络科学方法对概念进行操作的方式来概念化它。其理念是将叙事概念化为一种表示,特别是将政治叙事概念化为对政治现实的表示。这种表示是通过具有特定目标和动机的参与者来实现的。
这些参与者参与事件,这些事件可能会导致世界状态发生变化。然后可以将这些事件分解为参与者之间的关系。我们试图从大型文本语料库中恢复这种叙事结构,即这些事件之间的因果关系。
我们更想看到的是我和我的同事所说的叙事信号,例如,可能是暗示更大政治叙事的特定参与者或特定口号。我们在这里设定的挑战或目标是精确地提取这些叙事信号,然后以网络的形式将它们重新组合在一起,以理解语料库中存在的潜在叙事。
在您的定义中,您说政治叙事是对政治现实的表示。在现实似乎不再可辩驳的世界中,这是如何运作的?这正是重点。我认为这正是叙事发挥作用的地方。我们可以在这里看到叙事,它们实际上是看待这种政治现实的不同解释视角。
假设在高度两极分化的辩论中,我们看到两组人以完全不同的方式讨论同一事件,那么关于同一现实存在着相互冲突的叙事。冲突叙事是指赋予参与者的不同角色和不同关系。您提到了在大型语料库上进行此操作。哪些语料库对您来说很有趣?不同地方的政治话语很多。
没错。是的。现在我们大量关注社交媒体数据。我们分析了一个非常大的 Twitter 数据语料库。因此,我们每天都会收集排名前五的热门话题以及与这些特定主题标签或关键词相关的所有推文。这给了我们大约 2000 万条推文的语料库。这也使我们能够使用转发网络进行测量。这可能是我们将要谈到网络概念的地方。
本季播客的主题是图与网络。我显然想谈到这一点。但在我们直接跳入网络科学组件之前,我们能否花更多时间讨论 NLP 方面?在此过程中,哪些方法对您有用?在这个框架中,我真正使用自然语言处理的主要方法或主要功能是从原始文本中提取这些叙事信号。
因此,我们需要一个框架,使我们能够非常轻松地从给定的句子中提取参与者及其角色和关系。因此,如果只有一个参与者,我想知道他们在做什么。在计算叙事学中,这种叙事性概念已被概括为找出
某人告诉某人在某个地方某人对某人在某个地方做了某事,原因是某种原因。这是 Piper 及其同事的一篇论文。标题很棒。和
是的,这实际上不是论文的标题。这只是他们定义叙事性的方式。这篇论文名为《用于计算和叙事理解的叙事理论》。我稍后也可以把它发给你。当然,是的,太好了。因此,我们基本上想要提取的是谁对谁做了什么。为此,我们可以采取多种方法。
有使用依赖树的更传统的方法,或者您可以使用基于语义角色标注的方法。我和我的同事 Tom Willert 一起选择的方法,我们选择的框架是基于抽象意义表示的。其理念是,您以这种由该框架的作者定义的语言来提取句子的含义。
它与句法分析非常相似,但它具有一些使其更适合提取叙事信号的优点。它们表示为有向无环图,其中谓词位于根部,然后有指向该根的不同参数的有向边。这种图形式的结构
非常强大,因为它使我们能够非常轻松地将其处理到句子的不同子句中。我们将其用作中间步骤,以便将大型语料库转换为易于查询的数据库。因此,我们从这种图格式(根据我们拥有的句子数量,有很多图)转换为类似于表格格式的内容。
然后,这使我们能够非常轻松地查询语料库的主要参与者、与其相关的谓词或与其相关的动词以及它们的角色。从中,我们可以然后创建这些某种程度上像高级表示形式的东西,我们称之为“行动图”,其中每个节点都是叙事中的一个参与者,它们之间的链接表示它们的关系。
让我们做一个小的思想实验。如果我们得到了也许 20 位在这个结构方面的专家,您是其中一位,还有 19 位知道如何构建这些结构、将句子转换为结构的人,我们要求每个人翻译相同的文本,这些专家之间会有歧义吗?这在某种程度上就是它的工作方式,对吧?因此,关于如何构建句子的 AMR 表示,有非常明确的规则。
所以这确实是一种形式化且清晰的语言。有时可能会有一些与某些极端情况相关的小歧义,但原则上,这是一个清晰的映射。这些系统现在的工作方式,特别是例如我正在使用的这些解析器,是它们是在大量示例上进行训练的。
这些基本上是转换器模型。您给它一个它从未见过的上行链路,它能够根据它所做的预训练来推断 AMR 表示。准确性相当高。我认为我看到的基准接近 90%。然后我们取一个大型文档,比如说,然后将其转换为一系列图,我猜?
没错。我们将文档分成句子,因为这是人们正在研究的事情,我认为也存在多句 AMR 解析,但原则上它仅限于句子。因此,我们首先逐句分割语料库。
然后我们为每个句子生成这些 AMR 图,然后我们以某种方式将它们重新组合到这个大表中。我认为这是朝着(我可能没有正确地说)行动网络前进的过程?没错,是的。您能谈谈这种转换吗?我们如何从一系列图转换为这种可能更有用的网络表示?
现在每个人都在谈论人工智能,对吧?它正在以前所未有的速度改变我们的工作方式、学习方式以及与世界互动的方式。这是前沿的淘金热。但如果我们不小心,我们可能会陷入困境。
这就是为什么我建议您查看 Red Hat 的播客 Compiler。在本季 Compiler 中,他们深入探讨了人工智能如何重塑我们生活的世界。从自动化的伦理到机器学习背后的代码,它都在分解使用人工智能的要求、能力和影响。查看 Compiler 的新一季,这是 Red Hat 的原创播客。现在就在您收听播客的任何地方订阅。
当监控和数据泄露普遍到足以使每个人都变得脆弱时,Delete.me 使您能够随时轻松、快速、安全地删除您的个人在线数据。像我们许多喜欢在线连接的人一样,我认真对待我的隐私和个人信息。隐私保护从未如此重要。这就是 Delete.me 的用武之地。他们的专家团队专门负责在您的敏感数据被不法分子利用之前,将其从数据经纪人网站中删除。
在一个季度内,他们审查了 3000 多个包含我个人信息的列表。他们发送了详细的报告,准确显示了他们发现了什么以及他们删除了什么。令人难以置信的是,他们发现了多少暴露的数据并进行了保护,同时您节省了无数小时的挫败感。通过注册 Delete Me,现在以我们听众的特别折扣价掌控您的数据,让您的私人生活保持私密。今天,通过短信发送 DATA
到 64,000,即可获得 Delete Me 计划 20% 的折扣。获得 20% 折扣的唯一方法是将数据发送到 64,000。这是发送到 64,000 的数据,可能需要支付短信和数据费。我们如何从一系列图转换为这种可能更有用的网络表示?因此,我们面临的一个问题是,当您处理大型数据时,这通常是一个问题,即您有很多
例如,句子可能不一定包含任何叙事性,或者更清楚地说,可能实际上并不是叙事的一部分。因此,减轻这种情况的一种方法是尝试提取真正最强的信号,例如出现次数最多的参与者或重复次数最多的行为,
为此,根据语料库的不同,我们有不同的选择。例如,使用社交媒体数据,我们可以例如只关注社区转发或点赞次数最多的参与者之间的关系。例如,如果有一个句子
例如,新冠疫苗挽救了许多人的生命,并且这条推文被转发了 100 万次,那么这可能是特定群体叙事的重要组成部分,例如,我们如何才能做到这一点,我们如何才能做到这一点,正如我之前所说的那样,在行动图中,每个节点都是一个参与者
两个参与者之间的有向链接需要携带一些关于它们关系性质的信息。现在,在行动图之前,我们可以创建类似于中间网络的东西,即……我在图和网络之间有点互换使用。这可能也不太干净,但是……
所以在之前,我们可以考虑一下什么方法最简单,或者什么方法最容易使用 uh 这个大型 AMR 图序列来提取关于参与者及其关系的信息,我们可以做的一件事是,我们创建一个多图,一个有向多图,其中每个节点都是叙事中的一个参与者
对于参与者 A 对参与者 B 执行的每个动作,我都有一个边。在我之前告诉你的句子中,或者可能是第一个句子中,物理学家和实验之间将有一条有向边。这条边将带有标签“调整”。
我们大规模地进行这项工作,对吧?我们对整个语料库都这样做,然后我们得到一个非常非常大的图,许多参与者之间有很多边。这在某种程度上,我们可以将其视为我们语料库的表示,作为一种扁平化的表示,因为我们丢失了时间性,我们丢失了……
某种程度上也是动作的顺序。当然,原则上,我们可以对它进行建模,也可以将其建模为时间网络。但就目前而言,我们保持简单,说这只是一个静态的语料库表示。
现在,我们通常想要在应该产生有趣的假设或有趣的社会科学研究问题的方法中做的是,我们拥有所有这些数据,并且我们想要以某种方式减少它,并从中获得最有意义的信号。我们在使用 AMR 提取叙事信号的这个项目中选择采取的一种方法
是我们正在询问如何才能以有意义的方式总结两个节点之间的关系。所以假设我不仅在物理学家和实验之间有一个“调整”,还有许多其他物理学家对实验所做的工作。由于最终我们对冲突叙事和两极分化辩论的分析感兴趣,
我们也关注叙事学中的文献,更多的是叙事学中的结构主义文献。我们发现通常在叙事中发现的一种中心关系或原型关系是主角和对手或助手和对手的关系。
通常在民间故事或某种来自文学世界的叙事中,有一个主角和一个对手。通常你可以这样总结故事。但在政治叙事中,情况可能比这复杂一些。
没错,是的。也许我也高估了政治分析的复杂性。这可能也是需要讨论的事情。但假设可能不止这些。因此,其理念是,不要为整个语料库定义它,
我们以关系的方式在两个参与者之间定义它们。我可以是你的助手或你的对手。因此,我们要求此图中的每个边是否暗示这两个节点之间存在支持性或冲突性关系。我们可以通过多种不同的方式做到这一点。在这种情况下,我们所做的是利用……
因此,我们利用了这样一个事实,即我们有这些动词的 prop bank 框架,并且可以将其映射到另一个名为 Verb Atlas 的本体上,这为两个参与者之间存在的动词提供了一些更高级别的分类。然后我们所做的是手动标记每个动词。我认为大约有 500 个动词左右。
分为支持性、冲突性或中性。有些有时有点模棱两可,但如果是这种情况,我们就称它们为中性。然后突然之间就变得非常简单了,对吧?我们每个动词都有一个标签。我们知道它们是积极的、消极的、支持性的还是冲突性的。然后我们可以根据冲突性动词的数量与支持性动词的数量来计算这两个节点之间的边分数。
它们之间的动作。因此,我们所做的是取支持性动作的数量减去冲突性动作的数量,然后除以所有动作的总和。这给了我们一个介于 -1 和 1 之间的分数,其中 0 为中性,-1 为强烈冲突,+1 为强烈支持。因此,我们有这个加上权重,即参与者之间的动作数量。
这突然之间变成了一个更容易管理的网络,因为我们某种程度上扁平化了,我们大大降低了复杂性,当然我们也丢失了很多信息。但作为一种查看数据中发现内容的第一种方法,我们认为它非常有益,因为这现在使我们能够系统地发现两组之间叙事的差异。
所以现在您可以想象一下,我将此练习用于语料库,例如,我不知道,转发网络中的某些集群可能更倾向于左倾,而转发网络的另一个集群可能更倾向于右倾。然后我可以系统地比较两个参与者之间边的符号。如果边的符号不同,
那么这表明叙事冲突,即赋予参与者的不同关系。这可能表明对政治现实的不同看法。例如,在 COVID 的情况下,在 COVID 疫苗和安全性之间,例如在右倾阶层中,这根本不是支持性边。
我认为我说的有点长了,但这就是我们如何得到存在图的方式。是的。
您查看的语料库中至少有一个是十多年来的欧盟国情咨文。我们可以谈谈该图的结构吗?我不指望您能立即知道有多少节点等等,但总的来说,它有多大?有多少个节点?它有多稀疏?诸如此类的事情。您能用语言总结一下图数据结构吗?实际上,其背后的主要思想是
已经有一套相当有趣的定性文献分析了欧洲一体化的叙事。特别是,我们引用了几篇论文。特别是,社会科学研究人员已经对不同的叙事进行了一些分类或分类。
其理念是使用这种 AMR 方法从语料库中归纳地提取这些叙事信号,然后通过查看行动图并系统地提取参与者等等,看看我们能否在语料库中找到这些不同叙事的痕迹。
如果我们提取完整的行动图,它将包含 1572 个节点和 1778 个链接。庞大而健壮,但易于管理。它仍然相当容易管理,是的。您仍然可以探索整个图。我认为在论文中我也链接了一个交互式版本。这也是这种方法的一种副产品。
它可以真正用作语料库的阅读工具。您有,我不知道,大约 11 或 12 篇演讲,阅读所有这些演讲实际上是可行的,但这需要一段时间。
这不像阅读 2000 万条推文,所以您仍然有点没有达到大数据,对吧?但是如果您只查看此图,您会立即看到,好的,中心参与者是什么?这些参与者也与叙事和主题相关联。当然,如果您在一个集群中看到经济或增长的参与者,或者看到市场,那么这暗示着新自由主义叙事。
如果您看到团结的参与者与移民和责任相关联,例如,这可能暗示着包容的叙事。您可以从这个图的角度做的事情
是它允许您在近距离阅读和远距离阅读之间做一些事情。我在这里指的是 Moretti 的这个概念,即看待文本语料库的不同方式。因此,远距离阅读将是真正只查看文本的非常高级别的概述,例如行动图。
近距离阅读将是真正阅读这些演讲。如果我们查看交互式图,我们实际上可以同时进行这两项操作。我们可以使用此图来对数据集进行采样,以获取对我们来说真正有趣的部分。如果我想知道,例如,这些演讲中包含的内容是什么,例如关于欧盟与就业市场之间关系的内容……
然后我可以直接进入图的这一部分,点击边,边会立即告诉我它是积极的还是消极的。但是然后我可以真正地进入这些演讲的部分,然后给我足够的背景来真正理解不同的发言者对什么或不同的发言者表达了什么。
关于这些关系。好吧,拥有您分享的一些见解,例如对 COVID 的看法和对移民的看法与您预期的极性非常一致,鉴于它们所连接的参与者,这就像,您称之为是什么?它增强了网络具有正确结构并正在出现真实、准确细节的信心。在此过程中出现任何令人惊讶的事情或您没想到会发现的事情吗?
是的,事情是这样的,对于欧盟来说,它确实很好地证实了定性分析的方法。我们发现,根据发言者的不同,某些问题会被强调得不同。但我认为这可能也是在社交媒体上已经发现的事情。在这里,更容易找到令人惊讶的边。当我们查看 Twitter 上的气候变化主题时,
正如我之前所说,我们比较与不同意见群体不同事件和不同问题相关的叙事。这些意见群体是使用转发网络中的集群提取的。
我们正在关注与气候变化相关的主题,然后您会在这些行动图中看到您通常也会期望与当时在德国流行的事件相关的内容。例如,您有关于高速公路限速的讨论,或者您有
关于当然还有气候峰会等等的讨论,但有一件事在右倾集群中非常突出,那就是 Lidl 超市连锁店,这有点令人惊讶,因为我不知道他们在气候变化中扮演什么角色,这也是您在左倾叙事中根本看不到的参与者
因此,我们仔细查看了一下,查看了它与什么相关联。Lidl 和肉类之间存在非常强的负面联系。然后,当您更仔细地查看时,当您查看推文时,就会发现这一点
我认为 Lidl 的首席执行官被邀请参加某个峰会,他声称他们现在想要更多地投资植物性产品,并且他们想要销售更多这种产品。我的意思是,对我来说,这有点像营销手段。
但对于右翼集群来说,这太可怕了。他们声称 Lidl 现在将禁止肉类,这将是 Lidl 的终结。当然,禁止肉类是更大叙事的一部分,当然,这与气候变化政策相关的义务和自由丧失有关。因此,这被用作某种触发点来激起愤怒。
并将所有这些与关于气候变化怀疑论的更大叙事联系起来。但我发现它很有趣,因为它并不是新闻报道的内容。但这在右倾叙事中是一种非常非常突出的联系。
因此,行动网络显然是一个强大的结构。您可能可以将其与其他部门的人员分享,他们可以从中进行社会科学和各种类型的研究。对于您的特定工作,它如何帮助您研究两极分化和议题一致性?关于您的第一点,这正是我们现在也在做的事情。因此,我们有同事,例如,他们是例如亲俄阴谋叙事的专家。
我们可以向他们展示这些图,当然,这些图对他们来说比对该领域非专家更有意义。然后他们可以将他们看到的某些边与他们从定性研究中了解的其他内容联系起来,例如。从这个意义上说,这非常强大。
对于我们的研究,好吧,我使用它们的一件事是真正更好地理解两极分化的起源,或者至少是我们观察到的两极分化的起源。我们在 Twitter 上使用转发网络,其中节点是用户,从用户 I 到用户 J 的有向链接表示 I 转发了 J。由于转发是认可,
现在,有很多关于这方面的文献。所以这就像一个强大的信号。引用不是。通常当我转发并在上面写一些东西时,这通常意味着我反对所说的话。但是如果我只是转发,这通常被认为是认可。然后我们可以假设这些转发网络中的集群是潜在辩论中某种意见集群。
因此,如果用户彼此转发很多,那么这通常对应于潜在辩论中的某种意见群体。在德国的情况下,我们已经研究 Twitter 相当长的时间了,并且还在构建交互式界面以分析转发网络,对于政治主题,我们通常会看到两个阵营,例如一个中间偏左的集群,
和一个更倾向于右翼的集群。因此,我们在议题一致性和两极分化项目中提出的问题是,Twitter 领域真的两极分化了吗?所有不同的主题都会产生两极分化的转发网络吗?如果是的话,我们为每个不同的趋势或每个不同的主题看到的这些集群是否总是相同的?因此,不同的主题是否将人们分类到相同的集群中,或者不是?
如果这些集群在主题之间持续存在,那么这将是议题一致性的有力证据,因为无论如何,如果我知道用户对 COVID 疫苗的立场,那么也许我也可以推断出他们对高速公路限速的立场,例如。我们看到这些集群在主题之间相当持久。因此,我们有非常有力的证据表明存在议题一致性。我们特别看到的一件事是,有两组用户
他们在其中扮演着非常重要的角色,一组是我们所说的影响者,他们是转发次数最多的用户,因此他们是产生传播内容的用户
另一组扮演重要角色的用户是我们所说的倍增器。它们是相反的。他们自己不创建任何内容,但他们非常频繁地转发。我们将我们的用户群分为这两组,然后我们比较这两组用户在不同主题上的对齐方式。我们发现两者都非常一致。但特别是倍增器,即强转发者,他们甚至比影响者更一致。
这向我们表明,对于,然后我们详细研究了某些主题,即存在这样一个强大的用户核心,他们倾向于通过他们的转发行为,将整个话语以某种方式排列成意识形态上一致的捆绑包。因此,在不同问题上,他们必须有一个非常强大的,就好像某种议程或一个非常强大的信号,
进入这个或那个阵营,比有影响力的人要多得多。所以现在由此产生的自然问题是,
如果我们在结构中看到这一点,我们能对论述说什么?我们能对所有这些背后的推文说什么,对吧?因为最终,我们只是利用转发功能来构建这个分析和计算的整个模式。到目前为止,该项目尚未关注文本。因此,下一步是查看实际文本。
由于我们已经将这些阵营划分开来,因此我们使用一种跨主题的用户一致性度量,该度量将用户群大致分为这两组。对于每个趋势或每个子语料库,我们可以针对每条推文询问,它是由左派还是右派更多地转发?然后我们设置一个阈值,然后我们创建这两个语料库,然后我们可以使用叙事方法对其进行分析。
然后,对于每个主题,我们可以生成两个存在图,一个用于左派,一个用于右派。然后我们可以系统地比较这些图表。让我们以乌克兰的主题为例,或者让我们以COVID为例。首先,他们是否在谈论相同的参与者?
如果他们谈论的是相同的参与者,他们是否以相同的方式连接它们?如果我们想以正式的方式来衡量这一点,我们可以使用图距离的方法。我们有两个存在图。
然后我们可以系统地比较它们。然后我们可以查看所涉及的主要参与者。作为副产品,我们还观察到,这些群体往往更多地谈论政治敌人,而不是谈论他们的政治盟友。
这在之前的文献中也已经有所体现。我们知道这种情况会发生,但是让我们实际在这个叙事结构中,在这个行为图中,看看他们是如何谈论他们的?他们如何将他们融入他们的叙事中?然后我们可以真正系统地比较某些问题。这现在正在进行的工作。我们目前正在研究它,我正在撰写论文。
对于某些问题,叙事是冲突的,因为
涉及相同的参与者,但它们连接方式完全不同。他们在叙事中的角色是不同的。在俄罗斯入侵乌克兰的例子中,在左倾叙事中,很明显,例如,北约试图阻止战争,德国应该派遣武器以帮助乌克兰自卫,特别是为了乌克兰保卫我们的自由。
而在右倾叙事中,则完全相反。北约正在从战争中获利。事实上,他们称之为北约战争。乌克兰正在保卫自由,但它不是在保卫我们的自由。它是在保卫他们自己的自由。我现在给你的这些片段,在这些存在图中的关系中转化为相反的符号。因此,这种表示允许我们很容易地找到我们在两极分化的辩论中所说的断层线。
因此,我们可以很容易地知道哪些是话语标记,哪些是相互冲突的叙事,一方面可能导致两极分化,但另一方面也可能只是对给定主题上假设意见的解释。
接下来你和你项目会做什么?接下来我要提交我的论文,这将在两周或三周后发生。然后,有一些论文目前正在审查中。其中一些已被接受。然后是关于我刚才与你讨论的正在进行的工作的那一篇,它也很快就会提交。然后今年夏天还有一些会议,我将在那里介绍所有这些工作。然后,是的,我将看看接下来去哪里。
听众可以在网上关注你吗?我通常在我的网站上发布新的结果,但你也可以在Twitter和Blue Sky上找到我。