We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Unveiling Graph Datasets

Unveiling Graph Datasets

2025/5/8
logo of podcast Data Skeptic

Data Skeptic

AI Deep Dive Transcript
People
B
Bastian Rieck
K
Kasaf
Topics
Kasaf: 我认为一个好的算法应该能够在各种数据集上稳定地工作,例如进行链接预测。数据集本身就是数据集,重要的是我们向数据集提出的问题。Bastian提出的RINGS框架是一个很有趣的评估图学习数据集的方法,它通过扰动图来测试数据集的鲁棒性和实用性。我们应该思考向数据集提出的问题,因为有时网络可以帮助我们发现新的问题,而不仅仅是回答旧的问题。例如,在GitHub存储库网络中,人们的合作并非总是基于地理位置,而是编程语言。使用错误的同质性标记会扭曲网络,并导致结果失真。数据驱动和探索性的方法可以帮助我们从网络中学习新的知识,而不是只提出旧的问题。学习的智慧在于提出正确的问题,而不是回答问题。这篇论文的结果更偏向机器学习社区,而不是网络科学社区,因为网络科学社区一直都在做这类事情。我们需要思考我们提出的问题和我们依赖的数据集。 Bastian Rieck: 我是巴斯蒂安·里克,瑞士弗里堡大学的终身教授,机器学习方向。我的实验室名字“IDOS Lab”源于希腊神话中的敬畏女神,体现了我在科学研究中的敬畏之情。人工智能与纯数学不同,人工智能高度依赖数据,需要根据数据集回答问题。我热爱开源,并通过GitHub跟踪我的工作,并保持学习。我从2018年开始使用Markdown文件进行项目和个人事务的结构化记录。我最初学习的是纯数学,后来转向机器学习,因为机器学习的结果更易于衡量,结果也更直接。拓扑学在机器学习中有很多应用,例如将拓扑信息融入模型。拓扑方法可以补充机器学习中其他结构归纳偏差。拓扑学是关于形状的数学,它有三个主要分支:点集拓扑、代数拓扑和微分拓扑。拓扑学是研究形状的数学。机器学习吸引我的地方在于它有数据和明确定义的问题,结果也更直接。机器学习的结果更直接,不像纯数学那样需要等待很长时间才能得到结果。图的生成和推理方式多种多样,这让我很感兴趣。现在有很多来自分子建模或药物发现的数据集,以及社交网络数据集和道路网络数据集。图学习方法主要有两大类:图神经网络和Transformer架构,图核方法由于计算效率问题而逐渐被淘汰。我们的目标是提供一个框架来评估图学习数据集的实用性。我们想提供一种方法来衡量图的“图性”,即节点特征和图结构对结果的贡献程度。我们想提供一个框架来评估图学习数据集的实用性。在评估图学习方法时,除了精度、精确度等指标外,还需要考虑节点或特征之间的距离度量。在评估图学习方法时,除了精度、精确度等指标外,还需要考虑节点或特征之间的距离度量。RINGS框架旨在对图数据集进行分类和评估,它考察节点特征和图结构的相关信息。许多图数据集都包含图和节点特征,RINGS框架旨在评估这些特征对结果的贡献程度。RINGS框架通过扰动图结构和节点特征来评估数据集的实用性。RINGS框架通过扰动图结构和节点特征来评估数据集的实用性。理想的图数据集应该同时具有信息丰富的结构信息和特征信息。许多数据集并不需要同时具有信息丰富的结构信息和特征信息,这可能会导致错误的结论。如果使用不需要图结构的数据集来评估图学习方法,可能会得出错误的结论。如果使用不需要图结构的数据集来评估图学习方法,可能会得出错误的结论。如果使用不需要图结构的数据集来评估图学习方法,可能会得出错误的结论。基准数据集的质量会影响对方法的评价结果。我们不能完全依赖现有的数据集来评估图学习方法的优劣。我们不能完全依赖现有的数据集来评估图学习方法的优劣,因为有些数据集即使去除图结构或替换为随机图,性能也不会下降。如果扰动网络后性能没有下降,则说明图结构没有发挥作用。如果扰动网络后性能没有下降,则说明图结构没有发挥作用。我们在RINGS框架中使用了四种扰动:无扰动、空图/特征、完全图/特征和随机图/特征。我们在RINGS框架中使用了四种扰动:无扰动、空图/特征、完全图/特征和随机图/特征。许多基准数据集需要重新考虑,因为其性能并不总是由图中的所有可用信息驱动。许多基准数据集需要重新考虑,因为其性能并不总是由图中的所有可用信息驱动。目前只有少数数据集,主要是在分子领域,同时具有信息丰富的结构信息和特征信息。有些数据集过于简单,研究人员应该停止使用它们。有些数据集过于简单,研究人员应该停止使用它们,例如酶数据集和Reddit数据集。有些数据集过于简单,研究人员应该停止使用它们,例如酶数据集和Reddit数据集。分子数据集可能因为其规模较大而具有更好的特性。分子数据集可能因为其规模较大而具有更好的特性,也可能因为分子天然具有结构和特征。未来的论文应该包含使用RINGS框架的结果,以显示扰动后指标的变化。未来的论文应该包含使用RINGS框架的结果,以显示扰动后指标的变化。未来的论文应该包含使用RINGS框架的结果,以显示扰动后指标的变化。理想情况下,扰动后性能应该急剧下降。理想情况下,扰动后性能应该急剧下降。某些流行的数据集存在偏差且不具有代表性,这体现在节点和边的分布上。某些流行的数据集存在偏差且不具有代表性,例如AIDS数据集,其性能几乎完美,这表明任务可能过于简单。某些流行的数据集存在偏差且不具有代表性,例如AIDS数据集,其性能几乎完美,这表明任务可能过于简单。我们应该更多地考虑图的来源,因为不同来源的图具有不同的特性。某些流行的数据集存在偏差且不具有代表性,例如AIDS数据集,其性能几乎完美,这表明任务可能过于简单。我们应该更多地考虑图的来源,因为不同来源的图具有不同的特性。我们当前的框架只考虑了消息传递图神经网络,这是一种局限性。我们当前的框架只考虑了消息传递图神经网络,这是一种局限性。我们希望社区能够使用RINGS框架来讨论新的数据集,并更加关注数据集的设计和维护。我们希望社区能够使用RINGS框架来讨论新的数据集,并更加关注数据集的设计和维护。

Deep Dive

Shownotes Transcript

<raw_text>0 您正在收听 Data Skeptic:图与网络播客,该播客探讨图数据结构如何影响科学、工业以及其他领域。欢迎收听 Data Skeptic:图与网络的另一期节目。今天我们将讨论一些关于数据集的内容,但更多的是关于如何评估它们。我们已经介绍了空手道俱乐部和其他一些数据集。网络科学中有一些著名的数据集。每个数据集有多大用处?Kasaf,你怎么看?有些数据集是无意义的,但有些是有用的。

嗯,就我这个计算机科学家而言,如果我要开发一些很棒的算法,它应该适用于各种各样的数据集,并且能够始终如一地很好地进行链接预测,比如说。我认为这取决于具体情况。我认为 Bastian 的一篇非常有趣的论文。他展示的内容,我是在他所说内容的基础上进行阐述的,数据集就是数据集。

网络数据集模拟现实。这就是现实,对吧?我们无法选择它。但我们可以选择的是我们从数据集中寻求什么。

在某些网络中,我希望那些更像优先依附网络的网络,那些偏向于,我们称之为高等级节点,枢纽的网络。我们将要讨论的论文,Bastian 和他的同事们开发了一种叫做 RINGS 的框架,用于评估图学习数据集。

我认为,RINGS 框架中一个有趣的见解是,你如何获取图,以及他们将以各种方式扰动它。如果这些扰动不会使结果变得更糟,那么你可能没有利用网络的结构。这是一个有趣的见解,可以用来测试这些数据集的稳健性和实用性。

我的看法是,也许,我认为 Bastion 也稍微触及了这个主题,我们问数据集什么问题?

大多数,比如说,你在 Kaggle 和一些类似平台上看到的挑战,都涉及到数据的标记或标签,对吧?就像在 IMDB 电影数据集中,他们想要标记不同的类型。有时我们需要问问自己,这是网络可以帮助我们发现的有趣问题吗?因为有时网络可以帮助我们发现

标记节点,就像在同质性的情况下一样,对吧?如果你在网络上有不同的社区,通常社区的创建是因为节点有点相似,所以它们会相互吸引。但问题是,这种吸引力,社区的同质性可能不会

与我们所问的问题相符。也许如果我们看看社区的同质性,我们可以学习一些需要询问的问题。就像我们之前关于 GitHub 的一期节目的回顾。

我们发现 GitHub 代码库网络,谁与谁一起提交代码,当然会创建社区。你直觉上可能会认为来自,比如说,同一个国家的人会一起提交代码,对吧?一起提交代码,因为,你知道,地理上的接近性听起来像是美国的人。你应该与美国的人一起提交代码。这听起来很合理。

但实际上,她发现的是人们使用相同的编程语言进行代码提交,人们进行代码提交,对吧?你会说,这非常直观。但地理上的接近性原因也很直观,对吧?两者都很直观,但只有一个是对的。所以……

当你考虑用,我想说,所谓的“错误”同质性来标记事物时,你正在使网络变成它不是的样子。我想在这种情况下,正如 Bastian 向我们展示的那样,网络会扭曲结果。

但是如果你让……但是如果你更数据驱动、更具有探索性,并且观察网络并查看它要说些什么,你可能会学到一些新的东西,而不是仅仅提出旧的问题。你知道,人们……

人们说学习的智慧不在于回答问题,而在于知道要问哪些问题。很久以来,我一直认为这是一句愚蠢的话。但是当我开始研究网络时,我开始理解它是怎么回事,你知道,问正确的问题。你认为这篇论文是否有网络科学界应该更积极采纳的见解?我喜欢这些关于网络扰动以及研究这些影响如何导致结果变化的想法。

我认为这篇论文的结果更倾向于机器学习社区,而不是网络科学社区。因为在网络科学中,他们一直都在做这些事情。例如,模块化或 Louvain 方法是基于这样一个想法:你使用空模型,对吧?使用配置模型等等。作为比较的基础。我认为机器学习社区应该……

可以从中学习。再说一次,我认为我们都可以从中学习,我们需要考虑我们提出的问题。是的,以及我们在评估中依赖的数据集。这里有很多很好的见解。那么,让我们直接进入采访吧。

我是 Bastian Rieck,我隶属于瑞士弗里堡大学。我是一位机器学习的终身教授,我拥有自己的团队,IDOS 实验室。IDOS 代表人工智能用于面向数据科学。

Eidos 实验室,这有点像我自己的内部笑话。它也是一位希腊女神的名字,敬畏女神。所以就像你对某事感到敬畏一样,因为敬畏听起来有点奇怪,对吧?但这就是我在做科学时感受到的。所以我对试图理解某些事物然后试图深入研究事物并试图了解它们的工作原理感到敬畏。我们至少在机器学习中所做的一切,都非常依赖于数据的可用性。

这几乎不像在纯数学中那样,我们只是思考理念和对象的柏拉图式领域,然后我们坐下来试图证明某些属性等等。人工智能完全不同。人工智能完全是关于,你得到一个数据集,你必须回答一个或多个问题,并且你必须让它发挥作用。我希望我的实验室名称能够体现这一点。所以现在我们在这里,我们正在以各种方式做到这一点。

好吧,我保证我们会谈到这篇论文,“没有一个指标可以统治所有指标”,但我有一些初步的问题。首先,也许这是一个奇怪的题外话,我必须说,你是第一个 GitHub 贡献图比我的更绿更密集的嘉宾。你是一个勤劳的蜜蜂,我可以看出。你一直在提交什么?我喜欢 GitHub,或者更确切地说,我喜欢开源。

但我也很喜欢跟踪我的工作,并在任何时候都能做到,每天学习新东西。你看到的那些提交中,很多来自一些内部存储库。很多实际上是结构化的日记。听起来可能有点奇怪,但我从我想大约 2018 年开始就一直在维护一个 Markdown 文件。你没听错,它是

一个用于基于项目的 Markdown 文件,另一个用于个人事务。我试图在将其转换为不同的格式之前,先对博客文章或下一篇文章等内容进行详细说明。就是这样。是的。

显然,我们将讨论一些机器学习主题,这与我们在 Data Skeptic 上经常讨论的内容很接近。但我想你最初的学术背景略有不同。是的,我最初在德国海德堡大学学习纯数学。这意味着代数拓扑和微分拓扑。

但在博士学位之后,我说,好吧,我们必须去别的地方。我必须尝试一些新的东西,重新塑造自己一点,因为它在智力上是刺激的。我可以承认这一点。但它有时也有些空洞。

至少对我来说是这样,因为我从未觉得我有那么多人可以与之联系我的研究,或者与之讨论我的研究,当然不是我的家人或朋友,不是因为他们不关心,而是因为它是一件如此抽象的事情,需要讨论,所以我想我需要改变一下环境,我需要改变一下……主题,然后……

是的,我就是这样。好吧,我想拓扑有很多有用的方法。显然,ML。你还会强调哪些其他方面?是的。我的意思是,我们不仅要在未来的工作中,而且在我们目前的研究设计中,我们想要做的一方面是,将有关数据拓扑的信息融入模型。这可以采取各种形式。它可以像简单地说,哦,你有一个图,并且该图有多个连通分量一样简单。或者它可以更复杂一些,例如,你在寻找,比如说,

数据集中的孔,例如结构形状描述符等等。我们发现,一些拓扑方法,不想在这里用细节来烦扰听众,但其中一些方法确实给了你一些东西,这些东西与你在 ML 中拥有的其他结构归纳偏差可以获得的东西互补。所以这是一种向某些模型添加这个额外方面的巧妙方法,我想。

好吧,我怀疑如果我们调查大多数机器学习从业者,并要求他们定义拓扑,他们会感到很困难。也许他们最多知道克莱因瓶是什么,但我甚至对此都没有信心。你能否为拓扑的程度或重要性做一个宣传,以及为什么机器学习人员应该更多地参与其中?

在当今数据驱动的世界中,能够从数据中提取价值不仅仅是一种优势,它至关重要。掌握分析可以改变你的职业生涯和你工作的组织。轮到你去通过分析改变你的职业生涯并推动组织成功。让我告诉你佐治亚理工学院谢勒商学院的商业分析研究生证书。它是

100% 在线。谢勒商学院在美国排名前 10 的商学院中为忙碌的商业分析专业人士提供服务。他们拥有一流的教师团队,可以帮助你最短一年内毕业,但是

但是也许你像我一样忙碌,你想慢一点。你可以将灵活性与严格的教育相结合。谢勒的研究生证书项目适应你的生活,而不是相反。他们的项目是为像我们这样的专业人士设计的,他们希望利用数据并解决现实世界的业务挑战,但需要灵活的时间和安排。

这就是为什么你可以按照对你来说有意义的方式安排你的课程。最重要的是,你不仅仅是在获得证书。你可能正在为佐治亚理工学院享有盛誉的 MBA 项目打开大门。现在是时候成为数据精明的领导者,使用佐治亚理工学院的商业分析研究生证书。2026 年春季的申请现已开放。

访问 TechGradCertificates.com 了解更多信息并在 8 月 1 日截止日期之前申请,网址为 TechGradCertificates.com。

Delete Me 使得在线删除你的个人数据变得轻松、快捷和安全,在一个监控和数据泄露非常普遍以至于使每个人都容易受到攻击的时代。作为一个多年来一直备受关注的播客主持人,我亲身体会到隐私的重要性。这项服务最好的方面之一是,当你第一次注册时,他们会给你灵活性,让你只需从基本信息开始。你选择你想要他们保护的细节。

Delete.me 的专家花了大约 22 个小时扫描和删除我的数据,这是我永远没有时间自己完成的工作。真正令人担忧的是,如果没有 Delete.me,这些个人信息将对任何拥有互联网连接的人可用。有些删除会在 24 小时内完成,而另一些则可能需要几周时间,但 Delete.me 会管理所有这些。

他们在整个过程中都会让你了解情况,他们的季度报告会准确地向你展示他们正在采取哪些措施来保护你的隐私。通过立即注册 Delete Me,并享受我们听众的特别折扣,来掌控你的数据,并保持你的私人生活私密。今天,通过短信发送 DATA 到 64000,即可享受 Delete Me 计划 20% 的折扣。

获得 20% 折扣的唯一方法是将 DATA 发送短信到 64000。这是 DATA 到 64000。可能需要支付短信和数据费。

你能否为拓扑的程度或重要性做一个宣传,以及为什么机器学习人员应该更多地参与其中?当然可以。我的意思是,我认为从某种意义上说,我们数学家是罪魁祸首,因为当我们谈论拓扑时,实际上有三个主要分支。有点集拓扑,你讨论事物是如何连接的。你谈论邻域等等。有代数拓扑,你可以

基本上定义为使用线性代数计算形状。然后是微分拓扑的奇妙领域,你正在查看数据的某种函数描述或拓扑空间。但从根本上说,我想说拓扑是关于形状的科学或数学。这是一种非常笼统的说法,但我希望这也能说服一些听众真正深入研究它。

那么,当你想要,我不知道你是否认为它是一个转变,但也许开始关注你在其他地方构建的工具集时,机器学习的吸引力是什么?吸引人的部分是你有数据可用,并且你很清楚,或者当时看起来是这样,你很清楚地定义了问题。

对我来说,当我写一个纯数学证明时,很难说它是对还是错,对吧?我必须重塑和改进论证等等。而在机器学习中,你有一个数据集。你的任务可能是,我不知道,对图像进行分类,找到猫,找到狗。然后你这样做。然后你查看准确性,你会说,好吧,这很好。然后你尝试其他方法,准确性提高了,你很高兴。然后你尝试其他方法,准确性下降了,你就不高兴了。所以这在当时非常有吸引力。我不想说机器学习更容易。更确切地说,我想说的是

结果更易于理解,你不会像在数学或其他学科中那样获得这种延迟的满足感,我想。在这种情况下,图的特殊之处在哪里?好吧,我的意思是,图总是让我着迷,因为它们以如此多种不同的方式、形状或形式出现。当我开始研究 ML 一点时,我就已经意识到

图在某种程度上不同于其他模式,因为对于图像,我们有很多方法来讨论它们,对吧?我可以说它是一张黑白图像,一张三通道图像,一张灰度图像,一张猫的图像,一张狗的图像等等,但是对于图,我们有如此多种方法来生成它们或对它们进行推理,有些具有节点属性,有些没有,有些来自纯数学,有些是系统模型,有些是现实模型,例如

地铁图或电车网络、火车网络等等。这总是,总是让我着迷。我一直认为,研究能够一次性解决所有这些问题的框架会很酷。

正如你提到的那样,它很有吸引力,因为似乎有一些明确定义的问题。似乎有一些著名的数据集。关于数据集,有什么内容?我的意思是,现在有很多数据集来自分子建模或药物发现,我想,你询问的是化合物的某些特性,分子的特性。

属性预测,你询问的是毒性、在水中的溶解度等等。有一些非常著名的社交网络,Reddit 和之前的 Twitter,那里有很多数据集。

我认为还有一些道路网络数据集,但我并没有真正使用过它们。所以我想很大一部分可以被称为生物信息学或化学信息学数据集,包括蛋白质、分子等等。显然,图研究人员或对算法感兴趣的人会希望拥有这些多样化的数据集来尝试他们的方法。你知道,我的正则化技术是最好的吗?或者类似这样的问题。

赛场是什么样的?是否存在已知通常有效的强大方法,或者它是否按类别有所不同?我想说,这冒着得罪一些人的风险,但是当我观察这个社区时,我认为基本上有两个主要的方法家族。然后一个是图神经网络,例如卷积,但在图级别定义的方法。

使用诸如消息传递范式之类的东西。新的内容或新的热门事物,可以说是 Transformer 架构,它由于不同的原因而很有趣,因为你并没有真正使用图本身,而是查看所有节点及其所有可能的连接。

这过去有点不同。从历史上讲,还有其他方法,例如图核,但我认为这些方法已经有点不受欢迎了,主要是因为计算效率低下。因此,图变得越来越大,我们现在需要一些能够很好地扩展到这些图的方法。

那么让我们进入“没有一个指标可以统治所有指标”——关于图学习数据集的原则性评估。你在这篇论文中着手完成什么?也许从历史上讲,我应该说,这可以追溯到 Corinna 和我多年来的一些想法。所以就像几年前一样。

我们想要一个衡量图的图形化程度的指标。这听起来超级奇怪,但是与图像相反,当我们处理计算机视觉任务时,我们并没有语言来说,哦,这个图实际上需要很多边,或者不需要很多边。

在这篇论文中,我们试图提供一种语言并提供一个框架,告诉我们当涉及到测量图学习方法时,我们的数据集实际上有多大用处。

在,我们称之为普通机器学习中,我熟悉的指标例如准确性、精确度、F1 分数、曲线下面积,这些是你机器学习入门课程中学习的概念。这些是否普遍有用,或者图是否有一套不同的指标?

不,当涉及到评估最终任务或结果本身时,这些确实普遍有用,对吧?我们也在寻找一种意义上的度量,即节点之间的距离度量或图的不同特征之间的距离。所以这就是它几乎像双关语的地方,可以说。但当然,它也暗指了很多戒指,对吧?

所以是的,你能详细说明一下 RINGS 作为框架吗?我不知道我们是否已经准确地解释了这一点。什么是 RINGS?是的,所以 RINGS 是我们试图提供一个新的框架来对图数据集进行分类,对评估进行评估,可以说是这样。RINGS 是相关信息在节点特征和图结构中的缩写。

很多这些图数据集,它们几乎就像披着羊皮的狼,对吧?因为它们带有图,但它们也带有节点特征,以及附加到图上的测量值。

我们的基本问题,我认为我们在论文中回答了这个问题,是在什么程度上我们需要节点特征(如果我们有图)反之亦然?事实证明,这实际上并不容易,或者不像人们预期的那样。你如何评估这样的事情?是的,这就是为什么我们花了这么长时间才坐下来写这篇论文的原因。所以这不像我们一直在研究这件事几年,对吧?但是这些想法一直在我们的

脑海中不断增长。最终,我们想出的方法是双重方法。因此,我们正在询问在图结构的一些扰动下,不同模型能够解决给定任务的程度。

但我们也在问自己,图和扰动,它们如何很好地测量互补信息。因为理想情况下,我们希望在理想的图数据集中,我们希望节点特征和图结构对于底层结果都非常相关且非常重要。所以我们想说,哦,这些是相辅相成的。如果我们去掉一个,我们就无法完成任务,或者我们的性能会大幅下降。

我们实际发现的是,在许多数据集中,我们不需要这种结合。我们可以用其他东西代替节点特征,或者我们可以用其他东西代替图。我们仍然可以获得相当有用、相当高的性能。在某些方面,我认为这令人担忧,因为它可能会告诉我们关于我们正在开发的方法的错误信息。

你能详细说明一下吗?人们可能会得出什么错误结论?我认为对我来说,最大的问题是,假设我有一个关于在图中捕获某些东西的绝妙想法,并且

我尝试在实际上根本不需要图结构的数据集上进行尝试。所以也许这些数据集非常简单,我可以仅基于节点特征本身同样好地进行预测,对吧?所以基本上,我会将图视为一些高维坐标的点云,我只需要使用坐标来进行预测任务。然后可能会发生的是,我提出了我的很酷的方法,它非常结构化且非常面向图。

它就是不起作用。它并没有给我比我正在比较的其他方法更好的信号。这实际上可能会让我走上错误的道路,对吧?因为然后我会说,哦,不,我浪费了时间,我开发了这个很棒的方法,但它实际上什么也没做。

反之亦然,我可能会欺骗自己认为另一种方法实际上并不真正适合基于图的分析,但它非常擅长捕获特征,也许我认为,哦,这很棒,因为它在这个数据集上给了我良好的性能。所以这是一种,我想,使用基准数据集的负面影响是,你的见解和你自己的基准一样好,对吧?

所以如果我是一个方法学家,我开发了一些新的算法或类似的东西,我想声称它是最好的一个。我可以依赖普遍可用的数据集吗?

这是一个很难回答的问题。我想说只能部分依赖,因为我们在论文中发现的一个问题是,如果完全删除图,或者甚至用随机图替换它,那么在描述的任务上,某些数据集的性能会更好。所以有各种各样的奇怪扰动。如果你想的话,我稍后可以详细说明。

我们在图级别和特征级别上都研究了所有这些。主要的是,好吧,我们研究了两件事,但主要的是我们研究了某些模型下的性能如何变化。理想情况下,如果你给它错误的图,你不会希望你的模型性能发生变化,对吧?因为如果发生这种情况,或者如果性能保持不变,那么这种情况发生,那么图一开始就没有用,你不需要它,对吧?那么从这个意义上说,我之前说过,我们可以说这个图数据集并不是真正图形化的,对吧?

但是你必须在这里想象一下大大的引号,因为很难做出具体的评估。但是你提出了一个很好的观点。如果我们可以扭曲网络,有效地将其变成随机网络,那么性能应该下降。否则,正如你所说,它并不重要。所以我喜欢这个关键见解。你能详细说明一下你在这些测试中使用的扰动类型吗?

如果我没记错的话,我们有四种。我们有原始的,它实际上根本没有扰动,但这没关系,对吧?我们有空的,所以要么是空的图,要么是空的特征,这意味着我们用基本上基于零的特征来替换它们。我们有完整的图或完整的特征,我们有随机图和随机特征。

所以我们可以在基于特征的级别或基于图的级别上进行这些操作。你可能会期望根据你正在查看的内容,会有很大的变化。例如,回到你给出的道路网络示例,当然,事物是如何连接的是很重要的。如果你开始随机扰动网络中存在的道路,那么旅行时间应该会发生很大变化。当实际发生交通堵塞或

或由于其他原因而关闭道路时,我们都会看到这一点。你应该能够在你的数据集中捕获这一点。但事实证明,有些数据集的一些扰动实际上是可以接受的。它们给你良好的性能。

所以我知道你在一大批数据集中测试了这些各种扰动。总结所有这些是一项艰巨的任务,但从 50,000 英尺的高度来看是什么样的?观点是,我们对一些基准数据集需要重新思考,我认为这是好事。我还认为我们中的一些人……

好吧,我认为我们大多数人在该领域发表过论文的人,我们现在已经怀疑一段时间了,因为我们经常看到性能并不一定是由图中所有可用信息驱动的。但我认为主要要点是

如果你正在寻找关键要点,那么我想说只有少数数据集,主要是在分子领域,同时具有信息丰富的结构信息和信息丰富的特征信息。因此,结构,图本身以及特征都是有用的。

这是我们看到的一个更大的趋势,目前只有分子数据集似乎具有这种特性,或者我应该说只有化学信息学/生物信息学数据集目前似乎具有这种特性,据我们所知。好吧,如果我们转向相反的极性,是否存在一个如此基本和明显的数据集,也许研究人员应该停止使用它?是的,有一些这样的数据集。我们指出了它们。

一个数据集是关于酶信息的,我知道这听起来与我之前所说的话有点矛盾,但它是一个非常小的数据集,我想大约只有 600 个图,并且它在标准技术中的性能差异很大。所以你拥有,你从 25% 到 65% 左右不等。我已经看到所有内容,这很奇怪,因为你通常,如果你专注于一个好方法,你通常会

</context> <raw_text>0 也能获得某种稳定的性能,但对于酶来说,情况完全不同。

另一个基于社交图的数据集,这些数据是根据 Reddit 讨论收集的。所以有一个 Reddit 二元数据集,这意味着它有一个二元分类任务,还有一个 Reddit 多元数据集,这意味着它有一个多类分类任务。我们的一个结论是,这些数据集可能应该被丢弃,或者至少应该重新用于其他任务,因为在这两种情况下,结构和特征都不具有信息性,不幸的是。

我知道你提到分子数据集似乎具有这些良好的特征。这是否是因为某些简单的原因,例如这些是最大的数据集?这可能是这种情况。我的意思是,我们当然在某种程度上关注单个图,但是,更大的数据集肯定会有更多样的数据。

我认为这些数据集的优势还在于,分子天生就具有一定的结构和特征,因为它们存在于物理现实中。但当然,我们也可以有数学上的抽象观点。我认为这两种观点对于进行讨论或对它们进行最终分类都很重要,例如。但是,是的,也可能存在我们没有意识到的潜在原因。

虽然我习惯于阅读所有标准指标,例如 F1 分数准确率,这些是我在阅读论文中看到的东西,但您认为未来的作者是否有空间在他们的结果中添加一个部分,他们在其中应用 rings 框架并在这些扰动后显示这些指标的下降?

我的意思是,那将是梦想。我的意思是,如果我们得到社区的支持,我们所设想的是,我们希望那些提出新数据集的人能够实际分析其性能。因此,如果您撰写论文并说,嘿,这是我酷炫的新图数据集,那么您将描述您如何创建图,您将描述您如何收集数据、特征等,

以及您设想的任务。然后作为最后一步,您基本上还会说,顺便说一句,这里有一些关于 rings 框架的性能变化。这里有一些性能可分离性和一些模式互补性信息,告诉您该数据集可能有用或无用。我认为这将是很棒的。但我也可以接受对数据集本身进行更详细的讨论,而无需我们的框架。那也很好。

好吧,我们知道负面情况是,我们进行这些扰动,而我们的指标没有变化,这告诉我们图结构并没有影响我们的决策,诸如此类的事情。理想情况是什么?显然,性能会下降。您是否会预期大幅下降,或者在实践中是什么样的?是的,哦,这是一个很难回答的问题。但理想情况下,我们会期望……

如果我们对图结构进行重大更改,可能会这样说,所以如果您只重新连接几个边,那么我猜一切应该保持大致相同,除非这是一个非常关键的边,它连接了,我不知道,也许是图中两个未连接的两个组,或者诸如此类的事情,否则我猜性能应该与变化量大致相关,与我进行的扰动量大致相关

我对图进行的扰动,然后也许稍后对特征进行扰动。论文中强调的一个问题是某些流行的数据集存在偏差且不具有代表性。就节点和边而言,这将如何形成?

有些数据集的任务显然太容易了,因为无论您应用哪种类型的扰动,您都会获得或多或少的相同性能。有一个著名的名为 AIDS 数据集的数据集,我认为它也在分析某种分子化合物。这个数据集有……

几乎在所有方面都具有完美的性能,无论您对其进行什么操作。因此,这将告诉您,好吧,这里有一些需要改变的东西。至少您需要更改任务的某些内容。您控制图本身,但您也控制要解决的任务。在某些情况下,我们有这种温和的,比方说,

任务和图之间存在轻微差异。所以我们可以说图可能很好,特征也很好,但任务可能不是很好。也许任务太容易了。也许你应该问它别的东西。我们也在社交网络数据集中看到这一点,其中基本上所有这些 Reddit 数据集,就它们具有的结构而言,它们都很好。它们有很多变化。它们有很多有趣的动机,因为有一些图基本上模拟了 Reddit 讨论线程。

但它们没有真正非常困难的任务。事实上,这项任务非常简单,如果您记得正确的话,您可以根据单个节点的一些度信息来完成它。然后您可以预测这是在一个论坛还是在另一个子reddit中的讨论。

您对未来可能发布的数据集有任何愿望或希望吗?如果可能有一家公司、一个组织或只是一个领域,您希望看到某些东西被生产、发布或任何其他方式,那么最有趣的数据集可能来自哪里?

戴上我的数学家帽子,我希望数学可以产生一些实际上非常非常有用的数据集。我的意思是,图论当然已经充满了图,对吧?所以他们正在处理大量的图。这些图不一定在我们基准测试中表示,因为从某种角度来看,它们有点无趣,因为它们通常没有任何节点信息,而我们……

肯定需要某种节点信息。这就像纯粹的数学界可能做的事情。但当然,我希望从分子领域,从化学领域获得更多的东西。那将是非常非常可爱的。甚至可能来自地理学的东西。所以所有有效地对现实进行建模的事情

在某种程度上。例如道路网络或交通网络,这些东西。我们已经有一些了,但它们没有达到它们可能达到的细节和深度水平。例如,如果谷歌说,嘿,我要给你澳大利亚的所有公共交通网络,那将非常酷

美国、德国和瑞士等等,对吧?因为这些数据已经存在。我们一直在使用它,但我们并没有真正将其转换为人们可以使用、人们可以随意玩弄的格式。我想这就是一些希望。论文提出的一种机会是,独立研究人员可以在他们自己的工作中采用您的扰动技术。您对他们如何做到这一点有什么建议吗?是……

归根结底,我想必须在软件中完成。有没有方便的方法来做到这些,或者目前这是一种手动工作?- 方便是一个很大的问题,正在做一些繁重的工作。我说它很方便,但他们可以使用我们的代码。我们在 GitHub 上有代码。我们计划之后发布一个完整的版本,其中包含许多教程和大量信息。

我认为这也很巧合,我也认为在机器学习研究中这样做非常重要。就像不仅将论文作为研究成果,而且还为社区、从业者和世界其他地区提供一些可用的东西来尝试您的模型,尝试您的新想法。而且,

我的意思是,理想情况下,如果我们设法做到这一点,我们将希望有一个简单的即插即用解决方案,人们可以说:“这是我的新数据集。它只需要是那种格式。”然后你把它放入我们的框架中,它就会输出一些可能有趣的扰动指标,并给你

也许我们不会直接到达那里,但也许我们甚至可以考虑对这些指标进行一些非常简单的评估,一些自动评估。因此,您向我们提供数据集,我们说,好吧,这看起来确实不错,但请注意,完整的图也为您提供了良好的性能。所以也许你想研究一下,诸如此类的事情。

如果您认为没有单一最佳指标,您认为我们是否应该将其中任何一项形式化为没有免费午餐定理?我认为我们绝对应该在图学习中做的是更多地考虑我们的图来自哪里。因为我认为我们目前正在做的是,我们试图在这个意义上没有免费午餐,我们说,哦,这是一个图,所以我们的方法应该能够处理它。

但我们完全忽略了,或者在大多数情况下,我们忽略了这个图的来源。这很重要。所以我可以从一些先验几何创建一个图。我可以采样一些点,然后我说,好吧,我连接最近的邻居,然后我有一个图。但这与数学中的图论者可能称之为图的图不同,对吧?他们会说,哦,我出于某种原因正在研究 Ramsey 图或 Cayley 图。它们以某种其他形状或形式生成。

但出于某种原因,我们期望我们的方法在所有这些类型的图上都能表现良好。我认为这就是没有免费午餐绝对应该开始的地方,也是我们应该说的地方,好吧,也许我们的方法只对几何图非常有效。也许它们只对没有潜在几何的图非常有效。我不知道,对吧?但我们也试图在社区中开始这场讨论,并试图让人们掌握讨论这些问题的语言。

这些问题是图数据集特有的吗?这是一个难题。我倾向于说,在某种程度上,是的。没有非常精确的答案。对此表示歉意。但它们在计算机视觉中不太普遍,这并不是说计算机视觉更容易,对吧?但这只是因为

如果您有一个视觉任务,您有一些传感器数据,您多少了解图像是如何形成的以及您想要做什么。但在图中,我认为我们仍然缺乏对图最初是如何创建的这种有原则的理解。举一个非常具体的例子,即使在基准数据集中的某些图也是通过对相关矩阵进行阈值处理创建的。

所以有人坐下来测量对象之间的相关性,然后他们说,好吧,如果我设置,比方说,0.65 的阈值,那么我将从中得到以下图。

但从某种程度上来说,这个图只是更复杂过程的快照,即这个完整的相关矩阵,它告诉你关于你的对象如何交互的一切。我们看不到这个相关矩阵。相反,我们看到的是通过这个阈值创建的图。我不确定图像是否也遭受类似的问题。在我看来似乎并非如此。

您是否在论文中提出的当前框架中看到任何局限性?我们目前只关注消息传递图神经网络。所以我们实际上排除了其他任何东西。我们这样做不是出于恶意或疏忽,而是出于计算方面的考虑,也是因为消息传递仍然是

图学习研究中的主要范式。所以我们说,好吧,我们首先关注最大的部分。但这意味着论文中的所有结果都是使用消息传递方法完成的。因此,如果您有根本不同的范式,情况可能会发生变化,如果我们想出这样的东西,那就太好了。我们也没有办法

评估所有情况下的任务难度。因此,我们有一个模式互补性的概念,我们正在研究特征和图在某种意义上是如何很好地对齐的。这实际上与任务无关且与模型无关,我认为这很有用,但是

公平地说,人们可能会抱怨,人们可能会说,好吧,但我对这在我的特定任务中运行得有多好感兴趣。然后这个指标,至少是我们设计的特定指标,将无法为您提供答案。但我们希望当然可以在未来的工作中解决这些局限性。

因此,论文中肯定可以获得很好的见解。如果社区接受它并将其带入理想的方向,那么在您的脑海中会是什么样子?是的,我认为一个理想的结果是人们开始使用这种类型的框架来讨论新的数据集。

但如果他们只是接受论文原样,并且他们只是说,好吧,我试图更加注意我正在运行的计算,我正在运行的任务,我也会非常高兴。也许添加更多我们所谓的消融研究。因此,您更改图的部分或更改模型的部分的研究。也许对此更加注意,而不是……

将数据集视为或多或少是固定的并且无法再更改的东西,而是如果人们理解数据集也是我们社区设计和应该策划的东西,那就太好了。这并不是随着时间的推移应该保持静态的东西,因为存在饱和过度的现象。在某些时候,我们需要替换数据集,我们需要构建更好的数据集。我相信,我认为这个时间正在迅速临近。

好吧,在我们结束时,我有一个难题要问你。鉴于您在数学方面的背景,以及我不得不假设您对 NP 完全问题很熟悉,您认为拓扑和几何学是否可能具有我们最终证明 P 不等于 NP 所需的洞察力?

我认为这有点超出我的能力范围,因为我并不真正熟悉计算复杂性理论。但是,我相信数学中所有的大问题,一般生活中所有的大问题几乎总是在不同事物、不同领域的交汇处,对吧?所以我认为我们在……

在过去几十年中在拓扑学中看到的是,真正好的证明,真正好的结果,总是来自那些戴着多顶帽子的人。所以是一个几何学家和拓扑学家,这些,这些东西。所以谁知道呢?我的意思是,如果,如果我们最终在……方面取得进展,像这样的大问题或像黎曼假设等等,我,我有希望和预感,它将来自试图……的人,结合并……

不同的学科并将它们结合起来,而不是来自专门在一个领域工作的人。您能否分享实验室中您感到兴奋的任何正在进行的项目?是的,一个非常好的项目,并且与 Nometric to rule the mall 论文的精神有点相似,这就是我们称之为 Mantra 的工作。它是流形三角剖分组合。这里的想法是我们收集很多

好的对象,所谓的三角剖分来自纯数学,来自二维和三维流形。所以就像非常好的,经过充分研究的对象。然后我们只是让他们在机器学习模型上自由发挥。我们试图利用 Nometrics 论文中的一些经验教训,以及 Rings 框架中的一些经验教训来策划和创建新的数据集,我应该说,铭记在心。我们看到的是非常惊人的。我们看到

许多现有方法在非常简单的拓扑问题上并没有真正表现良好。因此,即使它们有很多数据,其中有几万个流形,如果我们想通过所谓的重心细分过程生成更多,但细节在这里并不重要。我们看到这仍然是……

当前的方法,即使在回答非常简单的问题时,它们也不起作用。这令人兴奋和惊人,因为令人兴奋的是,这意味着有很多空间可以开发新方法。这总是很棒的。但这有点令人惊讶,因为人们可能会期望我们在这些努力中取得更多进展。但事实证明,

处理纯粹的组合数据仍然非常困难,它仍然是需要仔细研究的东西。所以这是我绝对感到兴奋的事情。

你呢?接下来你有什么计划?很多事情。我正在涉足一些,我想你可以称之为高效的小模型。我对像大型模型一样很好地解决任务的想法非常兴奋,但计算成本却只是一小部分。这些当然不是通用方法,而是更特定于任务的方法。但是

如果这能很好地工作,那么我们将在几何和拓扑领域看到非常非常好的结果,例如生成模型。那将是非常非常棒的。这是我目前非常热衷的事情。

非常酷,而且非常及时,因为模型似乎正在无限增长。是的,完全正确,完全正确。好吧,听众可以在网上关注您吗?有几个。所以我仍然在我的化名 PseudoManifold 下活跃在一些社交媒体上。所以我拥有 Trianglesky at pseudomanifold.topology.rocks。

但我也有一个个人网页,也可以通过 topology.rocks 访问。我试图保持品牌一致。是的,我甚至还有一个斧头柄,也是 pseudomanifold。但我目前并不活跃在那里。

非常酷。我们将把所有上述内容的链接放在节目说明中,供听众后续关注。Bastian,非常感谢您抽出时间来分享您的工作。是的,但我也想借此机会代表所有团队表示感谢,当然包括 Corinna、Jeremy、Emily 和我自己。这是一个很好的机会,让我们谈谈这项我们认为非常重要的工作,我们非常高兴拥有这个平台来进行额外的推广和传播。非常感谢。