凯尔向阿萨夫询问他现在教授的新网络科学课程。谈话深入探讨了接触者追踪、网络分析工具、用例示例以及网络思维的重要性等主题。</context> <raw_text>0 您正在收听数据怀疑论者播客:图表和网络,该播客探讨了图数据结构如何影响科学、工业以及其他领域。阿萨夫,我知道你已经开始教学了。你能告诉听众一些关于你教的内容以及课程的一些细节吗?你知道他们是怎么说的,那些做不到的人,就去教书。所以,用网络科学做事情真的很难。
因为,嗯,原因有很多。因为网络科学是多学科的,对吧?也许是太跨学科了。它与许多领域都非常相关。你必须成为每个领域的专家,才能向人们展示网络科学对他们有多好。我认为这太难了。所以我决定改行教书。
我教的东西,嗯,我想不是学生们期望的东西。因为我是一个网络分析师,我试图教他们如何在实践中使用网络以及如何进行网络思维。当我看到不同的教学大纲时,复数是syllabi,
当然。好的,酷。我看到人们通常从柯尼斯堡七桥问题开始。当然。这是必须的,对吧?从七桥开始。是的,没错。然后开始提到不同的算法。
问题是,好的,你学习了可以在网络或图上使用的不同算法,但你并不理解为什么需要它们以及如何使用它们。好的,你理解公式,但你不知道它的相关性。
上下文中的相关性是网络添加到数据中的秘诀。要理解你在网络中的连接位置,这实际上完全取决于上下文。那么,我们可以从社交网络的角度来解释一下吗?许多人参与了一个或多个社交网络。他们多少理解自己与他人相连。他们如何从网络科学的角度来思考这个问题?
我读了一篇论文。我这里有一个思路,我会回答你的问题。但最近我读了一篇关于影响的论文。它叫做,我这里实际上有,在线社交网络实验中的行为传播。这不是一篇新论文,但它非常有趣。它讲述的是通过网络传递的影响
这篇论文表明,网络的结构会影响影响力。他构建了两个网络,并在它们之间随机分配参与者,并实际控制了其他变量。为了减轻其他变量的影响,这两个网络之间的唯一区别是它们的结构。一个是随机连接的,另一个是更聚集的。
更类似于现实世界的网络。他展示的影响传递,在聚集网络中的影响力可能比在随机网络中更大。当你想到社交网络的结构时,我们通常认为它是随机的,对吧?我在某个派对上遇到了这个人。这是偶然的,对吧?我和这个家伙聊了
聊了多年没聊过的家伙,因为我们在街上相遇,所以我们很多互动都是随机的,或者看起来是随机的,我想我知道你要说什么,是的,继续,对未经训练的眼睛来说似乎是随机的,但我觉得当你理解网络时,我认为它有一个……嗯,我会说它有一个哲学方面
当你观察网络科学以及网络科学基础上的发现,例如网络中的小世界定律,网络具有……这是一种悖论,对吧?网络越大,网络上的人之间的捷径就越多。度数的幂律分布或长尾分布,网络中不同节点的连接数,
对吧?有一些节点有很多连接,而很多节点只有很少的连接。
网络中的社区结构,网络中的聚类系数。我认为我们没有讨论过它。没有,我们可以谈谈聚类系数吗?是的,一句话来说,聚类系数实际上是网络中三元组的数量。网络中有多少个三元组,也就是封闭的三角形。所以三元组就是三个都相互连接的人,就像共同的朋友。没错。所有这些
我们在网络中看到的现象,我们在随机网络中看不到。当我们将其与……进行比较时。我们在现实世界的网络中确实看到了它,好吗?我们理解它不是随机的,因为当我们将其与随机网络进行比较时,我们看到了这些现象。这让你思考,对吧?如果不是随机的,那是什么?
我试图传达给学生的是对网络的感觉。为此,我使用了许多现实世界的例子来解释如何观察网络、如何看待网络,而较少关注理论。实际的东西。如果我可以说……我们在本系列中谈论了很多图论和图。你知道……
我不实践图论。这很有趣,因为对我来说,作为一名计算机科学家,这是所有事物的术语。而网络科学是其中的一部分。是的。这就是为什么我一直说你使我完整。
图论并不能解释网络。它利用它们。它使用网络和图作为工具。甚至图的概念。图本身并不是网络,对吧?它是一种图纸。嗯,从这个意义上说,这是一个糟糕的词汇。是的,人们认为它是数据可视化,而不是节点和边。没错,但我认为图论使用网络作为工具。
某种图,对吧?作为工具。但它并没有解释这种现象。它不会给你关于数据的见解。这就是为什么我更喜欢网络科学和SNA,即社会网络分析的视角。说到这里,我们回顾整个系列,并试图思考我们没有涵盖的内容,对吧?好问题。
是的,这是你的问题。所以我只是重复我的老板说的。总是一个好主意。我认为,嗯,我认为我们没有涵盖流行病学,对吧?疾病的传播,除了我认为在视频游戏中的一小部分。
你知道,这对我们来说是一个非常大的问题,就像不久以前一样,对吧?那就像两年漫长的时光。而网络科学与之息息相关。我认为还不够,因为许多政府,我认为,没有,你知道,我不能责怪任何人,因为这就像,你知道,一次性的事件,对吧?
而且有很多风险。但是,我认为网络科学本可以在更多国家被用来阻止新冠病毒。我们没有提到神经科学。实际上,网络之王巴拉巴西认为神经科学是网络科学的最后疆域。大脑中有一个相当密集的网络,是的。
Delete.me 使您能够轻松、快速、安全地删除您在线的个人数据,在监控和数据泄露事件频发的时代,每个人都容易受到攻击。
作为一名多年来一直备受关注的播客主持人,我亲身体会到隐私的重要性。我收到了最新的 Delete Me 报告,让我告诉你,他们从 32 个不同的数据经纪人网站上找到了并删除了我个人信息的 35 个列表。我的姓名、联系方式、家庭住址,甚至关于家庭成员的信息。所有这些都是由数据经纪人汇编并在线销售的。它就在那里,任何人都可以找到。
Delete.me 的专家花了大约 22 个小时扫描和删除我的数据,这是我永远没有时间自己完成的工作。真正令人担忧的是,如果没有 Delete.me,这些个人信息将对任何拥有互联网连接的人可用。
通过注册 Delete Me 来掌控您的数据,并保护您的私人生活。现在为我们的听众提供特别折扣。今天,通过短信发送 DATA 到 64000,即可享受 Delete Me 计划 20% 的折扣。获得 20% 折扣的唯一方法是将 DATA 发送短信到 64000。即 D-A-T-A 发送短信到 64000。可能需要支付短信和数据费用。
巴拉巴西,网络之王,我认为神经科学是网络科学的最后疆域。大脑中有一个相当密集的网络,是的。网络网络,我认为我们只是略微触及,我们没有触及它。什么是网络网络?不,网络中网络的方面,网络攻击,防御等等。是的,是的,是的。这就是在谈论网络科学。当我……
看看 SNA,社会网络分析。你知道,有很多领域使用 SNA。历史研究使用一些 SNA。那里有一些很酷的东西。我们甚至没有提到区块链。你知道吗?我认为我们没有提到区块链是个好主意。是的。有两个主题比区块链更让我不感兴趣。
确实。我认为你可以用网络科学来解释为什么区块链是一个骗局。哦,这很有趣。我很想谈谈这个。请说。
你知道,区块链或加密货币的名声是什么?嗯,不,我认为让我们在这里更像一个稻草人,并以最友好的方式来描述它,它是一种开放式账本的技术,它是一个计算平台,可以在其上进行巧妙的公开操作。好的。好的。让我们为了论证起见,假设这是真的。当然。嗯,就像……
我给你一个快速的 30 秒的例子。有一个想法是摆脱黄牛,为了使用你的活动门票,你必须出示你的真实身份。如果你想转让,你可以。你可以卖掉它,但其中很大一部分会归艺术家所有,而不是黄牛。在这种情况下,很好。如果艺术家得到 50% 的钱,让它转售五次,他们每次都能赚钱。这对我来说听起来不错。
是的,我不知道这个问题是否如此尖锐……它是否需要区块链?这是一个好问题。你可以这么说。但是
我谈论的是运行在区块链上的加密货币。加密货币的名声在于它不是中心化的。它是一种去中心化的货币。这就是他们所说的。因为它是非中心化的,所以它属于人民。它属于人民。
它属于矿工。是的。是的。人们不知道的是。当你进行网络思维时,很清楚的是,网络不是加密网络不是去中心化的。它实际上,我想,是世界上最中心化的货币。对。因为正如你所说,它属于矿工。有多少矿工?
所以,你知道,有很多论文对此进行了论述,我想这不会让你感到震惊,10% 的矿工控制着 90% 的市场,对吧?因为这是我们从网络中知道的基本的长尾分布。
人们可能不知道的是,这 10% 的矿工,大多数当然在中国。所以如果你的说法是它是最中心化的,我们必须将其与普通货币进行比较,对吧?我们如何衡量它们的中心化程度?是的。假设我们称之为法币,对吧?政府持有的货币。通常当我听到这个词时,我会失去兴趣,但请继续。
嗯,我知道我看起来像个金融大亨,但我不是。我不是。我真的不是。我像其他人一样在沙发里找零钱。不,我相信你。我的意思是,货币受很多因素的影响。
政府决定,但实际上并非如此,对吧?有市场,这是一个复杂的系统。但在加密货币这种货币中,问题是如果你可以完全改变市场,对吧?如果一个加密货币的中央证券交易所或用户,好吗?我们知道很少,因为长期分布。
如果他们决定操纵货币,他们可以。他们可以很容易地做到。我想他们确实做到了。我想他们确实做到了。关于区块链就说这么多。我实际上想回到你关于大流行病的评论之一。我不知道这个评论是否被播出,但被我们的广播电台播出了。但你评论说,有一段时间,所有网络科学会议都是关于新冠病毒的论文。我们做了一些,你知道,小系列。我们称之为?
我甚至不记得标题了。我们在播客上做了一个关于新冠病毒和大流行病的短系列。这似乎是一个有点被用尽的话题。所以分析就在那里。人们做了大量的分析,有趣的事情要说,但我更感兴趣的是展望未来。所以我们可以说,我们能做得更好吗?也许我们应该这样说,下次我们会做得更好吗?
努力在哪里?应该是接触者追踪,还是网络科学的哪些方面最能保护社会并对社会有所帮助?嗯,我认为在我们谈话的开始,我说网络科学的问题是你样样通,样样不精。那么,让我们组建一个团队。我当然符合样样不精的条件。所以我……
我不,我不是流行病学家。好的。我不知道。但从我非常狭隘的观点来看,我可以说我认为网络科学使用的模型非常流行。我认为它们被使用并且使用得很好,至少在我看到的国家是这样。
但我认为接触者追踪非常……他们没有做好接触者追踪,我认为一些国家做到了。我认为问题是网络思维。我认为我们在鼓励这种思维。是的,不,我认为……
缺乏网络思维。当你观察接触者追踪时,你会得到列表,一堆又一堆的联系人列表。如果你进行网络思维,你会知道其中大部分是,嗯,我不会说垃圾,对吧?肯定到处都是误报。不,不,不。
假设人们说他们是真正的联系人,但我的意思是他们中的大多数,垃圾不是这个词,他们在长尾上。他们对网络并不重要。他们是最不重要的网络节点,大多数都是。我怎么知道?因为网络就是这样。大多数联系人对网络并不重要。
他们不会影响网络。让我们以我为例。当大流行来临时,我很容易过渡到远程工作。我关闭了数据怀疑论者办公室。每个人都远程办公。我从未感染过新冠病毒,而且我隔离了
你知道,几乎完美地度过了最糟糕的时期,因为我有能力做到这一点,对吧?我的工作等等等等都是可能的。所以我在长尾上,对吧?因为我没有对网络做出任何贡献。你喜欢图论和统计学。所以不,不,不。你知道,我在这里看到一个模式,对吧?隔离。
但是,例如送餐员呢?我们如何设想他们在网络中的位置?我们如何设想?对不起,我可能使用了当地的说法。送餐员。啊,DoorDash。DoorDash。我没有听到。你正在寻找的是超级传播者,网络中潜在的超级传播者。我们肯定知道的是,他们只有少数几个。少数几个可以,你知道,当你观察整个州时,它……
并不算少,但仍然,你寻找的是,让我们称之为 1%,而不是其他 99%。你需要做的不是以先进先出(FIFO)的方式处理所有列表,对吧?你需要寻找度数最高的人,然后照顾他们及其联系人。
我认为这条信息没有达到目标。我认为人们没有理解它。我认为我们在论文中看到了它,对吧?我看到一些文章说,10% 的人对新冠病毒的 90% 病例负责。
人们听到这个消息感到震惊,但与网络一起工作的人对此了如指掌。我认为它没有渗透到负责人的脑海中。我认为这是我下次大流行病中想要改变的主要事情。
雨天雨天是的,雨来了,我在课堂上用到的一个例子是一个品牌的公司品牌,试图观察福特品牌,特别是 F-150 EV,有很多关于福特品牌和 F-150 的帖子等等,你会得到很多帖子,但是
但并非所有帖子都相关,对吧?你需要找到相关的帖子。我们正在寻找的是,比如说,可能的影响,你知道,如果有很多噪音,我们该如何处理,对吧?所以数据科学家首先要做的事情,对吧,就是清理数据,对吧?寻找不相关的文本,寻找情绪等等。但你不需要用网络来做,对吧?因为网络可以……
自己找到信号。网络所做的是所有不相关的帖子都不会与其他帖子位于同一个集群中。我们知道网络的特点是,当我们打开一个网络时,我们会看到一个巨大的连通分量和许多小的连通分量,它们没有
连接到主分量,当然,使它们不相关,对吧?因为它们非常小,在网络本身并不重要。所以我们观察巨大的连通分量,如果它在那里,它就是相关的。
网络科学使我们能够做到这一点,因为我们知道网络是由社区构建的,我们可以找到我们感兴趣的社区。所以在福特汽车的例子中,整个巨大的连通分量都是相关的。所以我们可以说它之外的东西,
无关紧要。但有时我们需要更具体。我们想要一个社区,也许可以通过地理位置或对我们产品的特定兴趣来定义。网络本身帮助我们消除噪音。
我认为接触者追踪也是如此,对吧?我们将有一个巨大的连通分量,我想它不会那么巨大,因为我们无法追踪人们,正如你所说,使用 GPS 等等。但它将是网络上最大的连通分量。
我们需要寻找度数最高的人,他们有很多联系人,影响着网络的其余部分。我正在简化它。它不一定是高阶节点。
保持简单。寻找这个网络中的中心人物,那就是你的信号。那些是最有助于传播的人吗?这是正确的解释吗?是的。根据你掌握的信息。
拥有某些信息总比没有信息好。嗯,一些真实的信息,这取决于。你提到这一点很有趣,因为当我谈到社交网络,特别是当你积极构建网络时,例如在组织网络分析的情况下,有时你通过询问人们来构建网络,你每天会见谁等等。
你会向谁寻求建议?人们会说,嗯,人们可能会撒谎。即使是撒谎并说他们认识很多人并且很受欢迎的人等等。
网络可以很容易地检测到它,对吧?你不需要走得太远,对吧?PageRank 的整个想法,甚至入度,入度中心性,对吧?它可以说只是看看有多少边指向你。你知道,你无法改变它。你不能撒谎。网络将你置于正确的上下文中。正如我所说,上下文是一个非常强大的词,因为……
网络科学是关于……网络是关于上下文的。让我们把说谎者从池子里赶出去,然后只谈论……
假阴性。所以也许真正的超级传播者是凯尔,那个不戴口罩的收银员,你知道,所有这些事情。当你问那些那天碰巧在那家商店购物的人,我,收银员咳嗽在他们身上,他们不会报告收银员,因为那不在他们的姓名列表中。他们列出了他们的朋友、同事以及他们看到的所谓重要人物。如果那个不重要的人是传播者怎么办?再说一次,
我不是流行病学家,好吗,但你给出的例子很有趣,因为我不知道你是否能从我们这里得到它,你知道,只是一次短暂的相遇,对吧,你需要花一些时间
我想,但尽管如此,好的,所以你可能会错过某人。你可能,这并非可能,你肯定不会拥有整个联系网络。这是既定的。但是如果你在网络上按下足够的按钮,抑制这个网络中足够的中心节点,
我认为你会有更好的机会,你知道,你无法完全阻止疾病,对吧?但你可以减轻它。你可以尝试减缓它的速度。我认为这就是我们的目标,对吧?有趣的是,至少在我的国家,组织一直在进行接触者追踪,但他们没有有效地进行。他们做了,
但他们做了,你知道,也许他们没有有效地做,但他们没有有效地做。人们确实进行了接触者追踪。我感染了新冠病毒,他们问我接触了谁等等。如果你这样做,请正确地做,有效地做。那么,让我回到很久以前我应该提出的问题,关于这门课程。这门课程的名称是什么?是否有编号,它在哪里教授?是的。
这门课程叫做复杂网络,原因是他们忘记更改标题了。它原本是什么?我会把它叫做用网络讲故事。好的。
因为我认为网络是讲述数据故事的好方法。我认为当你拥有数据时,你实际上想做的是讲述一个故事,对吧?因为假设你是一名分析师,你有很多数据,你试图从中获得见解。更重要的是,你想将这些见解传递给能够利用它的人,对吧?使其可行,对吧?
你通过讲述关于它的故事来做到这一点。如果你不能讲述一个故事,如果你只是向某人扔很多数据,并说,嗯,很明显你需要做什么。对他们来说可能并不那么明显,你需要以某种方式传递它。我认为网络是一个很好的方法。这是我选择的名称。
我认为他们不会证明这一点,但尽管如此,这是一个工程系,对吧?像你这样的人比像我这样的人多。先修课程是什么?学生需要具备哪些条件才能学习这门课程?
这是一个很好的问题,因为至少在我看来,没有先修课程。他们又设置了一些,因为他们忘记更改了。但是如果你有学习新事物的热情,你很受欢迎。那就是我。所以我一直在使用 Python 的 NetworkX 库,我非常喜欢它,因为它适用于内存中容纳的小数据。它非常好。
学生需要哪些工具才能成功完成这门课程?好的,如你所知,我相信无代码政策。好的。好的,因为我认为这就像电影《料理鼠王》一样。我认为每个人都会做饭。就像那只老鼠说的,每个人都会做饭。我认为每个人都应该能够分析网络,但并非每个人都会编码。
所以我们使用 Gephi,这是一个用于分析网络的软件。它不是最简单的软件,但它是一个强大的工具。要进行深入研究,你需要……是的,它是一个非常强大的工具。NetworkX 很好。我认为 99% 的分析网络的人,我想,都在使用它。而且……
我说,你知道吗,也许是 90%,因为其他人正在为 R 使用 iGraph。我不熟悉 iGraph。你说它是一个 R 包?是的。哦,酷。可能与 NetworkX 有些相似。也许以典型的 R 风格,库中可能内置了更好的可视化功能。
但我认为这是网络分析中最常见的库。好的资源。对于没有编程技能的学生来说,学习曲线如何?我想对他们来说是 Giphy。很难说,因为这是我的第一门课程。好的,我会让你知道的。
我会让你知道的。非常酷。最后,如果你要总结成一段话,学生会掌握哪些技能?
如果他或她是一个好学生,我希望学生能够构建网络并对其进行分析并得出见解,并使用 Gephi 来做到这一点。但更重要的是,我无法量化它,但我希望他们能够进行网络思维。这是网络中很多人所说的话。
这很难解释,但我希望在我们最后几分钟的谈话中,我希望人们能够理解网络思维是什么意思。好主意,是的。
嗯,我没有谈到本季我们尚未涵盖或已经涵盖的内容列表。我有一些想听听你对它们的反应。我认为首先,也许我们已经某种程度上涵盖了它,但本可以对图形神经网络做更多的事情。似乎,我不知道我是否应该称之为新兴领域,但机器学习社区有很多出版物正在处理用于链接预测或节点分类或这些典型 GNN 问题的图形神经网络。
问题是,至少在我看来,我发现它们非常理论化,这对这个节目来说也很棒,但没有很多实际用例,如果我们有的话,我总是更喜欢处理它们。所以我想我必须继续关注图形神经网络在未来的发展。
机器学习当然是其中的一部分。但同样,在图论的情况下,网络是一种工具,而不是手段,也不是目的。机器学习使用网络特征,因为网络的妙处在于你不需要更多数据。你可以使用相同的数据,并使用网络在其中找到更多维度,对吧?这就是机器学习正在寻找的。
凯尔就他正在教授的新网络科学课程向阿萨夫提问。谈话深入到接触者追踪、网络分析工具、用例示例以及网络思维的重要性等主题。</context> <raw_text>0 所以它非常酷。但同样,从我的角度来看,它更多的是机器学习,而不是网络洞察。我们没有涉及到的其他几个方面。交通网络,我找不到太多令人兴奋的研究。拓扑结构,因为我不确定我是否知道如何查询。然后是伦理问题,因为很多网络包含大量个人身份信息,这里应该有一些相关的伦理问题,但我没有找到合适的人来采访。
很多伦理学家,但我找不到关于图和伦理方面的资料。你知道,我认为我的一位朋友是第一个预测在人工智能出现之前,伦理问题,关于人工智能伦理的讨论将会出现的人。我最后一个问题是我们真的没有讨论网络和NP完全问题之间的关系。
很多图论问题是NP完全问题,这很有趣。我的意思是,一旦有一个是NP完全问题,很多都是NP完全问题,这是很合理的。这就是NP完全问题的本质。但事实上,它们都带来了独特的计算挑战,无法有效地解决或解答,这很有意思,特别是当我们将这一点与你关于随机图的观点结合起来时——
没那么有趣。你知道,真实的图具有网络科学的所有这些特性。那么,我们能否……
应用图论,并仅从人们会发现有趣的那些图的角度来看NP完全问题。虽然我不知道你如何定义“有趣”。随机网络非常重要,因为它有助于我们,我们用它来与现实世界的网络进行比较。这就是我所说的“有趣的网络”。但有趣的是,你知道,当你提到NP完全问题时,网络科学中的一些问题
其中一些是模糊的。一个主要的发现,对吧?电力负荷分布。当人们开始认真研究它时,他们发现它并不那么准确,对吧?实际上,并非所有网络,大多数网络都不是电力负荷分布的。它们可能是长尾分布的。这就是我使用长尾的原因。但它们并非完全是电力负荷或无标度网络。还有社区……
当我提到社区时,我的意思是集群。什么是集群?你如何定义集群?好吧,当你有一个团伙或一个完全图,其中每个节点都连接在一起时,它当然是一个社区或一个集群。
大多数社区都不是团伙或集群。那么你如何定义它呢?所以有一个宽松的定义,即社区是一个集群,其中内部的边比外部的边多。但这是否是一个科学的定义?我不知道。它有点模糊。
好吧,它很健壮,我们可以更数学化地表达它。我们可以说,根据你的算法或你的定义,它必须是30%或减去60%。你知道,我们可以做一个概括性的陈述,它包含所有可能的社区构建的领域。
是的,正因为如此,有数百种社区检测算法,对吧?因为这个定义。而且,你知道,当你涉及阈值时,这就是我说,你知道,它,是的,就是这样。所以我认为网络科学还有很长的路要走,还有很长的路要走。我们没有谈论动态网络,对吧?因为大多数网络是动态的,而且大多数
我们谈论的大多数网络都是静态的,我们查看的是网络在时间上的快照,但我们没有讨论它们是如何演变的,以及这意味着什么,比如互联网,不断有新页面出现,链接被添加,链接失效,等等。
所有社交网络都是动态的。动态网络中有哪些有趣的问题?谁在研究它们?网络科学中的每个人都在研究它们,因为它们是,用安巴尔·阿巴希的话来说,最后的疆域。好吧,我认为神经科学是最后的疆域。我说的是转述。好的。
我和巴拉巴西站在一起。你不能……哦,明白了。是的,我不会在那里把你推下车。是的,就是这样。想想交通或网络。好吧,让我们看看。你认为我们还应该涵盖哪些内容?我认为我们已经讨论了很多内容了。是的,我认为我们现在应该停止,以免我的房子倒塌。是的,感谢你抽出时间,祝你好运,祝你度过这场风暴。