让你的工作团队完全互联还是稀疏连接更好?在本期节目中,我们将与我们的嘉宾广岛大学杰出教授兼宾汉姆顿大学复杂系统中心主任Hiroki Sayama一起尝试回答这个问题以及更多问题。Hiroki 通过展示他最近从组织结构图中提取网络结构以深入了解决策和绩效的工作,深入探讨了网络科学在组织结构和创新动态中的应用,他还将介绍网络连接如何影响团队创造力和创新。主要见解包括组织网络的结构——例如层级的深度或与领导层的接近程度——如何影响公司绩效,以及稀疏网络连接如何比完全连接的网络培养更多样化和创新的想法。</context> <raw_text>0 您正在收听 Data Skeptic,图与网络,这是一个探索图数据结构如何影响科学、工业以及其他领域的播客。欢迎收听 Data Skeptic,图与网络的另一期节目。今天,我们将深入探讨一个主题,这个主题将会反复出现,那就是组织网络图。我们今天的嘉宾做了一些非常巧妙的事情,不需要使用神经网络,就能从 PDF 文件中提取这些复杂的图表并对其进行分析。
Asaf,你是否觉得组织网络分析这个主题更符合你的兴趣?这实际上是我的最爱。我最喜欢的网络是组织网络。
你知道,坦白说,我不喜欢组织。这就是为什么我不在组织工作的原因。但是我能说什么呢?我喜欢它们的网络。大多数时候,我认为它是一棵树,它是自上而下的。你知道,很多人向 CEO 汇报工作,而 CEO 就像我的祖父或曾祖父之类的在公司树中。是什么让它成为一个网络?
实际上,这很有趣,这就是 Hiroki 研究的,组织结构图或组织图。但是这些图表是想象中的网络。它不是一个现实世界的网络。它不必遵循我们在本季讨论过的网络规则,因为它不是一个现实世界的网络。它看起来像一棵树。但问题是,这张图表也没有告诉你组织是如何运作的,或者是谁在做决定。在组织中,每个人都会做决定,对吧?
有时当你让我在播客中简短回答时,我可以决定不这样做,对吧?你可能会把它剪掉,但会删掉我所有聪明的评论。通常只有大约一半。
而且你很慷慨,但这可能是我愿意付出的代价。关于组织图的另一件事是,它们没有告诉你实际发生的事情,例如,谁是实际的影响者,无论是正式的还是非正式的影响者等等。另一方面,对正式或非正式网络的网络分析可以帮助你找到这些影响者。
组织结构图直接地,它们只告诉你一件事,谁向谁汇报。它们没有涵盖那些跨职能的成就。大多数优秀的数据分析师会在其他部门、其他小组中找到关系,因为他们可以访问数据并知道如何查询数据,他们可以非常有用,如果他们知道如何打好牌,他们可以在任何地方交朋友。
而你典型的组织结构图并没有捕捉到这一点。没错,因为在组织结构图中,你看到的只是孤岛。没有人与任何人交谈。但是你可以从它们中推断出的是,绘制它们的人的看法是什么?他们对组织的看法是什么?
例如,Hiroki 给出了一个很好的例子,它使用了网络指标,例如该网络的直径,或者换句话说,高层管理人员与最低层员工的距离,这是绘制该组织组织结构图的人对组织的看法,当然,在现实组织中,每个组织都可以表示为一个现实世界的网络
真正的直径我想会短得多,因为存在小世界效应,我相信我们会在语义网络剧集中讨论这一点。所以 Hiroki 和同事们做了一个很酷的项目。
我一直觉得 PDF 中有很多很好的信息被锁住了,尽管现在获取这些信息的工具已经有了。是的,你知道,坦白说,在节目开始之前,我从……我下载了一个组织结构图,并将其提供给 ChatGPT,它为我制作了一个非常酷的边列表,我不得不说。哇,还不错。那么让我们直接进入采访吧。我的名字是 Hiroki Isayama。
我是纽约州立大学宾汉姆顿大学系统科学与工业工程学院的杰出教授。你能分享一些关于你在那里的角色的细节吗?我扮演着多个角色。我是一名教员,也是一个名为 COCO(C-O-C-O)的研究中心的主任,宾汉姆顿复杂系统中心,自 2007 年左右以来一直在运行。
非正式地。所以这是一个非常久负盛名的研究中心和复杂系统网络科学。我现在也承担更多行政职务。我现在还担任托马斯·J·沃森工程与应用科学学院研究生学习执行助理院长。所以戴着多顶帽子。
我第一次了解你的工作是通过我们今天要讨论的论文《使用启发式图像处理从公司组织结构图中提取网络结构》。所以有很多后续问题,但在我们深入探讨之前,你能分享一些关于这如何融入你的研究和整体学术道路的细节吗?这像是一个重点,还是一个次要的兴趣?这恰好是我的一个副项目,可以这么说。
所以,你知道,我自己作为一个计算机科学家,正在转变为更像一个跨学科的科学家,从事复杂系统网络科学。而且我知道这个节目是关于网络的。从这个意义上说,你提到的论文与网络科学有关。但是最初的想法实际上来自我在日本的合作者。所以我不会说这是我的主要研究重点。但是我的经验,过去的经验总是告诉我
你的主要兴趣永远不会流行起来。总是在项目内部,你与某人一起做了一些事情来吸引人们的注意。这是另一个这样的例子。你能为那些还没有读过这篇论文的听众分享一些细节吗?这个项目的总体目标是什么?这个项目的总体目标是提出一个自动化流程来转换传统的组织结构图。
也许你可以想象,在顶部,有一个 CEO 或董事会等等,你还有几个部门、分支机构等等。通常情况下,它是一个树状结构。有时,网络化程度更高一些。但是这种组织结构图已经存在了几百年了。人们实际上绘制了
发布在某个地方的图表,一个网站或一本书中。我的合作者山野淳一博士,他是日本东京早稻田大学的教授。他研究组织绩效。很多年前的一天,我们讨论说,“好吧,有没有办法从那种当时没有人真正关心过的组织结构图中提取更多定量信息?”所以它们存在,但实际上没有人试图量化
或将其建模为数学图。原因之一是这些图表只是发表在论文中,或者可能嵌入公司网站作为图像,位图图像。据我们所知,绝对没有计算机可读的图形数据库能够捕获许多不同组织的组织结构图。
这就是动力。幸运的是,当时,我不记得我们什么时候开始这个项目了。很久很久以前了。我的合作者淳一出版了一本书,全部都是 PDF 文档。这是来自某个组织结构图简报的日语版本。太好了。它是一个计算机可读的 PDF,你查找它,它只是一个图表,位图图像。
所以即使它是计算机可读的(因为它是一个 PDF 文件),没有什么东西可以直接用于更定量的研究。这就是我们所做的。我们实际上设计的东西甚至不是 AI。这是一个花哨的、你知道的、硬编码的启发式算法,它实际上会扫描 PDF 文件,一步一步地提取组织图表以构建图形对象。
我见过很多这样的组织结构图,我认为没有两个看起来是一样的。每个人似乎都在重新发明轮子来制作它的风格。考虑到你会发现各种各样的组织结构图,你如何构建一种优雅的方法?是的,简单的答案是,我们没有。
是的,我们总是假设图表的标准版本总是由包含每个部门或部分标签的长方形框组成,这些框由线段连接。我们在使用的该系列书籍中发表的大多数图表
它们使用相同的样式。所以我们利用了这种规律性模式,但总是有例外。在这种情况下,大约 30%、35% 的图表更具创意,我们实际上无法适应,因为人们实际上使用了非常疯狂的创造性方式来展示该组织结构图。
不幸的是,我们的算法无法处理这些。但是大多数图表都遵循非常简单、严格的线结构。所以我们实际上编写了代码来从图像中提取这种信息。
对于那些符合我们习惯看到的更标准格式并且没有走得太远的东西,你能谈谈一些……我想,ETL 过程吗?你如何将原始位图数据转换为更有用的数据结构?是的,这是一个非常、非常混乱、丑陋的过程。
因为现在,在 2025 年,人们会说,哦,你只需要使用卷积神经网络或其他什么,深度神经网络,机器学习 AI,它就能做到。我对此表示怀疑,因为为了构建这种自动化的 AI 流程,你需要拥有大量的训练数据集,对吧?这是一张图片。这是正确的答案。
我们面临的问题是,一开始根本就没有正确的答案。因此,我们必须从一开始就考虑一切作为逻辑基础
好的,如果你看一下图表,我们如何识别哪个部分是标签?好吧,我们寻找矩形,然后从该框的内部提取文本。这些逻辑过程正是我们在代码中编写的。所以基本上这个过程是这样的。首先,你识别文本标签的位置,从图像中删除所有文本。
然后你只有线框图。有些线实际上不是实线,是虚线。你需要进行一些处理才能将这些虚线连接到实线等等。所有细节。如果你感兴趣,请阅读论文。这是一篇混乱、丑陋的论文。
然后你从上到下,从左到右扫描,识别所有水平、垂直线段。你可以识别顶点、点、边、线的位置,然后你可以从中构建所有拓扑结构。基本上就是这样。
这是一个非常、非常丑陋的,没有什么花哨的先进的东西。你有没有任何可以用来比较以评估输出质量的真实情况的概念?是的,是的。所以,当然,我们对一些图表进行了采样,然后查看原始图表。我们正在使用我们的
眼球,对吧?然后确保至少对于那些采样的例子来说,结果与我们使用纸和笔构建的结果非常匹配。这些都是非常人工密集型的验证。显然,我们无法对整个数据集执行此操作,因为有数千个这样的图表。所以我们只抽取了一小部分,并确保它不会太疯狂。
然后我们相信其余的。我相信算法犯了很多错误,但有时数量优先于质量。你有什么方法来衡量它吗?我不知道准确性是否是正确的指标,但你是否有一些数学度量?是的,在这种情况下,我们只使用非常粗略的测量。它实际上只是一个数据采集成功率。
我认为我们最初的数据集中有 10,000 到 11,000 张原始图像。有多少图像成功完成了整个图像图表采集过程?
如果我没记错的话,我们达到了 46%,这令人惊讶地高,因为我们没有使用任何 AI 或机器学习之类的东西。一切都是基于逻辑步骤。然而,我们能够为所有原始图像中的 46% 生成图形对象。然后你可以想象所有这些图表都是怪物的动物园。有这么多不同的风格。
你知道,疯狂的图表。然后我们认为从图表中获得了 46% 的图表。这是一个巨大的成功,因为我们没有使用任何花哨的 AI。或者在 GPU 上花费数千美元进行训练。是的,不可能。我们不会那样做。这是非常可持续的计算机科学。你知道,我们只使用了几个人脑和一台笔记本电脑。就是这样。
虽然我最近一直在大量使用 Python Network X 库,我知道你用过一些,你能特别强调它对该过程有何帮助吗?
这个项目使用了许多库。NetworkX 当然是关键组件之一,但我们使用了许多其他包,例如 PDF 到图像。对不起,我忘了所有细节。我们使用了几个不同的包来进行图像分析。Python NetworkX 包用于构建图形对象。
它是一个非常有用、用途广泛的 Python 库。它是一个非常灵活、非常透明的网络建模库,因此你可以将许多不同类型的信息存储到单个图形对象中。这就是我喜欢使用它的原因。它绝对不是最快的。
它很慢,但它给了你很大的灵活性。所以这个项目有很多新颖之处,只是让这个过程运行起来并完成工作。我很好奇这只是一个演示和一个项目,还是你对这方面的后续步骤有更大的愿望?
我的部分只是设计这种工具,作为一名计算机科学家,我已经完成了。但是我的合作者淳一当然有科学动机。他想使用这种定量数据。具体来说,它是来自每个组织的图形对象。
他的雄心壮志,我们实际上已经在进行这项工作,并且我们正在完成论文,是为了找到组织结构与公司绩效之间的任何相关性。
每个公司做得有多好,有多糟糕。幸运的是,这些数据实际上是历史数据。我相信这是来自 2008 年到 2011 年、12 年,十多年前的数据。所以我们已经知道每个公司在那段时间内的表现如何。
因此,就股票价格和每个公司的报告业绩、财务业绩而言。这是一种非常间接的预测公司业绩的方法,但组织结构中一定有一些东西会告诉你组织的决策效率如何。这就是我们最初的研究想法。我想起了……
与杰夫·贝佐斯相关的理念,我一直觉得这是非常正确的。他的“两个披萨”规则,即团队规模不应超过两个披萨所能喂饱的规模。我想知道你是否对这个想法有任何解释,以及它是否可能出现在这项工作中。这可能不适用于我们在这里研究的许多公司,因为有些公司非常庞大。
但是我们在该分析中测试的类似想法包括距离,例如披萨递送距离。你应该有一个组织,你可以递送披萨而不会变冷,例如。如果我们要使用披萨,那可能是一个间接的类比。然后这可以通过树状结构的深度来捕捉。让我们想象一下,中间有一个 CEO。
CEO 可以向上、向下连接,但是组织从 CEO 可以走多深?你可以用多种方式来描述这一点。最简单的方法是计算每个部门到 CEO 的平均距离。你需要走多少步。另一个指标是网络的聚类程度。例如,存在多少个三角形?
这是一个非常流行的网络测量方法,它可能与这项研究相关,也可能不相关,因为大多数图表只是树。树没有任何三角形,但我们仍然测量聚类系数。所以我们认为还有其他一些测量方法在考虑绩效时会有见地。事实证明,与 CEO 的距离实际上对公司财务成功的绩效具有统计学意义的影响。
我忘了淳一知道数据的方式,我们已经有统计表了,我只是忘记了。是正数还是负数?我需要回顾一下。直觉上,我希望它是一条通往 CEO 的短路径,这意味着即使是最基础的员工,如果他们有真正好的见解,也可以通过某种途径到达顶端。
我认为是这样。虽然我现在想起来了,是的。一般来说,越短越好,因为这实际上可以让你更快地进行信息流动和更快的决策。但我认为现在想起来了,它也与公司的规模有关联项。如果公司太大,距离很短意味着 CEO 负担过重。
因为它会变得非常扁平,太宽了。所以我认为公司规模和有效战略之间存在权衡。组织应该采用多深或多浅的结构。我需要检查最新的统计数据,但这是我目前记得的。
我可以看到,这在某种程度上可以追溯到你对复杂系统的研究,这些非常动态的大规模图,它的最佳结构特征是什么?是的,是的,没错。是的。你刚才还提到在网络科学方面做了一些其他的工作。你能分享一些你探索的其他地方的细节吗?
除此之外,组织结构图研究,我们还与管理科学家在同类型研究中开展了很多合作。近 20 年来,我一直与宾汉姆顿大学商学院的教师合作。然后我们在名为 NPJ Complexity 的期刊上发表了最近的一篇出版物
这是一个自然投资组合期刊,所以著名的自然作为期刊。可惜不是自然,但它是自然家族期刊和 PGA Complexity,本月早些时候刚刚出版。所以我们通过实验研究了团队的绩效
以及 20 个人如何在网络环境中合作并提出新的想法。我们通过实验测试了几种不同的条件。这实际上是人体实验。我们让人们参与在线实验会议,然后让他们完成一些基于文本的创造性任务。我们秘密地改变了网络结构
从高度连接到高度稀疏连接,看看会发生什么。我们改变的其他变量包括人们的相似性。我们通过要求他们写一篇相当长的自我介绍文章来描述他们是谁。
所以这是我,这是我的学术专业,这是我的兴趣,等等。他们写了大约一千个字符的文章。然后我们使用机器学习将这种背景信息转换为数值向量。我现在正在使用机器学习。然后我们可以操纵它。
“我应该把你放在一个与你非常相似的人旁边吗?还是应该把你放在一个与你非常不同的人旁边?”因此,这种局部相似性、社会邻居之间的差异是我们改变的另一个变量。所以这些的组合,然后也许我可以问你一个问题。所以我们首先测试了完全连接的网络,然后测试了非常稀疏连接的网络。你认为哪个表现更好?
如果是二进制的,我必须选择完全连接。是的,每个人都这么说。我们也这么认为。而我们都被证明是错的。是的,事实证明,完全连接的网络产生的
想法多样性要低得多。然后最终结果的整体表现,例如我们测试的任务之一是,是的,请创建一个真正有效的标语来销售这款笔记本电脑。这是一项营销口号创作类型的任务。然后结构非常稀疏的团队实际上产生了更好的想法。更有趣的结果是
如果我们问他们,“你对你们的团队合作有什么看法?你对你们的成就有什么感觉?”参与完全连接网络的人总是说,“是的,我们做得很好。”他们的自我评价要高得多。相反。实际的客观评价恰恰相反。参与非常稀疏网络的人总是抱怨。
这次会议很糟糕。没有人在这里。非常无聊。所以他们抱怨。他们的自我评价非常低,但最终结果却好得多。所以这是我们面临的一个难题。这是一个非常有趣的实验。
绝对的。很容易知道结果并进行猜测。但对我来说,我想知道这是否不是因为需要批评。我们需要负面反馈,就像强化学习一样。在一个小群体中更容易做到这一点,在那里你可能不太担心我会不会冒犯我不太了解的人。
那可能是。或者这里更自然的解释是,如果每个人都与其他人相连,人们可以很快地转向某些他们没有过多探索的想法。“啊,是的,我喜欢那个想法。让我们这样做吧。”你会看到这种群体思维。人们很容易达成一致,因为我们是如此容易相处的人。然后他们停止探索许多不同的方向。但是如果你
感到孤独,并且只有少数其他人一起工作,那么你必须努力。好的,我需要生产。
这会让你承受更大的压力,但总的来说,整个网络实际上会探索更多不同的想法。这就是我们的解释。连接有时会扼杀想法。你认为这项研究是否已经到了人力资源部门应该开始关注并让它影响他们如何发展、培养和管理组织的阶段?
我不知道。所以结果就在那里。这实际上取决于每个读者、消费者如何解读。我可以说,至少,每个人都可以从这种与我们直觉表面上矛盾的结果中学习到很多见解和教训。如今,每个人都说连接更好。让我们与人建立联系。连接是创新的源泉。我也会这么说,但你必须非常小心你将如何连接人们。
因为如果你非常密集地连接人们,那么你实际上是在扼杀创新。我实际上有一篇关于这方面的博客文章,但你可以想象这更像是……
维护岛屿上的生态系统。然后,如果你试图促进生物多样性,那么你就不希望所有动物混在一起,对吧?如果它们混在一起,它会很快变得同质化。你只有一个物种主导整个岛屿。
所以你需要不同的栖息地。它应该是斑块状的。我认为同样的事情也适用于人类的想法生成过程。我们需要在我们的社会生态系统中培育我们自己想法的生物多样性。这是有道理的。我听说过许多商学院的类比,例如硅谷,你拥有所有在同一地方从事类似领域工作的合适人员的密度,这使得……
每个人都能成长,所有船只都能提升的那种事情。是的,这是另一件事。实际上最好将相似的人聚集在一起,让他们走到底。他们可以走非常、非常疯狂的方向。只带来所有五个数学家,没有其他人。让他们去探索,然后他们将深入数学世界。这里有 10 个艺术家、音乐家。
然后你把他们与世隔绝。让他们探索所有音乐方向,这里只有工程师。然后这些同质化的集群也可以被认为是社会泡沫,如果这发生在意见形成世界中,那将是可怕的。这种情况一直都在发生。社交媒体多次聚集在微小的泡沫中。但对于创新和探索想法而言,
这可能并不坏。你可以把志同道合的人放在不同的集群中,然后让他们探索许多不同的方向。一旦这个过程完成,你可以将结果带回中心讨论场所。这比从一开始就让每个人互相交谈要好。
我认为这是一个很好的收获。违反直觉,但很有见地。我看到许多项目都是从头脑风暴开始的。这有点像,“是的,让我们举行头脑风暴会议。”它可能是 Zoom,每个人都来到同一个地方。这项实验研究告诉你,这是一个糟糕的主意。
因为你已经扼杀了许多本来可能出现的潜在想法,如果你至少先让人们独自工作的话。Hiroki,人们可以在网上关注你吗?我在所有社交媒体上都有账号。所以你可以在 Instagram 上搜索我的名字 Hiroki Sayama。
x/Twitter 或 Blue Sky、LinkedIn、Facebook。还有什么?Mastodon。现在很少有人使用 Mastodon,但我仍然在那里。Instagram。还有什么?Threads。但我们会将所有这些链接放在节目说明中,供想要跟进的听众使用。我不使用 TikTok,所以我对目前的情况很满意。
是的,我认为至少在不久的将来没有人会使用。是的,是的,是的。看看情况如何。是的,我很活跃。是的,请关注我。是的。非常感谢你抽出时间来分享你的工作。非常感谢你。我很荣幸。谢谢。