We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode GraphBI: Expanding Analytics to All Data Through the Combination of GenAI, Graph, & Visual Analytics // Paco Nathan & Weidong Yang // #310

GraphBI: Expanding Analytics to All Data Through the Combination of GenAI, Graph, & Visual Analytics // Paco Nathan & Weidong Yang // #310

2025/4/29
logo of podcast MLOps.community

MLOps.community

AI Deep Dive Transcript
People
D
Demetrios
P
Paco Nathan
W
Weidong Yang
Topics
Paco Nathan: 我认为自然语言的递归性是LLM能够捕捉到的一个细微之处,这在书面语言中很常见,但我们往往将其视为线性的。实际上,句子内部的引用构成了一个图,LLM能够识别这种自指性。 在与YHAW的Tom Smoker的讨论中,我们了解到他们如何利用本体论和模式递归地追溯信息。我非常欣赏Weidong Yang他们放松前期约束,然后让上下文传播的方法。东西方哲学的差异影响了我们对数据管理的看法,图和AI的结合可以将这两种方法结合起来。 在数据管理方面,我们有很长的历史是从西方角度出发,例如数据仓库,它侧重于事实,而忽略了上下文。然而,在处理新闻报道等数据时,我们事先并不知道领域是什么,因此放松这个约束可以让我们构建一个关系图。 图可以收集越来越多的抽象概念,低层次的连接有助于理解整体,高层次的则可以用于推理或组织其他数据。在金融调查中,图思维是一个四步过程:构建图,划分图,利用图算法,以及将其纳入工作流程。 图可以帮助我们识别未知因素,并通过可视化来探索数据。图的结构可以帮助我们发现数据质量问题,例如重复的社会安全号码。在处理安全问题时,我们可以通过可视化创建不同的访问控制。 图和表是同一枚硬币的两面,图本质上是一个巨大的稀疏矩阵。AI能够处理非结构化数据,并将其转换为计算机可以访问的结构化形式,而这种形式就是图。 在早期的AI中,A*和B*等算法以及规划系统都是用图来表达的。图思维的出现,可以帮助我们处理数据,并结合人类和AI技术。 图的可视化不是最终目标,而是将数据从捕获形式转换为呈现形式的工具。我们需要一个逐步的流程来转换数据,并支持大规模图数据的处理。 跨领域数据分析需要考虑领域差异,并找到跨领域的方法。 Weidong Yang: 我认为LLM改变了我们处理信息的方式,它更像人类一样理解信息,而不是像过去那样精确的机器。为了让LLM更好地工作,数据结构应该尽可能保留上下文信息和细微差别。 即使对文档进行匿名化处理,文档的结构本身也可能泄露敏感信息。本体论很重要,但需要明确其边界,并将其限制在特定领域内。 在探索性分析过程中,提出正确的问题至关重要,而图可以帮助我们发现需要提出的问题。图是一种极好的可视化媒介,可以帮助我们发现数据中的模式和缺失的联系。 图作为信息捕获媒介和图作为思维媒介是两件不同的事情。图数据比表格数据更灵活,更易于捕获信息并发现数据质量问题。 在处理大型图数据时,需要进行简化和抽象。我们可以通过不同层次的抽象和特定领域的细化来处理大型图数据。 图数据的访问控制应该在数据管理层实现。AI的发展推动了图数据处理技术的应用。 图的可视化不是最终目标,其目的是支持分析。我们需要一个逐步的流程来转换数据,并支持大规模图数据的处理。跨领域数据分析需要考虑领域差异,并找到跨领域的方法。 Demetrios: 我对Paco和Weidong关于数据匿名化方法的解释不太理解,希望他们能重新解释。我对他们关于如何更好地利用图作为工具的讨论印象深刻。在金融犯罪调查中,图思维是一个四步过程:构建图,划分图,利用图算法,以及将其纳入工作流程。图可以帮助我们识别未知因素,并通过可视化来探索数据。

Deep Dive

Shownotes Transcript

我是魏,我的全名其实是魏东杨,但魏更容易发音。我是Kinabiz的首席执行官,这是一家数据分析公司,一家可视化数据分析公司。我喜欢咖啡。我认为文明始于咖啡的发明。所以我必须喝咖啡。我会在咖啡里加牛奶,因为黑咖啡对我来说有点太浓了。

欢迎回到MLOps社区播客。今天,我们很幸运地邀请到了两位图形专家,他们在这个领域工作了很长时间。我受到了教育。我觉得我学到了很多关于如何使用图形作为工具以及我们如何更好地利用它们的方法。让我们开始与Paco和魏的谈话吧。像往常一样,我是你的主持人Demetrios。你知道什么会有很大的帮助吗?如果你能点击……

一个小小的评论,无论你在什么设备上收听,这对我来说都意义重大,让我们开始吧,哦,是的,如果你是一个在播客播放器上收听的人,我有一个音乐推荐给你,这要感谢其中一位……

我们是Maze的One by。慢慢听。我们正在讨论PII和使用……

不同的方法来匿名化数据,对吧?Paco,你说了些我不太明白的话。然后魏,你又说了些我不太明白的话。所以也许我们可以重新讨论一下,让我第二次就能理解。

太棒了。好吧,我想问问你们是否遇到过,我关注的另一个播客叫做《暗黑金钱档案》。它讲述的是,你知道,一些在银行工作过的顾问,他们了解很多金融犯罪和调查的内幕。所以我只是想先说一下,因为他们最近有一系列很棒的节目。如果你听说过SAR这个东西,它是可疑活动报告。

法律因银行所在的国家而异,非常奇怪。但是基本上,如果你在银行看到一些可疑活动,比如有资金转移,而对方是一个已知的恐怖组织或其他什么东西,你看到一些奇怪的事情发生。首先,你有义务向刑事调查部门报告犯罪。如果你看到可疑的事情而不报告,那就是犯罪。是的,如果你看到可疑的事情,你必须……

不是义务,而是责任,要向上级汇报,以便其他金融机构可以共享信息。但如果你发送的信息太多,你可能会被起诉。

然后,所以有这些报告,平均每个报告的处理成本约为5万美元。所以你不想生成太多这样的报告。而像机器学习模型每天可以生成数千份报告,这将相当于数千万美元的责任。所以整个领域的问题是,我该怎么办?我受到了攻击。我该怎么办?因为,我的意思是,这些人也在拿钱,在某些情况下,作为一家银行,你可能不得不赔偿他们。

如果存在某种诈骗。所以你可能会损失金钱,并面临来自三个方面的法律威胁。与此同时,存在一个叫做SAR的东西。而且,我实际上因为询问我应该与什么东西集成而被训斥过。我说,我能看看方案是什么吗?不,你不允许。不,这太机密了。所以就像,

关于如何处理,一旦你有了金融犯罪的证据,甚至只是怀疑,你实际上该怎么做?接下来的步骤是什么,真是乱七八糟。我认为,魏东,你可能在某些领域也有更多这方面的经验,所以。

我有一些类似的经历,甚至不允许查看模式,因为模式实际上可能会泄露一些秘密,或者某些活动可能会使某些方承担责任。这可能非常棘手。所以它基本上泄露了信息,如果你查看它,因为你知道模式,你可以猜测其他一些人的……

这幅拼图的一部分,并获得人们不想公开的信息?银行使用来自提供商的大量数据。可能还有其他情况,数据来自公共部门机构、犯罪调查。可能还有情报报告。因此,模式的某些部分可能高度敏感,只有某些人才能看到。但你说的是……

使用图形和匿名化PII,你仍然能够收集见解,对吧?是的,这很酷。我们刚刚在一个演讲中,来自Nice Actomizer的Brad Corey展示了他们准备如何进行RAG,他们使用的是,我认为,Bedrock。

他们知道他们手里有一个烫手山芋。他们知道他们有很多客户PII,根本不能泄露到银行外面。所以他们所做的是用他们动态生成的唯一标识符、令牌来替换PII。

然后在他们通过LLM运行并做出总结之后,他们会将令牌替换成他们内部拥有的高度机密材料。所以这是一种能够使用某种外部AI资源,但仍然能够管理大量数据隐私的方法。这很酷。

是的,我见过这种情况,我们这里有来自Tonic AI的人,他们谈到他们将如何使用基本上相同的信息,但会进行交换。所以如果它是某人的姓名,他们只会更改姓名。所以它从Paco变成了John。

如果它是社会安全号码,他们会交换社会安全号码,并完全随机化号码。但它仍然是一个社会安全号码。所以你最终得到了几乎像双盲一样的东西。所以即使你是查看信息的数据科学家,你也可以理解它。但你不知道它是否是会泄露PII的真实信息。有趣。是的。

有趣,是的。尽管我确实看到过这种情况,即使是文档本身的结构,也会泄露信息,泄露你不想让人知道的信息。就像在调查领域,你经常不希望被调查的人知道正在被调查。但当然,信息,甚至结构,如果你泄露了文档的结构,也会成为问题。

所以在某些时候,我觉得内部本地LLM可能是必要的,特别是关于M3 Ultra工作室及其500GB内存可以以每秒20个令牌的速度运行大型语言模型的最新消息。这可能会……

是的,这是一个有趣的解决方案。是的,我的意思是,对于我们的最终用例,你知道,大约60%是隔离的。所以,你知道,最大的部分,将会有很多公共部门机构在skiffs中运行。所以他们不能进行任何数据输出,是的。

而且在本地硬件上运行非常有趣的LLM的好消息很多。有很多非常好的消息。我要向Useful Sensors的朋友们,Pete Worden和他的公司致敬。我会把它放在聊天中。你可以用硬件做很多事情,用本地硬件。是的。他们在做什么?Useful Sensors。所以Pete Worden……

和Mentoreth Kudler,他们是谷歌TensorFlow团队的成员。我认为,大约八年时间里,他们在谷歌内部推广了在产品中使用深度学习,比如内部使用。

然后他们离开了,这个团队现在在山景城成立了一家创业公司。他们展示的是,嘿,这里有价值50美元的硬件。这里有一个ARM芯片,上面有一个神经网络加速器。我们可以在电池供电的情况下运行三个LLM。这很酷,因为他们来自tiny ML。我不知道你是否见过这个会议。哦,是的。

所以,你知道,这是Pete的许多专长之一。Manjula,你知道,他之前在英伟达的CUDA团队工作过。所以,我的意思是,这些人真的知道如何在硬件上运行AI基础设施,特别是如何处理许多低功耗和低延迟的情况。

以及在哪里突破瓶颈。你不一定需要一个巨大的GPU集群,尽管在某些情况下它会有帮助。但尤其是在运行推理时,你可以在更低的功耗下运行,并在现场做一些非常有趣的事情。太棒了。现在,我知道我们最初是想聊聊这个想法,我认为,魏你提出的,它对GraphRag有点不同。所以也许你可以为我们设置场景,因为我想更深入地探讨这个问题。是的。我冒着很大的风险,可能会扯得太远。从根本上说,我认为随着LM,整个机器处理信息的方式发生了变化。

在LLM之前,一切都是精确的、符号化的,就像匹配所有API,所有严格的数据结构。想想深蓝和击败国际象棋。一切都是严格的知识,规则和事物。LLM改变了一切,因为LLM开始以基于上下文的的方式理解事物。

理解模糊的事物。它也具有与人类相同的弱点,不精确。就像我们忽略信息,我们得出结论,我们跳跃,跳跃。但与此同时,LLM像人类一样推理的能力,对我来说,从根本上改变了我们处理计算的方式。

所以在将LLM应用于分析文档时,

我的感觉是,我的分析是,现在我们可以让LLM更像人类,而不是像我们过去理解的机器。这也暗示了LLM首选的数据结构是什么,我认为,一种尽可能保留上下文信息,尽可能保留细微差别的结构

细微的差别可能会变得很重要。所以我用我妻子是巴西人的例子。美国游客到巴西被邀请参加一个马术派对。说派对晚上6点开始。所以作为一个优秀的美国人,她准时在晚上6点到达。女主人出来时,还裹着浴巾,完全困惑。

是的,没错。结果,在那里,当他们看到晚上6点时,女主人开始考虑派对,开始像出去购物,准备食物和打扮。人们通常要过两三个小时才出现。所以这就造成了差异。

是的,没错。如果我们试图在一个知识图谱中捕捉到这一点,什么样的结构允许我们捕捉到这些细微的文化差异呢?这在以后理解文档时可能会很重要。所以我觉得这是挑战。Paco,你想补充什么吗?我想听听你的想法。

好吧,从自然语言的角度来看,模型带来了一些东西,但这是一种细微之处,我认为并没有被广泛讨论。

我们作为人彼此交谈、讲述故事和分享信息的方式具有非常递归的性质。我们确实在“掉进兔子洞”的意义上引用了它。就像如果你追溯一个线索太远,你就会掉进兔子洞。我们思考的方式,尤其是表达的方式,具有这种非常递归的性质。它肯定体现在书面语言中,尽管我们倾向于将书面语言视为线性的东西。有段落和句子,所有这些都可以用图表表示。

但是当你查看这些句子中的实际引用时,它们在整个故事、某人的演讲或整本书中进行递归调用。而且,你知道,我们可以尝试将其线性化,并提出一个索引或参考书目。但最终,它是一个图。在任何文本中,你都会得到这种自我引用的东西。我认为,这是LLM真正提取出来的东西,

我们也刚刚参加了一个演讲,YHAW的Tom Smoker也展示了他们如何利用本体论,如何利用模式,以及如何递归地追溯信息。所以,我,我,这只是对此的另一种看法,但我,我,

魏,我喜欢你们的方法。你们对放松前期约束,然后让上下文传播开来,有非常强大的看法。我意识到东西方之间存在重要的哲学方法差异。东方哲学非常注重事物的本质。

这很重要,那就是对事物本质的好奇心,渴望对事物的本质有一个明确的定义,导致了过去几百年来伟大的科学发现。东方哲学从表面上看非常注重情境,注重事物的变化和变化的本质。

就像中国的《道德经》,第一节说,道可道非常道,意思是如果你给某物命名,你就把它弄错了。或者就像,它不是永久的。它真正关注的是事物的无常。它关注的是一切都在变化,与其他事物的关系。所以这本质上就是一个图。

现在,你把这两件事放在一起。所以,好吧,我必须说,对“一切都在变化,因此我们什么也看不到,因此一切都是模糊的”的态度,很大程度上导致了中国科技在约一千年前发展得非常遥远,然后停滞不前。

它的许多属性,这些哲学的东西,减少了很多好奇心,并降低了对事物本质的深入研究。

然而,在实际应用中,这种方法有一些实际应用,在今天,随着LLM和图的出现,我们真的看到它就像一个伟大的组合,你允许某些东西被深入研究,被明确定义,在上下文中被明确定义。但允许大量信息,上下文信息,保持模糊。

所以事实上,我觉得我真的很兴奋能够将Senzing和我们的GraphXR集成在一起,并将其作为一个解决方案,因为Senzing有助于推动这明确的部分。一旦你有了明确的部分,深入研究,命名,定义,它真的可以加快速度,使许多评估快速、明确和精确,这至关重要。

但另一方面,你允许这种松散的结构信息分解成一个图,你可以很容易地检索……

而不会丢失细微之处,微妙之处,就像在文化差异中,你仍然保留了这些东西。所以这些东西结合在一起,我的感觉是你想要将LLM落地,以创造一个精确、准确,并知道其局限性的方法。知道它不知道什么。

不要做出判断。我认为这也很重要。所以在我看来,它就像现在的图和AI,它提供了机会,让这种西方驱动事物本质的方式和东方关注上下文信息的方式结合在一起,共同解决实际问题。说得很好。而且,你知道,我们面临的挑战是我们并不真正知道下游应用将会是什么。

就像我们正在进行调查。我们正在进行某种发现,无论你是在试图寻找洗钱者,还是试图寻找,你知道,这家酒店最好的客户是谁。这是一个发现过程。由于发现的本质,你不知道答案是什么。事实上,在一个复杂的系统中,你甚至不知道在哪里或如何,你知道,这是未知的未知。对。所以通过保留上下文,你就是在强化自己,对吧?

这样,当时间出现时,你就能做出正确的发现。你不会提前切断它们。我认为,如果你回到关系数据库出现之前,回到Ted Codd的一些早期著作,他的同事之一是William Kent,他做了……

一本名为《数据与现实》的书。如果你回到一些早期的,比如20世纪70年代关于数据管理的思考,你会发现划分的界限非常有趣,因为在这种西方的观点中,如此多的数据管理都是关于,让我们有一个数据仓库。让我们几乎抛弃关系。让我们关注事实。

正如我们所说,我们有很多,非常西方的观点,比如,我只想知道数百万个事实,我将用查询将它们拼凑在一起。我不是,是的,我并不真正感兴趣保留上下文。所以,我的意思是,我认为从数据仓库开始,我们在西方方面走得太远了。

对我来说有趣的是,大约三个月前,我们与Robert Kalk进行的谈话,以及他如何说我们已经完全抛弃了本体论。对于他的特定用例,这不是他们想要的方式。我想知道你们是否考虑过这个问题,以及它是什么样的,好处是什么,

这是否是你也在这些层面进行实验的事情之一?在我看来,本体论很重要,但你必须知道界限。就像我给物理学中的所有理论做一个比喻,比如牛顿定律。

牛顿定律很重要。它捕捉到了自然界中重要的真理。然而,就像任何物理学家一样,我是一个物理学家,任何物理学家的理论,在提出理论的那一刻,一个非常重要的因素,一个重要的概念是你愿意被证明是错误的。所以你永远不会接受它作为一切的真理。你有一个理论,

帕克是一位数学科学家,所以我认为他也非常熟悉这个概念。当你提出一个理论时,它必须是正确的,但你总是在寻找情况,寻找理论不再正确的界限。

所以我认为本体论没有什么不同。它就像本体论需要有很好的基础。上下文需要被定义。在这个上下文中,这个本体论知识是真实的。这是真理。

我看到很多传统知识图谱方法的问题是,人们忽略了本体论必须局限于特定领域这一事实。一旦你走出这个领域,你就会遇到问题。

但另一方面,我们认为这个领域本体论很棒。它帮助你更快、更精确地解决问题。但同样,只要你能定义界限,定义领域,它就很好。

你知道,Rob Kalk、Ellen Tornquist和Ask News的其他人在做什么,你知道,他们正在查看新闻来源,特别是世界各地的地区新闻来源。他们真的找到了像硬证据一样的东西,你知道,实实在在的证据,如果你正在进行ESG研究。

并且你试图对一家公司或一组供应商进行尽职调查,并且你想找出,比如,他们在他们所在的另一个国家的运营情况到底如何?然后你发现他们参与了,比如,我不知道,童工或其他什么东西,并且,你知道,你想要在你的股东发现之前做出其他安排。所以我认为对于Ask News,你知道,他们正在外面寻找,他们正在与那些出版商合作,并且他们正在收集这些新闻并在图中表示它们。

是的,正如你所说,我的意思是,本体论真的不适用于不同的领域。你真的想更多地关注领域内的封闭世界。拥有一个全企业范围的本体论,这是一个很好的想法,但我很少看到它有效。

我认为在理解世界新闻报道的情况下,你事先不知道领域是什么。你只知道这是正在发布的内容。所以我认为通过放松Ask News的这个约束,他们能够提出一个图,比如,这里有一些相关的东西。你可以遵循这个证据,你可以找到更多关于这个地区的历史信息。

我认为这些非常重要,但最终它将由某种上下文、某种共享定义来塑造。本体论实际上更多的是关于共享定义,并确保我们描述的是同一件事。因为我发誓,你去一家大公司,在销售副总裁面前使用“客户”这个词,对负责采购的副总裁来说意味着不同的东西。所以即使是词语本身也不跨领域。是的。

图基本上是我们知道存在连接的想法。就像如果你,如果你有你的运营数据,但你也有你的销售数据,你知道,那里有一些连接。它并不完全相同,但有些东西是连接的。所以图显示了这些连接在哪里。但我认为,你知道,想想谷歌地图的例子,对吧?

就像有不同级别的细节。当然,任何电子游戏当然也有这个。但是,你知道,如果你正在获取卫星数据并试图拼接地图,你会放大并看到海滩,你会放大并看到车辙,你会进一步放大。在某些时候,你会得到像素,对吧?是的。

你缩小,也许你会看到像海滩旁边海洋这样的景观。但也许你会缩小到某个级别,他们有海滩的名字。对。所以有一个高层次的细节。我认为图也是如此。低层次有连接,就像Ask News所说的那样,比如,这是来自津巴布韦的报道。这就像地面上的记者。但当你缩小规模时,你会想,好吧,你知道,这对我们的供应网络有什么影响?

我们是否真的需要制定不同的计划?是否会发生战争,导致所有这些集装箱延迟三个月?我认为在某种程度上,你需要将图视为某种程度上收集到更高层次,更抽象,更精细的概念,如果你愿意的话。

所以低层次的东西就像,让我们看看这一切如何组合在一起。高层次的东西就像,哦,实际上,我们可以对它进行一些推理,或者我们可以用它来帮助构建我们将要组合在一起的其他数据。所以,Dimitrios,你实际上触及了一个非常大的主题,事情现在……

在探索过程中,它会提出问题。知道要问什么问题通常是工作的80%-90%。规定的事情来给你答案往往会错过重点或错过重要的细微之处。

但问题是如何发现你需要问的问题?所以以我们的大脑、我们的感知、我们的视觉感知、我们的大脑是一个很棒的工具的方式……

我不想称它为机器,或者我甚至不想称它为工具,但它具有这种强大的能力,能够在信息中看到模式。就像我们仰望天空,看到云彩,我们有一些概念,我们有一些,就像你是一个表演者,我看你的表演,你的舞蹈,就像有一些信息被表达出来,而没有……

没有能够用语言表达出来,定义出来。但你必须观看它才能感受到它。也许你看的时间足够长,你开始能够描述它。你开始能够说,哦,这是,有些东西在那里。所以从某种程度上说,图的作用是图是一个很棒的可视化媒介。

你看表达的信息,就像我们的大脑一样,当我们想到你,Dimitris时,我立刻想到Paco,因为我们在一起同一个房间。所以这是关联。是的。

所以多个信息片段、空间中的实体的这种关联,如果你有效地可视化,它可以帮助你看到模式,帮助你看到所有缺失的环节、缺失的模式、引起我们注意的东西。然后我们开始能够制定问题,制定,回答问题。

所以不仅仅是表格数据结构,我必须说,图确实帮助我们以这种方式参与大脑,发现重要信息。去看一场舞蹈表演吧。你看到一些明确的事情正在发生,但你知道它是在你运用语言或逻辑思维之前。

之后,概念开始形成,然后你就可以开始围绕它构建东西。哦,伙计。这有多酷?你知道它是在你能够以这种方式表达它之前。绝对的。我认为很多分析工作流程都是反过来的。我们非常关注构建查询,构建……

程序来驱动它,来驱动答案。但正如Park Geun-do和我们在调查领域一样,我们都知道,获得提示往往是工作的80%。如果你知道你受到了攻击,你知道他们是从某个载体进入的,可能有一些机器被入侵了。

你没有看到这一点。你看到的是坏事发生的地方,东西被偷了,或者其他什么。所以查看你的网络,只是构建一个关于攻击期间发生的事情的关联图。有一些占位符。可以生成明确的问题,例如,哪台机器被入侵了?也许我应该修复它。所以我认为从操作的角度来看,你知道,我的意思是,我们确实考虑到了这一点,对吧?我们确实考虑到了,比如,我们如何识别这些未知数?

但问题是,问题越复杂,这些未知数就越不是真正可以绘制的东西。他们必须被戳和探索。是的,我认为这就是为什么,魏,你所说的图是我们可以戳和探索的可视化媒介。

它给了我们一个不同的视角,我们可以用它来处理和处理数据,这是我以前从未听说过的,但它完全说得通。

从历史的角度来看,在数据方面,你知道,需要提出的一点是考虑一下电子表格。因为电子表格是我的首选示例。所有这些都以表格形式呈现。它非常非常……怎么说呢,非常左脑思维。一切都非常死板。但电子表格中你永远看不到的是,它背后有一个非常复杂的图。而它之所以能工作,正是因为这个图。

但他们从不展示这一点。他们只展示表格部分。但你在电子表格中捕获的所有真正知识、动态和所有真正信息都与这些不同的依赖关系以及该图如何运作有关。经典。当然,我们看不到它,因为这对我们来说将是绝对的混乱,对吧?令人震惊。该图是这种感知思维的前端媒介。

那么,挑战在于,当我们谈论图时,我认为我们需要真正区分两件事。图作为信息捕获的媒介,以及图作为帮助我们思考的媒介。它们是两件不同的事情。图作为信息捕获,其唯一目的是捕获信息

尽可能精确,尽可能完整。你希望捕获尽可能多的真相。然而,图作为一种思考方式,如果你采用捕获的原始图

保留很多真相。问题是,我们的大脑在任何给定时刻只能容纳七条信息。我们会因为所有这些图而不知所措。就像我们那样思考我们的大脑一样,即使是向量嵌入,我也称之为隐式图,因为向量嵌入为你提供了计算相似性的媒介。实际上,你可以构建一个图。是的,你可以在上面构建一个图。是的。

没错。你可以从中展现一个图。所以你会看到,在该层、该阶段捕获的图,实际上是为了尽可能保留基本事实,尽可能多的真相。但你需要一种方法来处理数据

成一种我们可以用我们的感知能力轻松消化的形式。这是一个挑战。这也是在我看来,很多图论,人们知道图就是我们思考的方式。因此很重要。但在实践中,这是一个障碍。

你如何调和图作为信息捕获媒介的需求和图作为我们支持我们感知思维媒介的需求?这是非常不同的事情。

回到你刚才说的,我们可以互相联系,因为我们一起参加了这个播客。我们一起做过一些事情。也许我们记忆中出现的一些事情将与我们脑海中的图最相关。但它永远不会扩展到超过七个跳跃或七个不同的图部分。

你有没有使用过,这是一种,我想可以用“标准”来形容它,它来自卡内基梅隆大学,来自CMU。Jeanette Wing提出了一个叫做计算思维的想法。因此,这是一种类似于四步过程的东西,包括分解问题,然后能够将其抽象出来。它非常强大。我在课程中经常用它来教学生。但我认为可能有一些

像图思维一样正在兴起。所以在这里抛出一个稻草人,这是在大声思考,但我们在金融犯罪和金融调查中看到的一件事就是一种图思维,一个反复重复的四步过程,其中

你尽最大努力构建这个图,它可能有数亿个节点或数十亿个节点,或者某个巨大的数字,超过人类规模,超过人类理解能力。但第二步是分区。例如,我们可以将这个巨大的图分解成一些有趣模式的子图区域吗?例如,嘿,这看起来像一个非常好的客户,或者嘿,这看起来像一个洗钱诈骗计划。

因此,你进行维度缩减,因为你从图中的 50 亿个节点减少到可能只有 10 个或 20 个有趣的节点。因此,就像 Louvain 这样的图算法,或者像弱连接组件这样的算法,或者有不同的方法可以降低到这个规模。

而且在机器学习中,我们通常会进行大量的降维,对吧?因此,一旦你降低到这个规模,现在你可以使用其他图算法,例如节点中心性或不同形式的中心性,来理解这些部分是如何连接的。天哪,也许其中有一个节点正在策划整个犯罪团伙,这通常是这种情况。可能会有一个拥有大量空壳公司的人,对吧?他们在进行诈骗。

所以第三步是利用某些类型的图算法来考虑页面排名。让我们将最有可能首先调查的部分冒泡到顶部。

然后是第四步,将其通过工作流程。我的意思是,如果你与银行的人一起工作,则将其通过案例管理工具。一个 A 级分析师会负责它。他们会去研究这个图。他们会做一些互动的事情。他们会使用可视化效果,并应用他们学到的知识。或者你可能也有一些代理参与其中,以帮助总结和承担部分工作。但这本是一本工作簿。所以这是一种四步过程。

如果可以的话,这是一种图思维过程,可以应用并整合人和人工智能技术。

我想补充 Paco 说的另一件事。能够缩小范围、能够识别事物并进行缩减、缩减、缩减,这非常非常重要。但还有另一个方面,那就是简化、抽象。就像很多时候你捕获数据时,你并不真正了解该领域,或者你不需要知道未来的问题。所以该领域很广。

但我们寻找信息答案,该领域被缩小了。当领域被缩小后,例如,我称 Paco 为疯狂科学家。在某些时候,我可以只将 Paco 称为疯狂科学家。我不需要添加信息,因为疯狂科学家就是 Paco。而这只是在一个特定领域。

所以我之所以这么说,是因为很多信息,当你是领域范围时,我称之为当你捕获信息时,我更喜欢,我称之为纯边方法。就像在图中,

边没有属性。它只是边。它只是关联。任何你需要属性的东西都意味着你可能需要对其进行修改,也许你有一些指向它的东西或指向它的东西,你将其保留为节点。现在,当你思考时,很多时候,就像,我知道 Paco,但我认识 Paco,这种关系,我可以携带很多上下文。

我不需要额外的信息来展示,来告诉我是如何认识 Paco 的。它可以就在那里。我知道 Paco 本身就足够了。所以这意味着当我们呈现时,就像我知道 Paco,这种关系是一种单一的关系,对吧?

在数据层,可能会有成千上万或数万条信息。但它呈现为一个简洁的单一信息。我认为分析工作流程或可视化分析工作流程应该做到这一点,那就是能够从非常详细、广泛、庞大、大量的信息中提取或聚合信息

到一个简单的表示形式,但它以特定领域、特定上下文为基础。为了让我们……所以我们可以交流。我们可以用简单的语言交流,而不是在我们必须的时候携带大量信息。我知道 Paco。就是这样。我们不需要知道我们是如何认识对方的。我们在哪里认识对方?在某些情况下。这几乎就像……

下面的数据就像一座冰山,而你认识 Procco 就像冰山的顶端,你只有一个信息,但如果你想更细致地了解,你可以深入了解整座冰山,是的,我们可以说

那么,我们可以说,我们提取所有内容,我们将所有内容连接在一起。它非常嘈杂。我们可以上升到不同的抽象级别。但正如你所说,我们正在特定领域中提升抽象级别,例如出于目的。所以我们有一些共享的定义。然后我们可以开始说,好的,现在让我们进行 Louvain 分区或其他操作。然后我们开始深入研究子图。这可能是一个五步过程。

即使使用 Levene 交换计算或任何中心性计算,图也必须很简单,因为很多时候我认为我们谈论的图是我称之为多重多重图的东西。它被称为多领域图。它在一个图中包含不同类型的信息。因此,计算中心性图

在这种超图中,作为超图,非常具有挑战性。或者如果你混合了人和电子邮件,结果意味着什么,这很困难。所以对我来说,这个过程本身就是我们已经需要准备我们的,转换我们的图数据

成适合中心性计算的形式。很多时候,你必须已经投影到特定领域才能进行该计算。非常好。这就是我在想的数据

只有在你以某种方式缩小范围后才会变得相关。你正在查看该域的某个平面,然后你说,好的,现在我们将专注于这个平面。那时,某些节点、某些数据和某些连接才会变得相关,因为你几乎是在查看该层。在我的脑海中,如果我将其可视化,并且我们再次谈论 Google 地图图像

示例,你正在越来越深入地挖掘,并且根据你查看的层看到不同的结构。这与数据网格之类的概念非常吻合,你知道,Jamak Degani 谈论不同领域如何共享。你必须抽象,你必须提出关系。我认为 Chad 也提出了合同的概念,你知道,你在不同领域之间存在关系,并且

所以你共享一些定义。你必须压缩到那个级别才能跨领域。所以,是的,如果我们使用组织中的领域来指导何时、何地以及如何压缩,那么我们就可以真正利用这种抽象。但这几乎就像我说完之后才意识到,

当你放大或缩小时,你正在查看两个向量或两个维度,因为你正在处理粒度领域,但你也在处理领域以及该领域中相关的内容。所以如果我们有这个 X 轴和 Y 轴,你可以获得更细粒度的值。

在域内,但你也可以只在 X 轴上移动并更改域。因此,就像万花筒一样,当你旋转它时,你会看到一组完全不同的关系。是的。我的意思是,在企业环境中,这会变得非常奇怪,因为,你知道,你……

你所依赖的领域的员工甚至可能不知道你在那里。你知道,你可能正在使用来自另一个应用程序的某些日志文件,这些日志文件完全驱动你的产品。所以,我们可以制定某种合同,以便我们彼此了解吗?但是,是的,跨越领域,这是利用这些类型技术的关键挑战,因为通常……

当你做出这些决定时,你是在特定领域,但对于大多数应用程序,你必须结合几个领域,对吧?所以通常就像在销售和采购或销售和营销或其他业务部门之间发生了一些有趣的事情。所以通常,你必须结合。然后你尝试创建……

两个相互连接的不同图?还是一个更大的图?你在这方面是如何看待的?嗯,联合听起来不错。我认为尝试拥有一个巨大的图通常很奇怪。而这些项目通常永远不会结束。但是联合并能够跨领域移动并说,好的,在那里,让我给你发送一些东西。我想知道你能……

你能带来什么结果?那么,你是在跨不同领域在 GraphRag 中发出提示吗?你是在进行查询、运行某些算法还是其他什么?存在某种信息传输,但它是联合。

我可以谈谈我的一些个人经验。首先,将信息带入图是一个进步,一个提升。因为表格格式的信息需要限制在非常具体的定义中,即相当狭窄的领域。

图是一个例子。我查看美国航班记录。你可以从交通部下载它。他们每两周发布一次。该死的文件有 140 列,我认为。非常非常宽。原因是航班可能会改道。每当航班改道时,你都会添加大约 10 到 15 列信息。

所以你需要捕获航班可能不止一次改道的情况。例如,两次就足够了吗?不,有些是三次。三次就足够了吗?不,有些是四次。所以他们实际上有五次改道。但如果你改道六次,那太糟糕了,它不存在。这就是表格格式在信息捕获方面的局限性。使用图,它放松了很多。

你可以自然地进行一千次改道。我不在乎。你可以像图一样不断地对其进行修改。所以这对于图来说确实是一个很大的改进,它允许你在捕获信息方面拥有更大的灵活性。另一件事是,在表格格式中,很难检查不匹配,例如

我们有将来自同一组织中两个或三个不同部门的两个数据集管理器整合在一起的例子。每个人都知道其他人的数据有问题,但你无法强迫其他人修复它。

但是对于图来说,当你将事物整合在一起时,你会立即看到不匹配之处。所以我们有一个公司的例子,他们花了数年时间,他们无法协调数据,但一旦他们将数据引入图中,他们就开始看到不匹配之处。在一个月内,他们解决了数据问题。

但他们开始看到不匹配之处是因为依赖关系吗?因为一旦,现在,因为我们,让我们看看,你知道记录是唯一的,对吧?但是当你将其他记录链接在一起时,你需要看到,哦,这条记录实际上是在其他系统中重复记录的,只是记录方式不同。有人在那里犯了一个错误。是的。我们在实体解析中经常看到这种情况,你认为社会安全号码应该是唯一的。

但是你从其他来源引入数据。并且有一个应用程序,也许早期产品经理说,是的,我们需要收集社会安全号码。然后后来他们说,哦,不,我们不能这样做。只需将其放入,你知道,一个虚拟号码。

所以现在你有了这个数据集,其中有 5000 个相同的社会安全号码实例。因此,一旦你开始绘制图表,你就会想,等等,这难道不应该唯一吗?为什么会有这么大的节点,所有这些东西都连接到它?出问题了。所以它也是一种找出数据质量问题的好方法。是的。

虽然有安全性。我的意思是,回到我们之前谈论的内容,如果你正在进行金融调查,如果你正在进行某种犯罪调查,好的,也许你有一些公开数据,例如,你知道,制裁的空壳公司等等。然后也许你有一些私人信息,例如客户,但也许你也有关于,哦,是的,这是一项正在进行的调查。我们正在调查这些人。但是这些人,

他们拥有豁免权,因为他们是外交官。所以所有这些不同级别的安全性。你开始将所有这些整合到一个图中,你就会得到一个非常全面的视图。也许不是每个人都能看到这一点。你不想让负责开停车罚单的警官知道 XYZ 外交官可能正在接受犯罪调查。这些信息不应该泄露出去。是的。

那么你该如何划清界限呢?因为图确实将所有内容整合在一起。但是你如何处理安全问题呢?是的,图的访问控制比表格、关系数据库更难。嗯,感觉像是你刚才谈论的这些内容之一,关于你如何将其可视化,你可以……

几乎可以在可视化上创建不同的访问控制。所以我不知道你是否以某种方式想过这个问题,但这是否就是你处理它的方式?所以从根本上说,访问控制需要在数据管理层。如果数据库可以支持访问控制,那就太好了。

然而,我们确实遇到了数据库没有足够的访问控制来支持业务需求的情况。所以在这种情况下,我们实际上必须在数据访问中实现一个过滤器层。当我们从数据库中提取数据时,这取决于角色和功能。

团队,我们实际上禁止访问某些信息。但这并不是一个根本性的解决方案。根本性的解决方案必须在数据管理层。这是一个难题。在以前的工作中,更像是将知识图用于大规模制造,

你知道,我们遇到的其中一件事是安全访问,因为你将采购数据、一些运营数据和一些销售数据整合到一个图中。突然之间,你就能了解公司是如何运作的,但这就像一幅非常机密的照片。这就像也许董事会可以看到这一点,但公司中的其他人不应该看到它。所以这里确实存在力量,但也始终存在风险。

如何管理这是一个令人难以置信的难题。我读过一本书,谈论某些情报机构在前往其他国家时的情况。过去,你使用的是伪造的身份……

但今天这不再是一个好主意了,因为所有现有的开源情报,即使你想隐瞒一些信息,人们也可以拼凑出一幅图景,因为相关的信息。坐在社交媒体上,例如,可能有一张你和某个人的照片,你没有拍这张照片,你没有发布它,但有人在 Instagram 上发布了它。

所以所有这些信息都可以作为一个图,即使你非常努力地隐藏自己,也可以链接回你。这是在隐私安全方面的一个根本性问题,或者你想控制信息访问。但由于你在图中拥有所有这些连接,这使得它变得非常非常困难。

还有一个推论,当我与从事大规模知识图实践的企业人士交谈时,我一遍又一遍听到的一件事是公司使用图进行市场情报,或者有时你会说竞争情报。但是,你知道,很多这可能是为了销售回购策略,试图了解是谁从我们手中夺走了我们的投标。我们如何才能回去尝试,例如,你知道,

给他们一个更好的报价。哇。所以我一遍又一遍地听到这个。我们就像,这是开始赚钱的第一个图之一,就像在企业内部进行情报一样。是的,我本来打算走这条路,例如,让我们谈谈你看到的一些其他很酷的用例,无论是图还是 GraphRag,这都是当今的一个热门术语,你知道。

我的意思是,你知道,有很多图数据库供应商,他们确实非常依赖图查询方面的内容,即如何运行它。对于数据工程、数据科学领域的人来说,这是一种非常熟悉的东西,你知道,使用查询。但我认为在图空间中,还有一些不是查询优先的领域,例如使用图算法或使用,还有一个领域,

应该被称为统计关系学习,但你知道,你可能听说过贝叶斯网络或因果关系或那里的其他领域,这些领域都使用图。但还有图神经网络。例如,我们如何训练深度学习模型来理解模式并尝试建议,嘿,我正在查看你与供应商签订的所有合同。我注意到这里面有三个缺少一些条款。你,你知道,这是一个错误吗?

所以我认为,你知道,有查询、算法、因果关系,你知道,那个领域,还有图神经网络。还有其他一些领域,但这些都是图空间内的不同阵营。他们并不总是相互交谈,但我认为现在我们开始看到越来越多它们的混合集成,这非常令人着迷。

是的。我想指出,从根本上说,图和表是同一枚硬币的两面。

作为一名物理学家,我们从频域来看待声音、音乐,例如它是 C、D、E、F,频率分布是什么?也看看波形,例如时域。在某些情况下,你希望在频域中进行过滤或访问更多内容,有时在波形域中更有意义。

相同的数据,例如图本质上是一个联合,我称之为。如果你考虑大型语言模型、神经网络,它就是一个图。

但它是一个巨大的、极其稀疏的矩阵,这是一个表,对吧?事实上,因为它是一个如此巨大的稀疏矩阵,所以今天英伟达非常困难,因为英伟达拥有可以处理这些矩阵的 GPU。但猜猜看?我大脑消耗的能量约为 19 瓦。

运行大型语言模型的 GPU 消耗数万瓦的能量才能获得类似的计算需求。

这极其低效。即使计算单元比我的神经元小得多,你认为它应该能够以更高的效率进行计算。这正是因为它们处理的是极其稀疏的矩阵。他们没有将神经网络视为

作为一个图,他们将神经网络视为一个矩阵,而这正是功率效率的根本问题。因此,出现了一些模型,这些模型确实将 AI 视为一个图,在能量消耗方面节省了几个数量级。所以在现实世界的应用中,图在过去 20 年中没有像我们所有人想象的那样流行起来的原因之一是,哦,图没有流行起来,图没有流行起来。但没有,它没有。

根本问题在于,我们非常熟悉所有工具和方法,例如工作流程。它在基于表格的思维方式中已经很好地确立。这就像交通部没有将航班数据作为图发布。他们将其作为表格发布。它易于访问。我们拥有所有成熟的工具。改变这一点极其困难。

所以在某种程度上,我认为人工智能几乎总是为图而生的,因为人工智能突然允许你处理非结构化信息,例如电子邮件、报告,就像播客、转录、视频一样,转换成计算机可以访问的结构化形式。但猜猜看?

它是人工智能将这些数据转换成图。所以现在你突然有了这个,有些人认为,我认为这就像 80% 的信息以非结构化形式存在。有些人甚至认为,这个百分比甚至更大。因此,人工智能突然使大部分信息可用于分析工作流程和评估。

有趣的是,它需要图才能做到这一点。所以我的评估是,由于人工智能,由于垃圾人工智能,我们实际上正在进入图的繁荣时期,例如指数级增长时代,因为数据的可用性。这就像物联网。我们一直在等待它从 2010 年发生。

2010 年或 2005 年,无论何时,它总是近在咫尺。但现在确实有道理,如果你拥有所有这些非结构化数据以及这些关系,那么对我来说,这听起来像是一个图。是的。

回到 20 世纪 80 年代的人工智能时代,你知道,无论我们谈论的是 A 星、B 星之类的算法,还是谈论规划系统,所有这些都被表达为图。而且,你知道,一些早期的想法,例如在谷歌之前导致谷歌的想法,他们谈论的是图。其中一些工作实际上来自基于图的群件。所以它就在那里。是的。

你这么说很有趣,因为我们在去年的 AI 质量大会上有一个演讲,来自创建 Docker 的人 Solomon。他的整个演讲实际上就像,一切都是图。如果我们真的将其分解,它只是,它都是图,以及一件事如何与另一件事相关。我会添加一些内容来回到我们早期部分。我们谈论的是东西方相遇,

有一本书,一本非常喜欢的书,虽然是早期的,但这可以追溯到 90 年代初期,但神经网络的早期,关于这个想法,是的,西方有一些约定,也许我们可以退一步。它是由南加州大学的一位教授 Bart Kosko 编写的。它被称为模糊思维,是对科学的批判,但更多的是从东方视角来看。

我知道这本书已经有 30 多年的历史了,但我认为这里有一些非常好的观点,尤其是在我们所说的关于我们现在使用大型语言模型以及如何在图的上下文中利用它们方面。所以我认为另一件事是,在跳跃之前,你们还有什么想谈论的吗?我知道你正在做很多很酷的数据可视化工作。是的,我只想补充一点。

我只想说可视化不是最终目标。目标是支持分析。所以我知道每个人在谈论图时都会谈论图的可视化。但在我的脑海中,我们真正需要的是可视化分析。

我们如何以可视化的方式转换信息?我们如何将适合数据管理、数据捕获、可以访问并逐步处理的信息,转化为适合演示、回答特定领域特定问题的形式?

这一步骤需要数据转换。这不仅仅是一个过滤器的作用,而且从根本上改变了图的模式。用于数据捕获的模式不适合演示。这是两件不同的事情。

如果你考虑大数据时代,MapReduce 的开发者允许你将信息从最初捕获的表格格式逐步转换为最终的、完全不同的表格,以便你进行演示。在图中,情况也是一样的,

图分析需要的是一个逐步的过程,我们称之为微积分或运算符,将你的数据从捕获的形式转换为你想用来回答问题的形式。现在,

我认为微积分最好以两种形式完成。它需要以一种形式来处理大量数据,例如一个大型图,逐步进行变异。但也需要可视化。你需要相同的一组,一组并行的运算符,供数据分析师使用

但理想情况下是领域专家,而不是数据专家,不是能够编写 Python 或 Cypher 查询或 GQL 的人,而是具有领域知识的人,因为图是可视化的。你会说,“嘿,我想简化一下。哦,我知道了。”

如果 Paco 和 Wei 有很多交集,让我们将其抽象出来。让我们只创建一个单一的阅读流,Wei 推断,就像 Wei 和 Paco 一样,他们彼此认识,并去除所有其他信息。

所以这可能意味着,“嘿,Paco 认识一百万人。也许我低估了 Paco 一点。对此表示歉意。不是开玩笑。你可能认识的人比这还多。但是,从图中,我们可以快速计算这个数字,并将其放入 Paco 中,使 Paco 变得非常非常大,因为 Paco 认识一百万人。

对。所以这种操作非常直观。我想强调一下,图的可视化不是最终目的。图的可视化是你用来转换图以获得答案的工具。这是一个中途点。很好。是的,这与你之前所说的非常一致,当你不知道答案时,

问题,这有时是最难的部分。因此,能够以不同的形式处理数据,其中一种是以不同的方式可视化它,这是一种工具,希望能帮助你找到答案或第一步,即问题,然后才能找到你正在寻找的答案。是的,并以可视化的方式改变图。

所以你可以开始戳它。是的,没错。这种改变图的能力确实是一个强大的工具。

因为我们之前提到的所有这些不同的原因,涉及到深度以及你查看领域的方式,或者你能够找到异常值或发现不同的数据质量问题,无论是什么,无论你的用例是什么。这很酷。不过,听起来有点手动,对吧?是的。

到目前为止。我认为 Way 有很好的例子,他们使用 SiteXR 做的事情,利用 3D 可视化、放大、缩小,结合算法方法,使用图算法来聚焦镜头,聚焦搜索光。我认为随着时间的推移,可以自动化更多内容。也许这就是代理发挥作用的地方,实际上是帮助确定如何在图上充当摄影师。是的。

所以肯定有一种方法可以帮助你查看不同的视角。我们经常处理的数据既具有图连接的性质,也具有维度。例如,每个节点都有很多属性。每个属性都是一个维度。所以它是高维信息。

所以你想结合网络信息选择哪个维度集来帮助你查看,能够灵活地选择维度集。或者,当你从一个维度切换到另一个维度时,你会发现一些聚集或事物聚集在一起,一些聚类开始发生,你会说,“嘿,这些事物总是朝着相同的方向移动。”

这些信号帮助你从数据中形成很多想法和直觉。然后当你看到这些信息时,接下来你想知道,“嘿,我想将其捕获为一个特征。现在你能将其表示为一个特征,成为你所看到的东西,成为你可视化中的一个实体吗?”

放回组中。是的,可以放回去。这就是可视化分析。哇。所以将其捕获为一个特征,然后你可以以某种方式将其馈送到表格数据中。是的,没错。

伙计们,这太棒了。在我们结束之前,还有什么你想谈谈的吗?我觉得仅仅是和你们交谈,我就学到了很多东西。我知道这将是一次很棒的谈话。我整个时间都坐在座位上,感觉像,“哦,我的上帝,我学到了这么多。”是的。在跨领域方面,我想分享一个有趣的例子,说明跨领域有多么困难。所以在这个例子中,它是极端的跨领域。所以,是的,

我组织了一个 Kinetic Arts,舞蹈和科学非营利组织。所以我们做的一件事是,每周三,我们将工程科学领域的人和舞蹈、艺术、音乐领域的人聚集在一起。我们一起探索一些东西,并进行对话。第一次会议,当我们将人们聚集在一起时,大约发生在

11 年前,我们大约有 20 个人坐在房间里,每个人都进行了非常热烈的交谈。然后我突然意识到,确实每个人都说英语,但没有人能理解对方,因为他们使用相同的词汇,但由于领域不同,就像 Paco 之前在企业环境中谈到的那样,由于领域不同,他们的意思完全不同。

物理学家谈论能量,我们有非常具体的东西叫做能量。舞者对能量的称呼与能量的称呼方式大相径庭。当计算机人员谈论 Python 时,我们并不是在谈论蛇。但是舞者听到 Python 时,他们会说,“你为什么要把蛇带到谈话中?”

所以我认为就像 Paco 之前说的那样,在企业数据环境中,领域非常非常重要。了解领域,例如了解领域的限制以及如何找到跨领域的方法。对我们来说,这通常需要大量的补偿。我认为这是一个人的问题,而不是技术问题。好吧,技术可以提供帮助,但只能帮助这么多。

几个月前,我们在这里与创建了数据分析代理的人进行了交谈,他们说,该代理成功的最难的部分之一是首先创建一个业务术语词汇表,以便代理,并真正尝试确定

这些模糊的词语和这些词语,对于一个人来说,它们可能意味着一样东西,而对于另一个人来说,它们可能意味着另一件东西。最典型的例子是在 MQL 中,当你在一家公司使用 MQL 时,或者当你在 MQL 的一个团队中时,它是一回事。当你转到 MQL 的另一个团队时,又是另一回事。

它们都意味着营销合格线索,但是这个人什么时候成为营销合格线索?他们必须做了什么,或者他们处于哪个阶段?因此,代理可能理解,LLM 也在某种程度上理解 MQL 是什么,但你真的必须充实这个词汇表,让他们知道

你使用并在你的数据库中使用的所有这些不同的术语。因此,当代理需要去提取上周我们有多少 MQL 时,它就能理解这意味着什么。是的,那就是你的语义层。这是一个受控的词汇表,你知道,你把足够多的这些放在一起,你就会得到你的本体。是的,是的,是的,没错。♪