We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode GraphBI: Expanding Analytics to All Data Through the Combination of GenAI, Graph, & Visual Analytics // Paco Nathan & Weidong Yang // #310

GraphBI: Expanding Analytics to All Data Through the Combination of GenAI, Graph, & Visual Analytics // Paco Nathan & Weidong Yang // #310

2025/4/29
logo of podcast MLOps.community

MLOps.community

AI Deep Dive Transcript
People
D
Demetrios
P
Paco Nathan
W
Weidong Yang
Topics
Paco Nathan: 我认为自然语言的递归性是LLM能够捕捉到的一个细微之处,这在书面语言中很常见,但我们往往将其视为线性的。实际上,句子内部的引用构成了一个图,LLM能够识别这种自指性。 在与YHAW的Tom Smoker的讨论中,我们了解到他们如何利用本体论和模式递归地追溯信息。我非常欣赏Weidong Yang他们放松前期约束,然后让上下文传播的方法。东西方哲学的差异影响了我们对数据管理的看法,图和AI的结合可以将这两种方法结合起来。 在数据管理方面,我们有很长的历史是从西方角度出发,例如数据仓库,它侧重于事实,而忽略了上下文。然而,在处理新闻报道等数据时,我们事先并不知道领域是什么,因此放松这个约束可以让我们构建一个关系图。 图可以收集越来越多的抽象概念,低层次的连接有助于理解整体,高层次的则可以用于推理或组织其他数据。在金融调查中,图思维是一个四步过程:构建图,划分图,利用图算法,以及将其纳入工作流程。 图可以帮助我们识别未知因素,并通过可视化来探索数据。图的结构可以帮助我们发现数据质量问题,例如重复的社会安全号码。在处理安全问题时,我们可以通过可视化创建不同的访问控制。 图和表是同一枚硬币的两面,图本质上是一个巨大的稀疏矩阵。AI能够处理非结构化数据,并将其转换为计算机可以访问的结构化形式,而这种形式就是图。 在早期的AI中,A*和B*等算法以及规划系统都是用图来表达的。图思维的出现,可以帮助我们处理数据,并结合人类和AI技术。 图的可视化不是最终目标,而是将数据从捕获形式转换为呈现形式的工具。我们需要一个逐步的流程来转换数据,并支持大规模图数据的处理。 跨领域数据分析需要考虑领域差异,并找到跨领域的方法。 Weidong Yang: 我认为LLM改变了我们处理信息的方式,它更像人类一样理解信息,而不是像过去那样精确的机器。为了让LLM更好地工作,数据结构应该尽可能保留上下文信息和细微差别。 即使对文档进行匿名化处理,文档的结构本身也可能泄露敏感信息。本体论很重要,但需要明确其边界,并将其限制在特定领域内。 在探索性分析过程中,提出正确的问题至关重要,而图可以帮助我们发现需要提出的问题。图是一种极好的可视化媒介,可以帮助我们发现数据中的模式和缺失的联系。 图作为信息捕获媒介和图作为思维媒介是两件不同的事情。图数据比表格数据更灵活,更易于捕获信息并发现数据质量问题。 在处理大型图数据时,需要进行简化和抽象。我们可以通过不同层次的抽象和特定领域的细化来处理大型图数据。 图数据的访问控制应该在数据管理层实现。AI的发展推动了图数据处理技术的应用。 图的可视化不是最终目标,其目的是支持分析。我们需要一个逐步的流程来转换数据,并支持大规模图数据的处理。跨领域数据分析需要考虑领域差异,并找到跨领域的方法。 Demetrios: 我对Paco和Weidong关于数据匿名化方法的解释不太理解,希望他们能重新解释。我对他们关于如何更好地利用图作为工具的讨论印象深刻。在金融犯罪调查中,图思维是一个四步过程:构建图,划分图,利用图算法,以及将其纳入工作流程。图可以帮助我们识别未知因素,并通过可视化来探索数据。

Deep Dive

Shownotes Transcript

GraphBI: Expanding Analytics to All Data Through the Combination of GenAI, Graph, & Visual Analytics // MLOps Podcast #310 with Paco Nathan, Principal DevRel Engineer at Senzing & Weidong Yang, CEO of Kineviz.

Join the Community: https://go.mlops.community/YTJoinIn Get the newsletter: https://go.mlops.community/YTNewsletter

// AbstractExisting BI and big data solutions depend largely on structured data, which makes up only about 20% of all available information, leaving the vast majority untapped. In this talk, we introduce GraphBI, which aims to address this challenge by combining GenAI, graph technology, and visual analytics to unlock the full potential of enterprise data.

Recent technologies like RAG (Retrieval-Augmented Generation) and GraphRAG leverage GenAI for tasks such as summarization and Q&A, but they often function as black boxes, making verification challenging. In contrast, GraphBI uses GenAI for data pre-processing—converting unstructured data into a graph-based format—enabling a transparent, step-by-step analytics process that ensures reliability.

We will walk through the GraphBI workflow, exploring best practices and challenges in each step of the process: managing both structured and unstructured data, data pre-processing with GenAI, iterative analytics using a BI-focused graph grammar, and final insight presentation. This approach uniquely surfaces business insights by effectively incorporating all types of data.

// BioPaco NathanPaco Nathan is a "player/coach" who excels in data science, machine learning, and natural language, with 40 years of industry experience. He leads DevRel for the Entity Resolved Knowledge Graph practice area at Senzing.com and advises Argilla.io, Kurve.ai, KungFu.ai, and DataSpartan.co.uk, and is lead committer for the pytextrank​ and kglab​ open source projects. Formerly: Director of Learning Group at O'Reilly Media; and Director of Community Evangelism at Databricks.

Weidong YangWeidong Yang, Ph.D., is the founder and CEO of Kineviz, a San Francisco-based company that develops interactive visual analytics based solutions to address complex big data problems. His expertise spans Physics, Computer Science and Performing Art, with significant contributions to the semiconductor industry and quantum dot research at UC, Berkeley and Silicon Valley. Yang also leads Kinetech Arts, a 501(c) non-profit blending dance, science, and technology. An eloquent public speaker and performer, he holds 11 US patents, including the groundbreaking Diffraction-based Overlay technology, vital for sub-10-nm semiconductor production.

// Related LinksWebsite: https://www.kineviz.com/Blog: https://medium.com/kinevizWebsite: https://derwen.ai/pacohttps://huggingface.co/pacoidhttps://github.com/ceterihttps://neo4j.com/developer-blog/entity-resolved-knowledge-graphs/