We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Fraud Networks

Fraud Networks

2025/4/1
logo of podcast Data Skeptic

Data Skeptic

AI Deep Dive AI Chapters Transcript
People
A
Asaf
B
Bavo D.C. Kempo
Topics
Asaf: 我对Bavo的实现印象深刻,特别是考虑到研究保险欺诈的难点在于获取欺诈者的数据。他通过创建模拟器来解决这个问题,并利用联邦选举委员会的数据进行测试,发现了类似于欺诈数据的有趣模式。通过分析政治捐款网络图,我发现了异常值,例如巨额捐款,并以此找到了欺诈行为的线索,这与在欺诈数据库中寻找异常值的逻辑相同。社会网络分析并不仅仅局限于社交媒体,它涵盖了人类所有关联的网络,在保险欺诈检测中,它可以揭示隐藏在索赔和相关方之间的关系。 Bavo D.C. Kempo: 我是一名数据科学家和统计学家,我的工作结合了精算科学和社会网络分析的优势。精算科学可以被理解为保险领域的数学统计学,它涵盖了保险的定量方面,例如计算汽车保险的保费。在保险定价中,我们使用历史数据,分析重要的预测变量(例如年龄),并构建预测模型来预测损失。保险欺诈是指提交虚假或夸大的索赔申请,严重的情况包括多起虚假索赔,目的是牟利。我们可以利用传统特征(例如索赔金额高于车辆初始价值)和社会网络分析来检测保险欺诈。保险欺诈的“真实标签”通常由专家根据调查结果判断,但专家判断也可能存在误差。我的研究使用了德国奥斯卡·道蒂尔的研究数据,该数据包含汽车保险索赔信息以及与之相关的其他业务线的索赔信息,并形成了一个包含索赔和相关方的社会网络。我们使用BiRank算法(基于PageRank算法)对索赔进行排序,已知的欺诈索赔用于指导排序,与已知欺诈索赔联系紧密的索赔排名更高。我们检测到的网络关系是欺诈者之间密集的联系,而不是简单的个体欺诈行为。我们的分析不使用社交媒体数据,而是基于索赔与相关方之间的关系。如果某个修理厂参与了多个欺诈案件,该修理厂会在分析中获得较高的欺诈分数。为了解决数据集中欺诈案例数量少的问题,我开发了一个名为iFraud的模拟器,用于生成具有网络结构的合成数据集,用于训练和测试欺诈检测模型。iFraud模拟器通过迭代算法生成更接近现实世界特征的网络结构,模拟保单持有人特征、合同特征、索赔频率和损失成本等。iFraud模拟器允许用户控制模拟数据集中欺诈的比例以及其他特征的权重。BiRank算法提供一个欺诈概率的排名,而不是一个简单的阈值判断。欺诈检测模型需要持续更新,以适应欺诈行为的动态变化。保险公司利用已有的索赔信息构建图数据库,用于欺诈检测。将图数据转换为表格数据通常是通过提取图的特征作为表格的列来实现的。iFraud模拟器能够生成包含社会网络结构的合成欺诈数据集,并允许用户调整各种参数。许多保险公司已经采用分析方法来打击欺诈行为。尽管存在误报的风险,但通过概率模型和专家审核,可以将误报的可能性降到最低。我的研究和工作涵盖了精算科学、医学研究和统计方法等多个领域。我开发了一个名为“Easy Calibration Curves”的软件包,用于评估预测模型的准确性。我乐于继续从事与图和网络相关的研究,并欢迎大家与我联系交流。

Deep Dive

Shownotes Transcript

In this episode we talk with Bavo DC Campo, a data scientist and statistician, who shares his expertise on the intersection of actuarial science, fraud detection, and social network analytics.

Together we will learn how to use graphs to fight against insurance fraud by uncovering hidden connections between fraudulent claims and bad actors.

Key insights include how social network analytics can detect fraud rings by mapping relationships between policyholders, claims, and service providers, and how the BiRank algorithm, inspired by Google’s PageRank, helps rank suspicious claims based on network structure.

Bavo will also present his iFraud simulator that can be used to model fraudulent networks for detection training purposes.

Do you have a question about fraud detection? Bavo says he will gladly help. Feel free to contact him.  


Want to listen ad-free?  Try our Graphs Course?  Join Data Skeptic+ for $5 / month of $50 / year

https://plus.dataskeptic.com)