图数据挖掘!使用图分析+AI进行保险欺诈检测 ⛵

简介: 本文将基于保险欺诈场景案例讲解如何进行有效的图挖掘,并将挖掘到的信息提供给AI模型,辅助精准检测和识别商业保险欺诈。

💡 作者: 韩信子@ ShowMeAI
📘 机器学习实战系列https://www.showmeai.tech/tutorials/41
📘 本文地址https://www.showmeai.tech/article-detail/307
📢 声明:版权所有,转载请联系平台与作者并注明出处
📢 收藏 ShowMeAI查看更多精彩内容

保险欺诈是一个巨大的问题,保险业长期以来一直在与欺诈作斗争。健康保险欺诈是一种作假骗保的行为,整个欺诈过程可能涉及患者、医生和受益人的同行的配合联合行动,联合欺诈的异常行为可能形成一个欺诈圈, 普通机器学习AI算法很难基于基础信息发现欺诈活动。而这类场景有着强有效作用的,是关系网数据的挖掘和信息支撑。

大家可以从下述新闻做一些了解:
📘 同盾科技:AI智能助力保险反欺诈,科技能力再升级_财经_中国网
📘 数千亿保险反欺诈市场:人工智能寻觅用武之地_腾讯新闻

在本篇内容中, ShowMeAI 将基于保险欺诈场景案例给大家讲解,如何进行有效的图挖掘,并将挖掘到的信息提供给AI模型,辅助精准检测识别商业保险欺诈。

本篇内容结构如下:

  • Graph 图与图挖掘基础
  • 图搜索和查询以了解关系
  • 使用图特征增强机器学习模型

💡 Graph图与图挖掘基础

📌 什么是Graph图

在图论中,图是一种结构,包含『相关联』的一些节点和连接的边。图中的对象称为『节点』,每个相关的节点之间的连接称为『』。

简而言之,Graph图是任何类型的网络的数学表示,包含:

  • 节点,在医疗保险场景中,可以是

    • 投保人
    • 医生
  • 边是节点之间的关系/交互/行为

    • 索赔保单持有人
    • 索赔被保险人

💡 图挖掘:搜索和查询

图形数据库是专门为图关联数据存储和查询而构建的,图查询语言是根据节点之间的模式匹配来完成查询的。通过图查询语言进行图可视化有助于分析大量数据并识别欺诈活动的模式。典型的图数据库如 📘Nebula Graph,我们本次的分析挖掘用到的数据集是 🏆insurance claims 保险索赔数据,大家可以通过 ShowMeAI 的百度网盘地址下载。

🏆 实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『 实战』,或者点击 这里 获取本文 [[16]图数据挖掘!使用图分析+AI进行保险欺诈检测]( https://www.showmeai.tech/article-detail/307)insurance claims 保险索赔数据集

ShowMeAI官方GitHubhttps://github.com/ShowMeAI-Hub

📌 欺诈典型案例

查找欺诈性索赔『C4377』的投保人提出的所有索赔,并显示索赔『C4377』患者的疾病。

为了深入了解这个投保人(PH3759),我们看到这个人在不同的提供者那里看到了不同的医生,这是不正常的。

📌 与欺诈性索赔相关的投保人关系

下图显示了具有欺诈风险『C4377』的连接关系。我们看到一个高风险投保人处于 1 度连接中,而另一个高风险投保人处于 3 度连接中。

💡 使用图特征增强机器学习模型

特征工程是从现有数据中抽取有用信息的过程。

关于机器学习特征工程,大家可以参考 ShowMeAI 整理的特征工程最全解读教程。

📘机器学习实战 | 机器学习特征工程最全解读

大部分机器学习应用依赖于结构化表格数据建模,而没有有效利用图关联关系和上下文数据,在我们今天提到的这类关联场景中,这类信息至关重要。如果不考虑关联,单独看每个索赔/提供者都像是合法的。

在下面内容中,ShowMeAI 会演示把结构化表格数据转换为图,并提取图特征进而增强机器学习模型方法示例。包括下面几个环节:

  • 将结构化数据提取到 Python 图结构中
  • 图数据的特征工程
  • 将图特征整合到机器学习管道中

📌 将结构化数据提取到图结构中

我们这里用到Python图工具 📘iGraph 来完成基本操作,它可以有效地和 pandas Dataframe 等结构结合。

数据集来自医疗保险领域,包括提供者提出的索赔以及每项索赔的受益人信息,可以通过 ShowMeAI 的百度网盘地址下载。

🏆 实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『 实战』,或者点击 这里 获取本文 [[16]图数据挖掘!使用图分析+AI进行保险欺诈检测]( https://www.showmeai.tech/article-detail/307)insurance claims 保险索赔数据集

ShowMeAI官方GitHubhttps://github.com/ShowMeAI-Hub

具体的信息包括:

  • 患者相关特征:年龄、性别、位置、健康状况等。
  • 索赔相关特征:起止日期、索赔金额、诊断代码、程序代码、提供者、主治医师、手术医师等。

我们本篇中的节点主要选取了『提供者』和『主治医师』,分别对应目标。(以下仅提供核心代码作为示例)

# 导入包 
from igraph import *
import pandas as pd

# 读取数据
df = pd.read_csv('CLAIM.csv')
G_df = df[['CLAIM_ID', 'POLICYHOLDER_ID']]

# 从Dataframe创建Graph无向图 
G = Graph.DataFrame(G_df, directed=False)

📌 图数据特征工程

我们可以使用图算法对图结构进行挖掘,拿到潜在有意义的表征特征,例如连接度量和基于关系的聚类特征,进而加强后续机器学习的检测效果。

Degree 度

节点的度可以定义为连接节点的边数。

degree = pd.DataFrame({'Node': G.vs["name"],
        'Degree': G.strength()})
degree.shape

closeness 接近中心性

在连通图中,节点的接近中心性(closeness)是网络中中心性的度量,计算为该节点与图中所有其他节点之间的最短路径长度之和的倒数。

closeness = pd.DataFrame({'Node': G.vs["name"],
        'Closeness': G.closeness()})
closeness.shape

Infomap 信息图

Infomap是一种能够实现高质量社区的图聚类算法。

communities_infomap = pd.DataFrame({'Node': G.vs["name"],
        'communities_infomap': G.community_infomap().membership})
communities_infomap.shape

我们把抽取的图特征合并成Dataframe,以便后续机器学习建模使用。

# 合并图特征 
graph_feature = [degree, closeness, communities_infomap]
graph_feature = reduce(lambda left,right: pd.merge(left,right, how = 'left',on='Node'), graph_feature)

📌 将图特征整合到机器学习管道中

接下来我们将图特征合并到原始数据中,并基于时间对数据集拆分,从而为机器学习模型准备完整的数据。

train = Final_Dataset_Train[Final_Dataset_Train['ClaimStartDt'] < '2009-10-01'].reset_index(drop = True).drop('ClaimStartDt', axis = 1)
print(train.shape)
test = Final_Dataset_Train[Final_Dataset_Train['ClaimStartDt'] >= '2009-10-01'].reset_index(drop = True).drop('ClaimStartDt', axis = 1)
print(test.shape)x_tr = train.drop(axis=1,columns=['PotentialFraud'])
y_tr = train['PotentialFraud']x_val = test.drop(axis=1,columns=['PotentialFraud'])
y_val = test['PotentialFraud']

下面,为了进行对比,我们使用 2 个算法和 3 类特征,建模和对比效果:

算法

  • 逻辑回归
  • 随机森林

特征空间

  • 原始功能
  • 原始特征+节点级特征
  • 原始特征+节点级特征+聚类特征
# 建模示例代码
lr = LogisticRegression(penalty='none', solver='saga', random_state=42, n_jobs=-1)
rf = RandomForestClassifier(n_estimators=300, max_depth=5, min_samples_leaf=50, 
                            max_features=0.3, random_state=42, n_jobs=-1)
lr.fit(x_tr, y_tr)
rf.fit(x_tr, y_tr)
preds_lr = lr.predict_proba(x_val)[:,1]
preds_rf = rf.predict_proba(x_val)[:,1]

我们使用 AUC 作为测试集的评估指标,ROC 曲线如下:

结合最终的效果图,可以很清晰地看到:

  • 具有图特征的模型表现出色
  • 节点级别特征效果非常好
  • 聚类特征对结果也有补充作用

💡 总结

对于关联型业务场景,我们可以查询、可视化和分析图数据,构建有效的信息支撑更强大的商业欺诈方案,特别是对于试图通过复杂网络结构隐藏的欺诈活动,相比传统方法有很大效果提升。

将关系信息和图的预测特征添加到机器学习管道中可以提高模型性能,针对多方参与欺诈活动的场景尤其明显。

参考资料

目录
相关文章
|
2月前
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
|
3月前
|
人工智能 监控 安全
ai换脸?分析一下双刃剑
随着技术进步,“换脸”技术在身份验证中的应用日益广泛,但也引发了一系列问题,如侵犯肖像权、隐私泄露、虚假信息传播及身份盗用等。尽管国家尚未全面禁止换脸软件,已出台多项法规加强监管,确保技术合法、安全应用。未来,平衡技术利弊与社会需求将是关键。换脸技术在影视娱乐、社交媒体和医学领域展现出巨大潜力,但仍需谨慎使用,避免滥用。
|
7天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与体育训练:运动表现分析
【10月更文挑战第31天】本文探讨了AI在体育训练中的应用,特别是在运动表现分析方面。通过数据收集与处理、深度分析与挖掘、实时反馈与调整三个环节,AI为运动员和教练提供了高效、个性化的训练计划和比赛策略,显著提升了训练效率和比赛成绩。未来,AI将在数据隐私、情感理解及跨学科合作等方面继续发展,为体育事业带来更多可能性。
|
1月前
|
人工智能 自然语言处理 算法
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
【10月更文挑战第8天】几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
65 1
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
Nyx
|
28天前
|
人工智能 监控 算法
AI大模型客户分析体验测评
该方案介绍了利用AI大模型进行客服对话分析的原理和优势,如智能化分析和数据驱动决策。然而,方案缺乏具体的技术细节和实施步骤,如模型选择和训练方法。部署过程中可能遇到的困惑包括CRM系统集成、数据安全和非结构化数据处理。示例代码具有较高的直接应用性,但仍需根据业务逻辑定制。方案能满足基本对话分析需求,但对复杂场景如多轮对话和情感分析,建议提供更多技术文档、行业预训练模型、增强模型可解释性和性能监控工具。
Nyx
46 1
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
AI在医疗诊断中的应用与未来发展趋势分析
【10月更文挑战第9天】 本文深入探讨了人工智能(AI)在医疗诊断领域的现状及其应用,包括影像识别、临床数据处理及个性化治疗方案的制定。通过具体案例分析,展示了AI技术如何提高诊断准确性、缩短诊断时间,并减轻医生的工作负担。同时,本文还讨论了AI在医疗诊断中面临的伦理问题和法律障碍,以及解决这些问题的可能途径。最后,对AI在未来医疗行业中的发展潜力进行了展望,指出其在提升医疗服务质量和效率方面的巨大潜力。
64 2
|
1月前
|
机器学习/深度学习 人工智能 JSON
微信小程序原生AI运动(动作)检测识别解决方案
近年来,疫情限制了人们的出行,却推动了“AI运动”概念的兴起。AI运动已在运动锻炼、体育教学、线上主题活动等多个场景中广泛应用,受到互联网用户的欢迎。通过AI技术,用户可以在家中进行有效锻炼,学校也能远程监督学生的体育活动,同时,云上健身活动形式多样,适合单位组织。该方案成本低、易于集成和扩展,已成功应用于微信小程序。
|
1月前
|
机器学习/深度学习 人工智能 监控
AI与未来医疗:重塑健康产业的双刃剑随着科技的迅猛发展,人工智能(AI)正以前所未有的速度融入各行各业,其中医疗领域作为关系到人类生命健康的重要行业,自然也成为AI应用的焦点之一。本文将探讨AI在未来医疗中的潜力与挑战,分析其对健康产业可能带来的革命性变化。
在医疗领域,人工智能不仅仅是一种技术革新,更是一场关乎生死存亡的革命。从诊断到治疗,从后台数据分析到前端临床应用,AI正在全方位地改变传统医疗模式。然而,任何技术的发展都有其两面性,AI也不例外。本文通过深入分析,揭示AI在医疗领域的巨大潜力及其潜在风险,帮助读者更好地理解这一前沿技术对未来健康产业的影响。
|
30天前
|
机器学习/深度学习 人工智能 算法框架/工具
基于人体姿势估计的舞蹈检测(AI Dance based on Human Pose Estimation)
基于人体姿势估计的舞蹈检测(AI Dance based on Human Pose Estimation)
51 0
|
3月前
|
人工智能 自然语言处理 搜索推荐
评测:AI客服接入钉钉与微信的对比分析
【8月更文第22天】随着人工智能技术的发展,越来越多的企业开始尝试将AI客服集成到自己的业务流程中。本文将基于《10分钟构建AI客服并应用到网站、钉钉或微信中》的解决方案,详细评测AI客服在钉钉和微信中的接入流程及实际应用效果,并结合个人体验分享一些心得。
9958 10