Python数据分析-运用机器学习的方法对保险反欺诈的预测分析

一、研究背景及意义

保险欺诈不仅会造成暂时性的损失、增加公司的运营管理难度,而且对于合法的消费者来说负担了本不属于自身承担的风险,损害了其合法权益。因此,提高对车险欺诈的识别率并据此形成防范对策对提高保险公司的利润与维护消费者利益具有重大的意义。

保险欺诈是指被保险人、受益人或投保人以非法获取保险金为目的,通过编造保险事故提出虚假索赔、夸大索赔金额等手段,意图获得超过合法权益的利益。现阶段我国车险欺诈主要存在以下趋势:一是隐蔽性加强,欺诈人员的作案手法越来越高超,识别难度加大。。。。

二、研究目的和意义

本文通过分析车险欺诈的经济学理论、形式、特点,判断车险欺诈行为的成因,为本文建立反欺诈模型提供理论支撑。并结合我国车险欺诈案件的特点,选取国内车险业 务数据,建立多种种不同的机器学习模型进行实证分析。将机器学习技术与车险反欺诈相结合,将改变保险人传统的低效反欺诈模式,助力我国达到一流的反欺诈水平,具有一定的理论意义。。。。。

三、模型算法的机理

机器学习是计算机针对某一任务,从经验中学习,并且能越做越好的过 程。一般来说,机器学习中所谓的经验,都是以数据的方式存在,计算机程 序从这些数据中进行学习。学习的关键在于模型算法,它可以通过对已有数 据的学习,用于预测未知数据。

机器学习横跨了多个学科,如计算机科学、统计学等,而从事机器学习 的人不仅要有扎实的计算机知识和数学知识,还要对机器学习应用场景下的 业务知识十分了解。

根据学习方式的不同,可以将机器学习划分为几种类型:监督学习、无 监督学习、半监督学习、强化学习。开发机器学习应用时,可以尝试不同的 模型算法对数据进行处理,过程非常灵活,主要的步骤包括:定义问题、数 据采集、数据清洗、特征选择与处理、训练模型、模型评估与调优、模型使 用等。机器学习的算法有很多,常用的如线性回归、逻辑回归、决策树、神经网络、支持向量机等。。。。。

四、实证分析

本次数据分析的主要任务是根据数据集提供了之前客户索赔的车险数据,随后针对数据开发模型帮助公司预测哪些索赔是欺诈行为,即预测用户的车险是否为欺诈行为,从而针对不同的客户,采取不同的营销策略。

首先查看每个特征数据的具体含义,如下图:

代码和数据

报告代码数据

随后是读取训练集和测试集数据文件,然后分别查看数据前5行:

data=pd.read_csv('train.csv')
data2=pd.read_csv('test.csv')
data.head(5)

随后推断数据类型,让数据格式更加的规范 

###推断数据类型  让数据更规范
data.infer_objects()
data2.infer_objects()

查看数据基础信息 

接下来进行数据的预处理,首先观察缺失值,在这里使用missingno函数来可视化缺失值:

import missingno as msno
msno.matrix(data)

 由于所给定的数据集的数据十分规范,故没有缺失值。根据自己对整体数据的判断,删掉一些不需要的特征,但是值得注意的是特征删多了会对模型的泛化能力产生极大的影响。

首先对训练集取出y,对特征中的非数值型特征可以进行独热编码,随后查看训练集和测试集的形状,注意:有时候训练集和测试集的特征变量独热出来数量可能不一样,要处理一下。

for col in data.columns:
    if col not in data2.columns:
        data2[col]=0

然后需要对数据进一步细化处理,要把数据分为数值型和其他类型来看。

做机器学习当然需要特征越分散越好,因为这样就可以在X上更加有区分度,从而更好的分类。所以那些数据分布很集中的变量可以扔掉。

基于此,基本上完成了数据预处理的工作,现在可视化查看。

columns = data.columns.tolist() # 列表头
dis_cols = 7                   #一行几个
dis_rows = len(columns)
plt.figure(figsize=(4 * dis_cols, 4 * dis_rows))
 
for i in range(len(columns)):
    plt.subplot(dis_rows,dis_cols,i+1)
    sns.boxplot(data=data[columns[i]], orient="v",width=0.5)
    plt.xlabel(columns[i],fontsize = 20)
plt.tight_layout()
#plt.savefig('特征变量箱线图',formate='png',dpi=500)
plt.show()

查看训练集和测试集变量的分布,此处为核密度图。

随后查看响应变量的分布。

%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi']  #中文
plt.rcParams['axes.unicode_minus'] = False   #负号
plt.figure(figsize=(6,2),dpi=128)
plt.subplot(1,3,1)
y.plot.box(title='响应变量箱线图')
plt.subplot(1,3,2)
y.plot.hist(title='响应变量直方图')
plt.subplot(1,3,3)
y.plot.kde(title='响应变量核密度图')
#sns.kdeplot(y, color='Red', shade=True)
#plt.savefig('响应变量.png')
plt.tight_layout()
plt.show()

到这里,数据的预处理基本上也就结束了,接下来进行模型的选择和预测。

首先划分训练集和验证集,如下:

from sklearn.model_selection import train_test_split
X_train,X_val,y_train,y_val=train_test_split(data,y,test_size=0.2,random_state=0)

然后将数据都标准化,再查看形状。接下来进行模型选择和优化

from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from xgboost.sklearn import XGBClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
from sklearn.naive_bayes import BernoulliNB
from sklearn.ensemble import AdaBoostClassifier  ##自适应提升Adaboost
from sklearn.neighbors import KNeighborsClassifier
#K近邻
model1 = KNeighborsClassifier(n_neighbors=10)
##二项朴素贝叶斯(伯努利)
model2 = BernoulliNB(alpha=1)
#K近邻
model3 = KNeighborsClassifier(n_neighbors=50)
#随机森林
model4= RandomForestClassifier(n_estimators=1000,  max_features='sqrt',random_state=10)

 
model_list=[model1,model2,model3,model4]
model_name=['K近邻','二项朴素贝叶斯(伯努利)','K近邻','随机森林']
#  计算AUC指标,并画图
from sklearn.metrics import plot_roc_curve
plot_roc_curve(model, X_val_s, y_val)
x = np.linspace(0, 1, 100)
plt.plot(x, x, 'k--', linewidth=1)

 

至此,完成了数据分析和预测的全过程。

最终结果显示为:

K近邻方法在验证集的准确率为:0.75

二项朴素贝叶斯(伯努利)方法在验证集的准确率为:0.7428571428571429

K近邻方法在验证集的准确率为:0.7428571428571429

随机森林方法在验证集的准确率为:0.7785714285714286

从上结果我们可以看出,随机森林模型在对保险反欺诈行为预测中的预测结果最好。

五、结论

通过分析机器学习介入的必要性,得出了机器学习的高效率可以扩大案件调查范围,适应不断更迭的车险欺诈形式,也可以减少理赔人员的重复工作。得益于车险行业的大数据,新时代的机器学习技术的发展和十四五规划、车险综合改革等政策,验证了机器学习助力车险反欺诈是可行之路。更重要的是,通过机器学习的预测,我们知道了哪些是重要客户,哪些的不良客户,从而也为我们的营销策略指明了方向,更加有利于企业开展营销和交易。。。。。

参考文献

  1. 夏淑洁,杨朝阳,周常恩,辛基梁,张佳,杜国栋,李灿东.常见机器学习方法在中医诊断领域的应用述评[J].广州中医药大学,2021,38(04):826-831.DOI:10.13359/j.cnki.gzxbtcm.2021.04.032.
  2. 尚永杰,茅宇豪,廖宏,胡建林,邹泽庸.基于随机森林的南京市PM_(2.5 )和O_(3) 对减排的响应[J/OL].环境科学:1-18[2022-12-20].DOI:10.13227/j.hjkx.202209163.

创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/739704.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

VERYCLOUD睿鸿股份亮相亚马逊云科技中国峰会2024

5月30日,为期两天的亚马逊云科技中国峰会在上海世博中心圆满落幕。 多位大咖现场分享,生成式AI时代的数据战略,企业级AI应用,最新技术、产品重磅发布,创新行业解决方案 …… 作为亚马逊云科技的生态合作伙伴&#x…

如何用IDEA(2024版)从github上拉取一个项目

前置要求: 确保你已经安装了 IntelliJ IDEA。确保你已经安装了 Git 工具并配置好了环境变量。确保你有一个 GitHub 账户,并且你想要克隆的仓库可以被你访问。 具体步骤: 1. 打开 IntelliJ IDEA 启动 IntelliJ IDEA。如果这是你第一次启动…

AIGC-商业设计大师班,商业设计全流程(22节课)

课程内容: 02.AIGC大师计划(百天磨炼,只为让你一次成为大师).mp4 03.这5个细心的翻译工具我想全部告诉你(感受不到的工具才是好工具),mp4 04.扎实的基础是成功的关键(汇聚精华指导新功能演示方法).mp4 05.AI绘画大师级十二体咒语书写(大师级起步).mp…

祛寒湿效果最好的40天到了!4个方法,助你把堵在体内的寒和湿排出去~

莫名犯困、身体沉重、没有食欲、嘴里发黏……遇上这些症状,很可能是你被寒湿偷袭了。 “热在三伏、冷在三九”,最热的时候,也是排湿祛寒最佳的时段,抓住三伏“冬病夏治”黄金40天,这段时间调理好了可以事半功倍&#x…

数智化浪潮下的零售品牌商品计划革新

在数字化和智能化交织的时代背景下,零售品牌的商品计划正在经历一场前所未有的革新。这场革新不仅改变了商品计划的方式和流程,更重塑了零售品牌的竞争格局和市场地位。 一、数智化:零售品牌的新引擎 在快速变化的市场环境中,零…

React 扩展

文章目录 PureComponent1. 使用 React.Component,不会进行浅比较2. 使用 shouldComponentUpdate 生命周期钩子,手动比较3. 使用 React.PureComponent,自动进行浅比较 Render Props1. 使用 Children props(通过组件标签体传入结构&…

docker-compose离线安装harbor

1、下载harbor goharbor下载:Releases goharbor/harbor GitHub harbor-offline-installer-v2.11.0.tgz 2、解压 tar -xvf harbor-offline-installer-v2.11.0.tgz 3、创建一个卷目录,并复制一份配置文件 cd harbor; mkdir data;cp harbor.yml.tmp…

Kotlin设计模式:享元模式(Flyweight Pattern)

Kotlin设计模式:享元模式(Flyweight Pattern) 在移动应用开发中,内存和CPU资源是非常宝贵的。享元模式(Flyweight Pattern)是一种设计模式,旨在通过对象重用来优化内存使用和性能。本文将深入探…

操作系统真象还原:用户进程

第11章-用户进程 这是一个网站有所有小节的代码实现,同时也包含了Bochs等文件 11.1 为什么要有任务状态TSS Linux 任务切换未采用 Intel 的做法,而是用了一套自己的方法,只是用了 TSS 的一小部分功能。 操作系统最直接控制的就是 CPU&…

解析 flink sql 转化成flink job

文章目录 背景流程flink实例实现细节定义的规则定义的物理算子定义的flink exec node 背景 在很多计算引擎里,都会把sql 这种标准语言,转成计算引擎下底层实际的算子,因此理解此转换的流程对于理解整个过程非常重要 流程 flink实例 public…

日常饮水中的风险来自哪里?

一杯透明、澄澈的饮用水 是你一天工作、学习和生活的动力源泉 但在你准备饮用时 如何确定水中就没有致病菌呢 联合国报告 世界上有26%的人喝不到干净卫生的饮用水1 为什么? 卫生设施缺乏 环保意识差 对水资源的保护不足 ... 这些因素叠加造成了饮用水的污…

Debian12中搭建TiddlyWiki服务并进行配置

一、Node.js 环境安装 apt update & apt install nodejs npm ## 查看版本 node -v npm -v二、安装Tiddlywiki npm install -g tiddlywiki## 查看版本号 tiddlywiki --version 三、配置并运行 tiddlywiki ## 在/home 目录自动创建Testwiki文件夹,作为wiki的存…

福昕PDF编辑器(Foxit PDF Editor)修改成中文显示

双击打开Foxit PDF Editor 点击File->Preferences 从左侧下拉菜单找到Languages选项点击,然后在右边选择Chinese-Simplfied(简体中文),点击OK 点击下面的Restart Now立刻重启Foxit PDF Editor软件 重启后,发现软件已…

Charles 显示内存不足解决方法

弹窗出现:Charles is running low on memory. Recording has been stopped. Please clear the session to free memory and continue recording. 官网解决方法: Charles runs out of memory After recording for a while Charles will run low on ava…

国内顶级汽车制造厂的创新实践:如何利用实时数据湖为更多业务提供新鲜数据?

使用 TapData,化繁为简,摆脱手动搭建、维护数据管道的诸多烦扰,轻量代替 OGG、DSG 等同步工具,「CDC 流处理 数据集成」组合拳,加速仓内数据流转,帮助企业将真正具有业务价值的数据作用到实处&#xff0c…

CodeFuse 开源官网上线啦~

Hello ! 这里是 CodeFuse ~ CodeFuse 的使命是开发专门设计用于支持整个软件开发生命周期的大型代码语言模型(Code LLMs),涵盖设计、需求、编码、测试、部署、运维等关键阶段。我们致力于打造创新的解决方案,让软件开发者们在研发…

MacOS 中 Agent 图标删除

这个是战网没有完全卸载赶紧导致的 在访达中点击前往文件夹,输入: /Users/Shared将对应的目录删掉即可。会提示需要输入密码。

Swift Combine — Debounce和Throttle的理解与使用

Debounce 和 Throttle 是两种常用的操作符,用于控制数据流的频率和处理延迟。但它们的实现方式略有不同。理解这些差异对于在Combine代码中做出正确选择至关重要。 Debounce Debounce 操作符用于限制数据流的频率,只有在指定的时间间隔内没有新数据到达…

Information security in DLMS/COSEM(Green-Book)—认证机制

Information security in DLMS/COSEM 9.2.1 概述9.2.2 DLMS/COSEM安全概念9.2.2.1 概述 9.2.2.1 概述9.2.2.2 身份识别和认证9.2.2.2.1 身份识别9.2.2.2.2 认证机制9.2.2.2.2.1 概述 无安全认证(Lowest Level Security):低级别安全认证&#…

Vue3 + Element-plus + TS —— 动态表格自由编辑

前期回顾 《 穿越时空的代码、在回首:Evil.js两年后的全新解读 》-CSDN博客 Vue3 TS Element-Plus 封装Tree组件 《亲测可用》_ https://blog.csdn.net/m0_57904695/article/details/131664157?spm1001.2014.3001.5501 态表格 自由编辑 目录 ♻️ 效果图…