团队成员介绍:
梅鵾 上海交通大学 众安科技 算法工程师
吴栋梁 复旦大学 众安科技 算法工程师
李玉娇 复旦大学 众安科技 算法工程师
一、赛题背景分析及理解
本赛题提供了部分地区2016年度的医疗保险就医结算脱敏数据,主要包括人员医疗费用记录以及费用明细等信息,希望通过算法模型实现对各类医疗保险基金欺诈违规行为的精准识别。本题是经典的二分类问题,评价指标是F1 score,可以利用医疗费用记录和费用明细数据,结合涉嫌造假相关业务,进行特征工程设计,然后选择合适的算法构建模型。
二、核心思路
核心思路包括数据预处理,特征工程,模型设计与调优。
2.1 数据预处理
首先我们对医疗费用记录和费用明细表进行了统计分析,发现只有2016年7月到12月存在费用记录数据,有效数据为6个月。同时我们对表中缺失的费用金额字段和重要的费用明细字段进行填充,利用不同金额之间的关系进行填充(如上图所示)。并通过这些金额关系理清报销金额之间的业务关系,方便我们设计金额之间的比例特征。
通过对费用明细表字段与金额进行分析,发现三目项目分别对应药品类,检查类,诊疗类,手术类,床位类,医用材料类,挂号和输血类,其中药品类和诊疗类占比最高。同时我们对疾病中文字段进行切分处理,变成比较规范的疾病名称。
2.2 特征工程
结合对数据以及欺诈业务的理解,主要设计了五部分特征:费用基础特征, 明细基础特征,疾病特征,药品特征以及医院特征。其中基础特征使用滑窗法进行提取(具体理由见上图),其中窗口大小设定为7d,15d,30d,60d,通过编写Map-Reduce程序实现,其他特征主要使用sql进行提取。下面简要说明各部分特征的设计逻辑和组成部分。
1) 费用基础特征:
就诊频次
就诊不同医院个数
各费用的汇总统计量,包括最大值,最小值,均值
相关费用的比例统计量,包括最大值,最小值,均值
费用基础特征描述人员不同费用的报销情况和报销比例等报销情况。费用比例特征可以体现费用表在总体中异常的费用情况。
2) 三目明细基本特征:
- 报销单数
- 总的药品数量和金额
- 药品类报销次数,金额以及比例
- 检查类报销次数,金额以及比例
- 诊疗类报销次数,金额以及比例
- 手术类报销次数,金额以及比例
- 床位类报销次数,金额以及比例
- 医用材料类报销次数,金额以及比例
- 挂号类报销次数,金额以及比例
- 输血类报销次数,金额以及比例
3) 疾病特征
选出出现次数较多的12种疾病,采用one-hot编码方式,从而描述社保人员的就诊疾病情况。
4) 药品特征
选出出现次数最多的24种药品,计算每个社保用户每个药品的取药金额的总和。描述社保人员购买药品情况。
5) 医院特征
我们根据医院欺诈率对医院ID进行排序处理,然后对所有的医院进行分箱,设计医院欺诈等级特征,用来描述社保人员看病医院偏好。