人社大赛算法赛题解题思路分享+季军+三马一曹团队

团队成员介绍:

梅鵾            上海交通大学    众安科技    算法工程师

吴栋梁         复旦大学          众安科技    算法工程师    

李玉娇         复旦大学          众安科技    算法工程师

一、赛题背景分析及理解

本赛题提供了部分地区2016年度的医疗保险就医结算脱敏数据,主要包括人员医疗费用记录以及费用明细等信息,希望通过算法模型实现对各类医疗保险基金欺诈违规行为的精准识别。本题是经典的二分类问题,评价指标是F1 score,可以利用医疗费用记录和费用明细数据,结合涉嫌造假相关业务,进行特征工程设计,然后选择合适的算法构建模型。

二、核心思路

核心思路包括数据预处理,特征工程,模型设计与调优。

2.1  数据预处理

首先我们对医疗费用记录和费用明细表进行了统计分析,发现只有2016年7月到12月存在费用记录数据,有效数据为6个月。同时我们对表中缺失的费用金额字段和重要的费用明细字段进行填充,利用不同金额之间的关系进行填充(如上图所示)。并通过这些金额关系理清报销金额之间的业务关系,方便我们设计金额之间的比例特征。

通过对费用明细表字段与金额进行分析,发现三目项目分别对应药品类,检查类,诊疗类,手术类,床位类,医用材料类,挂号和输血类,其中药品类和诊疗类占比最高。同时我们对疾病中文字段进行切分处理,变成比较规范的疾病名称。

2.2  特征工程

结合对数据以及欺诈业务的理解,主要设计了五部分特征:费用基础特征, 明细基础特征,疾病特征,药品特征以及医院特征。其中基础特征使用滑窗法进行提取(具体理由见上图),其中窗口大小设定为7d,15d,30d,60d,通过编写Map-Reduce程序实现,其他特征主要使用sql进行提取。下面简要说明各部分特征的设计逻辑和组成部分。

1)   费用基础特征:

就诊频次
就诊不同医院个数
各费用的汇总统计量,包括最大值,最小值,均值
相关费用的比例统计量,包括最大值,最小值,均值

费用基础特征描述人员不同费用的报销情况和报销比例等报销情况。费用比例特征可以体现费用表在总体中异常的费用情况。

2)   三目明细基本特征:

  • 报销单数
  • 总的药品数量和金额
  • 药品类报销次数,金额以及比例
  • 检查类报销次数,金额以及比例
  • 诊疗类报销次数,金额以及比例
  • 手术类报销次数,金额以及比例
  • 床位类报销次数,金额以及比例
  • 医用材料类报销次数,金额以及比例
  • 挂号类报销次数,金额以及比例
  • 输血类报销次数,金额以及比例

3)   疾病特征

选出出现次数较多的12种疾病,采用one-hot编码方式,从而描述社保人员的就诊疾病情况。

4)   药品特征

选出出现次数最多的24种药品,计算每个社保用户每个药品的取药金额的总和。描述社保人员购买药品情况。

5)   医院特征

我们根据医院欺诈率对医院ID进行排序处理,然后对所有的医院进行分箱,设计医院欺诈等级特征,用来描述社保人员看病医院偏好。

查看本文全部内容,欢迎访问天池技术圈官方地址:人社大赛算法赛题解题思路分享+季军+三马一曹团队_天池技术圈-阿里云天池

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/528820.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

改进YOLOv8注意力系列七:结合空间关系增强注意力SGE、SKAttention动态尺度注意力、TripletAttention

改进YOLOv8注意力系列七:结合空间关系增强注意力SGE、SKAttention动态尺度注意力、全局上下文信息注意力Triplet Attention 代码Spatial Group Enhance (SGE)SKAttention动态尺度注意力全局上下文信息注意力Triplet Attention(无参)加入方法各种yaml加入结构本文提供了改进 Y…

openGauss 5.0 单点企业版部署_Centos7_x86(上)

背景 通过openGauss提供的脚本安装时,只允许在单台物理机部署一个数据库系统。如果您需要在单台物理机部署多个数据库系统,建议您通过命令行安装,不需要通过openGauss提供的安装脚本执行安装。 本文档环境:CentOS7.9 x86_64 4G1…

IDEA import时不使用*

在使用 IDEA 进行开发时,会经常使用到 import 关键字导入所需的类。 IDEA 默认设置是同包类是超过 5 个或者静态导入超过 3 个变成 import xxx.*。 但 import xxx.* 的形式会造成一些用不到的类被引入,导致资源浪费,最好还是不使用这种方式…

雷达学习之多普勒频率

一、多普勒频率如何产生? 雷达的原理是发射一些无线电脉冲来探测目标,并通过回波的延时来计算目标与雷达的距离,但当目标为运动物体时,在回波向目标传输的同时,目标也会远离或接近回波,所以会导致回波信号…

【git】checkout origin/xxx 出现 detached HEAD问题

git 检出远程分支出现Head分离的是什么原因导致的呢?? 因为Head指向了origin的一个commit, 但是这个origin分支你的本地又没有,也就是说你本地没有追踪这个分支,那就要track一下 git checkout -h 看一下有没有追踪的命令 果不其…

【golang】动态生成微信小程序二维码实战下:golang 生成 小程序二维码图片 并通过s3协议上传到对象存储桶 | 腾讯云 cos

项目背景 在自研的系统,需要实现类似草料二维码的功能 将我们自己的小程序,通过代码生成相想要的小程序二维码 代码已经上传到 Github 需要的朋友可以自取 https://github.com/ctra-wang/wechat-mini-qrcode 一、生成Qrcode并提交到对象存储 通过源生A…

前端:自制年历

详细思路可以看我的另一篇文章《前端:自制月历》,基本思路一致,只是元素布局略有差异 ①获取起始位startnew Date(moment().format(yyyy-01-01)).getDay() ②获取总的格子数numMath.ceil(365/7)*7,这里用365或者366计算结果都是一样的371 …

数据库中了勒索病毒怎么办?(数据库恢复的终极大招DUL)

数据库如何预防勒索病毒 接上文,如果数据库中了勒索病毒,并且备份也同样被攻陷,那该怎么办?以最为常见的Lockbit3.0为例,LockBit采用先进的加密算法,通常是对称密钥加密和非对称密钥加密的组合。这使得被感…

适合虚拟主持人活动的全身动作捕捉设备:VDSuit Full

在虚拟主持人领域,全身动作捕捉设备一直以其逼真的效果和生动的表现力备受瞩目。相比光学全身动作捕捉设备,惯性全身动作捕捉设备更适合应用在企业品牌虚拟主持人发布会、虚拟主持人直播等活动场合。 广州虚拟动力全身动作捕捉设备VDSuit Full&#xff0…

OSCP靶场--Nagoya

OSCP靶场–Nagoya 考点 1.nmap扫描 ## ┌──(root㉿kali)-[~/Desktop] └─# nmap 192.168.214.21 -sV -sC -Pn --min-rate 2500 -p- Starting Nmap 7.92 ( https://nmap.org ) at 2024-04-02 08:52 EDT Nmap scan report for 192.168.214.21 Host is up (0.38s latency).…

colmap安装问题汇总

问题目录 问题0、没有root权限怎么安装colmap? 问题1、ERROR: SiftGPU not fully supported/Could not connect to any X display 问题2、Cannot specify include directories for imported target "freeimage::FreeImage". 问题3、could not find ZL4 问…

鸿蒙ArkUI开发学习:【渲染控制语法】

ArkUI开发框架是一套构建 HarmonyOS / OpenHarmony 应用界面的声明式UI开发框架,它支持程序使用 if/else 条件渲染, ForEach 循环渲染以及 LazyForEach 懒加载渲染。本节笔者介绍一下这三种渲染方式的使用。 if/else条件渲染 使用 if/else 进行条件渲染…

AI大模型的10大趋势预判!

大模型发展竞争愈发激烈。全球瞩目的文生视频Sora、谷歌Gemini 1.5、Meta的V-JEPA以及超越GPT4的Claude3相继发布。Open AI的GPT5也即将问世。奥特曼不仅自研芯片,还投资可控核聚变公司,以算力和能源为未来储备关键资源。 在算力紧平衡和数据资源荒的背…

俄罗斯留学有哪些世界一流的名校呢,柯桥留学俄语培训

有哪些世界一流的名校呢 ☢ 理工类院校 俄罗斯是科教大国,高等教育水平位于世界前列,拥有许多国际著名大学。众多世界知名大学拥有很多独具特色的优势专业,其中理工类大学得天独厚的专业性也是被世界所认可的。凭着其高水准的教育&#xff…

gitee和idea集成

1 集成插件 2 配置账号密码 3 直接将项目传到仓库 4直接从gitee下载项目

yolov5交互式界面 通用界面-yolo-pyqt-gui(通用界面制作+代码-V5.0-6.0版本)

"YOLOv5交互式界面 - 通用界面-YOLO-PyQt-GUI" 它为YOLOv5的目标检测模型提供了一个用户友好的图形化操作界面。该项目通常基于Python的PyQt库构建,用于封装YOLOv5的功能,并将其转化为可视化工具,使得非专业开发人员也能便捷地使用…

超越接口:探索Dubbo的泛化调用机制

欢迎来到我的博客,代码的世界里,每一行都是一个故事 超越接口:探索Dubbo的泛化调用机制 前言泛化调用的概念Dubbo 中泛化调用的工作原理泛化实现动态RPC泛化调用的高级用法参数和返回值处理异常处理和错误处理策略 controller实践 前言 在现…

为什么 MySQL 采用 B+ 树作为索引?

资料来源 : 小林coding 小林官方网站 : 小林coding (xiaolincoding.com) 「为什么 MySQL 采用 B 树作为索引?」这句话,是不是在面试时经常出现。 要解释这个问题,其实不单单要从数据结构的角度出发,还要考虑磁盘 I/O 操作次数&am…

C语言-函数指针-快速排序算法(书籍示例-入门)

概述 使用C语言,实现结构体多元素,排序算法(冒泡排序),这里使用示例:书籍示例讲解 函数简介 函数声明 void qsort(void *base, size_t nitems, size_t size, int (*compar)(const void *, const void*)) 参…

一维差分数组

797. 差分 输入一个长度为 n 的整数序列。接下来输入 m 个操作,每个操作包含三个整数 l,r,c,表示将序列中 [l,r] 之间的每个数加上 c。 请你输出进行完所有操作后的序列。 输入格式 第一行包含两个整数 n和 m 第二行包含 n个整数,表示整数序…