2023年金融科技建模大赛(初赛)开箱点评-基于四川新网银行数据集

各位同学大家好,我是Toby老师。2023年金融科技建模大赛(初赛)从今年10月14日开始,11月11日结束。

图片

比赛背景

发展数字经济是“十四五”时期的重大战略规划。2023年,中共中央、国务院印发了《数字中国建设整体布局规划》,提出建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。加快数字中国建设,对全面建设社会主义现代化国家、全面推进中华民族伟大复兴具有重要意义和深远影响。其中,做强做优做大数字经济,推动数字技术和实体经济深度融合,在农业、工业、金融、教育、医疗、交通、能源等重点领域,加快数字技术创新应用。金融科技聚焦数字经济时代之下的金融领域,其在大数据、人工智能、云计算等颠覆性科技在金融行业的创新应用,正在深刻影响金融业务的发展和转型。金融科技正成为金融发展不可或缺的核心要素。

在此背景下,由四川省教育厅主办,西南财经大学承办“2023年全国大学生金融科技建模大赛暨第四届四川省大学生金融科技建模大赛”将于10月14日开赛。本届大赛得到四川新网银行股份有限公司和东方财富信息股份有限公司的大力支持,将金融科技建模大赛定位成全国一流的新财经学科竞赛。现将有关事项通知如下:

一、组织架构

主办单位:四川省教育厅

承办单位:西南财经大学

协办单位:西南财经大学金融学院、西南财经大学教务处、西南财经大学经管实验教学中心、西南财经大学金融建模协会

支持单位:四川新网银行股份有限公司、东方财富信息股份有限公司

二、比赛目的

2023年全国大学生金融科技建模大赛暨第四届四川省大学生金融科技建模大赛面向全国高校全日制专科生、本科生及研究生,提出金融行业的智能决策问题,要求参赛选手利用脱敏数据,自发探索宏观数据,完成建模过程、呈现解决方案。旨在通过赛事帮助参赛者触摸金融科技行业前沿课题,学以致用,培养解决实际问题的综合能力和知识应用能力。

三、赛项说明

1.参赛对象:本次大赛面向全国高校的全日制专科生、本科生和研究生

2.参赛语言:Python

3.赛题设置:本次比赛的主题是“客户复购行为预测”。银行不仅关注新客户获客,也关注老客户的复购行为,希望增加客户黏性。客户在金融产品和服务上的重复购买行为越多,客户黏性越大。银行可以通过识别这些黏性客户,更好地分析他们的需求,并向他们推送新产品,进行客户关系管理。本次比赛的目标是对客户复购频率的三分类预测。比赛选手需要根据客户信息(包括基础客户画像信息、产品购买行为信息以及第三方客户画像补充信息)预测客户复购行为标签:低频(0)、中频(1)、高频(2),并根据客户平均价值(低频1、中频3、高频5),在独立样本上检验预测准确性(加权准确性)。

4.参赛形式:参赛形式为个人赛,每人需填报一名指导老师,指导老师需为本校专兼职教师。

四、竞赛流程

(一)竞赛报名

1.报名时间:2023年9月29日-2023年11月11日

(二)竞赛时间

报名阶段:(9月29日-11月11日)

本次大赛使用为该赛区专门搭建的基于Python程序语言的在线竞赛平台Credit Lab线上报名参加,按要求填写、上传相关信息并通过审核后完成报名。

初赛阶段:(10月14日-11月11日)

初赛时间为10月14日至11月11日,选手在报名审核通过后直接在比赛平台提供的云服务器进行模型构建和结果提交,比赛平台会自动对代码进行查重并且生成查重报告。除比赛提供的脱敏数据外,选手可使用choice数据库探索宏观数据优化模型。

复赛阶段:(11月11日-11月22日)

复赛为11月11日至11月22日,初赛阶段选手综合排名(分数计算方式章程中附件2中初赛评分标准)前50%的选手有资格进入复赛。复赛阶段组委会将更换数据集,复赛结束后将进行资格和结果复审,并按奖项设置颁发奖项。综合成绩靠前的选手将被邀请参加决赛。

决赛阶段:(11月30日)

决赛形式为现场或线上答辩,参赛选手对自己的建模思路进行展示,评委会会对知识和能力进行提问,组委会依据决赛最终成绩决出特别奖项。时间暂定为11月30日。

比赛评分规则

图片

参赛数据说明

图片

开箱点评:

这次模型竞赛目标变量有三个类别,比之前二分类模型要难。分类统计发现属于非平衡数据,0低频,1中频,2高频的人群占比分别为65%,20%,14.6%。看来消费频率高的人群占比并不高,只有14.6%。营销只要抓住了这14.6%高价值人群,即可实现利润最大化,行内人俗称智慧营销。智慧营销具体介绍可以参考之前文章《RMF模型-实现银行信用卡用户分级_电商VIP客户挖掘(精准营销/智慧营销)》,《谁主沉浮?银行,消金,互联网公司的精准营销_智慧营销完全解读(收藏)》。

图片

这是比赛数据的表格。

图片

这次模型竞赛的建模有3个表格需要整合,分别是X1_train,X2_train,X3_train。X1_train和X3_train是基础客户画像信息和第三方客户画像补充信息,共69个变量,用客户编号即可把这两个表数据链接在一起。X2_train是客户上一年产品购买行为信息,属于行为数据,隐藏了大量重要信息,但没法直接通过客户编号与其它2个表格整合。但我们可以写脚本数据预处理,从X2_train表里提取有价值衍生变量,组合到其它两个表里。

我把数据整理一下,整合为data.xls数据集,给大家看看。

图片

这次竞赛有大量数据预处理工作,包括很多变量没有价值,需要删除。例如下图变量绝大多数值为空缺值,或全部为空缺值,这些变量对模型没有意义,应该删除。

图片

图片

数据存在大量字符串类型数据的变量,需要转换为数值型后才能建模。

图片

我转换后把数据保存为encode_data.xls,大家看转换后就没有字符串数据类型的值了。

图片

通过变量价值评估,我发现很多变量价值低。我把价值含量低变量删除,只五十五个变量。

图片

通过相关性分析,发现大量高相关性变量。我们还能删除大量变量,预估20多个变量入模即可。

图片

这次竞赛是三分类器模型,我建模后得到target=0的性能如下

precision :0.90327381

sensitivity:0.70417633

f1_score:0.79139505

具体实现多分类器模型脚本在《python风控建模实战lendingClub》课程的《机器学习多分类模型解决方案-multiClass》章节可以找到,有现成脚本下载。

我把target的0和1合并后,建立筛选VIP客户的信用评分卡模型,下图见AUC: 0.79。模型质量还不错。

图片

通过设置评分卡,我们可以生成客户信用分数,如果信用分数越高,客户购物意愿越强,反之亦然。我们看客户编号为2的信用分数较高,为735分,购买意愿强,可以发送给营销部门重点推广。我们观察到客户编号为18的客户信用分数为570分,分数较低,购买意愿不强,不需要在这个客户上浪费营销资源。

图片

构建python信用评分卡模型具体代码和理论可以收藏课程了解教程《python信用评分卡建模(附代码)》

模型竞赛总结-僵尸数据

此模型竞赛整体设计较好,有一定难度,特别是在数据预处理上需要花很多功夫,不仅要关联3张表格,还要筛选有价值变量,处理各种数据类型的值。

模型竞赛不足的是变量没有中文释义,而且很多变量是脱敏后数据,缺乏实际意义。我们对这样数据称为僵尸数据,这样模型竞赛称为僵尸模型竞赛。参加僵尸模型竞赛不能得到有价值业务意义,只能为了玩数字游戏而玩数字游戏。比如我们在变量重要性分析时候,发现A3是一个非常重要变量,但不知道A3到底是什么,这样结论没法反馈到业务方。

变量没有中文释义,容易产生数据泄露问题。X2_train里存储着行为变量,我们可以从中挖掘大量有价值衍生变量。但这些行为变量可能发生数据泄露情况,需要业务知识来判断。我们不知道变量中文释义,就没法用业务知识筛选数据泄露变量,进而为模型存在隐患埋下伏笔。我之前写过数据泄露的相关文章可参考《数据泄露-揭秘机器学习模型如何作弊》。

我建议模型竞赛举报方以后用真实数据为学生建模,这样学生既能提高建模能力,又能把得到重要结论反馈给业务方,还能加深对业务理解能力。

作为写论文学生,这样模型竞赛很那用于写论文。没有中文释义变量怎么做用户画像?

因为僵尸数据,我不想在这项目花费太多时间,只从X2_train里衍生了一个B3变量入模,这个变量看着像客户评级,根据经验,应该能提升模型。我相信很多参赛者的模型性能比我好,他们从X2_train里提取了更多变量。

图片

唯一能够解释主办方用脱敏数据理由是担心泄露公司内部商业信息,Toby老师觉得主办方大可不必这样担忧。美国lendingclub,捷信举报的模型竞赛能够提供真实数据,我们只要隐藏客户身份证,电话等敏感信息即可,客户编号0,1,2又不能说明客户真实身份。即使我们通过数据挖掘发现一些问题,也可反馈给业务方,做出重大贡献,就像hacker找出bug,这是有利事情。隐瞒糟糕业务不一定是好事,就像恒大集团,不断隐瞒债务风险,最终暴雷。如果恒大集团早点发现和处理公司风险,就不会沦落成过街老鼠的形象了。

总之,我呼吁大家去参加基于真实数据的模型竞赛,可以获取最大收益。我期待明年主办方能提供更好数据为大家参赛。

欢迎学习更多风控建模相关知识《python金融风控评分卡模型和数据分析微专业课》,我们提供专业评分卡模型等知识,实现自动化信用评分功能

原创作者Toby,文章来源公众号:python风控模型,2023年金融科技建模大赛(初赛)开箱点评

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/116510.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

20.5 OpenSSL 套接字RSA加密传输

RSA算法同样可以用于加密传输,但此类加密算法虽然非常安全,但通常不会用于大量的数据传输,这是因为RSA算法加解密过程涉及大量的数学运算,尤其是模幂运算(即计算大数的幂模运算),这些运算对于计…

想学计算机编程从什么学起?零基础如何自学计算机编程?中文编程开发语言工具箱之渐变标签组构件

想学计算机编程从什么学起?零基础如何自学计算机编程? 给大家分享一款中文编程工具,零基础轻松学编程,不需英语基础,编程工具可下载。 这款工具不但可以连接部分硬件,而且可以开发大型的软件,…

【每日一题】数组中两个数的最大异或值

文章目录 Tag题目来源题目解读解题思路方法一:哈希集合 其他语言python3 写在最后 Tag 【哈希集合】【位运算-异或和】【数组】【2023-11-04】 题目来源 421. 数组中两个数的最大异或值 题目解读 找出数组中两个数的最大异或结果。 解题思路 一看数据量达到了 …

【深度学习基础】Pytorch框架CV开发(1)基础铺垫

📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…

Docker的简单安装

安装环境 CentOS Linux release 8.1.1911 (Core)内核4.18.0-147.el8.x86_64Mini Installation 安装前的准备工作 切换国内源 由于centos源已经过期,所以切换为阿里云的yum源,第二个是docker的仓库 wget -O /etc/yum.repos.d/CentOS-Base.repo https:…

vue需求:实现签章/签字在页面上自由定位的功能(本质:元素在页面上的拖拽)

目录 第一章 效果展示 第二章 了解工具 2.1 draggable 2.1.1 了解draggable 2.1.2 draggable方法 2.1.3 利用例子理解方法 第三章 效果实现 3.1 实现思路 3.2 代码实现 3.2.1 涉及到的点 3.2.2 源代 第一章 效果展示 效果描述:通过点击左边栏的签名和…

C#,数值计算——积分方程与逆理论,构造n点等间隔求积的权重的计算方法与源程序

1 文本格式 using System; namespace Legalsoft.Truffer { /// <summary> /// 构造n点等间隔求积的权重 /// Constructs weights for the n-point equal-interval quadrature /// from O to(n-1)h of a function f(x) times an arbitrary /// (pos…

十年JAVA搬砖路——Linux搭建Ldap服务器。

1.安装命令 yum -y install openldap compat-openldap openldap-clients openldap-servers openldap-servers-sql openldap-devel2.启动ldap systemctl start slapd systemctl enable slapd3.修改密码 slappasswd Aa123456获得返回的密码加密密码串&#xff1a; {SSHA}DkSw0…

免费(daoban)gpt,同时去除广告

一. 内容简介 免费(daoban)gpt&#xff0c;同时去除广告&#xff0c;https://chat18.aichatos.xyz/&#xff0c;也可当gpt用&#xff0c;就是有点广告&#xff0c;大家也可以支持一下 二. 软件环境 2.1 Tampermonkey 三.主要流程 3.1 创建javascript脚本 点击添加新脚本 …

2023第二届全国大学生数据分析大赛A题思路

某电商平台用户行为分析与挖掘 背景&#xff1a;电商是当今用户最大的交易市场之一&#xff0c;电商行业也逐渐成熟&#xff0c; 所有市场中可售卖的商品全都在平台中存在&#xff0c;并且在网络和疫情的影 响下&#xff0c;在线上的消费行为满足全年龄段用户。 用户的交易行为…

2023.11.4 Idea 配置国内 Maven 源

目录 配置国内 Maven 源 重新下载 jar 包 配置国内 Maven 源 <mirror><id>alimaven</id><name>aliyun maven</name><url>http://maven.aliyun.com/nexus/content/groups/public/</url><mirrorOf>central</mirrorOf> …

为你整理了一份抖音小店的高分打造指南

抖音小店是一种在抖音平台上运营的电商店铺。通过打造一个高分店铺&#xff0c;可以吸引更多用户关注和购买&#xff0c;提升销售业绩。下面四川不若与众将介绍一些打造高分店铺的方法。 首先&#xff0c;店铺名称和简介要吸引眼球。店铺名称应该简洁明了&#xff0c;容易被记住…

curl(六)DNS解析、认证、代理

一 DNS解析 ① ip协议 使用ipv4 [-4] 还是ipv6 [-6] ② --resolve 场景&#xff1a; 在不修改系统配置文件 /etc/hosts 的情况下将单个请求临时固定到 ip 地址 1、使用 * 作为通配符,这样请求中调用的所有 Host 都 会转到你指定的 ip curl https://www.wzj.com --resolv…

王道p18 6.从有序顺序表中删除所有其值重复的元素,使表中所有元素的值均不同(c语言代码实现)

视频讲解在这里&#xff1a;&#x1f447; 顺序表p18 第6题wd数据结构课后代码题&#xff08;c语言代码实现&#xff09;_哔哩哔哩_bilibili 本题代码如下 void deleterepeat(struct sqlist* L) {if (L->length 0)printf("表空");int i 0;int k 0;for (i 1…

【软著写作】软著写作过程记录

文章目录 整体流程图&#xff1a;写在前面&#xff1a;一、准备材料1 准备材料2 申请盖章 二、软件登记1 注册账号2 填报软著 整体流程图&#xff1a; 写在前面&#xff1a; 这两天填报了一篇软著&#xff0c;正好将以前第一次填报时&#xff0c;踩的一些坑和过程记录了一下&am…

破解密码 LLM(代码LLM如何从 RNN 发展到 Transformer)

舒巴姆阿加瓦尔 一、说明 近年来&#xff0c;随着 Transformer 的引入&#xff0c;语言模型发生了显着的演变&#xff0c;它彻底改变了我们执行日常任务的方式&#xff0c;例如编写电子邮件、创建文档、搜索网络甚至编码方式。随着研究人员在代码智能任务中应用大型语言模型&am…

[每周一更]-(第70期):常用的GIT操作命令

1、增删文件 # 添加当前目录的所有文件到暂存区 $ git add .# 添加指定文件到暂存区 $ git add <file1> <file2> ...# 添加指定目录到暂存区&#xff0c;包括其子目录 $ git add <dir># 删除工作区文件&#xff0c;并且将这次删除放入暂存区 $ git rm [file…

Redis中的List类型

目录 List类型的命令 lpush lpushx rpush lrange lpop rpop lindex linsert llen lrem ltrim lset 阻塞命令 阻塞命令的使用场景 1.针对一个非空的列表进行操作 2.针对一个空的列表进行操作 3.针对多个key进行操作. 内部编码 lisi类型的应用场景 存储(班级…

SpringSecurity全家桶 (一) —— 简介

1. 概述 Spring Security 是一个框架&#xff0c;提供针对常见攻击的身份验证、授权和保护。 它为保护命令式和响应式应用程序提供了一流的支持&#xff0c;是保护基于 Spring 的应用程序的事实标准。 2. 了解 shiro&#xff1a; 在之前SSM框架盛行的时代&#xff0c;项目的…

C++入门讲解第一篇

大家好&#xff0c;我是Dark Fire&#xff0c;终于进入了C的学习&#xff0c;我知道面对我的将是什么&#xff0c;就算变成秃头佬&#xff0c;也要把C学好&#xff0c;今天是C入门第一篇&#xff0c;我会尽全力将知识以清晰易懂的方式表达出&#xff0c;希望我们一起加油&#…