7、机器学习中的数据泄露(Data Leakage)

找到并修复这个以微妙的方式破坏你的模型的问题。

数据泄露这个概念在kaggle算法竞赛中经常被提到,这个不同于我们通常说的生活中隐私数据暴露,而是在竞赛中经常出现某支队伍靠着对极个别feature的充分利用,立即将对手超越,成功霸占冠军位置,而且与第二名的差距远超第二名与第十名的差距,那么很有可能是出现了数据泄露(Data Leakage)这些feature却不是在因果关系上顺利解释预测值的‘因’,反而是预测值的‘果’。

在本教程中,您将了解什么是数据泄漏以及如何防止数据泄漏。如果你不知道如何防止它,泄漏将经常出现,它将破坏您的模型在微妙和危险的方式。因此,对于实践数据科学家来说,这是最重要的概念之一。

本课程所需数据集夸克网盘下载链接:https://pan.quark.cn/s/9b4e9a1246b2 提取码:uDzP

文章目录

  • 1、简介
  • 2、两种主要泄漏类型
    • 2.1目标泄漏
    • 2.2Train-Test 污染
  • 3、举例
  • 4、总结
  • 5、接下来呢

1、简介

当训练数据包含目标信息时,会发生数据泄漏(或泄漏) Data leakage (or leakage) ,但是当模型用于预测时,类似的数据将不可用。这将导致在训练集(甚至可能是验证数据)上获得高性能,但是该模型在生产中的性能将很差。

换句话说,泄漏会导致模型看起来很精确,直到您开始使用该模型做出决策,然后该模型变得非常不精确。

2、两种主要泄漏类型

有两种主要类型的泄漏: target leakage** 和train-test contamination.

2.1目标泄漏

当预测器包含在进行预测时不可用的数据时,就会发生目标泄漏。重要的是要考虑目标泄漏的时间或数据变得可用的时间顺序,而不仅仅是一个特征是否有助于做出良好的预测。

举个例子会有帮助的。假设你想预测谁会得肺炎。原始数据的前几行如下:

got_pneumonia age weight male took_antibiotic_medicine
False 65 100 False False
False 72 130 True False
True 58 100 False True

人们在患肺炎后服用抗生素药物是为了恢复健康。

原始数据显示这些列之间有很强的关系,但是在确定got_pneumonia的值之后,took_antibiotic_medicine经常被更改。

这是目标泄漏。该模型将看到,任何对took_tic_medicine值为False的人都没有患肺炎。

由于验证数据与培训数据来自同一个源,因此模式将在验证中重复,并且模型将具有良好的验证(或交叉验证)得分。

但这个模型在随后的实际应用中会非常不准确,因为即使是肺炎患者,在我们需要对他们未来的健康状况做出预测时,他们也不会使用抗生素。

为了防止这种类型的数据泄漏,应该排除在实现目标值之后更新(或创建)的任何变量。
在这里插入图片描述

2.2Train-Test 污染

当我们不小心将训练数据与验证数据区分开来时,就会发生另一种类

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/344973.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

低代码是不需要代码?

吐槽 我看到网上把低代码直接定义为需要很少甚至不需要代码,这是一种错误的描述。试想向一个不了解这个概念的人这样解释,人家还以为你用“意念”写出来的应用程序。 我的理解 所谓低,指的是低量,少量,所以低代码应…

Leetcode刷题笔记题解(C++):LCR 153. 二叉树中和为目标值的路径

思路:利用回溯的思想,回溯的退出条件为当前节点为空,是符合路径的判断条件为路径和为目标值且叶子节点包含了,代码如下: /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *…

【Android】Android中的系统镜像由什么组成?

文章目录 总览Boot Loader 的加锁与解锁Boot 镜像内核RAM diskARM 中的设备树 (Device Tree) /System 和/Data 分区镜像参考 总览 各种Android设备都只能刷专门为相应型号的设备定制的镜像。 厂商会提供一套系统镜像把它作为“出厂默认”的 Android 系统刷在设备上。 一个完…

中国城市二氧化碳排放数据,农业服务业工业等行业排放量均有~有shp和excel格式

基本信息. 数据名称: 中国城市二氧化碳排放数据 数据格式: Shpexcel 数据几何类型: 面 数据坐标系: WGS84 数据来源:网络公开数据 数据字段: 序号字段名称字段说明1ny农业排放量(万吨)2fwy服务业排放量(万吨…

无刷电机学习-方波电调 电路篇

想要彻底的理解无刷电机的驱动,那必然少不了学习他的驱动电路和程序。这里用开源的AM32无刷电调(方波驱动)来作为学习无刷电机笔记。 https://github.com/AlkaMotors附上作者github地址 AM32_Hardware: 基于AT32MCU的AM32PCB另一位大佬开源…

【python文件】生成的csv文件没两行数据之间有一个空行

问题描述 用python代码将数据写入csv文件,但生成的csv文件没两行数据之间有一个空行,如下图所示: 解决办法 在open函数中添加newline,如以下代码所示,即可解决这一问题。 with open(r"C:\Users\xxx\Desktop\DR…

Java实现桃花峪滑雪场租赁系统 JAVA+Vue+SpringBoot+MySQL

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 游客服务2.2 雪场管理 三、数据库设计3.1 教练表3.2 教练聘请表3.3 押金规则表3.4 器材表3.5 滑雪场表3.7 售票表3.8 器材损坏表 四、系统展示五、核心代码5.1 查询教练5.2 教练聘请5.3 查询滑雪场5.4 滑雪场预定5.5 新…

Universal Approximation Capabilities of Mixture of Weibulls (混合韦布尔分布的万能近似)

找了好久都没有找到混合韦布尔分布是否有万能近似性质,下面这个算是一点线索,不过看不太懂。 回答1:Ultimately this sounds tautological: just define “well-behaved” as any density that can be approximated, according to some speci…

企业计算机服务器中了360后缀勒索病毒怎么办,360勒索病毒解密流程

计算机网络技术的不断应用,极大地提升了企业办公与生产效率,为企业提供了极大方便,但同时也为企业的数据安全埋下隐患,近期云天数据恢复中心再次接到企业的求助,企业的计算机服务器遭到了360后缀勒索病毒攻击&#xff…

Axure校园跑步社交APP原型图,大学生运动健身原型模板53页

作品概况 页面数量:共 50 页 兼容软件:仅支持Axure RP 9/10,非程序软件无源代码 应用领域:运动健身、校园app、社交应用 作品特色 本作品为校园跑社交app原型图,高保真带交互,是一款专注于校园健身社交的…

基于Python Django的大数据招聘数据分析系统,包括数据大屏和后台管理

基于Python Django的大数据招聘数据分析系统是一个综合利用大数据技术和数据可视化技术的招聘行业解决方案。该系统旨在帮助企业和招聘机构更好地理解和分析招聘市场的趋势和变化,从而提高招聘效率和质量。 首先,该系统提供了一个强大的后台管理功能&am…

SSL证书是什么,有哪些作用

SSL证书是什么? SSL证书 是一种提供SSL协议的证书,通过在客户端浏览器与WEB服务器之间建立一条SSL安全通道,对网络传输数据进行加密,防止数据被截取或窃听。一份SSL证书包括一个公共密钥和一个私用密钥:公共密钥主要用…

【Python】如何在服务器上优雅的部署Python项目(Linux/Windows/Mac)

一.venv独立运行环境(虚拟环境) 一般每个不同的项目都会依赖各自的库,有些库的版本不一样会引起冲突,为了解决这个问题,需要使用虚拟环境,Python可以在每个项目目录下创建各自的虚拟环境,项目所依赖的包就在当前目录环…

【idea插件开发】idea插件访问浏览器web地址

背景 以往在eclipse上面开发插件,有兴致想尝试Idea上玩一下插件开发。想要在idea上面访问web地址 概要 记录在idea上面访问web地址 正文 1、点击File->New->Project… 选择IntelliJ Platform Plugin 2、点击下一步后,输入Project Name&#…

jenkins安装配置,使用Docker发布maven项目全过程记录(1)

使用的CentOS8 系统,其它Linux系统类似 1、jenkins安装 1.1、配置JAVA环境 使用的服务器环境中,安装了Java1.8与Java17,当前jenkins的最低java版本要求java11。系统默认使用的是java1.8,因此需要切换环境。 alternatives --co…

认识与探索大模型时代的RPA应用及进化(上)

AI Agent当前仍然处于技术爬坡与实验阶段,特别是在企业领域,真正的成熟应用还处于广泛探索与原型验证阶段,离成熟还尚待时日。而同时另外一种在最近几年广受欢迎的自动化解决方案-RPA(机器人流程自动化)也在LLM时代不断…

哪些方法能将静图变动图?这一个网站帮你解决

怎么将静态图片变成gif动图?我们经常能看到各种网络平台都能看到各种把静图制作成gif动图的软件,觉得非常的有意思。但是这种软件大部分都是需要下载或者操作起来很麻烦。那么,有没有什么简单容易操作的在线图片合成(https://www.…

Java调用C++的DLL设计!!!解耦实用!!!

问题背景:Java调用C,通常推荐用JNI(Java Native Interface)http://t.csdnimg.cn/kjOND 但是调用时每调用一个C方法都需要在Java程序中增加,不符合设计时的开放封闭原则,业务一边程序就要修改 public clas…

基于springboot+vue的社区医院信息平台系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 研究背景…

计算机毕业设计 | SpringBoot+vue 社区老人健康管理系统(附源码)

1,绪论 对于目前的中国来讲,人口老龄化日益严重,目前最新统计数据表明,60岁以上老人所占的人口比例已达到接近20%。这给我们国家带来了严重的养老压力,同时也严重削弱了我们人力大国的人力优势。对于这些老年人来讲&a…