【论文阅读】CTAB-GAN: Effective Table Data Synthesizing

论文地址:[2102.08369] CTAB-GAN: Effective Table Data Synthesizing (arxiv.org)

介绍

虽然数据共享对于知识发展至关重要,但遗憾的是,隐私问题和严格的监管(例如欧洲通用数据保护条例 GDPR)限制了其充分发挥作用。合成表格数据作为一种替代方案出现,可在满足监管和隐私约束的同时实现数据共享。最先进的表格数据合成器从生成对抗网络 (GAN) 中汲取方法论,并处理行业中的两种主要数据类型,即连续数据类型和分类数据类型。在本文中,我们阐明了 CTAB-GAN,这是一种新颖的条件表 GAN 架构,可以有效地对各种数据类型进行建模,包括连续变量和分类变量的混合。此外,该模型还解决了实际表格数据集中的数据不平衡和长尾问题,即某些变量在大值之间具有显着的频率差异。这是通过利用条件 GAN 的信息损失和分类损失实现的。此外,该模型具有新颖的条件向量,可有效地对混合数据类型和数据变量的偏态分布进行编码。CTAB-GAN 在数据相似性和分析效用方面用当前的技术水平进行了评估。五个数据集的结果表明,CTAB-GAN 的合成数据与所有三类变量的真实数据非常相似,并导致五种机器学习算法的准确率更高,高达 17%.

论文动机

工业数据集(在银行、保险公司和医疗保健等利益相关者中)提出了多重挑战。首先,这些数据集被组织成表格,并填充有连续变量和分类变量,或两者的混合,例如,贷款持有人的抵押贷款价值。该值可以是 0(无抵押)或某个连续的正数。在这里,我们将这种类型的变量称为混合变量。其次,连续数据变量通常具有广泛的值,并且可以表现出重长尾分布,例如信用卡交易金额的统计。大多数交易应该在 0 500 美元之间(即每天购买食物和衣服),但肯定存在高交易额的例外。第三,连续数据变量也可能包含具有多种偏斜频率模式的分布。在下面的图 2 中,我们展示了这些问题在利用当前最先进的技术时如何表现出来。

使用现有的基于 GAN 的表生成器对工业数据集建模的挑战:(a) 混合类型,(b) 长尾分布,以及偏斜数据

因此,总而言之,应对以下挑战构成了研究的主要动机:

  • 表格数据包含由连续和离散分量组成的混合变量。类似地,嵌入在连续变量中的缺失值也可以被视为混合变量的一个分类组件。
  • 连续变量表现出严重的长尾分布,难以真实地建模和重现。
  • 连续变量包含多种模式的偏斜频率,这进一步加剧了建模。

贡献

我们设计了一种新的条件表格数据合成器 CTAB-GAN,它解决了现有技术的局限性:(i)编码连续和分类变量的混合数据类型,(ii)长尾连续变量的有效建模(iii) 增加了对不平衡分类变量和偏斜连续变量的稳健性。此外,CTAB-GAN 的两个关键特征是在条件 GAN 中引入分类损失,以及对条件向量的新颖编码,该编码有效地编码混合变量并有

助于处理连续变量的高度偏态分布。

因此,主要贡献可以总结如下:

  • 新颖的条件对抗网络,它引入了一个分类器,提供额外的监督,以提高其在 ML 应用程序中的效用。
  • 通过新颖的数据编码和条件向量对连续、分类和混合变量进行有效建模。
  • 轻量级数据预处理,使用简单的对数变换减轻连续变量长尾分布的影响。
  • 为相关利益相关者提供有效的数据合成器。

结果

使用 CTAB-GAN 对工业数据集建模的结果:(a) 混合类型,(b) 长尾分布,以及偏斜数据

现在让我们根据第2节前面介绍的三个动机案例来回顾CTAB-GAN的表现。

混合变量——上面显示的图 3.(a) 比较了贷款数据集中变量“抵押”的真实数据和 CTAB-GAN 生成的数据。CTAB-GAN 将此变量编码为混合类型。我们可以看到 CTAB-GAN 与现有的最先进技术不同,生成了清晰的 0 值。

长尾连续变量 - 图 3.(b) 比较了 Credit 数据集中“Amount”变量的累积频率图。该变量是典型的长尾分布。可以看到 CTAB-GAN 完美地恢复了真实分布。由于对数转换数据预处理,CTAB-GAN 比最先进的方法明显更好地学习这种结构。

倾斜的多模式连续变量 - 图 3.(c) 比较了来自 Adult 数据集的连续变量“Hours-per-week”的频率分布。除了 40 处的主峰外,还有很多副峰,这使得该色谱柱的合成极为困难。然而,我们看到 CTAB-GAN 比现有方法更有能力恢复偏斜的多模态分布,因为它是条件向量的新颖构造,旨在使生成过程对此类分布更加鲁棒。

总结

受数据共享和履行政府法规的重要性的启发,我们提出了 CTAB-GAN——一种基于条件 GAN 的表格数据生成器。CTAB-GAN 通过对混合变量进行建模而超越了先前最先进的方法,并为不平衡的分类变量和具有复杂分布的连续变量提供了强大的生成能力。为此,CTAB-GAN 的核心特征包括 (i) 将分类器引入条件 GAN,(ii) 混合变量的有效数据编码,以及 (iii) 条件向量的新构造。我们针对四个表格数据生成器在广泛的指标上详尽地评估了 CTAB-GAN,即最终的 ML 实用程序、统计相似性和隐私保护。结果表明,与现有的最先进技术相比,CTAB-GAN 的合成数据具有高实用性、高相似性和合理的隐私保证。与所有最先进的算法相比,复杂数据集的准确性提高了 17%。CTAB-GAN 的显着成果证明了其在广泛受益于数据共享的广泛应用中的潜力,例如银行、保险、制造和电信。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/145008.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

IDEA接口调试插件不好找?这款免费用!

IDEA插件市场中的API调试插件不是收费(Fast Request )就是不好用(apidoc、apidocx等等)今天给大家介绍一款国产的API调试插件:Apipost-Helper,完全免费且好看好用! 这款插件由Apipost团队开发的…

java springboot2.7 JSR303与Hibernate进行Bean的数据校验

我们如果对数据能进行格式校验 做个安全检查就会容易很多 其实 各个系统中都必然后拥有数据校验&#xff0c;这也不是新东西 J2EE规范中JSR303就规范定义了一组有关数据校验的API 首先 我们在 pom.xml 中 注入依赖 <dependency><groupId>javax.validation</gr…

异常与中断(一)

使用生活实例引入中断 假设有个大房间里面有小房间&#xff0c;婴儿正在睡觉&#xff0c;他的妈妈在外面看书。 问&#xff1a;这个母亲怎么才能知道这个小孩醒&#xff1f; 过一会打开一次房门&#xff0c;看婴儿是否睡醒&#xff0c;然后接着看书一直等到婴儿发出声音以后再…

接口测试用例设计

接口测试 最后感谢每一个认真阅读我文章的人&#xff0c;礼尚往来总是要有的&#xff0c;虽然不是什么很值钱的东西&#xff0c;如果你用得到的话可以直接拿走&#xff1a; 这些资料&#xff0c;对于【软件测试】的朋友来说应该是最全面最完整的备战仓库&#xff0c;这个仓库也…

【论文阅读】(VAE)Auto-Encoding Variational Bayes

论文地址&#xff1a;[1312.6114] Auto-Encoding Variational Bayes (arxiv.org) 【前言】&#xff1a;VAE模型是Kingma(也是Adam的作者)大神在2014年发表的文章&#xff0c;是一篇非常非常经典&#xff0c;且实现非常优雅的生成模型&#xff0c;同时它还为bayes概率图模型难以…

老卫带你学---go语言中context库里propagateCancel函数

go语言中context库里propagateCancel函数 // 设置当父context取消时候&#xff0c;子context也取消的逻辑 func propagateCancel(parent Context, child canceler) {//父context永远不会被取消&#xff08;例如WithValue&#xff09;done : parent.Done()if done nil {return …

SAP:解决函数CONNE_IMPORT_WRONG_COMP_DECS CX_SY_IMPORT_MISMATCH_ERROR错误

用户反馈报表中取数异常&#xff0c;经检查发现SE37执行取数函数ZLY_R_CWFX03报以下错误。 Category ABAP Programming Error Runtime Errors CONNE_IMPORT_WRONG_COMP_DECS Except. CX_SY_IMPORT_MISMATCH_ERROR ABAP Program ZLY_R_CWFX03FT Application Component Not Assig…

爱上C语言:整型和浮点型在内存中的存储(进制转换,原码,反码,补码以及大小端)

&#x1f680; 作者&#xff1a;阿辉不一般 &#x1f680; 你说呢&#xff1a;生活本来沉闷&#xff0c;但跑起来就有风 &#x1f680; 专栏&#xff1a;爱上C语言 &#x1f680;作图工具&#xff1a;draw.io(免费开源的作图网站) 如果觉得文章对你有帮助的话&#xff0c;还请…

spring-cloud 简介

springcloud 定义 1.定义&#xff1a;springcloud为开发人员提供了在分布式系统中快速构建一些通用模式的工具&#xff08;例如配置管理、服务发现、断路器、路由、控制总线等&#xff09;2.微服务:基于单体应用&#xff0c;基于业务进行拆分&#xff0c;每个服务都是独立应用…

μC/OS-II---消息邮箱管理1(os_flag.c)

目录 消息邮箱创建消息邮箱删除等待邮箱中的消息向邮箱发送一则消息 消息邮箱创建 OS_EVENT *OSMboxCreate (void *pmsg) {OS_EVENT *pevent; #if OS_CRITICAL_METHOD 3u /* Allocate storage for CPU status register */OS_CPU_SR cpu_sr …

老师们是怎样发期中考试成绩的?

每次期中考试后&#xff0c;老师们总是忙碌于回答家长和学生咨询成绩。技术发展飞快&#xff0c;发布成绩的方式也在不断进步。如今&#xff0c;已经可以通过各种代码、Excel以及小程序等&#xff0c;让学生和家长自助查询成绩&#xff0c;既安全又方便。 简单来说&#xff0c;…

一分钟搞懂什么是this指针(未涉及静态成员和函数)

前言 我们在学习类的过程中&#xff0c;一定听说过this指针&#xff0c;但是并不知道它跟谁相似&#xff0c;又有什么用途&#xff0c;所以接下来&#xff0c;让我们一起去学习this指针吧&#xff01; 一、this指针的引入 我们先来看下面两段代码&#xff0c;它们输出的是什么&…

Pytorch CUDA CPP简易教程,在Windows上操作

文章目录 前言一、使用的工具二、学习资源分享三、libtorch环境配置1.配置CUDA、nvcc、cudnn2.下载libtorch3.CLion配置libtorch4.CMake Application指定Environment variables5.测试libtorch 四、PyTorch CUDA CPP项目流程1.使用CLion结合torch extension编写可以调用cuda的C代…

DSP生成hex方法

以下使用两种方法生成的HEX文件&#xff0c;亲测可用 &#xff08;1&#xff09;万能法 不管.out文件是哪个版本CCS编译器生成的&#xff0c;只要用HEX2000.exe软件&#xff0c;翻译都可以使用。方法&#xff1a; hex2000 -romwidth 16 -memwidth 16 -i -o 20170817chuankou…

问题 D: 过山车(二分图)

首先&#xff0c;绘制二分图 核心思想&#xff1a; 对于每一个左边端点&#xff0c;查找每个右边端点&#xff0c; 若右边端点无对象&#xff0c;则暂时作为该左端点的对象 若右边端点有对象&#xff0c;递归查询其对象是否有其他选择 &#xff08;1.若有其他选择&#xf…

【Robotframework+python】实现http接口自动化测试

前言 下周即将展开一个http接口测试的需求&#xff0c;刚刚完成的java类接口测试工作中&#xff0c;由于之前犯懒&#xff0c;没有提前搭建好自动化回归测试框架&#xff0c;以至于后期rd每修改一个bug&#xff0c;经常导致之前没有问题的case又产生了bug&#xff0c;所以需要…

MHA的那些事儿

什么是MHA&#xff1f; masterhight availability&#xff1a;基于主库的高可用环境下&#xff0c;主从复制和故障切换 主从的架构 MHA至少要一主两从 出现的目的&#xff1a;解决MySQL的单点故障问题。一旦主库崩溃&#xff0c;MHA可以在0-30s内自动完成故障切换 MHA使用的…

[MySQL] MySQL中的数据类型

在MySQL中&#xff0c;数据类型用于定义表中列的数据的类型。在前面的几篇文章中&#xff0c;我们也会看到有很多的数据类型&#xff0c;例如&#xff1a;char、varchar、date、int等等。本篇文章会对常见的数据类型进行详细讲解。希望会对你有所帮助&#xff01; 文章目录 一、…

海康G5系列(armv7l) heop模式下交叉编译Qt qmqtt demo,出现moc缺少高版本GLibc问题之解决

1.编辑源 sudo vi /etc/apt/sources.list 2.添加高版本的源 deb http://th.archive.ubuntu.com/ubuntu jammy main #添加该行到文件 3.运行升级 sudo apt update sudo apt install libc6 4.strings /**/libc.so.6 |grep GLIBC_ 参考链接&#xff1a;version GLIBC_2.3…

github 私人仓库clone的问题

github 私人仓库clone的问题 公共仓库直接克隆就可以&#xff0c;私人仓库需要权限验证&#xff0c;要先申请token 1、登录到github&#xff0c;点击setting 打开的页面最底下&#xff0c;有一个developer setting 这里申请到token之后&#xff0c;注意要保存起来&#xff…