论文地址:[2102.08369] CTAB-GAN: Effective Table Data Synthesizing (arxiv.org)
介绍
虽然数据共享对于知识发展至关重要,但遗憾的是,隐私问题和严格的监管(例如欧洲通用数据保护条例 GDPR)限制了其充分发挥作用。合成表格数据作为一种替代方案出现,可在满足监管和隐私约束的同时实现数据共享。最先进的表格数据合成器从生成对抗网络 (GAN) 中汲取方法论,并处理行业中的两种主要数据类型,即连续数据类型和分类数据类型。在本文中,我们阐明了 CTAB-GAN,这是一种新颖的条件表 GAN 架构,可以有效地对各种数据类型进行建模,包括连续变量和分类变量的混合。此外,该模型还解决了实际表格数据集中的数据不平衡和长尾问题,即某些变量在大值之间具有显着的频率差异。这是通过利用条件 GAN 的信息损失和分类损失实现的。此外,该模型具有新颖的条件向量,可有效地对混合数据类型和数据变量的偏态分布进行编码。CTAB-GAN 在数据相似性和分析效用方面用当前的技术水平进行了评估。五个数据集的结果表明,CTAB-GAN 的合成数据与所有三类变量的真实数据非常相似,并导致五种机器学习算法的准确率更高,高达 17%.
论文动机
工业数据集(在银行、保险公司和医疗保健等利益相关者中)提出了多重挑战。首先,这些数据集被组织成表格,并填充有连续变量和分类变量,或两者的混合,例如,贷款持有人的抵押贷款价值。该值可以是 0(无抵押)或某个连续的正数。在这里,我们将这种类型的变量称为混合变量。其次,连续数据变量通常具有广泛的值,并且可以表现出重长尾分布,例如信用卡交易金额的统计。大多数交易应该在 0 到 500 美元之间(即每天购买食物和衣服),但肯定存在高交易额的例外。第三,连续数据变量也可能包含具有多种偏斜频率模式的分布。在下面的图 2 中,我们展示了这些问题在利用当前最先进的技术时如何表现出来。
使用现有的基于 GAN 的表生成器对工业数据集建模的挑战:(a) 混合类型,(b) 长尾分布,以及偏斜数据
因此,总而言之,应对以下挑战构成了研究的主要动机:
- 表格数据包含由连续和离散分量组成的混合变量。类似地,嵌入在连续变量中的缺失值也可以被视为混合变量的一个分类组件。
- 连续变量表现出严重的长尾分布,难以真实地建模和重现。
- 连续变量包含多种模式的偏斜频率,这进一步加剧了建模。
贡献
我们设计了一种新的条件表格数据合成器 CTAB-GAN,它解决了现有技术的局限性:(i)编码连续和分类变量的混合数据类型,(ii)长尾连续变量的有效建模(iii) 增加了对不平衡分类变量和偏斜连续变量的稳健性。此外,CTAB-GAN 的两个关键特征是在条件 GAN 中引入分类损失,以及对条件向量的新颖编码,该编码有效地编码混合变量并有
助于处理连续变量的高度偏态分布。
因此,主要贡献可以总结如下:
- 新颖的条件对抗网络,它引入了一个分类器,提供额外的监督,以提高其在 ML 应用程序中的效用。
- 通过新颖的数据编码和条件向量对连续、分类和混合变量进行有效建模。
- 轻量级数据预处理,使用简单的对数变换减轻连续变量长尾分布的影响。
- 为相关利益相关者提供有效的数据合成器。
结果
使用 CTAB-GAN 对工业数据集建模的结果:(a) 混合类型,(b) 长尾分布,以及偏斜数据
现在让我们根据第2节前面介绍的三个动机案例来回顾CTAB-GAN的表现。
混合变量——上面显示的图 3.(a) 比较了贷款数据集中变量“抵押”的真实数据和 CTAB-GAN 生成的数据。CTAB-GAN 将此变量编码为混合类型。我们可以看到 CTAB-GAN 与现有的最先进技术不同,生成了清晰的 0 值。
长尾连续变量 - 图 3.(b) 比较了 Credit 数据集中“Amount”变量的累积频率图。该变量是典型的长尾分布。可以看到 CTAB-GAN 完美地恢复了真实分布。由于对数转换数据预处理,CTAB-GAN 比最先进的方法明显更好地学习这种结构。
倾斜的多模式连续变量 - 图 3.(c) 比较了来自 Adult 数据集的连续变量“Hours-per-week”的频率分布。除了 40 处的主峰外,还有很多副峰,这使得该色谱柱的合成极为困难。然而,我们看到 CTAB-GAN 比现有方法更有能力恢复偏斜的多模态分布,因为它是条件向量的新颖构造,旨在使生成过程对此类分布更加鲁棒。
总结
受数据共享和履行政府法规的重要性的启发,我们提出了 CTAB-GAN——一种基于条件 GAN 的表格数据生成器。CTAB-GAN 通过对混合变量进行建模而超越了先前最先进的方法,并为不平衡的分类变量和具有复杂分布的连续变量提供了强大的生成能力。为此,CTAB-GAN 的核心特征包括 (i) 将分类器引入条件 GAN,(ii) 混合变量的有效数据编码,以及 (iii) 条件向量的新构造。我们针对四个表格数据生成器在广泛的指标上详尽地评估了 CTAB-GAN,即最终的 ML 实用程序、统计相似性和隐私保护。结果表明,与现有的最先进技术相比,CTAB-GAN 的合成数据具有高实用性、高相似性和合理的隐私保证。与所有最先进的算法相比,复杂数据集的准确性提高了 17%。CTAB-GAN 的显着成果证明了其在广泛受益于数据共享的广泛应用中的潜力,例如银行、保险、制造和电信。