GNN如何处理表格?

链接: https://ieeexplore.ieee.org/document/10184514

在这篇综述中,我们深入探讨了使用图神经网络(GNNs)进行表格数据学习(TDL)的领域,这是一个深度学习方法在分类和回归任务中相比传统方法表现出越来越优越性能的领域。综述强调了深度神经TDL方法的一个关键差距:数据实例和特征值之间潜在关联的欠表达。GNNs凭借其固有的模拟表格数据不同元素之间复杂关系和交互的能力,已经在各种TDL领域引起了显著的兴趣和应用。我们的综述提供了一项对设计和实现TDL用GNN(GNN4TDL)方法的系统性回顾。它包括对基础方面的详细调查和基于GNN的TDL方法的概述,提供了对其不断发展的领域的洞察。我们提出了一个全面的分类学,重点是构建图结构和在基于GNN的TDL方法中的表示学习。此外,综述还检查了各种训练计划,强调了整合辅助任务以增强实例表示的有效性。我们讨论的一个关键部分专门用于GNN在一系列GNN4TDL情景中的实际应用,展示了它们的多功能性和影响力。最后,我们讨论了限制并提出了未来的研究方向,旨在促进GNN4TDL的进步。这篇综述为研究人员和实践者提供了资源,提供了对GNN在革新TDL中角色的深入理解,并指向了这个有前景领域未来的创新。

近年来,基于深度学习的表格数据学习(TDL)方法,例如分类和回归,表现出了令人充满希望的性能。然而,尽管在从原始表格记录中学习有效特征表示方面有很大能力,深度神经TDL在数据实例和特征值之间的潜在相关性建模上表现薄弱。通过建模高阶实例-特征关系、高阶特征交互和数据实例之间的多关系相关性,已显示可以改进TDL的预测性能。作为自然地建模不同数据实体之间的关系和交互的对策,图神经网络(GNNs)近来已经受到极大关注。通过适当地从输入表格数据构建图结构,GNNs可以学习数据元素之间的潜在相关性,并为预测任务生成有效的特征表示。受到GNNs在自然语言处理和推荐系统上的成功启发,开发用于表格数据学习的图神经网络(GNN4TDL)的趋势也在增加。

目前,已有一些早期研究努力尝试将现有的GNN方法应用于表格数据学习。一些非常近期的研究也开始探索特定于TDL的GNNs。这些研究几乎涵盖了所有TDL主题和应用,掀起了该领域的一波研究热情。随着这些研究进展,也产生了一些基本问题:(a) 基于GNN的TDL与传统TDL之间有何区别?(b) 在不同TDL场景和任务下构建图结构的正确方式是什么?(c) 基于GNN的表格数据表示学习背后的原理是什么?(d) 哪些TDL任务和应用领域可以从GNNs中受益?(e) 当前研究的局限性和未来研究的潜在机会是什么?尽管最近的GNN4TDL研究报告了令人鼓舞的结果,但这些问题尚未系统地调查,甚至被忽视了。迫切需要进行这项GNN4TDL综述,以揭示这些问题的答案,以进一步促进这一研究方向。

我们相信,由于该主题的高需求和低支持,这项GNN4TDL综述将具有很高的价值。(a) 高需求:由于表格数据在许多领域和应用中无处不在,人们逐渐将重点转移到模型数据实例之间的关系及其与特征值的相关性上,我们相信,用于表格数据学习的图神经网络不仅将具有很高的研究影响,而且还将具有实际价值。它应该能够获得学术界和工业界的关注。(b) 低支持:我们的GNN4TDL处于一个小众但至关重要的领域,根据表1中的比较总结,在以前的综述中大多被忽视。与其他集中在跨各种领域和数据类型的广泛GNN应用的工作不同,这篇综述不仅强调了GNN在表格数据预测、表示学习和图结构学习中的潜力,而且还是首次讨论自监着学习、各种训练策略和GNN4TDL中特定的辅助任务。

这篇综述论文对应用GNNs进行表格数据学习进行了深入探索。它首先建立了基本的问题陈述,并介绍了用于表示表格数据的各种图类型。综述围绕详细的基于GNN的学习流程进行构建,包括图形化阶段,将表格元素转换为图节点;图构建,专注于建立这些元素之间的连接;表示学习,强调GNNs如何处理这些结构以学习数据实例特征;以及训练计划,讨论辅助任务和训练策略的整合,以提高预测结果。

除了回顾GNN4TDL技术之外,综述还进一步阐述了GNN在多个领域的应用,如欺诈检测和精准医疗,以及对当前研究局限性和GNN4TDL领域未来方向的批判性讨论。

我们总结了这项综述的贡献如下。• 我们提供了图神经网络用于表格数据学习的当前发展的广阔图景。提供了及时和全面的文献综述,帮助读者快速掌握基本概念并进入这个研究领域。• 我们组织了将GNNs应用于表格数据学习的现有艺术。特别是,我们深入探讨了GNNs如何更好地建模表格数据,并揭示了GNNs带来的表格数据分类和回归性能提升。在实践中,我们强调了构建各种表格数据模型的基本指导原则。• 我们展示了GNN如何在许多表格数据应用领域中得到利用,如欺诈检测、精准医疗、点击率预测和处理缺失数据。我们还为学术界和工业界提供了对当前研究局限性和GNN4TDL未来研究方向的深刻讨论。

我们按照以下方式组织了这篇论文。第2节定义了剩余部分中使用的相关概念。第3节描述了GNN4TDL的框架,并从多个角度提供了分类。第4节根据我们的分类系统地回顾了现有的GNN4TDL方法。第5节调查了GNN4TDL在各个领域的实际应用。第6节讨论了剩余的挑战和可能的未来方向。第7节最后总结了这项综述。

图片

在这一部分中,我们介绍了用于表格数据学习的图神经网络(GNNs)的总体流程,并详细分类了每个关键阶段,描绘了不同方法如何实现这些阶段。伴随这种分类,我们还提供了每个类别中一些代表性框架的描述。这些研究例子展示了流程中各个阶段或类别之间复杂的相互联系,突出了它们在整体GNN4TDL过程中的紧密结合和协作功能。每个分类的详细阐述在第4节中呈现。

流程。基于GNN的表格数据学习的一般流程在图1中提供。流程从图形化阶段开始,即使用表格数据集中的元素定义图的结构。这个阶段涉及决定使用哪些元素作为节点,有三种常见的方法:(1) 将数据实例表示为节点,(2) 将特征作为节点,或 (3) 两者的组合,形成不同类型的图。接下来,图构建阶段旨在在这些元素之间创建连接,将表格数据转换为图结构。这种结构由最初的形式化决定,导致形成同质图(例如,实例图或特征图)或异质图(例如,二部图、多关系图或超图)。接下来,表示学习阶段涉及根据图的性质应用不同类型的GNNs。采用各种同质实例GNNs、同质特征GNNs或异质GNNs来学习数据实例的特征表示。这一阶段至关重要,因为它决定了消息如何在图中传播,模拟特征和实例之间的交互,并影响所学习嵌入的质量。如果使用特征图,则需要额外的信息聚合层,基于学习到的特征嵌入产生最终的实例表示。最后,训练计划阶段接收最终的实例表示。在这个阶段,采用不同的学习任务和训练策略,包括在主任务旁边使用辅助任务。然后通过预测层处理结果,产生最终的预测结果。

这个全面的流程突出了GNNs在处理各种图形化和学习任务方面的多功能性,最终导致有效的表格数据学习和预测。

分类。根据流程,可以建立用于表格数据学习的图神经网络的分类体系。我们在图2中给出了分类。下面,我们相应地描述了分类体系中的分类,其中每个类别中的一些代表性研究被提到并在表2中总结。

  1. 从表格数据中生成图的形式包含三种主要类型:同质图、异质图和超图。基于数据实例作为节点或特征作为节点,在同质图中,我们可以分别形成实例图(例如,[85],[91],[112])和特征图(例如,[83],[152],[173])。另一方面,异质图可以将数据实例与其对应的特征(以及进一步的其他元数据)连接起来。异质图的形成可以是二部图或多部图[27],[63],[142],[157]。可以考虑不同的特征值作为不同的边类型,这些类型描述了数据实例之间的不同关系,从而形成多重/多关系图[51],[60],[89]。如果一个形式允许数据实例和所有可能的特征值出现在一个图中,可以构建异质图来表示复杂的信息相互依赖[22],[37],[93],[118]。至于超图的形成[10],[15],[27],共享相同属性的表格元素被一个边连接。超图中的边可以连接任意数量的表格元素。例如,共享相同特征值的实例可以通过超图中的边连接起来。

  2. 给定某种图形式,节点已经确定后,第二阶段旨在通过在节点之间创建边连接来构建图,以实现该形式。根据边创建的标准,一般有四种类型的方法,包括内在结构、基于规则、基于学习和其他方法,其中前两种类型被广泛采用。创建链接的直观方法是利用表格数据元素之间的固有关系,例如,一个实例包含特征值[142],[157],两个实例共享特定特征的相同值[51],[95],一个数据表通过主外键关系与另一个相关联[22],[37]。为了在数据实例和/或特征之间定义边,基于规则的方法依赖于一些手动指定的启发式规则,例如k近邻[44],[59],[112],全连接结构[56],[83],[119],和阈值[21],[29]。基于学习的方法自动在节点之间生成边。它可以分为三个子类别:基于度量的方法使用核函数基于节点相似度计算边权重[69],[123]。神经方法采用深度神经网络进行自适应图构建[85],[91],[152]。直接方法将邻接矩阵视为可学习的[39],[97]。其他方法属于检索式或知识型。基于检索的方法依赖于发现相关和相似的数据实例来基于信息检索技术构建边[27],或进行神经结构搜索以找到更好的表示学习图拓扑[149]。基于知识的方法需要领域专家提供数据实例之间的相关性知识[28]或描述特征之间关系的知识图[114],以便以细粒度方式构建图。

  3. 一旦得到描述表格数据的图,无论数据实例及其对应特征如何通过图结构描述,下一阶段是学习每个实例的最终表示。根据获得的图的类型,例如同质或异质图,我们可以使用同质GNN模型(例如GCN [77],GraphSAGE [52],GAT [126],和GIN [151])和异质GNN模型(例如RGCN [115],HGAT [134],和HGT [58])来产生每个实例的嵌入。除了简单地应用现有的GNN模型,一些现有的工作已经开发了专门的GNN来更好地捕获实例和特征之间各种复杂的交互(例如[20],[44],[59],[83],[152])。

  4. 基于学习到的实例特征表示设计合适的训练计划是最后一步。训练计划可以从两个方面进行讨论,学习任务和训练策略。虽然主要任务是预测目标标签,但为了增强学习,开发了各种监督变体,因此可以构建不同的辅助任务。例如,利用对比学习来更好地细化图结构学习[85],[91],引入自监着学习和自编码器来产生去噪特征[33],以及施加各种图正则化以稳定图学习并避免过拟合[16],[97]。由于数据本质上是表格形式的,附加学习任务可以保留输入表格数据中的属性,如特征的全局统计[119],领域知识保存[54],和空间信息编码[28]。采用了一系列训练策略来优化GNN4TDL性能。两阶段方法(例如,[91])先学习图结构,然后训练预测模型。对抗技术(例如,[119])增强了特征重构的真实性。其他方法(例如,[14])动态调整特征重构权重以提高任务相关性。双层优化(例如,[142])同时调整GCN参数和图生成。预训练-微调策略(例如,[118])利用自监着学习进行稳健的初始数据理解,然后进行针对性的微调,尽管可能存在阶段不匹配。端到端训练(例如,[51])是最广泛采用的策略,提供了从学习到预测的流线型过程,直接提升了性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/308166.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java虚拟机类加载机制探究:生命周期、初始化、使用与验证

一、java虚拟机与程序的生命周期 在如下几种情况之下,java虚拟机将结束生命周期: 执行了System.exit()方法程序正常执行结束程序在执行过程中遇到了异常或者错误而异常终止由于操作系统用出现错误而导致java虚拟机进程终止 二、类的加载,链…

2023年度总结:但行前路,不负韶华

​ 🦁作者简介:一名喜欢分享和记录学习的在校大学生 🐯个人主页:妄北y 🐧个人QQ:2061314755 🐻个人邮箱:2061314755qq.com 🦉个人WeChat:Vir2021GKBS &#x…

Pure Mathematics 3-(磨课课件)-反三角函数求导(更新中)

6.6 Differentiating trigonometric functions(反三角函数求导) Edexcel Pure Mathematics 3(2018版本教材) /-------------------------------------------------------------------------------------------------------------------- Prior Knowledge…

第三十八周周报:文献阅读 +BILSTM+GRU+Seq2seq

目录 摘要 Abstract 文献阅读:耦合时间和非时间序列模型模拟城市洪涝区洪水深度 现有问题 提出方法 创新点 XGBoost和LSTM耦合模型 XGBoost算法 ​编辑 LSTM(长短期记忆网络) 耦合模型 研究实验 数据集 评估指标 研究目的 洪…

双向冒泡排序的数据结构实验报告

目录 实验目的: 实验内容(实验题目与说明) 算法设计(核心代码或全部代码) 运行与测试(测试数据和实验结果分析) 总结与心得: 实验目的: 理解双向冒泡排序算法的原…

2024年AI红利:抓住AI内容写作、绘画、数字人、等四大变现机遇

2023年见证了人工智能大模型的爆发,其影响力超出了科技界范畴,成为推动社会进步的重要力量。大模型的突破性进展引起了全球关注,被视为科技发展4.0时代的革命性创新。而每一次革命性创新都是一把双刃剑,随之而来的互联网大裁员事件…

「服务器」4.新手小白如何安装服务器环境-宝塔

刚开始初始化好的服务器,使用了阿里云客户端,看着网络脚本乱装,后来决定宝塔环境发现有重复的环境,遂决定重新初始化一下,然后重头干起。 重置服务器 将服务器关闭运行状态后,点击重新初始化云盘即可重新初…

C语言入门教程,C语言学习教程(第三部分:C语言变量和数据类型)一

第三部分:C语言变量和数据类型 本章也是C语言的基础知识,主要讲解变量、数据类型以及运算符,这其中涉及到了数据的存储格式以及不同进制。 一、大话C语言变量和数据类型 在《数据在内存中的存储(二进制形式存储)》一…

小程序商城搭建:快速入门指南

随着移动互联网的普及,小程序商城逐渐成为了商家们进行线上销售的重要渠道。如果你也想搭建一个小程序商城,那么本文将为你介绍如何使用乔拓云这一第三方小程序搭建平台来轻松搭建自己的小程序商城。 一、选择合适的第三方小程序搭建平台 在选择第三方小…

Java中的网络编程

文章目录 网络基础知识IP 地址端口协议 Java 中网络编程InetAddress(静态类)UDP 通信原理UDP 发送数据步骤UDP 接收数据步骤UDP 发送接收案例 TCP 通信原理TCP 发送数据步骤TCP 接收数据步骤TCP 发送接收案例 网络基础知识 概述:在网络通信协…

vscode设置python脚本运行参数

1 添加配置文件 点击到你要配置的python文件,然后右上角点击 运行 ,再点击 添加配置 再点击 “Pyhton文件” 选项(其实就是在选择 当前的python文件 进行配置) 接着就生成了配置文件 lanunch.json 2 参数配置 再上面代码的基础上…

206. 反转链表(Java)

题目描述: 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 输入: head [1,2,3,4,5] 输出: [5,4,3,2,1] 代码实现: 1.根据题意创建一个结点类: public class ListNode {int val…

Flask 菜品管理

common/libs/Helper.py getDictFilterField() 方法 用于在web/templates/food/index.html中展示菜品分类 如何能够通过food里面的cat_id获取分类信息呢?只能通过for循环,这样会很麻烦,所以定义了这个方法。 这个方法可以的查询返回结果…

传统 VC 机构,是否还能在 Fair launch 的散户牛市中胜出?

LaunchPad 是代币面向市场的重要一环,将代币推向市场,加密项目将能够通过代币的销售从市场上募集资金,同时生态也开始进入全新的发展阶段。而对于投资者来说,早期打新市场同样充满着机会,参与 LaunchPad 对于每一个投资…

通过iFrame嵌入Grafana页面或pannel

前言 在当前数据驱动的时代,有效地可视化和监控关键性能指标变得至关重要。Grafana,作为一个开源的监控解决方案,提供了强大的功能来呈现和分析数据,从而帮助用户及时洞察和响应各种情况。随着技术的不断发展,将这些信…

地图移动逻辑

主要的一些问题 0. 可能会很久没收到,,或者一下子同时受到很多个同步的包 关于坐标滞后导致的一些游戏逻辑问题,比如攻击命中的判定问题等,一般是以服务器数据为判定依据,逻辑判定还是以服务器为主,客户端主要做表现。 1. 插值 关于坐标上报频率,我采取的是每100ms 或…

RT-Thread基于AT32单片机的485应用开发(二)

在上篇RT-Thread基于AT32单片机的485应用开发(一)中实现了RS485收发,但总觉得效率不高,函数封装也不完善。考虑到RS485总线应用都是主从式结构,比如工业领域常用的Modbus协议,都是以帧为单位进行收发&#…

【Java集合篇】 ConcurrentHashMap在哪些地方做了并发控制

ConcurrentHashMap在哪些地方做了并发控制 ✅典型解析✅初始化桶阶段🟢桶满了会自动扩容吗🟠自动扩容的时间频率是多少 ✅put元素阶段✅扩容阶段🟠 拓展知识仓🟢ConcurrentSkipListMap和ConcurrentHashMap有什么区别☑️简单介绍一…

Chrome禁用第三方Cookie,有什么影响?

2024年,Chrome将要正式禁用第三方Cookie了,这个变化对Web开发者来说是非常重要的,因为它将改变开发者如何设计网站以及如何搜集和使用用户数据。这是怎么一回事,到底有什么具体影响? 什么是Cookie? 随着互…

支持向量机(Support Vector Machines,SVM)

什么是机器学习 支持向量机(Support Vector Machines,SVM)是一种强大的机器学习算法,可用于解决分类和回归问题。SVM的目标是找到一个最优的超平面,以在特征空间中有效地划分不同类别的样本。 基本原理 超平面 在二…