GPPT: Graph Pre-training and Prompt Tuning to Generalize Graph Neural Networks

GPPT: Graph Pre-training and Prompt Tuning to Generalize Graph Neural Networks

KDD22

推荐指数:#paper/⭐⭐#​

动机

本文探讨了图神经网络(GNN)在迁移学习中“预训练-微调”框架的局限性及改进方向。现有方法通过预训练(如边预测、对比学习)学习可迁移的图结构知识,在微调时将其应用于下游任务(如节点分类)。然而,预训练目标与下游任务之间的差异(如二元边预测与多类节点分类)导致知识传递低效甚至负迁移——微调效果可能逊于从头训练。传统改进方案依赖为每个下游任务定制预训练目标(目标工程),但需大量领域知识与试错成本。

受自然语言处理(NLP)中提示(Prompt)技术的启发,作者提出“预训练-提示-微调”新范式,旨在通过任务重表述缩小预训练与下游任务差异。例如,NLP通过添加语义模板将分类任务转化为与预训练一致的填空任务(如情感分类转为预测掩码词)。然而,图数据面临两大挑战:

  1. 符号化图数据适配难题:节点为抽象符号,无法直接套用基于文本模板的语义改写。
  2. 提示设计的有效性:需结合图结构(如节点邻域信息)设计高效的提示函数,以提升分类等任务精度。

因此,本文核心研究问题聚焦于如何设计图感知提示函数,以桥接预训练与下游任务,从而高效激发预训练模型的知识。该方向有望通过任务形式统一化提升预训练模型的泛用性,减少对定制化目标工程的依赖,推动少样本图分析的进一步发展。

image

图提示框架

Pre-train, Prompt, Fine-tune

Graph prompting function(图提示函数)

v i ′ = f p r o m p t ( v i ) v_{i}^{\prime}=f_{\mathrm{prompt}}(v_{i}) vi=fprompt(vi), v i ′ v_i' vi和映射头有相似的输入形状

Pairwise prompting function(成对提示函数)

v i ′ = f p r o m p t ( v i ) = [ T t a s k ( y ) , T s r t ( v i ) ] v_{i}^{\prime}=f_{\mathrm{prompt}}(v_{i})=[T_{\mathbf{task}}(y),T_{\mathbf{srt}}( v_{i})] vi=fprompt(vi)=[Ttask(y),Tsrt(vi)]

T t a s k T_{task} Ttask是下有任务的token, T s r c T_{src} Tsrc是目标节点结构的token。前者由待分类节点的标签得到,后者由目标节点周围子图表示,以提供更多的结构信息。很自然,可以利用函数来捕获他们两个的联系

Prompt addition

[ y 1 , ⋯   , y C ] [y_1,\cdots,y_C] [y1,,yC]为C个类的prompt。自然可以构造token对: [ T t a s k ( y c ) , T s r t ( v i ) ] , f o r   c = 1 , ⋯   , C [T_{\mathrm{task}}(y_{c}),T_{\mathrm{srt}}(v_{i})],\mathrm{for~}c=1,\cdots,C [Ttask(yc),Tsrt(vi)],for c=1,,C

Prompt answer

对于每个token对,我们可以拼接,并将其放入预训练的映射头,如果目标节点 v i v_i vi 与某类得到最高的链接概率,我们就将其归为一类。

prompt tuning:

min ⁡ θ , ϕ ∑ ( v i , y c ) L p r e ( p ϕ p r e ( T t a s k ( y c ) , T s r t ( v i ) ) ; g ( y c , v i ) ) . \min_{\theta,\phi}\sum_{(v_i,y_c)}\mathcal{L}^{\mathrm{pre}}(p_\phi^{\mathrm{pre}}(T_{\mathrm{task}}(y_c),T_{\mathrm{srt}}(v_i));g(y_c,v_i)). minθ,ϕ(vi,yc)Lpre(pϕpre(Ttask(yc),Tsrt(vi));g(yc,vi)).其中,g为真实的标签函数

图形提示功能设计

任务token的生成:

e c = T t a s k ( y c ) ∈ R d e_c=T_\mathrm{task}(y_c)\in\mathbb{R}^d ec=Ttask(yc)Rd

E = [ e 1 , ⋯   , e C ] ⊤ ∈ R C × d E=[e_{1},\cdots,e_{C}]^{\top}\in\mathbb{R}^{C\times d} E=[e1,,eC]RC×d,C是类别数。

很自然,每个节点的token可以通过查询如上的任务token得到自己的类别。很自然的是, T t a s k ( y c ) T_{\mathbf{task}}(y_c) Ttask(yc)最优应该是类 y c y_c yc的中心。因此,我们通过聚类,来获得初始的tasktoken:

  1. 利用可扩展聚类(比如metis)获得M个类: { G 1 , ⋯   , G M } \{\mathcal{G}_1,\cdots,\mathcal{G}_M\} {G1,,GM},M是类别超参。
  2. 对于每个类,我们得到相应的task token: E m = [ e 1 m , ⋯   , e C m ] ⊤ ∈ R C × d E^m=[e_1^m,\cdots,e_C^m]^\top\in\mathbb{R}^{C\times d} Em=[e1m,,eCm]RC×d(怎么感觉有问题这一行表述)
  3. 给定集群 处节点 v i v_i vi 的任务令牌 T t a s k ( y c ) T_{task}(y_c) Ttask(yc) ,它使用向量嵌入 e c m e_c^m ecm 表示。
Structure Token Generation.(结构token的升成)

如果直接用节点v用于下游分类,会失去结构信息。因此我们使用 T s t r ( v i ) T_{\mathrm{str}}(v_i) Tstr(vi)来表示子图结构,来涵盖结构信息。在本文中,作者使用一阶子图来表示。

e v i = a i ∗ h i + ∑ v j ∈ N ( v i ) a j ∗ h j . e_{v_i}=a_i*h_i+\sum_{v_j\in\mathcal{N}(v_i)}a_j*h_j. evi=aihi+vjN(vi)ajhj.

a通过注意力机制得到

Prompt 初始化以及正交约束:

直接使用随机初始化肯定不太好,因此我们使用预训练的GNN来初始化 E m = [ e 1 m , ⋯   , e C m ] ⊤ E^{m}=[e_{1}^{m},\cdots,e_{C}^{m}]^{\top} Em=[e1m,,eCm]

因此,我们通过节点表示来初始化标记嵌入 e c m e^m_c ecm,节点表示由集群 m 处 y c y_c yc类的训练节点给出。

不同类的中心的距离应该尽可能的打,因此有: L o = ∑ m ∥ E m ( E m ) ⊤ − I ∥ F 2 . \mathcal{L}_o=\sum_m\|E^m(E^m)^\top-I\|_F^2. Lo=mEm(Em)IF2.

损失:

min ⁡ θ , ϕ , E 1 , ⋯   , E M ∑ ( v i , y c ) L p r e ( p ϕ p r e ( e c m , e v i ) ; g ( y c , v i ) ) + λ L o , s . t . θ i n i t = θ p r e , ϕ i n i t = ϕ p r e . \begin{aligned}\min_{\theta,\phi,E^{1},\cdots,E^{M}}&\sum_{(v_{i},y_{c})}\mathcal{L}^{\mathrm{pre}}(p_{\phi}^{\mathrm{pre}}(e_{c}^{m},e_{v_{i}});g(y_{c},v_{i}))+\lambda\mathcal{L}_{o},\\\mathrm{s.t.}&\theta^{\mathrm{init}}=\theta^{\mathrm{pre}},\phi^{\mathrm{init}}=\phi^{\mathrm{pre}}.\end{aligned} θ,ϕ,E1,,EMmins.t.(vi,yc)Lpre(pϕpre(ecm,evi);g(yc,vi))+λLo,θinit=θpre,ϕinit=ϕpre.

结果:

image

image

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/981276.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

微信小程序上如何使用图形验证码

1、php服务器生成图片验证码的代码片段如下: 注意红框部分的代码,生成的是ArrayBuffer类型的二进制图片 2、显示验证码 显示验证码,不要直接image组件加上src显示,那样拿不到cookie,没有办法做图形验证码的验证&…

MAX232数据手册:搭建电平转换桥梁,助力串口稳定通信

在现代电子设备的通信领域,串口通信因其简单可靠而被广泛应用。MAX232 芯片作为串口通信中的关键角色,发挥着不可或缺的作用。下面,我们将依据提供的资料,深入解读 MAX232 芯片的各项特性、参数以及应用要点。 一、引脚说明 MAX2…

HTTP 与 HTTPS 协议:从基础到安全强化

引言 互联网的消息是如何传递的? 是在路由器上不断进行跳转 IP的目的是在寻址 HTTP 协议:互联网的基石 定义 HTTP(英文:HyperText Transfer Protocol,缩写:HTTP),即超文本传输协…

记录linux安装mysql后链接不上的解决方法

首先确保是否安装成功 systemctl status mysql 如果没有安装的话,执行命令安装 sudo apt install mysql-server 安装完成后,执行第一步检测是否成功。 通常初始是没有密码的,直接登陆 sudo mysql -u root 登录后执行以下命令修改密码&…

精讲坐标轴系统(Axis)

续前文: 保姆级matplotlib教程:详细目录 保姆级seaborn教程:详细目录 seaborn和matplotlib怎么选,还是两个都要学? 详解Python matplotlib深度美化(第一期) 详解Python matplotlib深度美化&…

OSPF路由ISIS路由与路由学习对比(‌OSPF vs ISIS Routing Learning Comparison)

OSPF路由ISIS路由与路由学习对比 1.OSPF 路由学习规律 OSPF使用链路状态数据库(Link State Database)来存储网络拓扑信息。每个OSPF路由器通过交换链路状态更新(Link State Updates)来了解整个网络的拓扑,并根据收到…

【基于Mesh组网的UWB技术讨论】

基于Mesh组网的UWB技术讨论 Mesh 组网无线Mesh与无线中继的区别 基于Mesh拓扑的UWB技术可行性星型拓扑 / Mesh拓扑的UWB技术比较 Mesh 组网 Mesh(网格)是一种无中心、自组织的高度业务协同的网络。通常分为无线Mesh和有线Mesh,但在实际应用场景,有线Mes…

拼电商客户管理系统

内容来自:尚硅谷 难度:easy 目 标 l 模拟实现一个基于文本界面的 《 拼电商客户管理系统 》 l 进一步掌握编程技巧和调试技巧,熟悉面向对象编程 l 主要涉及以下知识点: 类结构的使用:属性、方法及构造器 对象的创建与…

day51 shell

在终端提示输入一个成绩,通过shell判断该成绩的等级 [90,100] : A [80, 90) : B [70, 80) : C [60, 70) : D [0, 60) : 不及格 提示并输入一个文件 判断文件是否存在 如果存在,判断文件是否为普通文件 如果是,则将 “hello world”写…

Docker 模拟 kubernetes 的 pod

1.安装Docker 环境 1.安装 epel 源 yum install -y epel-release 它是为了给我们的bridge utils 提供我们对应的 源支持 2.安装 bridge-utils yum install -y bridge-utils 3.加载 br_netfilter 模块 modprobe br_netfilter echo br_netfilter >> /etc/modules-l…

Hugging Face 推出 FastRTC:实时语音视频应用开发变得得心应手

估值超过 40 亿美元的 AI 初创公司 Hugging Face 推出了 FastRTC,这是一个开源 Python 库,旨在消除开发者在构建实时音频和视频 AI 应用时的主要障碍。 "在 Python 中正确构建实时 WebRTC 和 Websocket 应用一直都很困难,"FastRTC…

Spark核心之02:RDD、算子分类、常用算子

spark内存计算框架 一、目标 深入理解RDD弹性分布式数据集底层原理掌握RDD弹性分布式数据集的常用算子操作 二、要点 ⭐️1. RDD是什么 RDD(Resilient Distributed Dataset)叫做**弹性分布式数据集,是Spark中最基本的数据抽象&#xff0c…

Redis中常见的延迟问题

使用复杂度高的命令 Redis提供了慢日志命令的统计功能 首先设置Redis的慢日志阈值,只有超过阈值的命令才会被记录,这里的单位是微妙,例如设置慢日志的阈值为5毫秒,同时设置只保留最近1000条慢日志记录: # 命令执行超过…

LangGraph实战:构建智能文本分析流水线

LangGraph实战:构建智能文本分析流水线 1. 智能文本分析 LangGraph是基于图结构的工作流开发框架,通过节点函数和条件流转实现复杂业务逻辑。四大核心能力: 1.1 状态容器 统一管理流程执行上下文,支持JSON序列化存储 1.2 智能路由 基于条件判断实现动态分支跳转 1.3 可…

【北京迅为】itop-3568 开发板openharmony鸿蒙烧写及测试-第1章 体验OpenHarmony—烧写镜像

瑞芯微RK3568芯片是一款定位中高端的通用型SOC,采用22nm制程工艺,搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码,支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU,可用于轻量级人工…

MyBatis - 单元测试 参数传递 注解 CRUD

目录 1. MyBatis 简介 2. 简单使用 MyBatis 2.1 创建 MyBatis 项目 2.2 连接数据库 2.3 创建 Java 类 2.4 创建 Mapper 接口 2.5 在测试类中执行 3. 单元测试 3.1 Test 3.2 SpringBootTest 3.3 BeforeEach / AfterEach 4. MyBatis 基础操作 4.1 配置 MyBatis 打印日…

课程2. 机器学习方法论

课程2. 机器学习方法论 训练算法并评估其质量将样本分成训练和测试。分层 交叉验证方法sklearn 接口算法模型训练模型的应用质量评估 数据预处理标准缩放Violinplot 数据集使用模型Pipeline 在上一讲中,我们讨论了机器学习专家面临的挑战。无论解决的问题类型和解决…

CentOS 7使用RPM安装MySQL

MySQL是一个开源的关系型数据库管理系统(RDBMS),允许用户高效地存储、管理和检索数据。它被广泛用于各种应用,从小型的web应用到大型企业解决方案。 MySQL提供了丰富的功能,包括支持多个存储引擎、事务能力、数据完整…

涂层,如同一道守护之光,有效遏制了QD(量子点)那如星辰般忽明忽暗的闪烁与如垂暮手电筒般黯淡无光的褪色现象。

涂层,如同一道守护之光,有效遏制了QD(量子点)那如星辰般忽明忽暗的闪烁与如垂暮手电筒般黯淡无光的褪色现象。俄克拉荷马大学(University of Oklahoma)的一项卓越研究,犹如破晓之光,…

C++第六节:stack和queue

本节目标: stack的介绍与使用queue的介绍与使用priority_queue的介绍与使用容器适配器模拟实现与结语 1 stack(堆)的介绍 stack是一种容器适配器,专门用在具有后进先出操作的上下文环境中,只能从容器的一端进行元素的插…