Abstract中可以提炼的信息:
背景:预训练的作用是为了增强图学习模型将知识从大数据集转移到下游任务的适应性。
想解决的问题:训练目标的不同与数据分布的不同会阻碍预训练知识的迁移。
文章受到基于指令的提示词在语言模型训练广泛应用的启发,想迁移这个方法到超图预训练。
背景
目前预训练面临的问题:
- 在标签数据不足的情况下,pretext的设计与目标下游任务之间存在差距,阻碍预训练知识的迁移。[Pretext可以理解为是一种为达到特定训练任务而设计的间接任务]
- 在标签数据足够的情况下,预训练与目标任务的数据分布的不同也会损害学习性能
- 下游任务的数据集如果比较小,预训练可能会遭受严重的遗忘问题
将提示词运用到图预训练上存在的挑战:
- 作为纯文本的指令格式无法与图结构数据对齐。
- 从静态的角度来看,图提示词应该应用于图的特定部分,以根据特定的图查询来指导模型。
- 图提示词需要参与上下文感知的信息传播过程以捕获这些关系。
常用的方法是让prompt信息参与到图上信息传递的过程中实现,而普通图仅在成对关系中传递信息,既不灵活也不高效,因此使用超图
设计超图预训练的提示词存在的挑战:
- 现有的基于提示的图预训练方法大多使用可学习的提示向量,这些向量随机初始化或基于预训练节点表示。但它们与特定任务的语义指令无关,其有效性依赖于下游任务微调数据的质量和多样性。在数据质量不高或多样性不足时,可学习提示向量可能无法提供有效的引导,导致模型性能不稳定或泛化能力差。
- 当在下游任务中出现大量未见节点时,传统的预训练范式(如冻结除可学习提示外的所有参数)效果不佳。因为预训练阶段的节点表示无法直接用于表示新的未见节点,可学习提示的不确定性在处理这些未见数据时会加剧,影响模型对新节点的处理能力。
而基于指令的预训练可以解决以上问题。
当三个历史爱好者阅读一本关于法国大革命的历史书时,利用一条超边将这三个历史爱好者连接起来。用指令对这条超边进行提示。这个指令与这三个历史爱好者阅读特定历史书的情境相关,目的是在预训练阶段为模型提供与任务相关的信息,使模型能够学习到关于这三个节点(历史爱好者)之间关系以及与所读历史书相关的特征表示,为后续任务做准备。
模型可能学习到了历史爱好者对特定历史时期内容的兴趣模式,从而将这种模式应用到诗歌推广任务中,找到具有相似兴趣特征的读者,实现精准推广。
文章贡献
问题定义
对于除了target node之外的节点被称为context node。文章的目标是在预训练阶段学习target node的表征,提高在下游任务的性能。
方法
这篇文章提出的模型是基于指令的超图预训练(Instruction-based Hypergraph Pretraining ,IHP)框架。
该框架的主要组成部分包括:
预训练阶段:
- 首先文章将普通图转为超图。并且构造两个超图,一个是target hypergraph,另一个是context hypergraph.以用户商品推荐为例,在target hypergraph中,超边是商品,节点是用户。在context hypergraph中,超边是用户,节点是商品。区分目标节点和上下文节点,可防止信息过度平滑,让模型学习节点同质性和上下文模式。
- 基于指令的提示表征:根据任务相关信息构建指令提示表征,与超边一一对应,由任务和节点描述组成,经编码和转换后融入 PHC 层信息传播。
- 提示超图卷积(PHC)层操作;
- 首先通过超边初始化:通过聚合连接节点表征来初始化超边表示。
- 然后将初始化的超边表示与提示信息融合。
- 节点更新:通过聚合连接超边的融合表征更新目标节点表征。
- 预训练优化;采用链接预测任务进行优化,计算两个节点(如目标节点和上下文节点)的内积作为链接预测分数,公式为(和是经过 PHC 层后的最终节点嵌入)。然后采用成对 BPR 损失来优化预测,同时对预训练中的所有参数进行正则化,使用 Adam 优化器进行优化。
微调阶段:
- 预训练阶段输出的最优目标节点嵌入和提示层所有参数,被用于初始化下游任务中的目标节点和提示层。
- 微调预训练目标节点和未见上下文节点的嵌入;在下游任务中,冻结提示层的参数,确保模型在预训练和下游任务中对指令的响应保持一致。因为指令本身已经封装了任务相关信息,不需要通过微调提示层来学习任务相关信息,这样可以稳定模型对指令的处理方式。
- 通过降低目标节点的学习率,防止模型在微调过程中过度遗忘预训练阶段保留在目标节点嵌入中的先验知识,从而在保留预训练知识和有效适应下游任务之间实现平衡,减少灾难性遗忘的影响,提高模型的泛化能力。