【阅读笔记】Instruction-based Hypergraph Pretraining

Abstract中可以提炼的信息:
背景:预训练的作用是为了增强图学习模型将知识从大数据集转移到下游任务的适应性。
想解决的问题:训练目标的不同与数据分布的不同会阻碍预训练知识的迁移。
文章受到基于指令的提示词在语言模型训练广泛应用的启发,想迁移这个方法到超图预训练。

背景

目前预训练面临的问题:

  1. 在标签数据不足的情况下,pretext的设计与目标下游任务之间存在差距,阻碍预训练知识的迁移。[Pretext可以理解为是一种为达到特定训练任务而设计的间接任务]
  2. 在标签数据足够的情况下,预训练与目标任务的数据分布的不同也会损害学习性能
  3. 下游任务的数据集如果比较小,预训练可能会遭受严重的遗忘问题

将提示词运用到图预训练上存在的挑战:

  1. 作为纯文本的指令格式无法与图结构数据对齐。
  2. 从静态的角度来看,图提示词应该应用于图的特定部分,以根据特定的图查询来指导模型。
  3. 图提示词需要参与上下文感知的信息传播过程以捕获这些关系。
    常用的方法是让prompt信息参与到图上信息传递的过程中实现,而普通图仅在成对关系中传递信息,既不灵活也不高效,因此使用超图

设计超图预训练的提示词存在的挑战:

  1. 现有的基于提示的图预训练方法大多使用可学习的提示向量,这些向量随机初始化或基于预训练节点表示。但它们与特定任务的语义指令无关,其有效性依赖于下游任务微调数据的质量和多样性。在数据质量不高或多样性不足时,可学习提示向量可能无法提供有效的引导,导致模型性能不稳定或泛化能力差。
  2. 当在下游任务中出现大量未见节点时,传统的预训练范式(如冻结除可学习提示外的所有参数)效果不佳。因为预训练阶段的节点表示无法直接用于表示新的未见节点,可学习提示的不确定性在处理这些未见数据时会加剧,影响模型对新节点的处理能力。

而基于指令的预训练可以解决以上问题。
在这里插入图片描述
当三个历史爱好者阅读一本关于法国大革命的历史书时,利用一条超边将这三个历史爱好者连接起来。用指令对这条超边进行提示。这个指令与这三个历史爱好者阅读特定历史书的情境相关,目的是在预训练阶段为模型提供与任务相关的信息,使模型能够学习到关于这三个节点(历史爱好者)之间关系以及与所读历史书相关的特征表示,为后续任务做准备。
模型可能学习到了历史爱好者对特定历史时期内容的兴趣模式,从而将这种模式应用到诗歌推广任务中,找到具有相似兴趣特征的读者,实现精准推广。

文章贡献

!

问题定义

在这里插入图片描述
对于除了target node之外的节点被称为context node。文章的目标是在预训练阶段学习target node的表征,提高在下游任务的性能。

方法

这篇文章提出的模型是基于指令的超图预训练(Instruction-based Hypergraph Pretraining ,IHP)框架。
在这里插入图片描述

该框架的主要组成部分包括:
预训练阶段:

  1. 首先文章将普通图转为超图。并且构造两个超图,一个是target hypergraph,另一个是context hypergraph.以用户商品推荐为例,在target hypergraph中,超边是商品,节点是用户。在context hypergraph中,超边是用户,节点是商品。区分目标节点和上下文节点,可防止信息过度平滑,让模型学习节点同质性和上下文模式。
  2. 基于指令的提示表征:根据任务相关信息构建指令提示表征,与超边一一对应,由任务和节点描述组成,经编码和转换后融入 PHC 层信息传播。
  3. 提示超图卷积(PHC)层操作;
  • 首先通过超边初始化:通过聚合连接节点表征来初始化超边表示。
  • 然后将初始化的超边表示与提示信息融合。
  • 节点更新:通过聚合连接超边的融合表征更新目标节点表征。
  1. 预训练优化;采用链接预测任务进行优化,计算两个节点(如目标节点和上下文节点)的内积作为链接预测分数,公式为(和是经过 PHC 层后的最终节点嵌入)。然后采用成对 BPR 损失来优化预测,同时对预训练中的所有参数进行正则化,使用 Adam 优化器进行优化。

微调阶段:

  1. 预训练阶段输出的最优目标节点嵌入和提示层所有参数,被用于初始化下游任务中的目标节点和提示层。
  2. 微调预训练目标节点和未见上下文节点的嵌入;在下游任务中,冻结提示层的参数,确保模型在预训练和下游任务中对指令的响应保持一致。因为指令本身已经封装了任务相关信息,不需要通过微调提示层来学习任务相关信息,这样可以稳定模型对指令的处理方式。
  3. 通过降低目标节点的学习率,防止模型在微调过程中过度遗忘预训练阶段保留在目标节点嵌入中的先验知识,从而在保留预训练知识和有效适应下游任务之间实现平衡,减少灾难性遗忘的影响,提高模型的泛化能力。

实验结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/901330.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue学习笔记(四)

事件处理 我们可以使用 v-on 指令 (通常缩写为 符号) 来监听 DOM 事件,并在触发事件时执行一些 JavaScript。用法为 v-on:click"methodName" 或使用快捷方式 click"methodName" 事件处理器的值可以是: 内联事件处理器&#xff1…

鹅厂面试官:Transformer 为何需要位置编码?

最近这一两周看到不少互联网公司都已经开始秋招发放Offer。 不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。 最近,我们又陆续整理了很多大厂的面试题,帮助一些球…

前端零基础入门到上班:【Day2】开发环境VSCode安装

VSCode 安装教程:图文保姆教程 引言 在前端开发中,选择合适的代码编辑器是提高工作效率的重要一步。Visual Studio Code(简称 VSCode)作为一款强大的开源编辑器,因其简洁易用、功能强大、扩展性好而广受开发者喜爱。…

【智能大数据分析 | 实验四】Spark实验:Spark Streaming

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈智能大数据分析 ⌋ ⌋ ⌋ 智能大数据分析是指利用先进的技术和算法对大规模数据进行深入分析和挖掘,以提取有价值的信息和洞察。它结合了大数据技术、人工智能(AI)、机器学习(ML&a…

Postman常见问题及解决方(全)

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 1、网络连接问题 如果Postman无法发送请求或接收响应,可以尝试以下操作: 检查网络连接是否正常,包括检查网络设置、代理设置…

前端零基础入门到上班:【Day3】从零开始构建网页骨架HTML

HTML 基础入门&#xff1a;从零开始构建网页骨架 目录 1. 什么是 HTML&#xff1f;HTML 的核心作用 2. HTML 基本结构2.1 DOCTYPE 声明2.2 <html> 标签2.3 <head> 标签2.4 <body> 标签 3. HTML 常用标签详解3.1 标题标签3.2 段落和文本标签3.3 链接标签3.4 图…

市面上热门的四款PDF转换器解析!!

在互联网普及的今天&#xff0c;PDF和Excel已经成为我们工作中不可或缺的两种文件格式。PDF常用于文档的阅读、打印和分享&#xff0c;而Excel则适用于数据的分析和处理。但是&#xff0c;有时候我们需要在两者之间进行转换&#xff0c;例如将PDF中的数据导入到Excel中进行进一…

物联网数据采集网关详细介绍-天拓四方

一、物联网数据采集网关的概述 物联网数据采集网关&#xff0c;简称数据采集网关&#xff0c;是物联网系统中的重要组成部分&#xff0c;位于物联网设备和云端平台之间。其主要职责是实现数据的采集、汇聚、转换、传输等功能&#xff0c;确保来自不同物联网设备的数据能够统一…

Hadoop 踩坑汇总

文章目录 一、完整教程二、解决问题问题①&#xff1a; DataNode 没有问题②&#xff1a; 网页打不开 三、大功告成&#xff01;&#xff01; 一、完整教程 这个教程比较详细&#xff0c;博主是按照这个来执行的 https://blog.csdn.net/qq_47831505/article/details/123806514…

VsCode插件:前端每日一题

Javascript本地存储的方式有哪些&#xff1f; 区别及应用场景? 1. Cookie Cookie 是网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。Cookie 通常包含了用户的一些个人信息&#xff0c;如用户名、密码、浏览记录、偏好设置等。Cookie 一般在用户访问网站…

Excel:vba实现生成随机数

Sub 生成随机数字()Dim randomNumber As IntegerDim minValue As IntegerDim maxValue As Integer 设置随机数的范围(假入班级里面有43个学生&#xff0c;学号是从1→43)minValue 1maxValue 43 生成随机数(在1到43之间生成随机数)randomNumber Application.WorksheetFunctio…

智联招聘×Milvus:向量召回技术提升招聘匹配效率

01. 业务背景 在智联招聘平台&#xff0c;求职者和招聘者之间的高效匹配至关重要。招聘者可以发布职位寻找合适的人才&#xff0c;求职者则通过上传简历寻找合适的工作。在这种复杂的场景中&#xff0c;我们的核心目标是为双方提供精准的匹配结果。在搜索推荐场景下&#xff0c…

深入理解gPTP时间同步过程

泛化精确时间协议(gPTP)是一个用于实现精确时间同步的协议,特别适用于分布式系统中需要高度协调的操作,比如汽车电子、工业自动化等。 gPTP通过同步主节点(Time Master)和从节点(Time Slave)的时钟,实现全局一致的时间参考。 以下是gPTP实现主从时间同步的详细过程:…

奥迪一汽新能源:300台AGV、1000台机器人、24米立体库

导语 大家好&#xff0c;我是社长&#xff0c;老K。专注分享智能制造和智能仓储物流等内容。 位于长春的奥迪新能源工厂&#xff0c;占地面积广阔&#xff0c;达到了约150公顷&#xff0c;其规模之宏大&#xff0c;甚至超越了奥迪在欧洲的内卡苏姆工厂。 这座工厂不仅是奥迪在中…

一、在cubemx下RTC配置调试实例测试

一、rtc的时钟有lse提供。 二、选择rtc唤醒与闹钟功能 内部参数介绍 闹钟配置 在配置时间时&#xff0c;注意将时间信息存储起来&#xff0c;防止复位后时间重新配置。 if(HAL_RTCEx_BKUPRead(&hrtc, RTC_BKP_DR0)! 0x55AA)//判断标志位是否配置过&#xff0c;没有则进…

使用Angular构建动态Web应用

&#x1f496; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4bb; Gitee主页&#xff1a;瑕疵的gitee主页 &#x1f680; 文章专栏&#xff1a;《热点资讯》 使用Angular构建动态Web应用 1 引言 2 Angular简介 3 安装Angular CLI 4 创建Angular项目 5 设计应用结构 6 创建组件…

【每日一题】LeetCode - 盛最多水的容器

给定一个长度为 n 的整数数组 height。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i])。要求找出其中的两条线&#xff0c;使得它们与 x 轴共同构成的容器可以容纳最多的水。 输入示例&#xff1a; height [1,8,6,2,5,4,8,3,7]输出&#xff1a; 4…

CSS行块标签的显示方式

块级元素 标签&#xff1a;h1-h6&#xff0c;p,div,ul,ol,li,dd,dt 特点&#xff1a; &#xff08;1&#xff09;如果块级元素不设置默认宽度&#xff0c;那么该元素的宽度等于其父元素的宽度。 &#xff08;2&#xff09;所有的块级元素独占一行显示. &#xff08;3&#xff…

安卓在windows连不上fastboot问题记录

fastboot在windows连不上fastboot 前提是android studio安装 google usb driver 搜索设备管理器 插拔几次找安卓设备 在其他设备 或者串行总线设备会出现安卓 右键更新驱动 下一步下一步然后可以了

【FISCO BCOS】二十二、使用Key Manager加密区块链节点

#1024程序员节&#xff5c;征文# 落盘加密是对节点存储在硬盘上的内容进行加密&#xff0c;加密的内容包括&#xff1a;合约的数据、节点的私钥。具体的落盘加密介绍&#xff0c;可参考&#xff1a;落盘加密的介绍&#xff0c;今天我们来部署并对节点进行落盘加密。 环境&a…