Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录

  • 摘要
  • 1.问题的提出
    • 引出当前研究的不足与问题
      • KGC方法
      • LLM幻觉现象
      • 解决方案
  • 2.数据集和模型构建
    • 数据集
    • 模型方法
      • 基线方法
      • 任务
      • 模型方法
        • 基于LLM的KGC的知识前缀适配器
          • 知识前缀适配器
      • 与其他结构信息引入方法对比
  • 3.实验结果与分析
    • 结果分析:
    • 可移植性实验:
    • 消融实验
  • 4.结论与启示
    • 结论总结
      • 局限性
    • 启发

在这里插入图片描述
原文链接: Making Large Language Models Perform Better in Knowledge Graph Completion

摘要

基于大语言模型(LLM)的知识图补全(KGC)旨在利用 LLM 预测知识图谱中缺失的三元组,并丰富知识图谱,使其成为更好的网络基础设施,这可以使许多基于网络的自动化服务受益。然而,基于LLM的KGC研究有限,缺乏对LLM推理能力的有效利用,忽略了KG中的重要结构信息,阻碍了LLM获取准确的事实知识。在本文中,论文中讨论如何将有用的知识图谱结构信息融入到LLM中,旨在实现LLM中的结构感知推理。论文中首先将现有的LLM范式转移到结构感知设置,并进一步提出知识前缀适配器(KoPA)来实现这一既定目标。 KoPA 采用结构embedding预训练来捕获知识图谱中实体和关系的结构信息。然后,KoPA 通知 LLM 知识前缀适配器,该适配器将结构embedding投影到文本空间中,并获取虚拟知识标记作为输入提示的前缀。论文中对这些基于结构感知的 LLM 的 KGC 方法进行了全面的实验,并进行了深入的分析,比较了结构信息的引入如何更好地提高 LLM 的知识推理能力。

KEYWORDS
Knowledge Graphs, Knowledge Graph Completion, Triple Classification, Large Language Models, Instruction Tuning

1.问题的提出

引出当前研究的不足与问题

KGC方法

知识图补全(KGC)其目的是挖掘给定不完整知识图谱中缺失的三元组。KGC包含几个子任务,例如三元分类、实体预测和关系预测
主流的KGC方法: 基于embedding的方法和基于PLM的方法
– 基于embedding:充分利用知识图谱的结构信息,忽略了 KG 中的文本信息
– 基于PLM:利用了PLM的强大功能,但将训练过程变成基于文本的学习,很难捕获知识图谱中的复杂结构信息。

LLM幻觉现象

LLM对细粒度的事实知识记忆力不足,会导致幻觉现象。因此,将KG信息融入到提示中,提供更多的辅助信息,引导LLM进行结构感知推理,是实现优秀的基于LLM的KGC的关键。

(LLM4KGC)中的应用,目前缺乏仔细的研究

在本文中,论文中将探讨如何将知识图谱中的复杂结构信息融入到LLM中,以实现更好的知识图补全推理能力。

在这里插入图片描述
图 1:基于 LLM 的 KGC 的简单案例。描述实体周围信息的有用结构信息可以作为辅助提示,指导LLM做出正确的决策。

解决方案

已有的LLM4KGC的方法往往是通过指令微调的方式,构造提示词模版将一条条的三元组输入大模型中对大模型进行微调,来训练出能够完成KGC任务的LLM,但是这样的方法没有充分利用KG中存在的复杂结构信息,导致LLM无法充分地理解知识图谱中的结构信息,从而限制了LLM解决KGC问题的能力。围绕如何在LLM中引入KG结构信息这一个问题,

该文章做出了如下几点贡献:

  • 论文探究了在常见的LLM范式(不需要训练的上下文学习方法和需要训练的指令微调(in-context learning (ICL) and instruction tuning (IT)))基础上如何引入知识图谱的结构信息,分别提出了一种结构增强的上下文学习方法和结构增强的指令微调方法

  • 论文提出了一种知识前缀适配器(Knowledge Prefix Adapter, KoPA),将KG中提取的结构知识通过一个适配器映射到大模型的文本token表示空间中,并和三元组的文本一起进行指令微调,使得LLM能够充分理解KG中的结构信息,并在结构信息的辅助下完成知识图谱的推理。

  • 论文进行了大量的实验,来验证了论文中提出的多种方法的性能,探索最合理的结构信息引入方案。

2.数据集和模型构建

数据集

论文中使用三个公共 KG 基准 UMLS、CoDeX-S 和 FB15K-237N来评估所提出的基于 LLM 的 KGC 方法的能力。

模型方法

基线方法

基于embedding的方法、基于PLM的方法和基于LLM的方法。

  • 基于embedding的 KGC 方法。TransE、DistMult、ComplEx 和 RotatE
  • 基于 PLM 的 KGC 方法。KG-BERT和PKGC
  • 基于 LLM 的 KGC 方法。KGLLaMA ,ZSR、ICL、IT和结构感知IT(增强IT)
    进一步将基于LLM的方法分为两类:免训练方法和微调方法。Trainingfree方法包括ZSR和ICL(零样本推理和上下文学习),其余都是finetuning方法。

任务

三元组分类任务,区分三元组 (h, r, t) 是真还是假
使用准确率、精确率、召回率和F1分数作为评价指标。

模型方法

论文首先提出了结构增强的上下文学习和指令微调方法,通过将输入的三元组的局部结构信息通过文本描述的方式添加到指令模版中,实现结构信息的注入。

基于LLM的KGC的知识前缀适配器

在这里插入图片描述
图 2:论文中的知识前缀适配器 (KoPA) 概述。 KoPA 是一个基于 LLM 的两阶段 KGC 框架。 KoPA 首先对给定 KG 中的实体和关系进行结构embedding预训练。然后 KoPA 使用指令调整来微调 LLM。给定输入三元组的结构embedding将由适配器投影到LLM的文本标记空间中,并作为输入提示序列前面的一串前缀,也称为虚拟知识标记。利用仅解码器LLM的单向注意力机制,这些虚拟知识标记将被后续的文本标记看到,这将允许LLM在结构感知状态下解码指令的答案。

另一方面,论文中提出的知识前缀适配器(KoPA)的主要设计方案如上图所示,首先KoPA 通过结构特征的预训练提取知识图谱中实体和关系的结构信息 ,之后,KoPA通过一个设计好的 适配器,将输入三元组对应的结构特征投影到大语言模型的文本表示空间中,然后放置于输入prompt的最前端,让输入的提示词模版中的每个token都能“看到”这些结构特征,然后通过微调的Next Word Prediction目标对LLM的训练。

  • 对给定 KG 中的实体和关系进行结构embedding预训练
  • 然后 KoPA 使用指令调整来微调 LLM
  • 给定输入三元组的结构embedding将由适配器投影到LLM的文本标记空间中,并作为输入提示序列前面的一串前缀,也称为虚拟知识标记。
知识前缀适配器

LLM无法理解(h,r,t)的embedding,所以应用知识前缀适配器P将他们投影到M的文本标记表示空间中
通过P转换为多个虚拟知识标记

S𝑘𝑝𝑎 = K ⊕ I𝑖𝑡 ⊕ X

K = P (𝒉) ⊕ P (𝒓) ⊕ P (𝒕)
指令提示I是人工准备的指导LLM M执行KGC任务的指令
X(ℎ, 𝑟, 𝑡) = D (ℎ) ⊕ D (𝑟 ) ⊕ D (𝑡)

由于单向性,后面的所有文本标记都可以看到带有前缀 K 的文本标记 (通过这样做,文本标记可以单向关注输入三元组的结构embedding

与其他结构信息引入方法对比

论文对不同的结构信息引入方案进行了对比,对比的结果如下:
在这里插入图片描述
表 1:基于 LLM 的 KGC 方法三种方式的比较。对于提示长度分析,LI、LT分别表示指令提示和三元组提示的长度。 LD 表示演示的长度,k 是演示编号。 ZSR/ICL/IT 分别指零样本推理、上下文学习和指令调整。

与基本范式(ZSR/ICL/IT)相比,KoPA结合了KG结构embedding进入LLM以结合文本和结构信息

KoPA 可以通过更简化的提示获得更好的结果

3.实验结果与分析

实现部分,该论文选取了三个数据集,进行了三元组分类的实验。三元组分类是一项重要的知识图谱补全任务,旨在判断给定三元组的正确性。论文的主要实验结果如下:

在这里插入图片描述
可以看到,相比于传统方法、基于大模型的方法和引入结构信息的方法来说,KoPA在三个数据集上的准确率、F1值等指标取得了一定的提升。

结果分析:

微调LLM可以将KG信息引入LLM,整体性能有了明显的提升。同时,结构感知IT虽然通过三元组的邻域信息增强了输入提示,但与KoPA相比,其性能也有限。这表明,与基于文本的辅助提示相比,结构embedding包含更丰富的语义信息,LLM 也可以通过前缀适配器来理解这些信息。

  • LLM在不进行微调的情况下无法很好地理解KG结构信息

  • 与基于文本的辅助提示相比,结构embedding包含更丰富的语义信息,LLM 也可以通过前缀适配器来理解这些信息。

  • KoPA在更短的提示之上取得了更好的结果

可移植性实验:

在这里插入图片描述

图 3:可转移性实验的结果。论文中报告了不同诱导率(IR)下 CoDeX-S 数据集的结果。此外,论文中根据实体在训练过程中是否出现将测试数据分为可见(S)和不可见(U)部分。论文中还将所有 (A) 测试数据的结果加在一起。雷达图表中报告了准确度 (Acc) 和 F1 分数 (F1)。

为了进一步验证KoPA的通用性和可移植性,论文中进行了一项新的可移植性实验。

  • 归纳率(IR)的归纳设置,IR 指的是训练期间未见过的实体的比例。
  • 可以观察到 KoPA 在看不见的三元组方面优于其他方法,并且当 IR 增加时性能下降较少。
  • 这些现象表明知识前缀适配器可以学习从结构embedding到文本表示的良好映射,即使在训练期间看不见实体,这种映射也是可转移的,模型具有较好的可转移性

消融实验

在这里插入图片描述
表 4:CoDeX-S 上的消融实验结果。论文中首先用其他组件替换预训练的结构embedding,并改变虚拟知识标记的插入位置,以证明知识前缀适配器的有效性。

  • 第一部分旨在验证结构embedding的有效性 (选择RotatE的合理性)
  • 第二部分旨在验证前缀适配器的有效性。(使用前缀而不是中缀和后缀的合理性)
    将适配器生成的虚拟知识标记放在输入序列的中间(中缀)或最后(后缀)也会降低性能将标记放在序列的前面将使所有文本都关注它们

结合消融研究的这两部分,论文中相信KoPA设计是有效且合理的。

4.结论与启示

结论总结

在本文中,论文中提出了KoPA,一个为基于 LLM 的 KGC 设计的知识前缀适配器。 KoPA 旨在将KG的结构信息融入LLM中,并用KoPA生成的虚拟知识标记增强输入提示序列,指导文本解码过程做出合理的预测。 KoPA 是一种两阶段方法,包括结构embedding预训练和 LLM 上的指令调整。论文中进行了三元组分类实验,这是一项重要的 KGC 任务,旨在证明 KoPA 取得的优异结果。

该论文探索了如何将知识图谱中的结构知识引入大语言模型中,以更好地完成知识图谱推理,同时提出了一个新的知识前缀适配器,将从知识图谱中提取到的向量化的结构知识注入到大模型中。在未来,作者将进一步探索基于大语言模型的复杂知识图谱推理,同时也将关注如何利用知识图谱使得大语言模型能够在知识感知的情况下完成更多下游任务比如问答、对话等等。

  • 提出了 KoPA :基于 LLM 的 KGC 设计的知识前缀适配器

  • KoPA旨在将KG的结构信息融入LLM中

  • 两阶段方法,包括结构embedding预训练和 LLM 上的指令调整

  • 三元组分类实验证明 KoPA 取得的优异结果

局限性

本文中基于三元组分类任务进行实验,目前,论文中还没有将模型方法推广到各种 KGC 任务,例如实体预测和关系预测

启发

  1. 结构信息与大型语言模型(LLM)的协同利用: 有效地结合知识图谱(KG)的结构信息与大型语言模型LLM,可能提高模型对于知识推理的能力。

  2. 结构信息的预训练与传递: 如何通过结构信息的预训练,将图谱中实体和关系的结构embedding传递给大型语言模型,以提升语言模型对知识图谱中实体和关系的理解。 文中提出的**知识前缀适配器(KoPA)**可以帮助LLM来理解结构embedding中丰富的语义信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/344397.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Kafka-服务端-KafkaController

Broker能够处理来自KafkaController的LeaderAndIsrRequest、StopReplicaRequest、UpdateMetadataRequest等请求。 在Kafka集群的多个Broker中,有一个Broker会被选举为Controller Leader,负责管理整个集群中所有的分区和副本的状态。 例如:当某分区的Le…

第92讲:MySQL主从复制集群故障排查思路汇总

文章目录 1.从库I/O线程处于Connecting状态2.从库I/O线程处于No状态3.从库SQL线程处于No状态 1.从库I/O线程处于Connecting状态 从库的I/O线程处于Connection连接中的状态,一般都是连接不上主库导致: 可能由于网络不通,防火墙的干扰导致从库…

MongoDB系列之一文总结索引

概述 分类 索引的分类: 按照索引包含的字段数量,可分为单键索引(单字段索引)和组合索引(联合索引、复合索引)按照索引字段的类型,可以分为主键索引和非主键索引按照索引节点与物理记录的对应…

2024免费mathtype7.4.4安装注册步骤教程

数学建模中对公式的编辑有很高的要求,mathtype是一款专业的数学公式编辑工具,能够帮助用户在各种文档中插入复杂的数学公式和符号。 一 Mathtype 的下载安装 1.1 安装前须知 解压和安装前,需要将电脑的杀毒软件或者防火墙关掉,如…

python222网站实战(SpringBoot+SpringSecurity+MybatisPlus+thymeleaf+layui)-后台管理主页面实现

锋哥原创的SpringbootLayui python222网站实战: python222网站实战课程视频教程(SpringBootPython爬虫实战) ( 火爆连载更新中... )_哔哩哔哩_bilibilipython222网站实战课程视频教程(SpringBootPython爬虫实战) ( 火…

vue3跨域请求及一些常用配置

在使用vue3开发的时候,总免不了做一些基础的配置。比如跨域配置,一些常用函数的封装等等。接下来,我就做一些自己在在开发中所运用到一些常用配置。 一、跨域配置 其实,对于跨域配置,我之前的博文中也有说过&#xff0…

Linux的常见指令和基本操作演绎【复习篇章一】

文章目录 前言下载安装 XShellXShell 下的复制粘贴热键操作01.ls指令tree 02.cd指令03.touch指令04.mkdir指令(重要):05.rmdir指令 && rm 指令(重要)06.组合07.man指令(重要)&#xff1…

Packet Tracer - VLAN 间路由练习

地址分配表 设备 接口 IP 地址 子网掩码 默认网关 R1 G0/0 172.17.25.2 255.255.255.252 不适用 R1 G0/1.10 172.17.10.1 255.255.255.0 不适用 R1 G0/1.20 172.17.20.1 255.255.255.0 不适用 R1 G0/1.30 172.17.30.1 255.255.255.0 不适用 R1 G0/1.…

前景贴纸类特效SDK,面向企业的技术解决方案

随着数字媒体技术的快速发展,视频内容在社交媒体、广告、教育等领域的应用越来越广泛。为了增加视频的吸引力和趣味性,许多企业开始寻求在视频中添加特效和贴纸。美摄科技的前景贴纸类特效SDK为企业提供了一种高效、灵活的解决方案,满足不同的…

R语言VRPM包绘制多种模型的彩色列线图

列线图,又称诺莫图(Nomogram),它是建立在回归分析的基础上,使用多个临床指标或者生物属性,然后采用带有分数高低的线段,从而达到设置的目的:基于多个变量的值预测一定的临床结局或者…

生命在于折腾——WeChat机器人的研究和探索

一、前言 2022年,我玩过原神,当时看到了云崽的QQ机器人,很是感兴趣,支持各种插件,查询游戏内角色相关信息,当时我也自己写了几个插件,也看到很多大佬编写的好玩的插件,后来因为QQ不…

微信聊天记录生成词云

目录 前置准备一、获取微信聊天记录(一)配置MuMu模拟器(二)微信数据备份与恢复(三)获取微信聊天记录文件至电脑(四)获取EnMicroMsg.db的密钥(五)使用SQLciphe…

详解线性分组码(linear code)

目录 一. 介绍 二. 线性分组码 三. 生成矩阵 四. 对偶编码 五. 校验矩阵 六. 陪集编码 七. 小结 一. 介绍 Low-density parity-check,简称LDPC码,翻译为低密度奇偶校验码。 我们所熟悉的LDPC码就是一个典型的线性分组码(linear bloc…

2023年度AI盘点 AIGC|AGI|ChatGPT|人工智能大模型

前言 「作者主页」:雪碧有白泡泡 「个人网站」:雪碧的个人网站 2023年是人工智能大语言模型大爆发的一年,一些概念和英文缩写也在这一年里集中出现,很容易混淆,甚至把人搞懵。 文章目录 前言01 《ChatGPT 驱动软件开…

气象条件对铸铁平台地基深度有哪些影响呢——河北北重

气象条件对铸铁平台地基有以下影响: . 1.地震 地震可能导致地基的震动和错动,因此地震活跃区域的建筑物通常需要更深的地基以提供更大的稳定性。 2..温度变化:气温的变化会导致地基中的土壤膨胀和收缩,从而影响地基的稳定性。特…

展厅设计更好的方法

一、与公司形象契合 在展厅规划时必定要留意公司的LOGO、主色调,以及企业文明。在展现时使用丰满的展厅规划传达出企业的理念。而在功用设置上,应当考虑内涵功用,从展厅作业人员的视点动身,为展厅作业人员提供杰出的环境&#xff…

书生·浦语大模型实战营-学习笔记6

目录 OpenCompass大模型测评1. 关于评测1.1 为什么要评测?1.2 需要评测什么?1.3 如何评测?1.3.1 客观评测1.3.2 主观评测1.3.3 提示词工程评测 2. 介绍OpenCompass工具3. 实战演示 OpenCompass大模型测评 1. 关于评测 1.1 为什么要评测&#…

《WebKit 技术内幕》学习之五(4): HTML解释器和DOM 模型

4 影子(Shadow)DOM 影子 DOM 是一个新东西,主要解决了一个文档中可能需要大量交互的多个 DOM 树建立和维护各自的功能边界的问题。 4.1 什么是影子 DOM 当开发这样一个用户界面的控件——这个控件可能由一些 HTML 的标签元素…

单域名证书,多域名证书,通配符证书怎么选?了解这些就够了

首次购买证书时,我们经常遇到不知道选择那种证书,由于缺乏相关的了解,稍不留神,就会踩坑!那初次购买证书时,了解这几点其实就足够了! 第一点,了解证书的类型。 证书一般分为DV&am…

<蓝桥杯软件赛>零基础备赛20周--第16周--GCD和LCM

报名明年4月蓝桥杯软件赛的同学们,如果你是大一零基础,目前懵懂中,不知该怎么办,可以看看本博客系列:备赛20周合集 20周的完整安排请点击:20周计划 每周发1个博客,共20周。 在QQ群上交流答疑&am…