Unlock the Power of Frozen LLMs in Knowledge Graph Completion

文章目录

    • 题目
    • 摘要
    • 引言
    • 方法
    • 实验
    • 相关工作
    • 结论
    • 局限性
    • 附录

题目

在知识图完成中释放冻结LLM的力量

在这里插入图片描述

论文地址:https://arxiv.org/abs/2408.06787

摘要

    传统的知识图完成(KGC)方法仅仅依赖于结构信息,难以克服知识图固有的稀疏性。大型语言模型(LLM)通过强大的上下文建模从大型语料库中学习广泛的知识,这使得它们有望减轻以前方法的局限性。直接微调LLM提供了强大的功能,但代价是巨大的时间和内存消耗,而利用冻结的LLM会产生次优的结果。在这项工作中,我们的目标是有效和高效地利用KGC LLM。我们通过使用提示刺激LLM的中间层来捕获知识三元组的上下文感知隐藏状态。然后,我们在这些隐藏状态上训练一个数据有效的分类器,以利用在KGC冻结的LLM的固有能力。此外,为了减少歧义和丰富知识表示,我们通过在KGs上进行子图采样来生成详细的实体描述。在标准基准上的大量实验证明了我们方法的效率和有效性。在大多数数据集上,我们优于传统的KGC方法,特别是,实现了与微调LLM相当的分类性能,同时将GPU内存效率提高了188倍,将训练和推理速度加快了13.48倍。

引言

    知识图补全已经成为提高知识图应用的一个至关重要的努力(陈等,2020),其目的是通过预测现有实体之间的潜在关系和发现新的关系事实来补全知识图并扩大其规模(沈等,2022b)。传统的知识图嵌入方法仅利用来自知识图的结构信息(Bordes等人,2013;Trouillon等人,2016;孙等,2019),这些问题的症结在于KGs的稀疏性(姚等,2019)。利用LLM强大的上下文建模能力和大量存储的世界知识,可以通过利用知识图中丰富的语义来缓解这一挑战,从而提高知识图完成的性能(Wei等人,2023)。

    这些方法通常分为两种类型:使用带有提示技术的冻结LLM和专门针对KGC的微调LLM。第一种类型利用冻结的LLM和提示技术,例如上下文学习。这些技术使模型能够通过自然语言输出直接执行KGC(魏等,2023;姚等,2023),利用这些模型中嵌入的预训练知识,无需额外培训。虽然这种方法提供了计算效率,但它可能无法完全捕捉最佳KGC性能所需的任务特定的细微差别。第二种类型涉及使用监督技术(包括指令调整)微调LLM,以使模型特别适合KGC任务。这种方法包括通过使用训练样本(姚等,2023)微调线性模型,如美洲驼,这可以通过使模型更接近目标来提高性能(张等,2023;姚等,2023)。然而,微调需要显著增加时间和资源支出。这种二分法提出了一个基本的问题:我们如何利用液质联用技术高效地完成KGC任务?

    为了回答这个问题,我们探索了冷冻LLM相对于微调LLM表现不佳的原因。首先,虽然LLM包含大量编码在其参数中的世界知识,但通过冻结模型访问知识并将其有效解码为响应可能具有挑战性(Wang等人,2023)。LLM可以产生幻觉——看似合理但不正确的输出(赵等,2023)——使其对精确的KGC任务不可靠。微调通过任务特定的数据直接修改模型的权重,从而增强相关知识的检索并提高性能(周等人,2024)。第二,kg通常涉及复杂的关系和不明确的实体表示(Li等人,2024),如果没有特定的调整,冻结的LLM可能很难准确处理这些细微差别。

    可以明确地训练微调模型来解释和消除复杂性,从而更好地链接KGs中的实体。为了克服冻结LLM在KGC任务中的局限性,我们引入了利用刺激提示的探测技术,并辅以详细的实体描述,如图1所示。这些方法旨在有效地提取和利用嵌入模型参数中的潜在知识,并最大限度地减少模糊的实体表示,从而增强其在KGC的应用,而无需大量的再培训。具体来说,我们的研究集中于知识图完成的核心任务:三重分类和关系预测。

    我们刺激LLM的中间层捕捉知识三元组的上下文感知隐藏状态。此外,我们通过将KG实体与LLMs对齐来提高知识表示的精度,通过从KG中抽取子图生成实体描述来降低知识三元组的歧义性。我们在标签支持的隐藏状态上训练一个数据有效的分类器,以充分利用冻结LLM固有的KGC能力。

    我们的贡献可以总结如下:

  1. 我们介绍了一种为KGC任务定制的新型探测方法,旨在刺激语言模型直接预测知识图三元组。我们通过使用子图进一步生成知识图实体描述,然后将它们无缝集成到我们的探测技术中。
  2. 我们的方法采用既有效又高效的LLM来实现KGC。
  3. 与在整个训练集上微调LLM相比,通过仅利用数据集的子集,我们的方法实现了高达2.7%的相对性能改善。此外,它还显著减少了GPU内存在训练阶段,ory使用率降低了188倍,时间消耗降低了13.48倍,同时保持了相当的性能。
  4. 我们在六个标准知识图数据集上进行了广泛的实验,以针对多个基准方法对我们的方法进行基准测试。我们调查了我们的方法与各种语言模型的通用性,通过严格的实验验证评估其有效性和数据效率。

方法

    我们的方法是基于对冻结LLM与微调LLM相比表现不佳的两个主要原因的分析而设计的。首先,冻结的LLM可能不能有效地获取必要的知识来生成准确的响应。我们将在第2.2节中演示如何使用探测技术为冻结的LLM实现这一点。第二,kg通常涉及不明确的实体表示,这对于LLM来说很难准确处理。在2.3节中,我们将展示如何通过生成实体描述来实现这一点。

    公式化和符号一个知识图G由一组实体E和关系R组成,它可以表示为一组三元组G = {(h,R,t)},其中h ∈ E是头实体,t ∈ E是尾实体,我们统称头实体和尾实体为E,r ∈ R表示它们之间的关系。d是每个实体和关系的描述集。我们将D(e),D®表示为每个实体和每个关系的文本描述。我们关注三重分类和关系预测。三元组分类涉及评估给定知识三元组的似然性,以确定三元组是否为真,并且关系预测预测三元组中缺失的关系。

    刺激大型语言模型的中间层知识图由无数个三元组组成,这些三元组的格式对于LLM来说很难理解,这可能会误导LLM检索不相关的知识并揭示错误的响应。提高…的性能在的LLM中,我们利用了语言模型的内部判断机制(邹等,2023)。我们的方法包括战略性地触发嵌入在LLM中的必要深度的知识,以引出精确KGC所需的正确响应,从而提高KGC任务的整体性能。

在这里插入图片描述
图1:我们提出的三重分类探测方法的整体架构。构造正样本对和负样本对,然后刺激语言模型的中间层以获得用于完成KGC任务的隐藏状态。实体描述由子图实体描述生成器生成。整个架构中唯一需要训练的组件是用于分类隐藏状态的高效数据分类器,可以是MLP、逻辑回归等。

    具体来说,由于语言模型的不同层有不同的作用(Azaria和Mitchell,2023),我们通过试验验证集来确定最适合任务的层。有关中间层的选择,请参见附录B.5。首先,我们构建提示模板来刺激模型在中间层中生成所需的分类信息。在三元组分类中,我们的目标是确定知识图中的三元组是否为真。因此,我们使用下面的提示模板P T1来创建用于训练的阳性和阴性样本对,如图2所示。请注意,提示没有描述三元组的正面或负面信息。

    然后,我们使用知识图中现有的三元组来构建正样本S +,并采用负采样技术(Lv等人,2022)来获得负样本S。最后,我们获得N个训练数据样本。对于每个训练文本,我们将其输入到语言模型中,以获得每个文本在中间层中的表示。我们可以从对应于紧接在模型预测之前的标记的隐藏状态中获得关于三元组的似然性的信息,该标记是输入文本(邹等,2023)。具体来说,我们通过以下方式获取阳性样本s + ∈ S +的似真性信息:在这里插入图片描述

    其中M表示语言模型,M1:i表示模型的前I层,[1]表示对应于最后一个标记的隐藏状态,L表示模型的层数。M1:I(s+)[1]的维数是语言模型的嵌入维数。阴性样本遵循同样的原则。最后,我们使用v(s +)和v(s)训练一个分类模型来区分似是而非的三元组。目标是学习能够将对应于正样本(为真)的LLM的中间层的隐藏状态与对应于负样本(为假)的隐藏状态分开的边界。我们可以使用分类模型,如多层感知器(MLP),SVM等。,进行分类训练。以确定样本可信度的逻辑回归为例:在这里插入图片描述

    其中x表示v(s)[l],l是层索引,w和b是要学习的权重和偏差。对于关系预测,我们将二元分类转化为多类分类。通过利用图7中的提示,我们刺激LLM生成隐藏状态,这些隐藏状态捕获KG中不同关系类型的特征。有关详细信息,请参见附录B.1。通过专注于直接从模型的内部处理中提取分类结果,我们确保了响应既相关又精确,从而提高了KGC任务的有效性。

在这里插入图片描述

    子图实体描述生成器知识图中实体的语义复杂,由于固有的歧义和多义性,使得语言模型仅基于实体名称进行解释具有挑战性。因此,我们通知语言模型输入中每个实体的含义。KG中每个实体的意义都是由其一跳子图生成的。

    具体来说,我们扩展了2.2节中构建的提示模板,旨在帮助语言模型将内部实体与知识图中的实体对齐。对于三元组分类,由于我们采用探测方法从样本中提取KGC特征,我们需要确保语言模型可以被模拟以产生有效的隐藏状态,该隐藏状态可以被分类器用来预测三元组的似然性。因此,我们构造了一个新的提示P T2,如图2所示。通过引入D(e ), LLM能够生成更精确和可区分的隐藏状态,从而提高整体分类性能。

    为了解决某些数据集中不完整的实体描述,我们设计了一种生成D(e)的方法。我们用两种方法构造D(e)。第一种方法涉及一种直接的方法,其中我们将围绕实体e的一跳子图内的所有三元组连接起来,从而形成D(e) (Zhang等人,2023)。然而,这种直接连接有时会导致LLM的无效或误导刺激,因为这些子图三元组的结构可能与LLM预训练阶段看到的文本明显不同。

    这种差异会对模型的响应精度产生不利影响。为了缓解这个问题,我们的第二种方法利用语言模型将这些三元组转换成LLM更容易理解的格式。通过将来自实体e周围的一跳子图的三元组重新表述为自然语言文本,我们产生了D(e):D(e)= concat { transform({ h1 } { r1 } { t1 }),(h1,R1,t1) ∈子图(e)},其中子图( )是检索实体所在的一跳子图中所有三元组的集合的函数;transform()是将三元组转换成句子的函数;concat()是一个处理三元组语句的函数。对于第一种方法,concat()是一个字符串连接函数,它用分隔符连接每个转换后的三元组语句。对于第二种方法,我们需要利用LLM和上下文学习技术(Brown et al,2020)来基于子图中的三元组生成实体的描述。

    详情请参阅附录A.1。通过使用子图描述生成器生成长的实体描述,我们将LLM中实体的内部理解与KG中的实体含义联系起来,这类似于知识图中的实体链接过程。这样,LLM将更好地理解实体的语义,并提高KGC的性能。

实验

    在实验中,我们的目标是回答以下研究问题(RQs):RQ1:采用所提出的探测方法的冻结LLM是否能够有效地实现与其微调对应物相当的性能?RQ2:我们的方法在不同的语言模型和分类模型中表现如何?RQ3:我们提出的KGC方法的数据效率和计算效率如何?

    数据集在我们的实验中,我们采用了五个广泛使用的KG数据集进行三重分类:FB13 (Socher等人,2013),WN11 (Socher等人,2013),FB15K237N (Lv等人,2022),WN18RR (Dettmers等人,2018)和(姚等,2019),以及用于关系预测的常用KG数据集:YAGO3-10 (Dettmers等,2018)。

在这里插入图片描述

    对于FB13,我们使用维基百科实体描述作为输入句子。对于FB15K-237N,使用(谢等,2016)提供的实体描述。来自(姚等,2019)的同素集定义用作WN18RR的实体描述。在UMLS的情况下,使用数据集提供的实体描述。在下文中,我们将实体描述称为非生成实体描述。

    实验设置为了生成实体描述,对于2.3节中的第一种方法,我们连接所有的子图三元组来生成描述。对于第二种方法,我们采用GPT 3.5涡轮作为LLM。出于成本考虑,我们从每个数据集中随机选择4000个测试实例来生成实体描述。我们用星号(*)标记这些方法的结果。在下文中,我们将这些实体描述称为生成实体描述(Tri)/(GPT)。

    我们将我们的方法与四种基于结构信息的方法进行了比较:TransE (Bordes等人,2013年)、DistMult(杨等人,2014年)、ComplEx (Trouillon等人,2016年)和RotatE(孙等人,2019年),以及另外七种基于信息的方法:KG-LLAMA(姚等人,2023年)、KG-BERT(姚等人,2019年)、KG-T5 (Saxena等人,2022年)、LLaMA-7b、羊驼7b、羊驼-7bKGLLAMA、KG-BERT和KGT5使用所有训练样本微调语言模型。

    美洲驼7b和羊驼7B使用冻结语言模型进行预测。美洲驼-7B-ICL和羊驼-7B-ICL使用2次采样和上下文学习进行预测。这些方法的详细介绍请参考4.1节。对于基于结构信息的方法,我们用OpenKE重现了结果(韩等,2018)。对于其他基于信息的方法,我们使用官方代码实现来重现结果。对于KGT5,在FB15K237N,WN18RR,UMLS数据集上没有该方法的公共记录或代码。详细的实验设置请参考附录A.2。

    主要结果(对于RQ1)从表2中可以观察到,当使用部分训练集时,LLAMADES-H和LLAMA-DES2 (GPT)表现出与KG-LLAMA-7B相当的性能,后者用所有训练三元组进行了微调。此外,当在同等大小的子集上进行训练时,美洲驼-H和美洲驼-DES2 (GPT)明显优于KG-美洲驼采样,即现有的专门依赖于KGC美洲驼的最先进方法。有关更多详细信息,包括基线模型(如羊驼-7B-ICL和Structural-aware-IT)的结果,以及我们的方法在完整训练集上的性能,请参考附录B.4

    表2中给出的实验结果也验证了2.2节和2.3节中提出的方法的有效性。具体来说,美洲驼-DES-H和美洲驼-DES2 (GPT)优于美洲驼-MLP,证明了使用子图实体描述生成器来提高LLM对KG中实体的理解的有效性,如2.3节所建议的。此外,与美洲驼-7B和美洲驼-7B-ICL相比,美洲驼-MLP表现出优越的性能,证实了第2.2节提出的增产方法的有效性。因此,实验结果证实了我们提出的方法的有效性。此外,冻结的LLM也可以实现与微调LLM类似的KGC效应。

    请注意,在UMLS数据集上的性能是特殊的,使用生成的描述会妨碍模型的分类准确性,使用非生成的实体描述也比不使用任何实体描述更糟糕。据推测,潜在的原因可能在于UMLS数据集中实体名称的高度专业化和特定领域的性质,这些名称通常是精确的医学术语,具有有限的多种解释的空间。知识图中的实体与LLM的内部实体有很好的一致性。

    同时,使用实体描述可能会受到噪声描述文本的影响,并且由GPT-3.5-turbo生成的描述可能会受到以下因素的影响幻觉,从而影响诱导隐藏状态的分类效果。除了三重分类之外,我们还验证了所提出的探测方法在关系预测任务上的有效性,如表3所示。实验结果类似地表明,即使仅使用0.6%的训练数据,探测方法也可以实现与完全训练集微调几乎相同的性能。附录B.1中提供了详细的方法和分析。

在这里插入图片描述

表2:三重分类的主要实验结果(准确率)。在P红栏中,S-F使用得分函数,L-MLP在最后一层隐状态上使用MLP,N-L使用自然语言,H-MLP在中间层隐状态上使用MLP进行预测。样本表示训练样本计数,3k/10k表示UMLS数据集的10k样本,其他数据集的3k样本。美洲驼-MLP使用美洲驼-7B和MLP进行隐藏状态分类,使用P T1进行刺激生成;LLAMA-DES-H将非生成描述与T2相结合,用于刺激生成;LLAMA-DES2 (Tri)/(GPT)使用第一/第二生成描述和T2用于刺激生成。每个数据集的前三个结果以粗体显示。
在这里插入图片描述

表3:关系预测的实验结果(Hits@1)。LLAMA-MLP-7B是指使用LLaMA7B作为基础语言模型,使用MLP作为隐状态分类器,使用P T3产生刺激;LLAMA-DES2 (GPT)指的是使用第二生成描述结合P T4生成刺激。

    消融研究(对于RQ2)通过图3左部所示的分析,可以观察到,随着中间层指数的增加,三级分类的隐藏状态的功效表现出最初的倾斜,随后下降。与最低层相比,更接近自然语言文本输出的中间层通常表现出更好的预测性能。这一观察证实了杰瓦等人提出的观点(2020)语言模型通过其前馈层对知识进行不同的编码,较高层集成来自较低层的信息。在预训练期间,较低层可能没有存储某些知识,因此不能产生有助于准确的三重分类的隐藏状态。

    此外,更接近自然语言文本输出的层的预测性能通常比中间层的预测性能差。这种现象可能归因于美洲驼固有的幻觉问题,其中较高层可能会忽略或改变三重信息,导致刺激诱导的正负三重隐藏状态之间的模糊区分(Jiang等人,2024;邹等,2023)。详细的解释可以可在附录B.5中找到。在图3右侧,Mistral模型的类似观察结果清晰可辨,该模型的骨架与美洲驼不同。同时,如表5所示,我们的方法展示了跨不同主干模型的强大通用性,仅用少量样本即可实现与完整数据集微调相当的性能。

在这里插入图片描述
图3:美洲驼不同层面的KGC表现差异-DES2(GPT)[左]和mistraldes 2(GPT)[右]。水平轴表示LLaMA或Mistral(它们具有不同的主干)中中间层的位置,垂直轴表示数据集。

    关于分类模型,进行了包括MLP、SVM和逻辑回归的比较分析,如表4所示。结果显示,与其他两个分类模型相比,MLP优于所有三个数据集,而逻辑回归也表现出接近MLP的结果。这强调了我们的刺激方法的有效性,由此在高维空间中阳性和阴性样本的隐藏状态是容易区分的。

在这里插入图片描述
表4:使用SVM、逻辑回归、MLP作为分类模型的不同数据集的KGC预测性能的变化。所有这些方法都使用LLaMA-7B作为基础模型,并使用P T1生成刺激。

    效率研究(针对RQ3)如图4所示,当仅使用100个样本进行训练时,我们的方法明显优于FB13上的KG-LLAMA和KG-BERT,而后者使用3000个样本。对于UMLS,具有3000个训练样本的KG-LLAMA和KG-BERT的性能与LLAMA-DES相当h只用500个样本训练。此外,结合表2和表10的结果,对于FB13数据集,我们的方法仅使用500个样本(仅占总训练样本的0.079%)就达到了使用完整训练集可实现的性能的97.2%。相比之下,KG-LLAMA和KG-BERT分别只达到最大性能的78.7%和63.1%。对于UMLS,使用9.58%的训练集,我们的方法达到了全部训练集性能的90.6%。对于其他数据集,请参考附录B.6。我们的实验结果证实,语言模型能够通过2.2节和2.3节中描述的技术生成有效的隐藏状态,证明了其在KGC任务环境中的数据高效场景的潜力。

在这里插入图片描述
表5:使用LLaMA、Mistral (Jiang等人,2023年)和Gemma (Team等人,2024年)作为基础模型(具有不同的主干)的不同数据集的预测性能的变化。不同方法使用的训练样本数量见表2。

    同时,我们也评估了我们方法的计算效率。表8显示了我们的方法可以实现比参数高效微调低得多的消耗,即使是在设置完整数据集的情况下。与微调的LLM相比,我们在模型训练期间将GPU内存效率提高了188倍,总体速度提高了13.48倍。详情请参考附录B.3。

在这里插入图片描述
图4:KG-LLAMA、KG-BERT和LLAMA-DES-H在三重分类上的预测性能随着训练数据集的大小而变化。水平轴表示使用的训练样本的数量,正样本和负样本的数量相等。

相关工作

    知识图完备化知识图的典型特征是其固有的不完备性,往往包含大量隐含的或缺失的有价值的知识(Hogan et al,2021)。在流行的方法可分为两大类:基于结构信息的方法和基于附加信息的方法(沈等,2022b)。基于结构信息的方法利用知识图中存在的固有结构数据。例如,RESCAL (Nickel等人,2011)、DistMult (Yang等人,2014)、COMPGCN (Vashishth等人,2019)和ConvE (Dettmers等人,2018)主要使用评分函数来评估潜在嵌入空间内实体或关系嵌入的语义相似性,以推断缺失的信息。其他基于信息的方法包括各种补充数据,以丰富知识图表。

    这些方法利用节点属性、实体相关信息或关系路径数据来增强对KGC任务至关重要的知识嵌入的特征。突出的例子是KG-BERT(姚等,2019)和LASS(沈等,2022a),它们将实体、关系和三元组表示为文本序列,将转化为序列分类问题。KG-S2S(陈等,2022)和KGT5 (Saxena等,2022)采用编码器-解码器架构语言模型,以生成方式完成KGC。KGLLAMA (Yao等人,2023)利用由实体和关系名称组成的三元组作为句子,对的LLAMA模型进行参数有效的微调。李等(2024)通过生成实体描述和设计损失函数进行微调,增强了LLM的KGC。

    大型语言模型一些研究探索了大型语言模型处理、解释和生成事实内容的机制。正如塞尔等人(2023年)所强调的,这些模型作为广泛的知识库,在其参数内封装了关于世界的大量信息。这种对LLM的洞察强调了它们作为广泛应用的强大工具的潜力,包括通过利用存储在其复杂网络结构中的丰富信息内容来完成知识图。Ramrakhiyani等人(2023)使用探测技术对多个大型语言模型进行了评估,以评估他们的世界地理知识。同样,Onoe等人(2022)开发了一种通过掩蔽跨度来自动构建完形填空提示的方法,旨在通过事实探查来评估语言模型对实体的理解。此外,Azaria和Mitchell (2023)以及Zou等人(2023)已经探索了训练分类器,以基于LLM中隐藏层的激活来估计陈述的真实性。

结论

    在本文中,我们介绍了一种新颖的数据高效探测方法,该方法通过利用LLMs的内部知识来完成KGC。实验表明,使用具有生成的实体描述的探测方法,冻结的LLM可以获得与它们的微调对应物相当的性能。同时,与参数高效的微调方法相比,这种方法节省了大量的GPU内存和时间。这项工作探索了冷冻LLMs在KGC任务中的功效和效率。与微调LLM相比,我们以更好的方式触及了KGC问题的核心。

局限性

    我们当前的架构设计仅适用于提供令牌嵌入访问的开源LLM或闭源模型;它不适合专门输出文本的闭源模型。认识到这些限制,未来的工作将旨在扩展我们的架构,以适应只输出文本或令牌概率的闭源LLM。此外,未来的努力可以将基于结构信息的KG模型,如TransE,与我们的方法集成在一个混合方法中。

附录

    实验细节A.1使用GPT-3.5-turbo生成实体描述在2.3节中,我们利用具有上下文学习技术的LLM来基于实体的一跳子图中的三元组生成实体描述。

    在实验中,我们使用GPT-3.5作为LLM。用于生成实体描述的提示模板如图5所示。具体地,EN(e)是实体e的实体名称;concat_subgraph()是一个函数,它首先将实体所在的一跳子图中的三元组转换成句子,然后使用指定的分隔符将这些句子连接起来。值得注意的是,提示中使用的所有三元组都来自训练集,防止了生成的实体描述中测试集的潜在数据泄漏。表6显示了使用这种方法生成的实体的描述,从而实现了知识图和LLM之间的“实体对齐”。

系统:你是一个有用的助手。

用户:实体描述是对实体名称的描述。
给定实体名称:“swob”;同时,‘swob’满足约束:swob衍生相关形式swob,swob衍生相关形式嗜酸乳杆菌,swob衍生相关形式style,swob衍生相关形式swob。请生成满足“swob”约束的实体说明。
助手:swob是一种清洁工具,由固定在手柄上的吸收材料组成;用于清洁地板。
用户:实体描述是对实体名称的描述。
给定实体名称:“{ EN(e)}”;同时,“{EN(e)}”满足约束:{concat_subgraph(EN(e))}。请生成满足{EN(e)}约束的实体描述。
助理:

图5:用于为GPT-3.5-turbo基于实体所在的一跳子图生成实体描述的提示模板。

A.2实施细节

###说明:你是个很有帮助的助手。

###输入:这是真的吗:土改上位词改革?###回应:是的,这是真的。

###输入:这是真的吗:土改上声城堡?###回应:不,这不是真的。

###输入:是这样吗:{h} {r} {t}?###回应:图6:wn 18 RR数据集上羊驼-7B-ICL使用的提示模板。

    在我们的实现中,我们使用他们论文中推荐的超参数对这些基线进行了实验。对于在数据集上采用的负采样,我们利用与姚等人(2019)对FB13和WN11相同的负采样技术。

    具体而言,FB15K-237N旨在提取硬阴性三元组,提供更具挑战性的评估,并在数据集构建期间减少验证/测试数据集中的假阴性。采用类似的方法构建WN18RR和UMLS的阴性样本。同时,对于我们研究中的所有实验,训练集包含相同数量的阳性和阴性样本。

    对于MLP分类器配置,我们选择批量大小为64,学习率为3e-5,并利用AdamW优化器,训练限于30个时期。对于美洲驼7B-ICL和羊驼7B-ICL,我们分别从每个数据集的训练集中随机选择一个阳性样本和一个阴性样本。在WN18RR数据集上使用羊驼-7B-ICL对KGC的提示如图6所示。此外,表7列出了用LoRA技术训练的模型的超参数,特别是KG-LLAMA-7B。

    值得注意的是,对于表2、表3、表4、表5和图4,我们通过对验证集进行实验来确定最适合该任务的层,然后在测试集上报告结果。对于图3,显示的结果是针对测试集上语言模型的不同层的。对于表2和表3中的基线结果,我们优先使用官方基线文件中报告的结果。对于论文中未包括的结果,我们使用官方来源推荐的超参数重复实验,并对这些超参数进行多次尝试和优化。每个实验随机初始化进行三次,并记录平均结果。

    b附加结果和分析B.1给定不完全三元组(h,t)作为查询,关系预测旨在预测缺失的关系(表示为?).对于关系预测,我们将图1所示的三元分类的二元框架转换为多类框架。

    用于分类的类别是每个知识图中的关系类型。表3显示了我们在YAGO310 (Dettmers等人,2018年)数据集上的实验结果。我们使用遵循提示模板,P T3和P T4,来创建用于分类的训练样本,如图7所示。P T4引入D(e)来生成更精确和可区分的隐藏状态,链接Yago中的实体和LLM中的实体,从而提高整体关系预测性能。

在这里插入图片描述
表6 FB13数据集上生成的实体描述与非生成的实体描述的比较。

    值得注意的是,“全部”代表1,079,040个训练样本。美洲驼-MLP和美洲驼-DES2 (GPT)仅使用0.6%的训练集来训练探测分类器。可以看出,具有冻结语言模型参数的LLAMA-DES2 (GPT)实现了非常接近KG-LLAMA-7B的结果,其在全数据集上被微调。

    B.2案例研究表9显示了WN11测试集中两个样本的不同模型的预测结果。对于第一种情况,可以看出,在使用冷冻LLM的方法中,只有美洲驼-7B-ICL、美洲驼-MLP和美洲驼-DES-H预测正确。然而,美洲驼-7B-ICL方法预测几乎所有的测试样本都是“真”的。对于第二种情况,可以看出只有美洲驼-MLP、美洲驼-DES-H和KG-美洲驼-7B预测正确。然而,KG-LLAMA-7B在完整训练集上进行了微调。美洲驼-MLP和美洲驼-DES-H的正确预测表明,LLM本身具有做出准确预测的相关知识,而像美洲驼-7B-ICL和羊驼-7B这样的方法没有充分利用存储在语言模型中的知识,或者在响应过程中产生幻觉。

在这里插入图片描述
表7:KG-LLAMA-7B的超参数。

    B.3效率分析我们使用Nvidia 3090 GPU,在GPU内存和耗时指标方面,在WN11完整数据集上比较了KG-LLAMA方法和LLAMA-MLP的性能。

    结果如表8所示。对于GPU内存使用的计算,我们使用“torch.cuda.memory_allocated”来获得每一步的内存使用峰值。对于GPU内存缩减因子的计算,我们只关注训练阶段,将KG-LLAMA的内存使用量除以LLAMA-MLP的内存使用量。对于时间消耗的缩减因子,我们首先对每种方法的训练和推理阶段所消耗的时间求和,然后将结果相除。对于所有方法,所有程序的批次大小都设置为1。KG-LLAMA方法采用LoRA进行监督微调,其超参数列于表7中,在效率实验中将历元设置为1。为了训练在KG-LLAMA阶段,我们使用8位量化技术,而对于推断阶段,我们配置不使用波束搜索。在美洲驼-MLP的推理阶段,我们对训练数据和测试数据都进行了探索。因此,表中三个时间的总和分别对应于探测训练数据、探测测试数据和MLP正向传递所需的时间。

    值得注意的是,在实际使用中,我们的探测方法只需要训练集的一小部分就可以完成分类器的训练(如MLP、Logistic回归等。).这里,为了测试的公平性,我们使用了完整的数据集。我们可以在表8中清楚地看到,与KG-LLAMA相比,所提出的使用冻结语言模型的探测方法在所有阶段消耗的GPU内存更少,尽管KG-LLAMA采用了LoRA等参数高效的微调技术来节省内存。此外,由于我们的方法只需要前向通过LLM,它比KG-LLAMA消耗的时间少得多。

在这里插入图片描述
表8:在WN11数据集上KG-美洲驼和美洲驼-MLP的效率比较。“程序”栏代表这些方法的几个关键步骤。

    B.4附加基线从表10中可以看出,值得注意的是,ALPACA-DES未能优于ALPACA-7B,这表明,考虑到LLM揭示错误响应和受幻觉影响的可能性,仅纳入实体描述可能不会产生直接的性能增强。

在这里插入图片描述
表9:从WN11数据集中选择的两个代表性示例的案例研究(三重分类)。“N/A”表示模型的输出不包含预测的标签信息(即是或否)。

    同时,在我们的研究中,我们没有将我们的方法与KOPA进行比较,因为它在一种混合方法中集成了KG模型(如TransE/RotatE)和语言模型(如LLaMA),从而混合了多种方法,而不是仅利用LLMs的能力(Zhang等人,2023)。相比之下,我们目前的研究只关注语言模型的利用(如美洲驼),使得KOPA不适合我们的目的。尽管如此,我们还是复制了张等人提出的结构感知信息技术模型(2023),它结合了上下文学习和指令调整。该模型对头部实体h和尾部实体t的邻域进行采样,包括演示提示中相邻三元组的文本描述,然后对整个训练集进行微调。像KOPA一样,这种方法将来自KG的结构信息与LLM能力集成在一起。尽管如此,我们的方法,专门利用LLM而不整合KG结构信息,实现了与结合了KG结构和LLM能力的结构感知IT模型相当的性能。

在这里插入图片描述

表10:三重分类的实验结果(准确度)。羊驼-DES将羊驼-7B的非生成描述与T2相结合。

    b . 5 LLM中间层的性能分析LLM中最佳层指数的选择用作超参数,我们可以根据经验证据选择或根据需要进行调整当验证集可用时。同时,我们的实验发现,在不同的知识图中,相同的LLM具有很强的一致性(例如,对于LLAMA,第15层通常产生最佳的KGC性能),如图3所示,这降低了利用的复杂性。

    此外,与接近输出层的语言模型相比,语言模型中间层的优异表现可能归因于模型的每一层都有产生幻觉的可能性。此外,语言模型的每一层都有可能从上一层传播幻觉,表现为故意的虚假或误导信息的表达(邹等,2023)。这种现象可能导致模型经常知道正确的答案,即使产生不正确的输出(邹等人,2023)。同时,我们的实验结果与姜等人(2024)的结论一致,他们发现在后期阶段的层对提取的知识具有抑制作用,特别是对错误的输出解码有显著贡献。因此,他们实验中的中间层也往往比后面的层表现得更好。

    B.6数据效率的附加分析从图8中,我们可以观察到以下情况:对于FB13数据集,使用400个训练样本,即训练集的0.06%,实现了使用整个训练集的97.0%的性能;对于FB15K-237N数据集,使用0.57%的训练集达到了使用整个训练集的99.6%的性能;对于WN18RR数据集,使用0.46%的训练集实现了使用整个训练集的性能的98.8%;对于UMLS数据集,使用9.58%的数据集实现了使用整个训练集的90.6%的性能。

在这里插入图片描述
图8:美洲驼-DES-H在KGC的预测性能随着训练数据集的大小而变化。水平轴表示使用的训练样本的数量,正样本和负样本的数量相等,垂直轴表示测试集的准确度。可以观察到,与其他方法相比,LLAMA-DES-H方法在UMLS数据集上表现出稍低的数据效率。

    这种现象可能归因于这样一个事实,即UMLS是一个特定领域的知识图,而其他数据集是百科知识图。在由LLaMA生成的正和负示例三元组的隐藏状态中,决策边界的复杂性增加,这使得需要大量数据来充分模拟边界。

    B.7实体描述生成方法分析从表2可以看出,LLAMA-DES2 (Tri)的性能明显不如LLAMA-DES2 (GPT),甚至不如LLAMA-MLP。这表明直接使用子图三元组作为实体描述并不能提高模型的分类性能;甚至可能损害其判断力。这种现象可以归因于子图三元组明显偏离语言模型的预训练语料库,从而提供错误的刺激信息。然而,使用附录A.1中的方法将三元组组织成连贯的语义自然语言文本似乎可以减轻这种影响。

在这里插入图片描述

图9:我们使用PCA在三维空间中可视化从FB13测试集中的刺激获得的隐藏状态。高维向量使用GPT(LLAMA-des 2)方法获得,通过模拟从第16层收集语言模型的隐藏状态。

    B.8在使用冻结LLM的分析已经观察到,冻结语言模型实现的预测性能不能实现与监督微调语言模型相当的性能(张等人,2023;姚等,2023)。但实验中使用的知识图是百科知识图,如FB15K-237 (Toutanova和陈,2015),它是FB15k (Bordes et al,2013)的子集,来源于维基百科。像LLaMA (Touvron等人,2023)这样的LLM,它们是在维基百科、CommonCrawl等数据集上预先训练的。,已经储存了这种类型的世界知识(Davison et al,2019)。刘等(2023)的研究表明,提示可以有效地获取LLM中的知识,而无需微调。因此,冷冻LLM具有足够的知识和能力来完成KGC任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/891996.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

3dsMax添加天空盒

点击渲染,环境 , 点击位图 找到要设置的天空HDR,可以使用HDR(EXR)贴图 一个可以下载HDR贴图的网站 https://polyhaven.com/hdris在渲染的时候不要使用使用微软输入法,3dsmax会卡死, 在渲染的时候不要使用使用微软…

2013年国赛高教杯数学建模D题公共自行车服务系统解题全过程文档及程序

2013年国赛高教杯数学建模 D题 公共自行车服务系统 公共自行车作为一种低碳、环保、节能、健康的出行方式,正在全国许多城市迅速推广与普及。在公共自行车服务系统中,自行车租赁的站点位置及各站点自行车锁桩和自行车数量的配置,对系统的运行…

MySQL 9从入门到性能优化-二进制日志

【图书推荐】《MySQL 9从入门到性能优化(视频教学版)》-CSDN博客 《MySQL 9从入门到性能优化(视频教学版)(数据库技术丛书)》(王英英)【摘要 书评 试读】- 京东图书 (jd.com) MySQL9数据库技术_夏天又到了…

python车牌号OCR识别(centos版)

在实际应用中,车牌号的识别(OCR)是一个非常重要的需求,尤其是在停车场管理、道路监控等场景中。本文将介绍如何在CentOS环境下,通过Docker容器,基于PaddleOCR来实现车牌号的识别。具体内容包括构建Docker镜像的步骤、相关依赖安装…

antd vue 输入框高亮设置关键字

<highlight-textareaplaceholder"请输入主诉"type"textarea"v-model"formModel.mainSuit":highlightKey"schema.componentProps.highlightKey"></highlight-textarea> 参考链接原生input&#xff0c;textarea demo地址 …

网站建设为什么要选择国内服务器

选择国内服务器进行网站建设&#xff0c;对于面向国内用户的企业来说&#xff0c;是一个明智的决策。以下是一些选择国内服务器的主要原因&#xff1a; 提升用户体验&#xff1a; 网站访问速度是用户体验的关键因素之一。由于物理距离较近&#xff0c;国内服务器通常能提供更快…

Linux_进程概念详解(续)_命令行参数_环境变量_进程地址空间

本篇文章是Linux_进程概念详解的续篇&#xff0c;请先阅读Linux_进程概念详解再来阅读本篇。 命令行参数 在C / C中&#xff0c;每个程序都必须有一个main函数&#xff0c;该函数有很多的版本&#xff0c;我们最常用的就是不带参数的版本&#xff0c;也就是下面第一条语句 i…

关于 文件操作详解 笔记 (含代码解析)

文件 磁盘&#xff08;硬盘&#xff09;上的⽂件是⽂件。 程序设计中&#xff0c;我们⼀般谈的⽂件有两种&#xff1a;程序⽂件、数据⽂件&#xff08;从⽂件功能的⻆度来分类 &#xff09; 程序⽂件 程序⽂件包括源程序⽂件&#xff08;后缀为.c&#xff09;,⽬标⽂件&#…

【测试】BUG篇——BUG

bug的概念 定义&#xff1a;⼀个计算机bug指在计算机程序中存在的⼀个错误(error)、缺陷(flaw)、疏忽(mistake)或者故障(fault)&#xff0c;这些bug使程序⽆法正确的运⾏。Bug产⽣于程序的源代码或者程序设计阶段的疏忽或者错误。 准确的来说&#xff1a; 当且仅当规格说明&am…

项目_C_Ncurses_Flappy bird小游戏

Ncurses库 概述 什么是Ncurses库&#xff1a; Ncurses是一个管理应用程序在字符终端显示的函数库&#xff0c;库中提供了创建窗口界面、移动光标、产生颜色、处理键盘按键等功能。 安装Ncurses库&#xff1a; sudo apt-get install libncurses5-dev 头文件与编译&#xf…

老人桌面 1.3.5|专为老人设计的便捷实用桌面应用

老人桌面是一款专为老人设计的便捷实用桌面应用&#xff0c;具有超大字体设计&#xff0c;符合老人视力水平&#xff0c;撞色简洁的应用界面&#xff0c;拯救老人视觉体验。此外&#xff0c;还提供了常用的实用小工具&#xff0c;让老人能够轻松使用手机。 大小&#xff1a;5.…

Oracle-19g数据库的安装

简介 Oracle是一家全球领先的数据库和云解决方案提供商。他们提供了一套完整的技术和产品&#xff0c;包括数据库管理系统、企业级应用程序、人工智能和机器学习工具等。Oracle的数据库管理系统是业界最受欢迎和广泛使用的数据库之一&#xff0c;它可以管理和存储大量结构化和…

界面耻辱纪念堂--可视元素03

更多的迹象表明&#xff0c;关于在程序里使用新的动态界面元素&#xff0c;微软的态度是不确定的&#xff0c;其中一个是仅仅需要对比一下Office97 里的“Coolbars”和“标准工具条”。Coolbar 按钮直到用户指针通过的时候才成为按钮&#xff08;否则是平的&#xff09;。 工具…

SpringBoot Data JPA基本使用

一、项目起步 1.1 pom配置 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId> </dependency><dependency><groupId>org.springframework.boot</groupId><…

Android终端GB28181音视频实时回传设计探讨

技术背景 好多开发者&#xff0c;在调研Android平台GB28181实时回传的时候&#xff0c;对这块整体的流程&#xff0c;没有个整体的了解&#xff0c;本文以大牛直播SDK的SmartGBD设计开发为例&#xff0c;聊下如何在Android终端实现GB28181音视频数据实时回传。 技术实现 Andr…

光伏仿真系统在光伏项目开发中有哪些应用场景?

光伏仿真系统在光伏项目开发中的应用场景广泛&#xff0c;涵盖了从项目规划、设计优化到运维管理的全过程。 一、项目规划与选址 1、气象模拟与评估 光伏仿真系统能够基于历史气象数据和先进的预测模型&#xff0c;模拟不同地理位置、不同季节和时间段的光照强度、温度、湿度…

【学术论文投稿】Java入门:零基础小白也能轻松掌握的全攻略

【IEEE | 往届见刊1个月检索 | 国际双会场】第四届智能电力与系统国际学术会议(ICIPS 2024)_艾思科蓝_学术一站式服务平台 更多学术论文投稿请看&#xff1a;https://ais.cn/u/nuyAF3 目录 【IEEE | 往届见刊1个月检索 | 国际双会场】第四届智能电力与系统国际学术会议(ICIPS…

『网络游戏』三端增加数据.dll替换【32】三端

修改服务器脚本&#xff1a;DBMgr 增加数据库 修改客户端脚本&#xff1a;MainCityWnd.cs 拖拽绑定 查看服务端PlayerData调用的协议位置 在客户端中替换 之后客户端就可以调用服务端新增的数据了

Elasticsearch Ingest Pipelines

1. 前言 在将第三方数据源的数据导入到Elasticsearch中时&#xff0c;原始数据长什么样&#xff0c;索引后的文档就是什么样。文档数据结构不统一&#xff0c;导致后续数据分析时变得麻烦&#xff0c;以往需要额外写一个中间程序来读取原始数据&#xff0c;转换加工后再写入到…

Linux下Docker方式Jenkins安装和配置

一、下载&安装 Jenkins官方Docker仓库地址&#xff1a;https://hub.docker.com/r/jenkins/jenkins 从官网上可以看到&#xff0c;当前最新的稳定版本是 jenkins/jenkins:lts-jdk17。建议下在新的&#xff0c;后面依赖下不来 所以&#xff0c;我们这里&#xff0c;执行doc…