AutoKG:为语言模型打造高效自动化知识图谱

在人工智能领域,大型语言模型(LLMs)如BERT、RoBERTa、T5和PaLM等,以其在自然语言处理(NLP)任务中的卓越性能而著称。然而,这些模型在提供信息时可能会产生“幻觉”,即提供看似合理但与事实不符的预测。同时它们的“黑箱”特性也影响了模型的可解释性和准确性。为了解决这些问题,研究者们提出了将知识图谱(KG)与LLMs结合的方法,以提高模型的准确性和可解释性。

构建知识图谱(KG)的不同步骤。图中的蓝色块代表KG的核心组件,黄色块表示嵌入过程,绿色块关注关键词提取,红色块对应于关键词与语料库之间以及关键词本身之间的关系建立

(Fig. 1)提供了知识图谱(KG)构建流程的可视化表示,这个流程图通过不同颜色的区块展示了构建知识图谱的不同步骤。

  1. 核心组件(蓝色块):这些步骤构成了知识图谱的基础架构。它们可能包括初始化过程、定义知识图谱的数据结构以及设置构建图谱所需的参数。

  2. 嵌入过程(黄色块):在这个阶段,文本块被转换成嵌入向量。这些向量是文本的数值表示,能够捕捉文本的语义信息。嵌入过程通常涉及使用预训练的语言模型将文本编码为固定长度的向量。

  3. 关键词提取(绿色块):此步骤专注于从文本块中提取关键词。如前所述,这涉及到使用无监督聚类算法对文本进行分组,然后利用大型语言模型从每个聚类的文本中识别出代表性的关键词。

  4. 关系建立(红色块):这是知识图谱构建中的关键步骤,它包括两个部分:

    • 关键词与语料库的关系:在这部分,确定关键词与知识库中文本块之间的关系。这可能涉及到分析文本块中出现的关键词频率,以及它们在文本中的上下文。
    • 关键词之间的关系:在这部分,评估并构建关键词之间的联系。这通常基于它们在文本块中的共现情况,以及通过图拉普拉斯学习等算法确定的关联强度。

自动化知识图谱生成

自动化知识图谱生成是本文的核心贡献之一。AutoKG方法不需要训练或微调神经网络,而是利用预训练的LLMs来提取关键词作为节点,并应用图拉普拉斯学习来评估这些关键词之间的边权重。这个过程包括两个主要步骤:关键词提取和图结构构建。

在自动化知识图谱生成的过程中,关键词提取是首要步骤。研究者们运用无监督聚类算法,例如K-means和谱聚类,来处理知识库中的文本块,并将它们分组以进行详细分析。在每个聚类中,他们精心挑选了一些文本块,既包括那些接近聚类中心的,也包括随机选择的,以确保能够捕获全局和中心的信息。

随后,利用预训练的大型语言模型(LLMs)来从这些文本块中提取关键词。这一过程涉及到创建特定的提示,以引导LLMs专注于与主题紧密相关的信息,并避免重复之前已经提取的关键词。这些关键词最终将作为知识图谱中的节点。

使用LLM进行不同任务时提示(prompt)的构建方式,包括任务信息、输入信息、额外要求和输出
在AutoKG中提取关键词的算法

关键词提取完成后,接下来的任务是构建图结构。首先,研究者们创建了一个基于文本块的图,其中文本块作为图中的节点,而边的权重则通过比较文本块嵌入向量的相似度来确定。为了提高效率,他们只考虑每个节点的最近邻节点来构建一个稀疏的权重矩阵。

然后,利用这个基于文本块的图来建立关键词知识图谱。在这个图中,关键词之间的关联不是基于语义的,而是基于整个知识库中的文本块。如果多个文本块同时与两个关键词相关联,那么这两个关键词之间的关联权重就会增加。

确定关键词与文本块之间关联的算法

研究者们还分析了AutoKG方法的效率。构建基于文本块的相似性图的时间复杂度大约是与文本块数量成对数级关系。而聚类算法的时间复杂度则受到预设的最大迭代次数的限制。图拉普拉斯学习的时间复杂度则取决于图拉普拉斯矩阵的稀疏性,如果能够保持图拉普拉斯矩阵的条件数较小,那么对于大型数据集,AutoKG方法的时间复杂度将主要与文本块的数量和聚类的数量成线性关系。

在生成整个知识图谱的过程中,研究者们考虑了几个关键点。例如,尽管关键词是从文本块的聚类中提取的,但在建立关键词和文本块之间的关系时,并不依赖于之前的聚类结果。在构建关键词之间的关系时,并没有将关键词的嵌入向量纳入图拉普拉斯学习过程中,因为这些向量通常与文本块的嵌入向量相距甚远,可能不会对学习过程有太大帮助。研究者们的方法在关键词提取和关系构建方面,相比传统方法具有显著的优势,能够提供更为全面和深入的视角。

在自动化知识图谱生成之后,研究者们提出了一种混合搜索策略,旨在将知识图谱与大型语言模型(LLMs)结合起来,以增强模型对查询的响应能力。这种策略不仅包括直接根据语义相似性搜索文本块,还包括利用知识图谱中的关联信息进行搜索,从而提供更全面的答案。

混合搜索过程分为几个阶段。首先,根据给定的查询,研究者们计算并找到与查询嵌入向量最接近的文本块。接着,他们转向知识图谱,识别与查询最相关的关键词以及与这些关键词直接相关的文本块。最后,通过知识图谱中权重矩阵的引导,找到与已识别关键词关联最强的其他关键词,并搜索与之相关的文本块。

通过混合搜索策略,研究者们能够获得两组结果:一组是与查询直接语义相关的文本块,另一组是通过知识图谱检索得到的、与查询有间接关联的文本块和关键词。这种整合提供了一个更丰富的信息集合,有助于LLMs生成更准确、更全面的响应。

混合搜索策略通过引入知识图谱的复杂关系,增强了LLMs的推理能力。与传统的仅依赖语义相似性搜索的方法相比,混合搜索能够捕捉到不同实体间的复杂联系,从而为模型提供了更丰富的上下文理解,使其能够进行更深层次的分析和推理。

在实际应用中,混合搜索策略需要考虑如何平衡直接搜索和知识图谱搜索的结果,以确保最终的响应既准确又全面。此外,还需要考虑如何适应不同的查询类型和知识库的特定需求,以及如何优化搜索算法以提高效率和减少计算资源的消耗。

混合搜索的结果需要适应性地整合到LLMs的输入中。研究者们采用了一种自适应方法来构建提示,确保在不超过LLMs的最大令牌限制的情况下,将检索到的信息有效地融入到模型的输入中。这种方法允许根据模型的响应长度和复杂性,动态地调整检索到的文本块和关键词的数量。

混合搜索策略

通过混合搜索策略,研究者们展示了一种新的方法,将知识图谱的结构化信息与LLMs的强大文本处理能力相结合,以实现更高级的知识检索和推理任务。这种方法为构建更智能、更准确的AI系统提供了一个有前景的方向。

实验和结果

研究者们通过一个简单的例子阐释了知识图谱(KG)结合混合搜索方法相较于传统基于语义向量相似性搜索方法的优势。在这个例子中,考虑了一个关于个人日常生活的文本库,其中包含了关于Alex一天生活的描述。当被问及“今天早上Alex离开家时下雨了吗?”这个问题时,知识库中并没有直接提及天气的信息。然而,通过混合搜索方法,可以从知识库中检索到与Alex的活动地点相关的间接信息,如咖啡馆外的广场上人们在喝咖啡和聊天,以及公司楼下的洗车店生意兴隆,这些信息暗示了当时并没有下雨。这种类型的搜索能够揭示出文本中隐含的联系,而这是仅依靠语义相似性搜索所无法做到的。

研究者们进一步使用本文的40个参考文献作为知识库,展示了混合搜索方法的应用。这些参考文献经过处理后,形成了一个包含5,261个文本块的知识图谱。通过设置特定的参数,研究者们利用这个知识图谱对特定的查询进行了搜索,如“详细介绍PaLM并告诉我相关的应用”。搜索过程中,系统不仅检索了与查询直接相关的文本块,还通过知识图谱找到了与之相关的关键词,并进一步检索了与这些关键词相关的文本块。这种方法使得系统能够提供更为丰富和详细的回答。

Fig. 2 展示了一个子图,其中只包含关键词节点(绿色),这些节点是通过查询直接检索到的关键词。
Fig. 3 展示了同一个KG的另一个子图,除了包含Fig. 2中的关键词节点外,还包括了额外检索到的文本块(粉色节点)。

在效率分析部分,研究者们从理论和实验两个角度对混合搜索和语义向量相似性搜索进行了比较。理论上,当处理大量文本块时,AutoKG方法的效率是可扩展的,因为它的时间复杂度与文本块的数量成线性关系。实验中,研究者们使用了一个由40个参考文献构成的知识图谱,进行了多次搜索实验,并记录了每次搜索所需的平均时间。结果显示,混合搜索方法和语义向量相似性搜索方法在效率上相当,都接近于线性时间复杂度。这表明AutoKG方法在实际应用中是可行的,并且能够以合理的速度处理大规模的知识库。

通过这些实验和分析,研究者们证明了AutoKG结合混合搜索方法在提供更丰富、更准确信息方面的能力,同时也展示了该方法在处理效率上的优势。这些结果为将AutoKG方法应用于更广泛的知识检索和推理任务提供了有力的支持。

论文链接:https://arxiv.org/abs/2311.14740.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/701519.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【UE数字孪生学习笔记】 虚幻日志系统

声明:部分内容来自于b站,知乎,慕课,公开课等的课件,仅供学习使用。如有问题,请联系删除。 部分内容来自UE官方文档,博客等 虚幻日志系统 1. 日志是一种非常实用的调试工具,可以详细…

国内首家!悦数图数据库全项完成中国信通院图数据库性能测试

大数据时代,随着各种社交网络、系统推荐等业务需求的不断发展,数据间的依赖和复杂度的逐渐增加,传统关系型数据库对这些需求捉襟见肘,图数据库应运而生。图数据库在金融风控、知识图谱、关系分析等应用场景的关联查询上有着明显优…

自带红外码库可使用蓝牙小程序控制的离线语音万能红外遥控器

离线语音蓝牙红外模块简介 此蓝牙红外模块是一种低成本的离线语音单麦应用方案,主芯片是一颗专用于语音处理的人工智能芯片,可广泛应用于家电,家居,音箱,玩具,穿戴设备,汽车等产品领域&#xf…

餐饮行业可燃气体报警器计量校准,惠州博罗引领安全新趋势

在惠州博罗这片繁荣的土地上,餐饮行业作为城市经济的重要组成部分,其安全问题一直备受关注。 可燃气体报警器作为餐饮场所预防火灾和爆炸事故的关键设备,其准确性和可靠性至关重要。 在这篇文章中,佰德将通过实际案例和数据&…

基本元器件 - 光电耦合器

光耦是将发光二极管(LED)和光电探测器集成于一个封装中的器件。 光耦的作用 在光耦中,一次侧(LED 侧)和二次侧(受光器件侧)是电绝缘的。因此,即使一次侧和二次侧的电位(…

epy - 终端电子书阅读器(epub2、epub3、fb2、mobi)

文章目录 一、关于 epy二、安装epy manual 三、用法四、颜色配置文件五、使用Epy的阅读技巧六、配置文件七、网址支持八、使用鼠标九、文字转语音十、字典十一、Double Spread 一、关于 epy 终端 电子书(epub2、epub3、fb2、mobi)阅读器 github : http…

力扣每日一题 6/12 + 随机一题

博客主页:誓则盟约系列专栏:IT竞赛 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 2806.取整够买后的账户余额【简单】 题目: 一开始,你…

算法课程笔记——蓝桥第17次直播云课

算法课程笔记——蓝桥第17次直播云课 递归 改成signed,把所有int 改成longlong 100会越界

Linux - 信号阻塞 信号捕捉

Linux - 信号阻塞 & 信号捕捉 信号阻塞信号集操作信号集sigporcmasksigpendingsigaction 信号捕捉用户态与内核态信号捕捉的时机 在博客[Linux - 信号概念 & 信号产生]中,我讲解了信号的基本概念,以及信号是如何产生的,本博客将继续讲…

IPTV,OTT,DVB有线数字电视

当我们买了一台电视回家,满心欢喜的打开,准备收看最新节目的时候,却发现没办法看直播,这个时候去广电办理业务,IPTV,OTT,DTV有线数字电视等这种词语整的眼花缭乱,那么今天我们来解释…

计算机网络 期末复习(谢希仁版本)第4章

路由器:查找转发表,转发分组。 IP网的意义:当互联网上的主机进行通信时,就好像在一个网络上通信一样,看不见互连的各具体的网络异构细节。如果在这种覆盖全球的 IP 网的上层使用 TCP 协议,那么就…

【FreeRTOS】源码概述

FreeRTOS源码概述 参考《FreeRTOS入门与工程实践(基于DshanMCU-103)》里《第7章 FreeRTOS源码概述》 相关文章:http://t.csdnimg.cn/QK0aO 1 FreeRTOS目录结构 使用 STM32CubeMX 创建的 FreeRTOS 工程中, FreeRTOS 相关的源码如下: 主要设计两个目录 C…

【教程】从0开始搭建大语言模型:实现Attention机制

从0开始搭建大语言模型 从0开始搭建大语言模型:实现Attention机制建模长序列存在的问题使用attention机制获得数据间的依赖Self-attention介绍带有可训练权重的self-attention1.生成Q,K,V变量2.计算attention score3.attention weight的获得4…

PS2045L-ASEMI低Low VF肖特基PS2045L

编辑:ll PS2045L-ASEMI低Low VF肖特基PS2045L 型号:PS2045L 品牌:ASEMI 封装:TO-277 最大平均正向电流(IF):20A 最大循环峰值反向电压(VRRM):45V 最大…

Armbian OS(基于ubuntu24) 源码编译mysql 5.7

最近弄了个S905X3的盒子刷完Armbian OS (基于ubuntu24),开始折腾Arm64之旅。第一站就遇到了MySQL的问题,由于MySQL没有提供Arm64版本,又不想塞Docker镜像,因此选择源码来编译MySQL5.7。下面记录详细过程和遇…

马斯克的战略选择:特斯拉的H100显卡转移风波及其影响

引言 最近,一则关于马斯克将特斯拉的H100显卡转给他的新公司xAI的消息引发了广泛关注。这一决定不仅导致特斯拉股价下跌,还引发了关于马斯克战略决策的激烈讨论。本文将深入探讨这一事件的背景、过程及其对特斯拉和整个科技行业的影响。 背景与事件回顾…

8.transformers量化

Transformers 核心设计Auto Classes Transformers Auto Classes 设计:统一接口、自动检索 AutoClasses 旨在通过全局统一的接口 from_pretrained() ,实现基于名称(路径)自动检索预训练权重(模 型)、配置文件、词汇表等所有与模型相关的抽象。 灵活扩展的配置AutoConfig…

本地GPT-window平台 搭建ChatGLM3-6B

一 ChatGLM-6B 介绍 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,新一代开源模型 ChatGLM3-6B 已发布,拥有10B以下最强的基础模型,支持工具调用(Function Call)、代码执行(Code Interpreter&…

【Python】成功解决ModuleNotFoundError: No module named ‘PyQt5‘

【Python】成功解决ModuleNotFoundError: No module named ‘PyQt5’ 下滑即可查看博客内容 🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地!🎇 🎓 博主简介:985…

c语言回顾-函数递归

1.递归的介绍 1.1什么是递归 递归是指在一个函数的定义中调用自身的过程。简单来说,递归是一种通过重复调用自身来解决问题的方法。 递归包括两个关键要素:基本情况和递归情况。基本情况是指当问题达到某个特定条件时,不再需要递归调用&am…