在人工智能领域,大型语言模型(LLMs)如BERT、RoBERTa、T5和PaLM等,以其在自然语言处理(NLP)任务中的卓越性能而著称。然而,这些模型在提供信息时可能会产生“幻觉”,即提供看似合理但与事实不符的预测。同时它们的“黑箱”特性也影响了模型的可解释性和准确性。为了解决这些问题,研究者们提出了将知识图谱(KG)与LLMs结合的方法,以提高模型的准确性和可解释性。
(Fig. 1)提供了知识图谱(KG)构建流程的可视化表示,这个流程图通过不同颜色的区块展示了构建知识图谱的不同步骤。
-
核心组件(蓝色块):这些步骤构成了知识图谱的基础架构。它们可能包括初始化过程、定义知识图谱的数据结构以及设置构建图谱所需的参数。
-
嵌入过程(黄色块):在这个阶段,文本块被转换成嵌入向量。这些向量是文本的数值表示,能够捕捉文本的语义信息。嵌入过程通常涉及使用预训练的语言模型将文本编码为固定长度的向量。
-
关键词提取(绿色块):此步骤专注于从文本块中提取关键词。如前所述,这涉及到使用无监督聚类算法对文本进行分组,然后利用大型语言模型从每个聚类的文本中识别出代表性的关键词。
-
关系建立(红色块):这是知识图谱构建中的关键步骤,它包括两个部分:
- 关键词与语料库的关系:在这部分,确定关键词与知识库中文本块之间的关系。这可能涉及到分析文本块中出现的关键词频率,以及它们在文本中的上下文。
- 关键词之间的关系:在这部分,评估并构建关键词之间的联系。这通常基于它们在文本块中的共现情况,以及通过图拉普拉斯学习等算法确定的关联强度。
自动化知识图谱生成
自动化知识图谱生成是本文的核心贡献之一。AutoKG方法不需要训练或微调神经网络,而是利用预训练的LLMs来提取关键词作为节点,并应用图拉普拉斯学习来评估这些关键词之间的边权重。这个过程包括两个主要步骤:关键词提取和图结构构建。
在自动化知识图谱生成的过程中,关键词提取是首要步骤。研究者们运用无监督聚类算法,例如K-means和谱聚类,来处理知识库中的文本块,并将它们分组以进行详细分析。在每个聚类中,他们精心挑选了一些文本块,既包括那些接近聚类中心的,也包括随机选择的,以确保能够捕获全局和中心的信息。
随后,利用预训练的大型语言模型(LLMs)来从这些文本块中提取关键词。这一过程涉及到创建特定的提示,以引导LLMs专注于与主题紧密相关的信息,并避免重复之前已经提取的关键词。这些关键词最终将作为知识图谱中的节点。
关键词提取完成后,接下来的任务是构建图结构。首先,研究者们创建了一个基于文本块的图,其中文本块作为图中的节点,而边的权重则通过比较文本块嵌入向量的相似度来确定。为了提高效率,他们只考虑每个节点的最近邻节点来构建一个稀疏的权重矩阵。
然后,利用这个基于文本块的图来建立关键词知识图谱。在这个图中,关键词之间的关联不是基于语义的,而是基于整个知识库中的文本块。如果多个文本块同时与两个关键词相关联,那么这两个关键词之间的关联权重就会增加。
研究者们还分析了AutoKG方法的效率。构建基于文本块的相似性图的时间复杂度大约是与文本块数量成对数级关系。而聚类算法的时间复杂度则受到预设的最大迭代次数的限制。图拉普拉斯学习的时间复杂度则取决于图拉普拉斯矩阵的稀疏性,如果能够保持图拉普拉斯矩阵的条件数较小,那么对于大型数据集,AutoKG方法的时间复杂度将主要与文本块的数量和聚类的数量成线性关系。
在生成整个知识图谱的过程中,研究者们考虑了几个关键点。例如,尽管关键词是从文本块的聚类中提取的,但在建立关键词和文本块之间的关系时,并不依赖于之前的聚类结果。在构建关键词之间的关系时,并没有将关键词的嵌入向量纳入图拉普拉斯学习过程中,因为这些向量通常与文本块的嵌入向量相距甚远,可能不会对学习过程有太大帮助。研究者们的方法在关键词提取和关系构建方面,相比传统方法具有显著的优势,能够提供更为全面和深入的视角。
在自动化知识图谱生成之后,研究者们提出了一种混合搜索策略,旨在将知识图谱与大型语言模型(LLMs)结合起来,以增强模型对查询的响应能力。这种策略不仅包括直接根据语义相似性搜索文本块,还包括利用知识图谱中的关联信息进行搜索,从而提供更全面的答案。
混合搜索过程分为几个阶段。首先,根据给定的查询,研究者们计算并找到与查询嵌入向量最接近的文本块。接着,他们转向知识图谱,识别与查询最相关的关键词以及与这些关键词直接相关的文本块。最后,通过知识图谱中权重矩阵的引导,找到与已识别关键词关联最强的其他关键词,并搜索与之相关的文本块。
通过混合搜索策略,研究者们能够获得两组结果:一组是与查询直接语义相关的文本块,另一组是通过知识图谱检索得到的、与查询有间接关联的文本块和关键词。这种整合提供了一个更丰富的信息集合,有助于LLMs生成更准确、更全面的响应。
混合搜索策略通过引入知识图谱的复杂关系,增强了LLMs的推理能力。与传统的仅依赖语义相似性搜索的方法相比,混合搜索能够捕捉到不同实体间的复杂联系,从而为模型提供了更丰富的上下文理解,使其能够进行更深层次的分析和推理。
在实际应用中,混合搜索策略需要考虑如何平衡直接搜索和知识图谱搜索的结果,以确保最终的响应既准确又全面。此外,还需要考虑如何适应不同的查询类型和知识库的特定需求,以及如何优化搜索算法以提高效率和减少计算资源的消耗。
混合搜索的结果需要适应性地整合到LLMs的输入中。研究者们采用了一种自适应方法来构建提示,确保在不超过LLMs的最大令牌限制的情况下,将检索到的信息有效地融入到模型的输入中。这种方法允许根据模型的响应长度和复杂性,动态地调整检索到的文本块和关键词的数量。
通过混合搜索策略,研究者们展示了一种新的方法,将知识图谱的结构化信息与LLMs的强大文本处理能力相结合,以实现更高级的知识检索和推理任务。这种方法为构建更智能、更准确的AI系统提供了一个有前景的方向。
实验和结果
研究者们通过一个简单的例子阐释了知识图谱(KG)结合混合搜索方法相较于传统基于语义向量相似性搜索方法的优势。在这个例子中,考虑了一个关于个人日常生活的文本库,其中包含了关于Alex一天生活的描述。当被问及“今天早上Alex离开家时下雨了吗?”这个问题时,知识库中并没有直接提及天气的信息。然而,通过混合搜索方法,可以从知识库中检索到与Alex的活动地点相关的间接信息,如咖啡馆外的广场上人们在喝咖啡和聊天,以及公司楼下的洗车店生意兴隆,这些信息暗示了当时并没有下雨。这种类型的搜索能够揭示出文本中隐含的联系,而这是仅依靠语义相似性搜索所无法做到的。
研究者们进一步使用本文的40个参考文献作为知识库,展示了混合搜索方法的应用。这些参考文献经过处理后,形成了一个包含5,261个文本块的知识图谱。通过设置特定的参数,研究者们利用这个知识图谱对特定的查询进行了搜索,如“详细介绍PaLM并告诉我相关的应用”。搜索过程中,系统不仅检索了与查询直接相关的文本块,还通过知识图谱找到了与之相关的关键词,并进一步检索了与这些关键词相关的文本块。这种方法使得系统能够提供更为丰富和详细的回答。
在效率分析部分,研究者们从理论和实验两个角度对混合搜索和语义向量相似性搜索进行了比较。理论上,当处理大量文本块时,AutoKG方法的效率是可扩展的,因为它的时间复杂度与文本块的数量成线性关系。实验中,研究者们使用了一个由40个参考文献构成的知识图谱,进行了多次搜索实验,并记录了每次搜索所需的平均时间。结果显示,混合搜索方法和语义向量相似性搜索方法在效率上相当,都接近于线性时间复杂度。这表明AutoKG方法在实际应用中是可行的,并且能够以合理的速度处理大规模的知识库。
通过这些实验和分析,研究者们证明了AutoKG结合混合搜索方法在提供更丰富、更准确信息方面的能力,同时也展示了该方法在处理效率上的优势。这些结果为将AutoKG方法应用于更广泛的知识检索和推理任务提供了有力的支持。
论文链接:https://arxiv.org/abs/2311.14740.pdf