如何将任何文本转换为概念图(GC)

原文地址:how-to-convert-any-text-into-a-graph-of-concepts

使用 Mistral 7B 将任何文本语料库转换为知识图的方法

2023 年 11 月 10 日

使用递归 RAG 方法来实现具有多跳推理的 QnA,以回答基于大型文本语料库的复杂查询。

知识图增强生成与递归 RAG 结合时,它可能有助于创建超级研究代理。

抽象的

知识图(KG)或任何图由节点和边组成。KG 的每个节点代表一个概念,每条边是一对此类概念之间的关系。

使用Mistral 7B Openorca 指令和 Zephyr 模型、使用Neo4j等数据库来存储和检索图形数据、使用内存中的 Pandas Dataframes 和 NetworkX Python 库。

Github:https://rahulnyk.github.io/knowledge_graph/

知识图谱

玛丽有一只小羊羔,
你以前听过这个故事;
但你知道吗,她递了盘子,
还多了一点!

这是文本作为 KG 的一种可能的表示形式。

什么是知识图?

知识图谱,也称为语义网络,表示现实世界实体(即对象、事件、情况或概念)的网络,并说明它们之间的关系。这些信息通常存储在图形数据库中并可视化为图形结构,从而产生了知识“图形”一词。

为什么选择知识图谱?

知识图有多种用途。我们可以运行图算法并计算任何节点的中心性,以了解概念(节点)对工作主体的重要性。我们可以分析关联和不关联的概念集,或者计算概念社区以深入理解主题。我们可以理解看似互不相关的概念之间的联系。

我们还可以使用知识图来实现图检索增强生成(GRAG 或 GAG)并与我们的文档聊天。与普通的 RAG 旧版本相比,这可以给我们带来更好的结果,而 RAG 存在一些缺点。例如,通过简单的语义相似性搜索来检索与查询最相关的上下文并不总是有效。特别是当查询没有提供足够的关于其真实意图的上下文时,或者当上下文是大型文本语料库中的片段时。

例如,考虑这个查询 -

告诉我《孤独一百年》一书中何塞·阿卡迪奥·布恩迪亚的家谱。

该书记录了何塞·阿卡迪奥·布恩迪亚的 7 代人,其中一半的人物名为何塞·阿卡迪奥·布恩迪亚。如果可能的话,使用简单的 RAG 管道来回答查询将是一个相当大的挑战。

RAG 的另一个缺点是它无法告诉您要问什么。很多时候,提出正确的问题比获得答案更重要。

图增强生成(GAG)可以在一定程度上解决RAG的这些缺点。更好的是,我们可以混合搭配并构建图形增强检索增强生成管道,以充分利用两个世界。

现在我们知道图表很有趣,它们非常有用,而且看起来也很漂亮。

创建概念图

如果你问 GPT,如何根据给定的文本创建知识图?它可能会建议如下的过程。

  1. 从工作主体中提取概念和实体。这些是节点。
  2. 提取概念之间的关系。这些是边缘。
  3. 填充图数据结构或图数据库中的节点(概念)和边(关系)。
  4. ......

如何实现步骤 1 和 2 呢?

这是我设计的从任何给定文本语料库中提取概念图的方法的流程图。它与上面的方法类似,但有一些细微的差别。

  1. 将文本语料库分割成块。为每个块分配一个 chunk_id。
  2. 对于每个文本块,使用LLMs提取概念及其语义关系。让我们为这个关系指定一个权重 W1。同一对概念之间可以存在多种关系。每一个这样的关系都是一对概念之间的边缘。
  3. 考虑到同一文本块中出现的概念也通过它们的上下文邻近性而相关。让我们为这个关系指定一个权重 W2。请注意,同一对概念可能出现在多个块中。
  4. 对相似的对进行分组,对它们的权重进行求和,并连接它们的关系。所以现在我们在任何不同的概念对之间都只有一条边。边具有一定的权重和关系列表,如其名称所示。

您可以在我在本文中共享的 GitHub 存储库中看到此方法作为 Python 代码的实现。让我们在接下来的几节中简要介绍一下实现的关键思想。

Mistral 和 Prompt

上面流程图中的步骤 1 很简单。Langchain 提供了大量的文本分割器,我们可以使用它们将文本分割成块。

第 2 步是真正的乐趣开始的地方。为了提取概念及其关系,我使用 Mistral 7B 模型。在找到最适合我们目的的模型变体之前,我进行了以下实验:

Mistral Instruct
Mistral OpenOrca
Zephyr (Hugging Face version derived from Mistral)

我使用了这些模型的 4 位量化版本—由 Ollama 本地托管。

Ollama

这些模型都是带有系统提示和用户提示的指令调优模型。如果我们告诉他们,他们都可以很好地遵循说明并以 JSON 格式整齐地格式化答案。收敛到了Zephyr模型,提示如下:

SYS_PROMPT = (
    "You are a network graph maker who extracts terms and their relations from a given context. "
    "You are provided with a context chunk (delimited by ```) Your task is to extract the ontology "
    "of terms mentioned in the given context. These terms should represent the key concepts as per the context. \n"
    "Thought 1: While traversing through each sentence, Think about the key terms mentioned in it.\n"
        "\tTerms may include object, entity, location, organization, person, \n"
        "\tcondition, acronym, documents, service, concept, etc.\n"
        "\tTerms should be as atomistic as possible\n\n"
    "Thought 2: Think about how these terms can have one on one relation with other terms.\n"
        "\tTerms that are mentioned in the same sentence or the same paragraph are typically related to each other.\n"
        "\tTerms can be related to many other terms\n\n"
    "Thought 3: Find out the relation between each such related pair of terms. \n\n"
    "Format your output as a list of json. Each element of the list contains a pair of terms"
    "and the relation between them, like the follwing: \n"
    "[\n"
    "   {\n"
    '       "node_1": "A concept from extracted ontology",\n'
    '       "node_2": "A related concept from extracted ontology",\n'
    '       "edge": "relationship between the two concepts, node_1 and node_2 in one or two sentences"\n'
    "   }, {...}\n"
    "]"
)

USER_PROMPT = f"context: ```{input}``` \n\n output: "

如果我们用这个提示通过我们的(不适合的)儿歌,这就是结果:

[
  {
    "node_1": "Mary",
    "node_2": "lamb",
    "edge": "owned by"
  },
  {
    "node_1": "plate",
    "node_2": "food",
    "edge": "contained"
  }, . . .
]

请注意,它甚至将“食物”猜测为一个概念,而文本块中并未明确提及这一概念。

如果我们对示例文章的每个文本块运行此操作并将 json 转换为 Pandas 数据帧,则其外观如下。

这里的每一行代表一对概念之间的关系。每行都是图中两个节点之间的一条边,同一对概念之间可以有多个边或关系。上面数据框中的count就是我任意设置为4的权重。

情境邻近性

我假设文本语料库中彼此接近的概念是相关的。我们将这种关系称为“上下文邻近度”。

为了计算上下文邻近边缘,我们融合了数据帧,以便 node_1 和 node_2 折叠成单个列。然后我们使用 chunk_id 作为键创建该数据帧的自连接。因此具有相同 chunk_id 的节点将相互配对形成一行。

但这也意味着每个概念也将与其自身配对。这称为自循环,其中边在同一节点上开始和结束。为了消除这些自循环,我们将从数据帧中删除node_1与node_2相同的每一行。

最后,我们得到一个与原始数据框非常相似的数据框。

这里的count列是node_1和node_2同时出现的chunk的数量。chunk_id 列是所有这些块的列表。

所以我们现在有两个数据帧,一个具有语义关系,另一个具有文本中提到的概念之间的上下文邻近关系。我们可以将它们组合起来形成我们的网络图数据框。

我们已经完成了为文本构建概念图的工作。但此时离开它将是一件非常令人不快的事情。我们的目标是像本文开头的特色图像一样可视化图表,我们离我们的目标不远了。

创建概念网络

NetworkX 是一个 Python 库,可以让处理图形变得超级简单。 将我们的数据框添加到 NetworkX 图中只需几行代码。
G = nx.Graph()

## Add nodes to the graph
for node in nodes:
    G.add_node(str(node))

## Add edges to the graph
for index, row in dfg.iterrows():
    G.add_edge(
        str(row["node_1"]),
        str(row["node_2"]),
        title=row["edge"],
        weight=row['count']
    )
这是我们可以开始利用网络图的力量的地方。NetworkX 提供了大量现成的网络算法供我们使用。 这是我们可以在图表上运行的算法列表的链接。 在这里,我使用社区检测算法为节点添加颜色。社区是一组节点,它们之间的连接比图中其他部分的连接更紧密。概念社区可以让我们很好地了解文本中讨论的广泛主题。 Girvan Newman 算法在我们正在处理的评论文章中检测到了 17 个概念社区。
[
    'digital technology',
    'EVIN',
    'medical devices',
    'online training management information systems',
    'wearable, trackable technology'
]
这立即让我们了解了评论论文中讨论的健康技术的广泛主题,并使我们能够提出问题,然后我们可以通过 RAG Pipeline 来回答这些问题。 让我们还计算图中每个概念的程度。节点的度是与其连接的边的总数。因此,在我们的例子中,概念的程度越高,它对我们文本的主题就越重要。我们将使用度数作为可视化中节点的大小。

图形可视化

使用 PiVis 库来创建交互式图表。Pyvis 是用于 可视化网络的Python 库。 Pyvis 有个内置的NetworkX Helper,可以将我们的 NetworkX 图转换为 PyVis 对象。 我们已经计算了每条边的权重(即边的厚度)、节点的社区(其颜色)以及每个节点的度(其大小)。
交互式图表链接:https://rahulnyk.github.io/knowledge_graph/ 。我们可以根据需要放大和缩小以及移动节点和边。我们还在页面底部提供滑块面板来更改图形的物理特性。看看图表如何帮助我们提出正确的问题并更好地理解主题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/441115.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

goby的安装和使用

简介 Goby是一款基于网络空间测绘技术的新一代网络安全工具,它通过给目标网络建立完整的资产知识库,进行网络安全事件应急与漏洞应急。 Goby可提供最全面的资产识别,目前预置了超过10万种规则识别引擎,能够针对硬件设备和软件业…

深入探索Docker数据卷:实现容器持久化存储的完美方案(下)

🐇明明跟你说过:个人主页 🏅个人专栏:《Docker入门到精通》 《k8s入门到实战》🏅 🔖行路有良友,便是天堂🔖 目录 四、Docker数据卷的高级管理 1、数据卷的生命周期管理 2、数据…

2001-2022年上市公司利润表数据

2001-2022年上市公司利润表数据 1、时间:2001.12.31-2022.12.31 2、范围:上市公司 3、指标:证券代码、证券简称、统计截止日期、报表类型、投资收益、其中:对联营企业和合营企业的投资收益、公允价值变动收益、营业利润、其他综…

网关数据采集解决方案-天拓四方

随着物联网技术的快速发展,数据采集已成为企业运营、管理和决策的重要支撑。网关作为连接不同网络的关键设备,其在数据采集过程中发挥着至关重要的作用。本文将详细介绍一种网关数据采集解决方案,旨在确保数据采集的高效性、准确性和安全性。…

「解析文件流,Java之FileOutputStream助您轻松操作文件!」

🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,助你一臂之力,带你早日登顶🚀,欢迎大家关注&&收藏!持续更新中,up!up!up!&#xf…

【Java项目介绍和界面搭建】拼图小游戏——作弊码、查看完整图片

🍬 博主介绍👨‍🎓 博主介绍:大家好,我是 hacker-routing ,很高兴认识大家~ ✨主攻领域:【渗透领域】【应急响应】 【Java】 【VulnHub靶场复现】【面试分析】 🎉点赞➕评论➕收藏 …

HarmonyOS 数据持久化 关系型数据库之 初始化操作

上文 HarmonyOS 数据持久化之首选项 preferences 我们有说用户首选项 但它只能处理一些比较简单的数据类型结构 的持久化处理 如果是一些批量较大 结构较为复杂的数据结构 那么 首选项就无法满足了 我们就要选择 关系型数据库 通过 SQLite 组件实现的一种本地数据库&#xff0…

TCP包头

TCP包头: 1.序号:发送端发送数据包的编号 2.确认号:已经确认接收到的数据的编号(只有当ACK为1时,确认号才有用) TCP为什么安全可靠: 1.在通信前建立三次握手连接 SYN SYNACK ACK SYN是TCP包头的一个字段 tcp.port 端口号 抓包数据 2.在通信过程中通过序…

JavaWeb笔记 --- 一JDBC

一、JDBC JDBC就是Java操作关系型数据库的一种API DriverManager 注册驱动可以不写 Class.forName("com.mysql.jdbc.Driver"); Connection Statement ResultSet PrepareStatement 密码输入一个SQL脚本,直接登录 预编译开启在url中 数据库连接池

指针进阶(下)指针实操

sizeof 和 strlen 首先我们来复习一下sizeof 和 strlen 的区别。 sizeof 是操作符&#xff0c;只关注内存中存放的数据的大小&#xff0c;并不会参与sizeof 括号内部的计算。注意它的单位是字节 #include <stdio.h>int main() {int a 10;printf("%d\n", size…

USB2.0设备检测过程信号分析

1.简介 USB设备接入的Hub端口负责检测USB2.0设备是否存在和确定USB2.0设备的速度。检测设备是否存在和确定设备速度涉及一系列的信号交互&#xff0c;下面将分析该过程。 2.硬件 USB低速设备和全速/高速设备的连接器在硬件结构上有所不同&#xff0c;而主机或者Hub接收端连接…

redis中的zset的原理

一、zset有序集合的原理 如果有序集合元素个数少于128个且元素值小于64字节&#xff0c;使用压缩列表&#xff08;新版本已经废弃压缩列表改用listpack数据结构了&#xff09; 如果不满足上述条件&#xff0c;采用跳表作为redis的底层数据结构 二、压缩列表 1.由连续内存块组…

一张照片一键换脸:无需数据集和训练 | 开源日报 No.186

s0md3v/roop Stars: 23.6k License: AGPL-3.0 roop 是一个一键换脸的项目。 该项目可以通过一张目标人物的照片&#xff0c;实现对视频中人脸进行替换&#xff0c;无需数据集和训练。其主要功能、关键特性和核心优势包括&#xff1a; 可以在计算机上运行&#xff0c;并支持 C…

mysql 8.0 日志文件无权限问题处理

无论如何修改权限总是报这个日志文件权限问题。 解决方法 输入指令&#xff1a; setenforce 0 systemctl restart mysgld

csgo搬砖核心步骤,月入1000-10000你也可以的!

近年网络游戏产业的爆炸式增长&#xff0c;虚拟物品的交易需求也越来越大&#xff0c;为了满足虚拟物品的交易需求&#xff0c;网络游戏交易平台开始兴起和发展。网游交易平台的交易项目包括帐号交易、游戏币交易、装备交易这几种主要交易项目&#xff0c;其交易模式可分为C2C模…

01、python_爬虫的相关概念

一、什么是爬虫&#xff1f; 爬虫是网络爬虫的简称&#xff0c;指的是一种自动化程序&#xff0c;用于在互联网上抓取信息。爬虫的核心工作包括爬取网页、解析数据和存储数据。 通俗来说就是&#xff1a;通过一个程序&#xff0c;根据url(http://taobao.com)进行爬取网页&…

模拟实现strlen函数

一、逐个计数法 #include<assert.h> #include<stdio.h>size_t my_strlen(const char* p) {int count 0;assert(p);//断言while (*p ! \0){p;count;}return count; }int main() {char str[] "hello world";size_t len my_strlen(str);printf("%d…

【重制版】WSDM 2024 2023时空时序论文总结

&#x1f31f;【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘&#xff01;&#x1f680; 欢迎大家关注时空探索之旅 WSDM 2024于2024年3月4日-3月8日在墨西哥梅里达&#xff08;Mrida, Mxico&#xff09;正在举行。目前官网已经放出了所有被录用论文的表单&#xff08;链接…

向量的内积、长度、正交性

目录 向量的内积 向量的长度&#xff08;模&#xff09; 标准正交基 标准正交化 正交矩阵 向量的内积 向量的长度&#xff08;模&#xff09; 标准正交基 标准正交化 正交矩阵

网工内推 | 网络工程师,IE认证优先,最高15K,有项目绩效奖金

01 重庆并联网络科技有限公司 招聘岗位&#xff1a;网络工程师 职责描述&#xff1a; 1、负责集成项目的相关实施工作&#xff08;设备上架安装、网络设备配置、服务器相关系统配置安装、相关软件环境搭建及配置等&#xff09; 2、负责项目现场技术维护与技术支持&#xff1b;…