原文地址:how-to-convert-any-text-into-a-graph-of-concepts
使用 Mistral 7B 将任何文本语料库转换为知识图的方法
2023 年 11 月 10 日
使用递归 RAG 方法来实现具有多跳推理的 QnA,以回答基于大型文本语料库的复杂查询。
知识图增强生成与递归 RAG 结合时,它可能有助于创建超级研究代理。
抽象的
知识图(KG)或任何图由节点和边组成。KG 的每个节点代表一个概念,每条边是一对此类概念之间的关系。
使用Mistral 7B Openorca 指令和 Zephyr 模型、使用Neo4j等数据库来存储和检索图形数据、使用内存中的 Pandas Dataframes 和 NetworkX Python 库。
Github:https://rahulnyk.github.io/knowledge_graph/
知识图谱
玛丽有一只小羊羔,
你以前听过这个故事;
但你知道吗,她递了盘子,
还多了一点!
这是文本作为 KG 的一种可能的表示形式。
什么是知识图?
知识图谱,也称为语义网络,表示现实世界实体(即对象、事件、情况或概念)的网络,并说明它们之间的关系。这些信息通常存储在图形数据库中并可视化为图形结构,从而产生了知识“图形”一词。
为什么选择知识图谱?
知识图有多种用途。我们可以运行图算法并计算任何节点的中心性,以了解概念(节点)对工作主体的重要性。我们可以分析关联和不关联的概念集,或者计算概念社区以深入理解主题。我们可以理解看似互不相关的概念之间的联系。
我们还可以使用知识图来实现图检索增强生成(GRAG 或 GAG)并与我们的文档聊天。与普通的 RAG 旧版本相比,这可以给我们带来更好的结果,而 RAG 存在一些缺点。例如,通过简单的语义相似性搜索来检索与查询最相关的上下文并不总是有效。特别是当查询没有提供足够的关于其真实意图的上下文时,或者当上下文是大型文本语料库中的片段时。
例如,考虑这个查询 -
告诉我《孤独一百年》一书中何塞·阿卡迪奥·布恩迪亚的家谱。
该书记录了何塞·阿卡迪奥·布恩迪亚的 7 代人,其中一半的人物名为何塞·阿卡迪奥·布恩迪亚。如果可能的话,使用简单的 RAG 管道来回答查询将是一个相当大的挑战。
RAG 的另一个缺点是它无法告诉您要问什么。很多时候,提出正确的问题比获得答案更重要。
图增强生成(GAG)可以在一定程度上解决RAG的这些缺点。更好的是,我们可以混合搭配并构建图形增强检索增强生成管道,以充分利用两个世界。
现在我们知道图表很有趣,它们非常有用,而且看起来也很漂亮。
创建概念图
如果你问 GPT,如何根据给定的文本创建知识图?它可能会建议如下的过程。
- 从工作主体中提取概念和实体。这些是节点。
- 提取概念之间的关系。这些是边缘。
- 填充图数据结构或图数据库中的节点(概念)和边(关系)。
- ......
如何实现步骤 1 和 2 呢?
这是我设计的从任何给定文本语料库中提取概念图的方法的流程图。它与上面的方法类似,但有一些细微的差别。
- 将文本语料库分割成块。为每个块分配一个 chunk_id。
- 对于每个文本块,使用LLMs提取概念及其语义关系。让我们为这个关系指定一个权重 W1。同一对概念之间可以存在多种关系。每一个这样的关系都是一对概念之间的边缘。
- 考虑到同一文本块中出现的概念也通过它们的上下文邻近性而相关。让我们为这个关系指定一个权重 W2。请注意,同一对概念可能出现在多个块中。
- 对相似的对进行分组,对它们的权重进行求和,并连接它们的关系。所以现在我们在任何不同的概念对之间都只有一条边。边具有一定的权重和关系列表,如其名称所示。
您可以在我在本文中共享的 GitHub 存储库中看到此方法作为 Python 代码的实现。让我们在接下来的几节中简要介绍一下实现的关键思想。
Mistral 和 Prompt
上面流程图中的步骤 1 很简单。Langchain 提供了大量的文本分割器,我们可以使用它们将文本分割成块。
第 2 步是真正的乐趣开始的地方。为了提取概念及其关系,我使用 Mistral 7B 模型。在找到最适合我们目的的模型变体之前,我进行了以下实验:
Mistral Instruct
Mistral OpenOrca
Zephyr (Hugging Face version derived from Mistral)
我使用了这些模型的 4 位量化版本—由 Ollama 本地托管。
Ollama
这些模型都是带有系统提示和用户提示的指令调优模型。如果我们告诉他们,他们都可以很好地遵循说明并以 JSON 格式整齐地格式化答案。收敛到了Zephyr模型,提示如下:
SYS_PROMPT = (
"You are a network graph maker who extracts terms and their relations from a given context. "
"You are provided with a context chunk (delimited by ```) Your task is to extract the ontology "
"of terms mentioned in the given context. These terms should represent the key concepts as per the context. \n"
"Thought 1: While traversing through each sentence, Think about the key terms mentioned in it.\n"
"\tTerms may include object, entity, location, organization, person, \n"
"\tcondition, acronym, documents, service, concept, etc.\n"
"\tTerms should be as atomistic as possible\n\n"
"Thought 2: Think about how these terms can have one on one relation with other terms.\n"
"\tTerms that are mentioned in the same sentence or the same paragraph are typically related to each other.\n"
"\tTerms can be related to many other terms\n\n"
"Thought 3: Find out the relation between each such related pair of terms. \n\n"
"Format your output as a list of json. Each element of the list contains a pair of terms"
"and the relation between them, like the follwing: \n"
"[\n"
" {\n"
' "node_1": "A concept from extracted ontology",\n'
' "node_2": "A related concept from extracted ontology",\n'
' "edge": "relationship between the two concepts, node_1 and node_2 in one or two sentences"\n'
" }, {...}\n"
"]"
)
USER_PROMPT = f"context: ```{input}``` \n\n output: "
如果我们用这个提示通过我们的(不适合的)儿歌,这就是结果:
[
{
"node_1": "Mary",
"node_2": "lamb",
"edge": "owned by"
},
{
"node_1": "plate",
"node_2": "food",
"edge": "contained"
}, . . .
]
请注意,它甚至将“食物”猜测为一个概念,而文本块中并未明确提及这一概念。
如果我们对示例文章的每个文本块运行此操作并将 json 转换为 Pandas 数据帧,则其外观如下。
这里的每一行代表一对概念之间的关系。每行都是图中两个节点之间的一条边,同一对概念之间可以有多个边或关系。上面数据框中的count就是我任意设置为4的权重。
情境邻近性
我假设文本语料库中彼此接近的概念是相关的。我们将这种关系称为“上下文邻近度”。
为了计算上下文邻近边缘,我们融合了数据帧,以便 node_1 和 node_2 折叠成单个列。然后我们使用 chunk_id 作为键创建该数据帧的自连接。因此具有相同 chunk_id 的节点将相互配对形成一行。
但这也意味着每个概念也将与其自身配对。这称为自循环,其中边在同一节点上开始和结束。为了消除这些自循环,我们将从数据帧中删除node_1与node_2相同的每一行。
最后,我们得到一个与原始数据框非常相似的数据框。
这里的count列是node_1和node_2同时出现的chunk的数量。chunk_id 列是所有这些块的列表。
所以我们现在有两个数据帧,一个具有语义关系,另一个具有文本中提到的概念之间的上下文邻近关系。我们可以将它们组合起来形成我们的网络图数据框。
我们已经完成了为文本构建概念图的工作。但此时离开它将是一件非常令人不快的事情。我们的目标是像本文开头的特色图像一样可视化图表,我们离我们的目标不远了。
创建概念网络
G = nx.Graph()
## Add nodes to the graph
for node in nodes:
G.add_node(str(node))
## Add edges to the graph
for index, row in dfg.iterrows():
G.add_edge(
str(row["node_1"]),
str(row["node_2"]),
title=row["edge"],
weight=row['count']
)
[
'digital technology',
'EVIN',
'medical devices',
'online training management information systems',
'wearable, trackable technology'
]