Graph RAG:基于知识图谱的检索增强技术与优势对比

身处信息爆炸时代,如何从海量信息中获取准确全面的搜索结果,并以更直观、可读的方式呈现出来是大家期待达成的目标。传统的搜索增强技术受限于训练文本数量、质量等问题,对于复杂或多义词查询效果不佳,更无法满足 ChatGPT 等大语言模型应用带来的大规模、高并发的复杂关联查询需求。

在此背景下,悦数图数据库率先实现了与 Llama Index、LangChain 等大语言模型框架的深度适配并在行业内首次提出了 Graph RAG(基于图技术的检索增强)的概念,利用知识图谱结合大语言模型(LLM)为搜索引擎提供更全面的上下文信息,可以帮助用户以更低成本获得更智能、更精准的搜索结果。目前,悦数图数据库推出的这项技术在与向量数据库结合的领域也获得了相当不错的效果

今天我们就一起来了解下什么是 Graph RAG 以及它与其他 RAG 技术的对比,也欢迎搜索「悦数图数据库」官网,通过 Demo 体验直观感受这一功能~

01 传统检索增强技术的瓶颈

缺少训练数据,文本理解不足

在传统的搜索引擎中,检索结果通常是基于关键词的匹配。而随着用户对搜索精确度和词汇联想能力要求的提高,传统的搜索结果往往难以满足用户的实际需求,尤其是在处理复杂的问题和长尾查询时,效果会明显降低。

为了解决这类问题,RAG 搜索增强技术应运而生。RAG (Retrieval-Augmented Generation),指的是通过 RAG 模型来对搜索结果进行增强的过程。具体来说,它是将检索技术和语言生成技术相结合来增强生成过程的一种技术,可以帮助传统搜索引擎生成更加准确、相关和多样化的信息来满足用户的需求。

而为了使搜索结果更精准,RAG 技术仍然面临训练数据和文本理解的挑战:

  • 训练数据:RAG 技术需要大量的数据和计算资源来训练和生成模型,尤其是在处理多语言和复杂任务时,但是互联网上文本的质量和准确性是有限的,训练数据的不足会直接影响生成内容的质量

  • 文本理解:RAG 需要理解查询的意图,但是对于复杂的查询或者多义词查询,RAG 可能会出现歧义或不确定性,从而影响生成的质量

因此,如何找到更强大的检索增强技术,以更高效率获得更符合搜索者的预期的搜索结果的问题就显得更迫在眉睫。

02 什么是 Graph RAG

 基于知识图谱的检索增强技术

「Graph RAG」是由悦数图数据率先提出的概念,它是一种基于知识图谱的检索增强技术,通过构建图模型的知识表达,将实体和关系之间的联系用图的形式进行展示,然后利用大语言模型 LLM(Large Language Model)进行检索增强。

在之前 和 Llama Index 的直播研讨会🔗 中我们提到,图数据库凭借图形格式组织和连接信息的方式,天然适合存储及表达复杂的上下文信息。通过图技术构建知识图谱提升 In-Context Learning 的全面性为用户提供更多的上下文信息,能够帮助大语言模型(LLM)更好地理解实体间的关系,提升自己的表达和推理能力。

Graph RAG 将知识图谱等价于一个超大规模的词汇表,而实体和关系则对应于单词。通过这种方式,Graph RAG 在检索时能够将实体和关系作为单元进行联合建模,从而更准确地理解查询意图,并提供更精准的检索结果

03 Demo 演示:检索强化效果对比

搜索「悦数」官网,直接在线体验

下面我们就通过 Demo 演示来直观比较下 Graph RAG 与 Vector RAG、Text2Cypher 这三种检索增强技术的区别和对比——

Graph RAG 与 Vector RAG 的对比

首先是 Vector RAG(向量检索) 与 Graph + Vector RAG(图技术增强的向量检索)的对比。

图片

左:Vector RAG 右:Graph RAG

以《银河护卫队 3》的数据集为例,当我们询问“彼得·奎尔的相关信息”时,单独使用向量检索引擎只给出了简单的身份、剧情、演员信息,而当我们使用 Graph RAG 增强后的搜索结果,则提供了更多关于主角技能、角色目标和身份变化的信息——在这个例子中我们不难看出, Graph RAG 的方法有效补充了 Embedding、向量搜索等传统手段的不足。


Graph RAG 与 Text2Cypher 的对比

基于图谱的 LLM 的另一种有趣方法是 Text2Cypher,即自然语言生成图查询。这种方法不依赖于实体的子图检索,而是将任务/问题翻译成一个面向答案的特定图查询,和我们常说的 Text2SQL 本质是一样的。

Text2Cypher 和 Graph RAG 这两种方法主要在其检索机制上有所不同。Text2Cypher 根据知识图谱的 Schema 和给定的任务生成图形模式查询,而 (Sub)Graph RAG 获取相关的子图以提供上下文。两者都有其优点,大家可以通过这个 demo ,更直观理解他们的特点:

图片

左:Text2Cypher 右:Graph RAG

我们可以看到两者的图查询模式在可视化下是有非常清晰的差异的,基于 Graph RAG 实现的检索明显呈现出更丰富的结果。用户不仅获得了最基础的介绍信息,更能得到“彼得·奎尔是银河护卫队的领导者”、“这个角色暗示自己将在续集中回归“以及角色性格等一系列基于关联搜索和上下文进行推理得出的结果

04 悦数图数据库:率先实现 LLM 适配

一键构建企业专属知识图谱应用

悦数图数据库不仅是国内首家提出 Graph RAG 概念的厂商,也率先实现了与大语言模型框架 Llama Index 、LangChain 等的深度适配,因此开发者可以专注于 LLM 的编排逻辑和 pipeline 设计,而不用亲自处理很多细节的抽象与实现,一站式生成高质量、低成本的企业级大语言模型应用。

Graph RAG 技术的出现可以说是为海量信息处理和检索带来了全新的思路。通过将知识图谱、图存储集成到大语言模型(LLM) 技术栈中,Graph RAG 把上下文学习推向了一个新的高度。目前,用户基于悦数图数据库 仅需要 3 行代码就可以轻松搭建 Graph RAG,甚至整合更复杂的 RAG 逻辑,比如 Graph+Vector RAG。

图片

参考:

行业首创 !Graph RAG:基于知识图谱的检索增强技术与优势对比(附 Demo)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/593440.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】进程间通信 - 管道

文章目录 1. 进程间通信介绍1.1 进程间通信目的1.2 进程间通信发展1.3 进程间通信分类 2. 管道2.1 什么是管道2.2 匿名管道2.3 用 fork 来共享管道原理2.4 站在文件描述符角度 - 深入理解管道2.5 站在内核角度 - 管道本质2.6 管道读写规则2.7 管道特点 3. 命名管道3.1 匿名管道…

C语言实战项目--贪吃蛇

贪吃蛇是久负盛名的游戏之一,它也和俄罗斯⽅块,扫雷等游戏位列经典游戏的行列。在编程语言的教学中,我们以贪吃蛇为例,从设计到代码实现来提升大家的编程能⼒和逻辑能⼒。 在本篇讲解中,我们会看到很多陌生的知识&…

牛角源码 | 【独立版】商城盲盒源码带uniapp(H5+小程序+APP三端)全开源

前端uniapp开源代码,可用HBuilder工具无限发行H5、小程序和打包app,后端PHP开源源码,支持二开。 内有安装搭建教程,轻松部署,搭建即可运营,内置永久免费更新地址,后续无忧升级。 下载地址&…

window 安装ai 基础环境(yolo8,训练推理等)

安装步骤: 1. python sdk 3.9以上:选择 3.9.13, 不知道为什么 3.9.0-0a等安装pytorch 不行。 2. 显卡驱动 可以使用驱动精灵 直接安装N 卡推荐 3. 安装机器学习套件CUDA cuda 安装在PyTorch 需要根 PyTorch版本一致,我的 win-srv 最高支持 12.1 …

专业渗透测试 Phpsploit-Framework(PSF)框架软件小白入门教程(五)

本系列课程,将重点讲解Phpsploit-Framework框架软件的基础使用! 本文章仅提供学习,切勿将其用于不法手段! 继续接上一篇文章内容,讲述如何进行Phpsploit-Framework软件的基础使用和二次开发。 在下面的图片中&#…

星辰考古:TiDB v1.0 再回首

“ 1.0 版本只是个开始,是新的起点,愿我们一路相扶,不负远途。 前言 TiDB 是 PingCAP 公司自主设计、研发的开源分布式关系型数据库。 近日,TiDB v8.0.0 DMR 发布,详细发版说明戳这里: https://docs.pingca…

2024年Q1季度防晒霜数据分析:个性化与差异化成为破局关键

五一出游期间,防晒必不可少,尤其是随着“颜值经济”的崛起,防晒霜成为了许多消费者出游时的必备选择。但随着“物理防晒”、“硬防晒”等概念的推出,防晒霜作为“化学防晒”的代表,在今年Q1季度线上市场表现受到影响。…

ICode国际青少年编程竞赛- Python-1级训练场-变量入门

ICode国际青少年编程竞赛- Python-1级训练场-变量入门 1、 a 4 Dev.turnRight() Dev.step(a)2、 a 4 Spaceship.step(a) Dev.step(a)3、 a 4 Dev.step(a) Dev.turnLeft() Dev.step(a)4、 a 5 Dev.step(a) Spaceship.step(a) Dev.step(a)5、 a 3 Dev.step(a) Dev.tur…

轨道交通巡检机器人的应用范围

在现代轨道交通系统的庞大网络中,无数的轨道、设备和设施交织在一起,如同一个精密的机器在高效运转。而在这背后,轨道交通巡检机器人正悄然登场,它们如同一个个智能的守护者,穿梭于各个场景之中。那么,这些…

【LeetCode:1235. 规划兼职工作 + 动态规划 + 二分查找】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

win10安装DHCP服务--用于2台机器之间搭建简易网络来进入目标机器修改配置

前言: 客户多了,往往会出现各种突发情况。 比如一个客户现场没有DHCP,没有显示器,键盘。 你只有一台笔记本的情况下要配置目标机器的网络。要如何配置?? 这时候就可以使用这篇博客提供的方式了。 Windows…

Android使用kts发布aar到JitPack仓库

Android使用kts发布aar到JitPack 之前做过sdk开发,需要将仓库上传到maven、JitPack或JCenter,但是JCenter已停止维护,本文是讲解上传到JitPack的方式,使用KTS语法,记录使用过程中遇到的一些坑.相信Groovy的方式是大家经常使用的,…

Codeforces Round 738 (Div. 2) D2. Mocha and Diana (Hard Version)

题目 思路: 性质1:能在结点u,v添加边的充要条件是u,v在第一个图和第二个图都不连通 性质2:可以添加的边数等于 n - 1 - max(m1, m2),并且添加边的顺序不会影响结果(即 边(u&#x…

U.S. Student Information Center——全球学历认证

权威机构 中国留服中心认证,全称是中国教育部留学服务中心国(境)外学历学位认证。国(境)外学历学位认证工作旨在落实中华人民共和国的留学政策,即中国教育部留学服务中心根据归国留学生提出的申请,鉴别国(境)外学历的…

C语言——文件相关操作

2.什么是文件 3.文件的打开和关闭 4.文件的顺序读写 5.文件的随机读写 6.文本文件和二进制文件 7.文件读取结束的判定 8.文件缓冲区 一、文件相关介绍 1、为什么使用文件 文件用于永久存储数据。通过使用文件,我们可以在程序关闭后保存数据,以便将来…

XBoot:基于Spring Boot 2.x的一站式前后端分离快速开发平台

XBoot:基于Spring Boot 2.x的一站式前后端分离快速开发平台 摘要 随着信息技术的迅速发展,快速构建高质量、高可靠性的企业级应用成为了迫切需求。XBoot,作为一个基于Spring Boot 2.x的一站式前后端分离快速开发平台,通过整合微信…

AI-数学-高中56-成对数据统计-线性回归方程

原作者视频:【成对数据统计】【一数辞典】1线性回归方程_哔哩哔哩_bilibili 注意:高中只学线性回归。 最小二乘法(残差和平方最小的直线、方差最小>拟合程度最好):

滑动验证码登陆测试编程示例

一、背景及原理 处理登录时的滑动验证码有两个难点,第一个是找到滑块需要移动的距离,第二个是模拟人手工拖动的轨迹。模拟轨迹在要求不是很严的情况下可以用先加速再减速拖动的方法,即路程的前半段加速度为正值,后半段为负值去模…

微搭低代码入门03页面管理

目录 1 创建页面2 页面布局3 页面跳转总结 上一篇我们介绍了应用的基本操作,掌握了应用的概念后接着我们需要掌握页面的常见操作。 1 创建页面 打开应用的编辑器,在顶部导航条点击创建页面图标 在创建页面的时候可以从空白新建,也可以使用模…

docker-本地私有仓库、harbor私有仓库部署与管理

一、本地私有仓库: 1、本地私有仓库简介: docker本地仓库,存放镜像,本地的机器上传和下载,pull/push。 使用私有仓库有许多优点: 节省网络带宽,针对于每个镜像不用每个人都去中央仓库上面去下…