知识图谱融入RAG模型:LinkedIn重塑智能客服新范式【附LeCun哈佛演讲PPT】

原文:Retrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering

一、研究背景与问题

在客服领域,快速准确地匹配用户问题与历史工单,是提供优质回答的关键。传统的检索增强生成(Retrieval-Augmented Generation, RAG)方法虽然通过大语言模型取得了一定成效,但仍面临两大挑战:

  1. 忽略了工单的结构化信息和工单间的内在联系,导致检索精准度不足。
  2. 为适应模型输入,需对工单进行分割,造成关联信息的割裂,影响答案的完整性。
    LinkedIn研究人员敏锐地洞察到知识图谱在解决上述难题中的潜力,开启了本研究的探索之旅。

二、研究方法

image.png
针对以上难题,LinkedIn团队别具慧眼地提出了一套全新解法。他们以知识图谱为核心,重塑了RAG模型的内在逻辑。首先,原始工单被解析为一棵棵树,每棵树表征一张票证的内部结构,而树与树之间则通过语义相似度等建立联接。如此,海量工单数据被组织为一张张大图,完整保存了其中的结构化信息和关系拓扑。

在此基础上,研究人员将RAG的查询理解、信息检索、答案生成等关键环节与知识图谱进行了深度融合。当用户提出问题时,基于图谱的检索算法会快速锁定最相关的若干工单,同时保留其上下文结构。然后,大语言模型再对这些局部子图进行语义理解和信息抽取,并据此组织生成最终答案。可以看出,这种图谱驱动的RAG范式巧妙地规避了文本分割的弊端,又最大限度地利用了工单间的结构关联,从而实现了检索和问答两个层面的质的飞跃。

实验结果充分印证了LinkedIn方法的优越性。在检索阶段,引入知识图谱使平均倒数排名(MRR)提升了77.6%,检索结果的准确性和相关性大幅跃升。在问答阶段,生成回答的BLEU值较传统RAG模型高出0.32,充分彰显了答案质量的全面进步。更令人振奋的是,这套系统已在LinkedIn的客服团队中落地应用,平均解决单个问题的时间从7小时降至5小时,效率提升28.6%。由此可见,知识图谱赋能RAG模型,不仅是学术探索,更是切实可行的商业方案。

下面,我们具体来看下Linkin的工作是如何做的。

2.1 知识图谱构建

研究的第一步是将历史工单转化为知识图谱。这里采用了两层图结构:

  • 工单内部树(Intra-issue Tree):以树的形式刻画单个工单内部的层级结构。
    • 节点代表工单的不同部分(如标题、描述、优先级等)
    • 边代表部分间的从属关系和类型
  • 工单间连接图(Inter-issue Graph):体现不同工单之间的联系。
    • 工单间存在显式链接(如"与工单A相关")
    • 也存在隐式关联(如工单标题的语义相似性)

知识图谱构建分两阶段进行:

(1)工单内解析:融合基于规则和基于LLM的方法,将纯文本工单转为结构化的树表示。

  • 对于预定义字段(如代码块),通过规则提取
  • 对于自由文本,则用LLM进行语义解析

(2)工单间连接:将各工单树整合为一张大图。

  • 工单间的显式链接可直接从工单定义中获取
  • 隐式关联则由工单标题的嵌入相似度决定,高于一定阈值的工单对即可建立连边

最后,研究者还对图谱节点的文本内容生成嵌入向量,便于后续的快速检索。

2.2 检索与问答

当用户提出新问题后,LinkedIn的智能客服系统将执行以下步骤:

(1)查询解析:借助LLM的强大语言理解能力,系统从用户描述中抽取关键实体(如故障现象、优先级)和潜在意图(如获取解决步骤)。

(2)子图检索:这一环节可细分为两个阶段。

  • 工单匹配:利用实体信息,通过嵌入向量的相似度匹配,得到与问题最相关的K个工单。这一匹配过程充分利用了图谱中的结构信息,忽略了文本分割的负面影响。
  • 子图提取:将用户意图从自然语言形式翻译为图数据库查询语句(如Cypher),从匹配的工单节点出发,沿着边的引导,高效提取最有价值的信息。

(3)回答生成:基于子图检索的结果,LLM作为解码器,组织生成最终答案。如遇查询困难,也可回退到纯文本检索的基线方法。

三、实验评估

研究团队在标准数据集上对算法进行了严格测试,并设置了合理的对照组。评估指标涵盖检索和问答两大类任务。

检索性能方面,引入知识图谱后,在平均倒数排名(MRR)上比传统方法高出77.6%,充分证明了结构化、关系化信息的巨大价值。

问答效果上,生成回答与标准答案的BLEU值提升了0.32,反映出答案质量的全面进步。这主要得益于知识图谱对原始工单的信息保全,避免了因分割而造成的内容损失。

更可喜的是,LinkedIn的客服团队已将该系统投入实际应用。使用新系统的小组处理每个问题的时间从7小时降至5小时,效率提升28.6%。足见这一技术革新给业务带来的切实益处。

四、创新点总结

本研究的核心创新,在于巧妙地将知识图谱引入大语言模型,构建了一套全新的客服问答范式。它以知识图谱为中心,既保留了工单的结构和联系,又能利用LLM的语义理解和生成能力,可谓优势互补、相得益彰。

与此同时,研究者在图谱构建、查询解析、子图提取等环节都采用了LLM,使得整个流程更加灵活、鲁棒,体现出领域适应性。这种全面拥抱LLM的做法堪称业界典范。

五、研究展望

尽管该研究在客服智能化上实现了新的突破,但仍存在进一步完善的空间。未来可考虑:

  • 开发自动化工具,从工单语料中自动提取知识图谱模板,减少人工依赖。
  • 探索知识图谱的动态更新机制,让系统能够从新工单和用户交互中持续学习,提升知识覆盖的时效性。
  • 将知识图谱+LLM的范式扩展到客服以外的领域,如金融、医疗等,进一步验证其普适价值。

六、总结

LinkedIn的这项研究堪称客服智能化的里程碑。它以知识图谱为桥梁,将大语言模型赋能到信息检索和问题解答的全流程,在提升匹配精准度、保证答案完整性的同时,也为LLM的产业应用开辟了新的道路。


关注↓回复【LeCun】,可下载LeCun哈佛演讲PPT,回复【论文】可直接获取本文分享论文。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/597582.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

IDEA-控制台日志过滤插件 - Grep Console

IDEA-控制台日志过滤插件 - Grep Console 当idea控制台日志较多时,为了方便查找关键字,使用Grep Console插件,指定控制台中关键字高亮显示 1.安装 2.使用 2.1 高亮显示 控制台中指定颜色高亮显示指定字符 效果: 重启项目后还是会高亮显示 取…

【软考高项】三十三、质量管理

一、管理基础 质量定义 国际标准:反映实体满足主体明确和隐含需求的能力的特性总和。 国家标准:一组固有特性满足要求的程度。固有特性是指在某事或某物中本来就有的,尤其是那种永久的可区分的特征。 ➢ 对产品来说,例如…

缓存菜品操作

一:问题说明 用户端小程序展示的菜品数据都是通过查询数据库获得,如果用户端访问量比较大,数据库访问压力随之增大。 二:实现思路 通过Redis来缓存菜品数据,减少数据库查询操作。 缓存逻辑分析: 每个分…

k8s保持pod健康

存活探针 Kubemetes 可以通过存活探针 (liveness probe) 检查容器是否还在运行。可以为 pod 中的每个容器单独指定存活探针。如果探测失败,Kubemetes 将定期执行探针并重新启动容器。 Kubemetes 有以下三种探测容器的机制: HTTP GET 探针对容器的 IP 地…

Day61:单调栈 739. 每日温度 496.下一个更大元素 I

739. 每日温度 给定一个整数数组 temperatures ,表示每天的温度,返回一个数组 answer ,其中 answer[i] 是指对于第 i 天,下一个更高温度出现在几天后。如果气温在这之后都不会升高,请在该位置用 0 来代替。 示例 1: 输…

发表博客之:gemm/threadblock/threadblock_swizzle.h 文件夹讲解,cutlass深入讲解

文章目录 [发表博客之:gemm/threadblock/threadblock_swizzle.h 文件夹讲解,cutlass深入讲解](https://cyj666.blog.csdn.net/article/details/138514145)先来看一下最简单的struct GemmIdentityThreadblockSwizzle结构体 发表博客之:gemm/th…

vue2 webpack-dev-server Unknown promise rejection reason

在vue.config.js中添加如下配置,重启项目即可 module.exports defineConfig({devServer: {client: {overlay: false,},} })参考

探索中位数快速排序算法:高效寻找数据集的中间值

在计算机科学领域,寻找数据集的中位数是一个常见而重要的问题。而快速排序算法作为一种高效的排序算法,可以被巧妙地利用来解决中位数查找的问题。本文将深入探讨中位数快速排序算法的原理、实现方法以及应用场景,带你领略这一寻找中间值的高…

vue 金额组件,输入提示单位:‘千’、‘万’、‘十万’...并用‘,’三个格式化

近期项目中遇到一个需求,金额输入框,输入过程中自动提示‘千’、‘万’、‘十万’、‘百万’......等单位提示,鼠标失去焦点后,并用‘,’三位隔开计数。 例如: 输入:12345.99 失去焦点:12,34…

Vue--》从零开始打造交互体验一流的电商平台(一)

今天开始使用 vue3 ts 搭建一个电商项目平台,因为文章会将项目的每处代码的书写都会讲解到,所以本项目会分成好几篇文章进行讲解,我会在最后一篇文章中会将项目代码开源到我的github上,大家可以自行去进行下载运行,希…

【Node.js工程师养成计划】之express中间件与接口规范

一、Express中间件的概念与基本应用 const express require(express)// 加一个注释,用以说明,本项目代码可以任意定制更改 const app express()const PORT process.env.PORT || 3000// // 挂载路由 // app.use(/api, router)// // 挂载统一处理服务端…

【倪亲斫经典水墨云纹仲尼式】倪诗韵亲斫古琴

【倪亲斫经典水墨云纹仲尼式】倪诗韵亲斫古琴 松透润,适合大曲文曲潇湘欸乃平沙,余韵悠长,手感极其舒适,久弹不疲。

[Linux][网络][TCP][三][超时重传][快速重传][SACK][D-SACK][滑动窗口]详细讲解

目录 1.超时重传1.什么是超时重传?2.超时时间是如何确定的? 2.快速重传3.SACK4.D-SACK1.ACK丢失2.网络延迟 5.滑动窗口0.问题抛出1.发送方的滑动窗口2.如何表示发送方的四个部分?3.接收方的滑动窗口4.滑动窗口的完善理解 1.超时重传 1.什么是…

C++手写协程项目(协程实现线程结构体、线程调度器定义,线程挂起函数、线程切换函数、线程恢复函数、线程结束函数、线程结束判断函数,模块测试)

协程结构体定义 之前我们使用linux下协程函数实现了线程切换,使用的是ucontext_t结构体,和基于这个结构体的四个函数。现在我们要用这些工具来实现我们自己的一个线程结构体,并实现线程调度和线程切换、挂起。 首先我们来实现以下线程结构体…

Splay 树简介

【Splay 树简介】 ● Treap 树解决平衡的办法是给每个结点加上一个随机的优先级,实现概率上的平衡。Splay 树直接用旋转调整树的形态,通过旋转改善树的平衡性。计算量小,效果好。 ● Splay 树的旋转主要分为“单旋”和“双旋”。 所谓“单旋”…

基于52单片机的AS608指纹密码锁电路原理图+源程序+PCB实物制作

目录 1、前言 2、实物图 3、PCB图 4、原理图 5、程序 资料下载地址:基于52单片机的AS608指纹密码锁电路原理图源程序PCB实物制作 1、前言 这是一个基于AS608STC89C52单片机的指纹识别和键盘密码锁。 里面包括程序,原理图,pcb图和实…

OpenNJet:云原生技术中的创新者与实践者

目录 引言OpenNJet介绍OpenNJet优势1. 性能无损动态配置2. 灵活的CoPilot框架3. 支持HTTP/34. 支持国密5. 企业级应用6. 高效安全 OpenNJet 编译与安装环境准备编译环境配置配置yum源yum 安装软件包创建符号连接修改 ld.so.conf 配置 编译代码 部署 WEB SERVER配置OpenNJet部署…

正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-13-按键实验

前言: 本文是根据哔哩哔哩网站上“正点原子[第二期]Linux之ARM(MX6U)裸机篇”视频的学习笔记,在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。…

FTP协议与工作原理

一、FTP协议 FTP(FileTransferProtocol)文件传输协议:用于Internet上的控制文件的双向传输,是一个应用程序(Application)。基于不同的操作系统有不同的FTP应用程序,而所有这些应用程序都遵守同…

计算机网络【应用层】邮件和DNS

文章目录 电子邮件DNSDNS提供的服务:域名分级域名解析流程DNS资源记录DNS服务器类型 电子邮件 使用SMTP协议发送邮件之前,需要将二进制多媒体数据编码为ASCII码SMTP一般不使用中间邮件服务器发送邮件,如果收件服务器没开机,那么会…