CRE-LLM:告别复杂特征工程,直接关系抽取

CRE-LLM:告别复杂特征工程,直接关系抽取

    • 提出背景
    • CRE-LLM 宏观分析
    • CRE-LLM 微观分析
      • 1. 构建指令集(Instruction Design)
      • 2. 高效微调大型语言模型(Efficient Fine-Tuning on LLMs)
      • 3. 方法讨论(Discussion of Methods)
      • 应用场景:糖尿病治疗反应关系抽取
    • 区别对比
      • 1. 生成式方法与分类方法的区别
      • 2. 指令监督的创新
      • 3. 参数效率微调(PEFT)
      • 4. 适应领域特定任务的灵活性
      • 5. 直接关系提取

 


提出背景

论文:https://arxiv.org/pdf/2404.18085

代码:https://github.com/SkyuForever/CRE-LLM

 

在糖尿病领域,基于PLMs的关系抽取方法通常会使用预训练模型(如BERT和T5)来识别文本中的实体和关系。

例如,对于句子“糖尿病患者需要定期检查血糖”,一个基于PLMs的模型可能会识别出“糖尿病患者”作为实体,并提取出与“糖尿病患者”相关的关系,比如“需要定期检查”等。

而CRE-LLM框架则提供了一种新颖的方法来处理这种领域特定的关系抽取任务。

它不再依赖于传统的分类方法,而是利用微调的开源LLMs(如Llama2-7B、ChatGLM2-6B和Baichuan2-7B)通过生成过程直接识别给定实体之间的关系。

在糖尿病领域中,CRE-LLM可以根据给定的文本,例如“糖尿病患者需要定期检查血糖”,直接提取出与“糖尿病患者”相关的关系,而无需先进行实体识别。

这种方法可能会更高效,并且能够更好地适应特定领域的语言特点和语境。

 

给定一个句子:“该患者被诊断患有2型糖尿病。”

在这个句子中,我们可以识别出实体:患者(entity)、2型糖尿病(entity)。

然后,我们可以使用CRE-LLM框架来识别实体之间的关系。

在这种情况下,可能的关系可以是:

  • 患者(entity)- 患有(relation)- 2型糖尿病(entity)

通过这种方式,我们可以利用CRE-LLM框架从给定的句子中提取出实体之间的关系,以帮助理解糖尿病领域的文本信息。

CRE-LLM :这种方法假设模型已经针对糖尿病领域得到了专门的训练和优化。

因此,当输入“糖尿病患者因胰岛素不足而经常感到疲劳”这句话时,模型不仅识别出实体和关系,还能直接输出具体的关系:“糖尿病患者”因“胰岛素不足”而“感到疲劳”,显示出胰岛素不足导致了疲劳。

 

CRE-LLM 宏观分析

在这里插入图片描述

CRE-LLM的总览图

  • 展示了CRE-LLM框架如何利用参数高效微调技术(例如LoRA)对领域特定的中文关系抽取进行操作。
  • 输入嵌入后,通过LoRA模块和自注意力机制处理,最后输出结构,从而抽取关系。
  • “Instructions”和“Input”是用于LLM的提示,指导模型关注任务的关键信息,最终“Output”输出指定实体间的关系。

 

CRE-LLM 微观分析

CRE-LLM是一个针对领域特定关系抽取(Domain-Specific Chinese Relation Extraction, DSCRE)的框架,它使用基于生成式问答的方法,并结合了指令监督下的大型语言模型(LLMs)微调技术。

CRE-LLM利用微调过的大型语言模型,通过自然语言的指令来引导模型提取和理解特定领域内实体之间的关系。

1. 构建指令集(Instruction Design)

  • 子解法1:自然语言指令设计

    • 特征:需要明确地指导模型理解和执行特定的任务,例如提取实体之间的关系。
    • 原因:通过构建有效的自然语言指令,可以更直观地指引模型聚焦于关键信息,如实体和它们之间的关系。这样做增强了模型对任务的理解,提高了执行任务的准确性。
    • 例子:在处理糖尿病相关的医疗记录时,指令可能是“识别文本中糖尿病患者的主要症状和导致这些症状的原因。”
  • 子解法2:输入输出格式配置

    • 特征:需要结构化的方式来定义模型如何接收输入并生成输出。
    • 原因:合理的输入输出配置确保了数据在模型中的正确处理,使得输出的数据结构能够直接用于下一步的处理或分析。
    • 例子:设定输入为“糖尿病患者报告说他们经常感到疲劳”,输出为“([糖尿病患者], 经常感到疲劳, 疲劳原因是[高血糖])”。

2. 高效微调大型语言模型(Efficient Fine-Tuning on LLMs)

  • 子解法1:参数高效微调(PEFT)技术应用
    • 特征:大型语言模型通常参数庞大,直接微调成本高。
    • 原因:通过PEFT技术,如LoRA,可以仅对模型的部分关键参数进行调整,这样不仅降低了计算和存储的需求,还保持了模型的学习能力。
    • 例子:在糖尿病病例分析中,使用PEFT技术微调模型处理“哪些药物对治疗疲劳有效?”的问题,只调整与药物和症状关系识别相关的模型部分。

3. 方法讨论(Discussion of Methods)

  • 子解法1:生成式问答模式应用
    • 特征:生成式问答能直接从文本生成答案,适用于复杂关系的提取。
    • 原因:此方法能动态地根据问题的上下文生成关系答案,不受固定模式的限制,更适合处理多变和非结构化的医疗数据。
    • 例子:在询问“糖尿病患者使用什么药物后疲劳减轻?”时,生成式问答模式能够直接提供药物名称和关联的效果描述。

这种方法通过将复杂的任务细分为特定的子任务来增强模型的针对性和效率,使其能够在特定领域,如糖尿病医疗数据中,进行更为精确的信息抽取和分析。

 
考虑使用CRE-LLM框架来处理糖尿病相关的医学文本。

在这个例子中,假设我们有一个包含丰富信息的医学数据库,其中包括糖尿病患者的详细病历和治疗记录。

我们的目标是从这些文本中提取出有关糖尿病患者的特定治疗反应和并发症的关系。

应用场景:糖尿病治疗反应关系抽取

  1. 输入数据:假设我们有以下句子作为输入数据:“张三因为糖尿病并发了视网膜病变,正在接受激光治疗。”

  2. 指令设计:为了引导模型正确抽取信息,我们设计一条指令:“请根据下面的描述提取糖尿病患者的并发症及其治疗方式。”这条指令被用来让模型聚焦于‘并发症’和‘治疗方式’这两个实体及其之间的关系。

  3. 模型运作:CRE-LLM通过这个指令开始分析文本,首先识别出“糖尿病”作为疾病实体,"视网膜病变"作为并发症实体,和"激光治疗"作为治疗方式实体。

  4. 关系提取:然后,模型使用其微调后的生成式能力,生成一个关系描述,这可能是:“糖尿病导致视网膜病变"和"视网膜病变正在接受激光治疗”。这些关系直接反映了疾病、并发症和治疗之间的逻辑联系。

  5. 输出结果:最终输出的三元组可能是 [(“糖尿病”, “导致”, “视网膜病变”), (“视网膜病变”, “治疗方式”, “激光治疗”)]。这些输出有助于医疗专业人员快速理解患者的病情和治疗方案。

通过这样的应用,CRE-LLM不仅提高了从医学文本中自动提取关键信息的效率,而且通过精确的关系抽取,支持了更深入的医学研究和更有针对性的治疗决策。

这种技术特别适用于处理复杂的医疗情况,其中需要理解多个实体之间的多层次关系。

 

区别对比

解决CRE任务的四种不同范式

  • 这张图说明了四种解决CRE任务的方法:
    • (a) 基于分类的PLMs: 使用预训练语言模型(PLM),通过关系集合输出概率最高的关系。
    • (b) 基于提示的LLMs: 利用RE数据集和关系集合构建提示,然后输入到大型语言模型(LLM)中提取关系。
    • © 基于检索的LLMs: 使用RE数据集构建提示,通过检索机制在LLM中提取关系。
    • (d) CRE-LLM(本文的方法): 直接利用RE数据集构建的微调数据集来微调LLM,并生成准确的关系抽取结果。

 
CRE-LLM的主要作用是提取三元组(即实体-关系-实体的结构),但它在方法和应用方面具有几个独特的特点,尤其是在处理领域特定的文本数据时。

这种方法利用大型语言模型(LLMs)的强大能力,通过指令监督和微调,以生成式的方式提取和理解文本中的复杂关系。

以下是CRE-LLM与其他常见关系抽取方法相比的主要区别:

1. 生成式方法与分类方法的区别

  • 分类方法(如传统的PLMs方法)通常基于固定的类别进行关系判定,需要大量的标注数据来训练模型识别预定义的关系类型。
  • 生成式方法(如CRE-LLM采用的方法)则更灵活,它不依赖于事先定义的关系类型,而是可以生成关系的描述,允许模型探索文本中未预先标记的关系类型。

2. 指令监督的创新

  • 其他方法往往重点关注模型的算法优化和数据的质量。
  • CRE-LLM通过指令监督引导模型的关注点,使其能够更准确地聚焦于任务的关键部分。这种方式提供了一种直观的模型交互手段,能够有效地通过自然语言指令提高模型对复杂任务的理解。

3. 参数效率微调(PEFT)

  • 许多现有的关系抽取方法依赖于对整个模型的重训练或广泛的微调。
  • CRE-LLM采用的PEFT技术允许在保持模型底层复杂性的同时,仅微调模型的一小部分参数,这样做显著减少了计算资源的消耗,加快了模型调整的速度。

4. 适应领域特定任务的灵活性

  • 许多关系抽取工具通用性较强,但可能在特定领域(如医疗、法律或金融)的适应性不足。
  • CRE-LLM特别设计用于适应领域特定的数据和需求,通过针对特定领域的指令和微调策略,增强了模型在特定领域内的表现和准确性。

5. 直接关系提取

  • 传统方法可能需要多步骤处理,如先分类后提取,或生成后检索。
  • CRE-LLM通过生成直接的关系描述,简化了处理流程,提高了效率和准确性。

总的来说,CRE-LLM通过结合最新的大型语言模型技术、创新的指令监督方法和参数高效的微调策略,为领域特定的关系抽取任务提供了一个高效、灵活且资源节约的解决方案。

这使得它在处理需要深度理解和高精度的复杂文本数据时,特别是在有限的监督下,表现出其他方法难以匹敌的优势。

CRE-LLM通过直接生成三元组的方式简化了传统关系抽取流程中的多个步骤,减少了对复杂特征工程的依赖,并提高了处理速度和灵活性。

这种方法特别适合于处理大规模和复杂的文本数据,尤其是在需要快速有效地从大量文本中抽取精确关系时。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/596456.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据结构——链表专题2

文章目录 一、返回倒数第k 个节点二、链表的回文结构三、相交链表 一、返回倒数第k 个节点 原题链接:返回倒数第k 个节点 利用快慢指针的方法:先让fast走k步,然后fast和slow一起走,直到fast为空,最后slow指向的结点就…

智慧工地)智慧工地标准化方案(107页)

2.2 设计思路 对于某某智慧工地管理系统的建设,绝不是对各个子系统进行简单堆砌,而是在满足各子系统功能的基础上,寻求内部各子系统之间、与外部其它智能化系统之间的完美结合。系统主要依托于智慧工地管理平台,来实现对众多子系统…

动态规划算法:路径问题

例题一 解法(动态规划): 算法思路: 1. 状态表⽰: 对于这种「路径类」的问题,我们的状态表⽰⼀般有两种形式: i. 从 [i, j] 位置出发,巴拉巴拉; ii. 从起始位置出…

《自动机理论、语言和计算导论》阅读笔记:p428-p525

《自动机理论、语言和计算导论》学习第 14 天,p428-p525总结,总计 98 页。 一、技术总结 1.Kruskal’s algorithm(克鲁斯克尔算法) 2.NP-Complete Problems p434, We say L is NP-complete if the following statements are true about L: (1)L is …

AI预测体彩排3第3套算法实战化赚米验证第2弹2024年5月6日第2次测试

由于今天白天事情比较多,回来比较晚了,趁着还未开奖,赶紧把预测结果发出来吧~今天是第2次测试~ 2024年5月6日排列3预测结果 6-7码定位方案如下: 百位:2、3、1、5、0、6 十位:4、3、6、8、0、9 个位&#xf…

软件公司为什么很少接二开项目?

前言 很多企业由于原有项目还在继续运营,但原有技术公司不想再合作或者不想再维持整个技术团队等原因,就需要找一个新的软件公司继续维护原有软件系统。但是一接触往往发现很多软件公司拒绝接手第三方的软件项目,这究竟是什么原因呢&#xff…

六淳科技IPO终止背后:十分着急上市,大额分红,实控人买豪宅

华西证券被暂停保荐业务资格6个月的影响力逐渐显现。 近日,深圳证券交易所披露的信息显示,东莞六淳智能科技股份有限公司(下称“六淳科技”)及其保荐人撤回上市申请材料。因此,深圳证券交易所决定终止对其首次公开发行…

暂不要创业,谁创业谁死

关注卢松松,会经常给你分享一些我的经验和观点。 卢松松视频号会员专区有个会员提问,我感觉挺有代表性的,写成公众号文章,分享给大家: 松哥,我花了太多时间在思考上,而一直没有行动&#xff…

ESG视角下的多期DID构建(2009-2022年)4.5万+数据

随着ESG信息越来越受到重视,一些第三方评级机构开始推出ESG评级产品,目前在第三方数据库能够查到华证、富时罗素、商道融绿、社会价值投资联盟以及Wind自有的ESG评级数据等。其中,商道融绿是中国最早发布ESG评级数据的机构,也是国…

一文读懂Vue生命周期(Vue2)

一文读懂Vue生命周期(Vue2) 目录 一文读懂Vue生命周期(Vue2)1 前言2 Vue生命周期2.1 基本生命周期2.1.1 8个生命周期2.1.2 案例 2.2 组件生命周期2.2.1 父子生命周期2.2.2 案例 2.3 keep-alive生命周期2.3.1 案例 2.4 其他 3 总结…

快速入门!学习鸿蒙App开发的终极指南!

鸿蒙(HarmonyOS)是华为推出的一款分布式操作系统,旨在为不同设备提供统一的操作体验。鸿蒙App开发可以让应用程序在多个设备上实现流畅运行。本文将介绍鸿蒙App开发的终极指南,帮助您快速入门。 开发环境搭建 鸿蒙App开发过程需要…

VS Code 远程连接 SSH 服务器

文章目录 一、安装 Remote - SSH 扩展并连接远程主机二、免密连接远程主机1. 生成 SSH 密钥对2. 将公钥复制到远程服务器3. 配置 SSH 客服端4. 连接测试 随着技术的不断迭代更新,在 Linux 系统中使用 Vim、nano 等基于 Shell 终端的编辑器(我曾经也是个 …

VueComponent构造函数

//创建school组件——注册给谁 在谁的结构上写const school Vue.extend({name: school,//开发者工具的显示template: <div><h2>学校名称&#xff1a;{{schoolName}}</h2><h2>学校地址&#xff1a;{{adress}}</h2> </div>,//结构data() {…

好用的win10电脑桌面便利贴,桌面便签小工具

在日常办公中&#xff0c;我们经常需要记录重要事项、提醒任务或者临时想法。这时&#xff0c;一款好用的电脑桌面便签或便利贴小工具就显得尤为重要。它们能够帮助我们高效地管理信息&#xff0c;提升工作效率。 那么好用的win10电脑桌面便利贴是哪个呢&#xff1f;电脑桌面便…

算法学习:二分查找

&#x1f525; 引言 在现代计算机科学与软件工程的实践中&#xff0c;高效数据检索是众多应用程序的核心需求之一。二分查找算法&#xff0c;作为解决有序序列查询问题的高效策略&#xff0c;凭借其对数时间复杂度的优越性能&#xff0c;占据着算法领域里举足轻重的地位。本篇内…

It‘s possible that the file was already in use (by a text editor or antivirus)

方法一 删除用户下的.npmrc文件&#xff0c;即不改变全局安装的路径&#xff08;不够好&#xff0c;本质问题仍没有解决&#xff0c;全局还是会安装在C盘&#xff09; 每次都用管理员身份运行命令行&#xff08;不够方便&#xff0c;vscode 下的命令行默认也不是管理员身份运行…

linux通过使用bash脚本同时运行多个命令

1、使用&&或||或;&#xff08;根据需要选择连接符号&#xff09;等来连接多条命令 && -> "与"&#xff0c;一条命令执行出错&#xff0c;则后面命令不执行 || -> "或"&#xff0c;一条命令执行成功&#x…

python安装问题及解决办法(pip不是内部或外部命令也不是可运行)

pip是python的包管理工具&#xff0c;使python可在cmd&#xff08;命令行窗口&#xff0c;WinR后输入cmd&#xff09;中执行 针对 “pip不是内部或外部命令也不是可运行” 问题&#xff0c;需要在安装的时候将python添加到环境变量中 上图第三个选项必须勾选才能在cmd中使用pi…

BigDecimal:踩坑

问题描述 两个BigDecimal相除, 抛了异常 原因分析&#xff1a; Java 中使用 BigDecimal 做除法运算的时候&#xff0c;值有可能是无限循环的小数&#xff0c;结果是无限循环的小数&#xff0c;就会抛出上面这个异常。 来看看源码&#xff1a; public BigDecimal divide(BigD…

C++11,{}初始化,initializer_list,decltype,右值引用,类和对象的补充

c98是C标准委员会成立第一年的C标准&#xff0c;C的第一次更新是C03&#xff0c;但由于C03基本上是对C98缺陷的修正&#xff0c;所以一般把C98与C03合并起来&#xff0c;叫做C98/03&#xff1b; 后来原本C委员会更新的速度预计是5年更新一次&#xff0c;但由于C标准委员会的进…