关系抽取与属性补全

文章目录

    • 实体关系抽取的任务定义
    • 机器学习框架
    • 属性补全

实体关系抽取的任务定义

    从文本中抽取出两个或者多个实体之间的语义关系;从文本获取知识图谱三元组的主要技术手段,通常被用于知识图谱的补全。美丽的西湖坐落于浙江省的省会城市杭州的西南面。-->(西湖,位于,杭州) , (浙江省,省会,杭州)

图片名称
实体关系抽取方法概览
图片名称
基于模板的方法:基于触发词匹配的关系抽取

    基于模板的方法:基于依存句法匹配的关系抽取。依存句法分析句子的句法结构,以动词为几点,构建规则,对节点上的词性和边上的依存关系进行限定。

图片名称
基于模板的方法:基于触发词匹配的关系抽取

    基于模板的方法:基于依存句法匹配的关系抽取。对句子进行分词、词性标注、命名实体识别、依存分析等处理;根据句子依存语法树结构上匹配规则,每匹配一条规则就生成一个三元组;根据扩展规则对抽取到的三元组进行扩展;对三元组实体和触发词进一步处理抽取出关系。

图片名称

    基于模板的方法:优缺点。优点:在小规模数据集上容易实现;构建简单。缺点:特定领域的模板需要专家构建;难以维护;可移植性差;规则集合小的时候,召回率很低。

图片名称

    基于监督学习的关系抽取:At-least-one Hypothesis。预先定义好关系的类别;人工标注一些数据;设计特征表示;选择一个分类方法 (SVM、NN等);评估结果。

图片名称

    基于监督学习的关系抽取:特征设计。实体特征:实体前后的词;实体的类型、语法、语义信息;实体词的共现特征, e.g., dog and cat;引入外部语义关系:ACE entity types,WordNet features。关系特征:实体之间的词;窗口及Chunk序列;实体间的依存关系路径;实体间树结构的距离;特定的结构信息,如最小子树。

机器学习框架

    机器学习框架——特征函数+最大熵模型,同关系句子具有类似的文本特征。

图片名称

    1. 目标是求在知道X的条件下使熵H最大的条件概率p(y|x);2. 满足一组约束条件,fi即是需要针对句子样本定义的特征函数。

    机器学习框架——核函数。在关系抽取任务中,给定句子空间X,核函数K: X * X -> [0, ∞)表示一个二元函数,它以X中的两个句子x,y为输入,返回二者之间的相似度得分K(x,y)。例如,我们可以为句子定义一个特征向量计算函数Ø(·),那么句子x和y对应特征向量的点 集K(x,y)=Ø(x)T ·Ø(y)可以作为核函数的一种实现形式。具体而言,给定输入文本T中的两个实体e1和e2,核函数方法采用下述方法计算它们之间满足关系r的置信度。首先从标注数据中找到文本T’,且T’中包含满足关系r的e1’和e2’。然后基于核函数计算T和T’之间的相似度,作为e1和e2满足关系r的置信度。该做法背后体现的思想是:如果两个实体对同时满足某个关系r,这两个实体对分别所在的文本上下文也应该相似,该相似通过核函数计算得到。计算相似度的方法有基于字符串核(Sequence kernel)和基于树核函数(Tree kernel)等多种方法

图片名称

    机器学习框架——字符串核举例。给定带有关系标注的训练样本集合,该方法首先基于每个样本中出现的实体e1和e2将该样本切分为左端上下文left、中间上下文middle和右端上下文right三部分。给定测试样本,根据其中出现的实体e1’和e2’对其进行同样的切分,生成left’ 、middle’和right’。基于字符串核函数计算该样本与每个训练样本在上述三个上下文上的相似度,最后对三个相似度得分进行加和,并用于分类模型的训练与预测。

图片名称

     机器学习框架——句法树核函数。句法树核,增加节点特征。

图片名称

    机器学习框架——最短依赖路径树核函数

图片名称
最短依赖路径树(SPT)内核
图片名称
上下文相关最短路径依赖树核函数

    机器学习框架——深度学习方法。基于特征的方法需要人工设计特征,这类方法适用于标注数量较少,精度要求较高,人工能够胜任的情况。基于核函数的方法能够从字符串或句法树中自动抽取大量特征,但这类方法始终是在衡量两段文本在子串或子树上的相似度,并没有从语义的层面对两者做深入比较。此外,上述两类方法通常都需要做词性标注和句法分析,用于特征抽取或核函数计算,这是典型的pipeline做法,会把前序模块产生的错误传导到后续的关系抽取任务,并被不断放大。深度学习技术不断发展,端到端的抽取方法能大幅减少特征工程,并减少对词性标注等预处理模块的依赖,成为当前关系抽取技术的主流技术路线。

    机器学习框架——基于递归神经网络的关系抽取。1. 对于输入句子中待分类的实体e1和e2,在句法树中找到能覆盖着两个实体的最小子树;2. 然后从该子树对应的叶节点开始,通过自底向上的方式两两合并相邻的两个单词或短语对应的向量和矩阵,直到遍历至该子树的根节点结束。3. 最后基于根节点对应的向量p,使用softmax对关系集合中的关系候选进行打分和排序。4. 该方法基于词向量和句法树本身的结构,有效的考虑了句法和语义信息,但并未考虑实体本身在句子中的位置和语义信息。

图片名称

    机器学习框架——基于CNN的关系抽取

图片名称

    机器学习框架——基于CNN的关系抽取。仅用词级别的特征提取,是会丢失语序、上下文、句子整体的信息,使用seq_length方向的词卷积,以尽量提取些句子级别的信息。

图片名称

    机器学习框架——基于BiLSTM的关系抽取

图片名称

    机器学习框架——基于图神经网络的关系抽取,图神经网络在图像领域的成功应用证明了以节点为中心的局部信息聚合同样可以有效的提取图像信息。利用句子的依赖解析树构成图卷积中的邻接矩阵,以句子中的每个单词为节点做图卷积操作。如此就可以抽取句子信息,再经过池化层和全连接层即可做关系抽取的任务。

    拓展问题——实体关系联合抽取

图片名称
误差传播问题
图片名称
实体识别和关系抽取任务之间的关联

    拓展问题——实体关系联合抽取,定义一种新颖的实体关系联合抽取的序列标注规范。

图片名称

    拓展问题——基于胶囊神经网络多标签关系抽取。传统模型主要关注单标签关系抽取,但同一个句子可能包含多个关系。采用胶囊神经网络可以帮助实现多标签的关系抽取。如图所示,模型首先通过预训练的 embedding 将句子中的词转化为词向量;随后使用BiLSTM 网络得到粗粒度的句子特征表示,再将所得结果输入到胶囊网络,首先构建出primary capsule,经由动态路由的方法得到与分类结果相匹配的输出胶囊。胶囊的模长代表分类结果的概率大小。

图片名称

    拓展问题——多元关系抽取

图片名称

    拓展问题——跨句推理,提取不同句子中单实体间的关系

图片名称

    半监督学习——基于远程监督的关系抽取,远程监督的基本假设:两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均可能表示出这种关系。

图片名称

    远程监督-基于多实例学习(降噪学习),包含相同实体对的句子组成一个Bag,基于注意力机制选择样本。

图片名称

    远程监督-强化学习(降噪学习),采取强化学习方式在考虑当前 句子的选择状态下选择样例,关系分类器向样例选择器反馈,改进选择策略。

图片名称

    半监督学习—基于Bootstrapping的关系抽取

图片名称

    语义漂移问题的一些解决方法:限制迭代次数,采用语义类型Semantic Type对样本进行过滤和约束,⟨ Organization⟩ ’s headquarters in ⟨ Location⟩ ⟨ Location⟩ -based ⟨ Organization⟩⟨ Organization⟩ , ⟨ Location⟩,对抽取结果进行类型检查,耦合训练。

属性补全

    属性知识:一个事物若干属性的取值来对这个事物进行多维度的描述,属性补全:对实体拥有的属性及属性值进行补全,方法:抽取式,基于模板,基于机器学习模型;生成式:基于机器学习模型。

图片名称

    抽取式属性补全:抽取输入文本中的字词,组成预测的属性值。预测出的属性值一定要在输入侧出现过。

图片名称

    生成式属性补全:直接生成属性值,而这个属性值不一定在输入文本中出现,只要模型在训练数据中见过即可。

图片名称

    属性补全方法比较:抽取式,只能抽取在输入文本中出现过的属性值,预测属性值一定在输入中出现过,具有一定可解释性,准确性也更高;生成式:可以预测不在文本中出现的属性值,只能预测可枚举的高频属性,导致很多属性值不可获取,预测出来的属性值没有可解释性。

图片名称

    属性补全应用-商品属性补全:商品关键属性补全,利于买家选择,利于提升导购,利于优质选品。方法:借助算法的图文识别能力,通过商品图片预测商品的类目、同款、品牌。

图片名称

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/564426.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于SSM+Jsp+Mysql的文物管理系统

开发语言:Java框架:ssm技术:JSPJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包…

可视化大屏可不是花架子,绝对有实用价值。

Hello,我是大千UI工场,不少老铁觉得可视化大屏就是花架子,是取悦领导的,那真是不懂可视化大屏的价值。欢迎友友们关注、评论,如果有订单可私信。 可视化大屏并不是花架子,而是一种实际有效的工具&#xff0…

实战|哈尔滨等保2.0 Linux主机测评过程之身份鉴别

一、身份鉴别 a)应对登录的用户进行身份标识和鉴别,身份标识具有唯一性,身份鉴别信息具有复杂度要求并定期更换。 输入 more /etc/shadow,得知系统所有用户,此语句字段格式有九段。 第一字段:用户名(也被称为登录名…

Webpack-

定义 静态模块:指的是编写代码过程中的html,css,js,图片等固定内容的文件 打包:把静态模块内容压缩、整合、翻译等(前端工程化) 1)把less/sass转成css代码 2)把ES6降级…

C语言本身不难,难得是应用场景很多

你学了C语言多半是要做项目的,这个过程中C语言是远远不够的,你把这部分难度加到C语言上,自然就难了在开始前我有一些资料,是我根据网友给的问题精心整理了一份「C语言的资料从专业入门到高级教程」, 点个关注在评论区…

基于51单片机智能窗帘仿真设计( proteus仿真+程序+设计报告+讲解视频)

基于51单片机智能窗帘仿真设计( proteus仿真程序设计报告讲解视频) 基于51单片机智能窗帘仿真设计 1. 主要功能:2. 讲解视频:3. 仿真设计4. 程序代码5. 设计报告6. 原理图7. 设计资料内容清单资料下载链接: 仿真图proteus8.9及以上…

一线实战,一次底层超融合故障导致的Oracle异常恢复

背景概述 某客户数据由于底层超融合故障导致数据库产生有大量的坏块,最终导致数据库宕机,通过数据抢救,恢复了全部的数据。下面是详细的故障分析诊断过程,以及详细的解决方案描述: 故障现象 数据库宕机之后&#xff0c…

Shell和Linux权限

目录 shell Liunx权限 用户 sudo Linux的权限管理 文件访问者的分类 文件的属性 文件的权限 文件全权限值的表示方法 1.字符表示 2.八进制数值表示 用户符号 修改文件访问权限 修改文件拥有者 修改拥有者和所属组 修改所属组 文件目录的权限的含义 问题 粘滞…

【C++航海王:追寻罗杰的编程之路】C++11(中)

目录 C11(上) 1 -> STL中的一些变化 2 -> 右值引用和移动语义 2.1 -> 左值引用和右值引用 2.2 -> 左值引用与右值引用比较 2.3 -> 右值引用使用场景与意义 2.4 -> 右值引用引用左值及其更深入的使用场景分析 2.5 -> 完美转发 C11(上) 1 -> STL…

边缘计算智能分析网关V4地面垃圾AI检测算法介绍及场景应用

在传统的卫生监管场景中,无法及时发现地面遗留的垃圾,通过人工巡逻的方式需要大量的人力、物力和时间,而且效率不高,并存在一定的滞后性,而采用地面垃圾AI检测算法则可以大大提高监管效率。 TSINGSEE青犀AI智能分析网…

“磁性蝴蝶”:创新结构纳米石墨烯能更精确控制自旋磁行为

内容来源:量子前哨(ID:Qforepost) 文丨浪味仙 深度好文:1300字丨7分钟阅读 摘要:新加坡国立大学的研究团队,开发出一种蝴蝶形磁性纳米石墨烯,包含四个具有铁磁和反铁磁相互作用的不…

视频号怎么开小店?这些必备材料,准备齐全再开店才不踩坑

大家好,我是电商笨笨熊 视频号小店作为今年的电商黑马,自是吸引着不少玩家; 但是开通视频号小店是需要一定门槛的,且与其他电商平台不同,因此拿着其他平台的玩法来做视频号,多半从开店起就会“翻车”。 …

【C++】priority_queue(优先级队列介绍、仿函数控制大堆小堆、模拟实现)

一、优先级队列 1.1介绍 优先级队列(Priority Queue)是一种特殊的数据结构,其并不满足队列先进先出的原则,它结合了队列和堆的特点,允许我们在其中插入元素,并且能够保证任何时候提取出的元素都是当前队列…

有公网IP,如何设置端口映射实现访问?

很多中小型公司或个人会根据自身需求自建服务器,或者将自己内网的服务、应用发布到外网,实现异地访问,如远程桌面、网站、数据库、公司的管理系统、FTP、管家婆、监控系统等等。 没接触过的人可能会觉得这个很难,实际上使用快解析…

【 书生·浦语大模型实战营】学习笔记(五):LMDeploy 量化部署

🎉AI学习星球推荐: GoAI的学习社区 知识星球是一个致力于提供《机器学习 | 深度学习 | CV | NLP | 大模型 | 多模态 | AIGC 》各个最新AI方向综述、论文等成体系的学习资料,配有全面而有深度的专栏内容,包括不限于 前沿论文解读、…

【机器学习】特征筛选:提升模型性能的关键步骤

一、引言 在机器学习领域,特征筛选是一个至关重要的预处理步骤。随着数据集的日益庞大和复杂,特征的数量往往也随之激增。然而,并非所有的特征都对模型的性能提升有所贡献,有些特征甚至可能是冗余的、噪声较大的或者与目标变量无关…

2024/4/22(分布式服务事务,CAP,BASE理论,Seata,微服务集成Seata,XA,AT,TCC.Saga,TC高可用,异地容灾)

配置内容如下:properties # 数据存储方式,db代表数据库 store.modedb store.db.datasourcedruid store.db.dbTypemysql store.db.driverClassNamecom.mysql.jdbc.Driver store.db.urljdbc:mysql://127.0.0.1:3306/seata?useUnicodetrue&rewriteBatc…

鸿蒙TypeScript学习21天:【声明文件】

TypeScript 作为 JavaScript 的超集,在开发过程中不可避免要引用其他第三方的 JavaScript 的库。虽然通过直接引用可以调用库的类和方法,但是却无法使用TypeScript 诸如类型检查等特性功能。为了解决这个问题,需要将这些库里的函数和方法体去…

Python多线程与多进程编程

一、引言 随着计算机技术的飞速发展,程序运行的速度和效率成为了人们关注的焦点。为了提高程序的执行效率,多线程与多进程编程技术应运而生。Python作为一种通用编程语言,在支持多线程与多进程编程方面有着独特的优势。本文将详细探讨Python…

截断堆积柱状图

本教程原文链接:截断堆积柱状图绘制教程 欢迎大家转载!!!! 本期教程 写在前面 堆积柱状图是柱状图的常见类型之一,也是平时使用概率较高的图形之一。我们前期发布了很多个柱状图的绘制教程,若你…