第2章 知识抽取:概述、方法

💗💗💗欢迎来到我的博客,你将找到有关如何使用技术解决问题的文章,也会找到某个技术的学习路线。无论你是何种职业,我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章,也欢迎在文章下方留下你的评论和反馈。我期待着与你分享知识、互相学习和建立一个积极的社区。谢谢你的光临,让我们一起踏上这个知识之旅!
请添加图片描述

文章目录

  • 🍋知识抽取的概述
    • 🍋知识抽取的任务
  • 🍋知识抽取的方法
    • 🍋面向结构化数据
      • 🍋直接映射
      • 🍋R2RML映射
    • 🍋面向半结构化数据
    • 🍋面向非结构化数据

博学之,审问之,慎思之,明辨之,笃行之。 ——《礼记 中庸》

🍋知识抽取的概述

在这里插入图片描述
上图清晰的展示了知识图谱技术架构中的知识抽取

如果从专业的角度去定义知识抽取的定义:从不同来源、不同结构的信息资源中进行知识提取,形成结构的知识并存储到知识图谱中。

一般来说,知识抽取主要是面向链接开发数据,大家获取不知道何为链接开放数据,下面我为大家整理了一下

链接开放数据(Linked Open Data,LOD)是一种数据发布和共享的方法,通过使用统一的标准化格式和互联网链接,将不同来源的数据链接在一起,形成一个全球性的、互联的知识网络。这种方法的目标是使得数据更容易被发现、访问、集成和利用。

LOD 遵循一些核心原则,其中包括:

  • 使用统一的标准: LOD 使用通用的、开放的标准来描述和表示数据,其中最常用的是RDF(资源描述框架)。

  • 唯一标识符: 每个数据实体都有一个唯一的标识符(通常是统一资源标识符,URI),这样可以确保全球范围内的唯一性。

  • 链接性: 数据之间通过超链接建立关系。这使得在一个数据集中找到的信息可以链接到其他数据集,形成一个关联性强、可导航的知识网络。

  • 开放访问: LOD 数据是开放的,任何人都可以自由地访问和使用,符合开放数据的原则。

  • 可互操作性: 数据之间的链接和标准化格式的使用增加了数据的互操作性,使得不同数据集可以相互配合使用。

  • 可扩展性: LOD 是一个逐步构建的过程,可以随着时间不断添加新的数据集,从而不断扩展知识图谱。


当然知识抽取也就是通过一系列自动化或半自动化的技术手段,从半结构化、非结构化的数据中提取出实体、关系及属性等知识要素。但是如果仅仅是抽取这些其实还是不够的,还有基于语句和语境抽取出实体间的关系以及实体所描述的事件。

🍋知识抽取的任务

下面我来介绍一下抽取中最受关注的子任务

  1. 实体抽取(Entity Extraction):

    定义: 实体抽取是从文本中识别和提取具有特定意义的命名实体的任务。这些实体可以是人物、地点、组织、日期、货币等。
    方法: 使用自然语言处理(NLP)技术,如命名实体识别(NER),采用规则、统计模型或深度学习模型,以识别并标注文本中的实体。
    注意:实体抽取是知识图谱构建和知识抽取的基础和关键

  2. 实体链接(Entity Linking):

    定义: 实体链接是将文本中的命名实体与知识库中的实体进行关联的任务。这有助于消除歧义,确保同一实体在不同文本中有一致的标识。
    方法: 结合上下文信息,使用相似性匹配、向量化表示、字符串匹配等方法,将文本中的实体链接到预定义的知识库中的实体。

这里举个例子:中国古典《西游记》大家都看过,唐僧这个角色有好几个叫法大家估计也知道一两个,那么这个例子放在实体链接中该如何理解呢,请看下图
在这里插入图片描述

当然这里仅仅简单介绍一下,想了解详细流程的可以翻阅相关书籍或资料等

  1. 关系抽取(Relation Extraction):

    定义: 关系抽取是从文本中识别和提取不同实体之间的关系的任务。这些关系可以是作者关系、工作关系、亲属关系等。
    方法: 利用监督学习,使用有标签的数据进行训练,采用统计方法或深度学习模型,以识别文本中的关系。

注意:关系抽取的难点在于大多数关系都含有一定的隐含性,还记得本科话ER图什么一对多多对多都搞的迷迷糊糊了

  1. 属性抽取(Attribute Extraction):

    定义: 属性抽取是从文本中识别和提取与实体相关的特定属性或特征的任务。这些属性可以是实体的属性,如人物的职业、地点的经纬度等。
    方法: 采用规则匹配、基于统计的方法,或者深度学习模型,以从文本中提取出与实体相关的属性信息。

注意:属性主要是针对实体而言的,对当前实体的完整描述。由于可以把实体的属性看作实体与属性值之间的一种名词性关系,因此属性抽取任务就可以转化为关系抽取任务。

  1. 事件抽取(Event Extraction):

    定义: 事件抽取是从文本中识别和提取描述事件的信息,包括事件的参与者、时间、地点以及事件的类型等。
    方法: 结合实体抽取和关系抽取的方法,使用监督学习或者远程监督,以从文本中提取出事件的结构化信息。

🍋知识抽取的方法

在这里插入图片描述

🍋面向结构化数据

结构化的数据通常来讲类似于关系型数据库中表格形式的数据,对于一般的表格,我们可以使用工具进行编写,但是面对复杂的表格,我们需要使用转换工具将关系型数据库映射到RDF。

这里的RDF本质是一个数据模型,提供了描述实体或资源的统一的标准,简单来说,它就是表示事物的一种方法和手段。从形式上表示为SPO三元组,有时候也可称为一条语句,在知识图谱中代称为一条知识。

下面我们以关系型数据库为例子
在这里插入图片描述
接下来我们来看看针对上图的抽取方法中的直接映射R2RML映射

🍋直接映射

直接映射通过明确在关系模式中编码的语义,将关系数据转换为RDF,如下按照一些简单的规则创建URI进行映射。

  • 数据库的表作为本体中的RDF类
  • 表的列作为RDF属性
  • 表的行为作为实例、资源
  • 表的单元格作为字面量
  • 如果单元格所在的列是外键,那么其值为IRI,或者说实体、资源

由于URI规定只能使用英文字符,而Unicode字符集包括了当今世界上所有书写文字的字符,所以资源标识符可以使用Unicode字符

🍋R2RML映射

R2RML映射是将逻辑表作为输入,然后依据三元组映射规则将其转换成三元组的集合。

  • 逻辑表:一个数据库表、一个数据库视图或SQL查询语句
  • 三元组映射:通过主语、谓语、宾语映射产生三元组

注意:直接映射方法不能改变RDF的结构或词语,但是如果是R2RML的话,作者可以自定义关系型数据库的视图,然后由视图来映射RDF,所以说每一个R2RML映射都是基于实际项目需要而描述的,它连接了作为输入端的关系型数据库架构域以及作为输出端的RDF词语。

🍋面向半结构化数据

半结构化数据一般指的是那种网页本身存在一定的结构,但是需要进行整理。半结构化数据的知识抽取主要通过包装器进行,包装器学习半结构话数据的抽取规则将数据从HTML网页中抽取出来,进而将它们转化为结构化的数据。

我们使用包装器进行知识抽取的步骤主要包括网页清洗,网页标注,包装器空间生成,包装器评估。

网页清洗:主要解决网页代码不规范的问题。

网页标注:将需要抽取的数据进行标注

包装器生成:Xpath集合空间,应具有一定的泛化能力。

注意:xpath在爬虫里也有使用插件获取可以参考下面两篇博客
探索Xpath:解析Web页面的利器
XPath实战:快速定位网页元素

包装器评估:对包装器进行评估需要采用一定的标准,主要有准确率和召回率。通常情况下准确率越高、召回率越高,进而评分越高。

完成包装器空间生成之后我们按照准确率和召回率进行包装器的评估。
例如:包装器A的准确率大于包装器B的准确率,但是两者的召回率相等,这样综上所述来看就是包装器A要更加的优于包装器B

值得一提的是,有监督的包装器维护开销会很大,当网站改变了模版,Xpath那里可能就会发生变动,标签嵌套啥的,这样我们可以对数据进行少量的标注,让机器学习出一定的规则,进而在整个站点下使用这些规则对同类型或者符合某种关系的数据进行抽取,从而节省资源。

🍋面向非结构化数据

非结构化数据是指社交网络、网页、新闻、论文,甚至一些多模态数据。本节以文本数据抽取为例,从实体抽取、实体链接、关系抽取以及事件抽取几个方面来讲解面向非结构化数据的知识抽取。其中,知识抽取的任务中提到的属性抽取与关系抽取概念相近,使用的方法也十分类似。

  • 实体抽取:单纯的实体抽取可以看成是一个序列标注问题,可以采用HMM、CRF、LSTM等算法解决
    利用机器学习方法进行实体抽取的基本流程如下:
  1. 输入可供训练、具有代表性的文本数据
  2. 找出文本中的指称词语(Token),标记命名实体标签
  3. 分析文本和类别,并设计合适的特征提取方法
  4. 训练一个句子分类器来预测数据的标签
  5. 对测试集文本使用分类器,自动为指称词语做标记
  6. 输出标记结果,即测试集文本的命名实体
  • == 实体链接==:具体流程可以参考下图

在这里插入图片描述

  • 关系抽取:指的是从非结构化文本中抽取出两个或多个实体之间的语义关系。目前根据不同的抽取方法,可以将其分为基于模版的方法,基于监督学习的方法,基于弱监督学习的方法。

  • 事件抽取
    事件信息包事件抽取就是把含有事件信息的非结构化文本以结构化的形式呈现出来。一个比较综合的任务,一个标准的括事件发生的时间、地点、原因、参与者等。事件抽取是事件抽取任务可以进一步分解为触发词识别、事件类型分类、论元识别和角色分类等子任务。每个事件都会有一个事件类型及相应的触发词,并且配有不同角色的论元。事件类型和论元角色是在约定的有限集合中选择,而触发词和论元一般情况下都是输入句子的片段。

请添加图片描述

挑战与创造都是很痛苦的,但是很充实。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/220461.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

信号可靠性剖析

问题 基于信号发送的进程间通信方式可靠吗??? 信号查看(kill -l) 信号的分类 不可靠信号 (传统信号) 信号值在 [1, 31] 之间的所有信号 可靠信号 (实时信号) 信号值在 [SIGRTMIN,SIGRTMAX],即:[34&…

odoo自定义提示性校验

背景: 在odoo16的原生的代码里,可以给按钮添加一个 confirm属性,从而达到 提示性校验的效果。 问题: 这个属性加了之后一定会弹出提示性校验的对话框,于是如何根据我们的实际业务,从后端返回提示性信息,…

2023-12-05 Qt学习总结 (AI辅助) 未完待续

点击 <C 语言编程核心突破> 快速C语言入门 Qt学习总结 前言一 Qt是什么二 Qt开发工具链三 Qt编程涉及的术语和名词四 Qt Creator使用五 hello Qt!六 Qt控件和事件七 Qt信号和槽八 Qt自定义信号和槽九 Qt QObject基类十 QWidget基类十一 QMainWindow基类十二 QLabel文本框…

SL6015B降压恒流60V耐压1.5A高辉调光LED芯片 电路简单 元器件少

SL6015B是一款专为LED照明应用设计的降压恒流芯片&#xff0c;具有60V的耐压能力&#xff0c;最大输出电流可达1.5A。它采用高辉调光方式&#xff0c;通过改变输入电压或电流来调节LED的亮度。此外&#xff0c;SL6015B还具有电路简单和元器件数量少的特点&#xff0c;使其成为一…

Dinky之安装部署与基本使用

Dinky之安装部署与基本使用 Dinky概览Linux安装部署解压到指定目录初始化MySQL数据库修改配置文件加载依赖启动Dinky Docker部署启动dinky-mysql-server镜像启动dinky-standalone-server镜像 Dinky的基本使用上传jar包Flink配置集群管理集群实例管理集群配置管理 创建作业语句编…

clickhouse的向量化执行

背景 clickhouse快的很大一部分原因来源于数据的向量化执行&#xff0c;本文就来看一下向量化执行和正常标量执行的区别 SIMD的向量化执行 从上图可知&#xff0c;clickhouse通过SIMD指令可以做到一个cpu周期操作两个向量的运算操作&#xff0c;比起普通的cpu指令效率提高了N…

第17章 匿名函数

第17.1节 匿名函数的基本语法 [捕获列表](参数列表) mutable(可选) 异常属性 -> 返回类型 { // 函数体 }语法规则&#xff1a;lambda表达式可以看成是一般函数的函数名被略去&#xff0c;返回值使用了一个 -> 的形式表示。唯一与普通函数不同的是增加了“捕获列表”。 …

读书笔记-《数据结构与算法》-摘要3[选择排序]

选择排序 核心&#xff1a;不断地选择剩余元素中的最小者。 找到数组中最小元素并将其和数组第一个元素交换位置。在剩下的元素中找到最小元素并将其与数组第二个元素交换&#xff0c;直至整个数组排序。 性质&#xff1a; 比较次数(N-1)(N-2)(N-3)…21~N^2/2交换次数N运行…

【Redis】Redis 的学习教程(十三)Redis 各场景

由于Redis 支持比较丰富的数据结构&#xff0c;因此他能实现的功能并不仅限于缓存&#xff0c;而是可以运用到各种业务场景中&#xff0c;开发出既简洁、又高效的系统 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-bo…

P=NP?

背景&#xff1a;   2000年5月24日&#xff0c;新罕布什尔州的克莱数学研究所列出了数学和计算机科学中七个未解决的问题。然而&#xff0c;直到今天&#xff0c;这些问题中只有一个被解决了&#xff0c;那就是庞加莱猜想&#xff08;Poincar Conjecture&#xff09;——被俄…

上下拉电阻会增强驱动能力吗?

最近看到一个关于上下拉电阻的问题&#xff0c;发现不少人认为上下拉电阻能够增强驱动能力。随后跟几个朋友讨论了一下&#xff0c;大家一致认为不存在上下拉电阻增强驱动能力这回事&#xff0c;因为除了OC输出这类特殊结构外&#xff0c;上下拉电阻就是负载&#xff0c;只会减…

7.Vue UI库

7.Vue UI库 7.1移动端常用的UI库 &#xff08;1&#xff09; Vant&#xff1a;Vant 4 - A lightweight, customizable Vue UI library for mobile web apps.A lightweight, customizable Vue UI library for mobile web apps.https://vant-ui.github.io/vant/#/zh-CN &#xf…

ssm的网上奶茶店系统(有报告)。Javaee项目。

演示视频&#xff1a; ssm的网上奶茶店系统&#xff08;有报告&#xff09;。Javaee项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系结构&#xff0c;通过Spring SpringMvc Mybat…

【Linux】ubuntu配置SSH服务

要在Ubuntu上配置SSH服务&#xff0c;首先安装ssh-server sudo apt install openssh-server 安装完成后&#xff0c;可以检查一下是否安装成功 systemctl status ssh vim /etc/ssh/sshd_config 此时ubuntu就可以被远程连接工具连接了&#xff0c;如果我们想配置关于SCP服务允…

elementUI table树默认箭头修改

table默认的箭头 需要的效果实心的 ::v-deep .el-icon-arrow-right {color: #49c0ff; }::v-deep.el-table .el-table__expand-icon {.el-icon-arrow-right:before {content: "\e791";} } content: "\e791"; 代表图标,可以在elementUI F12检查中得到

【c】16进制数转化为10进制数(计算方法在最后,大家也可以上网搜索视频,视频更详细,谢谢)

#include<stdio.h> #include<math.h> void trans(char arr1[],int arr[],int n) {puts("请输入16进制的数");for(int i0;i<n;i){scanf("%c",&arr1[i]);arr[i](int)arr1[i];}for(int k0;k<n;k){if(arr[k]>65&&arr[k]<7…

【C++】const关键字的详解!!

&#x1f490; &#x1f338; &#x1f337; &#x1f340; &#x1f339; &#x1f33b; &#x1f33a; &#x1f341; &#x1f343; &#x1f342; &#x1f33f; &#x1f344;&#x1f35d; &#x1f35b; &#x1f364; &#x1f4c3;个人主页 &#xff1a;阿然成长日记 …

HPV专家谭巍主任谈:我国HPV感染率问题,以及该如何预防?

我国HPV感染问题比较严重&#xff0c;很多人在不知不觉中被感染。据统计&#xff0c;我国每年新增的HPV感染病例数量庞大&#xff0c;而感染人群的年龄也越来越年轻化。那么&#xff0c;我国的HPV感染率是多少?又该如何预防呢?对此北京劲松HPV诊疗中心主任谭巍曾做过临床调研…

java基础之HashSet详解

HashSet详解 HashSet是基于HashMap实现的一个单列存储的集合类&#xff0c;将所有的数据存在HashMap的key值中&#xff0c;而value全部使用一个Object对象存储 继承关系 public class HashSet<E> extends AbstractSet<E> implements Set<E>, Cloneable…

Android Termux 安装Kali Linux 或 kali Nethunter史诗级详细教程

Android Termux 安装Kali Linux 或 kali Nethunter史诗级详细教程 一、Termux配置1、下载安装2、配置存储和换源3、基本工具安装 二、Kali Linux安装1、下载安装脚本2、更换apt源3、图形化安装 三、Kali Nethunter安装1、下载安装脚本2、更换apt源3、图形化连接 四、报错汇总1、…