知识获取概述

文章目录

    • 知识获取
    • 研究现状
    • 技术发展趋势

    知识图谱主要技术包括知识获取、知识表示、知识存储、知识建模、 知识融合、知识理解、知识运维等七个方面,通过面向结构化、半结构化和非结构化数据构建知识图谱为不同领域的应用提供支持,具体的技术架构图如下图所示。

图片名称
知识图谱技术架构图

知识获取

    知识图谱中的知识来源于结构化、半结构化和非结构化的信息资源,如下图所示。通过知识抽取技术从这些不同结构和类型的数据中提取出计算机可理解和计算的结构化数据,以供进一步的分析和利用。知识获取即是从不同来源、不同结构的数据中进行知识提取,形成结构化的知识并存入到知识图谱中。当前,知识获取主要针对文本数据进行,需要解决的抽取问题包括:实体抽取、关系抽取、属性抽取和事件抽取。

图片名称
知识获取示意图

    知识获取作为构建知识图谱的第一步,通常有以下四种方式:众包法、爬虫、机器学习、专家法。

    众包法:允许任何人创建、修改、查询的知识库,就是常说的众包模式,百度百科,维基百科就是典型的例子。此类场景下知识库存储的不是大量的杂乱的文本,而是机器可读,具有一定结构的数据格式(以百度某词条为例)。现代通过众包法建立的知识图谱如谷歌和百度的知识图谱都已经包含超过千亿级别的三元组,阿里巴巴于2017年8月份发布的仅包含核心商品数据的知识图谱也已经达到百亿级别。

    爬虫:网页开发者将网页中出现的实体、实体属性、关系按照某种规则做上标记,Google、百度等搜索引擎通过爬虫就能获取到这些数据,从而达到知识图谱数据积累。当前不同语言的爬虫框架有不少,例如python的Scrapy,java的WebMagic等,通过简单的配置即可完成爬虫的规则定义、爬取、清洗、去重、入库等操作,从而获取知识。

    机器学习:通过机器学习将数据变成了可理解的知识,例如通过文本分类、主题模型等机器学习模型,可以获取文本的特征,而这些特征就可以理解为知识。

    专家法:专家法通常用于垂直领域的工程实践,通过专家的经验,归纳总结后形成知识,例如在知识图谱中的事件图谱通常是由专家的经验形成的。

研究现状

    目前,面向互联网海量文本数据的知识抽取是研究的主流。已有很多信息抽取的方法被提出用来解决该问题,按照抽取对象的不同,可分为实体抽取、关系抽取、属性抽取和事件抽取。

    实体抽取也称为命名实体识别(named entity recognition, NER),是指 从文本语料库中自动识别出专有名词(如机构名、地名、人名、时间等)或有意义的名词性短语,实体抽取的准确性直接影响知识获取的质量和效率。因此,实体抽取是知识图谱构建和知识获取的基础和关键。为了解决早期的实体抽取方法存在的问题,规则和监督学习相结合的方法、半监督方法、远程监督方法以及海量数据的自学习方法等被相继提出。

    属性主要是针对实体而言的,以实现对实体的完整描述,由于可以把实体的属性看作实体与属性值之间的一种名词性关系,所以属性抽取任务就可以转化为关系抽取任务,例如,采用SVM方法将人物属性抽取问题转化为人物的关系抽取,提出的基于规则与启发式的抽取方法能够从Wikipedia和WordNet半结构化网页中自动抽取出属性和属性值,其抽取的准确率可达95%,并因此得到了著名的本体知识库YOGO,还有直接从非结构化文本中挖掘出实体属性名称和属性值之间的位置关系模式的属性抽取的方法。

    事件是发生在某个特定时间点或时间段、某个特定地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。目前已存在的知识资源(如维基百科等)所描述实体及实体间的关联关系大多是静态的,事件能描述粒度更大的、动态的、结构化的知识,是现有知识资源的重要补充。

技术发展趋势

    现有对知识抽取的研究虽在特定领域数据集上取得了较好的效果,但远远满足不了实际任务的要求。因此,资源缺乏、面向开放域、跨语言及跨媒体等方向的知识抽取成为未来的研究方向。

    目前,大多数知识抽取的研究主要采用的是有监督的方法,需要大量的标注训练集去训练模型参数,然而构建标注数据集的成本比较大,且在更换语料类型后,算法的性能往往不尽如人意,即算法的性能严重依赖大规模的训练数据。因此,如何构建资源缺乏下的知识抽取系统成为研究的热点。

    知识抽取是知识图谱构建的基础,虽然当前技术对于知识单元(实体、关系、属性)的抽取在特定领域取得了较好的效果,但是由于数据主题或规模等条件的制约,方法的可移植性与可扩展性不强,不能很好的满足大规模开放领域环境下的知识抽取要求。因此,知识抽取发展方向之一是研究大规模面向开放领域的知识抽取技术。具体包括:(1)数据规模上的可扩展性,能够高效完成海量数据的抽取任务;(2)数据主题上的鲁棒性,能够在面对不同主题的数据时具有鲁棒性。

    随着英文知识图谱技术的发展,多语种知识库的构建任务也在快速开展,因此,跨语言的知识抽取任务也成为当下研究的热点。跨语言的知识抽取为研究语言间的互补性和冗余性提供了机会,具体的研究包括:(1)自然语言表达的多样性,不同的语种在表示方式上均具有多样性,需要将实体关系知识映射到三元组上;(2)不同语种在知识表达方式上的差异性,通过比较不同语种对同一知识的表述,可以达到删除或更新错误知识的目的。目前针对跨语言的知识抽取,已有学者进行了研究并取得了一些成果,例如,清华大学李涓子教授团队融合中英文维基百科、法语 维基以及百度百科构建成了的跨语言知识库XLORE,并在此基础上实现了实体链接系统XLink。

    随着深度学习创新理论的出现及大数据和算力的强力支撑,文本已经可以和图像/视频、音频等跨媒体数据采用相同的深度学习框架进行分析和建模,使得不同模态数据在人类语义层面耦合。因此,跨媒体的知识抽取任务逐渐成为研究热点之一。跨媒体的知识抽取可以利用视觉、听觉等多模态已标注信息来辅助文本标注缺乏下的知识抽取,又可以作为类似跨语言知识抽取的另一维度为实体间未知关系的挖掘及已标注关系的消歧提供互补信息。此外,跨媒体知识抽取在上述开放应用域的基础上,从多模态数据域维度进一步扩展,对模型鲁棒性等方面提出更大挑战。具体研究内容包括:

    (1)视觉实体和关系的抽取:相对于文本中的实体和关系相对确定性,视觉实体和关系呈现出尺度、表型、空间关系等多样性,需要通过鲁棒语义模型的构建实现视觉实体和关系的抽取,从而将视觉局部区域映射到三元组上;(2)视觉事件的自然语言描述:针对图像/视频,基于人工智能理论自动生成一段语法和逻辑合理的视觉内容自然语言描述,从而实现语义丰富的视觉信息到抽象的语义事件描述的映射;(3)跨媒体信息融合:跨媒体信息在知识载体上存在差异,通过多模态信息在相同粒度和语义上的对齐,进一步实现特征和语义层面的融合,可以综合利用多模态信息,来辅助后续知识表示、建模、计算等关键技术,并形成面向跨媒体知识图谱构建的创新理论体系和关键技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/638348.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

全栈安全 为云而生 | 亚信安全信舱ForCloud全新品牌重磅发布

5月18日,亚信安全云安全全新品牌ForCloud正式发布。基于“全栈安全 为云而生”的创新理念,亚信安全云安全完成全新、全面、全栈升级。ForCloud的发布仪式在C3安全大会“云领未来:全栈一体化”云安全论坛上隆重举办,同时亚信安全还…

许冉直播不治本,京东需要刘强东

图片|影视剧《纸牌屋》剧照 ©自象限原创 作者丨艾AA 编辑丨薛黎 这届618,消费者的热情还未显现,商家的怒火先爆发了。 5月21日京东618开幕次日,多家图书社抵制618图书大促登上了热搜。此次争议与去年双十一京东采销与电…

执行sql脚本——kettle开发03

一、转换对象的优先级 kettle中转换和作业的执行顺序: 1、一个作业内的转换,是顺序执行的。 2、一个转换内的步骤是并行执行的。 3、作业内不支持事务,转换内支持事务。 根据业务需要,通常需要在转换内顺序执行,小技巧…

Java进阶-SpringCloud使用BeanUtil工具类简化对象之间的属性复制和操作

在Java编程中,BeanUtil工具类是一种强大且便捷的工具,用于简化对象之间的属性复制和操作。本文将介绍BeanUtil的基本功能,通过详细的代码示例展示其应用,并与其他类似工具进行对比。本文还将探讨BeanUtil在实际开发中的优势和使用…

Go微服务开发框架DMicro的设计思路

DMicro是一个基于Go语言开发的微服务开发框架,旨在简化微服务架构的开发、部署和运维过程。DMicro的设计思路主要围绕以下几个方面展开: 简化微服务开发流程 DMicro通过提供一套简洁的API和工具,使得开发者可以快速搭建微服务应用。它支持服…

景源畅信电商:抖店需要的成本高吗?

在数字化时代的浪潮中,短视频平台迅速崛起,成为连接用户与商家的新桥梁。抖音作为其中的佼佼者,不仅改变了人们的娱乐方式,也催生了新型的电商模式——抖店。许多人好奇,入驻这样一个充满活力的平台,需要承…

jwtcracker下载安装出现错误

1.jwtcracker 用于爆破jwt秘钥 2.下载 ubuntu/kali安装c-jwt-cracker及使用方法-CSDN博客 参考这个大佬写的 但是我在这里出现了这个问题 显示Cannot initialize the default message digest sha256, aborting 我实在找不出来哪里有问题,所以直接换成docker …

C++进阶:C++11(列表初始化、右值引用与移动构造移动赋值、可变参数模版...Args、lambda表达式、function包装器)

C进阶:C11(列表初始化、右值引用与移动构造移动赋值、可变参数模版…Args、lambda表达式、function包装器) 今天接着进行语法方面知识点的讲解 文章目录 1.统一的列表初始化1.1{}初始化1.2 initializer_listpair的补充 2.声明相关关键字2.1a…

springboot+vue2+elementui实现时间段查询

1.前端代码 使用elementui的时间段选择器&#xff1a; <el-date-picker v-model"queryPage.itemTime" type"daterange"value-format"yyyy-MM-dd" class"filter-item" range-separator"至" start-placeholder"创建…

Python筑基之旅-MySQL数据库(三)

目录 一、数据库操作 1、创建 1-1、用mysql-connector-python库 1-2、用PyMySQL库 1-3、用PeeWee库 1-4、用SQLAlchemy库 2、删除 2-1、用mysql-connector-python库 2-2、用PyMySQL库 2-3、用PeeWee库 2-4、用SQLAlchemy库 二、数据表操作 1、创建 1-1、用mysql-…

Kubernetes常用命令

目录 一.资源管理办法 1.陈述式资源管理方法 &#xff08;1&#xff09;kubernetes 集群管理集群资源的唯一入口是通过相应的方法调用 apiserver 的接口 &#xff08;2&#xff09;kubectl 是官方的CLI命令行工具&#xff0c;用于与 apiserver 进行通信&#xff0c;将用户在…

python+pytest+pytest-html+allure集成测试案例

pythonpytestpytest-htmlallure集成测试案例 下面是pythonpytestpytest-htmlallure四个组件同时集成使用的简单案例。 1. 项目结构 project/│├── src/│ ├── __init__.py│ ├── main.py│├── tests/│ ├── __init__.py│ ├── conftest.py│ └──…

MySQL主从复制(二):高可用

正常情况下&#xff0c; 只要主库执行更新生成的所有binlog&#xff0c; 都可以传到备库并被正确地执行&#xff0c; 备库就能达到跟主库一致的状态&#xff0c; 这就是最终一致性。 但是&#xff0c; MySQL要提供高可用能力&#xff0c; 只有最终一致性是不够的。 双M结构的…

用Python代码批量提取PDF文件中的表格

PDF文档中常常包含大量数据&#xff0c;尤其是官方报告、学术论文、财务报表等文档&#xff0c;往往包含了结构化的表格数据。表格作为承载关键信息的载体&#xff0c;其内容的准确提取对于数据分析、研究论证乃至业务决策具有重大意义。然而&#xff0c;PDF格式虽保证了文档的…

STM32——DAC篇(基于f103)

技术笔记&#xff01; 一、DAC简介&#xff08;了解&#xff09; 1.1 DAC概念 传感器信号采集改变电信号&#xff0c;通过ADC转换成单片机可以处理的数字信号&#xff0c;处理后&#xff0c;通过DAC转换成电信号&#xff0c;进而实现对系统的控制。 1.2 DAC的特性参数 1.3…

你以为的私域是真正的私域嘛??你的私域流量真的属于你嘛?

大家好 我是一个软件开发公司的产品经理 专注私域电商行业7年有余 您的私域流量是真正的属于你自己嘛&#xff1f; 私域的定义 私域的界定&#xff1a;一个互联网私有数据&#xff08;资产&#xff09;积蓄的载体。这个载体的数据权益私有&#xff0c;且具备用户规则制定权…

继承和多态

目录: 1. 继承 2. 多态&#xff1a; 转型 重写 正文&#xff1a; 1. 继承&#xff1a; 观察以下代码&#xff1a; 我们发现Cat类和Dog类中有许多相同的属性&#xff0c;那不妨思考一下是否能有一种办法能把它们的相同点都归结到一块儿呢&#xff1f; 当然有&#xff0c;它就…

【html】网页布局模板01---简谱风

模板效果: 这是一种最简单,最干净的一种网页布局。 模板介绍: 模板概述: 这个模板是一个基础的网页布局模板,包括一个头部区域(header),其中包含网站标题(logo)和导航菜单(nav),以及一个页脚区域(copy),用于显示版权信息。整体布局简洁明了,适合作为各种类…

构建全面的无障碍学习环境:科技之光,照亮学习之旅

在信息与科技日益发展的当下&#xff0c;为所有人群提供一个包容和平等的学习环境显得尤为重要&#xff0c;特别是对于盲人朋友而言&#xff0c;无障碍学习环境的构建成为了一项亟待关注与深化的课题。一款名为“蝙蝠避障”的辅助软件&#xff0c;以其创新的设计理念与实用功能…

贪心算法--区间调度问题

贪心算法 引言 贪心算法是一种简单而有效的算法设计技巧&#xff0c;在解决一些优化问题时具有广泛的应用。其基本思想是通过每一步的局部最优选择&#xff0c;最终达到全局最优解。贪心算法通常不会回溯之前的决策&#xff0c;而是根据当前状态作出最优决策&#xff0c;因此…