一、概述
对信息抽取/知识融合后得到的“事实”进行知识推理以拓展现有知识、得到新知识。
知识加工主要包括三方面内容:本体构建、知识推理和质量评估。
二、本体构建
1.本体
定义:本体是用于描述一个领域的术语集合,其组织结构是层次结构化的。简而言之,本体是用于描述一个领域的数据集合,是知识库的骨架。
作用:获取、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定领域内共同认可的词汇,提供该领域特定的概念定义和概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原理,达到人机交流的效果。
2.领域本体
定义:领域本体(Domain ontology) 是描述指定领域知识的一种专门本体,它给出了领域实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述。
作用: 明确专业术语、关系及其领域公理, 使其形式化;在人与人之间、人与机器之间达到共享;实现一定程度的领域知识复用。如:企业本体、医学概念本体、酶催化生物学本体、陶瓷材料机械属性本体等。
3.本体构建的意义:
知识图谱分为数据层和模式层,数据层是由一系列事实数据构成,而模式层则用来从数据中构建实体、属性、关系,是知识图谱的核心。本体库被广泛用于构建知识图谱数据层,由本体库构建的知识图谱冗余较小 ,结构层次强。
4.本体的构成:
由5个基本构成元素(建模元语),即:
①类(Classes)或概念(Concepts):是对象的集合;概念是广义的概念,除了可以是一般意义上的概念以外,也可以是任务、功能、行为、策略、推理过程等,其定义一般包括概念的名称,以及对该概念的自然语言描述。本体中的这些概念通常构成一个继承的分类层次。
② 关系(Relations):是领域中概念之间的交互作用,形式上定义为n维笛卡儿积的子集:
③ 函数(Functions):是一种特殊的关系,关系的前n-1个元素可以惟一确定第n个元素。一般地,函数采用F:C1×C2×…×Cn-1→Cn的形式表示,如MotherOf就是一个函数,MotherOf(x,y)表示y是x的母亲,即x确定y。
④ 公理(Axioms):是一些永真式的描述。更具体地说,公理是领域中在任何条件下都成立的断言
⑤ 实例(Instances):代表属于某概念/类的基本元素,即某概念/类所指的具体实体。
5.本体的分类
根据本体应用主题,本体划分为五种类型:领域本体、通用或常识本体、知识本体、语言学本体和任务本体。
根据本体对领域的依赖程度由高到低,可分为四个类别:顶级本体(top-level Ontologies)、领域本体(domain Ontologies)、任务本体(task Ontologies)和应用本体(application Ontologies)
6.本体的构建工程思想
(1)IDEF-5方法
IDEF5创建本体的5个主要步骤是:① 定义课题、组织队伍;② 收集数据;③ 分析数据;④本体初步开发;⑤ 本体优化与验证。
(2)Skeletal Methodolody骨架法(Uschold方法)
Mike Uschold & Micheal Gruninger的骨架法(Skeletal Methodology),又称Enterprise法,专门用来创建企业本体(Enterprise ontology,是有关企业建模过程的本体)。
(3)Methontology方法
Methontology方法是在结合了骨架法和GOMEZ-PEREZ方法后,提出的一种更为通用的本体建设方法。更接近软件工程开发方法。它将本体开发进程和本体生命周期两个方面区别开来,并使用不同的技术予以支持。专用于创建化学本体(有关化学元素周期表的本体)。
流程包括:
①管理阶段:这一阶段的系统规划包括任务的进展情况、需要的资源、如何保证质量等问题。
②开发阶段:分为规范说明、概念化、形式化、执行以及维护五个步骤。
③维护阶段:包括知识获取、系统集成、评价、文档说明、配置管理五个步骤。
(4)七步法
斯坦福大学医学院开发的七步法,主要用于领域本体的构建。
7个步骤分别是: ① 确定本体的专业领域和范畴;② 考查复用现有本体的可能性;③ 列出本体中的重要术语;④ 定义类和类的等级体系(完善等级体系可行的方法有:自顶向下法、自低向上法和综合法);⑤ 定义类的属性;⑥ 定义属性的分面;⑦ 创建实例
(5)深度学习下的本体构建
a.领域概念识别。 训练领域内语料的字向量和词向量作为特征输入到深度神经网络,识别领域内概念,区分出领域内个体的概念。
b. 层级关系划分。BIRCH 算法用于聚类领域内概念,初步划分领域本体中各概念的层级关系。
c. 属性抽取。 输入词向量和词位置,采用卷积神经网络结合远程监督抽取实体关系模型,抽取领域本体类间关系,构成领域本体属性,划分出类与属性关系,完成领域本体基本框架。
三、知识推理
通过各种方法获取新的知识或者结论。知识推理主要是利用现有知识图谱已存在的事实或者语料,运用算法工具,推理出实体之间的关联的关系,自动产生新的知识,补充缺失的事实,完善知识图谱。
知识推理的主要方法
1、基于符号逻辑的推理——本体推理
传统的符号逻辑推理中主要与知识图谱有关的推理手段是基于描述逻辑的本体推理。
描述逻辑主要被⽤来对事物的本体进⾏建模和推理,⽤来描述和推断概念分类及其概念之间的关系。
主要方法:
①基于表运算(Tableaux)及改进的⽅法: FaCT++、 Racer、 Pellet Hermit等
②基于Datalog转换的⽅法如KAON、 RDFox等
③基于产⽣式规则的算法(如rete): Jena 、 Sesame、 OWLIM等
2、基于图结构和统计规则挖掘的推理
主要方法:
• 基于路径排序学习⽅法(PRA, Path ranking Algorithm)
• 基于关联规则挖掘⽅法(AMIE)
3、基于知识图谱表示学习的关系推理
主要方法:
•将实体和关系都表示为向量
•通过向量之间的计算代替图的遍历和搜索来预测三元组的存在,由于向量的表示已经包含了实体原有的语义信息,计算含有⼀定的推理能⼒。
•可应⽤于链接预测,基于路径的多度查询等
4、基于概率逻辑的方法
概率逻辑学习有时也叫Relational Machine Learning (RML),关注关系的不确定性和复杂性。
通常使用Bayesian networks or Markov networks