扩展学习|一文读懂知识图谱

一、知识图谱的技术实现流程及相关应用

文献来源:曹倩,赵一鸣.知识图谱的技术实现流程及相关应用[J].情报理论与实践,2015, 38(12):127-132.

(一)知识图谱的特征及功能

        知识图谱是为了适应新的网络信息环境而产生的一种语义知识组织和服务的方法,通过把用户查询的关键词映射到语义知识库的概念上,使计算机能够理解人类的语言交流模式,从而更加智能地反馈给用户需要的答案。知识库是知识图谱的核心,采用某种知识表示方式来存储管理互相关联的知识片集合,它必须包含丰富的数据,数据来源于原有的关系型数据库、LOD中的部分关联数据集、 领域本体、用户数据、从半结构化和非结构的数据内容中抽取出的理论知识、事实数据、启发式知识等。知识库是服从于本体控制的知识单元的载体,覆盖了各种概念、实例、属性、关系等要素,并保持高效率地更新,以便随时满足用户的知识需求。以谷歌知识图谱为例,它在2012年5月发布时已包含5亿多的对象实体和关于这些实体的超过35亿的事实关系,仅仅6个月后,实体数量增长到5. 7亿,事实关系增长到180亿,到目前为止,还在不断地更新扩展。

        知识图谱的功能主要体现在知识组织、展示与搜索方面: 第一,给用户提供正确的理想答案,在一定程度上克服自然语言的歧义性; 第二,通过信息元侧边栏,把经过梳理、总结的知识提供给用户; 第三,通过信息推荐, 提供更深入更广阔的知识,知识图谱尝试通过对其他用户相关的搜索记录进行推理,帮助用户在提问之前就回答出下一个问题,激发用户对知识的搜索兴趣,从而进行一次全新的查询操作。

(二)知识图谱的实现流程及关键技术

        知识图谱的实现流程可总结为6个模块,即知识获取、知识融合、知识存储、查询式的语义理解、知识检索和可视化展现,见图1。其中知识库的构建是知识图谱实现的核心,知识库中存储的内容需要经过广泛的知识获取及充分的知识融合,当用户进行查询检索时,用户的自然语言查询式经过语义分析处理后进入检索系统,和知识库中的内容进行匹配,整合后的反馈结果以可视化的形式展现给用户。

1.知识获取

        为了提高知识服务的质量,提供用户满意的答案,知识图谱不仅要包含各个领域的常识性知识,还要及时发现并添加新知识,知识的数量和质量决定了其所能提供的知识服务的广度和深度以及解决问题的能力,因此知识图谱的构建需要以高效的知识获取作为支撑。

        常识性知识的获取主要来自百科类站点和各种垂直站点的结构化数据,如从DBpedia中抽取某一主题的知识, 根据一定的抽取策略提取出领域相关的事实,包括主题下的细分知识以及扩展的相关类别知识等。同时还要从一些半结构化和非结构化数据中抽取实例和属性来丰富相关实体的描述。

        随着用户交互大量涌现,用户生成内容( UGC)不断增加,大量用户投入到网络信息的创建、组织和传播中,这其中产生的一些知识也是知识图谱知识获取中重要的一方面。新知识可以从用户的查询日志中发现新的实体属性,不断地扩展知识的覆盖率。此外,由于知识图谱要根据用户的兴趣提供相关的知识推荐,所以用户相关的行为数据也要抽取,包括用户所在的国家,能确定用户身份的信息、查询语句使用的语言、 查询时间、以往的访问日志数据等。例如在用户查询过程中可以分析用户的兴趣: 根据用户筛选后点击的链接,以及 “长点击”与 “短点击”判断用户对答案的满意度及感兴趣程度,从而获得用户行为数据, 也可以根据这些数据抽取对应的实体。

        知识获取实现的主要技术包括机器学习、知识挖掘、自然语言处理、基于内在机理的知识发现技术等。在大数据环境下,智能化的数据抽取、提炼与挖掘技术显得尤为重要,大量的知识资源为后续的知识推理融合奠定了坚实的基础。

2.知识融合

        由于知识图谱中的知识来源广,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、实体重要度计算和推理验证等步骤,达到数据、信息、方法、经验以及人的思想的融合。

        异构数据整合要进行数据清洗、实体对齐、属性值决策以及关系的建立。数据清洗包括对拼写错误的数据、相似重复数据、孤立数据、数据时间粒度不一致等问题进行处理; 实体对齐解决来自不同数据源的相同实体中对同一特性的描述、格式等方面不一致的问题,对实体描述方式和格式进行规范统一,如 “籍贯”与 “出生地” 的表述差别,日期书写格式的不同等; 属性值决策主要是针对同一属性出现不同值的情况下,根据数据来源的数量和可靠度进行抉择,提炼出较为准确的属性值; 关系是知识图谱中非常重要的知识,任何实体概念都不是孤立的,都处在和周围概念一定的逻辑关系中,如等同关系、属分关系和相关关系等。从本质上看,知识图谱建立关系的过程可以简化为相关实体挖掘,即寻找用户类似查询中共现的实体或是在同一个查询中被提到的其他实体,通过对链接的提取统计以及对用户查询日志的分析,发掘查询式的主题分布,把同一主题中的相关实体进行类型验证并建立关联。

        实体的重要度主要通过Page Rank等算法进行计算, 实体属性和实体间的关系、不同实体和语义关系的流行程度、抽取的置信度等都会影响实体重要度计算的结果。 用户查询式中的实体被识别后,关于该实体的结构化摘要就会展现给用户,当查询涉及多个实体时,就需要选择与查询更相关且更重要的实体展现出来。如查询 “李娜”, 同名实体有超过20个,就要根据重要度的计算对这些实体进行排序。

        推理的规则一般涉及两类,针对属性和针对关系的。 通过推理验证可以检测逻辑矛盾,提高知识质量; 也可以获取属性值和实体间隐含的关系,从而建立更多实体间的关联。通过推理形成新的数据对知识进行再扩展,提高知识的完整性,并通过知识的聚合、分类等技术把知识具体化和分类整合。

3.知识存储

        知识图谱中的知识存储在它的知识库中,是一个规模庞大的关联集合。杂乱的信息经过前期的融合与处理,形成了有序、关联可用的知识,按照知识的类别以规范化的形式分类存储在知识库中不同的知识模块里,生成索引, 以便在知识检索时更加智能有效地匹配以及进行知识的深度挖掘

        知识库中知识节点和节点间映射关系的数目是庞大的,并且在不断增长。另外,知识库中的知识与规则要保证及时的更新、纠错与维护,一些知识会长期存储保留, 而一些时效较短的知识就要及时删除或修改,知识的变化还会打乱其内部像网络一样的关联关系,这给知识存储带来了很大的挑战。因此,知识图谱中的知识依赖合适的存储介质和合理的存储方式进行有效存储,既保证知识的可读性和稳定性,又不影响系统运行效率和对数据的操纵管理能力。知识库中知识的更新修订遵守一定的原则, 使得新知识的加入与老知识的更新不会引起知识库结构发生变化,修改后的知识库不应该依赖原始知识库或新公式的语法形式,同时要保持知识表达的充足性和连贯一致性,新知识应该尽可能多地被接受,而许多老知识也应该尽量保持,这样更有利于知识库大量吸收并储备各方面的知识。

        总之,知识图谱的知识存储依赖于海量数据存储技术来管理大规模分布式的数据,以实现海量存储系统大容量、可扩展、高可靠性和高性能的要求。

4.查询式的语义理解

        用户的查询式一般可分为4种: 定义型,如 “什么是知识组织”; 事实型,如 “Knowledge Graph的出现时间”;肯定否定型,如 “Tim Berners-Lee是万维网之父吗”; 意见型,如 “如何看待大数据时代”。针对用户不同的查询式问题,经过自然语言处理,可以根据以上类型大致归类,系统分类理解查询式,方便答案的反馈。

        知识图谱中对查询式的语义分析包括以下几个关键步骤: 1对查询式进行分词、词性标注和查询纠错。

        2对句法进行分析,基于一些通用词典和本体库等实现实体识别,同时对实体进行过滤和消歧; 基于模式挖掘实现属性识别,对实体属性进行归一处理。因为用户的表达方式不一样,不同用户对实体、属性等都有不同的描述方式,因而对不同的描述进行归一,进而和知识库中的相关知识匹配。

        3用户情感及语境的理解分析,在不同语境下用户查询式中的实体会有差别,知识图谱要识别用户的情感,以反馈用户此刻需要的答案。

        4查询式扩展,明确了查询的确切所指以及用户的信息意图后,加入与其语义相关的其他概念来实施扩展。查询式语义分析后会生成标准查询语句,以SPARQL为代表,SPARQL查询语句是基于模板匹配的一种标准化的格式,可以与知识库中的知识更好地衔接; 另外,它还是基于需求重要度排序后的查询语句,反馈的知识结果会展现出优先顺序。

        查询式的语义理解涉及的相关技术主要包括自然语言处理技术和人工智能等。

5.知识检索

        知识检索是基于之前的知识组织体系,实现知识关联和概念语义检索的智能化检索方式。知识图谱中的知识检索包含两类核心任务: 一是利用相关性在知识库中找到相应的实体; 二是在此基础上根据实体的类别、关系及相关性等信息找到关联的实体。

        用户输入的查询式经过语义分析理解后生成的标准查询语句进入检索系统后被解析,与知识库中的知识匹配, 并进行统计、排序、推理、推荐、预测等工作。系统会基于对查询词表达的概念和语义内涵的深度理解作为搜索依据,同时对该词的同义词、近义词、广义词、狭义词检索,进行概念的扩充,扩大检索,避免漏检; 另外,还会进行相关概念的联想检索,做好推荐预测的工作。通过对知识库进行深层次的知识挖掘与提炼后,检索系统为用户反馈出具有重要性排序的准确且完整的知识,并推荐用户可能感兴趣的相关知识。

        知识检索阶段涉及信息检索、知识挖掘等关键技术, 比如相似性、重要性计算。

6.可视化展现

        知识图谱可视化的结果展现提升了用户的使用体验,它将知识库中的信息转化为更方便用户理解的方式进行呈现,通常整合为简洁明了的内容放在一个信息栏中,用户可以一目了然地了解到他需要的知识,快速解答疑惑; 同时提供了更加丰富的富文本信息,除文字外还有图片、列表等可以直接消费的形式,增加了更多的用户交互元素,提升用户体验,如图片浏览、点击试听等,引导用户在短时间内获取到更多的知识。例如,在百度中搜索 “十大元帅”,信息栏中既有文字的介绍,还有每一位元帅的照片; 搜索 “周星驰和吴孟达的电影”,信息栏中整合了所有符合条件的电影结果,还可以按照类型、地区、 年代、最新、最热、用户好评等标签缩小搜索范围,帮助用户快速锁定目标; 在搜狗搜索中输入 “梁启超儿子的太太的好友”,信息栏中简洁地给出答案: 泰戈尔和金岳霖,并配有他们的照片,另外还显示了问题答案的推理说明。

        知识图谱可视化的展现不仅注重答案的精准,注重内容显示粒度上的把握,还关注页面中显示的位置、知识模块位置的安排等细节,还考虑了在智能手机和平板电脑等多种设备上显示的效果等问题。需要涉及Web客户端技术、可视化技术、人机交互等技术来帮助用户实现高效答案获取和知识学习。

二、知识组织研究现状

文献来源:司莉,何依,郭晓彤.国外知识组织研究主题、特征及思考[J].情报资料工作,2024,45(01):12-22.

        知识组织的探索从古希腊柏拉图、亚里士多德开始,一直伴随着人类文明史发展的整个过程。其发展不仅是内部变革使然,也是外部技术驱动的结果。本文从理论视角全方位、系统性探索了新科技浪潮对KO的影响,深入揭示国外KO研究主题、研究方法及领域应用的特征。研究结果发现,过去二十年间KO研究主题持续深入细化,关注点从概念理论等表层问题转向核心价值、伦理道德、质量评估、教学培训等深层问题的探讨,方法体系从面向纸质文献的书目描述、分类标引到面向多源异构多模态资源的语义关联,技术手段从依赖于专家人工操作到辅以众包及自动化技术,不断得到继承与发展。研究方法形成“实践-理论-实践”的发展路径,实证研究逐渐成为主流。应用范围从图书情报向生物医学、教育法学等领域扩展,且呈现向药物安全监测、课程建模管理、新闻浏览等特定场景发展的趋势。鉴于此,我国可在教学培训、理论和实践应用方面进一步拓展KO疆域,包括:建立合理的评估体系,重视KO质量;关注中文数据基础设施建设,推动语义化、关联化进程;从实证研究出发,关注领域知识组织研究,促进研究成果转化;“群体+技术+专家”三轮驱动,加快海量数据的组织;扩展特定领域应用实践,提升KO服务水平;更新教学内容,优化理论基础课与实践进阶课,培养伦理道德、跨文化意识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/595530.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS开发案例:【卡片二级联动】

1 卡片介绍 使用ArkTS语言,实现一个导航与内容二级联动的效果。 2 标题 二级联动(ArkTS) 3 介绍 介绍了如何基于List组件实现一个导航和内容的二级联动效果。样例主要包含以下功能: 切换左侧导航,右侧滚动到对应…

自定义类型②③——联合体和枚举

自定义类型②③——联合体和枚举 1.联合体1.1 联合体类型的声明1.2 联合体的特点1.3 相同成员结构体和联合体的对比1.4 联合体大小的计算1.5 联合体的应用①1.5 联合体的应用② 2. 枚举2.1 枚举类型的声明2.2 枚举类型的特点2.3 枚举的优点 1.联合体 1.1 联合体类型的声明 关…

Python sqlite3库 实现 数据库基础及应用 输入地点,可输出该地点的爱国主义教育基地名称和批次的查询结果。

目录 【第11次课】实验十数据库基础及应用1-查询 要求: 提示: 运行结果: 【第11次课】实验十数据库基础及应用1-查询 声明:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 1.简答题 数据库文件Edu_Base.db&#…

有什么方便的教学口语软件?6个软件教你快速练习口语

有什么方便的教学口语软件?6个软件教你快速练习口语 以下是六个方便实用的教学口语软件,它们可以帮助您快速练习口语: AI外语陪练: 这是一款知名的语言学习软件,提供多种语言的口语练习课程。它采用沉浸式的学习方法&#xff0…

【数字图像处理笔记】Matlab实现图像平滑算法 均值-中值-高斯滤波 (三)

💌 所属专栏:【数字图像处理笔记】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! &#x…

jetson实操(二):jetson nano发送短信到指定用户

文章目录 一、准备工作二、代码实现 一、准备工作 腾讯云网址:点击 注:需先申请“短信签名”和“短信正文”,按照要求填写申请即可,腾讯云的审核效率还是很快的,一般在1-2个小时内就会有结果,链接&…

2024-2034年,量子密码市场年增长率将达29.3%

Visiongain发布了一份新报告,题为《2024-2034年量子密码市场报告》:按组件(软件、硬件)、软件(加密算法、密钥管理解决方案等)、硬件(量子密钥分发(QKD)设备、量子随机数…

CkickHouse JDBC 使用整理

1. pom 引入 <dependency><groupId>com.clickhouse</groupId><artifactId>clickhouse-jdbc</artifactId><version>0.4.6</version></dependency><dependency><groupId>org.roaringbitmap</groupId><arti…

BeautifulSoup库TapTap评论爬虫

最近在写关于评论数据主题建模和情感分析的作业&#xff0c;本来想用八爪鱼直接爬TapTap的评论数据&#xff0c;但是自动识别网页总是定位错误&#xff0c;还是回归BeautifulSoup和Request来进行评论内容的爬取&#xff0c;具体操作步骤如下 导入所需的库 import re import r…

定制旁通式孔板流量计需要哪些技术参数

旁通式孔板流量计又称桥式孔板流量计&#xff0c;本产品含有直管&#xff0c;直管中安装有孔板&#xff0c;该孔板两侧的直管壁上分别设置一个测量管&#xff0c;其特征是&#xff1a;所述直管和一个桥管并联式连接&#xff0c;二者内管相互连通&#xff0c;并且所述直管和桥管…

mars3d的config,json文件配置谷歌影像地图的tilingScheme属性

mars3d的config,json文件配置tilingScheme属性说明&#xff1a; 1.cesium加载谷歌影像地图的时候需要配置tilingScheme参数&#xff0c;如以下代码&#xff1a; var viewer new Cesium.Viewer("cesiumContainer", { animation: false, //是否显示动画控件 baseLaye…

64位Office API声明语句第118讲

跟我学VBA&#xff0c;我这里专注VBA, 授人以渔。我98年开始&#xff0c;从源码接触VBA已经20余年了&#xff0c;随着年龄的增长&#xff0c;越来越觉得有必要把这项技能传递给需要这项技术的职场人员。希望职场和数据打交道的朋友&#xff0c;都来学习VBA,利用VBA,起码可以提高…

文件夹加密软件哪个好?文件夹加密软件排行榜

许多人给小编说&#xff0c;我们公司想实现文件私自发出呈乱码状态&#xff0c;这说明公司逐渐认识到文件加密的重要性。 目前&#xff0c;加密软件已经广泛应用于企业办公、商业贸易、个人应用等多个领域&#xff0c;成为保护数据安全和隐私的重要手段。 为了保护企业机密&am…

【driver2】设备读写,同步和互斥,ioctl,进程休眠,时间和延时,延缓

文章目录 1.实现设备读写&#xff1a;write函数中一个进程写没问题&#xff0c;两进程写&#xff1a;第一个进程运行到kzalloc时&#xff0c;第二个进程也执行了kzalloc&#xff0c;只第二个进程地址保存在c中&#xff0c;第一个进程分配内存空间地址丢失造成内存泄漏。第一个进…

sqlalchemy 分表实现方案

1.需求及场景概述 现有系统中因历史数据量过大,产生了将历史数据进行按月存储的要求,系统和数据库交互使用的是sqlalchemy,假设系统的原来的历史记录表(record)如下: 为了将历史数据按月分表存储,我们需要以此表为基础按月创建对应的月表来进行分表存储,同时又要使用or…

学华为沟通,汇总5大项目沟通技巧

高效沟通在项目管理中的重要性不容小觑&#xff0c;它是确保项目顺利进行、提升团队协作效率、实现项目目标的关键因素。如果沟通不畅&#xff0c;往往容易导致成员对项目目标理解不一致&#xff0c;或信息传递不及时不准确&#xff0c;导致项目工作方向偏差&#xff0c;增加项…

前端工程化05-初始前端工程化Node基本介绍安装配置基础知识

6、初始前端工程化 6.1、工程化概述 虽然前几篇我的目录标题写的前端工程化&#xff0c;但是那些东西并不属于前端工程化的内容&#xff0c;更倾向于是js、jq当中的东西&#xff0c;下面我们将接触真正的前端工程化。 前端工程化开发其实现在是离不开一个东西的&#xff0c;…

Matlab 手写板设计

1、介绍 MATLAB手写板可以作为一个很好的数据输入口&#xff0c;其可以获取该手写板上任意字母、数字&#xff0c;甚至可以制作样本数据。具体用途体现在如下几方面&#xff1a; 数学公式输入&#xff1a;手写板允许用户直接用手写方式输入复杂的数学公式&#xff0c;这对于使…

电子书制作神器,简单操作

​随着数字化时代的到来&#xff0c;电子书籍越来越受到人们的喜爱。而一款优秀的电子翻页书制作软件&#xff0c;则能够帮助你轻松制作出专业级的电子书&#xff0c;让你的阅读体验更加丰富多彩。 今天&#xff0c;我们就来为大家推荐一款优秀的电子翻页书制作软件——FLBOOK在…

Burp和Proxifier抓包微信小程序

1、Burp设置代理 2、浏览器下载证书 3、安装证书 4、Proxifier设置代理 5、Proxifier设置Proxification Rule 6、Burp查看抓包数据 打开一个小程序&#xff0c;可以看到WeChatAppEx的流量先经过Proxifier&#xff0c;再经过127.0.0.1:8080到Burp