知识融合概述

文章目录

    • 知识融合
    • 知识融合过程
    • 研究现状
    • 技术发展趋势

知识融合

    知识融合的概念最早出现在1983年发表的文献中,并在20世纪九十年代得到研究者的广泛关注。而另一种知识融合的定义是指对来自多源的不同概念、上下文和不同表达等信息进行融合的过程认为知识融合的目标是产生新的知识,是对松耦合来源中的知识进行集成,构成一个合成的资源,用来补充不完全的知识和获取新知识。在总结众多知识融合概念的基础上认为知识融合是知识组织与信息融合的交叉学科,它面向需求和创新,通过对众多分散、异构资源上知识的获取、匹配、集成、挖掘等处理,获取隐含的或有价值的新知识,同时优化知识的结构和内涵,提供知识服务。

知识融合过程

    知识融合是一个不断发展变化的概念,尽管以往研究人员的具体表述不同、所站角度不同、强调的侧重点不同,但这些研究成果中还是存在很多共性,这些共性反应了知识融合的固有特征,可以将知识融合与其他类似或相近的概念区分开来。知识融合是面向知识服务和决策问题,以多源异构数据为基础,在本体库和规则库的支持下,通过知识抽取和转换获得隐藏在数据资源中的知识因子及其关联关系,进而在语义层次上组合、推理、创造出新知识的过程,并且这个过程需要根据数据源的变化和用户反馈进行实时动态调整。从流程角度对知识融合概念进行分解,如下图所示。

图片名称
知识融合概念分解

研究现状

    知识融合从融合层面划分可以分为数据层知识融合与概念层知识融合,数据层知识融合主要研究实体链接、实体消解,是面向知识图谱实例层的知识融合;概念层知识融合主要研究本体对齐、跨语言融合等技术。

    实体链接问题是数据层知识融合研究的主要任务,其核心是构建多类型多模态上下文及知识的统一表示,并建模不同信息、不同证据之间的相互交互,主要的实体链接方法有:基于实体知识的链接方法、基于篇章主题的链接方法和融合实体知识与篇章主题的实体链接方法。

    概念层知识融合是对多个知识库或者信息源在概念层进行模式对齐的过程。本体对齐或者本体匹配是概念层知识融合主要研究任务,是指确定本体概念之间映射关系的过程。本体匹配可以分为单语言本体匹配和跨语言本体匹配,单语言本体匹配是指同一自然语言中本体的对齐映射,跨语言本体匹配是指从两个或多个独立的语言本体中建立本体之间映射关系的过程。本体匹配的研究核心就在于如何通过本体概念之间的相似性度量,发现异构本体间的匹配关系,本体匹配基本方法包括基于结构的方法、基于实例的方法、基于语言学的匹配算法、基于文本的匹配算法和基于已知本体实体联结的匹配算法。

    在大数据时代背景下,如何将跨语言的知识图谱进行对齐与融合,实现知识的全球共享,为跨语言知识服务提供便利,是知识图谱进一步研究的过程中需要解决的问题。跨语言知识图谱研究的目的是构建一个包含当前重要知识库的大规模跨语言知识库,提高不同语言之间链接数据的国际化以及知识共享全球化,便于跨语言信息检索、机器翻译和跨语言知识问答等跨语言处理任务的研究与应用。构建了一个有42万中英跨语言实体链接的双语言知识图谱(XLORE2),自动化融合了来自维基百科、百度百科和互动百科的信息。

    现有的知识融合工具包括:Falcon-AO、YAM++、Dedupe等。以Falcon-AO为例,其是由南京大学计算机软件新技术国家重点实验室开发的一个基于Java的自动本体匹配系统,已经成为RDF(S)和OWL所表达的Web本体相匹配的一种实用和流行的选择。Falcon-AO系统采用了相似度组合策略,首先使用PMO进行分而治之,然后使用语言学算法(V-Doc、I-Sub)进行处理,然后使用结构学算法(GMO)接收前两者结果再做处理,最后连通前面两者的输出使用贪心算法进行选取。

技术发展趋势

    尽管知识融合已经在学术和工业应用中取得了非常显著的成效,然而随着网络社会数据特征、跨语言融合、知识规模增加等带来挑战越发紧迫,针对短文本及资源缺乏环境下的实体链接方法、融合先验知识的深度学习端到端实体链接方法、大规模本体的高效匹配方法将成为未来研究的重要趋势。

    传统的实体链接任务主要是针对长文档,长文档拥有在写的上下文信息能辅助实体的歧义消解并完成链接。而由于日常生活中人们在社交网络中常常会产生大量短文本数据,相比之下,短文本的实体链接存在口语化严重、短文本上下文语境不丰富等巨大挑战,因而面向短文本的实体链接方法研究将会成为未来的研究热点。另外目前绝大部分的实体链接模型依赖于有监督模型,需要大量标签数据集训练来达到实用目的。因此短文本及资源缺乏环境下,基于无监督/半监督和迁移学习的实体链接模型是解决问题的关键。

    今年来,基于深度学习模型(如BiLSTM-CRF)在实体链接任务上取得了较大的进展,同时展现出了巨大的应用潜力,然而基于深度学习的算法训练需要大量标注数据集,缺少面向特定领域特点和任务的针对性设计。另一方面当前实体链接方法易受到实体识别等前序过程的误差影响,因此结合先验知识训练端到端深度学习实体链接模型成为未来的一大研究趋势。针对这个问题,一方面,当前许多算法尝试已经证明结合先验知识的思路在实体链接任务中的有效性,如在深度学习模型中增加句法结构、语言学知识、特定领域任务约束、现有知识库知识和特征结构等,如何更好的结合有效利用这些先验知识是提升实体链接算法性能的有效手段。同时设计基于端到端的深度学习模型将有助于降低实体链接过程中的误差传播效应,提高实体链接准确度。

    随着当前各类型知识库的出现和知识规模的快速增长,而由于通常本体匹配的计算复杂度与本体规模成正比,因此大规模跨语言本体匹配成为知识库融合的重大挑战,主要面临的挑战有:大规模本体匹配的快速并行计算问题和人机协同匹配问题。针对这个问题主要的思路有:①研究基于分布式处理技术的大规模本体匹配分布式处理算法,如研究利用MapReduce、GPU等技术的并行匹配算法,提高匹配效率;②研究利用现有本体匹配结果实现潜在本体匹配的方法,同时利用启发式相似度计算方法提高计算效率;③通过对实体匹配进行预剪枝,预先过滤不匹配的实体对,避免本体之间一对一的相似度计算。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/650513.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

新闻稿推广策略有哪些?建议收藏

新闻稿推广是一种有效的公关工具,它可以帮助企业或组织传递信息、提升品牌知名度、建立权威形象,并最终促进销售。新闻稿推广策略有哪些?接下来伯乐网络传媒就来给大家分享一下。 确定目标受众:在撰写新闻稿之前,明确你…

对比表征学习(二)Setence Embedding

参考翁莉莲的Blog,本章主要阐述句子嵌入(sentence embedding) 文本扩增 绝大部分视觉应用中的对比方法依赖于创造每个图像的增强版本,但是在句子扩增中会变得非常有挑战性。因为不同于图片,在扩增句子的同时非常容易改…

TPD-3W 系列——3W 1.5KVDC 隔离 宽范围输入,双隔离双输出 DC/DC 电源模块

TPD-3W系列产品是专门针对线路板上分布式电源系统中需要产生一组与输入电源隔离的双隔离双电源的应用场合而设计。该产品适用于:1)输入电源的电压变化范围≤2:1 ;2)输入输出之间要求隔离≤1500VDC;3&#x…

从零开始搭建一个SpringBoot项目

目录 Spring BootSpring Boot 项目开发环境1、快速创建SpringBoot项目2、pom.xml 添加 Meavn 依赖3、配置application.yml4、验证数据库是否连接成功5、配置 Druid 数据源 Spring Boot 整合 MyBatis1、准备依赖2、application-dev.yml 配置3、启动类添加Mapper接口扫描器4、设置…

【C++】:vector容器的基本使用

目录 🍒1,vector的介绍🍒2,vector的使用🐯2.1 vector的构造🦁2.2 vector iterator 的使用🌽2.3 vector 空间增长问题🍓2.4 vector 增删查改🐯2.5 vector 访问及遍历&…

2024新数据库入门教程

1.官网下载MySQL 下载Mysql链接: 点击下载mysql 下载完成后解压到某一个文件夹(记住这个路径,一会要用到) 2.配置初始化文件my.ini 在根目录下创建一个txt文件,名字叫my,文件后缀为ini 以下代码除安装目录和数…

[STM32-HAL库]ADC采集-DMA中断采集-平均值滤波-STM32CUBEMX开发-HAL库开发系列-主控STM32F103C8T6

目录 一、前言 二、实现步骤 1.STM32CUBEMX配置 2.Keil工程程序设计 三、结语 一、前言 本文通过STM32CUBEMX实现对ADC的数据采集和滤波操作,帮助各位开发者完成与模拟量输入的采集工作。 二、实现步骤 1.STM32CUBEMX配置 以STM32F103C8T6为例,打开S…

选项卡式小部件QTabWidget

文章目录 1. 详细介绍2. 常用属性3. 信号4. 常用函数5. 官方示例Tab Dialog QTabWidget提供一堆选项卡式小部件。 1. 详细介绍 选项卡式部件提供一个选项卡栏和一个用于显示与每个选项卡相关的页面的页面区域。 默认情况下,选项卡栏显示在页面区域上方,…

duckdb 插件机制研究

本文研究 duckdb 内置的 extensions 工作机制。 插件架构 在 duckdb 源码内,内置了一组原生插件,位于顶层 extension 目录下: 除此之外,还支持 Out-of-Tree Extension,简单说就是独立的插件,不是集成在源…

2024年5月20日 (周二) 叶子游戏新闻

《边境之塔》登陆Steam 复古风恐怖生存冒险DascuMaru制作并发行,一款低像素3D复古风恐怖生存冒险新游《边境之塔(The Tower on the Borderland)》登陆Steam正式推出,限时九折优惠,本作暂不支持中文。 勇魅出击&#xf…

nuxt2:自定义指令 / v-xxx / directives / 理解 / 使用方法 / DEMO

一、理解自定义指令 在 vue 中提供了一些对于页面和数据更为方便的输出&#xff0c;这些操作就叫做指令&#xff0c;以 v-xxx 表示&#xff0c;比如 html 页面中的属性 <div v-xxx ></div>。自定义指令很大程度提高了开发效率&#xff0c;提高了工程化水平&#x…

亚马逊云主管马特·加尔曼面临压力,致力于在人工智能领域赶超竞争对手

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

Java项目:基于SSM框架实现的企业人事管理系统单位人事管理系统【ssm+B/S架构+源码+数据库+毕业论文】

一、项目简介 本项目是一套基于SSM框架实现的企业人事管理系统单位人事管理系统 包含&#xff1a;项目源码、数据库脚本等&#xff0c;该项目附带全部源码可作为毕设使用。 项目都经过严格调试&#xff0c;eclipse或者idea 确保可以运行&#xff01; 该系统功能完善、界面美观…

pytorch文本分类(四)模型框架(模型训练与验证)

关卡四 模型训练与验证 本文是在原本闯关训练的基础上总结得来&#xff0c;加入了自己的理解以及疑问解答&#xff08;by GPT4&#xff09; 原任务链接 目录 关卡四 模型训练与验证1. 训练1.1 构建模型结构1.2 模型编译1.3 模型训练1.4模型超参数调试 2. 推理2.1 模型准确性…

大模型时代的具身智能系列专题(三)

清华高阳团队 高阳为清华叉院助理教授&#xff0c;本科毕业于清华大学计算机系&#xff0c;博士毕业于UC Berkeley。博士导师是Vision领域的大牛Trevor Darrell&#xff0c;读博期间和Sergey Levine合作开始强化学习方面的探索&#xff0c;博后跟随Pieter Abbeel做强化学习&am…

aws emr启动standalone的flink集群

关键组件 Client&#xff0c;代码由客户端获取并做转换&#xff0c;之后提交给JobMangerJobManager&#xff0c;对作业进行中央调度管理&#xff0c;获取到要执行的作业后&#xff0c;会进一步处理转换&#xff0c;然后分发任务给众多的TaskManager。TaskManager&#xff0c;数…

ResNet残差网络的学习【概念+翻译】

基于何明凯前辈论文的学习 1.主要内容&#xff08;背景&#xff09; 1、首先提了一个base&#xff1a;神经网络的深度越深&#xff0c;越难以训练。 2、原因&#xff1a;因为随着神经网络层数的增加&#xff0c;通常会遇到梯度消失或梯度爆炸等问题&#xff0c;这会导致训练变…

二十八、openlayers官网示例Data Tiles解析——自定义绘制DataTile源数据

官网demo地址&#xff1a; https://openlayers.org/en/latest/examples/data-tiles.html 这篇示例讲解的是自定义加载DataTile源格式的数据。 先来看一下什么是DataTile&#xff0c;这个源是一个数组&#xff0c;与我们之前XYZ切片源有所不同。DataTile主要适用于需要动态生成…

【CSharp】将ushort数组保存为1通道位深16bit的Tiff图片

【CSharp】将ushort数组保存为1通道位深16bit的Tiff图片 1.背景2.接口 1.背景 System.Drawing.Common 是一个用于图像处理和图形操作的库&#xff0c;它是 System.Drawing 命名空间的一部分。由于 .NET Core 和 .NET 5 的跨平台特性&#xff0c;许多以前内置于 .NET Framework…

10.SpringBoot 统一处理功能

文章目录 1.拦截器1.1在代码中的应用1.1.1定义拦截器1.1.2注册配置拦截器 1.2拦截器的作用1.3拦截器的实现 2.统一数据返回格式2.1 为什么需要统⼀数据返回格式&#xff1f;2.2 统⼀数据返回格式的实现 3.统一异常处理4.SpringBoot专业版创建项目无Java8版本怎么办&#xff1f;…