国内外典型的知识图谱项目

文章目录

    • 早期的知识库项目
    • 互联网时代的知识图谱
    • 中文开放知识图谱
    • 垂直领域知识图谱

    从人工智能的概念被提出开始,构建大规模的知识库一直都是人工智能、自然语言理解等领域的核心任务之一。下面分别介绍早期的知识库项目、互联网时代的知识图谱、中文开放知识图谱和垂直领域知识图谱。

早期的知识库项目

    Cyc是持续时间最久、影响范围较广、争议也较多的知识库项目。Cyc 最初的目标是要建立人类最大的常识知识库。典型的常识知识如“Every tree is a plant"Plants die eventually”等。Cyc 知识库主要由术语 (Term)和断言(Assertion)组成。术语包含概念、关系和实体的定义。断言用来建立术语之间的关系,既包括事实(Fact)描述,也包含规则(Rule)描述。最新的Cyc知识库已经包含有50万条术语和700万条断言。Cyc的主要特点是基于形式化的知识表示方法刻画知识。形式化的优势是可以支持复杂的推理,但过于形式化也导致知识库的扩展性和应用的灵活性不够。

    WordNet是最著名的词典知识库,由普林斯顿大学认知科学实验室从1985年开始开发。WordNet主要定义了名词、动词、形容词和副词之间的语义关系。例如,名词之间的上下位关系,如“猫科动物”是“猫”的上位词;动词之间的蕴涵关系,如“打鼾”蕴涵着“睡眠”等。

    ConceptNet最早源于MIT媒体实验室的OMCS(Open Mind Common Sense)项目。与Cyc 相比,ConceptNet采用了非形式化、更加接近自 然语言的描述,而不是像Cyc一样采用形式化的谓词逻辑。与链接数据和谷歌知识图谱相比,ConceptNet 比较侧重于词与词之间的关系。从这个角度来看,ConceptNet更加接近于WordNet,但是又比WordNet包含的关系类型多。

互联网时代的知识图谱

    互联网的发展为知识工程提供了新的机遇。在一定程度上,互联网的出现帮助传统知识工程突破了在知识获取方面的瓶颈。从1998年TimBerners Lee提出语义网至今,涌现出了大量以互联网资源为基础的新一代知识库。这类知识库的构建方法可以分为三类:互联网众包、专家协作和互联网挖掘。

    Freebase是一个开放共享的、协同构建的大规模链接数据库。Freebase是由硅谷创业公司MetaWeb于2005年启动的一个语义网项目。2010年,谷歌收购了Freebase,并作为其知识图谱数据来源之一。Freebase主要采用社区成员协作方式构建,主要数据来源包括Vikipedia、世界名人数据库(NNDB)、开放音乐数据库(usicBrainz)以及社区用户的贡献等。Freebase基于RDF三元组模型,底层采用图数据库进行存储。Freebase的一个特点是不对顶层本体做非常严格的控制,用户可以创建与编辑类和关系的定义。2016年,谷歌宣布将Freebase的数据和API服务都迁移至Wikidata,并正式关闭了Freebase。

    DBpedia意指数据库版本的Wikipedia,是早期的语义网项日,是从Vikipedia抽取出来的链接数据集。DBpedia采用了一个较为严格的本体,包含人、地点、音乐、电影、组织机构、物种、疾病等类定义。此外,DBpedia还与Freebase、OpenCYC、Bio2RDF等多个数据集建立了数据链接。DBpedia采用RDF语义数据模型,总共包含30亿个RDF三元组。

    Schema..org是从2011年开始,由Bing、Google、Yahoo和Yandex等搜索引擎公司共同支持的语义网项目。Schema.org支持各个网站采用语义标签(Semantic Markup)的方式将语义化的链接数据嵌入到网页中。搜索引擎自动收集和归集这些数据,快速地从网页中抽取语义化的数据。Schema.org提供了一个词语本体,用于描述这些语义标签。目前,这个词汇本体已经包含600多个类和900多个关系,覆盖范围包括个人、组织机构、地点、时间、医疗、商品等。谷歌于2015年推出的定制化知识图谱支持个人和企业在其网页中增加包括企业联系方法、个人社交信息等在内的语义标签,并通过这种方式快速汇集高质量的知识图谱数据。谷歌的一份统计数据显示,超过31%的网页和1200万家网站已经使用了Schema.org发布语义化的链接数据。其他采用了部分Schema.org功能的还包括Cortana、Yandex、Pinterest、.Siri等。Schema.org的本质是采用互联网众包的方式生成和收集高质量的知识图谱数据。

    Wikidata的目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库。Wikidata由Vikipedia于2012年启动,早期得到微软联合创始人Paul Allen、Gordon Betty Moore基金会以及谷歌的联合资助。Wikidata继承了Wikipedia的众包协作机制,但与Wikipedia不同的是,Wikidata支持以三元组为基础的知识条目(Item)的自由编辑。一个三元组代表一个关于该条目的陈述(Statement)。例如,可以给“地球”的条目增加“<地球,地表面积是,五亿平方公里>”的三元组陈述。截至2018年,Vikidata已经包含超过5000万个知识条目。

    BabelNet是类似于WordNet的多语言词典知识库。BabelNet的目标是解决VordNeti在非英语语种中数据缺乏的问题。BabelNet采用的方法是将NordNeti词典与ikipedia集成。首先建立WordNet中的词与Wikipedia的页面标题的映射,然后利用Wikipedia中的多语言链接,再辅以机器翻译技术,给WordNet增加多种语言的词汇。BabelNet3.7包含了271种语言、1400万个同义词组、36.4万个词语关系和3.8亿个从Wikipedia中抽取的链接关系,总计超过I9亿个RDF三元组。BabelNet集成了VordNet在词语关系上的优势和Wikipedia在多语言语料方面的优势,成功构建了目前最大规模的多语言词典知识库。

    NELL(Never-Ending Language Learner)是卡内基梅隆大学开发的知识库。NELL主要采用互联网挖掘的方法从Wb中自动抽取三元组知识。NELL的基本理念是:给定一个初始的本体(少量类和关系的定义)和少量样本,让机器能够通过自学习的方式不断地从Wb中学习和抽取新的知识。目前,NELL己经抽取了300多万条三元组知识。Yago是由德国马普研究所研制的链接数据库。Yago主要集成了Wikipedia、VordNet和GeoNames三个数据库的数据。Yago将WordNet的词汇定义与Vikipedia的分类体系进行了融合集成,使得Yago具有更加丰富的实体分类体系。Ygo还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。目前,Ygo包含1.2亿条三元组知识。Yago也是BM Watson的后端知识库之一。

    Microsoft ConceptGraph是以概念层次体系为中心的知识图谱。与Freebase等知识图谱不同,ConceptGraph以概念定义和概念之间的IsA关系为主。例如,给定一个概念“Microsoft”,ConceptGraph:返回一组与“微软”有lsA关系概念组“Company'"“Software Company"“Largest OSVender'”等,被称为概念化“Conceptualization”。ConceptGraph可以用于短文本理解和语义消歧。例如,给定一个短文本"the engineer is eatingthe apple”,可以利用ConceptGraph。正确理解其中“apple'"的含义是“吃的苹果”还是“苹果公司”。微软发布的第一个版本包含超过540万个概念、1255万个实体和8760万个关系。ConceptGraph主要通过从互联网和网络日志中挖掘数据进行构建。

    LOD(Linked Open Data)的初衷是为了实现Tim Berners-Lee在2006年发表的有关链接数据(Linked Data)作为语义网的一种实现的设想。LOD遵循了Tim提出的进行数据链接的四个规则,即:使用UR标识万物:使用HTTP UR1,以便用户可以(像访问网页一样)查看事物的描述:使用RDF和SPARQL标准:为事物添加与其他事物的UR链接,建立数据关联。LOD已经有1143个链接数据集,其中社交媒体、政府、出版和生命科学四个领域的数据占比超过了90%。56%的数据集对外至少与一个数据集建立了链接。被链接最多的是DBpedia的数据。LOD鼓励各个数据集使用公共的开放词汇和术语,但也允许使用各自的私有词汇和术语。在使用的术语中,有41%是公共的开放术语。

中文开放知识图谱

    OpenKG是一个面向中文域开放知识图谱的社区项目,主要目的是促进中文领域知识图谱数据的开放与互联。OpenKG.CN聚集了大量开放的中文知识图谱数据、工具及文献,如下图所示。典型的中文开放知识图谱数据包括百科类的Zhishi.me(狗尾草科技、东南大学)、CN—DBpedia(复旦大学)、XLore(清华大学)、Belief-Engine(中科院自动化所)、PKUPie(北京大学)、ZhOnto(狗尾草科技)等。OpenKG对 这些主要百科数据进行了链接计算和融合工作,并通过OpenKG提供开放 的Dump或开放访问API,完成的链接数据集也向公众完全免费开放。此外,OpenKG还对一些重要的知识图谱开源工具进行了收集和整理,包括知识建模工具Protege、知识融合工具Limes、知识问答工具YodaQA、知 识抽取工具DeepDive等。

图片名称
OpenKG的主网站

    知识图谱Schema定义了知识图谱的基本类、术语、属性和关系等本体层概念。cnSchema.ORG是OpenKG发起和完成的开放的知识图谱Schema标准。cnSchema的词汇集包括了上千种概念分类(classes)、 数据类型(data types)、属性(propertities)和关系(relations)等常用概念定义,以支持知识图谱数据的通用性、复用性和流动性。结合中文的特点,复用、连接并扩展了Schema.org、Wikidata、Wikipedia等已有的 知识图谱Schema标准,为中文领域的开放知识图谱、聊天机器人、搜索引擎优化等提供可供参考和扩展的数据描述和接口定义标准。通过cnSchema,开发者也可以快速对接上百万基于Schema.org定义的网站,以及Bot的知识图谱数据API。cnSchema 主要解决如下三个问题:

①Bots 是搜索引擎后新兴的人机接口,对话中的信息粒度缩小到短文本、实体和关系,要求文本与结构化数据的结合,要求更丰富的上下文处理机制等,这都需要 Schema的支持;
②知识图谱 Schema缺乏对中文的支持;
③知识图谱的构建成本高,容易重新发明轮子,需要用合理的方法实现成本分摊。

    OpenBase.Al是OpenKG 实现的类似于 Wikidata 的开放知识图谱众 包平台。与 WikiData 不同,OpenBase 主要以中文为中心,更加突出机器学习与众包的协同,将自动化的知识抽取、挖掘、更新、融合与群智协作的知识编辑、众包审核和专家验收等结合起来。此外,OpenBase还支持将图谱转化为Bots,允许用户选择算法、模型、图谱数据等定制生成Bots,即时体验新增知识图谱的作用。

垂直领域知识图谱

    领域知识图谱是相对于DBPedia、Yago、Wikidata、百度和谷歌等搜索引擎在使用的知识图谱等通用知识图谱而言的,它是面向特定领域的知识图谱,如电商、金融、医疗等。相比较而言,领域知识图谱的知识来源更多、规模化扩展要求更迅速、知识结构更加复杂、知识质量要求更高、知识的应用形式也更加广泛。如下表所示,从多个方面对通用知识图谱和领域知识图谱进行了比较分析。下面以电商、医疗、金融领域知识图谱为例,介绍领域知识图谱的主要特点及技术难点。

图片名称
通用知识图谱与领域知识图谱的比较

    以阿里巴巴电商知识图谱为例,最新发布的知识图谱规模已达到百亿级别。其知识图谱数据主要以阿里已有的结构化商品数据为基础,并与行业合作伙伴数据、政府工商管理数据、外部开放数据进行融合扩展。在知识表示方面,除简单的三元组外,还包含层次结构更加复杂的电商本体和面向业务管控的大量规则型知识。在知识的质量方面,对知识的覆盖面和准确性都有较高的要求。在应用形式方面,广泛支持商品搜索、商品导购、天猫精灵等产品的智能问答、平台的治理和管控、销售趋势的预测分析等多个应用场景。电商知识也具有高的动态性特征,例如交易型知识和与销售趋势有关的知识都具有较强的时效性和时间性。

    医疗领域构建有大量的规模巨大的领域知识库。例如,仅Linked LifeData 项目包含的RDF三元组规模就达到102亿个,包含从基因、蛋白质、疾病、化学、神经科学、药物等多个领域的知识。再例如国内构建的中医药知识图谱,通常需要融合各类基础医学、文献、医院临床等多种来源的数据,规模也达到20多亿个三元组。医学领域的知识结构更加复杂,如医学语义网络UMLS 包含大量复杂的语义关系,GeneOnto则包含复杂的类层次结构。在知识质量方面,特别涉及临床辅助决策的知识库通常要求完全避免错误知识。

图片名称
知识图谱帮助构建有学识的人工智能

    金融领域比较典型的例子如 Kensho 采用知识图谱辅助投资顾问和投资研究,国内以恒生电子为代表的金融科技机构以及不少银行、证券机构等也都在开展金融领域的知识图谱构建工作。金融知识图谱构建主要来源于机构已有的结构化数据和公开的公报、研报及新闻的联合抽取等。在知识表示方面,金融概念也具有较高的复杂性和层次性,并较多地依赖规则型知识进行投资因素的关联分析。在应用形式方面,则主要以金融问答和投顾投研类决策分析型应用为主。金融知识图谱的一个显著特点是高度动态性,且需要考虑知识的时效性,对金融知识的时间维度进行建模。

    由上面的例子可以看出,如下图所示,领域知识图谱具有规模巨大、知识结构更加复杂、来源更加多样、知识更加异构、具有高度的动态性和时效性、更深层次的推理需求等特点。

图片名称
规模化的知识图谱系统工程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/717483.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

语义化标签是什么

语义化标签是指具有明确含义的HTML标签&#xff0c;这些标签不仅仅是用来控制样式&#xff0c;还传达了标签包含内容的意义。这些标签使HTML文档更易于阅读和理解&#xff0c;也更有利于搜索引擎优化&#xff08;SEO&#xff09;和无障碍访问。 1. <header> 表示文档或…

如何在springboot项目中引入knife4j接口文档

开发框架&#xff0c;帮助后端开发人员做后端接口测试 knife4j是为Java MVC框架集成Swagger生成Api文档的增强解决方案 引入依赖 <dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spring-boot-starter</artifactId>&…

MySQL-DDL(Data Definition Language)

078-对表结构进行增删改操作 增删改表结构DDL&#xff08;Data Definition Language&#xff09; 创建一个学生表 create table t_student( no bigint, name varchar(255), age int comment 年龄 );查看建表语句 show create table t_student;修改表名 alter table 表名 r…

CTFshow之RCE代码命令远程执行第49关详细讲解。可私信!

棺材里伸手&#xff0c;死要钱&#xff01; --古吉拉特邦 莫迪大仙 引言&#xff1a;由于有些题目实在是让人抓挠&#xff0c;我看完题解后难以接受知识机械的执行获取flag&#xff0c;所以我想着尽可能用我的语言去进行解释&#xff01; 由于是验证猜想实验&#xff0c;所以…

如何应对 CentOS 的停更?

文章目录 如何应对 CentOS 的停更&#xff1f;Linux发行版CentOS停更后&#xff0c;我们可选的替代品RHEL LinuxRocky Linux公有云 LinuxDebian 系 Linux 如何应对 CentOS 的停更&#xff1f; Linux发行版 Linux内核是开源的&#xff0c;任何人都可以获取源代码&#xff0c;进…

树莓派pico入坑笔记,mpy文件制作

py文件本质上就是一个文本文件&#xff0c;运行时使用python解释器解释成机器运行的代码&#xff0c;然而对于单片机这样资源紧张的计算机来说&#xff0c;一个库文件或者运行代码文件的文本还是太大了。 因此&#xff0c;为了减小代码存储空间&#xff0c;可以将代码预处理&a…

Windows双网卡配置 同时访问内网与外网

前言 记得之前在某家公司实习的时候&#xff0c;每天都是做到工位面前打开那个内网的网站进行办公&#xff0c;有时候想要访问一下百度都无法访问&#xff0c;因为公司的网络是没有接外网的&#xff0c;但是通过一些手段我还是可以连接了外网&#xff0c;下面就来说一下我如何…

一文教你使用sql快速查询1对多数据关系,生成一个多维数据!

本篇文章主要讲解&#xff1a;利用mysql的sql特性&#xff0c;实现对多表查询下&#xff0c;一个用户对应多条记录数据查询为一条数据并以列表形式显示的教程。 日期&#xff1a;2024年6月17日 作者&#xff1a;任聪聪 一、创建数据库表 创建test_a表&#xff0c;内容如下&…

企业内网是如何禁用U盘的?电脑禁用U盘有哪些方法?

在当今企业环境中&#xff0c;数据安全和信息保护至关重要。 为了防止数据泄露和恶意软件传播&#xff0c;很多企业选择在内网中禁用U盘&#xff0c;以控制数据的物理传输。 小编这就来给大家总结一份详细指南&#xff01;&#xff01; 关于企业内网如何禁用U盘的指南&#x…

比尔·盖茨启动新项目,拟投资数十亿美元建设新一代核电站

KlipC报道&#xff1a;微软联合创始人比尔盖茨表示&#xff0c;他准备投入数十亿美元在怀俄明州建设新一代核电站项目&#xff0c;用来满足美国不断增长的电力需求。 在周日的一次采访中&#xff0c;比尔盖茨表示他创办的初创公司TerraPower上周在怀俄明州已经破土动工&#x…

揭示SOCKS5代理服务器列表的重要性

在复杂的网络安全领域中&#xff0c;SOCKS5代理在保护在线活动方面发挥着关键作用。本文深入探讨了SOCKS5代理服务器列表的细节&#xff0c;探讨了它们的应用、优势以及在增强在线安全和隐私方面不可或缺的功能。 一、理解SOCKS5代理服务器列表 作为在客户端和服务器之间进行通…

FlowUs息流开启知识管理的新纪元|FlowUs息流公开知识库

在信息爆炸的时代&#xff0c;如何高效地管理和利用知识成为了一个挑战。FlowUs知识库以其超巨的性价比&#xff0c;为用户带来了全新的解决方案。它不仅仅是一个存储信息的工具&#xff0c;更是一个能够激发创造力和提高生产力的平台。 性价比之选 FlowUs以其合理的价格&…

Mysql开启查询日志(General Log)

1、增加配置&#xff1a; /etc/my.cnf [mysqld] general_log1 general_log_file/var/log/mysql/query.log 2、增加目录和文件&#xff0c;并且授权 可以使用以下命令修改权限&#xff1a; 创建目录&#xff1a;sudo mkdir -p /var/log/mysql 更改目录所有者&#xff1a;sudo…

反射复习(java)

文章目录 反射机制的作用反射机制的原理加载机制详细解释 获取 Class 对象反射获取构造方法&#xff1a;获取 Class 对象里面 Constructor 对象反射获取成员变量&#xff1a;获取Class 对象里面的 Field 对象反射获取成员方法&#xff1a;获取 Class 对象里的 Method 对象其他常…

C#聊天室客户端完整③

窗体 进入聊天室界面(panel里面,label,textbox,button): 聊天界面(flowLayoutPanel(聊天面板))&#xff1a; 文档大纲(panel设置顶层(登录界面),聊天界面在底层) 步骤&#xff1a;设置进入聊天室→输入聊天→右边自己发送的消息→左边别人发的消息 MyClient.cs(进入聊天室类) …

轮式机器人Swiss-Mile城市机动性大提升:强化学习引领未来城市物流

喜好儿小斥候消息&#xff0c;苏黎世联邦理工学院的研究团队成功开发了一款革命性的机器人控制系统&#xff0c;该系统采用强化学习技术&#xff0c;使轮式四足机器人在城市环境中的机动性和速度得到了显著提升。 喜好儿网 这款专为轮腿四足动物设计的控制系统&#xff0c;能…

crmeb Pro版/多店版商城付费会员、会员卡功能说明

一、功能介绍 用户开通付费会员后&#xff0c;可获得多项商城优惠&#xff0c;商家可通过此功能锁定重要客户&#xff0c;培养客户消费习惯等 二、操作流程 用户 &#xff1e; 会员管理 &#xff1e; 付费会员 三、功能说明 1. 会员类型 付费卡类型&#xff1a;月卡、季卡…

【电机控制】FOC算法验证步骤——PWM、ADC

【电机控制】FOC算法验证步骤 文章目录 前言一、PWM——不接电机1、PWMA-H-50%2、PWMB-H-25%3、PWMC-H-0%4、PWMA-L-50%5、PWMB-L-75%6、PWMC-L-100% 二、ADC——不接电机1.电流零点稳定性、ADC读取的OFFSET2.电流钳准备3.运放电路分析1.电路OFFSET2.AOP3.采样电路的采样值范围…

RNN-循环神经网络

1.前者的输出作为后者的输入&#xff08;循环&#xff09;&#xff0c;有先后关系的信息&#xff0c;前影响后&#xff0c;时间序列。处理数字信息。 2.独热编码 ont-hot Encoding&#xff1a;处理的文字数据地位相同&#xff0c;相当于用二进制数01给数据编码&#xff0c;会增…

学习笔记——网络管理与运维——SNMP(SNMP原理)

四、SNMP原理 SNMP的工作原理基于客户端-服务器模型。其中&#xff0c;网络管理系统是客户端&#xff0c;而网络设备是服务器。客户端向服务器发送请求消息(即"Get"或"Set"命令)来获取或修改服务器的信息。服务器收到请求消息后&#xff0c;会返回相应的响…