知识图谱概论

文章目录

- 语言与知识
- 相关知识图谱
- 知识图谱价值
- 知识图谱技术内涵

语言与知识

人的大脑依赖所学的知识进行思考、推理、理解语言…

人类通过认识世界积累知识，并通过语言来描述、记录和传承关于世界的知识。同时，准确理解语言也极大依赖大脑中所习得的各种知识。

语言：“G20上午开会休息了，马云对秘书说：中午帮我买肯德基，30分钟后，秘书回来说，买好了，一共4.6亿美元，咱是支付宝还是现金？”

知识：“昨日晚间，百胜餐饮集团（肯德基和必胜客母公司）宣布与春华资本及蚂蚁金服达成协议，二者共同向百胜中国投资4.6亿美元。”

人类的自然语言，以及创作的绘画和音乐、数学语言、物理模型、化学公式等都是人类知识的表示形式和传承方式。具有获取、表示和处理知识的能力是人类心智区别于其它物种心智的最本质特征，也是人脑智能的最本质特征。语言是知识的自然描述方式和表达载体，既然人脑能够从文本获取和学习知识，机器脑也应该具备从文本中抽取知识的能力。

知识是有道理的，真正的信仰知识是一种熟悉、觉知或了解某人或某事，例如作为事实、信息、描述或技能，这是通过经验获得的或通过感知、发现或学习。知识图谱旨在利用图结构建模、识别和推断事物之间的复杂关联关系和沉淀领域知识，是实现认知智能的重要基石，已经被广泛应用于搜索引擎、智能问答、语言语义理解、大数据决策分析、智能物联等众多领域。

自然语言：为句子中的每个词学一个向量表示；知识图谱：为每个实体和关系学习一个向量表示；图像视频：为视觉中的每个对象学习一个向量表示。

人的大脑依靠所学的知识进行思考和推理，具有表示、获取、学习和处理知识的能力是人类心智区别于其他物种最根本的区别之一。语言是知识的最主要表示载体，语言与知识是实现认知智能最重要的两个方面。知识图谱可以看作是一种结构化的知识表示方法，相比于文本更易于被机器查询和处理，因而在搜索引擎、智能问答、大数据分析等领域被广泛应用。语言与知识的向量化表示，以及利用神经网络实现语言与知识的处理是重要的人工智能技术发展趋势。

相关知识图谱

万维网创始人，MIT教授，2016年图灵奖获得曾说过：以“链接”为中心的系统，在开放的互联网环境里面更加容易生长和扩展。这一理念逐步被人们实现，并演化发展成为今天的万维网。利用规范化的语义表示（Schema & Ontology）将碎片化的数据关联和融合。

以下是典型的知识图谱项目：

Freebase

WikiData

谷歌2015年12月推出的Cutomizable Knowledg Graph，允许各网站基于Schema.org，以RDFa， JSON-LD， HTML Microdata等方式在网页、邮件等数据源中嵌入语义化数据，支持个人和企业定制自己的知识图谱信息，全球约有1.2亿的网站，超过30%的网页已经嵌入有Schema.org的语义数据。

Schema.org

DBPedia是早期的语义网项目。DBPedia意指数据库版本的Wikipedia，是从Wikipedia抽取出来的链接数据集。DBPedia采用了一个较为严格的本体，包含人、地点、音乐、电影、组织机构、物种、疾病等类定义。DBPedia与Freebase，OpenCYC、Bio2RDF等多个数据集建立了数据链接。DBPedia采用RDF语义数据模型，总共包含30亿RDF三元组。

YAGO是由德国马普研究所研制的链接数据库。YAGO主要集成了Wikipedia、WordNet和GeoNames三个来源的数据。YAGO将WordNet的词汇定义与Wikipedia的分类体系进行了融合集成，使得YAGO具有更加丰富的实体分类体系。YAGO还考虑了时间和空间知识，为很多知识条目增加了时间和空间维度的属性描述。目前，YAGO包含数亿条高质量三元组知识。YAGO是IBM Watson的后端知识库之一。

WordNet是最著名的词典知识库，主要用于词义消歧。由普林斯顿大学认识科学实验室从1985年开始开发。WordNet主要定义了名词、动词、形容词和副词之间的语义关系。例如名词之间的上下位关系（如：“猫科动物”是“猫”的上位词），动词之间的蕴含关系（如：“打鼾”蕴含着“睡眠”）等。WordNet3.0已经包含超过15万个词和20万个语义关系。

ConceptNet最早源于MIT的Open Mind Common Sense 项目，由著名人工智能专家Marvin Minsky于1999年建议创立。与谷歌知识图谱相比，ConceptNet侧重于词与词之间的关系。更加接近于WordNet，但比WordNet包含的关系类型多。ConceptNet完全免费开放，并支持多种语言。

BabelNet是多语言词典知识库。包含了271种语言，1400万同义词组，36.4万词语关系和3.8亿从Wikipedia中抽取的链接关系，总计超过19亿RDF三元组。BabelNet集成了WordNet在词语关系上的优势和Wikipedia在多语言方面的优势，是目前最大规模的多语言词典知识库。

知识图谱的演变：

知识图谱价值

KG辅助搜索—语义搜索，Web的理想是链接万物，搜索的理想是万物搜索。KG辅助问答交互—知识问答，机器人及IOT设备的智能化：给万物都挂接一个背景知识库。对话式的信息获取更加需要精准度和可靠度，知识图谱对于提升用户体验更加不可少。KG辅助推荐系统，将知识图谱引入到推荐系统中，可以增强User和Item的特征表示，有利于挖掘更深层次的用户兴趣，关系多样性也有利于实现更加个性化的推荐，丰富的语义描述还可以增强推荐结果的可解释性。

KG辅助推荐系统

KG辅助语言理解，当一个人听到或看到一句话的时候，他使用自己所有的知识和智能去理解。这不仅包括语法，也包括他的词汇知识、上下文知识，更重要的，是对相关事物的理解。KG辅助视觉理解，知识图谱在CV领域有广泛的应用，将视觉识别出的对象链接到外源的知识图谱，可用来辅助图像语义关系抽取和视觉语义的深入理解等。KG辅助语义辅助设备互联，机器与机器之间的相互理解和交流沟通需要设备抽象与设备数据语义化，终极的万物互联是设备通过规范化的语义进行数据层面的互联。

KG辅助推荐系统

知识图谱技术源于互联网，最早落地应用的也是搜索引擎、智能问答和推荐计算等技术领域。知识图谱通过规范化语义融合多来源数据，并能通过图谱推理能力支持复杂关联数据的挖掘分析，因此在大数据分析领域也有广泛应用。不论是语言理解和视觉理解，外源知识库的引入都可以有力的提升语义理解的深度和广度。知识图谱在医疗、金融、电商、通信等多个垂直领域都有着广泛的应用，并且每个领域都有其独特的实现和实践方式。

知识图谱技术内涵

知识 + 图谱：两个互补的技术维度。知识图谱比纯图谱更具表现力，但比形式逻辑更简单。

知识 + 图谱

有向标记图（Directed-Labled Graph）——最简单、最接近自然语言和人脑认知的数据模型。RDF 代表 Resource Description Framework (资源描述框架)。RDF 三元组（S，P，O）对语句进行编码——一个简单的逻辑表达式，或关于世界的主张。

图数据库充分利用图的结构建立微索引，这种微索引比起关系数据库的全局索引在处理图遍历查询时更加廉价，其查询复杂度与数据集整体大小无关，仅正比于相邻子图的大小。因此在很多涉及复杂关联和多跳的场景中得到广泛应用。

从不同来源、不同结构的数据中进行知识提取，形成知识存入到知识图谱。文本一般不作为知识图谱构建的初始来源，而多用来做知识图谱补全。基于符号逻辑的推理方法: OWL Reasoners、Datalog、Rete等。基于图结构或表示学习的推理方法: PRA、AMIE、TransE、Analogy、DeepPath、NeuralLP等。