爱奇艺文娱知识图谱的构建与应用实践

2012年5月,Google发布了知识图谱(Knowledge Graph),以提升搜索引擎返回的答案质量和用户查询的效率。有了知识图谱作为辅助,搜索引擎能够洞察用户查询背后的语义信息,返回更为精准、结构化的信息,更大可能地满足用户的查询需求。

知识图谱在工业领域得到了广泛应用; 7-2

目前,随着智能信息服务应用的不断发展,知识图谱已广泛应用于智能搜索、智能问答、个性化推荐、聊天机器人、大数据风控、证券投资、智能医疗、自适应教育等领域。知识图谱做AI技术的重要垂直分支,其在技术领域的热度也逐年上升。

本篇是『知识图谱构建与落地实践』的实践篇,我们与来自爱奇艺的NLP工程师奇异果,一起研究学习爱奇艺搜索团队2015年开始搭建的 奇搜知识图谱库 (爱奇艺搜索 - 全网视频搜索引擎) ,了解奇搜知识图谱的构建过程,及其在爱奇艺搜索、NLP服务中的具体应用。

一、知识图谱介绍

本质上,知识图谱是一种揭示实体之间关系的语义网络,对现实世界的事物及其相互关系进行形式化地描述。

知识图谱(Knowledge Graph) | 定义; 7-3

A knowledge graph consists of a set of interconnected typed entities and their attributes.

——《Exploiting Linked Data and Knowledge Graphs in Large Organisations

知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱由一系列的(实体,关系,实体)三元组构成,用以表达现实世界中的诸多场景。

  • 实体(Entity)指的是现实世界中的事物,是图里的节点。
  • 关系(Relation)指的是不同实体之间的某种联系,是图里的“边”。

知识图谱 | 社交网络知识图谱示例; 7-4

图示为一个社交网络知识图谱: 实体有『人』『物品』『建筑』『城市』等。『人与人之间的关系』可以是朋友或粉丝,『人与物品的关系』可以是创作或喜欢。

二、奇搜知识图谱构建方法与流程

爱奇艺搜索(奇搜,https://so.iqiyi.com/) 是国内最大的视频搜索引擎之一,涵盖全网海量视频资源,为用户提供优质的全网视频&娱乐领域的搜索服务。

爱奇艺搜索 | https://so.iqiyi.com/ | ; 7-5

奇搜团队努力完善对视频内容和用户意图的理解,并在过程中构建了以视频领域为主的知识图谱库。

爱奇艺搜索 | 以视频为主的知识图谱库; 7-6

当前,奇搜知识图谱的构建流程主要分为几个步骤:

  • 知识表示与建模
  • 知识获取
  • 知识融合
  • 知识存储
  • 知识应用(知识查询与推理)

爱奇艺 · 奇搜知识图谱的构建流程; 7-7

2.1 知识表示与建模

我们在确认知识的建模表示方式之后,再构建知识图谱。目前主要的知识建模方式有两种,爱奇艺奇搜知识图谱的构建采用的是自顶向下的建模方式。

(1)自顶向下的数据建模方法。先为知识图谱设计数据模式( Schema ),再依据设计好的数据模式进行有针对性的数据抽取;

(2)自底向上的数据建模方法。先进行数据的收集和整理,再根据数据内容总结、归纳其特点,提炼框架,逐步形成确定的数据模式。

知识表示与建模 | 2种数据建模方法; 7-8

1)RDF三元组

RDF(Resource Description Framework),即资源描述框架,实际上是一种数据模型,用来链接资源的各种描述。

  • Resource:页面、图片、视频等任何具有URI标识符。
  • Description:属性、特征和资源之间的关系。
  • Framework:模型、语言和这些描述的语法。

知识表示与建模 | RDF与(S,P,O)三元组; 7-9

RDF由一系列三元组(triple)模型组成,即每一份知识可以被分解为 (Subject(主),Predicate(谓),Object(宾))。

  • 主语(Subject):声明被描述的对象
  • 谓语(Predicate):这个对象的属性
  • 宾语(Object):这个属性的

所以,RDF三元组可以被描述成 (对象,属性,值),即上文提到的 (节点,边,节点) 这样的图。

2)RDFS (RDF Schema)

一个三元组就是一个关系。在RDF里可以声明一些规则,从一些关系推导出另一些关系。这些规则称为“Schema”,所以有了 RDFS(RDF Schema)。规则可以用一些词汇表示,如Class、subClassOf、type、Property、subPropertyOf、Domain、Rnage等。

知识表示与建模 | RDFS推理实例; 7-10

『爱奇艺是一家人工智能公司』 和『一家人工智能公司是一家高科技公司』,可以推导出『爱奇艺是一家高科技公司』。

3)奇搜知识图谱Schema

奇搜基于RDF/RDFS定义了图谱的实体类型、关系(属性)类型、以及实体本身的 Schema 定义。每一层定义在 Schema 的表示语法上都是一致的。

知识表示与建模 | 知识图谱Schema; 7-11

  • Rules层(规则层)。一些基础概念的定义(包括RDF/RDFS已有的定义,以及基于RDF / RDFS定义的、供实体类型/属性定义使用的规则定义),该层规则的定义一般在确定后是不可变的。
  • Ontology层(本体定义层)。包括可实例化的实体类型(Class,可继承)和属性(Property,可继承)的定义,如Thing,Person,wife,name等。
  • Entities层(实体层)。保存在实体库中的具体实体。

为了帮助定义和使用图谱 Schema(主要上图中的本体定义层),爱奇艺搜索团队开发了一套 Schema 系统来负责管理和解析奇搜知识图谱的 Schema 定义:

知识表示与建模 | 奇搜知识图谱Schema系统; 7-12

最终定义的实体类型的继承关系片段示例如下图:

知识表示与建模 | 实体类型的继承关系(片段); 7-13

2.2 知识获取

知识图谱的构建是后续应用的基础,而且构建的前提是需要把数据从不同的数据源中抽取出来。知识获取是构建知识图谱的前提条件,也是自动构建知识图谱的影响核心要素。

数据是知识图谱的根基,直接关系到知识图谱构建的效率和质量。比如,从结构化的数据中构建知识图谱比从非结构化的数据中构建,效率和准确率要高;数据越复杂,噪音越大,构建成本就越高。

目前奇搜知识图谱的数据来源除去人工创建的数据外,主要有站内数据垂直网站数据百度百科数据三种数据来源。

知识获取 | 不同数据来源的优势 & 劣势; 7-14

1)实体分类

实体分类主要用于处理百度百科的数据。因为百度百科的数据没有类别信息,需要先对词条进行实体类型的识别。具体实现是为每种实体类型训练一个实体分类器,准确率可衡量,并且互不影响,可以快速拓展。

知识获取 | 实体分类器; 7-15

实体分类器模型示意图,整体采用启发式方法。

  • 构建基于规则池的分类器,生成训练数据,训练DNN模型(self-attention)文本分类模型;
  • DNN分类器与规则分类器互相扩充迭代(一到两轮),最终线上使用规则分类器。
  • 生成过程中会用上百科词条中的描述文本、infobox字段、超链接词条、词条标签等信息作为特征。
2)实体抽取

实体抽取,是指从数据中识别和抽取实体的属性与关系信息。对不同类型、不同数据源的数据,分别开发属性/关系抽取脚本。

由易到难,主要包括以下三类抽取方式

知识获取 | 实体抽取; 7-16

(1)结构化数据抽取:大部分站内/垂直网站的信息,以及部分百度百科的信息,是结构化的数据,比较易于抽取。源数据结构和实体类型定义(即目标数据结构)多种多样。为了提高开发效率,将结构化数据的抽取流程进行抽象,并写成统一的框架,利用策略模式将抽取的具体规则用groovy脚本来实现。当扩展新的来源和目标实体类型时,只需实现新的抽取脚本。

(2)半结构化数据抽取:百度百科中存在很多表格、列表等格式不完全规则的半结构化信息,抽取有一定难度。比如,半结构化信息中存在一些质量较高的统计性的数据。对于这类数据,采用基于有监督学习的包装器归纳方法进行抽取。

(3)非结构化数据挖掘:百度百科以及站内的描述等大量文本中,也存在有很多宝贵的信息。对于这类数据的实体挖掘,需要借助自然语言处理的手段(主要是实体识别等服务)。

  • 一方面,通过实体链接服务把从文本中抽取得到的实体对象,链接到实体库中对应的正确实体对象,以挖掘文本中关系。
  • 另一方面,利用NER(name entity recognition/实体识别)技术来识别来挖掘文本中的实体。

2.3 知识融合

知识融合主要解决实体对齐(Object Alignment) 的问题。完成实体抽取后,存在实体ID不同但代表真实世界中同一对象的情况。知识融合即是将这些实体合并成一个具有全局唯一标识的实体对象,添加到知识图谱中。

下图是实体对齐的流程图

所有来源的实体数据都会进入原始实体库,并对原始表中的数据建立索引。当一个原始实体 rawEntity 进入最终实体库之前,要在原始实体库中寻找是否有其它原始实体和rawEntity实际上是同一个实体。

知识融合 | 实体对齐的流程图; 7-17

  • 首先,在索引中根据名字、别名等字段查询出若干个可能是相同实体的候选列表,这个步骤的目的是减少接下来流程的计算量。
  • 然后,经过实体判别模型,根据模型得分识别出待合并对齐的原始实体。
  • 最后,经过属性融合模型,将各原始实体的属性字段进行融合,生成最终的实体。

这个流程中的合并判断模型实际上是通过机器学习训练生成的二分类器

2.4 知识存储

线上使用的图数据库引擎选择了JanusGraph。JanusGraph需要外部的存储系统与外部索引系统的支持。所以,爱奇艺搜索团队借助爱奇艺云平台的Hbase和ES集群,搭建了自己的JanusGraph分布式图数据库引擎,支持在线游走查询服务。

知识存储 | JanusGraph分布式图数据库引擎; 7-18

三、奇搜图谱的业务应用

3.1 问答式搜索服务

基于图数据库引擎提供的查询服务,以及NLP技术对用户query的意图理解,提供了多种类型的问答式搜索结果服务。包括:

  • 明星、剧集的属性类的查询:如生日、剧的播出时间等。
  • 实体的关系类的查询:明星的关系、剧集与明星/角色的关系、剧集间的关系、以及各种关系的组合等等。
1)智能问答

爱奇艺 · 奇搜知识图谱的应用; 7-19

◉ 吴京学校

2)关系查询

爱奇艺 · 奇搜知识图谱的应用; 7-20

◉ 《甄嬛传》演员表

3)剧集周边

爱奇艺 · 奇搜知识图谱的应用; 7-21

◉ 《请回答1988》主题曲

4)关系组合

爱奇艺 · 奇搜知识图谱的应用; 7-22

◉ 刘培强的演员还演过

3.2 基础数据服务

奇搜知识图谱的实体库作为基础数据,被用于NLP团队提供的分词和实体识别、意图识别等服务,也在明星图谱等业务场景下直接展示。

1)分词实体识别

爱奇艺 · 奇搜知识图谱的应用; 7-23

◉ 于和伟在《觉醒年代》里饰演陈独秀

2)明星图谱展示

爱奇艺 · 奇搜知识图谱的应用; 7-24

◉ 吴京

3.3 标签挖掘与标签体系完善

知识图谱的数据,可以帮助建立和完善标签体系,以及挖掘视频数据上的标签;同时,标签体系也可以反过来丰富知识图谱。

1)标签挖掘

利用推理等技术,对知识图谱进行挖掘。推理功能一般通过可扩展的规则引擎来完成:

  • 属性的推理:如根据出生年月推理出年龄、星座等。
  • 关系的推理:如根据已有的『妻子关系』推理出反向『丈夫关系』,根据『儿子的儿子』链式关系推理出『孙子』关系等。
2)标签体系完善

视频标签体系完善可以采用同样的方法:视频上的标签与图谱实体进行映射之后,应用和上面一样的推理规则(这里主要用到实体的上下位词、属于、包含等关系)来进行标签拓展。其他的拓展方法还包括Graph Embedding等技术(扩展同类型的关联性强的实体)。

下面是一些标签挖掘的线上应用实例:

爱奇艺 · 奇搜知识图谱的应用; 7-25

◉ 广场舞:广场舞实体、舞队实体、舞曲实体、视频实体

◉ 科幻电影:科幻电影实体、类型实体、明星实体、视频实体

四、总结

上文介绍了奇搜知识图谱的构建以及在搜索中应用。

传统视频搜索 → 爱奇艺搜索; 7-26

传统的视频搜索,通过为整段视频添加文字标签,并将其与用户搜索的信息进行匹配,来完成搜索过程,其搜索原理与传统文字搜索相同。

基于爱奇艺的核心视频业务,奇搜知识图谱全新的娱乐搜索功能,可以帮助用户找到想要的内容、回答用户的问题、以及理解用户的搜索意图,给用户带来更佳的搜索体验。随着视频内容理解和视频知识图谱库的不断完善,未来用户观看视频将像使用文字一样轻松便捷,对于视频搜索、互动的想象空间也在不断清晰。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/594623.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

界面组件Kendo UI for Angular教程 - 构建强大的PDF阅读器(一)

如今当用户需要处理PDF文件时,通常不得不下载应用程序或者浏览器插件,控制用户如何与PDF交互并不是一件容易的事。如果我们提供PDF作为内容,用户可以下载它并使用浏览器或PDF本身提供的控件进行交互。然而,一些企业可能希望控制用…

PN结击穿与电容效应分析

PN结是半导体器件中的一个基本结构,它由P型半导体和N型半导体紧密接触并相互结合在一起形成。P型半导体富含空穴(正电荷载体),是通过掺入受主杂质原子得到的;而N型半导体富含自由电子(负电荷载体&#xff0…

『春招实习』2023年3月春招实习求职经历

『春招实习』2023年3月春招实习求职经历 简介货拉拉一面杭州吉里一面传墨科技一面 简介 3月初我便开始陆续投递简历,直观的感受就是【投递的太晚了】,很多公司很早就开始招聘实习生了。 但是自己一直在担心没准备好,所以就想着再准备一天就投…

Covalent Network(CQT)为 Arbitrum 生态提供 250 万美元的资助,以促进 Web3 的创新与发展

Covalent Network(CQT)作为 Web3 领先的“数据可用性”层,宣布将提供 250 万美元的资金以支持 Arbitrum 生态项目,包括 Arbitrum One、Nova、Orbit 或 Stylus。此举旨在通过提供资源和帮助,推动利用 Arbitrum 网络上 C…

第二证券|股票w是什么意思?

字母W开头是指在科创板上市,发行人具有表决权差异组织的,即同股不同权的股票。上市后不再具有表决权差异组织的,该特别标识撤销。 科创板其他一些特别的字母标识: 1、发行人尚未盈余的,其股票或存托凭据的特别标识为…

windows10为什么微信可以上网浏览器无法上网?

windows10为什么微信可以上网浏览器无法上网? 问题描述解决办法 问题描述 打开电脑学习时,微信可以上网,浏览器无法上网,如何解决? 解决办法 1.控制面板->网络和Internet 2.Internet选项 3.Internet属性->连…

SQLI-labs-第十三关和第十四关

知识点:POST方式的单引号和括号闭合错误,报错注入 第十三关 思路: 1、判断注入点 使用Burpsuite抓包 首先加入一个单引号,爆出了数据库语句错误,说明存在注入点,根据提示,这里可能是’)闭合错…

【prometheus】Pushgateway安装和使用

目录 一、Pushgateway概述 1.1 Pushgateway简介 1.2 Pushgateway优点 1.3 pushgateway缺点 二、测试环境 三、安装测试 3.1 pushgateway安装 3.2 prometheus添加pushgateway 3.3 推送指定的数据格式到pushgateway 1.添加单条数据 2.添加复杂数据 3.SDk-prometheus-…

Linux网络部分——DHCP、FTP

目录 一、DHCP动态主机配置协议 1. DHCP工作原理(流程) 2. 使用DHCP的好处 3.DHCP的分配方式 4.DHCP安装和配置【☆】 二、FTP文件传输协议 1. FTP传输模式 2.FTP安装与配置【☆】 3. FTP设置白名单和黑名单【☆】 一、DHCP动态主机配置协议 DH…

安全数据交换系统哪个好?该如何选型?

安全数据交换系统是用于在不同网络或组织之间安全、高效地传输和共享数据的解决方案。安全数据交换系统对于任何需要处理敏感数据、确保数据安全、并满足合规要求的组织来说都是至关重要的。 这种系统通常用于以下目的: 1)数据传输:允许用户…

项目经理【人】原则

系列文章目录 【引论一】项目管理的意义 【引论二】项目管理的逻辑 【环境】概述 【环境】原则 【环境】任务 【环境】绩效 【人】概述 【人】原则 一、共创模式 1.1 共创模式 二、干系人的影响力强度和态度 2.1 干系人影响力 2.2 干系人态度 2.3 干系人管理 三、干系人权力…

自动驾驶融合定位系列教程五:惯性导航误差分析

自动驾驶融合定位系列教程五:惯性导航误差分析 一、概述 在定位领域的几乎所有多传感器融合系统中,都有IMU存在,而且,IMU是定位系统的主线与核心(对此可能很多人并不同意,但是我仍然坚定地坚持这一观点&a…

spring中的bean是线程安全的嘛

在Spring框架中,bean默认情况下不是线程安全的。Spring容器在初始化bean时,会为其创建一个单例实例,这个实例在整个应用中是唯一的,并且只会被初始化一次。由于这个特性,bean在默认情况下不是线程安全的。 然而&#…

亚马逊测评工作室如何轻松实现高收益,跨境电商揭秘汇率差赚钱术

随着跨境电商在国内市场的持续繁荣,众多电商卖家纷纷将目光投向了这一充满活力的领域。面对国内市场的激烈竞争,许多卖家选择向外拓展,寻求更广阔的发展空间。其中,亚马逊成为了众多卖家的不二选择,毕竟老外的市场还是…

吴恩达2022机器学习专项课程C2(高级学习算法)W1(神经网络):2.3 案例图像识别

目录 电脑如何表示一张图像1.像素2.像素亮度值3.展开像素亮度值 神经网络构建人脸识别1.需求2.整体过程3.隐藏层识别图像4.小结 神经网络构建识别汽车神经网络在计算机视觉应用中的工作原理 电脑如何表示一张图像 1.像素 像素是图像最小单位,用于表示图像中的点或…

Android Ant编译环境配置(Win)

1、 载ant包: 2、设置环境变量: 3、检查是否设置成功及版本 4、执行命令: android update project -p . -n “projectname”(例如:android update project --target 1 -p . -n “Couplet”)(只输入红色部分也是可以的…

Unity3D DOTween

简单介绍一下 DOTween 插件的使用。 导入插件 先到 Asset Store 获取 DOTween 插件,然后在 Package Manager 的 My Assets 中搜索,下载并导入插件。 导入后,会自动弹出一个窗口,提示需要先对插件进行配置。 点击上图中的按钮&am…

Oracle 23ai 发布,国产数据库们都沉默了

几天前,全球最大的数据库软件公司 Oracle 发布了最新版的 Oracle Database 23ai ,集成了最新的 AI Vector Search(AI 向量搜索引擎),允许根据概念内容轻松搜索存储在任务关键型数据库中的文档、图像和关系数据&#xf…

Web安全:SQL注入漏洞详解,SQL注入常见功能、危害、分类、判断注入点、注入方式

「作者简介」:2022年北京冬奥会网络安全中国代表队,CSDN Top100,就职奇安信多年,以实战工作为基础对安全知识体系进行总结与归纳,著作适用于快速入门的 《网络安全自学教程》,内容涵盖系统安全、信息收集等…

我国碳酸甲乙酯需求量较大 市场集中度有望不断提升

我国碳酸甲乙酯需求量较大 市场集中度有望不断提升 碳酸甲乙酯(EMC)又称为碳酸乙基甲酯,是一种有机化合物。碳酸甲乙酯分子式为C4H8O3,多表现为一种具有果香味道的无色透明液体。碳酸甲乙酯具有毒性较低、溶解性优良等特点&#x…