文章目录
- 计算设备及硬件的发展
- 可用数据规模的提升
- 算法演进
- 数据/知识检索需求攀升
- 开源知识库建设
- 专业人才培养
计算设备及硬件的发展
知识图谱的发展离不开计算硬件的支撑,特别是知识图谱构建、推理、应用过程中的机器学习算法的训练和预测等过程,对计算硬件的依赖显得尤为明显。随着越来越多不同类型的硬件设备连接到互联网,生成了海量有用业务数据,同时基于这些业务数据在一定程度上改善该行业领域的用户体验。现阶段知识图谱对算力的需求体现在两方面,一是知识图谱算法包括大量的卷积、残差网络、全连接等计算需求,在摩尔定律接近物理极限、工艺性能提升对计算能力升级性价比日益降低的前提下,仅基于工艺节点的演进已经无法满足算力快速增长的需求;二是知识图谱需要对海量数据样本进行处理,强调芯片的高并行计算能力,同时大量数据搬运操作意味着对内存存取带宽的高要求,而对内存进行读写操作尤其是对片外内存进行读写访问的消耗的功耗要远大于计算的功耗,因而高能效的内存读写架构设计对芯片至关重要。目前市场上知识图谱技术使用的主流硬件加速器有三类:GPU、FPGA、ASIC。
CPU与GPU两者都是由控制器、逻辑单元和寄存器组成,在CPU中控制器和寄存器占很大比重,而在GPU中逻辑单元的规模远远高于CPU。这种不同的构架决定了GPU在数据的算术、逻辑运算等方面的并行处理能力显著增强,而基于神经网络的知识图谱技术,对并行处理能力的要求远远高于计算精度。除了计算核心的增加,GPU在每个流处理器集群末端设有共享内存,在共享内存中就可以完成线程之间的数据通讯,通讯速度显著提高,而CPU每次都返回内存,进行数据调用。另外,GPU采用的是GDDR5显存颗粒,具备很高的工作频率和显存带宽,对大规模深度神经网络的训练更有优势。越来越多的深度学习标准库支持基于GPU加速,如OpenCL、CUDA等。英伟达的GPU云平台NGC,提供Caffe、Caffe2、MXNet、CNTK、Theano、TensorFlow、Torch等框架、深度学习SDK等,大大促进了知识图谱技术的发展与应用效果。
GPU价格昂贵且功耗大,相对于GPU,价格便宜、能耗较低的可编辑门阵列(FPGA)引起了大家的注意。目前,FPGA可以采用OpenCL、C等更高效的编程语言,降低了硬件编程的难度,还可以集成重要的控制功能,整合系统模块,提高了应用的灵活性,FPGA以门电路直接运算,速度快,而用户可以自由定义这些门电路和存储器之间的布线,改变执行方案,以期得到最佳效果。FPGA是承载知识图谱技术的重要手段之一,以其价格低、功耗低的特性,使得知识图谱在智能终端上推广成为了可能。
随着机器学习技术的蓬勃发展,越来越多的机器学习算法被应用到知识图谱的构建、演化、推理等各个环节中,因此机器学习模型的运算速度决定了知识图谱更新周期。虽然GPU并行处理能力高,但不是针对机器学习而设计的,而FPGA要求用户自主编程,对用户的要求过高。芯片要同时具备并行化、低功耗、高性能等特性,还需要实现本地即时计算,这时ASIC(专用集成电路)的优势就显现出来了。但是,ASIC的研发周期长,可能无法跟上市场的变化。所以,SoC+IP模式较为流行。SoC(System-on-Chip,片上系统)可以在芯片上集成许多不同模块的芯片,每个模块可自行设计或根据需求进行第三方定制。与ASIC相比,该模式具有成本低、上市快、灵活地适配用户需求等特点。
可用数据规模的提升
以互联网、物联网、感知网络及社交网络等为代表的新型信息技术的快速发展,推动数据获取的规模化和低成本化,引发了数据规模以爆炸式态势增长。根据智研咨询集团的预测,如下图所示,2020年,预计全球数据规模超过50亿ZB,到2025年,其规模超过163ZB。工信部副部长陈肇雄表示,我国海量数据快速增长,数据量年均增速超过50%,预计到2020年,数据总量全球占比将达到20%,将成为数据量最大、数据类型最丰富的国家之一。数据总量高速增长,线上线下产业新形态不断出现,数据资源日益成为贯通经济发展的大动脉的关键要素。
1970—1990年的专家系统未能进一步的完善和发展的重要原因之一在于知识局限性。专家知识的稀缺性和获取的高成本化导致专家系统高度领域化,缺乏良好拓展性,规模化难度大,技术功能价值不明显。随着可用数据规模不断攀升,数据资源储备得以极大丰富,数据短缺困境得以快速破解。同时,各种技术工具的进步完善,提升了知识获取效率、降低了成本,使得大量“专家知识”可从数据中自动化获取和推理拓展,进一步巩固了知识图谱的知识基础。
可用数据规模的提升对传统知识工程技术提出了新的挑战和要求,进而催生新兴技术,推动知识图谱技术发展。所谓的知识图谱应用,主要是通过构建实体与关系的语义网络将大规模数据/知识进行整合、交叉关联、分析比对,对数据进行深度挖掘,支撑知识的智能化理解表示、推理、检索和服务,向用户提供自助的即席、迭代分析能力。相比较传统结构化数据处理工具,知识图谱在非结构化和半结构化数据的特征提取、内容检索、表示理解方面更具优势。对于非结构化、半结构化数据整合关联、知识提取表示等的需求和应用,无论在技术上还是功能上,传统数据库和数据分析挖掘技术工具都几乎束手无策。因此,可用数据规模攀升的推动下,数据服务提供商逐步转向选择和研发能支撑知识图谱应用业务需求的开源数据库技术和新兴数据处理、加工进而分析技术,进而推动了知识图谱技术的快速发展。
专家系统没落的另外一个原因在于难以充分发挥规模效应导致商业价值释放困难。对于知识图谱总服务引擎而言,通用知识域和业务知识域是相辅相成的,可用数据规模和种类的丰富以及持续融合更新,底层通用知识域得以快速迭代、拓展和完善,通过通用知识服务引擎支撑业务知识提供领域化、精准化、精细化服务,同时业务领域通过服务产生新知识反馈至通用知识域进一步完善更新。基于该模式,随着数据规模的增大和数据内容的丰富,图谱底层通用知识域就越完善,知识重用和技术迁移能力就越高,新型智能化应用的开发边际成本越低,进而规模化程度提高,规模效益显现,商业价值得以释放。最终,企业在规模报酬的驱动下,知识图谱应用研发和技术投入不断增加,推动知识图谱商业化。市场逐利驱动下的知识图谱的技术演变将持续化、常态化。
算法演进
知识图谱是人工智能重要分支、是知识工程在大数据时代的重要成果,算法在人工智能各个阶段的发展推动了知识工程从最初基于语义网络的知识表示到现阶段知识图谱自动化构建和智能化知识服务。
在人工智能的“推理”时代和“知识工程”时代,认知学家Allan M. Collins在提出了语义网络的知识表示方法,概念之间的语义关系通过网络的形式得以表达。 Newell和Simon基于符号表示和规则推理提出了“逻辑推理家”程序,实现了机器定理证明。这一时期主要是基于人解决问题的能力建立智能系统,机器只具备了逻辑推理的能力难以在实际中发挥作用。1977年Feigenbaum提出了知识工程的概念,开启了基于知识系统的“知识库”+“推理机”的机器智能,这一时期涌现出了大批量限定领域的专家系统,如斯坦福大学研制出的第一个专家系统DENDRAL、医疗专家系统MYCIN、基于模式匹配的自然语言理解系统STUDENT等。专家系统实现了某一特定领域的问题解答,但需要大量的人力工作,因此存在成本高、扩展性差等问题。
在人工智能的“数据挖掘”时代,2001年Tim Berners-Lee提出了语义网的概念,利用本体描述互联网内容的语义结构。万维网使得知识由封闭走向开放,这个过程出现了群体智能,如维基百科。互联网时代数据的聚集,机器学习算法的发展推动了知识图谱的构建过程的自动化,增强了海量信息提取和分析能力。早期图谱构建方式主要基于规则,例如通过人工编写规则和启发式算法从文本中自动提取公司名称;Galarraga利用AMIE算法实现不完备知识图谱中的关联规则挖掘。随着统计学习的发展,基于统计学习的方法图谱构建越来越多,基于统计学习的方法弥补了基于规则方法扩展性差、人力成本高的缺陷。Sundheim基于最大熵分类模型、支持向量机、条件随机场模型等统计学习方法实现实体识别和链接;Culotta基于依存核函数实现关系抽取;Zhu将本体学习用贝叶斯描述逻辑网络表示出来通过推理获得新公理。随着深度学习方法的迅速发展,利用深度学习方法构建知识图谱称为研究热点。与统计学习相比,深度学习方法端到端的方式减少了人工构建特征的工作,基于深度学习为代表的向量知识表示克服了原有网络形式的知识表示存在的计算效率低和数据稀疏的问题。
数据/知识检索需求攀升
随着信息技术和互联网的普及,全球逐步信息化和互联网、物联网时代的到来,随之而来的是政府数据、企业数据和互联网数据的几何级增长,如下图所示。2004年,全球数据总量是30EB。随后,2005年达到了50EB,2006年达到了161EB。这个规律,被称为新摩尔定律,即:人类有史以来的数据总量,每过18个月就会翻一番。2018年,希捷科技与IDC共同发布了一份名为《数据时代2025》的数据发展趋势报告,IDC在报告中预测,全球数据圈将从2018年的33ZB(泽字节)增至2025年的175ZB。
信息的爆炸式增长,在带来信息获取便利的同时也带来了精准信息获取的难度和复杂度。据统计,在海量信息时代,人们在日常工作和信息处理中,查找信息的时间往往占据了近80%,而真正处理数据和利用数据,往往占据不到20%的时间。不管是哪一类搜索引擎,精准搜索成为当下搜索引擎的共同目标和挑战,也成为用户搜索体验的关键所在。精准搜索至少包含两层涵义,即首先搜索引擎精准理解用户的搜索意图,其次是在此基础上,通过一定的算法,搜索出与用户意图精准匹配的搜索结果,并呈现给用户。
搜索是人们主动获取信息主要方式,而个性化信息的智能化推荐,则是人们被动获取信息的重要方式。个性化信息的智能化推荐是建立在海量数据挖掘与分析基础上的一种高级智能系统,向用户提供个性化的信息服务和决策支持。智能化推荐在日常生活中已经很常见,例如在电子商务网站(如京东、淘宝等)会根据用户的浏览记录、使用习惯等,为用户智能推荐用户可能喜欢的商品;资讯类APP中(如今日头条、网易新闻客户端等)会根据用户的阅读记录和内容风格,为用户推荐个性化的新闻资讯,以满足用户的阅读习惯,提升用户体验。这种智能化的个性化信息精准推荐,不单单在互联网领域,在企业信息获取、政府信息获取、科研信息获取等各方面都已经成为了全新的趋势。
开源知识库建设
由于支持力度大的社区不断引进和创新,使得开源软件始终处于技术发展前列,并且具有很强的、长期的生命力,可以一直满足企业用户的需求。同时,开源知识库的建设也不断促进者知识图谱的发展,知识库的开源能够吸引更多有才能的人加入知识库的建设中,为知识图谱的应用提供多种解决方案,共同促进知识图谱的不断创新与长期发展。开源知识库可分为:开放链接知识库和行业知识库。开放链接知识库的典型代表有:Freebase、Wikidata、DBpedia;垂直行业知识库的典型代表有:IMDB、MusicBrainz等。此外,国内外也建立了相关的开放链接数据网站,其中Linked Open Data是链接数据(Linked Data)作为语义网的一种实现的设想。开源知识库建设对推动知识图谱发展体现在以下两个方面:
现有的大规模知识图谱在知识获取上大多依赖于开放社区的协作和开源数据库,开源知识库的建设能为知识图谱的构建提供丰富的数据来源。开源知识库中拥有丰富的概念及实体知识,且这些知识都是以一定的形式组织在一起,支持概念及实体的快速查询。因此,开源知识库的知识可以有效支持知识图谱的构建,为知识图谱提供所需要的概念及实体知识,从而提升知识图谱的构建效率。开源知识库中的大量实体,丰富了知识图谱的内容。而开源知识库中的概念知识及分类体系,可有效支撑知识图谱的本体构建,从而降低图谱本体的构建难度。
知识图谱之间的融合通常需要解决概念、实体的冲突问题。概念、实体的冲突问题源于缺乏一个统一的概念、实体应用规范与标准,导致相同的概念、实体可能存在不同的名字,而相同的名字可能对应不同的概念和实体。而开源知识库可以为部分概念和实体的统一提供一个参考标准。开源知识库中的概念、实体知识可以起到桥梁作用,用于辅助知识图谱中概念、实体的共指消歧与实体消解。因此,开源知识库将有利于知识图谱间的融合,从而扩展知识图谱的规模丰富图谱信息,最大限度的发挥知识图谱的强大功能。
专业人才培养
伴随着AI这块新的投资风口,新兴企业对AI人才的需求激增。据LinkedIn研究报告显示:过去三年间,通过领英平台发布的AI职位数量从2014年的5万飙升至2016年的44万,增长近8倍。截至2017年一季度,基于领英平台的全球AI领域技术人才数量超过190万,其中美国相关人才总数超过85万,高居榜首,而中国的相关人总数也才5万人,缺口极大。人才是引领互联网科学和技术实现内在价值的关键所在,互联网人才具有重要性和紧缺性的双重特征,谁抢占了人才高地,谁就能够掌握互联网领域发展的前沿方向。知识图谱的构建同样需要专业的计算机AI人才,基于目前互联网人才资源不足的现状,相关AI专业人才的培养已经成为了推动知识图谱从发展到成型的关键因素。国务院在2017年7月印发的《新一代人工智能发展规划》指出将“加快培养聚集人工智能高端人才”列为重点任务,并强调“把高端人才队伍建设作为人工智能发展的重中之重,完善人工智能教育体系,加强人才储备和梯队建设,形成我国人工智能高地”。除政府出台的AI人才培养政策以外,知识图谱相关的人才培养计划还需要做到以下几点:
高校作为一个最大的人才输出平台,对于社会人才的建设十分重要,专业人才的培养需要从校内做起。在校园内通过优化专业课程体系,开展有效的专业核心课程教学改革,深化实践教学改革,构建多维融合的AI才培养平台和建设应用校本特色的专业教学资源库,可以提高学生的综合能力和培养质量,以满足区域经济发展所急需的高素质AI人才的需求。
知识图谱属于应用型学科,产生于企业应用和服务于社会。所以,培养适合经济社会发展需求的AI人才,必须走校企合作道路,构建新型校企合作机制,可以使学生离开校园进入企业学习,将理论结合实际在企业中进行运用,通过实践不断学习完善理论基础,技术基础,通过企业经验积累,可以提高学生的实践能力和判断力,满足社会对AI相关人才的需求。
要创新教育培训体系,充分结合互联网人才特点,以培养批判思维、独立思考为育才政策重点,推动新时代的AI人才的脱颖而出。要解放思想,慧眼识才,爱才惜才,不拘一格降人才,全球范围聚人才,精准化、针对性制定适用特殊人才的特殊政策。要放眼全球,下大力气引进优秀高端人才,重视青年人才的作用,营造优化AI人才发展环境,在国际视野下优化互联网人力资源配置。要顺势而为,构建有利于互联网人才创新聚集的聚才环境,确立同行评议、国际认可的互联网人才认证标准,突出专业性实用性,增强人才的成就感获得感。要完善薪酬激励、产权优化、财政税收等方面政策,破除互联网人才在国家区域机构间的流动障碍,推动互联网人才的有序顺畅流动,不断释放互联网人才的效能。