基于图数据库构建知识图谱平台应用实践

摘要

中信证券基于分布式图数据库StellarDB,替代国外开源图数据库产品,打造全新的企业级知识图谱平台,应用于同一客户集团画像、科创板关联发现、风险事件报告、全球企业关联图谱、产业链图谱、投研图谱、反洗钱与稽核图谱、元数据图谱等应用场景。

问题

过去,中信证券基于Neo4j社区版构建各类图数据库应用,但社区版存在不支持多实例需求、计算资源限制及不满足高可用、缺乏统一管理需求等问题。

行动

• 2021年为了满足企业级应用,中信证券基于星环科技分布式图数据库StellarDB和知识图谱平台SophonKG,打造了全新的企业级知识图谱平台,知识图谱平台的图存储技术为自研KV存储,存储设计按照属性图模型设计,满足TB级存储需求;2023年5月,中信证券完成知识图谱平台的扩容,并基于StellarDB 5.0进行架构升级;

• 基于知识图谱平台,中信证券构建了同一客户集团画像、科创板关联发现、风险事件报告、全球企业关联图谱、产业链图谱、投研图谱、反洗钱与稽核图谱、元数据图谱等十余个应用。

结果

• 中信证券知识图谱平台实现了一站式运维管理、调度管理和权限管理等,满足高可用要求要求,性能提升数倍,在金控报送方面节省时间成本约30% 。

分享专家:陈辉华,中信证券高级副总裁作者:沙丘社区分析师团队

案例企业

中信证券股份有限公司成立于1995年10月,2003年在上海证券交易所挂牌上市交易,2011年在香港联合交易所挂牌上市交易,是中国第一家A+H股上市的证券公司,率属于中国中信集团有限公司。中信证券目前拥有7家主要一级控股子公司,分支机构遍布全球13个国家,中国境内分支机构和网点400余家。中信证券规模优势显著,是国内首家资产规模突破万亿元的证券公司。主要财务指标连续十余年保持行业第一,各项业务保持市场领先地位,多年来获得亚洲货币、英国金融时报、福布斯、沪深证券交易所等境内外机构颁发的各类奖项。项目背景

2018年,中信证券基于Neo4j社区版构建各类图数据库应用,但社区版存在不支持多实例需求、计算资源限制及不满足高可用、缺乏统一管理需求等问题。

2021年,随着应用激增,为了满足企业级的建设需要,中信证券基于星环科技分布式图数据库StellarDB和知识图谱平台SophonKG,打造了全新的企业级知识图谱平台,知识图谱平台的图存储技术为自研KV存储,存储设计按照属性图模型设计,满足TB级存储需求。在图数据库服务的顶层,还提供了丰富的接口,如Java、Python、RESTful API等,方便自定义开发,重构了企业图谱及集团客户画像、风险事件报告、科创版关联发现以及联机分析等十余个应用。2023年6月,中信证券完成了知识图谱平台的扩容,并基于StellarDB 5.0进行了架构升级。解决方案为搭建图谱独特的HTAP架构,实现统一图存储服务和多套计算引擎资源物理隔离,满足图计算和图查询任务的不同资源需要;在集群中部署1套图存储服务和3套Quark计算引擎服务,多个Quark之间可以共享元信息。构建一种基于图结构数据的端到端全流程图机器学习框架,其底层与图数据库紧密对接,以实现高效的数据读写和查询过滤等预处理工作的下推。解决方案

基于星环科技分布式图数据库StellarDB和知识图谱平台SophonKG,中信证券知识图谱平台实现方案如下:星环科技分布式图数据库StellarDB提供大数据处理能力和通用组件能力,支持平台内一站式运维管理;知识图谱平台为星环科技知识图谱平台SophonKG,提供图谱构建、图谱融合、图谱查询、可视化以及图谱计算、图谱分享等能力。

知识图谱平台业务功能特点如下:第一,多模查询和存储。使用统一的Quark计算引擎,SQL结合图语言Cypher的多模查询语言,可以实现多模查询;支持hive、文本文件、图模型等多模态存储。第二,多场景应用。知识图谱平台支撑10余个下游应用;SophonKG提供自助分析平台,支持业务自助探索图谱;提供图机器学习能力,应用于ETF推荐和场外配资等场景。第三,高性能。星环科技在计算引擎侧引入local+cluster混合计算模式策略,自如应对实时和离线分析;原生分布式图数据库,拥有处理百亿级图数据的能力;搭建HTAP架构,AP算法任务和TP查询任务分离。第四,高可用。采用多节点HA方式,提供高可用服务;使用Raft协议,提供秒级副本切换服务;通过Kubenetes实现故障自动恢复;根据DAG执行计划,重试丢失/出错任务。

知识图谱平台的应用场景如下:(1)同一客户集团画像中信证券采用Louvain社区发现算法,挖掘集团簇,最后在各自集团簇内企业,沿关系向上获取归属集团,结合风控提出的个性化需求,例如银行不再上穿、个人集团认定等,数据库提供丰富的Cypher复杂逻辑的处理能力。

(2)科创板关联发现战略投资者持有科创版股票不允许做融券卖出,中信证券通过最短路径分析(不限定方向不定长查询,去掉任职关系),查看两者的利益关联关系。

(3)风险事件报告基于统计维度(持仓、衍生品标的、客户)和业务条线(自有资金业务、资管业务、经纪业务、投行业务、托管业务),中信证券框定11种角色。通过舆情平台监控风险事件,当发生风险事件时,通过客户谱系找到成员企业及其持仓,自动通过邮件输出报告发送给业务方及领导进行实时监控。

(4)全球企业关联图谱将境外企业输出与境内企业融合,核心节点是企业、员工、关系人、产品、营收、行业、金融产品,共包括19种关系、3亿实体、4亿关系。

(5)产业链图谱将第三方产业链数据加载到图谱中,为公司客户经理提供产业链服务,直观展示已开发、已服务、待开发的客户,帮助客户经理挖掘商机。

(6)投研图谱从部委的政策源出发,通过NLP技术提取每条政策的核心观点和行业板块等,同时结合新闻舆情源的信息,对二者进行匹配和召回,计算政策影响因子值,通过产业链传播算法得到传播系数,结合图传播算法找到个股因子,回测效果相对收益达到25%。

(7)反洗钱与稽核图谱通过对连通子图的挖掘,合规人员可以从高风险人员出发,找出潜在可疑团伙。

(8)元数据图谱多跳(8+)的数据血缘neo4j社区版查询不出结果,基于StellarDB强大的多跳计算能力和改进的expand算法,实现15跳内的数据血缘(溯源和影响性分析)。

价值与效果

中信证券知识图谱平台实现了一站式运维管理、调度管理和权限管理等,满足高可用要求要求,性能也提升了数倍,在金控报送方面节省时间成本约30%,目前成果在公司内广泛应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/424397.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

提升工作能力的方法

1.接受工作,只问标准 2.请示工作,必带方案; 3.汇报工作,突出成果; 4.分享工作,细说流程; 5.复盘工作,总结SOP 如果能这么做,那将是一个非常通透的高手,所以高…

初探2b blender

总结 按照youtube 教程 做了个雏形 心得 从正面, 侧面 视图整体上调整外轮廓流线型趋向, 比如正面看这个发型像个鸡蛋的外轮廓头发重要的是丝滑, 流畅 集束 层次 交错

git的安装、使用

文章目录 安装gitgit学习网站git初始配置具体配置信息 新建版本库(仓库)git的工作区域和文件状态工作区域文件状态git文件提交的基础指令 git基础指令1. 版本提交2. 分支创建3. 分支切换4. 分支合并(1) git merge(2) git rebase 5. 在git的提交树上移动(…

国内哪个工具可以平替chatgpt?国内有哪些比较好用的大模型gpt?

我自己试用了很多的平台,发现三个比较好的大模型平台,对普通用户也比较的友好的,而且返回内容相对来说,正确率更高的,并且相关场景插件比较丰富的国内厂商。 本文说的,是我自己觉得的,比较有主观…

vue2结合electron开发桌面端应用

一、Electron是什么? Electron是一个使用 JavaScript、HTML 和 CSS 构建桌面应用程序的框架。 嵌入 Chromium 和 Node.js 到 二进制的 Electron 。允许您保持一个 JavaScript 代码代码库并创建可在Windows、macOS和Linux上运行的跨平台应用 。 Electron 经常与 Ch…

Python3零基础教程之数学运算专题初阶

大家好,我是千与编程,在上一节课程我们讲解了Python3基础课程中的变量与数据专题项目,本章节中涉及的Python3编程语言中的基础的四则运算、赋值运算符号,赋值运算符号,比较运算符号,位运算符号的计算方法。 这一章的内容算是比较基础的部分,最后需要学会使用即可。以下是…

Elasticsearch搜索引擎

目录 初识elasticsearch 了解ES 什么是elasticsearch elasticsearch的发展 搜索引擎技术排名: 总结 倒排索引 正向索引和倒排索引 正向索引 倒排索引 总结 es的一些概念 文档 索引 概念对比 架构 总结 安装es,kibana 安装es 安装kiba…

在网页上踢球:打造我自己的python(Django)足球网站

足球不仅仅是球场上的90分钟。它是一个不断发展的故事,一个全球球迷社群的粘合剂,一个数据和热情交织的世界。作为一名开发者和球迷,我决定将这两大爱好结合起来,用 Django 打造一个足球网站,让球迷们能够追踪他们最爱…

守护无价数据:文件备份的重要性与实用策略

一、数据安全:为何文件备份至关重要 在数字化时代,我们的生活和工作越来越离不开电子设备与其中的文件数据。这些文件可能包含重要的工作文档、珍贵的家庭照片、个人的创意作品等,它们是我们回忆的载体,也是我们工作和创新的基石…

xss.haozi.me靶机练习

目录 第零关: 第一关: 第二关: 第三关: 第四关: 第五关: 第六关: 第七关: 第八关: 第九关: 第十关: 第十一关: 第十二关…

百度SEO快排原理是什么?如何快速排名方法?

前言:我之前说过我不打算写这个快速排序。 首先,我从来没有在自己的网站上操作过所谓的快速排序。 其次,我不能像网上很多人写的那样透露百度快速排序的秘密(说实话,你可以透露秘密)。 方法是有了&#xff…

unity 数学 如何计算线和平面的交点

已知一个平面上的一点P0和法向量n,一条直线上的点L0和方向L,求该直线与该平面的交点P 如下图 首先我们要知道向量归一化点乘之后得到就是两个向量的夹角的余弦值,如果两个向量相互垂直则值是0,小于0则两个向量的夹角大于90度,大于…

Python3零基础教程之条件控制语句

大家好,我是千与编程,今天我们讲解Python3零基础教程中的If-else条件控制语句,这是Python3语言编程中非常重要的部分,是程序代码有逻辑性和决策性的根本。 尤其针对刷算法题的几乎每一道题都会使用,以下是本次教程内容的思维导图: 一、基本的条件控制语句 在Python 3中…

Jenkins的安装和helloworld Pipeline

文章目录 环境安装下载安装启动初始化 PipelineUISCM(Source Control Management)准备pipeline 参考 环境 RHEL 9.3Jenkins 2.44.0.1 安装 参考 https://www.jenkins.io/doc/book/installing/linux/#red-hat-centos 。 下载安装 [ding192 ~]$ sudo …

2024新算法:鹅算法优化VMD参数,五种适应度函数任意切换,最小包络熵、样本熵、信息熵、排列熵、排列熵/互信息熵...

本期采用鹅算法优化一下VMD参数。利用MATLAB官方自带的VMD函数。 替换为官方自带的VMD函数后,寻优速度真的大幅度提升!数据量大的不妨都试试这个官方的VMD函数。当然要下载2020a以上的MATLAB才可以哦! 同样以西储大学数据集为例,选…

vue 部署后修改配置文件(接口IP)

近期,有一个项目,运维在部署的时候,接口ip还没有确定,而且ip后面的路径一直有变动,导致我这里一天打包至少四五次才行,很麻烦,然后看了下有没有打包后修改配置文件修改接口ip的方法,…

【QT+QGIS跨平台编译】之六十四:【QGIS_CORE跨平台编译】—【错误处理:未定义类型QTemporaryDir - QgsSourceCache】

文章目录 一、未定义类型QTemporaryDir二、解决办法 一、未定义类型QTemporaryDir 报错&#xff1a; 二、解决办法 QgsSourceCache.h文件中 第25行修改为&#xff1a; #include <QTemporaryDir>

深入了解Kafka的文件存储原理

Kafka简介 Kafka最初由Linkedin公司开发的分布式、分区的、多副本的、多订阅者的消息系统。它提供了类似于JMS的特性&#xff0c;但是在设计实现上完全不同&#xff0c;此外它并不是JMS规范的实现。kafka对消息保存是根据Topic进行归类&#xff0c;发送消息者称为Producer&…

FreeRTOS学习笔记——FreeRTOS中断管理

什么是中断&#xff1f; 简介&#xff1a;让CPU打断正常运行的程序&#xff0c;转而去处理紧急的事件&#xff08;程序&#xff09;&#xff0c;就叫中断 例&#xff1a; 中断执行机制&#xff0c;可简单概括为三步&#xff1a; 中断优先级分组设置 ARM Cortex-M 使用了 8 位…

微信小程序触屏事件_上划下划事件

一、微信小程序触屏事件 bindtouchstart&#xff1a;手指触摸动作开始 bindtouchmove&#xff1a;手指触摸后移动 bindend&#xff1a;手指触摸动作结束 属性类型说明touchesArray触摸事件&#xff0c;当前停留在屏幕中的触摸点信息的数组 Touch 对象 属性类型说明identi…