一、需求背景
1. 数据量的爆炸性增长:随着互联网和物联网技术的发展,我们正处于一个数据爆炸的时代。企业和组织需要有效地管理和利用这些海量数据,而数据建模平台可以帮助他们实现这一目标。
2. 数据多样性和复杂性:数据来源的多样化和复杂性使得数据管理和分析变得更加困难。数据建模平台可以提供一套统一的工具和方法,帮助企业应对这些挑战。
3. 数据驱动决策的需求:在竞争激烈的市场环境中,企业需要基于数据做出决策。数据建模平台可以帮助企业提取有价值的信息,支持数据驱动的决策过程。
4. 数据安全和隐私保护:数据安全和隐私保护是企业面临的重要问题。数据建模平台需要考虑到这些因素,提供安全的数据处理和分析功能。
5. 人工智能和机器学习的发展:人工智能和机器学习技术的发展为数据建模提供了新的可能性。数据建模平台需要整合这些新技术,提供更强大的数据分析功能。
6、数据建模的应用非常广泛,包括金融、医疗、零售、交通、教育、科研等多个领域。例如,在金融领域,数据建模可以用于信用评分、股票价格预测等;在医疗领域,数据建模可以用于疾病诊断、药物研发等;在零售领域,数据建模可以用于销售预测、库存管理、客户细分等。
二、产品简介
数合建模是数据建模及可视化平台,提供一站式全链路数据生命周期管理方案,能够帮助用户管理数据资产并挖掘价值。数合建模提供多源异构的数据采集模块、支持实时/离线计算框架,简洁易用的操作环境和平台接口,为政府机构、企业、科研机构、第三方软件服务商等客户,提供大数据管理、开发和计算的能力。让客户最大化的发现与分析行业内部核心业务数据价值,挖掘现有业务和应用系统的潜在商机,培育完好的业务创新产业链,实现数据应用的完整闭环,帮助客户实现价值。
三、我们的方案
(一)产品亮点
易用性方面:通过可视化拖拽数据、算子图标的方式,就可以完成业务模型设计和数据分析工作,降低了技术门槛,大大提升了工作效率。
产品定位方面:既可以作为数据工程师降低门槛的数据建模平台,也可以作为业务人员进行数据分析的业务建模平台。产品的设计初衷即是去技术属性,让大多数的业务人员都能用起来。
性能方面:实时碰撞秒级响应。
后端适配方面:平台后端支持对接各类主流数据库,以及华为大数据平台。
数据接入及推送方面:适配多种类型数据库的数据抽取和数据推送。
权限方面:支持多用户,并分级权限管理,对原始数据、成果数据、算法模型和微应用提供分类管控。
数据挖掘业务方面:支持海量数据挖掘分析碰撞,支持9种主流智能分析算法。
AI大模型与BI结合的探索:通过输入文本,组织后台数据,生成指标查询结果集。
图谱应用方面:支持自定义实体、关系,建立知识体系并能挖掘知识的隐含关系,服务具体应用场景。
可视化图表设计方面:通过拖拽图表模版,设置数据来源,两步生成可视化图表。
(二)产品技术架构
1、基础支撑层:指围绕平台运行的软硬件环境,虚拟化环境,分布式大数据平台环境,数据库环境等等。
2、数据计算层:包括离线计算、实时计算、流计算、图计算等。
3、数据管理层:包括数据源管理、接入方式探查、数据接入、数据标准化、任务中心、数据目录、服务目录7部分内容,其中:
数据源管理提供数据源配置管理等功能;
接入方式探查对各来源的数据进行探查,包括:数据源、 业务信息、更新策略、字段信息以及质量信息;
数据接入,结合数据实际情况定制数据接入策略和标准。系统对元数据信息进行自动采集;
数据标准化,将数据与标准规范比对,标准化处理接入的数据。根据标准制定数据清洗、格式转换策略;
任务中心,数据接入、标准化任务管理中心,包括任务规则的查看、任务的启停、任务立即执行、规则修改等功能;
数据目录,提供数据接入、标准化资源的查看、检索功能
服务目录,提供服务目录的注册、数据资源申请审批、服务测试等功能
4、数据分析层包括目录管理、模型管理、算子管理、图谱管理、可视化建模五部分。其中:
目录管理,提供模型、标签、组件、看板目录管理功能;
模型管理,提供模型搜索、新建模型、编辑模型、删除模型、共享模型、共享标签、设为任务等功能;
算子管理,提供数据处理算子、智能算子、业务算子(数据标签)等功能;
图谱管理,提供实体管理、关系管理、关系入图等功能;
可视化建模,提供数据关联、筛选、并集、差集、交集、分组等可视化建模编辑工具,用户可依据建模需求进行灵活组合、构建模型。
5、数据服务层:包括应用超市、微应用服务和可视化图表。其中:
数据应用超市,提供数据模型的展示与分享。
微应用服务,提供应用模块化功能,将模型结果以API接口形式封装,提供给上层应用平台
可视化图表,提供图形化软件,可自由拖拽生成可视化面板,并进行数据展示等。支持可视化大屏发布。
(三)产品定位
1、单纯作为数据建模平台
以上示意图,描述了在一个项目中建模平台和上、下游的关系。
上游由ETL厂商将业务系统数据抽取/同步到大数据平台的接入层。
数据建模环节的内容主要包括数据配置,数据建模、任务管理三部分。通过系统初始化工作将接入层数据库配置到数据建模平台;利用接入层数据及各类算子构建汇总模型、指标模型、风险模型等各类模型;并通过任务配置,定期生成各类模型结果,自动封装JSON格式的API接口服务。
应用厂商对接基于数据模型结果的API接口服务,进行上层应用的展现。
2、同时承担数据治理和数据建模的角色
以上示意图,描述了在一个项目中建模平台和上、下游的关系。
上游为源数据库,存储业务系统数据。建模平台同时承担数据治理和数据建模的角色。
先由数据管理平台按一定策略将数据抽到接入层,再基于标准化要求,及本地的知识库,以及数据的清洗规则和格转要求定义标准化规则,完成从接入层到标准层的计算,通过任务中心来管理和监控任务运行情况。
数据建模环节的内容主要包括数据配置,数据建模、任务管理三部分。通过系统初始化工作将标准层数据库配置到数据建模平台;利用接入层数据及各类算子构建汇总模型、指标模型、风险模型等各类模型;并通过任务配置,定期生成各类模型结果,自动封装JSON格式的API接口服务。
应用厂商对接基于数据模型结果的API接口服务,进行上层应用的展现。
总结:建模平台既可以承担从数据治理、到建模、到应用展示全数据生命周期的角色,也可以承担单一角色,但无疑建模能力是建模平台的核心。建模平台标配的数据管理平台在数据标准化上起重要作用,能够大大提升后续建模的效率。
(四)产品功能架构
数合建模主要由数据管理、目录管理、模型管理、图谱管理、可视化图表管理、系统管理和配置管理7部分组成。具体如图所示:
(五)产品功能清单
序号 |
产品名称 |
一级目录 |
二级目录 |
三级目录 |
功能描述 |
是否必选 |
1 |
数合建模 |
数据管理 |
数据标准 |
数据元管理 |
标准数据元、自有数据元查询,体现数据包含哪些不重复的数据项 |
否 |
2 |
限定词管理 |
标准限定词、自有限定词查询,修饰数据元 |
否 |
|||
3 |
字典管理 |
字典知识库,体现系统有多少个可转换的字典表 |
否 |
|||
4 |
数据治理 |
接入方式探查 |
支持mysql\oracle\postgres\gaussdb等数据库,源端数据结构采集 |
否 |
||
5 |
数据接入 |
stg层数据抽取策略及表结构配置 |
否 |
|||
6 |
数据标准化 |
ods层数据抽取策略、表结构、以及元数据库、字典、清洗规则等标准化元素配置等功能 |
否 |
|||
7 |
任务中心 |
支持批量任务开始、停止,支持单个任务列表查询、任务规则查询、开始、停止,支持单个任务规则查询,支持单个任务规则修改、结构修改,支持立即执行单个任务、并查看运行进度 |
否 |
|||
8 |
数据资产 |
数据资源目录 |
包括数据清单查询、数据项查询等功能 |
否 |
||
9 |
数据报表 |
数据更新情况查询 |
否 |
|||
10 |
数据开放 |
< |