银行数据仓库体系实践(14)--数据应用之内部报表及数据分析

        在银行日常经营中,每个部门、分支行随时随地都需要进行数据统计和分析,才能对银行当前业务状况及时了解,以进行后续经营策略、营销活动、风险策略的调整和决策。那在平时进行数据分析时除了各数据应用系统(如各类监管报表系统、财务系统、营销系统等)进行专门的数据加工和操作,主要还有报表和自助分析2种方式来分析数据,支持业务运行。

1、统计报表

       统计报表是最常用的数据分析方式,按业务需求中确定的维度和属性进行数据加工并展示。报表周期最常见的是按天、月、年来统计,也有部分按周、季、半年来统计。所以日期或周期是每个报表中都有的维度。另外在大部分银行中还有一个重要的维度是支行,因为支行是最底层的经营机构,许多分析都会支行级别。但在互联网银行没有网点,所以更多的是按地区来统计,因为各地区的政策、环境有所不同,也需要重点关注业务在各地区的发展和问题。

那报表平台重点需要考虑的功能有:

        (1)报表的图形化展示:现在许多报表工具除了常规的柱状图、饼图、折线图等,也提供很多展示方式和非常酷炫的界面设计,如热力图、地图、轨迹图等。可以让数据分析结果更一目了然。

        (2)明细数据快速查询:报表平台汇总数据的报表较多,但随着交易系统的功能优化,越来越多的明细数据查询也转移到报表系统中,如柜面交易明细、大额支付系统交易明细等,因此报表平台也需要支持大批量数据快速查询的需求,在工具选择或优化中需要考虑到该功能。

        (3)移动端报表:移动端报表目前也是趋势之一,但手机屏幕较小,展示信息有限,目前只展示及时性高但比较简单的汇总的数据。移动端可以在APP实现,也可以在微信通过公众号或企业号来实现。

        (4)邮件报表:邮件系统每家银行都在使用,而且都有看邮件的习惯,因此从使用者的角度来看非常方便,因此许多经营日报是直接通过邮件发出,所以需要将展示的报表通过截图或HTML方式嵌入到邮件中主动发送给用户。

       (5)电子报表:电子报表主要是指按一定格式导出到文件并压缩,各网点业务人员需要自己下载进行分析或直接上报给当地的监管机构。电子报表一般是明细数据,可能含有敏感的客户信息,因此这个数据需要行内安全进行审核。

       (6)管理驾驶仓:管理驾驶仓指将反映全行或全公司业绩的主要的指标进行汇总展示,它不仅仅限于单个部门,而是涉及公司所有的经营业务条线。因此它也经常是报表系统进入后的首页面,或者是公司大屏展示的界面。

       (7)电子报告,这个功能是将结果数据进行自动转化为的分析报告,这个主要通过模板进行填充,目前只能展示基本信息和简单分析,更多的分析还是需要人工补充。目前使用还比较少,但随着AI技术的发展,后续也可能会越来越智能。

        (8)自助查询:自助查询是指提供一个宽表多维度的数据,由业务人员可以通过系统直接进行筛选、钻取或者可写sql进行查询统计。钻取是改变维的层次,变换分析的粒度。它包括向上钻取和向下钻取。向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数。如从分析上海的客户贷款上钻到所有网点城市;而向下钻取则相反,它从汇总数据深入到细节数据进行观察或增加新的维度。例如,分析“各支行、存款情况”时,可以对某一个支行的存款余额细分为各个存款产品(活期、1年定期、3年定期等)进行分析。通过钻取的功能,使用户能更灵活进行数据分析。

        那自助查询首先需要加工好多维度的宽表,也称为CUBE。如果维度太多且数据量太大则加工效率会比较高,如果是实时根据条件筛选则需要依赖数据平台的处理能力。因此需要根据数据量进行平台和服务器资源的选择。

       第2节系统架构中也提到了几个常见的商用及开源报表软件,在报表软件选型部署和架构设计时还需要重点关注:

        (1)作为一个公共服务提供给全行使用:可以连接任何的数据库或大数据平台,同时可以将展现的报表无缝嵌入到数据应用系统或交易系统中。

        (2)技术选型中尽量统一平台,减少运维成本和软件成本,部署可以根据报表数量及数据量按部门分为多套也可以集中在一套环境中。

       (3)报表平台建设时需要进行需求管理并重点监控报表的使用率,一个银行或公司并不是报表越多越好,更重要在于使用和分析效果,因此对于各部门的报表需求需要统一管理,对于重复或相似的需求尽量复用报表,减少工作量投入。对于一些不使用的报表进行下线,以便释放计算资源和存储资源。由于业务部门人员变化和产品变化,一些报表不再使用但业务人员往往会疏忽下线流程。因此定期出使用率的报告可以及时暂停不使用的报表。

2、数据自助分析平台/数据实验室

        报表是各个银行部门最常使用的方式,但随着互联网的加快融合,数据分析越来越复杂,分析工具和算法也越来越丰富,而且业务人员的分析技能也提升很大,那传统的报表已经不能满足数据分析的需要,因此许多银行都为业务人员提供了自助的数据分析平台,有的银行也称为数据实验室。那在建设数据分析平台时需要关注:

        (1)由于分析的数据量大且有敏感信息,拿到测试环境进行分析不仅耗时长且存在数据脱敏不足导致敏感数据泄露的风险,因此数据分析平台都是在生产环境搭建;

        (2)数据分析平台的数据源为数据仓库,为了不影响数据仓库生产环境批处理,因此需要在物理上将数据分析平台和数据仓库进行隔离。同时数据仓库与数据分析平台需要建立快速的数据通道,以便每天更新数据分析平台数据;

        (3)不同的业务部门为了集约资源,减少重复数据的存储,可以统一在一个物理平台进行数据分析,但必须通过用户以及权限进行数据隔离。由于分析经常会使用明细数据以及数据仓库加工后的数据,因此数据量比较大,一般也会使用MPP数据库或大数据平台进行数据分析。

        (4)数据分析工具:业务人员一般会需要使用到SAS、PYTHON、R等分析工具,现在也有很多AI厂商或数据分析工具厂商提供的自助分析工具,这些工具需要安装好给业务人员使用。同时也要统一管理这些工具的版本以及license。

        (5)数据脱敏工具:由于敏感信息不能直接给到业务人员进行数据分析,如内部员工工资、客户联系方式等,因此对于每个敏感字段需要配置脱敏规则(可以在元数据管理平台实现),并在从数据仓库导出时自动调用脱敏工具进行脱敏。

        (6)数据获取管理工具:分析平台从数据仓库导出到分析平台时,一般会有数据审核,因为不同部门之间数据是各自管理,需要系统和数据的主管部门知晓并同意。可以基于元数据管理平台增加数据订单的功能,由业务部门使用人员选取需要分析的数据表、更新周期等信息,然后提交申请,审批后自动进行调用脱敏和数据传输工具传输数据。

        (7)数据分层:数据分析平台一般分为基础数据层和分析层,基础数据层是从数据仓库导入的基础数据,数据不能修改,业务人员只能通过申请权限后才能访问。分析层是给每位业务用户进行自助分析的空间,保留分析过程中和结果数据。对于分析层中的空间也需要进行空间控制和定期监控,以免存储不足导致业务不能分析。 

     (8)数据导出,业务分析结果一般需要导出到办公环境,因此也需要有扫描工具或审批,以免敏感数据未经允许从生产导出。


版权声明:本文为acumen_leo博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/acumen_leo/article/details/98309483

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/359282.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据可视化 pycharts实现时间数据可视化

自用版 数据格式为: 运行效果为: from pyecharts import options as opts from pyecharts.charts import Polar, Page import csv filename "./hot-dog-places.csv" data_x [] data_y [] with open(filename) as f:reader csv.reade…

Android悬浮窗实现步骤详解

最近想做一个悬浮窗秒表的功能,所以看下悬浮窗具体的实现步骤 1、初识WindowManager 实现悬浮窗主要用到的是WindowManager SystemService(Context.WINDOW_SERVICE) public interface WindowManager extends ViewManager {... }WindowManager是接口类&#xff0c…

基于springboot招生管理系统源码和论文

在Internet高速发展的今天,我们生活的各个领域都涉及到计算机的应用,其中包括招生管理系统的网络应用,在外国招生管理系统已经是很普遍的方式,不过国内的管理网站可能还处于起步阶段。招生管理系统具有招生公告信息管理功能的选择…

三款精选数字孪生产品大比拼

作为一名数据可视化领域的资深用户,我接触过众多数据可视化产品。本文将介绍三款备受关注的数据可视化工具,并对它们进行详细的比较。 首先,让我们了解一下数据可视化产品的核心价值。在信息爆炸的时代,数据可视化成为快速理解复…

Kubernetes k8s

Kubernetes k8s 一个开源的容器编排引擎,用来对容器化应用进行自动化部署、 扩缩和管理。 从架构设计层面,k8s能很好的解决可用性,伸缩性;从部署运维层面,服务部署,服务监控,应用扩容和故障处…

C++——特殊类

特殊类 文章目录 特殊类一、请设计一个类,不能被拷贝二、请设计一个类,只能在堆上创建对象方案一:析构函数私有化方案二:构造函数私有化 三、请设计一个类,只能在栈上创建对象四、请设计一个类,不能被继承五…

互联网加竞赛 基于深度学习的人脸性别年龄识别 - 图像识别 opencv

文章目录 0 前言1 课题描述2 实现效果3 算法实现原理3.1 数据集3.2 深度学习识别算法3.3 特征提取主干网络3.4 总体实现流程 4 具体实现4.1 预训练数据格式4.2 部分实现代码 5 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 毕业设计…

初学者在Python中的基本图像处理库 - OpenCV和imutils

处理图像处理和操作的最常用的库之一是 Python 的 OpenCV。对于图像分类、目标检测或光学字符识别,在人工智能领域与图像相关的任何工作大多数时候都需要某种形式的图像处理和操作。 在本教程中,我们将专注于 OpenCV 的一些基本功能。这些功能基础且有时…

tcpdump在手机上的使用

首先手机得root才可以,主要分析手机与手机的通信协议 我使用的是一加9pro, root方法参考一加全能盒子、一加全能工具箱官方网站——大侠阿木 (daxiaamu.com)https://optool.daxiaamu.com/index.php tcpdump,要安装在/data/local/tmp下要arm6…

ES(ElasticSearch)技术栈简介

ElasticSearch简介 Elaticsearch,简称为es, es是一个基于apache开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。es也使用Ja…

机器学习系列-2 线性回归训练损失

机器学习系列-2 线性回归&训练损失 学习内容来自:谷歌ai学习 https://developers.google.cn/machine-learning/crash-course/framing/check-your-understanding?hlzh-cn 本文作为学习记录1 线性回归: 举例:蝉(昆虫物种&…

深度学习(7)--卷积神经网络项目详解

一.项目介绍: 用Keras工具包搭建训练自己的一个卷积神经网络(Simple_VGGNet,简单版VGGNet),用来识别猫/狗/羊三种图片。 数据集: 二.卷积神经网络构造 查看API文档 Convolution layers (keras.io)https://keras.io/api/layers/…

氢气传感器报警值:守护实验室安全的隐形卫士

随着科技的发展,我们的生活变得越来越便捷,但是与此同时,安全问题也日益凸显。其中,氢气作为一种清洁能源,被广泛应用于各个领域,但是如果不加以控制,氢气泄漏也可能带来严重的安全隐患。因此&a…

burp靶场--xss上篇【1-15】

burp靶场–xss https://portswigger.net/web-security/cross-site-scripting 1. 什么是xss: 跨站脚本 (XSS) 是一种通常出现在 Web 应用程序中的计算机安全漏洞。XSS 允许攻击者将恶意代码注入网站,然后在访问该网站的任何人的浏览器中执行该代码。这可能允许攻击…

计算机设计大赛 深度学习 opencv python 实现中国交通标志识别

文章目录 0 前言1 yolov5实现中国交通标志检测2.算法原理2.1 算法简介2.2网络架构2.3 关键代码 3 数据集处理3.1 VOC格式介绍3.2 将中国交通标志检测数据集CCTSDB数据转换成VOC数据格式3.3 手动标注数据集 4 模型训练5 实现效果5.1 视频效果 6 最后 0 前言 🔥 优质…

如何将rmvb视频转换成mp4格式?如何播放rmvb视频?

RMVB文件格式的特性及使用场景 RMVB以其独特的可变比特率压缩方式而著称。这一特性使其能够根据视频内容自动调整比特率,不仅保证了视频质量,同时高效减小了文件大小。这种优势使得RMVB常见于在线视频、电视剧以及一些高清电影资源中。 RMVB文件格式的…

exec函数族和守护进程

exec函数族 进程调用exec函数族执行某个程序 进程当前内容被指定程序替换 实现让父子进程实现不同的程序: 父进程创建子进程 子进程调用exec函数族 父进程不受影响 execl和execlp #include <stdio.h> int execl (const char * path, const char * arg , ...); i…

微信小程序(二十六)列表渲染基础核心

注释很详细&#xff0c;直接上代码 上一篇 新增内容&#xff1a; 1.列表渲染基础写法 2.外部索引和自身索引 源码&#xff1a; index.wxml <view class"students"><view class"item"><text>序号</text><text>姓名</text…

大数据 - Hadoop系列《四》- MapReduce(分布式计算引擎)的核心思想

上一篇&#xff1a; 大数据 - Hadoop系列《三》- MapReduce&#xff08;分布式计算引擎&#xff09;概述-CSDN博客 目录 13.1 MapReduce实例进程 13.2 阶段组成 13.4 概述 13.4.1 &#x1f959;Map阶段&#xff08;映射&#xff09; 13.4.2 &#x1f959;Reduce阶段执行过…

机器学习复习(3)——分类神经网络与drop out

完整的神经网络 以分类任务为例&#xff0c;神经网络一般包括backbone和head&#xff08;计算机视觉领域&#xff09; 下面的BasicBlock不是一个标准的backbone,标准的应该是复杂的CNNs构成的 Classfier是一个标准的head,其中output_dim表示分类类别&#xff0c;一般写作num…