《金融电子化》昆仑银行在应用性能监控(APM)平台的实践与探索

《金融电子化》昆仑银行在应用性能监控(APM)平台的实践与探索

中国人民银行印发的《金融科技发展规划(2022-2025年)》是对金融科技发展的重要引领。规划强调了金融科技在推动金融行业现代化转型、提升金融服务效率和风险防控水平方面的重要作用。同时,规划中提到的建立健全金融数据中心智能化运维机制对金融科技行业的发展起到重要推动作用,也意味着将有更多资源和支持投入到这一领域的研发和创新中,从而推动科技在金融领域的广泛应用,提升运维管理的效率和质量。

昆仑银行在数字化转型过程中积极应用博睿数据应用性能监控平台对业务系统进行了升级改造,实现对应用程序的执行过程进行全面监控与追踪,秒钟级代码性能诊断,大幅提高了团队运维人员的工作效率。同时借助应用性能监控平台提高了可视化能力,降低了运维成本,使得银行的运维环境更加直观、安全并具备可观测性。最终,该方案不仅解决了客户现有运维体系改造建设的难题,其技术的前瞻性本文发表在中国人民银行主管的《金融电子化》杂志上。

以下为原文,约3000字,预计阅读时间8min。

近年来,金融科技迅猛发展,新技术和新业态层出不穷,数字化正在重塑金融生态新模式,银行业务正朝着线上化和智能化的方向转变,通过科技赋能实现转型升级将成为银行业未来发展的战略重点。在数字化浪潮中,国内银行机构纷纷启动数字化转型战略,推动和赋能自身业务发展、内控管理、风险防控等,以期在激烈的市场竞争中脱颖而出。

而在数字化转型过程中,银行业往往面临组织敏捷性不足、网络环境运行不稳定、数据治理难、运维排障效率低下等问题,导致业务处理效率低。同时,银行业务场景多样,系统之间的调用关系、各模块状态等运维方式均需在业务探索中进行创新发展。

项目背景分析

在数字化时代,数字化转型成为了各行各业发展的必经之路。这种转型为行业和企业发展带来全新的变革和转型动力,也形成了企业管理与运维的新形态。然而,这也给涉及不同业务体系和新旧IT系统的整体IT架构带来了前所未有的挑战。

昆仑银行将数字化转型作为弯道超车的重要举措,但在实际工作中依然面临着工具分散,依靠运维人员经验和频繁切换各专业分析工具,以实现故障定位、影响分析等操作,运维效率存在进步空间。为了满足自身业务需求和解决技术痛点,昆仑银行通过内部推广和建设应用性能监控来满足数字化转型和对外赋能的需求。这为昆仑银行的数字化转型提供了有力的支撑,同时也展示了金融科技在提升运维管理效率和智能化方面的巨大潜力。

项目建设特色与成果

昆仑银行在构建应用性能监控(APM)解决方案时,通过APM探针技术,将采集到的各项性能指标数据进行处理、分类规整和入库,实现对平台应用系统的自动安装与监控。探针监控使用字节码等相关技术,无需对程序代码进行修改,即可实现对应用程序的执行过程进行全面监控与追踪,体现了探针能力的稳定性、高性能和可扩展性。

通过进一步优化建立智能化运维机制,昆仑银行能够更好的感知风险,发现异常并预测故障。这为昆仑银行的数字化转型提供了有力的技术保障。同时,也实现了智能告警、根因分析、代码级调用跟踪、保障客户环境稳定运行等能力。主要技术框架如下图所示。

APM技术平台架构图

故障排查定位

在日常IT运维工作中,有时会面对一些较复杂的故障定位场景,比如大量系统几乎同时涌现高级别告警,这些系统之间依托于各类网络,存在着支撑和依赖关系,而每个系统本身也被复杂的系统架构所承载。

这种情况下,如何在有限的时间内定位故障并快速恢复业务,是运维人员面临的低频但高风险的疑难问题。对比传统排障思路,运维人员需要综合分析这些告警,确定可能的根因。一般思路是各应用系统负责人分别找数据库、操作系统、中间件、网络等团队确认是否是本系统导致的。如果不是,则需要通过事前绘制的上下游系统关系图梳理可能的根因节点,再查询相应疑似故障根因系统的架构内是否存在故障,从而进行进一步处理。由于相关工作既存在跨部门沟通,又需要强大的视图化逻辑思维能力,对运维人员要求极高。

在某年度党费缴纳活动期间,面对大量的告警数据,通过应用性能监控系统实现端到端的性能打通,快速定位性能问题,逐层问题剥离分析,实现秒钟级代码性能诊断,最终将问题发现和解决的时间从小时级压缩到分钟级,极大提高了团队运维人员的工作效率。

代码级调用跟踪

通过代码级调用跟踪技术,自动获取调用拓扑、业务系统中的各模块状态、关联关系、将应用的调用关系进行可视化等,从而快速定位故障、缩短排障周期,有效提高运维效率。

网贷平台对系统TPS要求很高,有着很高的性能要求,在此前,无法准确判断与网贷相关的系统运行是否缓慢,接入应用性能监控系统后,昆仑银行网贷平台实现对应用从程序入口到执行全链路的监控与追踪,迅速识别出下游系统存在一定的延迟问题,及时采取相应措施,确保了网贷平台稳定、安全地运行,给用户提供了优质的服务体验。

运维数据标准化

Controller 作为探针接入和数据处理组件,接收探针端上报的各项指标数据,完成对指标数据的分类处理与入库、探针配置的下发。探针与 Controller 交互主要包括配置流 Config 和数据流 Upload 两类协议。Config 协议为探针数据采集策略控制协议,由 Controller 根据用户配置的数据采集策略下发给探针。Upload 协议为探针原始数据上传协议,负责处理探针上传的原始样本数据,Controller 在接收到原始数据之后,进行基本的有效性判断后立即响应探针,同时对该协议数据进行异步处理,包括协议分类、规整和入库等。

完成指标、日志、告警、配置、流程这些运维数据的建模,完成基础对象体系、指标体系、配置管理建模,落地运维数据治理,确保了数据的时效性,完整性,关联性,有效性,为应用监控场景、智能分析场景提供高质量的数据支撑。主要技术框架如下图所示。

web页面监控平台架构

收益与展望

· 构建数字化运维体系

昆仑银行通过积极应用性能监控(APM)系统,打破了银行传统运维模式,借助数字化转型手段,实现对企业科技创新能力的精准画像,在金融领域实现了企业信用的数字化,推动科创金融服务趋向精准化、智能化再进一步。

· 积极赋能业务创新发展

应用性能监控(APM)系统为银行的业务发展提供多样化的支撑和突破点,监控运维工作内涵呈现多元化。并将数字化的理念进一步内化到自身的日常业务经营和金融服务中,赋能业务部门,提高了业务部门的执行效率,实现业务与技术更深层次融合。

· 打造运维环境具备可观测性

目前,昆仑银行对运维监控管理体系进行的全面升级改革,以低成本的方式打通跨部门、跨系统的流程,并且在全流程治理的过程中完成了局部数据治理。此外,还实现了将问题发现和解决的时间从小时级压缩到分钟级,解决了运维效率低及风险预判和维护等问题,提高了可视化能力,提升了工作效率,降低了运维成本,使得银行的运维环境更加直观、安全并具备可观测性。

在不断前行的道路上,昆仑银行将始终坚持技术驱动、内外联动,数字化转型赋能场景生态建设,深入探索以体验为核心、打造优质产品质量的全流程体验服务体系,也将继续推进金融企业运维管理创新,根据自身特点和金融业务场景的需求,夯实网络运维系统的数字化管理基础,提升金融科技赋能水平,全面提高企业竞争优势。

精选获奖案例

博睿数据坚持“客户第一”的理念,致力于科技赋能,助力客户实现智能运维,提升组织运营效率,创新实践案例获得了权威机构认可。以下为精选获奖案例。

光大银行“云原生背景下的运维监控体系建设”

刊登《金融电子化》杂志

东方证券“全生命周期智能数字体验项目”

《金融电子化》杂志

2021科技赋能金融业务突出贡献奖

红塔证券“互联网金融业务性能监控系统”爱分析

2022中国IT运维创新实践案例

中国海油“多云资源监控与治理”中国电子学会

2023年度优秀实践案例

万科“Bonree ONE赋能应用可观测性监控能力”

经观传媒

2023年度卓越数字创新企业服务案例

华安证券“用户会话监控的智能异常检测与分析实践”

中国信通院

2023 XOps“领新杯”优秀案例

国金证券“智能化可观测性平台建设”

中国信通院

中国AIOps现状调查报告(2023)

南方航空“端到端全栈监控中的智能运维实践”

中国信通院

中国AIOps现状调查报告(2023)

国元证券“建立一体化智能可观测平台实现APP体验数字化”

数据猿

金猿案例展

昆仑银行“一体化智能可观测平台全面保障业务稳定性”

数据猿

金猿案例展

排障不易,多看案例

扫描下方海报二维码,免费获取

博睿数据最新版年度案例集《IT运维之光》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/359311.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode: 25. K 个一组翻转链表 + 链表 + 递归】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

大数据学习之Redis,十大数据类型的具体应用(三)

目录 3.7 Redis位图(bitmap) 概念 需求 是什么 说明 能干嘛? 基本命令 3.7 Redis位图(bitmap) 概念 由0和1状态表现的二进制位的bit数组 需求 用户是否登陆过?Y / N 广告是否被点击过? 钉钉打…

Swift Vapor 教程(项目创建)

The future of web development. 在初次接触 Swift Vapor 时,感觉代码比较清爽,用起来逻辑比较清晰。 困难点: Swift Vapor 使用了JWT管理三方库,比较吃网络Swift Vapor 搭建环境比较复杂初次使用Swift Vapor 尽量不要使用MySql。…

关于 IntelliJ IDEA 中 Schedule for Addition 的问题

IntelliJ IDEA是一款强大的Java集成开发环境,由JetBrAIns公司开发。它以其智能代码编辑、代码分析工具、自动代码补全、强大的调试功能和内建的版本控制等特性而闻名。此外,它还支持Kotlin、Groovy、Scala和Android开发等多种语言和框架。 IntelliJ IDE…

Django模型(五)

一、数据的条件查询 参考文档:QuerySet API 参考 | Django 文档 | Django 1.1、常用检索字段 字段检索,是在字段名后加 __ 双下划线,再加关键字,类似 SQL 语句中的 where 后面的部分, 如: 字段名__关键字 exact :判断是否等于value,一般不使用,而直接使用 =contai…

【QT】坐标系统和坐标变换

目录 1 坐标变换函数 1.1 坐标平移 1.2 坐标旋转 1.3 缩放 1.4 状态保存与恢复 2 坐标变换绘图实例 2.1 绘制3个五角星的程序 2.2 绘制五角星的PainterPath的定义 3 视口和窗口 3.1 视口和窗口的定义与原理 3.2 视口和窗口的使用实例 4 绘图叠加的效果 1 坐标变换函数 QPainter…

高通GAIA V3命令参考手册的研读学习(十三):GAIA通知

如前文《高通GAIA V3命令参考手册的研读学习(四)》所述,PDU一共有四种,前面已经讲了命令、回应以及错误码,现在来看最后一种:通知。 4. QTIL GAIA通知 通知发送的方向,是由设备发送到移动应用…

CI/CD 管道安全:构建和部署之外的最佳实践

鉴于对快速创新和敏捷方法论采用的需求,持续集成/持续部署 (CI/CD) 管道已成为构建所有 DevOps 流程的基础。他们是高效交付的支柱。 事实上,根据持续交付状态报告,使用 CI/CD 工具与所有指标上更好的软件交付性能相关。 这些管道给组织带…

java代码中调用自定义函数

定义函数 CREATE DEFINERrootlocalhost FUNCTION test_fun1(num1 FLOAT,num2 FLOAT) RETURNS float BEGINDECLARE SUM FLOAT DEFAULT 0;SET SUMnum1num2;RETURN SUM; END <select id"cunchu" resultType"java.util.Map">SELECT test_fun1(1,2) as r…

MySQL索引原理以及SQL优化

案例 struct index_failure_t{int id;string name;int cid;int score;string phonenumber;}Map<int,index_failure>; 熟悉C的同学知道&#xff0c;上述案例中&#xff0c;我们map底层是一颗红黑树&#xff0c;一个节点存储了一对kv&#xff08;键值对&#xff09;&…

WPF应用程序(.Net Framework 4.8) 国际化

1、新建两个资源字典文件zh-CN.xaml和en-US.xaml&#xff0c;分别存储中文模板和英文模板 (1) zh-CN.xaml <ResourceDictionary xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml&q…

机器学习:Logistic回归(Python)

Logistic回归&#xff08;二分类&#xff09; logistic_regression_class2.py import numpy as np import matplotlib.pyplot as pltclass LogisticRegression:"""逻辑回归&#xff0c;采用梯度下降算法 正则化&#xff0c;交叉熵损失函数&#xff0c;实现二分…

机器学习 强化学习 深度学习的区别与联系

机器学习 强化学习 深度学习 机器学习 按道理来说&#xff0c; 这个领域&#xff08;机器学习&#xff09;应该叫做 统计学习 &#xff08;Statistical Learning&#xff09;&#xff0c;因为它的方法都是由概率统计领域拿来的。这些人中的领军人物很有商业头脑&#xff0c; 把…

[docker] 利用Dockerfile多级构建缩减镜像大小

一、nginx FROM centos:7 as build #基于centos7镜像 MAINTAINER nginx on centos7 by lxy-20240125 #注释信息 ADD nginx-1.24.0.tar.gz /opt/ #将nginx安装包传输到镜像中 RUN yum -y install pcre-devel zlib-devel gcc gcc-c make && \cd /opt/nginx-1.24.0 &…

什么是DDOS流量攻击,DDoS防护安全方案

随着互联网的发展普及&#xff0c;云计算成新趋势&#xff0c;人们对生活方式逐渐发生改变的同时&#xff0c;随之而来的网络安全威胁也日益严重&#xff01; 目前在网络安全方面&#xff0c;网络攻击是最主要的威胁之一&#xff0c;其中DDoS攻击是目前最为常见的网络攻击手段…

Android studio打包apk比较大

1.遇到的问题 在集成linphone打包时发现有118m&#xff0c;为什么如此之大额。用studio打开后发现都是c不同的pu架构。 2.解决办法 增加ndk配置&#xff0c;不选配置那么多的cpu结构&#xff0c;根据自己需要调整。 defaultConfig { applicationId "com.matt.linphoneca…

2023美赛A题之Lotka-Volterra【完整思路+代码】

这是2023年的成功&#xff0c;考虑到曾经付费用户的负责&#xff0c;2024年可以发出来了。去年我辅导队伍数量&#xff1a;15&#xff0c;获奖M为主&#xff0c;个别F&#xff0c;H&#xff0c;零S。言归正传&#xff0c;这里我开始分享去年的方案。由于时间久远&#xff0c;我…

FPGA——芯片手册学习(AD7606)

芯片手册学习&#xff08;AD7606&#xff09; 芯片封装图引脚功能图总结要操作的端口芯片时序 芯片封装图 引脚功能图 总结要操作的端口 6 PAR/SER/BYTE/ SEL :并行、串行、字节选择&#xff0c;我们使用并行&#xff0c;设置为0 7 STBY:睡眠控制&#xff0c;0电平睡眠 9 10 C…

8-小程序数据promise化、共享、分包、自定义tabbar

小程序API Promise化 wx.requet 官网入口 默认情况下&#xff0c;小程序官方异步API都是基于回调函数实现的 wx.request({method: , url: , data: {},header: {content-type: application/json // 默认值},success (res) {console.log(res.data)},fail () {},complete () { }…

银行数据仓库体系实践(14)--数据应用之内部报表及数据分析

在银行日常经营中&#xff0c;每个部门、分支行随时随地都需要进行数据统计和分析&#xff0c;才能对银行当前业务状况及时了解&#xff0c;以进行后续经营策略、营销活动、风险策略的调整和决策。那在平时进行数据分析时除了各数据应用系统&#xff08;如各类监管报表系统、财…