[ 原作者:擎创夏洛克,本文略做了节选和改编 ]
每次一说到“风险预警”,就会有客户问我们能做怎样的风险预警。实际上在智能运维厂商来说,此风险非彼风险,不是能做银行的业务上的风险预警(比如贷款风险等),而是聚焦于科技系统的风险。
有些大的金融企业,科技风险有专门的风险部门来管控。实际应用中,风险部门需要读取运维数据的分析结果,来达到预警的成效。然而,共享一套运维数据,运维部门用它来做日常监管控配、风险部门用它来做预警,也不是件容易的事。
好在,已经有客户开始这么做、并且得到了很好的收益。
擎创夏洛克的风险预警场景主要面向业务系统,以风险管控为主要视角,通过风险指标、健康度风险模型、风险识别矩阵三大模块构建而成。能够形成“事前预警、事中监控、事后分析”的自动化、可视化能力,为生产事件风险识别、风险防控洞察保驾护航,提高二道防线的生产运营风险管理能力。
我们所看到的普遍需求背景
1.监管要求提高
随着《数字中国整体建设布局规划》的出台,以及《金融科技发展规划2022-2025》的政策指导,监管机构及金融企业对信息科技风险管理的二道防线要求提升,需要进一步加强风险评估和监测力度,提升风险管控能力。
2. 现有工具手段不足
现下很多金融企业的科技风控部门仍主要通过人工采集运营及运维指标数据,时效性迟、准确度低、监控范围有限,无法做到实时的监控和根因定位,整体风险把控能力不足。
风险预警场景的三个主要功能
1.风险监控:实现在风险事件之前,依托运维大数据及健康度风险模型算法,对风险进行识别,对故障点进行排查和定位,提升事中风险定位能力。
2.风险预警:实现智能风险点探查、指标故障阈值条件设定及指标基线偏离度计算,针对风险点,提前向生产运行部门发出风险预警提示和通知。
3.风险复盘:围绕数据分析中心、报表统计中心等,对问题或事故进行复盘和总结,对相关模型、参数、规则等进行有目的地优化完善,反哺风险监测能力。
以某实例示意
关键词:风险识别、健康度、风险预警
某头部商业银行业务系统中的手机银行部分,由于应用进程的内存泄漏,导致服务器内存使用率和占用率快速上升。一线运维团队在擎创夏洛克应用健康详情界面中发现了红色健康提示,通过生产运维中心监控系统的引导快速完成定位问题,且同时通知了二线专家进行修复,避免了可能的服务中断问题。
上述案例中,主要应用了风险预警和风险监控两大模块,实现多维观测,根据健康度风险模型,围绕系统、业务、服务等重要指标进行全局实时地监测,主动识别风险点并及时进行告警通知;进而通过看板快速查看问题系统的运行状态,找到风险发生或可能发生的主要原因以及可能影响的事故范围,辅助运维人员提前将事故扼制。
看似轻描淡写,但放在真实的生产环境中如果没有合适的风险防范工具,是有可能造成运营事故的。无论事故大小,对于业务运营而言都是损失,是企业客户不愿见到的。
智能运维场景的重要性不多赘述,但我们发现很多企业客户在建设过程中,常常容易陷入越多越好、越快越好的误区中。
建设思路推荐
单论风险预警场景,我们有如下建设思路推荐:
1 - 制定风险指标体系 -
无规矩不成方圆,优先应该聚焦风向指标,打造指标的异常检测和趋势预测能力,为健康度模型提供基础数据,排摸重点系统的数据情况,制定适用于风险管理的指标体系。
2 - 构建健康评分模型 -
依托指标体系,围绕基本面和风险盘构建健康评分模型体系,为风险识别矩阵提供能力支持;量化评估依据,通过分级权重提升健康评分的准确度及可配置性。
3 - 实现风险识别矩阵 -
以风险指标、健康评分体系为基础,构建风险识别矩阵模型,通过风险矩阵快速识别风险点和影响面,实现风险“事前、事中、事后”的闭环管控,全面提升生产运营风险的防范能力。
· 风险预警场景建设收益
1 常态化风险监测能力up↑
通过数据聚合、分析、结合AI算法模型,提升自动化监测风险中及时预警、通知能力。提升事前风险预警能力。
2 风险场景化分析能力up↑
构建场景化分析能力,通过智能化数据分析,为故障定位提供宏观的证据链,辅助各平台快速解决问题。
3 生产运营风险管理能力up↑
从事前、事中、事后全方位建立风险防控体系,从风险管控角度,实现生产系统数据的融合贯通,打破各自为政、信息孤岛的局面,促进生产系统数据标准化。
———— THE End ————