青城山脚下的滔滔江水奔涌而过,承载着擎创一往无前的势头,共同去向未来。2024年6月,双态IT成都用户大会擎创科技“数智化可观测赋能双态运维”专场迎来了完满的收尾。
本期回顾来自擎创科技CTO葛晓波的现场演讲:数智化转型的核心目的是需要一个全新的运维生命周期分析能力和故障的快速定位能力,以打破原有工具割裂的状态,将运维数据关联组合,为生产运营提供强大的支撑助力。
一、数据治理的关键能力
以某大型金融机构的一次生产事故为例,来看一看转型的必要性。
某次有多个业务系统访问A数据库,其中一个业务线程出现了不断重启的情况,经过运维人员的排查后,发现数据库运行正常,且主要业务应用(可脱库运行)也正常,于是给出了误告的结论。
半个小时后,另一业务应用(不可脱库运行)在访问该数据库时,开始出现交易失败状况,经过详细的排查才最终发现了该问题的根因:由于该数据库可脱库运行,但它具备一个前置的反向代理,业务系统需要通过这个代理来进行访问,然而这条信息并未被人工维护进知识库。
上述例子中的金融机构CMDB做的非常完善,但仍有一些信息关系由人工维护会出现疏漏,导致排障时容易得出错误结论,使业务无法第一时间恢复。这就是当下企业亟需完成运维数智化转型的意义之一。
二、如何梳理业务痛点,了解场景需求
运维平台的建设是为业务的平稳运行,所以首要的是要因地制宜、结合现状、以用促建。
-
痛点必须是“我”的痛点,不是“大家”的痛点
-
从生产事件中进行复盘,抓到痛点
-
统计日常工作时间分布,发现效率最低的工作内容
-
不要只关注技术上面的痛点,更要关注流程、管理上面的痛点
-
对梳理出来的痛点设置优先级
三、如何结合现状进行运维路径建设
1.运维规模
-
中大规模金融机构
可以优先考虑进行整体规划设计,然后采用分层建设的思路,按照数据采集、数据开发治理、数据存储管理、数据消费、算法平台、消费场景分层建设;
-
中小规模金融机构
可以根据痛点优先级,按照消费场景或者业务应用垂直的思路进行建设,随着场景和应用数量的不断拓展,逐步完善。
2.当前成熟度
-
运维成熟度高
从整体数据治理及数据平台入手,并构建上层场景
-
运维成熟度低
从基础工具和流程完善入手,以用促建,完善一部分,建设一部分
3.运维工具自主可控的程度
-
自主可控程度高
数据采集和数据关系的发掘相对容易实现,数据治理可以整体进行,场景建设可选择面较广
-
自主可控程度低
数据采集和数据关系的发掘随工具不同,复杂度和可实现性有较大差异,可以先从具备条件的数据开始进行治理,并依托这些数据建设可支撑的场景
四、最佳实践分享
某城商行根据上述建设规划,分期分步建设情况如下:
1.目前建设情况
①痛点
监控工具多且相对独立且数据分散,无法实现故障的快速发现、快速定界、快速处置
②目标
对运维数据进行整合、关联建模和分析,实现故障的快速定界和快速处置,提升行内整体运维效率
③解决方案及成效
-
夯实底座,完善监控体系
完成36套核心系统日志的接入,支持业务系统仪表分析,实现告警辅助治理等
-
应急处置场景,提高排障效率金融机构
完善面向领导视角和运维视角的业务墙,实现系统调用拓扑可视化,支持故障的快速定 界,实现场景、预案、处置动作的闭环建设等。
更多精彩内容,可以戳下面视频
运维数智化转型最佳实践
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
了解更多运维干货与行业前沿动态
可以右上角一键关注
我们是深耕智能运维领域近十年的
连续多年获Gartner推荐的AIOps标杆供应商
下期我们不见不散~