过去十年,科技化进程飞速发展,作为保障企业信息安全运行的运维行业,从手动发展到自动,又从自动发展到智能,IT运维也从原来的辅助角色逐渐变成了业务推动。
手动——自动——智能的发展
以银行用户为例,最初企业的信息系统各自为政,每一个应用系统都有一套独立的载体(计算、网络、存储),数据和程序同在一个屋檐下,应用和应用相互并不认识。这个阶段IT工程师依靠命令的方式实现这些载体设备的运行维护,专业和经验门槛高,往往都是设备大厂的工程师驻场,而企业用户缺乏专业技术,可能仅限于开关机以及程序使用。
伴随着企业信息化的发展,企业数据在量级上和安全性都有更高的要求,运维工作进一步细分,不仅需要专业的服务器管理员还需要专业的数据库管理员,但是这些工作还是建立在各自设备及软件的命令操作,工作方式没有发生根本性的变化。
随着业务发展数据不断增长,信息孤岛问题越来越多,从细分工作之外,看到了另一种工作模式:集中监控管理。企业的客户群体,业务范围、产品模式突破区域限制,业务从线下转到线上。企业数据量级、数据类型、并发规模等各方面都面临巨大挑战。依靠自动化监控工具难以满足业务高效、安全的要求。“主动、感知、自愈”智能化需求付出水面。
大数据分析--智能的前提
通过大数据分析来识别趋势和模式,预测潜在问题,并在问题发生前采取措施,或在问题发生时快速解决。对IT运维流程的洞察、决策和执行,从而提升效率、减少故障时间,并优化用户体验。
数据不仅是设备本身的运行数据,还包含所有应用系统甚至业务数据。运维事件的分析不再局限IT环境,还会扩展到对应用层的影响分析;对资源趋势分析也不仅是简单的线性分析,将扩展到业务特点上,毕竟,业务才是资源使用的源头。
例如,告警提示内存不足,会分析事件发生的原因,是应用并发访问导致的,还是SQL执行计划有误导致的?是否有类似事件,时间、场景是否相似?是否有规律性?除了资源调整,网络、存储或其它资源是否需要进行调整?
应用、网络、计算、数据、存储等各个视图上的变化都会被用来分析整个系统的关联性变化。不仅分析到事件本身的前因后果,还提供事件及未来应对的整体解决方案。
实践场景中的用户价值
在企业业务数字化、经营数字化、管理数字化的背景下,利用智能运维有多方面的优势
1、更契合场景需求
利用AI机器学习算法,对平台数据适应、学习,不断积累应用种种经验,能够快速适应场景需求,根据业务目标设置更有效和准确的运维指标。
2、故障问题精准定位
基于AI数据分析平台的分析能力和可视化能力,平台能够清晰地呈现出现故障的服务模块以及服务之间的依赖关系,缩短服务故障的窗口期,赋能企业更有效地应对IT架构复杂度不断提升过程中的运维问题。
3、事前预防
用户通过实时自动巡检功能,可在第一时间发现异常,根据容量指标的增长速度,发现潜在异常,提前预防,帮助运维工程师在日常工作中未雨绸缪,避免对业务系统的运行产生影响。
4、提质增效
提高告警的准确度,问题响应的及时性,故障处理效率提高65%以上,运维服务质量有效提升。降低技术成本和人力成本。运维从被动救火转变为主动预防,有效支撑业务的创新发展。