Gartner在2018年提出AIOps(Artificial Intelligence for IT Operations),即人工智能在IT运维领域的应用。智能运维在技术方案、平台、场景都更加聚焦,恰逢AI技术飞速发展。用户可以实时监控分析大量的运维数据,预防和防止潜在问题,在落地基于单指标与多指标异常检测、日志模式识别、信息收敛、趋势预测等方面取得较好的应用效果。
一、AIOps的挑战
期望与实际应用之间的落差
1、过度强调替代性
厂商过度宣传AI的代替人力运维以达到降本增效的目的,但是受限企业数据和算法,过高的期望往往导致失望。同时,人们对“替代”的观点持排斥态度。
实际上,AI应该是提高运维效率和工作体验的工具,有明确的提高工作效能,使运维工程师摆脱重复繁琐的日常工作提高效能,而非取代人。
2、缺乏场景思维的平台导向
技术平台和企业的运维场景,组织流程未能有效融合,落地实践效果打折。
3、用户对AI的信任危机
运维对准确性和稳定性有极高的要求。AI算法的基于运行数据和决策数据,在面对复杂问题时,故障排查争分夺秒,定位的准确性尤为重要。而且,AI的准确性训练往往需要一定周期,时间越久准确性越高。
目前市场上鲜有能够将AIOps算法与企业一线专家知识有效结合的解决方案。运维领域的解决方案需要借鉴类似AI Agent技术,实现多个工具、算法和经验的交互与协作,以应对复杂任务。
4、数据变化不等于问题:
主流的AIOps方案主要是分析数据层面分析变化,但也许在抛出一个异常的用户行为、潜在的性能风险、生产故障问题的数据变化时,还带来10个正常业务逻辑、市场环境变化的信息需要人工干预。如何减少数据变化的噪点与落实对数据变化感知后的应对措施,需要进行复杂的机制与平台设计。
5、成本与收益的平衡难题:
从平台层面来看,数据类研发工作琐碎且成效难以明确,这可能导致数据质量不足,进而影响上层场景的准确性。在近年来市场下行和厂商追求毛利的背景下,厂商在现场投入减少,同时在一些偏自研的组织对于AIOps团队效益的认内也不够高。大模型的出现,也许会让AIOps成本大大下降。
二、AIOps是一种运维工作模式
AIOps强调人机协同的模式,利用算法(含AI、规则、经验)、机器算力、海量数据、机器人相结合,赋能稳定性保障场景的工作模式。
算法在运维决策中占据核心地位。算法应融合AI算法、专家规则与经验,才能让算法更加贴近运维实践的真实需求,还显著提升了决策的准确性。
数据是智能运维的基石,为算法提供了必要的输入和丰富的训练样本。通过全面收集、精细整合及深入分析运维数据,可以洞察系统中的潜在问题,准确预测故障趋势,并据此优化资源配置。在这个过程中,对于琐碎、枯燥的数据治理工作也需要关注与投入,它是确保数据质量、提升数据价值的关键环节。
场景是智能运维的价值创造的载体,“算法、数据、机器人”应聚焦重塑场景的细节赋能上。不可否认,新技术的引入会带来新的工作方式,但是作为稳定性保障领域,目前看最重要的工作场景还未发生太大变化,新技术更多是赋能作用。所以,突出场景驱动,重点是强调了技术对实际工作的赋能价值。
所以,我们要先抓住AIOps在异常检测、日志模式识别等效果好的技术,拥抱大模型这种黑科技,站在场景角度则去思考AI赋能。场景的选择上,应以痛点驱动,先梳理现有的稳定性保障工作场景,评估哪些环节可以加入算法与机器人,帮助这些场景下的人更高效的落实保障工作。
三、围绕在“感知、决策、执行”的智能运维场景
在前面的智能运维模式中,“算法、数据、机器人”重点聚焦在细节的赋能,“场景”是关键。
感知是智能运维场景的起点,依赖于全面而精准的监控、运行感知、风险挖掘。一方面,延续现有的各类监控工具和技术,实时、全面地监控系统、应用、网络、服务器、IDC、依赖平台与上游系统等各个层面对象,及时发现潜在问题和异常。
另一方面,利用成熟的AIOps算法解决一些监控在准确度、敏感度,或工作量过高方面的问题,更好的感知异常与潜在风险的挖掘。
决策环节是智能运维的大脑,应结合管理决策规则、一线专家经验以及智能化分析方法。在实施上,应该以专家规则与经验优先,比如一线运维专家分析问题的步骤、可观测涉及的排障步骤、特定场景下的故障愈策略、历史告警处理或故障处置的匹配等,先打平现有工作模式或为现有工作模式提能增效。在这些决策能力有效的同时,再引入更具期待的AI算法决策可能是一种比较可行的决策方式。
执行环节是智能运维的落脚点。在执行环节中,各类分析、执行的工具或接口可被作为执行手段,由根据决策需求调用执行。执行工具可能包括自动化脚本、配置管理工具、持续部署、消息推送、机器人协作等。在调用执行上,中短期内可以考虑基于外部事件触发的事件驱动模式,中长期的可以探索下依赖于数据驱动的推理决策模式。
四、LinkSLA智能运维的场景实践
AI检测异常提前预警
在“感知、决策、执行”层面中,主要的挑战是“决策”。在目前成熟的方案中,单指标和多指标异常检测等依赖于精确的时序数据,需要投入较大来提供准确、连续的数据,以保证有效的异常检测。
以网络故障监控、设备性能监测为基础,结合网络流量监测功能,通过 AI 实现智能风险预测,故障提前预知;判断告警类型及级别,自动触发预设的故障解决流程,复杂问题指派工单专人处理,常规告警触发安全策略全自动处理,实现故障处理闭环;网络拓扑梳理,图形化辅助根因分析,根因定位从小时级缩短到分钟级。
自动巡检更高效
设置实时或周期性的任务巡检,主动对IT运行风险的评估与发现,最大可能地发现存在隐患,保障设备稳定运行。同时有针对性地提出预警及解决建议,最大限度降低系统运行风险。巡检的结果导出word供存档。有效降低工程师的日常工作强度,及时发现问题,且符合合规要求。
可视化数据分析能力
提供可视化数据分析能力,对网络海量数据进行图形化分析展示。通过直观的图表和图形化手段清晰有效地将运维数据分析结果进行传达,帮助用户由宏观到微观更快地了解运维状态,做出更具时效性的决策。
MOC高效协同工单流转
告警问题的及时响应及流转,系统自动触发与moc工程师7*24小时值守的方式快速响应告警问题,及时应对突发故障和请求,实现整个运维流程规范化、标准化,事件处理皆有数据可追溯。工单执行流程 发现异常是否能够及时响应,事件能否形成闭环,这是运维实践场景的关键。 以运维故障分析场景为例,ai异常检测快速产生告警,故障诊断。在线值守工程师进一步检验告警的准确性,确认信息无误后及时联系现场工程师,快速响应问题,避免故障范围扩大。有效遏制风险。在时间上和问题影响上有效控制。
IT部门可以定期审查和评估其运作和绩效,以调整潜在的改进空间和问题,并采取相应的措施。确保其成本与价值的平衡始终保持在最佳状态。
统一的、全栈的、智能的运维管理体系已成为用户运维的普遍需求。在全栈统一管理的基础上,结合业务高效发放以及 AI 技术赋予的智能故障定位、提前风险预知等能力,相信数据中心运维平台将快速从人工走向智能,实现高效率的运维管理。