前言
青城山脚下的滔滔江水奔涌而过,承载着擎创一往无前的势头,共同去向未来。2024年6月,双态IT成都用户大会擎创科技“数智化可观测赋能双态运维”专场迎来了完满的收尾。
本期回顾来自擎创科技产品总监殷传旺的现场演讲:云原生时代,业务系统日益复杂,组件繁多架构凌乱,故障排查面临巨大挑战。在当今的这种境况下,基于业务全链路构建端到端的排障分析体系,通过关联分析、AI算法等技术手段,实现故障的快速发现、精准定位和自动化处置,能够大幅提升故障处理效率,保障业务连续性。
云原生、分布式虽然带来了更优雅的微服务架构,但也使其变得更为复杂,在面对指数级增长的单元数以及逐渐趋于动态化的变更行为,多数企业运维中心开始要求建设或升级相应的工具及方法论来把控局面。
一、业务全链路定义
原有的点状业务系统监控逐渐升级进化成面向链状的业务场景监控,可以将原本复杂的蜘蛛网式拓扑将拆分为简洁的业务场景拓扑及交易路径,使得指标检测可以基于交易链路将纵向和横向的监控结合起来,监控视角与业务视角保持一致,更快更准的完成故障定位,并能清晰的了解业务影响范围。
二 、建设目标
运维作为业务运营的后置保障,被期望于能够防范于未然,但故障总会发生、难以避免,所以最好是能够在第一时间发现故障并在最快的时间内完成故障定位一级故障恢复。
-
1min-故障发现
实现多维指标联合告警,故障实时通知,辅助值班人员精准召集负责人处理故障。建设内容包括统一指标体系、指标关联分析、多指标告警、算法异常检测等;
-
5min-故障定位
能够智能识别场景路径,提供故障根因推荐,通过调用链、日志、指标结合算法快速完成故障定位。建设内容包括路径分析、根因推荐、交易链路追踪、服务接口分析、日志指标分析、系统分析等;
-
10min-故障恢复
可以有针对性的进行故障恢复,实现业务智能治理,做到热点故障回溯,聚类分析进行经验总结,形成处置预案为故障发现提供样本案例。建设内容包括故障隔离、熔断、限流、异常回归分析、变更验证等;
三、如何构建业务全链路
-
兼容企业已有运维体系
从基础设施到云内外业务系统,一方面全面对接企业已有的数据源并支持多种格式的统一化处理分析,如来自Zabbix、Prometheus、Skywalking、eBPF、EFK等多维数据。
另一方面,通过One Agent兼容云内外的数据采集,根据业务需求自定义采集策略,将新数据按照治理规范统一维度并以对象为中心建设模型,为业务场景消费提供有效价值。
-
链路数据接入
以两种重要方式接入,接入类型包括Trace、eBPF、BPC及日志,其中eBPF通过Hook内核函数,以非侵入性、安全且跨系统一致的方式收集遥测数据,来实现可观测性;而Agent接入则针对性能数据实现全面化采集,能快速定位跨系统调用的性能问题,二者能力存在互补可根据不同业务进行独立选择。
更多精彩内容,可戳以下现场视频观看
基于业务全链路的端到端排障分析
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力
行业龙头客户的共同选择
了解更多运维干货与行业前沿动态
可以右上角一键关注
我们是深耕智能运维领域近十年的
连续多年获Gartner推荐的AIOps标杆供应商
下期我们不见不散~