1 目的
常见的监控,主要是以收集数据以识别异常系统效应为主,多是单个服务,相互独立的状态。
可观测性,希望调查异常系统效应的根本原因,能够把多个服务、中间件、容器等串联起来,同时柔和metrics、log、tracing,以深入调查具有微服务架构的分布式系统的运行状况问题。
2 数据来源
可观测的主要数据类型包括:
- 指标数据(Metrics)
指标通常指系统性能相关的可量化数据,如 CPU 使用率、内存占用、网络带宽利用率、数据库查询速率、服务响应时间等。这些实时或周期性收集的数据可用于监控系统性能、资源利用率、容量规划、系统可用性。
常见的grafana可视化、Prometheus监控。
- 链路数据(Tracing)
链路数据常用于跟踪一个请求在多个服务间的调用路径及其耗时。通过收集每个服务节点上的跨度(Span)信息,形成完整的请求链路视图,便于深入理解跨服务边界的服务交互性能和问题定位。
系统拓扑图,服务和请求之间的相互关系。
- 日志数据(Logging)
日志是系统在运行过程中生成的记录信息,包括错误消息、警告、调试信息及用户操作事件等。通过对日志进行收集、存储、搜索和分析,运维人员能够了解系统的执行历史、发现异常情况并诊断问题。
执行历史记录、错误日志聚合和上报。
3 市场上的主要产品
Istio 服务网格,市场上的大多产品都是基于istio实现的。产品可以查看 istio 生态系统。
3.1 阿里云
文档:服务网格 ASM、可观测性管理
(1)服务等级目标SLO:服务等级指标SLI(Service Level Indicator)是衡量服务健康状况的指标。SLO是指服务等级的目标值或范围值,由一个或多个服务等级指标SLI组成。
- 就是说判断服务是否异常的规则,是否支持自定义;不支持的话,也可以把规则透明化,让用户知道。
(2)Metrics
(3)Log
(4)Tracing
(5)网络拓扑图
- 异常节点红色标识,点击单个服务,可以查看服务详情。
另外一个产品:阿里云云原生可观测套件,其实也是整合的metric、log、tracing三个数据。
- 事件流和错误原因归类。
3.2 华为云
文档:应用服务网格 - 监控中心
流量监控(metric)、访问日志(log)、应用拓扑(tracing),其实也都是分开了的管理页面。
3.2 腾讯云
文档:服务网格 TCM、可观测性
我们关注的是监控产品部分:
监控(metric)、日志(log)、tracing(调用连图)、网络拓扑图,其实也都是分开了的管理页面。
有比较详细的图形化页面解说。
3.4 行云创新
文档:服务网格(SolarMesh )
自定义策略规则。
网络拓扑图,错误节点标红,也需要点击查看。