如何从“监控”到“可观测性”?

什么是可观测性?

可观测性(Observability)是一种通过系统产生的输出数据(如日志、指标和链路追踪)来衡量当前系统运行状态的能力,其源于现代应用系统的复杂性和分布式架构,这些应用系统往往由大量的服务器、容器、微服务等组成,部署在云端或混合云环境中。在这种情况下,传统的手动日志分析和故障排查方法已经无法满足快速定位和解决问题的需求。

因此,可观测性越来越成为一种必不可少的技术手段,帮助运维人员从业务应用视角实时监控应用系统的运行状态、性能指标和安全性,快速发现和解决问题,从而确保应用系统的高可用性和稳定性。同时,可观测性也可以提高运维人员的工作效率,降低维护成本,使得应用系统更加敏捷、灵活和具有竞争力。

监控与可观测性有什么区别呢?

随着云计算、容器化和微服务等技术的发展,可观测性在现代 IT 系统中的重要性逐渐凸显。在此,我们存在疑问:我们在过去二三十年里,使用指标和仪表盘等构建的“传统监控方法”为何无法满足“现代系统”的需要,“监控”和“可观测性”有什么区别呢?

究其根本,如果我们依旧使用传统监控方法,我们将无法完全“看到”现代系统。众所周知,现代分布式系统架构的复杂性会导致一种无法预测且之前没有遇到过的方式出现的故障,而传统的监控方法更多的需要依赖“预知”的度量值、阈值和经验直觉。

然而,“可观测性”方法提供了“传统监控”方法不同的思路:

1、从目标对象方面,不局限在某一个技术领域,更关注从业务应用全局去理解整体的运行情况和用户体验;

2、从解决问题方面,不需要依靠经验直觉,就具备对复杂系统的问题发现、诊断、定位和恢复的能力;

3、从技术手段方面,不只是具有“指标、日志、链路”等监控数据,还需要建立“跨业务、跨系统、跨资源”的数据整合关联和可探索性能力。

可观测性在落地过程中的目标和挑战

在单体应用架构时代,由于系统交互比较简单,数据收集有限,往往依靠监控和运维人员的经验监测判断系统问题。然而,现代应用程序由于其分布式系统的交互组件数量众多、敏捷化开发的高频迭代造成巨大的未知故障问题,使传统方法面临挑战。

纠其原因,现有的日志、链路、指标等监控方法存在一定局限。比如问题故障的出现往往牵扯多个工具,而在问题排查过程中,这些工具和数据的孤立性和割裂性给运维人员带来了较大的认知障碍,造成了在分布式应用架构时代可观测性落地过程中的沉重负担和巨大挑战。

因此,从“监控”到“可观测性”的核心思路和目标是解决多元数据的质量问题和异构整合问题,并具备以服务化方式持续扩展可观测场景的能力,具体实现指标、日志、链路、拨测和配置等数据域的质量管理和聚合关联,构建从应用与应用、应用与云服务以及三方组件、应用与容器层、应用与资源层的横纵全局视角的可观测数据资源关联能力和价值场景服务能力。

同时,结合应用横向全链路观测与应用纵向资源指标关联分析,将监控、告警、流程、自动化等运维视角进行多角度与结构化整合,呈现应用间的逻辑访问关系、告警情况、工单信息、指标监控、日志监控、链路监控、自动化作业等,将基础监控、应用监控、告警、流程、自动化等能力集于一身,以应用系统全景视角,为应用运维人员提供统一的业务视图,让业务运行情况一目了然。

可观测落地方法论是什么

由于存量工具的功能特性、数据质量和服务能力,直接决定了可观测性落地的成效。因此,可观测的落地需综合全面考虑现有运维工具建设情况,结合实际情况,分阶段进行能力构建:

  1. 分阶段逐步构建可观测能力

1、阶段一:建立从业务、应用与基础架构视角的告警维度的可观测能力,并提供告警会诊机制,关注复杂应用架构下的运行观测和问题发现能力,并提供线上协调各领域专家进行高效会诊服务;

2、阶段二:建立从业务、应用与基础架构视角的主动发现可观测能力,扩展叠加日志、链路等数据,从告警感知转变为主动发现的可观测能力,并联动自动化操作,实现应急处置,关注复杂应用架构下向故障定位和排障处置进行衍生,实现左移;

3、阶段三:通过积累的数据,基于算法能力形成动态阈值,容量预测,智能洞察、方案建议等主动预防可观测能力,关注复杂应用架构下向事后处置往事前预防进行变革,保证服务体验。

可观测的建设并非一蹴而就,通过分阶段逐步深入实施,能够最大程度保障落地效果和可观测服务体验。

  1. 基于平台运维模式打造可观测工具底座

与此同时,由于越来越多企业底层IT运维工具和体系呈现出“分割”和“并列”的趋势,彼此之间的弱连接,极大限制了可观测性实现的联动性、灵活性和扩展性,拥有集成平台和产品对于支持可观测性的数据资源整合和价值场景服务供给起到了至关重要的作用。

从2016年起,广通优云便开始摸索,希望通过一种形式实现数据、资源和场景的全域打通,最终,我们创新在业内提出的“平台运维模式”通过提供可观测能力的工具底座,整体从建设能力+服务场景侧,为可观测落地提供坚实保障,是实现可观测性的最优解。

整体从可观测性建设能力层与服务场景层进行价值提供:

1、可观测性能力层:优云通过平台化理念,构建统一采控、数据管理和指标体系模式、业务服务(监、管、控、配、析)底座,实现对多系统、多工具、异构资源的集中纳管和能力补齐,实现多种日志、链路、指标等数据的整合和治理,实现可观测性在运行观测、问题发现、故障定位和排障处置端到端过程的无缝联动能力;

2、可观测性场景层:基于优云底座平台之上,以服务共享模式,不断延伸可观测的生态运维场景,实现从业务、应用、基础架构视角的告警可观测场景、主动发现可观测场景和主动预防可观测场景。

广通优云可观测性 实践成果

  1. 构建多层次视角的可观测体系

某国有大行基于优云运维平台,自动采集/接入应用调用链路信息、交易链路信息、日志事件、应用实例运行指标等观测数据,构建多层次视角的可观测体系,动态横向链路导航实现监测链路调用监控与追踪,静态纵向应用地图导航应用全貌,保障业务的安全、稳定运行,使用应用监控实现业务指标监控、应用指标监控、全链路追踪、应用拓扑分析、 指标阈值告警,实现了1分钟发现、3分钟定位、5分钟解决的业务支撑目标,帮助发现应用性能瓶颈,改善服务效率,提升应用体验,极大提升运维效率。

  1. 企业级应用墙:一图在手,尽在掌握

通过对应用进行精准“画像”,从应用中提取各项关键属性、运行指标,对各指标进行聚合分析,并根据不同人员按需配置,支持多维度查看,应用基本信息配置及呈现、指标呈现(可自定义扩展需显示的指标)、评价信息配置及呈现、应用轨迹查看(可快速链接到各流程工单系统)、应用运维操作等。

由此,运维人员可以在管理时更清晰、准确、快速地获取到应用的“病根”,并通过引导式运维快速、有效解决问题的目的。以业务/应用与基础架构图谱视角,全景展示运行状态。

  1. 以业务为视角的全要素、全流程洞察能力

针对业务应用的某一个异常节点,进行下钻,可以查看以应用为视角的架构拓扑,还可以查看以系统视角的架构拓扑,根据业务维度,想你所想,绘你所绘,让服务架构拓扑清晰可见,一目了然,秒解微服务繁杂且架构梳理无从下手的痛点,其中,基于平台化能力,无缝联动资产配置与知识库、自动化操作、工作流引擎等平台能力,实现应用资源数据为轴,纵向贯穿应用、资源之间的关系,建立应用资源架构关系地图,分层诊断故障根源节点,并实现应急处置和闭环管控能力。

  1. 应用全链路全程追踪,服务贴心

通过应用拓扑的访问关系和性能指标,查看最近应用节点是否存在性能瓶颈和应用错误,指标下钻定位到具体的耗时或应用错误链路。通过链路分析,探测到是哪个应用实例、哪台主机节点执行哪段代码产生的异常,再结合具体环节信息,展开环节所属进程资源信息、链路访问产生的应用日志、错误堆栈信息、数据库访问详情以及当前进程实例运行指标的趋势,分析定位到根因。

从迈入云原生时代起,技术更新迭代的速度明显增快。广通优云产品与解决方案真正实现了以应用业务为中心的核心诉求,切实解决了由传统被动监控手段到“主动发现”可观测的能力。从“监控”到“可观测性”,更丰富的技术、组织、内容融入其中,建构出对整个应用管理更宏大的认知。而这种认知如果能够基于统一可行的理念、方法论及工具产品,将统一的数据信息作为基础,将会大幅提高“主动发现”的能力,业务全面可观测,理想终将照进现实。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/92592.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Unity编辑器扩展:提高效率与创造力的关键

Unity编辑器扩展:提高效率与创造力的关键 前言 一、理解Unity编辑器二、扩展Unity编辑器的意义三、扩展Unity编辑器的必要性四、Unity编辑器的扩展方式五、扩展Unity编辑器的步骤六、Unity编辑器扩展的应用案例七、总结 前言 Unity是一款广泛使用的游戏开发引擎&am…

LangChain-Chatchat:基于LangChain和ChatGLM2-6B构建本地离线私有化知识库

如果你对这篇文章感兴趣,而且你想要了解更多关于AI领域的实战技巧,可以关注「技术狂潮AI」公众号。在这里,你可以看到最新最热的AIGC领域的干货文章和案例实战教程。 一、前言 自从去年GPT模型火爆以来,降低了很多个人和企业进入…

shell 06(shell内置命令)

一、内置命令介绍 shell 内置命令,就是由 Bash shell 自身提供的命令,而不是文件系统中的可执行文件 使用type 来确定一个命令是否是内置命令: type 命令 通常来说,内置命令会比外部命令执行得更快: 执行外部命令时不但会触发磁盘 I/0&am…

云计算服务体系-架构真题(十四)

云计算服务体系结构SaaS、PaaS、IaaS相对应分别()。 答案。应用层、平台层、基础设施层 (2022)给定关系模式R(U,F),其中U为属性集,F是U的一组函数依赖,那么函数依赖的公理系统(Armstrong)中分解规则是指(&…

Protobuf在IDEA中的插件安装教程

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

《JVM修仙之路》初入JVM世界

《JVM修仙之路》初入JVM世界 博主目前正在学习JVM的相关知识,想以一种不同的方式记录下,娱乐一下 清晨,你睁开双眼,看到刺眼的阳光,你第一反应就是完了完了,又要迟到了。刚准备起床穿衣的你突然意识到不对&…

【mq】如何保证消息可靠性

文章目录 mq由哪几部分组成rocketmqkafka 为什么需要这几部分nameserver/zookeeper可靠性 broker可靠性 生产者消费者 mq由哪几部分组成 rocketmq kafka 这里先不讨论Kafka Raft模式 比较一下,kafka的结构和rocketmq的机构基本上一样,都需要一个注册…

首席执行官Adam Selipsky解读“亚马逊云科技的技术产品差异化”

迄今为止,亚马逊云科技已经参与了21世纪几乎所有的大型计算变革,亚马逊云科技是一个很传奇的故事,它始于大约20年前的一项实验,当时亚马逊试图出售其过剩的服务器。人们确实对此表示怀疑。为什么在线书店试图销售云服务&#xff1…

区分什么是Java内存模型(JMM)和 JVM运行时数据区

文章目录 一、概念区分1、什么是内存模型?什么是(内存区域)运行时数据区?2、为什么要有Java内存模型?2.1、硬件的效率与一致性2.2、 CPU和缓存的一致性2.2.1、为什么需要CPU cache?2.2.2、三级缓存&#xf…

如何在 Linux 中设置 SSH 无密码登录

SSH(Secure SHELL)是一种开源且可信的网络协议,用于登录远程服务器以执行命令和程序。 它还用于使用安全复制 (SCP) 命令和 rsync 命令通过网络将文件从一台计算机传输到另一台计算机。 在本文[1]中,我们将向您展示如何在基于 RHE…

基于Java+SpringBoot+vue前后端分离在线问卷调查系统设计实现

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专…

推荐系统峰会:图与推荐系统

文章目录 图机器学习在京东视频召回中的应用提纲背景图召回架构图业务特色图召回总结 图算法在蚂蚁集团营销推荐场景的应用目录背景基金推荐长尾推荐 图模型在百度推荐系统的实践与思考目录图背景介绍常用算法Feed流图模型演进历程 GNN跨域推荐在微信业务上的应用目录GNN跨域遇…

登录校验-JWT令牌-登陆后下发令牌

目录 思路 接口文档 令牌生成和下发 步骤 具体代码如下 工具类 控制类 测试 前后端联调 思路 令牌生成:登陆成功后,生成JWT令牌,并返回给前端令牌校验:在请求到达服务端后,对令牌进行统一拦截、校验 接口文档…

非常简单!用Java实现一个简单的向量数据库雏形。

概述 向量数据库是用来解决高维向量数据管理和查询的问题。它能够有效地存储、索引和查询大规模高维度向量数据,并提供高性能和高效的相似度搜索。传统的关系型数据库或文档数据库在处理高维向量数据时可能会遇到诸多问题。比如在高维空间中,数据点之间…

搭建web网站

1.基于域名www.openlab.com可以访问网站内容为welcome to openlab!!! (1).安装所需软件HTTPD、mod_ssl [rootserver ~]# yum install httpd mod_ssl -y 添加域名映射:vim /etc/hosts (2)创建网站目录及网页,修改主配置文件新建openlab目录网站 配置文…

【网络安全】防火墙知识点全面图解(二)

本系列文章包含: 【网络安全】防火墙知识点全面图解(一)【网络安全】防火墙知识点全面图解(二)【网络安全】防火墙知识点全面图解(三) 防火墙知识点全面图解(二) 21、路…

基于android的学生公寓后勤系统/学生公寓管理系统APP

摘 要 随着网络科技的发展,移动智能终端逐渐走进人们的视线,相关应用越来越广泛,并在人们的日常生活中扮演着越来越重要的角色。因此,关键应用程序的开发成为影响移动智能终端普及的重要因素,设计并开发实用、方便的应…

《C语言编程环境搭建》工欲善其事 必先利其器

C语言编译器 GCC 系列 GNU编译器套装(英语:GNU Compiler Collection,缩写为GCC),指一套编程语言编译器,常被认为是跨平台编译器的事实标准。原名是:GNU C语言编译器(GNU C Compiler)。 MinGW 又称mingw32 &#xff0c…

无人驾驶领域的软件测试该如何开展?

无人驾驶汽车使用自主决策和控制系统,这种系统通常由多个软件和硬件组件组成。软件测试是必要的,因为它可以确保无人驾驶汽车的软件系统达到高度可靠性和安全性,以及提高无人驾驶汽车的性能和可靠性。 因此无人驾驶汽车是一定要进行严格的软件…

设计模式--工厂模式(Factory Pattern)

一、 什么是工厂模式 工厂模式(Factory Pattern)是一种创建型设计模式,它提供了一种创建对象的接口,但是将对象的实例化过程推迟到子类中。工厂模式允许通过调用一个共同的接口方法来创建不同类型的对象,而无需暴露对…