【知识整理】一文理解系统服务高可用

一、如何理解高可用

1、什么是高可用

高可用性(英语: High Availability,缩写为 HA),指系统无中断地执行其功能的能力,代表系统的可用性程度,是进行系统设计时的准则之一。

2、决定可用性的两大因素

谈可用性不需要绕来绕去,只谈 SLA 即可:SLA(Service-Level Agreement),服务等级协议,用于评估服务可用性等级。计算公式是 MTBF/(MTBF+MTTR)

2个9和3个9是可以靠技术完善和运气达到。但是从3个9往上,就基本超出了人力的范畴,考验的是业务的自愈能力,架构的容灾、容错设计,灾备系统的完善等等。

MTBF(Mean Time Between Failure),系统可用时长

MTTR(Mean Time To Repair),系统从故障后到恢复正常所耗费的时间

一个服务的可用度,取决于 MTBF 和 MTTR 这两个因子,要么提高 MTBF, 要么降低 MTTR。

3、构建高可用系统,面临哪些难题

不过,打造高可用系统,这个话题还是相对来说比较虚的。高可用构建不是一个点,而是所有点组合的一个结果。不像技术案例具体可实现,高可用更抽象,需要有足够的技术视野,需要能够观测并提前做好布局。即便如此,在构建稳定性时,还是会遇到很多难题。

难题一:业务变化之快

对于一个业务来说,不同阶段业务目标是不同的,对系统的要求也是如此:业务初期的要求迭代效率,业务中期的要求是业务起量,业务长期的要求是高可用(稳定性)。需要注意的是,面对业务的快速发展及不确定性,想要提升系统稳定性,需要贴合业务的节奏,对于影响稳定性高严重性、高可能性的风险进行风险管控处理。

难题二:构建范围之广

稳定性建设需要从全局视⻆总览,建设范围广,工作量大,其中包括研发、测试、运维、DBA等多个⻆色,流程规范,变更管理,涉及架构设计、数据库、缓存、消息队列、基础架构等。

例如:我们可能针对某个核心关键流程进行优化、容错、解耦设计,这个改动可能涉及系统层面从上到下的多处修改,包括数据结构调整、业务逻辑改造、数据交互方式等,涉及诸多方面,很可能有遗漏或bug,导致严重的事故,需要有逐一确认某个细节及强有力的测试才可以。

难题三:实施成本之高

稳定性建设是需要投入一定的成本,带来的收益也是隐形的,不像业务目标那么明显。一般情况下,业务上不会给技术做稳定性建设的,除非是业务已取得一定的收益,业务模型已形成闭环,此刻业务为了走的更远,打稳地基,允许投入一定的成本做稳定性建设。不过技术债,还是要尽早还,因为前期的成本要小很多。比如,服务依赖不合理,前期调整比后期调整的成本就要小的多。

4、影响稳定性因素有哪些

影响稳定性的因素有很多,比如业务代码、配置信息、基础设施、断电等,为了便于我们理解和记忆,我这里对影响稳定性的因素进行抽象的总结,分为:人为因素、自然因素两大类。


二、高可用性的方案高

可用分为4个步骤:预防、发现、恢复、复盘。

1、预防

通过良好的设计+规范+自动故障转移来实现。

架构设计原则

研发规范

设计阶段:遵循架构设计原则、技术设计文档

编码阶段:代码规范、工程结构规范、单元测试覆盖率和通过率、日志规范、CR规范、安全规范、高质量的代码发布阶段:变更三板斧(可灰度、可回滚、可观测)

故障转移

限流

限流是指对服务的并发访问量进行限制,设置单位时间内的并发数,超出限制的请求拒绝并fallback,防止后台服务被冲垮。(限流算法:计数器、滑动窗口基数、漏斗、令牌桶),集群限流、单机限流、如何做动态限流

降级

降级,是指牺牲非核心的业务功能,保证核心功能的稳定运行。简单来说,要实现优雅的业务降级,需要将功能实现拆分到相对独立的不同代码单元,分优先级进行隔离。在后台通过开关控制,降级部分非核心的业务功能,减轻系统依赖和性能损耗,从而提升集群的整体吞吐率。

开关降级:一是自动开关,这种降级方式要设立好降级预案,采集各类降级指标,包括业务指标和系统运行环境指标(例如:CPU、内存、某个支付通道的成功率等);

二是手工开关,这类降级要做的是设立好精准的告警。

读服务降级:出问题后一个接口返回(空、只读缓存、缺省、备份数据、其它服务等),前提是业务上可以容忍这类降级。

写服务降级:写服务大多数场景比较难做降级。可以控制写流量、写数据库改写成MQ或者缓存之类。

系统降级:业务中非核心的系统,流量大后可以关掉此类系统,将最好的资源留给最核心的服务。

功能开关:打开和关闭某些功能,比如消息量过大,系统处理不了,把开关打开后直接丢弃消息不处理。上线新功能增加开关,如果有问题关闭新功能。运行时动态调整日志级别,调试时打开对应开关动态调整输出级别。

熔断

当服务异常或者大量延时,满足熔断条件时服务调用方会主动启动熔断,过载保护,自我嗅探,进行流量恢复。防止因为故障、超时、重试导致故障被多重放大。

容错

FailXXX

容错的设计有个基本原则,就是面向失败设计“Design for Failure”。为了避免出现“千里之堤溃于蚁穴”这种情况,在设计上需要考虑到各种边界场景和对于服务间调用出现的异常或延迟情况,同时在架构设计和开发时也要考虑周到,这一切都是为了达到以下目标:

一个依赖服务的故障不会严᯿破坏用户的体验。

当出现下游调用失败时,我们一般有几种处理方式:

1. failretry,即失败重试,需要配合退避时间,否则马上重试不一定会有效果。失败重试能够提高成功率,但是也会造成响应时间变慢,服务提供方压力倍增。具体要不要重试要根据具体情况决定:对响应时间有要求吗?接口失败率如何?重试会不会造成雪崩?当调用外部服务异常时可以设置重试策略,每次重试时间递增,但是需要设置最大重试次数和重试开关,避免对下游系统产生影响。请求对外接口的时候,需要设置合理的超时时间,避免外部接口挂掉时,阻塞整个系统。

2. failover,即所谓的故障转移。比如调用下游a接口失败,那么RPC的负载均衡器将会调用a接口提供方的其他机器进行重试;在比如数据库x挂了,应用自适应容灾将对x库的调用切换到y库调用,此y库即可以是faillover库(流水型业务),也可以备库(状态型业务)。

3. failsafe,即静默,一般下游链路是弱依赖的时候,可以采用failsafe,即可和failover相结合,比如failover了3次还是失败,那么执行failsafe。

4. failfast,立即报错,failfast主要让工程师快速的感知问题所在,并及时进行人工干预。

5. failback,延迟补偿(回血),一般可以采用消息队列或定时扫描等。

容灾

容灾的定义指在相隔较远的两地(同城或异地)建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处因意外(天灾、人祸、挖掘机事件或者机房断电)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作,侧重数据同步和系统持续可用,通俗的讲是指当灾难发生时,在保证生产系统的数据尽量少丢失的情况下,保持生产系统的业务不间断地运行,对灾难的容忍能力,容灾的核心思想是基于隔离的冗余。

方案:两地三中心、同城多活、异地多活等。

备份

对重要资源的备份,如系统、应用、数据、静态资源、配置和代码等。

隔离

对系统、业务所占有的资源进行隔离,限制某个业务对资源的占用数量,避免一个业务占用整个系统资源,对其他业务造成影响。

可以分为数据隔离、机器隔离、线程池隔离、进程隔离、模块隔离、业务隔离、机房隔离、在数据库的使用中还经常用到读写分离。

变更管理

变更:代码发布(灰度、可回滚)、DB、配置、网络、基础设施等

未变更管理:服务未续费、证书配置未更新导致过期等

2、发现

监控

监控元数据:CPU、内存、网络、IO、磁盘、负载

分层监控:网络层、接入层、服务层、基础层、中间件层、系统层等

日常监控:Nginx日志、错误日志、业务埋点日志、运行时日志,做监控检查,及早发现请求延迟、异常流ᰁ、错误等。

业务接口和数据监控:1.接口监控对核心的接口请求指标监控等等,2.核心业务数据监控。

报警

告警移动化。通过飞书、企业微信、钉钉移动化工具第一时间通知相关人员。

可视化

效率&稳定性:通过将服务的信息平台化,透明化,能够清楚了解服务的信息,提升业务方调用的效率,能够快速的对服务进行了解;另外能够清楚知道的服务的上下游依赖,业务方或调用方,这样在服务变更前能够及时通知到各个依赖方,并评估变更的影响。

服务治理:服务治理通过对当前服务的信息进行梳理、观测各项指标是否正常,包括服务职责,上下游依赖依赖是否合理,服务信息维护状态等等,防止慢慢的随着时间,逐渐的腐化。

可观测

Metrics(度量), tracing(跟踪), and logging(日志)

3、恢复

缩短故障影响时长:增大 MTBF ,减小 MTTR

优先恢复业务进行止损,再排查问题

异常预案(硬件、软件、业务) 值班

可回滚:发布版本失败时可随时快速回退到上一个稳定版本,或者开关回滚

自动恢复、自动扩缩容

4、复盘

复盘会和改进措施:排查根因、由点及面发现问题、制定改进方案计划和实施。


三、总结

人的意识是最重要的,专业能力可以锻炼培养。如果意识不足或松懈,好的能力以及机制流程也会形同虚设。

永远要对敬畏线上,敬畏客户体验。面向线上的稳定性战术上可以基于专业度锻炼后自信,但战略和思想上必须持

续如履薄冰、三省吾身。线上稳定性保障是作为技术人自己专业度的追求,始终保持敬畏。不因为业务繁忙、个人

状态、团队是否重视而有变化,只要职责在,就要守护好。技术主管以及系统负责人要有持续感知稳定性隐患和风

险,保持灵敏度以及系统性的查缺补漏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/374718.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Go】一、Go语言基本语法与常用方法容器

GO基础 Go语言是由Google于2006年开源的静态语言 1972:(C语言) — 1983(C)—1991(python)—1995(java、PHP、js)—2005(amd双核技术 web端新技术飞速发展&…

前端学习第四天

目录 一、复合选择器 1.后代选择器 2.子代选择器 3.并集选择器 4.交集选择器 5.伪类选择器 1.伪类-超链接(拓展) 二、CSS特性 1.继承性 2.层叠性 3.优先级 1.优先级-叠加计算规则 2.emmet写法 三、背景属性 1.背景图 ​编辑2.背景图平铺方…

JDK和CGLIB动态代理原理

动态代理会在程序运行时,自动的为原对象生成一个代理对象。该代理对象的方法会有逻辑上的增强,其一方面会执行增强的逻辑,另一方面其实就是通过反射调用被代理类的方法,这个调用过程跟静态代理就很像了。 JDK动态代理Demo如下&…

day04.C++库函数(常用)

目录 一.常用数学函数 #include / #include 二.常用字符串处理函数 #include / #include 2.1常见的内存函数: (1)memcpy库函数 (2)memcmp库函数 (3)memset 2.2字符串常见库函数 (1)strlen (2)strcpy 三、其他常…

【Transformer-Hugging Face 06/10】 数据预处理实例

目录 一、说明二、自然语言处理2.1 Pad2.2 截断2.3 构建张量 三、TensorFlow四、处理语音五、计算机视觉六、填充七、Multimodal 一、说明 在数据集上训练模型之前,需要将其预处理为预期的模型输入格式。无论您的数据是文本、图像还是音频,都需要将它们…

Vulnhub靶机:hacksudoAliens

一、介绍 运行环境:Virtualbox 攻击机:kali(10.0.2.15) 靶机:hacksudoAliens(10.0.2.46) 目标:获取靶机root权限和flag 靶机下载地址:https://download.vulnhub.com…

Log360,引入全新安全与风险管理功能,助力企业积极抵御网络威胁

ManageEngine在其SIEM解决方案中推出了安全与风险管理新功能,企业现在能够更主动地减轻内部攻击和防范入侵。 SIEM 这项新功能为Log360引入了安全与风险管理仪表板,Log360是ManageEngine的统一安全信息与事件管理(SIEM)解决方案…

数字图像处理(实践篇)四十六 OpenCV-Python 目标定位(Features2D + Homography)

目录 一 单映射Homography 二 涉及的函数 三 实践 一 单映射Homography 在计算机视觉中,平面的单应性被定义为一个平面到另外一个平面的投影映射。 单映射Homography 就是将一张图像上的点映射到另一张图像上的对应点的3x3变换矩阵。从下图中可以看出&#x

深兰科技陈海波出席CTDC2024第五届首席技术官领袖峰会:“民主化AI”的到来势如破竹

1月26日,CTDC 2024 第五届首席技术官领袖峰会暨出海创新峰会在上海举行。深兰科技创始人、董事长陈海波受邀出席了本届会议,并作为首个演讲嘉宾做了题为“前AGI时代的生产力革命范式”的行业分享。 作为国内顶级前瞻性技术峰会,CTDC首席技术官…

国考省考行测:判断推理,论证逻辑

国考省考行测:判断推理,论证逻辑 2022找工作是学历、能力和运气的超强结合体! 公务员特招重点就是专业技能,附带行测和申论,而常规国考省考最重要的还是申论和行测,所以大家认真准备吧,我讲一起屡屡申论和…

Linux进程信号处理:深入理解与应用(3)

🎬慕斯主页:修仙—别有洞天 ♈️今日夜电波:its 6pm but I miss u already.—bbbluelee 0:01━━━━━━️💟──────── 3:18 🔄 ◀️…

SQL 表信息 | 统计 | 脚本

介绍 统计多个 SQL Server 实例上多个数据库的表大小、最后修改时间和行数,可以使用以下的 SQL 查询来获取这些信息。 脚本 示例脚本: DECLARE Query NVARCHAR(MAX)-- 创建一个临时表用于存储结果 CREATE TABLE #TableSizes (DatabaseName NVARCHAR…

游泳哪个牌子口碑最好?全球最好的游泳耳机排行榜

在水中畅游时,倾听悠扬的音乐或放松的声音是一种愉悦的体验,而蓝牙游泳耳机的出现更是为游泳者提供了更便利的选择。市场上涌现出多款不同品牌的蓝牙游泳耳机,为了满足游泳爱好者对音乐的需求,小编为大家精心整理了一些值得推荐的…

C++多线程学习[五]:RAII锁

一、什么是RAII 使用局部对象来控制资源的技术,即它的生命周期由操作系统来管理,无需人工的介入。 为什么要采用RAII技术呢? 主要是在开发过程中资源的销毁容易忘记,容易造成死锁或内存泄露。 {}为一个区域 ,这里锁的…

JVM 性能调优 - 参数调优(3)

查看 JVM 内存的占用情况 编写代码 package com.test;public class PrintMemoryDemo {public static void main(String[] args) {// 堆内存总量long totalMemory Runtime.getRuntime().totalMemory();// jvm 试图使用的最大堆内存long maxMemory Runtime.getRuntime().maxM…

Matlab使用点云工具箱进行点云配准

一、代码 source_pc pcread(bun_zipper.ply); target_pc pcread(bun_zipper2.ply); % 下采样 gridStep 0.001; ptCloudA pcdownsample(source_pc,gridAverage,gridStep); ptCloudB pcdownsample(target_pc,gridAverage,gridStep); % 初始变换矩阵 tform_initial affine3…

AE2023 After Effects 2023

After Effects 2023是一款非常强大的视频编辑软件,提供了许多新功能和改进,使得视频编辑和合成更加高效和灵活。以下是一些After Effects 2023的特色功能: 新合成预设列表:After Effects 2023彻底修改了预设列表,使其…

Excel——有效性、二级菜单联动

一、录入规范数据 1.手动输入序列录入有效性信息 选择需要录入有效性的所有单元格 选择【数据】——【有效性】——【有效性】 在【允许】输入的值之间选择【序列】 在【序列】输入框中输入想要选择的值,中间用逗号(必须是英文逗号)隔开 。…

Java入门之JavaSe(韩顺平p1-p?)

学习背景: 本科搞过一段ACM、研究生搞了一篇B会后,本人在研二要学Java找工作啦~~(宇宙尽头是Java?)爪洼纯小白入门,C只会STL、python只会基础Pytorch、golang参与了一个Web后端项目,可以说项目小…

Linux 网络:PTP 简介

文章目录 1. 前言2. PTP(Precision Time Protocol​) IEEE 1588 协议简介2.1 PTP IEEE 1588 协议时间同步原理2.2 PTP IEEE 1588 协议时钟类型2.2.1 普通时钟(OC: Ordinary Clock)2.2.2 边界时钟(BC: Boundary Clock)2.2.3 透明时钟(TC: Transparent Clock)2.2.3.1 端对端透明时…