文章目录
- 一、稳定性
- (一)、服务级别协议
- 1、SLA
- 2、OLA
- 3、UC
- (二)、可用性指标
- (三)、突发事件等级
- 三、质量
- (一)、千行代码缺陷数量
- (二)、软件质量模型的发展
- (三)、产品质量模型
- 四、安全
- (一)、网络安全
- 五、灾备
- (一)、灾备指标
- (二)、灾难恢复等级
- (三)、容灾技术分类
一、稳定性
(一)、服务级别协议
1、SLA
服务级别协议(SLA),由服务方和客户之间在一定成本控制下为保障系统的性能和可靠性签订的,描述将要提供的一项或多项双方认可服务的一份协议。
- why:保障系统的性能和可靠性签订的
- who:服务提供方和顾客
- when:当供需方发生服务交易关系时
2、OLA
运营级别协议(OLA),在SLA的总目标下,为了支持每个环节的具体目标,服务提供方与其内部的某个部门就某项服务签订的协议,从而支持服务提供方所提供的各种服务
3、UC
支持合同(UC),服务提供方与外部供应商就某项服务的提供所签订的合同,外部供应商按服务提供方的要求为顾客提供商品或服务以满足与顾客的SLA中所约定的服务级别目标。
注意:UC通常是正式的合同,而SLA和OLA通常不是法律文件
(二)、可用性指标
可用性指标 | 标杆 | 备注 |
---|---|---|
平均无故障时间(MTBF) | 5.0小时 | 平均无故障时间=系统运行时间,系统在运行时间的故障次数平均无故障时间越长,系统的可靠性越高 |
平均故障修复时间(MTRS) | 0.5 小时 | 平均故障修复时间=修复系统故障耗时,故障次数平均故障修复时间越短,表示系统易恢复性越好 |
平均故障间隔时间(MTBIS) | 5.5小时 | 平均故障间隔=平均无故障时间+平均故障修复时间,平均故障问隔越长,表示可靠性越高 |
举例:
一个 24 小时*7 天的服务运行了 5020 小时,在这期间一共发生了 2 次中断,两次中断的时间分别为 6 小时和 14 小时,各项指标如下所示:
可用性=(5020-(6+14)/5020*100%=99.60%
或者:A=MTBF/(MTBF+MTRT)=2500/2510=99.60%
可靠性
(
M
T
B
S
I
,
平均系统事件间隔时间
)
=
5020
/
2
=
2510
小时
可靠性(MTBSI,平均系统事件间隔时间)=5020/2=2510小时
可靠性(MTBSI,平均系统事件间隔时间)=5020/2=2510小时
可靠性
(
M
T
B
F
,
平均无故障时间
)
=
(
5020
−
(
6
+
14
)
)
/
2
=
2500
小时
可靠性(MTBF,平均无故障时间)=(5020-(6+14))/2=2500小时
可靠性(MTBF,平均无故障时间)=(5020−(6+14))/2=2500小时
可恢复性
(
M
T
R
S
,
平均故障修复时间
)
=
(
6
+
14
)
/
2
=
10
小时
可恢复性(MTRS,平均故障修复时间)=(6+14)/2=10小时
可恢复性(MTRS,平均故障修复时间)=(6+14)/2=10小时
这个公式就是计算系统可用性的,也就是我们常说的,多少个 9,如下表所示:
(三)、突发事件等级
级别 | 备注 |
---|---|
特别重大突发事件(I级) | 系统性故障造成20%~60%的集中的基础、核心、关键系统不可用,且在24小时内无法恢复;或60%以上集中的基础、核心、关键的系统不可用且12小时内不可修复 |
重大突发事件(II级) | 系统性故障造成20%~60%的集中的基础、核心、关键的应用系统不可用且在12小时内不可恢复 |
较大突发事件(Ⅲ级) | 关键业务全国性的中断,且预计恢复时间大于6小时、少于12小时 |
造成区域性业务中断的故障 | 造成区域性业务中断的故障,且预计恢复时间小于6小时的事件按日常事件处理流程执行 |
三、质量
(一)、千行代码缺陷数量
千行代码缺陷数量:
- 普通软件公司:4~40
- 高管理软件公司:2~4
- 美国NASA软件:0.1
软件能力成熟度集成模型(CMMI)分级标准:
级别 | 备注 |
---|---|
初始级(CMMI 1) | 11.95‰ |
管理级(CMMI 2) | 5.52‰ |
定义级(CMMI 3) | 2.39‰ |
定量管理级(CMMI 4) | 0.92‰ |
优化级(CMMI 5) | 0.32‰ |
(二)、软件质量模型的发展
产品质量更多的是考虑软件产品或系统本身的质量特性。
(三)、产品质量模型
产品质量更多的是考虑软件产品或系统本身的质量特性。
四、安全
(一)、网络安全
等级保护级别:
- 第一级:用户自主保护级–不损害国家安全、社会秩序和公共利益
- 第二级:系统审计保护级–对社会秩序和公共利益造成损害,但不损害国家安全
- 第三级:安全标记保护级–对国家安全造成损害
- 第四级:结构化保护级–对国家安全造成严重损害
- 第五级:访问验证保护级–对国家安全造成特别严重损害
五、灾备
(一)、灾备指标
恢复点目标(RPO)
- 定义:灾难发生后,系统和数据必须恢复到的时间点要求
- 代表了当灾难发生时允许丢失的数据量
恢复时间目标(RTO)
- 定义:灾难发生后,信息系统和业务功能从停顿到必须恢复的时间要求
- 代表了企业能容忍的信息系统和业务功能恢复的时 间
(二)、灾难恢复等级
国家标准:1-6 级。
- 1 级:基本支持级,数据完全备份 1 周一次,介质场外存放。
- 2 级:备用场地级,数据完全备份 1 周一次,需要部分系统和网络设备。
- 3 级:电子传输和部分设备支持:完全备份 1 天一次,网络定时传输,部分设备。
- 4 级:电子传输和完整设备支持:完全备份 1 天一次,网络定时传输,完整设备,就绪状态。
- 5 级:实时传输和完整设备支持:完全备份 1 天一次,网络实时传输,就绪状态和自动切换。
- 6 级:数据的零丢失和远程集群
国标 6 级参考 7 要素:
- 数据备份系统
- 备用数据处理系统
- 备用网络系统
- 备用基础设施、
- 备份的技术支持能力
- 备用的管理维护能力
- 灾备恢复的预案。
(三)、容灾技术分类
根据对灾难的抵抗程度,容灾技术可分为以下三种:
- 数据容灾(首要前提)
- 系统容灾(基本基础)
- 应用容灾(主要关键)