文章目录
- 1. 容错设计技术
- 1.1 恢复块设计
- 1.2 N版本程序设计
- 1.3 冗余设计
- 2. 检错技术
- 3. 降低复杂度设计
- 4. 系统配置中的容错技术
- 4.1 双机热备技术
- 4.1.1 双机热备模式
- 4.1.2 双机互备模式
- 4.1.3 双机双工
- 4.2 服务器集群技术
1. 容错设计技术
1.1 恢复块设计
- 恢复块设计
- 选择一组程序的操作作为容错设计单元
- 从而把普通的程序块变成恢复块
- 恢复块
- 动态冗余
- 可以是模块、过程、子程序、程序段等
- 恢复过程
- 包含若干个功能相同、设计差异的程序块文本
- 每一时刻有一个文本处于运行状态
- 一旦该文本出现故障,则用备份文本加以替换
1.2 N版本程序设计
- 概述
- 设计出多个不同版本(或模块)
- 实行多数表决
- 目的:防止其中某一软件版本提供错误的服务
- 注意点:
- 使软件的需求说明具有完全性和精确性
保证第二条“不相关性”的前提
- 设计全过程的不相关性
它要求各个不同的软件设计人员彼此不交流,程序设计使用不同的算法、不同的编程语言、不同的编译程序、不同的设计工具、不同的实现方法和不同的测试方法
- 使软件的需求说明具有完全性和精确性
1.3 冗余设计
- 概述:
- 在一套完整的软件系统之外
- 设计一种不同路径、不同算法或不同实现方法的模块或系统作为备份
- 在出现故障时可以使用冗余的部分进行替换,从而维持软件系统的正常运行。
2. 检错技术
- 应用
- 无须在线容错或不能采用冗余设计技术的部分
- 且对可靠性要求较高,故障后果严重
- 实现:在软件出现故障后能及时发现并报警
- 设计时着重考虑的要素
- 检测对象
- 检测点:容易出错的地方、出错对软件系统影响较大的地方
- 检测内容:选取那些有代表性的、易于判断的指标
- 检测延时:从软件发生故障到被自检出
- 实现方式:
- 判断返回结果
- 计算运行时间:如果某个模块或函数运行超过预期的时间,可以判断出现故障
- 置状态标志位
- 处理方式:停机、部分停止
- 检测对象
3. 降低复杂度设计
- 软件复杂性组成:
- 模块复杂性
- 模块内部数据流向
- 程序长度
- 结构复杂性:不同模块之间的关联程度
- 模块复杂性
- 意义:
- 与软件可靠性有着密切的关系
- 是产生软件缺陷的重要根源
- 其设计的思想
- 在保证实现软件功能的基础上
- 简化软件结构,缩短程序代码长度,优化软件数据流向
- 从而提高软件可靠性。
4. 系统配置中的容错技术
4.1 双机热备技术
- 概述:
- 是一种软硬件结合的较高容错应用方案
- 组成:
- 两台服务器系统:安装操作系统和相应程序
- 一个外接共享磁盘阵列柜:数据和数据备份
- 相应的双机热备份软件
4.1.1 双机热备模式
- 概述
- Active/Standby方式
- 实现:
- Active 服务器处于工作状态
- Standby服务器处于监控准备状态
- 数据同时写入各节点
- 切换:
- 当 Active 服务器出现故障的时候
- 通过软件诊测或手工方式将 Standby机器激活
- 缺点:备机存在资源浪费
4.1.2 双机互备模式
- 概述:
- 实现:
- 两个相对独立的应用在两台机器同时运行
- 彼此均设为备机
- 切换:
- 当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过来
- 实现:
- 缺点:对服务器的性能要求比较高
教材里说的不是很清楚,这里我补充一下:双机互备实际是在双机热备的基础上的。按照双机热备,两个程序需要四台服务器,但是双机互备只用两台服务器:每台上安装一个服务,另一台作为它的备机。
4.1.3 双机双工
- 概述:两台服务器均处于活动状态,同时运行相同的应用,
- 优势:
- 保证整体系统的性能
- 实现了负载均衡
- 互为备份
- 应用: Web服务器、FTP服务器等
4.2 服务器集群技术
- 概述
- 指一组相互独立的服务器在网络中组合成为单一的系统工作
- 并以单一系统的模式加以管理
- 为客户提供高可靠性的服务
- 集群内各结点服务器通过内部局域网相互通信
- 故障转移:
- 节点故障:故障节点的服务被其他节点接管
- 应用服务故障:应用被重启,或由其他节点的服务接管