《第5章-信息系统工程之数据工程(第三部分)》
- 2 数据工程
- 2.1 数据建模
- 2.2 数据标准化
- 2.3 数据运维
- 2.4 数据开发利用
- 2.5 数据库安全
2 数据工程
2.1 数据建模
1、根据模型应用目的不同,可以将数据模型划分为三类:概念
模型
、逻辑
模型
和物理
模型
。
模型 | 解释说明 |
---|---|
概念模型 | 也称信息模型,它是按用户的观点来对数据和信息建模,也就是说,把现实世界中的客观对象抽象为某一种信息结构,这种信息结构不依赖于具体的计算机系统,也不对应某个具体的DBMS.它是概念级别的模型 |
逻辑模型 | 1.目前主要的数据结构有层次模型、网状模型、关系模型、面向对象模型和对象关系模型 。其中,关系模型 成为目前好要的一种逻辑数据模型。2.关系数据模型的数据操作主要包括 查询、插入、删除 和更新数据 ,这些操作必须满足关系的完整性约束条件。3.关系的完整性约束包括三大类型: 实体完整性、参照完整性 和用户定义的完整性 。 |
物理模型 | 物理数据模型是在逻辑数据模型的基础上,考虑各种具体的技术实现因素 ,进行数据库体系结构设,真正实现数据在数据库中的存放 。物理数据模型的内容包括确定所有的表和列,定义外键用于确定表之间的关系,基于性能的需求可能进行反规范化处理等内容。物理模型的基本元素包括表、字段、视图、索引、存储过程、触发器 等,其中表、 字段和视图等元素与逻辑模型中基本元素有一定的对应关系 |
2、数据建 模过程包括数据需求分析、概念模型设计、逻辑模型设计
和物理模型设计
等过程。
数据建模过程 | 具体内容 |
---|---|
数据需求分析 | 用户需求一数据流图 |
概念模型设计 | 将需求分析得到结果抽象为概念模型的过程就是概念模型设计,其任务是确定实体和数据及其关联,建名逻辑模型,关系模式 |
逻辑模型设计 | 建立概念模型 ,其任务是确定实体和数据及其关联即E-R图 |
物理模型设计 | 将数据模型转换为真正的数据库结构,还需要针对具体的DBMS进行物理模型设计,使数据模型走向数据存储应用环节,主要问题包括命名、确定字段类型和编写必要的存储过程与触发器 等 |
2.2 数据标准化
1、数据标准化是实现数据共享的基础。使得数据简单化、结构化和标准化。
2、数据标准化的主要内容包括元数据标准化、数据元标准化、数据模式标准化、数据分类与编码标准化
和数据标准化管理
。
过程 | 解释说明 |
---|---|
元数据标准化 | 元数据是关于数据的数据。元数据被定义为提供关于信息资源或数据的一种结构化数据,是对信息资源的结构化描述。其实质是用于描述信息资源或数据的内容、 覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。 |
数据元标准化 | 开放系统互连环境(OSIE)四个基本要素(硬件、软件、通信和数据)中的三个要素(硬件、软件和通信) |
1.数据元:是数据库、文件和数据交换的基本数据单元。数据库或文件由记录或元组等组成,而记录或元组则由数据元组成.由对象、特性和表示组成。 2.数据元提取:方法有两种:自上而下(Top-Down)和自下而上(Down-Top)提取法。对于新建系统的数据元提取,一般适用“自上而下”的提取法。 3.数据元标准 | |
数据模式标准化 | 1.本质:规范化处理,减少冗余2.数据模式的描述方式主要有图描述方法和数据字典方法。图描述方法常用的有IDEFIX方法和UML图,主要用来描述数据集中的实体和实体之间的相互关系;数据字典形式用来描述模型中的数据集、单个实体、属性的摘要信息。 |
数据分类和编码标准化 | 就是把数据分类与编码工作纳入标准化工作的领域,按标准化的要求和工作程序, 将各种数据按照科学的原则进行分类以编码,经有关方面协商一致,由主管机构批准、注册,以标准的形式发Q作为共同遵守的准则和依据,并在其相应的级别范围内宣贯和推行。 |
数据标准化管理 | 包括确定数据需求、制定数据标准、批准数据标准和实施数据标准四个阶段 |
1.确定数据需求:将产生数据需求及相关的元数据、域值等文件。 2.制定数据标准:要处理“确定数据需求”阶段提出的数据需求。如果现有的数据标准不能满足该数据需求,可以建议制定新的数据标准,也可建议修改或者封存已有数据标准。 3.批准数据标准:数据管理机构对提交的数据标准建议、现行数据标准的修改或封存建加行审查一经批准,该数据标准将扩充或修改数据模型。 4.实施数据标准:涉及在各信息系统中实施和改进已批准的数据标准。 |
2.3 数据运维
过程 | 解释说明 |
---|---|
数据存储 | 就是根据不同的应用环境,通过采取合理、安全、有效的方式将数据保存到物理介质上,并能保证对数据实施有效的访问 |
数据备份 | 1.数据备份是为了防止由于用户操作失误、系统故障等意外原因导致的数据丢失, 而将整个应用系统的数据或一部分关键数据复制到其他存储介质上的过程。 2.数据备份结构可以分为四:DAS备份结构、基于LAN的备份结构、LANFREE备份结构和SERVER-FREE备份结构。 3.常见的备份策略主要有三种:完全备份、差分备份和增量备份。 |
数据容灾 | 1.根据容灾系统保护对象的不同,容灾系统分为应用容灾和数据容灾两类。 👉应用容灾用于克服灾难对系统的影响,保证应用服务的完整、可靠和安全等一系列要求,使得用户在任何情况下都能得到正常的服务; 👉 数据容灾关注于保证用户数据的高可用性,在灾难发生时能够保证应用系统中数据尽量少丢失或不丢失,使得应用系统能不间断地运行或尽快地恢复正常运行。 2.衡量容灾系统有两个主要指标:RPO和RTO,其中RPO代表了当灾难发生时允许丢失的数据量;而RTO则代表了系统恢复的时间。 |
数据质量与评价控制 | 1.数据质量描述:数据质量可以通过数据质量元素来描述,数据质量元素分为数据质量定量元素和数据质量非定量元素。 2.数据质量评价过程 3.数据质量评价方法:直接评价法和间接评价法: 👉 直接评价法:通过将数据与内部或外部的参照信息,如理论值等进行对比。确定数据质量。 👉 间接评价法利用数据相关信息,如数据只对数据源、采集方法等的描述推断或评估数据质量。 4.数据质量控制:分成前期控制和后期控制两个大部分。 👉前期控制包括数据录入前的质量控制、数据录入过程中的实时质量控制; 👉 后期控制为数据录入完成后的后处理质量控制与评价。 依据建库流程可分为:前期控制、过程控制、系统检测、精度评价 5,数据清理:三个步骤:数据分析一数据检测一数据修正 👉 数据分析:是指从数据中发现控制数据的一般规则,比如字段域、业务规则等, 通过对数据的分析,定义出数据清理的规则,并选择合适的清理算法。 👉 数据检测:是指根据预定义的清理规则及相关数据清理算法,检测数据是否正确,比如是否满足字段域业务规则等,或检测记录是否重复。 👉 数据修正:是指手工或自动地修正检测到的错误数据或重复的记录 |
2.4 数据开发利用
1、数据开发利用包括数据集成、数据挖掘和数据服务(目录服务、查询服务、浏览和下 载服务、数据分发服务)、数据可视化、信息检索
等。
过程 | 解释说明 |
---|---|
数据集成 | 1.将驻留在不同数据源中的数据进行整合,向用户提供统一的数据视图,使得用户能以透明的方式访问数据2.数据集成的目标就是充分利用已有数据,在尽量保持其自治性的前提下,维护数据源整体上的一致性,提高数据共享利用效率。实现数据集成的系统称为数据集成系统,它为用户提供了统一的数据源访问接口,用于执行用户对数据源的访问请求。 |
数据挖掘 | 1.从大量数据中提取或“挖掘”知识,即从大量的、不完全的、有噪声的、模糊的、 随机的实际数据中,提取隐含在其中的、人们不知道的、却是潜在有用的知识。 2.数据挖掘主要任务: 数据总结、关联分析、分类和预测、聚类分析和孤立点分析 。3.数据挖掘流程: 确定分析对象、数据准备、数据挖掘、结果评估与结果应用 五阶段 |
数据服务 | 数据服务主要包括数据且受服务、数据查询与浏览及下载服务、数据分发服务。 1 . 数据目录服务 :建立目录方便检索服务。2. 数据查询与浏览及下载服务 :是网上数据共享服务的重要方式,用户使用数据的方式有查询数据和下载数据两种。3. 数据分发服务 :是指数据的生产者通过各种方式将数据传送到用户的过程。 |
数据可视化 | 1.指将抽象的事物或过程变成图形图像的表示方法 2.可视化的表现方式分为七类:一维数据可视化、二维数据可视化、三维数据可视化、 多维数据可视化、时态数据可视化、层次数据可视化和网络数据可视化。 |
信息检索 | 1.信息检索的方法:全文检索、字段检索、基于内容的多媒体检索、数据挖掘 。2.信息检索的常用技术包括 布尔逻辑检索技术、截词检索技术、临近检索技术、限定字段检索技术、限制检索技术 等。 |
2.5 数据库安全
1、数据库安全对策
安全对策 | 要点 |
---|---|
防止非法的数据访问 | 数据库管理系统必须根据用户或应用的授权 来检查访问请求,以保证仅允许授权的用户访问数据库 |
防止推导 | 指的是用户通过授权访问的数据,经过推导得出机密信息,而按照安全策略, 该用户是无权访问此机密信息的 |
保证数据库的完整性 | 是保护数据库不受非授权修改 ,以及不会因为病毒、系统中的错误等导致的存储数据破坏。这种保护通过访问控制、备份/恢复以及一些专用的安全机制共同实现 |
保证数据的操作完整性 | 定位于在并发事务中保证数据库中数据的逻辑一致性 。由并发管理器子系统负责 |
保证数据的语义完整性 | 在修改数据时,保证新值在一定范围内符合逻辑上的完整性。对数据值的约束通过完整性约束来描述。 |
审计和日志 | 审计和日志是有效的威慑和事后追查、分析工具 |
标识和认证 | 标识和认证是授权、审计等的前提条件是第一道安全防线 |
机密数据管理 | 对于同时保存机密和公开数据的数据库而言,访问控制主要保证机密数据的保密性,仅允许授权用户的访问。这些用户被赋予对机密数据进行一系列操作的权限,并且禁止传播这些权限。 |
多级保护 | 将数据划分不同保密级别,户只能访问拥有的权限所对应级别的数据 |
限界 | 限界的意义在于防止程序之间出现非授权的信息传递 |
2、数据库安全机制包括用户的身份认证、存取控制、数据库加密、数据审计、推理控制
等内容。