一. 数据库系统概述
信息需要媒体(文本、图像视频等)表现出来才能被人类所获取,媒体可以转换成比特或者符号,这些称为数据;
数据/信息的特点:爆炸式增长、无限复制、派生;
数据库是指长期长期存储在计算机内、有组织、可共享的大量数据的集合;(DB)
数据库管理系统:位于用户与操作系统之间的一层数据管理软件(DBMS);
数据库系统(20实际60年代末至今):数据库、数据库管理系统(及其开发工具)、应用程序、数据库管理员;
数据库系统的特点:
- 数据结构化
- 数据的共享性高,冗余度低且易扩充
- 数据独立性高
- 数据由数据库管理系统统一管理和控制
(前三者是相比文件系统(20世纪50年代末-20世纪60年代中)的优点)
区分:
型(对某一类数据的结构和属性的说明,Type),值(一个型的具体赋值, Value)
模式(型的描述,不涉及具体值,schema),实例(模式的一个具体值,instance)
一个数据库只有一个模式;
模式定义:数据的逻辑结构(数据项的名字、类型、取值范围等)、数据之间的联系、数据有关的安全性、完整性要求;
外模式(子模式/用户模式):
1.数据库用户(包括应用程序员和最终用户)使用的局部数据的逻辑结构和特征的描述
2.数据库用户的数据视图,是与某一应用有关的数据的逻辑表示
3.模式与外模式的关系:一对多
4.外模式与应用的关系:一对多
目的:
保证数据库安全性的一个有力措施
每个用户只能看见和访问所对应的外模式中的数据
内模式(存储模式):
1.是数据物理结构和存储方式的描述
2.是数据在数据库内部的表示方式(记录的存储方式、索引的组织方式、数据是否压缩存储、数据是否加密、数据存储记录结构的规定)
3.一个数据库只有一个内模式
二级映像:外模式/模式映像、模式/内模式映像
作用:
保证数据的逻辑独立性
保证数据的物理独立性
保证了数据库外模式的稳定性
数据库管理员(DBA)具体职责:
决定数据库中的信息内容和结构
决定数据库的存储结构和存取策略
定义数据的安全性要求和完整性约束条件
监控数据库的使用和运行
数据库的改进和重组
二. 关系数据库
数据模型:对现实世界数据特征的抽象,即对现实世界的模拟
超码:关系模式中的一组属性,可以唯一标识关系的元组,每个关系至少有一个 superkey,超码的任何超集都是超码
码:唯一标识实体的属性集(不可再分的超码的最小集合)
候选码:若关系中的某一属性组的值能唯一地标识一个元组,则称该属性组为候选码
主码:若一个关系有多个候选码,则选定其中一个为主码(Primary key)(通常选择属性数最少的候选键为主码)
候选码中的属性称为主属性(Prime attribute)
不包含在任何侯选码中的属性称为非主属性(Non-Prime attribute)或非码属性(Non-key attribute)
整体范围:超码>码/候选码>主码
关系模型:在用户观点下,关系模型中数据的逻辑结构是一张二维表,它由行和列组成。
三类完整性约束:
- 实体完整性规则:若属性A是基本关系R的主属性,则属性A不能取空值
- 参照完整性:关系间的引用、外码、参照完整性规则
- 用户定义的完整性
设F是基本关系R的一个或一组属性,但不是关系R的码。如果F与基本关系S的主码Ks相对应,则称F是R的外码;
基本关系R称为参照关系,基本关系S称为被参照/目标关系
F可以取空值(F的每个属性值均为空值)或者等于S中某个元组的主码值
三. 关系数据理论
要求:不会发生插入异常、删除异常和更新异常,数据冗余应尽可能少
数据依赖:是一个关系内属性与属性之间的一种约束关系
主要类型:
- 函数依赖(Functional Dependency,简记为FD)
- 多值依赖(Multi-Valued Dependency,简记为MVD)
函数依赖:
设R(U)是一个属性集U上的关系模式,X和Y是U的子集。若对于R(U)的任意一个可能的关系r,r 中不可能存在两个元组在X上的属性值相等, 而在Y上的属性值不等, 则称“X函数确定Y ”或“Y函数依赖于X ”,记作X→Y
其中: X→Y,X 是决定因素;
若X→Y,并且Y→X, 则记为X←→Y;
若Y不函数依赖于X, 则记为X→Y。
平凡函数依赖和非平凡函数依赖:
X→Y,但Y⊈X则称X→Y是非平凡的函数依赖( NON-Trivial FD)
X→Y,但Y⊆X 则称X→Y是平凡的函数依赖( Trivial FD)
完全函数依赖和部分函数依赖:
在R(U)中,如果X→Y,并且对于X的任何一个真子集X’, 都有 X’ 推不出Y, 则称Y对X完全函数依赖,记作X → Y;
若X→Y,但Y不完全函数依赖于X,则称Y对X部分函数依赖,记作X → Y;
传递函数依赖:
在R(U)中,如果X→Y(Y⊈X),Y推不出X,Y→Z,Z⊈Y, 则称Z对X传递函数依赖(transitive functional dependency),记为:X → Z。
闭包:
在关系模式R<U,F>中为F所逻辑蕴涵的函数依赖的全体叫作F的闭包(closure),记为F +;
Armstrong公理系统(1974):
(简单讲,可以推出更小的,同乘一个子集,传递)
- A1 自反律(reflexivity rule):若Y ⊆ X ⊆ U,则X →Y 为F所蕴涵。
- A2 增广律(augmentation rule):若X→Y为F所蕴涵,且Z ⊆ U,则XZ→YZ 为F所蕴涵。
- A3 传递律(transitivity rule):若X→Y及Y→Z为F所蕴涵,则X→Z 为F所蕴涵。
根据Armstrong公理系统三条推理规则可以得到下面三条推理规则:
- 合并规则(union rule):由X→Y,X→Z,有X→YZ。
- 伪传递规则(pseudo transitivity rule):由X→Y,WY→Z,有XW→Z。
- 分解规则(decomposition rule):由X→Y及Z⊆Y,有X→Z。
注意:一般不计算F+,计算代价比较昂贵,一般计算X+(当前函数依赖左边的闭包)
如果计算出的X+包括所有的R集合,证明它是超码,如果不可继续分,则他是候选码。
如何找候选码:
方法一:先找单属性的候选码,再找剩余属性的组合
方法二:画图法,流程如下:
1. 根据函数依赖画图
2. 确定没有传入边的顶点 Vni 集;(入度为0)
声明 1:任何候选码都必须具有 Vni中的所有属性。
声明 2:如果 Vni 形成候选码,则 Vni 是唯一的候选键。
3. 标识仅具有传入边的顶点 Voi 集;(出度为0)
声明 3:候选码不包含Voi中的任何属性。
4. 使用观察查找其他候选码(如果有)
画图法详细示例:
关系分解:无损连接分解、依赖保留分解
无损连接判断:
1. 针对分解成两个表,满足下式则是无损链接
2. 针对分解成多个表,使用如下算法:
(1)构造一个k行n列的表,第i行对应于关系模式Ri,第j列对应于属性Aj。如果Aj∈Ri,则在第i行第j列上放符号aj,否则放符号bij;
(2)逐一检查F中的每一个函数依赖,并修改表中的元素。方法:取F中一个函数依赖X→Y,在X的列中寻找相同的行,然后将这些行中Y的分量改为相同的符号,如果其中有aj,则将bij改为aj;若其中无aj,则改为某一个bij;
(3)反复检查第(2)步直至无改变,若存在某一行为a1,a2,…,ak,则分解 具有无损连接性;如果F中所有函数依赖都不能再修改表中的内容,且没有发现这样的行,则分解不具有无损连接性。
简单而言,首先建表,有属性为aj,无为bij;接着遍历函数依赖FDs,对于函数依赖X->Y,在X中寻找相同的行,对应到Y中,如果Y中有aj,则全部改为aj,否则统一改为序号最小的bij。
详细例子如下:
已知R<U,F>,U={A,B,C,D,E},F={A→C,B→C,C→D,DE→C,CE→A},R的一个分解为R1(AD),R2(AB),R3(BE),R4(CDE),R5(AE),判断这个分解是否具有无损连接性。
step1:初始化二维表
step2:使用A->C进行更新(处理1、2、5行)
step3:使用B->C进行更新(处理2、3行)
step4:使用C->D进行更新(处理1、2、3、5行)
step5:使用DE->C进行更新(处理3、4、5行)
step6:使用CE->A进行更新(处理3、4、5行)
此时发现有一行为a1到a5,说明是无损的函数分解。
依赖保留分解:
定义:对关系 R 和函数依赖F, 分解 {R1, R2, ..., Rn} 保持函数依赖,如果满足
F+ = (F1 U F2 U . . . U Fn)+
where Fi = ΠRi(F), i = 1, ..., n.
使用DP算法进行检验:
- 对于每个函数依赖 在同一张表中 此时函数依赖保留
- 否则使用XYGP算法找W,如果Y在W中,则保留
XYGP算法:在每个分解后的关系Ri中寻找X可以确定的属性集
对于依赖关系:X→Y
初始化W为X
W := W U ((W ∩ Ri)+ ∩ Ri);
一直迭代直到W不变
注意实际上我们可以发现只有与W有交集的R需要进行上述操作,因为其他的是空集。
详细示例:
需要一直进行,更新所有R之后发现Y确实不在W中,则其不保持函数依赖;如迭代发现Y在W中即可停止,函数依赖保持。
----- 以上为本人学习数据库这门课总结出的一些知识点,有错误或者疑问可以评论区交流,欢迎指正!!!