1、表结构数据
字段:整列数
记录:整行数
维度:业务角度
度量:业务行为结果
维度字段:文本型(状态)
度量字段:数值型(交易结果)
2、事实表&维度表
维度表:只包含维度,只是描述性(产品表,品牌表,客户表)
事实表:包含维度和度量(销售,采购,库存都有交易情况和金额数量)
3、表结构数据特征
1、以字段或记录作为数据的引用、操作及计算的基本单位的数据
1. 第一行为:字段名(唯一)
2. 第二行以后成为:记录
3. 字段不能重名
4. 一个字段有一种类型(整列都是一个类型)
2.、所有字段记录行数相同
1. 方形结构(数据要完整,是一个矩阵,连续方形排列;有空值占位NULL)
2. 记录行数相同
3. 处理缺失值:
文本型:
1. 影响不大:忽略或替换
2. 影响大:与业务员确认后替换或核实后删除
数值型:
应用环节展开
3、一个表中有且只有一个主键
1. 主键物理意义:
1. 单字段主键:一个字段构成
2. 多字段联合主键
3. 非空不重复(主键不能存在NULL,主键唯一)
4. 定位记录行、字段名+主键值定位具体数值
5. 以 XXID,XXNo,XX编号 为命名
2. 业务意义:
1. 表的业务记录单位。在一个数据表中所有非主键的字段都围绕主键展开
4、表结构数据获取方法
1、 “应用”与“引用”
表格结构数据:应用
表结构数据:引用应用:手动完成,操作不及时影响数据准确性
引用:产生连接关系,自动引用。数据源变化,表结构也会更新。
2、关系型数据库管理系统(RDBMS)
关系型数据库管理系统(RDBMS)主要任务是企业业务数据存储、检索、访问与共享
RDBMS→DB1(Table1,Table2,Table3)
→DB2(Table1,Table2,Table3)
→DB2(Table1,Table2,Table3)1. 多层级结构
2. OLTP
3. 可量化、结构化数据
4. 提供大部分数据源
5. 不善于分析
3 、商业智能系统-BI(Business Intelligence)
用于企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策之实现商业洞察
1. 强于分析
2. 多功能模块构成
3. 两种类型:
1. 企业商业智能系统
2. 敏捷性商业智能系统(Power BI)
4. 多维数据集
5. 所见即所得
4、 ETL(Extract-Transform-Load)
将数据从数据源端经过抽取(Extract)、清洗转换(Transform)、加载(Load)到数据仓库
数据量大时候可以先抽取→加载→清洗(ELT)1. E 抽取:创建与不同数据源的连接关系,对这些数据源中的数据进行引用
2. T 清洗转换:
1. 清洗:
筛选过滤不完整、错误、重复的数据记录(删除或补全影响业务较大的数据;人为或程序Bug;不合理的重复记录,如多录入了一次)
2. 转换:
1. 对“粒度”不一致的数据进行转换(如一个系列产品有多个型号,只关注一个系列的产品,需要将多个型号转换为一个系列)
2. 对业务规则不一致的数据进行转换(如:新旧物料号需先转换为新的物料号)
3. 非结构到结构化的转换(Level 1 不涉及)
3. L 加载:
将抽取出来的数据经过处理后存到数据仓库,进行存储和使用
数据仓库(DW)
除了数据库的内容,还要引用其他相关系统之外的数据(行业市场数据、供应商等公司外部的数据)
DW: DB + 网页 + CSV + TXT + 其他数据源
5、 数据仓库DW(Data Warehouse)
用来存储分析所需要的的不同数据源上的所有相关数据信息
6、 OLAP(Online Analytical Processing,联机分析处理)
连接信息孤岛、创建多维数据类型
一个完整的BI项目,先后要涉及到:
ETL——DW——OLAP——数据可视化 4个软件
还要经过业务理解,多维度数据获取加工,多维数据获取创建,透视分析规则创建以及分析结果展现。
5、表结构数据的使用方法
1、表结构数据的横向合并
将不同表中的字段信息合并到同一个表中使用
1. 通过公共字段匹配
具有相同的记录值的字段(如两个表都有:相同的字段值(不是字段名),允许不一一对应)
2. 左表与右表
对于SQL: A join B A为左表 B为右表
连接方向:
1. 左连接:left join 左表为主表,左表应该出ID
2. 右连接:right join 右表为主表,右表应该出ID
3. 内连接: inner join 没有主副之分,只保存公共的区域
3. 对应关系
决定连接结果行数是对项乘积的结果
一对多,多对一,多对多
一般选择一对多的连接方式(主键→非主键)4. E-R 图
多表连接的鸟瞰图
2、表结构数据的纵向合并
多表中的记录合并到同一个表中使用的合并方式称为纵向合并
1. 去重合并(UNION)和全合并(UNION ALL)
2. 满足条件:
1. 字段个数相同(列相同)
2. 相同字段的类型相同
3、表结构数据的汇总
数据透视:对零散数据进行汇总的分析
1. 维度:业务观测角度 (员工)分组依据
2. 度量:业务行为结果 (销售金额)
3. 汇总计算规则:衡量业务好坏 (对销售金额求SUM)聚合规则透视图可以在零散的表格记录中汇总:各个员工的销售业绩
聚合规则:
1. 合并(SUM)
2. 计数(COUNT / DISTINCOUNT)
3. 平均 (AVERAGE)
4. 最大值 (MAX)
5. 最小值(MIN)