2.1 表结构数据

1、表结构数据

字段:整列数
记录:整行数
维度:业务角度
度量:业务行为结果
维度字段:文本型(状态)
度量字段:数值型(交易结果)


2、事实表&维度表

维度表:只包含维度,只是描述性(产品表,品牌表,客户表)
事实表:包含维度和度量(销售,采购,库存都有交易情况和金额数量)


3、表结构数据特征 

  1、以字段或记录作为数据的引用、操作及计算的基本单位的数据

1. 第一行为:字段名(唯一)
2. 第二行以后成为:记录
3. 字段不能重名
4. 一个字段有一种类型(整列都是一个类型)

  2.、所有字段记录行数相同

     1. 方形结构(数据要完整,是一个矩阵,连续方形排列;有空值占位NULL)
     2. 记录行数相同
     3. 处理缺失值:
            文本型:
                 1. 影响不大:忽略或替换
                 2. 影响大:与业务员确认后替换或核实后删除
            数值型:
                 应用环节展开

3、一个表中有且只有一个主键

1. 主键物理意义:
    1. 单字段主键:一个字段构成
    2. 多字段联合主键
    3. 非空不重复(主键不能存在NULL,主键唯一)
    4. 定位记录行、字段名+主键值定位具体数值
    5. 以 XXID,XXNo,XX编号 为命名
2. 业务意义:
    1. 表的业务记录单位。在一个数据表中所有非主键的字段都围绕主键展开


4、表结构数据获取方法

1、 “应用”与“引用”

表格结构数据:应用
表结构数据:引用

应用:手动完成,操作不及时影响数据准确性
引用:产生连接关系,自动引用。数据源变化,表结构也会更新。

2、关系型数据库管理系统(RDBMS)

关系型数据库管理系统(RDBMS)主要任务是企业业务数据存储、检索、访问与共享
RDBMS→DB1(Table1,Table2,Table3)
     →DB2(Table1,Table2,Table3)
     →DB2(Table1,Table2,Table3)

1. 多层级结构
2. OLTP
3. 可量化、结构化数据
4. 提供大部分数据源
5. 不善于分析

3 、商业智能系统-BI(Business Intelligence)

用于企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策之实现商业洞察
1. 强于分析
2. 多功能模块构成
3. 两种类型:
    1. 企业商业智能系统
    2. 敏捷性商业智能系统(Power BI)
4. 多维数据集
5. 所见即所得

4、 ETL(Extract-Transform-Load)

将数据从数据源端经过抽取(Extract)、清洗转换(Transform)、加载(Load)到数据仓库
数据量大时候可以先抽取→加载→清洗(ELT)

1. E 抽取:创建与不同数据源的连接关系,对这些数据源中的数据进行引用
2. T 清洗转换:
    1. 清洗:
        筛选过滤不完整、错误、重复的数据记录(删除或补全影响业务较大的数据;人为或程序Bug;不合理的重复记录,如多录入了一次)
    2. 转换:
        1. 对“粒度”不一致的数据进行转换(如一个系列产品有多个型号,只关注一个系列的产品,需要将多个型号转换为一个系列)
        2. 对业务规则不一致的数据进行转换(如:新旧物料号需先转换为新的物料号)
        3. 非结构到结构化的转换(Level 1 不涉及)
3. L 加载:
    将抽取出来的数据经过处理后存到数据仓库,进行存储和使用
    数据仓库(DW)
    除了数据库的内容,还要引用其他相关系统之外的数据(行业市场数据、供应商等公司外部的数据)
    DW: DB + 网页 + CSV + TXT + 其他数据源

5、 数据仓库DW(Data Warehouse)

用来存储分析所需要的的不同数据源上的所有相关数据信息

6、 OLAP(Online Analytical Processing,联机分析处理

连接信息孤岛、创建多维数据类型

一个完整的BI项目,先后要涉及到:

ETL——DW——OLAP——数据可视化  4个软件

还要经过业务理解,多维度数据获取加工,多维数据获取创建,透视分析规则创建以及分析结果展现。


5、表结构数据的使用方法

1、表结构数据的横向合并

将不同表中的字段信息合并到同一个表中使用

1. 通过公共字段匹配
    具有相同的记录值的字段(如两个表都有:相同的字段值(不是字段名),允许不一一对应)
2. 左表与右表
    对于SQL:   A join B   A为左表  B为右表
    连接方向:
        1. 左连接:left join  左表为主表,左表应该出ID
        2. 右连接:right join  右表为主表,右表应该出ID
        3. 内连接: inner join  没有主副之分,只保存公共的区域
3. 对应关系
    决定连接结果行数是对项乘积的结果
    
    一对多,多对一,多对多
    一般选择一对多的连接方式(主键→非主键)

4. E-R 图
    多表连接的鸟瞰图

2、表结构数据的纵向合并

多表中的记录合并到同一个表中使用的合并方式称为纵向合并
1. 去重合并(UNION)和全合并(UNION ALL)
2. 满足条件:
    1. 字段个数相同(列相同)
    2. 相同字段的类型相同

3、表结构数据的汇总 

数据透视:对零散数据进行汇总的分析

1. 维度:业务观测角度  (员工)分组依据

2. 度量:业务行为结果  (销售金额)
3. 汇总计算规则:衡量业务好坏  (对销售金额求SUM)聚合规则

透视图可以在零散的表格记录中汇总:各个员工的销售业绩

聚合规则:
1. 合并(SUM)
2. 计数(COUNT /  DISTINCOUNT)
3. 平均 (AVERAGE)
4. 最大值 (MAX)
5. 最小值(MIN)

4. 数据分析的业务意义 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/419150.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu22.04安裝mysql8.0

官网下载mysql:MySQL :: Download MySQL Community Server 将mysql-server_8.0.20-2ubuntu20.04_amd64.deb-bundle.tar上传到/usr/local/src #解压压缩文件 tar -xvf mysql-server_8.0.20-2ubuntu20.04_amd64.deb-bundle.tar解压依赖包依次输入命令 sudo dpkg -i m…

基于springboot+vue的纺织品企业财务管理系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

顶刊 Radiology2023 Top10文章排行榜发布:ChatGPT霸占5席!医学前沿必读

顶刊 Radiology2023 Top10文章排行榜发布:ChatGPT霸占5席!医学前沿必读 期刊基本信息 期刊名称:RADIOLOGY 期刊ISSN: 0033-8419 影响因子/SCI分区:19.7/1区 出版周期:Monthly Radiology 是医学放射学领域的顶级期刊&am…

【算法】最小生成树—Prim算法与Kruskal算法

Prim算法和Kruskal算法都是解决最小生成树问题的经典算法。最小生成树是原图的最小连通子图,它包含原图的全部结点,且保持图连通的所有边代价和最小。一个连通图可能有多个最小生成树。 一、Prim算法 含义 Prim算法,也被称为普里姆算法&…

Unity(第十七部)Unity自带的角色控制器

组件Character Controller 中文角色控制器 using System.Collections; using System.Collections.Generic; using UnityEngine;public class player : MonoBehaviour {private CharacterController player;void Start(){player GetComponent<CharacterController>();}v…

Win11系统实现adb命令向安卓子系统安装APP

Win11系统实现通过adb命令向安卓子系统安装已下载好的apk包。 要实现以上目标&#xff0c;我们需要用到一个Android SDK 的组件Android SDK Platform-Tools &#xff01;这个组件呢其实是被包含在 Android Studio中的&#xff0c;如果你对安卓开发有所了解对此应该不会陌生&…

jmeter如何请求访问https接口

添加线程组http请求 新建线程组&#xff0c;添加http请求 填入协议&#xff0c;ip&#xff0c;端口&#xff0c;请求类型&#xff0c;路径&#xff0c;以及请求参数&#xff0c;查看结果树等。 然后最关键的一步来了。 导入证书 步骤&#xff1a;获取证书&#xff0c;重新生…

Linux磁盘性能方法以及磁盘io性能分析

Linux磁盘性能方法以及磁盘io性能分析 1. fio压测1.1. 安装fio1.2. bs 4k iodepth 1&#xff1a;随机读/写测试&#xff0c;能反映硬盘的时延性能1.3. bs 128k iodepth 32&#xff1a;顺序读/写测试&#xff0c;能反映硬盘的吞吐性能 2. dd压测2.1. 测试纯写入性能2.2. 测试…

【深度学习】Pytorch 教程(十五):PyTorch数据结构:7、模块(Module)详解(自定义神经网络模型并训练、评估)

文章目录 一、前言二、实验环境三、PyTorch数据结构1、Tensor&#xff08;张量&#xff09;1. 维度&#xff08;Dimensions&#xff09;2. 数据类型&#xff08;Data Types&#xff09;3. GPU加速&#xff08;GPU Acceleration&#xff09; 2、张量的数学运算1. 向量运算2. 矩阵…

《2023跨境电商投诉大数据报告》发布|亚马逊 天猫国际 考拉海购 敦煌网 阿里巴巴

2023年&#xff0c;跨境电商API接口天猫国际、京东国际和抖音全球购以其强大的品牌影响力和市场占有率&#xff0c;稳坐行业前三的位置。同时&#xff0c;各大跨境电商平台消费纠纷问题层出不穷。依据国内知名网络消费纠纷调解平台“电诉宝”&#xff08;315.100EC.CN&#xff…

C++设计模式_创建型模式_工厂方法模式

目录 C设计模式_创建型模式_工厂方法模式 一、简单工厂模式 1.1 简单工厂模式引入 1.2 简单工厂模式 1.3 简单工厂模式利弊分析 1.4 简单工厂模式的UML图 二、工厂方法模式 2.1 工厂模式和简单工厂模式比较 2.2 工厂模式代码实现 2.3 工厂模式UML 三、抽象工厂模式 3.1 战斗场景…

C语言可以干些什么?C语言主要涉及哪些IT领域?

C语言可以干些什么&#xff1f;C语言主要涉及哪些IT领域&#xff1f; 在开始前我有一些资料&#xff0c;是我根据网友给的问题精心整理了一份「C语言的资料从专业入门到高级教程」&#xff0c; 点个关注在评论区回复“888”之后私信回复“888”&#xff0c;全部无偿共享给大家…

LangChain---大型语言模型(LLM)的标准接口和编程框架

1.背景说明 公司在新的一年规划中突然提出要搞生成式AI(GenAI)的相关东西&#xff0c;在公司分享的参考资料中了解到了一些相关的信息&#xff0c;之所以想到使用LangChain&#xff0c;是因为在应用中遇到了瓶颈问题&#xff0c;除了已经了解和研究过的OpenAI的ChatGpt&#xf…

分层解耦-三层架构(未完)

controller层——》service——》dao——》service——》controller 控制反转 依赖注入

阿里巴巴找黄金宝箱(I)【华为OD机试-JAVAPythonC++JS】

题目描述 一贫如洗的樵夫阿里巴巴在去砍柴的路上&#xff0c;无意中发现了强盗集团的藏宝地&#xff0c;藏宝地有编号从0~N的箱子&#xff0c;每个箱子上面贴有一个数字&#xff0c;箱子中可能有一个黄金宝箱。 黄金宝箱满足排在它之前的所有箱子数字和等于排在它之后的所有箱子…

Android 性能优化--APK加固(1)混淆

文章目录 为什么要开启混淆如何开启代码混淆如何开启资源压缩代码混淆配置代码混淆后&#xff0c;Crash 问题定位结尾 本文首发地址&#xff1a;https://h89.cn/archives/211.html 最新更新地址&#xff1a;https://gitee.com/chenjim/chenjimblog 为什么要开启混淆 先上一个 …

“智农”-高标准农田

高标准农田是指通过土地整治、土壤改良、水利设施、农电配套、机械化作业等措施&#xff0c;提升农田质量和生产能力&#xff0c;达到田块平整、集中连片、设施完善、节水高效、宜机作业、土壤肥沃、生态友好、抗灾能力强、与现代农业生产和经营方式相适应的旱涝保收、稳产高产…

BUUCTF---wireshark1

1.题目描述 2.下载附件是一个.pcap的文件 3.需要用到wireshark工具&#xff0c;用该工具打开文件 4.用户在登录密码时一般不会用get方式提交&#xff0c;因为这样不安全&#xff0c;相比较而言post安全一点。 5.使用http.request.methodPOST命令进行过滤&#xff0c;得到一条流…

道路千万条,安全第一条,如何让机器人更安全?

停的住&#xff0c;停的稳&#xff0c;该避就避&#xff0c;该停就停。 商用机器人实现落地的前提有很多&#xff0c;但安全问题毫无疑问是重中之重。尤其随着机器人的应用场景开始向复杂化、小型化方向拓展&#xff0c;对机器人的安全能力要求更是与日俱增。如何保证机器人在…

供水管网水力模型的建立与应用

阐述管网水力模型构建流程,建立供水管网水力模型。通过数据录入生成管网基本拓扑结构及物理信息,在模型简化之后利用监测数据进行模型校核,保障管网模型满足精度要求。利用管网模型进行管网工况分析,掌握管网内压力分布与管道流速分布状态,提出管网运行薄弱环节。 给…