大数据:是指极其庞大的数据集,通常具备五大特征(5个V):数据量大(Volume)、数据类型多样(Variety)、数据生成速度快(Velocity)、数据真实性高(Veracity)及数据价值大(Value)。
数据仓库:数据仓库是一个集中的数据库,存储来自不同数据源的数据,供创建报告和执行分析。
数据湖:数据湖是一个庞大的数据池,按照数据的原始格式或自然格式存储数据。数据湖常用于存储大数据,包括结构化数据、半结构化数据和非结构化数据。
数据管理
数据管理是指通过采集、整理和访问数据,提高企业的生产力、效率和决策能力。
数据管理流程:
- 采集、处理、验证和存储数据;
- 整合来自不同数据源的各类数据,包括结构化、半结构化和非结构化的数据;
- 确保数据的高可用性,建立有效的灾难恢复机制;
- 管理员工及应用对数据的使用和访问方式;
- 保障数据安全,确保数据隐私
主数据管理
主数据
主数据(Master Data):是指在一个组织内部跨多个系统、应用程序和业务过程中共享、使用和维护的关键业务实体的核心数据。这些数据包括客户、产品、供应商、员工和其他重要的业务对象的信息。主数据的目的是确保数据在组织内的一致性、准确性和可靠性。
主数据可以根据不同的业务领域和实体进行分类:
- 客户数据(Customer Data):包括客户的基本信息、联系方式、交易历史、信用评分等;
- 产品数据(Product Data):包括产品的描述、分类、规格、价格、供应商信息等;
- 供应商数据(Supplier Data):包括供应商的基本信息、联系方式、合同信息、评价等;
- 资产数据(Asset Data):包括组织的固定资产、设备、设置、软件许可等详细信息;
- 员工数据(Employee Data):包括员工的个人信息、职位、履历、培训记录、绩效评估等;
- 组织数据(Organization Data):包括公司的部门、地点、业务单元、成本中心等相关信息;
主数据特征:
- 关键性(Criticality):主数据包括组织内最关键的业务实体信息,如客户、产品、供应商等。这些数据对业务运营和决策过程至关重要;
- 共享性(Shareablity):主数据通常需要在组织内的多个部门、系统和业务过程共享和使用。这要求主数据在不同的应用和业务场景中保持一致性和准确性。
- 持久性(Persistence):主数据通常具有较长的生命周期,需要在一定时期内保持稳定。与其他类型的数据(如交易数据)相比,主数据的变更频率较低。
《主数据管理实际白皮书1.0》针对主数据特征给出了五个超越:
- 超越部门:主数据不是那种局限于某个具体智能部门的数据库。主数据是满足跨部门业务协同需要的,是各个职能部门在开展业务过程中都需要的数据,是所有智能部门及其业务过程的“最大公约数”;
- 超越流程:主数据不依赖于某个具体的业务流程,但却是主要业务流程都需要的。主数据的核心是反应对象的状态属性,它不随着某个具体业务流程而发生改变,而是作为其完整流程的不变要素;
- 超越主题:与信息工程方法论中通过聚类方法选择主题数据不同,主数据是不依赖于特定业务主体却又服务于所有业务主题的有关业务实体的核心信息。
- 超越系统:主数据管理系统是信息系统建设的基础,应该保持相对独立,它服务于但是高于其他的业务信息系统,因此对主数据的管理要集中化、系统化、规范化。
- 超越技术:由于主数据要满足跨部门的业务协同,因而必须适应采用不同技术规范的不同业务系统,所以主数据必须应用一种能够为各类异构系统所兼容的技术条件。从这个意义上讲,面向微服务架构为主数据的实时提供了有效的工具。
主数据管理
主数据管理要做的就是从企业的多个业务系统中整合最核心的、最需要共享的数据(主数据),集中进行数据的清洗和丰富,并且以服务的方式把统一的、完整的、准确的、具有权威性的主数据分发给全企业范围内需要使用这些数据的操作型应用和分析型应用,包括各个业务系统、业务流程和决策支持系统等。
主数据管理使得企业能够集中化管理数据,在分散的系统见保证主数据的一致性,改进数据合规性、快速部署新应用、充分了解客户、加速推进新产品的速度。从IT建设的角度,主数据管理可以增强IT结构的灵活性,构建覆盖整个企业范围内的数据管理基础和响应规范,并且更加灵活的适应企业业务需求的变化。、
主数据管理的挑战:
- 数据质量:确保主数据的准确性、完整性、一致性和及时性是一个重要挑战。数据质量问题可能源于数据传输错误、充分记录、不一致的数据表示等。解决这些问题需要实施有效的数据治理和数据质量管理策略;
- 数据整合:组织内可能存在多个数据来源和系统,他们存储了不同格式和结构的主数据。将这些数据整合为一个统一、标准化的视图时一个关键挑战。解决这个问题需要实施数据整合和数据转换技术,以便在组织内实现数据的一致性和可访问性;
- 数据标准化:不同系统和业务部门可能采用不同的数据表示和编码方式。在主数据管理过程中,需要将这些不同表示和编码统一为一个组织内的标准。数据标准化是一个关键挑战,需要实施元数据和参照数据管理策略以解决;
- 数据安全和隐私:保护主数据的安全和隐私是一个重要挑战,特别是涉及敏感信息(如客户个人信息)时。组织需要遵守数据保护法规,实施适当的数据安全措施,如加密、访问控制和数据脱敏等;
- 组织变革管理:实施主数据管理往往涉及到组织内的业务流程、系统和文化的变革。成功推动这些变革需要强大的领导力、合作和沟通。组织需要确保员工对主数据管理的重要性有充分的认识,并且获得必要的培训和支持。
- 技术和工具选择:选择何时地技术和工具来支持主数据管理是一个关键挑战。组织需要根据自身的业务需求、数据结构和资源来评估和选择适当的主数据管理解决方案。
- 持续维护和更新:主数据管理是一个持续的过程,需要不断地维护和更新数据,以适应组织地业务变化。
主数据管理实施
元数据管理
概念
元数据:关于数据的数据,元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化、可视化。元数据打通了源数据、数据仓库、数据应用,记录了数据从生产到消费的全过程。
元数据主要记录了数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。在数据仓库系统中,元数据可以帮助数据仓库管理人员非常方便的找到他们所关心的数据,用于指导其进行数据管理和开发工作,可以极大的提升工作效率。
元数据可以分为:技术元数据、业务元数据 和 管理元数据。
技术元数据
技术元数据使存储关于数据仓库系统技术细节的数据,使用于开发和管理数据仓库使用的数据。常用的元数据有:
- 存储元数据:如表、字段、分区等信息。记录了表的中英文名称及表状态。分区信息、责任人信息、对应主题、文件大小、表类型、生命周期、权限信息;记录列的字段英文名、字段类型、字段备注、是否是分区字段,保密级别及权限信息等信息。
- 运行元数据:如大数据平台上所有作业运行等信息:类似于Hive Job日志,包括作业类型、实例名称、输入输出、SQL、运行参数、执行事件,执行引擎等;
- 数据开发平台中数据同步、计算任务、任务调度等信息,包括数据同步的输入输出表和字段,以及同步任务本身的节点信息:计算任务主要有输入输出、任务本身的节点信息、任务调度主要有任务的依赖类型、依赖关系等,以及不同类型调度任务的运行日志等;
- 数据质量和运维相关元数据:如任务监控、运维报警、数据质量、故障等信息,包括任务监控运行日志、告警配置及运行日志、故障信息等;
业务元数据
业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据。
常见的业务元数据有维度及属性(包括维度编码,字段类型,创建人,创建时间,状态等)、业务过程、指标(包含指标名称、指标编码、业务口径、指标类型、责任人、创建时间、状态、SQL等),安全等级,计算逻辑等规范化定义,用于更好的管理和使用数据,数据应用元数据,如数据报表、数据产品等配置和运行元数据。
管理元数据
- 人员
- 流程
- 职责、岗位
- 组织、部门