数据全生命周期管理

数据存储

时代"海纳百川,有容乃大"意味结构化、半结构和非结构化多样化的海量的 ,也意味着批数据和流数据多种数据形式的存储和计算。面对不同数据结构、数据形式、时效性与性能要求和存储与计算成本等因素考虑,应该使用适合的存储形式与计算引擎。但数据容量的急剧扩大,这对于和计算成本带来极大挑战。而应针对不同热度数据采用不同存储和计算资源,以优化存储和处理成本并提升可用性。

数据存储系统划分

从时效性或数据形式上分为批式数据、实时流式数据;数据从结构化上分为结构化、半结构化和非结构化 。根据数据热度不同对存储量、时效性、读写查询性能要求各异,选择适合存储技术。
存储技术分类如下:

  • 传统关系数据库:Oracle、DB2、MySQL和SQL Server等,属于结构化数据存储。
  • 分布式关系数据库:Hive、GreenPlumn、Teradata和Vertica等,属于结构化数据存储。
  • NoSql存储:HBase、Redis、Elasticsearch、MongoDB和Neo4J等,属于半结构化和非结构化数据存储。
  • 消息系统:Kafka、RocketMQ等消息系统,属于非结构化和半结构化短期存储。
  • 文件系统:HDFS、S3和OSS等,属于结构化、半结构化和非结构化数据存储。

数据热度

所谓的数据热度,根据价值密度、访问频次、使用方式、时效性等级,将数据划分为热数据、温数据、冷数据和冰数据。数据热度应随着时间的推移,数据价值会变化,应动态更新数据热度等级,推动数据从产生到销毁数据生命周期管理。

  • 热数据:一般指价值密度较高、使用频次较高、支持实时化查询和展现的数据。
  • 温数据:介于冷热数据之间,主要用于数据分析。
  • 冷数据:一般指价值密度低、使用频次较低、用于数据筛选和检索的数据。
  • 冰数据:一般指价值极低,使用频次为零、暂时归档的数据。
    在这里插入图片描述
  • 热数据服务于决策管理者,建议采用存储量低,但对时效性、稳定性和可用性要求较高存储技术;
  • 温数据服务于数据分析者,建议采用存储稍高,计算资源性能高能支持数据分析工具有效发挥的存储和计算引擎;
  • 冷数据服务于数据科学家,建议采用大容量、 能力和可扩展存储技术;
  • 冰数据采用超大容量,超低成本用于归档的存储技术。
    对于冰数据归档数据,可根据企业数据战略按照数据年龄、法律强制保留年限等要求,制定数据销毁规则,对在充分挖掘数据价值前提下,对数据进行销毁减少不必要存储成本,其实这也是数据全生命周期管理的意义。

归档

数据归档是指将那些生命周期步入尾声保存到低性能廉价的存储,是数据生命周期管理必不可少的步
骤。在数据的正常运行过程中,数据热度从热、温、冷和冰的依次降温的转化可认为是归档的过程。
可根据企业监管法规要求及企业战略,指定出明确数据热、温、冷和冰数据之间的界限,制定出企业
数据归档策略,并依据归档策略对数据进行归档处理。
哪些数据需要归档,主要与监管法规的要求及企业的数据战略有关,其中有些关键的指标可供参考:

  • 数龄大老化的数据
  • 低使用率且容量大的数据
  • 暂无数据价值的冰数据
  • 企业监管法规要求强行保留的数据
  • 由于数据具有关键性价值而被保留的数据,无关乎使用概率

数据归档还要考虑到数据结构重构、数据压缩格式改变、访问性变化、数据可恢复性和数据可理解性
元数据管理等方面。

销毁

随着存储成本的进一步降低,越来越多的企业采取了“保存全部数据”的策略。因为从业务和管理的角度,以及数据价值角度上讲,谁也无法未来会使用什么数据。但随着数据量急剧增长,从价值成本角度,存储超出业务需求的数据未必是个好的选择。有时候一些历史数据也会导致企业的法律风险,
因此数据的销毁还是很多企业应该考虑的选项。

对于数据的销毁,企业应该有严格的管理制度,建立数据销毁的审批流程,并制作严格数据销毁检查表。只有通过检查表检查,并通过流程审批的数据才可被销毁。

学习记录;源来自于:微信号biggata53o

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/22073.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

iptables防火墙(二)

iptables防火墙(二) 一、SNAT策略1、SNAT策略简述2、配置实验 二、DNAT策略1、DNAT策略简述2、配置实验 三、Linux抓包工具tcpdump四、防火墙规则保存 一、SNAT策略 1、SNAT策略简述 SNAT策略就是将从内网传给外网的数据包的源IP由私网IP转换成公网IP&…

四川省信创联盟2023年第一次理事会顺利召开,MIAOYUN荣获“信创企业优秀奖”!

5月18日,四川省技术创新促进会信创工委会(四川省信创产业联盟)在成都市高新区新川科技园成功召开《2023年第一次理事单位(扩大)会议》,四川省技术创新促进会专家组杜纯文副组长、四川省技术创新促进会任渝英…

EasyRecovery16适用于Windows和Mac的专业硬盘恢复软件

无论你对数据恢复了解多少, 我们将为您处理所有复杂的流程并简化恢复!适用于Windows和Mac的 专业硬盘恢复软件 硬盘数据无法保证绝对安全。有时会发生数据丢失,需要使用硬盘恢复工具。支持恢复不同存储介质数据:硬盘、光盘、U盘/移动硬盘、数…

AC规则-1

本文主要参考规范 GPD_Secure Element Access Control_vxxx.pdf OMA 架构 基本定义 GP(GlobalPlatform)定义了一套允许各应用提供方独立且安全地管理其在SE上的应用的安全框架,而AC(Access Control),顾名思义,是对外部应用进行SE上应用访问…

网络知识点之-动态路由

动态路由是指路由器能够自动地建立自己的路由表,并且能够根据实际情况的变化适时地进行调整。 中文名:动态路由外文名:dynamic routing 简述 动态路由是与静态路由相对的一个概念,指路由器能够根据路由器之间的交换的特定路由信息…

【Python redis】零基础也能轻松掌握的学习路线与参考资料

Python redis是一种非常流行的缓存数据库,对于Python Web应用程序开发非常有用,能快速地处理大量的数据请求。Python redis的学习路线需要对Python语言有深刻的理解,并了解使用redis的API。在掌握了Python redis的基本知识后,就可…

Java设计模式-策略模式

简介 在软件开发中,设计模式是为了解决常见问题而提供的一套可重用的解决方案。策略模式(Strategy Pattern)是其中一种常见的设计模式,它属于行为型模式。该模式的核心思想是将不同的算法封装成独立的策略类,使得它们…

【halcon资料】取出区域的轮廓上所有转折点

一、说明 在区域运算的时候,有时候需要用图形的顶点来描述,比如,两个图中对象需要对齐,或者仿射变换,于是特征点是需要提取的。本文给出一个提取顶点的示例。 二、算子 1.1 get_region_polygon算子 (1&a…

高级树结构

二叉排序树 左子树中所有结点的值,均小于其根结点的值。 右子树中所有结点的值,均大于其根结点的值。 二叉搜索树的子树也是二叉搜索树。 注意: 1.二叉查找树不能插入重复元素 2.中序遍历是一个递增的数列 3.高度越小查询效率越高 二叉排序…

设备采购信息管理系统

系列文章 任务14 设备采购信息管理系统 文章目录 系列文章一、实践目的与要求1、目的2、要求 二、课题任务三、总体设计1.存储结构及数据类型定义2.程序结构3.所实现的功能函数4、程序流程图 四、小组成员及分工五、 测试界面展示添加采购信息按编号查找采购信息按设备编号查找…

macOS Ventura 13.5beta (22G5027e)发布

系统介绍 黑果魏叔 5 月 20 日消息,苹果今日向 Mac 电脑用户推送了 macOS 13.5 开发者预览版 Beta 更新(内部版本号:22G5027e),本次更新距离上次发布隔了 17 天。 macOS Ventura 带来了台前调度、连续互通相机、Face…

【SpringBoot】SpringBoot 纯后端项目如何自定义异常页面(Whitelabel Error Page)

文章目录 背景安排方案步骤 验证 背景 一个短链服务,业务将长链接给我,我转换成短地址,用户访问短地址时,我再做redirect;没有前端,纯后端项目短链会有过期时间,过期后将返回错误信息某一天一个…

本地电脑做服务器搭建私人音乐网站ThinkMusic + cpolar内网穿透

文章目录 1. 前言2. 本地网页搭建2.1 环境使用2.2 支持组建选择 3. 网页安装3. 本地网页发布3.1 Cpolar云端设置3.2 Cpolar本地设置 4. 公网访问测试5. 结语 转发自CSDN lisacpolar的文章:ThinkMusic源码搭建音乐网站,并实现公网访问 1. 前言 在我们的日…

Redis 概述

1. NoSQL 数据库简介 技术发展: 技术的分类 1、解决功能性的问题: Java、 Jsp、 RDBMS、 Tomcat、 HTML、 Linux、 JDBC、 SVN2、解决扩展性的问题: Struts、 Spring、 SpringMVC、 Hibernate、 Mybatis3、解决性能的问题: NoSQL、 Java 线…

MacBook杀毒软件CleanMyMac X2023

Mac 上也广泛存在恶意软件,并且能够突破系统自身的防护,通过渠道传播到电脑上,威胁大家的数据安全和窃取个人信息!所以,MacBook杀毒软件还是很有必要安装的。 始于颜值,忠于实力。CleanMyMac X是我用过UI风…

Java 与排序算法(3):插入排序

一、插入排序 插入排序(Insertion Sort)是一种简单直观的排序算法,它的基本思想是将待排序序列分为已排序区间和未排序区间,然后每次从未排序区间取出一个元素,将其插入到已排序区间的合适位置中,使得插入…

【Linux0.11代码分析】09 之 ELF可执行程序02 - Section Headers解析

【Linux0.11代码分析】09 之 ELF可执行程序02 - Section Headers解析 一、ELF概述二、ELF的组成结构2.1 ELF header:解析出 section headers 含31个section节和 program headers 含13个segment段2.2 Section Headers:获取当前程序的31个section节区信息2…

极狐(GitLab) 重磅发布新产品「极狐星」,让研发效能看得清,算得准,成就企业精英效能管理

在研发驱动业务增长的今天,越来越多的研发管理者发现: 总是觉得研发资源不够用? 如何用数据衡量研发效能? 如何定位软件交付瓶颈? 怎样管理并预警项目状态? 想尽早发现代码泄露风险怎么办?…

CleanMyMac X如何下载解锁完整版本?

这是一款很受到mac用户喜爱的清理软件。不仅清理文件的步骤十分简单,电脑小白用户也可以高效清理Mac电脑。作为一款全方位保护电脑的软件,CleanMyMac已经不满足于只做简单的Mac清理工具,而是为mac用户提供更多的实用功能:优化系统…

Redis三种集群模式

一、引言 Redis有三种集群模式,第一个就是主从模式,第二种“哨兵”模式,第三种是Cluster集群模式,第三种的集群模式是在Redis 3.x以后的版本才增加进来的,我们今天就来说一下Redis第一种集群模式:主从集群模…