HDFS异构存储详解

异构存储

    • HDFS异构存储类型
    • 什么是异构存储
      • 异构存储类型
      • 如何让HDFS知道集群中的数据存储目录是那种类型存储介质
    • 块存储选择策略
      • 选择策略说明
      • 选择策略的命令
    • 案例:冷热温数据异构存储
      • 对应步骤
    • HDFS内存存储策略支持-- LAZY PERSIST
      • 介绍
      • 执行
      • 使用

HDFS异构存储类型

  • 冷,热,温,冻数据
    • 通常,公司或者组织总是有相当多的历史数据占用昂贵的粗处空间。典型的数据使用模式是新传入的数据被应用程序大量使用,从而该数据被标记为“热”数据。随着时间的推移,存储的数据每周被访问几次,而不是一天几次,这是认为其是“暖”数据。在接下来的几周和几个月中,数据使用率下降的更多,成为“冷”数据,。如果很少使用数据,例如每年查询一次或两次,这是甚至可以根据其年龄创建第四个数据风雷,并将这组很少被铲讯的旧数据被称为“冻结数据”
    • Hadoop允许将不是热数据或者活跃数据的数据分配到比较便宜的存储上,用于归档或冷存储。可以设置存储策略,将较旧的数据从昂贵的高性能存储上转移到性价比较低(较便宜)的存储设备上。
    • Hadoop2.5及以上版本都支持存储策略,在该策略下,不仅可以在默认的传统磁盘上存储hdfs数据,还可以在SSD(固态硬盘)上存储数据。

什么是异构存储

异构存储是Hadoop2.6.0版本出现的新特性,可以根据各个存储介质读写特性不同进行选择。
例如冷热数据的存储,对冷数据采取容量大,读写性能不高的存储介质如机械硬盘,对于热数据,可使用SSD硬盘存储。
在这里插入图片描述

异构存储类型

RAM_DISK(内存)
SSD(固态硬盘)
DISK(机械硬盘)默认使用
ARCHIVE(高密度存储介质,存储档案历史数据)
在这里插入图片描述

如何让HDFS知道集群中的数据存储目录是那种类型存储介质

  • 配置属性时主动声明。 HDFS并没有自动检测的能力
  • 配置参数dfs.datanode.data.dir = [SSD] file:///grid/dn/ssd0
  • 如果目录前没有带上[SSD][DISK][ARCHIVE][RAM_DISK]这4种类型中的任何一种,则默认时DISK类型。

块存储选择策略

  • 块存储指的是对HDFS文件的数据块副本存储
  • 对于数据的存储介质,HDFS的BlockStoragePolicySuite类内部定义了6种策略
    HOT(默认策略)
    COLD
    WARM
    ALL_SSD
    ONE_SSE
    LAZY_PERSIST
  • 前三种根据冷热数据区分,后三种根据磁盘性质区分
    在这里插入图片描述

选择策略说明

  • HOT:用于存储和计算。流行且仍用于处理的数据保留在此策略中。所有副本都存储在DISK中。
  • COLD:仅适用于计算量中有限的存储。不再使用的数据或需要归档的数据从热存储移动到冷存储。所有副本都存储在ARCHIVE中。
  • WRAM:部分热和部分冷。热时,其某些副本存储在DISK中。其余副本存储在ARCHIVE中。
  • ALL_SSD:将所有副本存储在SSD中
  • one_SSD:用于将副本之一存储在SSD中。其余副本存储在DISK中。
  • Lazy_Persist:用于在内存中写入具有单个副本的块。首先将副本写入RAM_DISK,然后将其延迟保存到DISK中
    在这里插入图片描述

选择策略的命令

  • 列出所有存储策略
    hdfs storagepolicies -listPolicies

在这里插入图片描述

  • 设置存储策略
    hdfs storagepolicies -setStoragePolicy -path -policy

在这里插入图片描述

  • 取消存储策略
    hdfs storagepolicies -unsetStoragePolicy -Path
    在执行unset命令之后,将应用当前目录最近的祖先存储策略,如果没有任何祖先的策略,则将应用默认的存储策略
  • 获取存储策略
    hdfs storagepolicies -getStoragePolicy -path

案例:冷热温数据异构存储

为了更加充分的利用存储资源,我们可以将数据分为冷,热,温三个阶段来存储。具体规划如下:
在这里插入图片描述

对应步骤

  • step1:配置DataNode存储目录,指定存储介质类型(hdfs-site.xml)
    在这里插入图片描述
  • step2:重启HDFS集群,验证配置

在这里插入图片描述

  • step3:创建测试目录
hdfs dfs -mkdir -p /data/hdfs-test/data_phase/hot
hdfs dfs -mkdir -p /data/hdfs_test/data_phase/warm
hdfs dfs -mkdir -p /data/hdfs_test/data_phase/cold

在这里插入图片描述

  • step4:分别设置三个目录的存储策略
hdfs storagepolicies -setStoragePolicy - path /data/hdfs-test/data_phase/hot -policy HOT
hdfs storagepolicies -setStoragePolicy -path /data/hdfs-test/data_phase/warn -policy WARN
hdfs storagepolicies -setStoragePolicy -path /data/hdfs -test/data_phase/cold -policy COLD
  • step5:查看三个目录的存储策略
hdfs storagepolicies -getStoragePolicy -path /data/hdfs-test/data-phase/hot
hdfs sotragepolicies -getStoragePolicy -path /data/hdfs-test/data-phase/warm
hdfs soragepolicies -getStoragePolidy -path /data/hdfs-test/data-phase/cold
  • step6:上传文件测试异构存储
hdfs dfs -put /etc/profile/data/hdfs-test/data_phase/hot
hdfs dfs -put /etc/profile/data/hdfs-test/data_phase/warm
hdfs dfs -put /etc/profile/data/hdfs-test/data_phase/ cold
  • step7:查看不同存储策略文件的block位置
    hdfs fsck /data/hdfs-test/data_phase/hot/profile -files -blocks -locations

在这里插入图片描述

HDFS内存存储策略支持-- LAZY PERSIST

介绍

  • HDFS支持把数据写入由DataNode管理的对外内存
  • DataNode异步地将内存中数据刷新到磁盘,从而减少代价较高的磁盘IO操作,这种写入被称为Lazy Persist写入
  • 该特性从Apache Hadoop 2.6.0开始支持
    在这里插入图片描述

执行

  • 对目标文件目录设置StoragePolicy为LAZY_PERSIST的内存存储策略
  • 客户端进程向NameNode发起创建/写入文件
  • 客户端请求到具体的DataNode后DataNode会把这些数据块回写入RAM内存中,同时启动异步线程服务将内存数据持久化写到磁盘上。
  • 内部的异步持久化存储是指数据不是马上落盘,而是懒惰的,延时的尽心处理

使用

  • step1:虚拟内存盘配置
mount -t tmpfs -o size=1g tmpfs /mnt/dn-tmpfs/

将tmpfs挂载到目录/mnt/dn-tmpfs/,并且限制内存使用大小为1GB

  • step2:内存存储介质设置
    将机器中已经完成好的虚拟内存盘配置到dfs.datanode.data.dir中,其次还要带上RAM_DISK标签
    在这里插入图片描述

  • step3:参数设置优化
    dfs.storage.policy.enabled
    是否开启异构存储,默认true开启
    dfs.datanode.max. locked.memory
    用于在数据节点上的内存中缓存副本的内存量(以字节为单位)。默认情况下,此参数设置为0,这将禁用内存中缓存。内存值过小会导致内存中的总的可存储的数据块变小,但如果超过DataNode能承受的最大内存大小的话,部分内存块会被直接移出。

  • step4:在目录上设置存储策略

hdfs storagepolicies -setStoragePolicy -path <path> -policy LAZY_PERSIST

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/46298.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C# winform子窗口向父窗口传值

这里我使用一个简单的方法。只需要在父窗口定义一个静态变量就行。 父窗体为Form1,子窗体为Form2。 public static int get_num0; 子窗体直接给get_num赋值即可。 Form1.get_num2; 这样父窗体就能获得get_num修改后这个值了

[start] m40 test

software & update 470 drive version # cd /etc/apt # mv sources.list sources.list.bak # sudo vi /etc/apt/sources.list # 默认注释了源码镜像以提高 apt update 速度&#xff0c;如有需要可自行取消注释 deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ ja…

Flask 笔记

Flask 笔记 一、Flask介绍 1、学习Flask框架的原因 2020 Python 开发者调查结果显示Flask和Django是Python Web开发使用的最主要的两个框架。 2、Flask介绍 ​ Flask诞生于2010年&#xff0c;是Armin ronacher用Python 语言基于Werkzeug工具箱编写的轻量级Web开发框架。 ​…

Matlab 点云平面特征提取

文章目录 一、简介二、实现代码2.1基于k个邻近点2.2基于邻近半径参考资料一、简介 点云中存在这各种各样的几何特征,这里基于每个点的邻域协方差来获取该点的所具有的基础几何特征(如下图所示),这样的做法虽然不能很好的提取出点云中的各个部分,但却是可以作为一种数据预处…

SAP ABAP 用户状态锁定案例

一、前言 项目需求是根据当天及前两天的离职员工信息&#xff08;假设这是一个定时器任务每天下午5点执行程序&#xff0c;计算前两天的员工工号是为了将5点之后办理离职的员工工号找出来&#xff09;&#xff0c;将这些员工在用户表 USR02 中的锁定状态设置为 “64”&#xff…

Emacs之实现鼠标/键盘选中即拷贝外界内容(一百二十)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 人生格言&#xff1a; 人生…

springboot整合ELK+kafka采集日志

一、背景介绍 在分布式的项目中&#xff0c;各功能模块产生的日志比较分散&#xff0c;同时为满足性能要求&#xff0c;同一个微服务会集群化部署&#xff0c;当某一次业务报错后&#xff0c;如果不能确定产生的节点&#xff0c;那么只能逐个节点去查看日志文件&#xff1b;lo…

SecureCRT如何将复制的内容粘贴到word中仍然保持原有字体颜色

SecureCRT如何将复制的内容粘贴到word中仍然保持原有字体颜色 QQ 109792317 说明&#xff1a;当SecureCRT加载了配色文件后&#xff0c;输出的关键字会被不同颜色高亮显示&#xff0c;但是如果复制粘贴到word中会发现成了纯文本&#xff0c;字体颜色消失了。 如何保留 &#x…

2.java语法

文章目录 2.1. 字符型常量和字符串常量的区别?2.2. 关于注释&#xff1f;2.3. 标识符和关键字的区别是什么&#xff1f;2.4. Java 中有哪些常见的关键字&#xff1f; 2.5. 自增自减运算符2.6. continue、break、和 return 的区别是什么&#xff1f; 2.1. 字符型常量和字符串常…

CCLINK转profinet与西门子PLC通讯

用三菱PLC的控制系统需要和西门子的PLC控制系统交互数据&#xff0c;捷米JM-PN-CCLK 是自主研发的一款 PROFINET 从站功能的通讯网关。该产品主要功能是将各种 CCLINK 总线和 PROFINET 网络连接起来。 捷米JM-PN-CCLK总线中做为从站使用&#xff0c;连接到 CCLINK 总线中做为…

商品分类新建,修改,删除。手机扫码开单打印进销存,商贸批发生产企业仓库条码管理软件系统

商品分类新建&#xff0c;手机扫码开单打印进销存&#xff0c;商贸批发生产企业仓库条码管理软件系统&#xff0c;超市便利店五金茶叶烟酒鞋帽门店零售手机收银管理软件APP_哔哩哔哩_bilibili本期视频讲解&#xff1a;商品分类新建, 视频播放量 1、弹幕量 0、点赞数 0、投硬币枚…

【VCS】(7)Fast Gate-level Verification

Fast Gate-level Verification VCS中SDF反标(Back-Annotation)Lab 门级网表的后仿真DC综合RTL级仿真波形后仿真 网表级的仿真可以验证综合后得到的门级网表和RTL代码是否一致。也可以验证&#xff0c;在加速时序信息&#xff08;SDF&#xff09;之后&#xff0c;设计的功能是否…

数字化采购平台:提升效率、降低成本的未来趋势

随着信息技术的不断发展和应用&#xff0c;数字化采购平台逐渐成为企业采购管理的未来趋势。数字化采购平台是指通过信息化技术在采购过程中实现数字化、自动化和智能化的管理平台。本文将围绕数字化采购平台的应用和优势&#xff0c;探讨其在提升效率、降低成本等方面的重要作…

Jenkins中sh函数的用法

在Jenkins的Pipeline中&#xff0c;sh函数的用法 用法一 单个命令字符串包括使用&#xff0c;示例如下&#xff1a; sh echo "Hello, Jenkins!"用法二 多个命令字符串包括命令列表使用&#xff0c;示例如下&#xff1a; sh echo "Step 1" echo "…

C语言---判断当前计算机大小端问题

C语言—判断当前计算机大小端问题 文章目录 C语言---判断当前计算机大小端问题一、方法一二、方法二&#xff1a;使用联合体三、方法二的理解 一、方法一 代码如下 #include<stdio.h> //判断当前机器的大小端问题 int main() {int a 1;//0x 00 00 00 01//低----------…

npm 安装报错:源文本中存在无法识别的标记

npm install -g vue/cli 源文本中存在无法识别的标记。 所在位置 行:1 字符: 16 npm install -g <<<< vue/cli CategoryInfo : ParserError: (:) [], ParentContainsErrorRecordException FullyQualifiedErrorId : UnrecognizedToken 解决方…

mybatis_使用

第一步&#xff1a; 编写接口 第二步&#xff1a; 编写对应的mapper中的sql语句 第三步&#xff1a; 测试 CRUD <?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE mapperPUBLIC "-//mybatis.org//DTD Mapper 3.0//EN""http…

【Ubuntu18.04安装FileZilla】

Ubuntu18.04安装FileZilla 1 FileZilla简介2 安装方式3 使用方式3.1 连接FTP服务器3.1.1 快速连接3.1.2 通过站点管理器 1 FileZilla简介 FileZilla是自由开源、快速、可信赖的FTP客户端以及服务器端应用&#xff0c;具有多种特色、直观的接口。 特点&#xff1a;可控性、有条…

如何理解token?

token在项目中的大概流程&#xff1a; 1.客户端使用用户名和密码请求登录 2.服务端收到请求&#xff0c;验证用户名和密码 3.验证成功后&#xff0c;服务端会生成一个token&#xff0c;然后把这个token发送给客户端 4.客户端收到token后把它存储起来&#xff0c;可以放在cookie…