大数据,Hadoop,HDFS的简单介绍

大数据

海量数据,具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集

大数据的特征: 4V

Volume : 巨大的数据量
Variety : 数据类型多样化
结构化的数据 : 即具有固定格式和有限长度的数据
半结构化的数据 : 是一些 xml 或者 html 格式的数据
非结构化的数据 : 现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网
页、语音、视频等
Velocity : 数据增长速度快, [vəˈlɒsəti]
Value : 价值密度低,商业价值高

大数据的处理:  

数据采集,数据存储,数据清洗,数据分析,数据可视化。
核心就是 " 数据价值化 "

应用场景

存储和读取效率

分布式存储:  将一个数据集存储到多个硬盘里, 然后并行读取
比如 1T 的数据,我们平均 100 份存储到 100 1TB 硬盘上,同时读取,那么读取完整个数
据集的时间用不上两分钟。至于硬盘剩下的 99% 的容量,我们可以用来存储其他的数据集,这样就不会 产生浪费。解决读取效率问题的同时,我们也解决了大数据的存储问题。
存储大数据集----->>硬盘不够大、数据存储单份的安全隐患----->>分布式文件系统
快速分析大数据集----->>基于分布式文件系统的计算分析的编程框架模型
传统型关系数据库不适合存储非结构化数据------>>BigTable(适合存储结构化和半结构化数据)

Hadoop

Hadoop Apache 基金会旗下 一个开源的分布式存储和分析计算平台 ,使用 java 语言开发,具有很好的跨平台性,可以运行在商用( 廉价 ) 硬件上,用户无需了解分布式底层细节,就可以开发分布式程序,充分使用集群的高速计算和存储
组成部分
面试必问
生态系统
Hadoop不仅仅是一个单一的软件,它是一个生态系统,意味着它包含了一系列的相关工具和框架,这些工具和框架可以相互配合使用,以支持不同类型的数据处理任务。
安装
CDH
使用CDH会简化Hadoop的安装,(Cloudera's Distribution Including Apache Hadoop)是由Cloudera公司提供的一种基于Apache Hadoop的大数据平台解决方案。它是一个企业级的发行版,旨在简化和优化Hadoop的部署、管理和使用.
CM  集群管理平台
(Cloudera Manager) 是一个功能全面的集群管理工具,它通过提供自动化的部署、配置、监控和管理功能,极大地简化了 Hadoop 集群的运维工作
HUE  开发平台
全称为Hadoop User Experience,是一个开源的Apache Hadoop UI系统,它为用户提供了一个在浏览器端与Hadoop集群进行交互的Web控制台.它提供了一个功能强大的SQL编辑器,用户可以编写、执行和调试SQL查询,支持自动完成、语法高亮和查询结果可视化。此外,Hue还内置了HDFS文件浏览器,用户可以方便地浏览、上传、下载和管理HDFS文件
Hue主要用于数据分析和处理,而Cloudera Manager则主要用于集群的管理和运维。

HDFS的结构图

HDFS的优点

1. 高容错性(硬件故障是常态):数据自动保存多个副本,副本丢失后,会自动恢复

2. 适合大数据集:GB、TB、甚至PB级数据、千万规模以上的文件数量,1000以上节点规模(一台服务器/电脑是一个节点)

3. 构建成本低:Hadoop开源,并且可以构建在廉价机器上。

4. 多种软硬件平台中的可移植性

5. 高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

HDFS的缺点

1. 不适合做低延迟数据访问(无法实时):

HDFS适合处理大型数据集,高吞吐率。这一点以高延迟为代价的。因此HDFS不

适合处理用户要求的毫秒级的低延迟应用请求

2. 不适合小文件存取:

一是需要消耗大量的寻址时间,

第二, 无论块中文件大小, 文件的元数据所占的内存是相同的, 因此相对来说,大文件更省内存。如果文件太小,很可能导致元数据比文件本身还要大.

解决: 把多个小文件合并成大文件

3. 不适合并发写入,文件随机修改:

HDFS上的文件只能拥有一个写者,仅仅支持append操作。不支持多用户对同一个文件的写操作,以及在文件任意位置进行修改

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/957858.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年博客之星年度评选|第一步——创作影响力评审入围Top300名单 | 博客之星陪跑指南

2024年博客之星年度评选|第一步——创作影响力评审入围Top300名单 | 博客之星陪跑指南 2024年博客之星年度评选正在如火如荼地进行中!作为博客圈最具影响力的评选活动之一,今年的评选吸引了众多优秀博主的参与。现在,距离Top300入…

全面评测 DOCA 开发环境下的 DPU:性能表现、机器学习与金融高频交易下的计算能力分析

本文介绍了我在 DOCA 开发环境下对 DPU 进行测评和计算能力测试的一些真实体验和记录。在测评过程中,我主要关注了 DPU 在高并发数据传输和深度学习场景下的表现,以及基本的系统性能指标,包括 CPU 计算、内存带宽、多线程/多进程能力和 I/O 性…

CSRF漏洞学习总结

一、什么是CSRF漏洞? CSRF(Cross-Site Request Forgery,跨站请求伪造)是一种网络攻击,它利用受害者在受信任网站上的已认证会话,来执行非预期的行动。这种攻击的核心在于,攻击者能够诱使受害者…

模型剪枝及yolov5剪枝实践

文章目录 1、模型剪枝1、 稀疏化训练2、模型剪枝2.1 非结构化剪枝2.2 结构化剪枝2.3 一些疑惑:2.3.1 剪枝后参数量不变? 3、微调 【结构化剪枝掉点太多,不如一开始就选个小模型训练。非结构化剪枝只是checkpoint文件变小了,推理速…

黑马程序员C++ P1-P40

一.注释和常量 1.多行注释:/*...............*/ ; 单行注释://.............. 2.常量:用于记录程序中不可修改的量 。定义方式:宏常量#define定义在文件上方 ;const修饰变量 3.标识符命名规则:标识符不能是关键字&a…

Airflow:BranchOperator实现动态分支控制流程

Airflow是用于编排复杂工作流的开源平台,支持在有向无环图(dag)中定义、调度和监控任务。其中一个关键特性是能够使用BranchOperator创建动态的、有条件的工作流。在这篇博文中,我们将探索BranchOperator,讨论它是如何…

怎么使用CRM软件?操作方法和技巧有哪些?

什么是CRM? 嘿,大家好!你知道吗,在当今这个数字化时代里,我们每天都在与各种各样的客户打交道。无论是大公司还是小型企业,都希望能够更好地管理这些关系并提高业务效率。这时候就轮到我们的“老朋友”——…

java开发,IDEA转战VSCODE配置(mac)

一、基本java开发环境配置 前提:已经安装了jdk、maven、vscode,且配置了环境变量 1、安装java相关的插件 2、安装spring相关的插件 3、vscode配置maven环境 打开 VsCode -> 首选项 -> 设置,也可以在setting.json文件中直接编辑&…

AI模型提示词(prompt)优化-实战(一)

一、prompt作用 用户与AI模型沟通的核心工具,用于引导模型生成特定内容、控制输出质量、调整行为模式,并优化任务执行效果,从而提升用户体验和应用效果 二、prompt结构 基本结构 角色:设定一个角色,给AI模型确定一个基…

Unreal Engine 5 C++ Advanced Action RPG 十章笔记

第十章 Survival Game Mode 2-Game Mode Test Map 设置游戏规则进行游戏玩法 生成敌人玩家是否死亡敌人死亡是否需要刷出更多 肯定:难度增加否定:玩家胜利 流程 新的游戏模式类游戏状态新的数据表来指定总共有多少波敌人生成逻辑UI告诉当前玩家的敌人波数 3-Survival Game M…

设计模式的艺术-代理模式

结构性模式的名称、定义、学习难度和使用频率如下表所示: 1.如何理解代理模式 代理模式(Proxy Pattern):给某一个对象提供一个代理,并由代理对象控制对原对象的引用。代理模式是一种对象结构型模式。 代理模式类型较多…

每日一题洛谷P1423 小玉在游泳c++

#include<iostream> using namespace std; int main() {double s;cin >> s;int n 0;double sum 0;double k 2;while (sum < s) {sum k;n;k * 0.98;}cout << n << endl;return 0; }

Python3 OS模块中的文件/目录方法六

一. 简介 前面文章简单学习了Python3中 OS模块中的文件/目录的部分函数。 本文继续来学习 OS模块中文件、目录的操作方法。 二. Python3 OS模块中的文件/目录方法 1. os.lseek() 方法、os.lstat() 方法 os.lseek() 方法用于在打开的文件中移动文件指针的位置。在Unix&#…

HTB:Heist[WriteUP]

目录 连接至HTB服务器并启动靶机 信息收集 使用rustscan对靶机TCP端口进行开放扫描 将靶机TCP开放端口号提取并保存 使用nmap对靶机TCP开放端口进行脚本、服务扫描 使用nmap对靶机TCP开放端口进行漏洞、系统扫描 使用nmap对靶机常用UDP端口进行开放扫描 使用smbclient匿…

【HarmonyOS NEXT】华为分享-碰一碰开发分享

关键词&#xff1a;鸿蒙、碰一碰、systemShare、harmonyShare、Share Kit 华为分享新推出碰一碰分享&#xff0c;支持用户通过手机碰一碰发起跨端分享&#xff0c;可实现传输图片、共享wifi等。我们只需调用系统 api 传入所需参数拉起对应分享卡片模板即可&#xff0c;无需对 U…

使用Inno Setup软件制作.exe安装包

1.下一步&#xff1a; 2. 填写 程序名字 和 版本号&#xff1a; 3.设置安装路径信息 4.添加要打包的exe和依赖文件 5.为应用程序创建关联的文件 如果不需要就直接取消勾选 6.创建快捷方式 &#xff08;1&#xff09;第一种&#xff1a;常用 &#xff08;1&#xff09;第二种&am…

CPU 缓存基础知识

并发编程首先需要简单了解下现代CPU相关知识。通过一些简单的图&#xff0c;简单的代码&#xff0c;来认识CPU以及一些常见的问题。 目录 CPU存储与缓存的引入常见的三级缓存结构缓存一致性协议MESI协议缓存行 cache line 通过代码实例认识缓存行的重要性 CPU指令的乱序执行通过…

初步搭建并使用Scrapy框架

目录 目标 版本 实战 搭建框架 获取图片链接、书名、价格 通过管道下载数据 通过多条管道下载数据 下载多页数据 目标 掌握Scrapy框架的搭建及使用&#xff0c;本文以爬取当当网魔幻小说为案例做演示。 版本 Scrapy 2.12.0 实战 搭建框架 第一步&#xff1a;在D:\pyt…

Python - itertools- pairwise函数的详解

前言&#xff1a; 最近在leetcode刷题时用到了重叠对pairwise,这里就讲解一下迭代工具函数pairwise,既介绍给大家&#xff0c;同时也提醒一下自己&#xff0c;这个pairwise其实在刷题中十分有用&#xff0c;相信能帮助到你。 参考官方讲解&#xff1a;itertools --- 为高效循…

YOLO-cls训练及踩坑记录

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言 一、模型训练 二、测试 三、踩坑记录 1、推理时设置的imgsz不生效 方法一&#xff1a; 方法二&#xff1a; 2、Windows下torchvision版本问题导致报错 总结 前…