摸鱼大数据——大数据导论

大数据导论

1、概念

大数据时代: 万物皆数据
​
数据概念: 人类的行为及产生的事件的一种记录称之为数据
​
数据价值: 对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律   

2、大数据诞生

大数据的诞生: 跟随着互联网的发展的,当全球互联网逐步建成(2000年左右),各大企业或政府单位拥有了海量的数据亟待处理。基于这个前提逐步诞生了以分布式的形式(即多台服务器集群)完成海量数据处理的处理方式,并逐步发展成现代大数据体系。
​
分布式: 多台服务器互相配合协同处理同一个事情
​
Apache Hadoop对大数据体系的意义: 第一款获得业界普遍认可的企业级开源分布式解决方案, 一定程度上催生出了众多的大数据体系技术栈,从Hadoop开源开始(2008年左右)大数据开始蓬勃发展

3、大数据概述

什么是大数据?
狭义上: 对海量数据进行处理的软件技术体系
广义上: 数字化、信息化时代的基础支撑,以数据为生活赋能
狭义和广义联系: 学习狭义上的大数据软件技术体系,在工作中为广义上的数字化、信息化时代,添砖加瓦
​
​
大数据解决了什么问题?
问题1: 海量数据的存储
问题2: 海量数据的计算
问题3: 海量数据的传输
​
大数据的核心工作?
存储: 利用各类大数据技术栈,妥善保存海量待处理数据
计算: 利用各类大数据技术栈,完成海量数据的价值挖掘
传输: 利用各类大数据技术栈,协助各个环节的数据传输

4、大数据特征

大数据特征简述: 5v(大多值快信)
大: 数据量大,1TB=1024GB,1PB=1024TB
多: 数据多样性。各行各业,不同类型的数据都有
值: 数据背后的价值,一般是低价值
快: 使用大数据技术能够快速对数据进行分析
信: 分析结果准备

大数据的核心工作其实就是: 从海量数据中,以大数据技术分析出有价值的信息

5、大数据技术栈

Apache软件基金会(Apache Software Foundation,简称 [ASF]是专门为运作一个==开源软件==项目的 Apache 的团体提供支持的非盈利性组织,这个开源软件的项目就是 Apache 项目。

5.1 存储

Apache Hadoop-HDFS: HDFS是Apache Hadoop Core项目的一部分,(Hadoop Distributed File System) Hadoop分布式文件存储系统
​
Apache HBase: HBase是Apache的Hadoop项目的子项目
​
Apache Kudu: 是由Cloudera开源的存储引擎,贡献给Apache基金组织

5.2 计算

Apache Hadoop-MapReduce: MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献
​
Apache Hive: Hive是一款以SQL为要开发语言的分布式计算框架。HiveSQL其底层翻译成了Hadoop的MapReduce程序去执行
​
Apache Spark: Spark是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品
​
Apache Flink: Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算(流计算)领域占据了大多数的国内市场。

5.3 传输

Apache Sqoop: Sqoop是一款ETL工具,可以协助大数据体系(hdfs,hive)和关系型数据库(mysql)之间进行数据传输。
​
Apache Flume: Flume是一款流式数据采集工具,可以从非常多的数据源中完成数据采集传输的任务。
​
Apache Kafka: Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。Apache Kafka在大数据领域也是明星产品
​
Apache Pulsar: Pulsar同样是一款分布式的消息系统。

6、Hadoop

Hadoop是开源的技术框架,提供分布式存储、计算、资源调度的解决方案

狭义上Hadoop:  包含HDFS,MapReduce,YARN三大组件的技术栈
​
广义上Hadoop:  整个Hadoop生态圈
​
Hadoop的创始人: Doug Cutting
Hadoop起源:于Apache Lucene子项目:Nutch  ,Nutch的设计目标是构建一个大型的全网搜索引擎。
Hadoop启蒙: Google三篇著名的论文(也叫三驾马车)
   《The Google file system》:谷歌分布式文件系统GFS
   《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式计算框架MapReduce
   《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统
​
​
Hadoop的开源版本: Apache版本,免费
​
Hadoop的商业版本: CDH付费版,在开源基础上进行了二次封装

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/632360.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

20232831 袁思承 2023-2024-2 《网络攻防实践》第10次作业

目录 20232831 袁思承 2023-2024-2 《网络攻防实践》第10次作业1.实验内容2.实验过程(1)SEED SQL注入攻击与防御实验①熟悉SQL语句②对SELECT语句的SQL注入攻击③对UPDATE语句的SQL注入攻击④SQL对抗 (2)SEED XSS跨站脚本攻击实验…

5年增100倍6秒卖1瓶酒,酣客的“FFC模式”是什么

酣客酱酒销售模式,白酒FFC模式,白酒新零售模式设计 坐标:厦门,我是易创客肖琳 深耕社交新零售行业10年,主要提供新零售系统工具及顶层商业模式设计、全案策划运营陪跑等。 不知从何时起,营销圈开始有这么一…

docker容器与centos宿主机时间一致设置

1、查看宿主机的系统时间 date -R 2、进入到容器中查看容器系统时间 docker exec -it storage /bin/bash date -R 3、查看容器系统时区 cat /etc/timezone 4、查看宿主机所在时区 timedatectl 5、创建容器时间,并退出进入的容器 6、将宿主日期复制到容器内部&…

Git—常用命令

官方 Git - Book (git-scm.com) 常用命令 命令作用git config --global user.name 用户名设置用户作者git config --global user.email 邮箱设置用户邮箱 git init初始化本地仓库git status查看本地仓库状态 git add 文件名 添加到暂存区git commit -m "提交日志…

基于PHP+MySQL组合开发的多用户自定义商城系统源码 附带源代码包以及搭建教程

系统概述 互联网技术的飞速发展,电子商务已成为人们日常生活中不可或缺的一部分。商城系统作为电子商务的核心,其开发技术和用户体验直接影响着电商平台的竞争力和用户满意度。本文旨在介绍一个基于PHPMySQL组合开发的多用户自定义商城系统,…

深入理解 House of Cat

Index 序言利用 FSOP 调用 House of Cat利用条件伪造IO流条件完整调用链分析 模板System (one_gadget) 模板ORW模板 Demo & Exp利用 __malloc_assert 调用 House of Cat例题:题目思路Exp 序言 原文章:深入理解 House of Cat 随着 GNU 持续不断的更…

GeoServer /geoserver/wms RCE漏洞复现(CVE-2022-24816)

0x01 产品简介 GeoServer是一款开源的地理数据服务器软件,主要用于发布、共享和处理各种地理空间数据。它支持众多的地图和空间数据标准,能够使各种设备通过网络来浏览和使用这些地理信息数据。 0x02 漏洞概述 GeoServer /geoserver/wms 接口处存在远程代码执行漏洞,未经…

好看的html网站维护源码

源码介绍 好看的html网站维护源码,源码由HTMLCSSJS组成,记事本打开源码文件可以进行内容文字之类的修改,双击html文件可以本地运行效果,也可以上传到服务器里面, 源码截图 源码下载 好看的html网站维护源码

Blender学习入门:让图片动起来

Blender简介 Blender 是一款开源的三维计算机图形软件,它提供了广泛的功能,包括建模、动画、渲染、视频编辑等。Blender还支持Python编程接口,允许用户通过编写脚本来控制和定制软件的各个方面。 Blender的功能非常强大,它被广泛…

为何Linux成为你不可或缺的技能

在数字化飞速发展的今天,无论你是IT行业的精英,还是其他领域的专业人士,掌握Linux都已经成为一项至关重要的技能。那么,为什么一定要学会Linux呢?以下文章仅供参考 1. 开源的力量:无限的可能性 Linux是一…

02 VUE学习:模板语法

模板语法 Vue 使用一种基于 HTML 的模板语法,使我们能够声明式地将其组件实例的数据绑定到呈现的 DOM 上。所有的 Vue 模板都是语法层面合法的 HTML,可以被符合规范的浏览器和 HTML 解析器解析。 在底层机制中,Vue 会将模板编译成高度优化的…

【Altium】AD-检查原理图中元器件未连接的Passive Pin

1、 文档目标 如何让原理图编译时找出元器件上未连接的Passive Pin 2、 问题场景 当引脚属性(Pin type)为passive时,原理图编译的默认规则是不会去检查它们是否有连接的。在实际设计过程中,经常会有导线虚连,漏连的事…

今日分享【Vue3基础知识】

常用地址及工具: [vue3官网] https://cn.vuejs.org/ vue3官网[setup 基本使用] https://juejin.cn/post/7002490039066165279 setup基本使用[vite中文官网] https://cn.vitejs.dev/ Vite官网 1、如何使用vue3 vite //要构建一个 Vite Vue 项目,运行…

react18【系列实用教程】useMemo —— 缓存数据 (2024最新版)

为什么添加了 memo &#xff0c;子组件2依然重新渲染了呢&#xff1f; 因为父组件向子组件2传递了引用类型的数据 const userInfo {name: "朝阳",};<Child2 userInfo{userInfo} />memo() 函数的本质是通过校验Props中数据的内存地址是否改变来决定组件是否重新…

实战10:基于机器学习参数优化的疾病预测实战-完整代码数据-计算机毕设

直接看演示视频: 基于机器学习参数优化的疾病预测实战-完整代码数据-计算机毕设 直接看实验结果: 数据: 没加参数优化之前的模型效果: 优化之后的效果: 数据分析:

5月17日世界电信日:共筑数字桥梁,深圳市企讯通科技引领通讯创新潮流

在全球信息化浪潮中&#xff0c;每年的5月17日被赋予了非凡的意义——“世界电信日”。这不仅仅是全球电信业发展成果展示与未来趋势探讨的盛会&#xff0c;更是对未来通信领域无限可能的展望。自1969年设立以来&#xff0c;世界电信日不断激励着各国在信息通信技术&#xff08…

618好物推荐大赏:2024年必囤好物一网打尽,购物攻略助你抢购无忧!

在618购物狂欢节来临之际&#xff0c;我为大家精心挑选了一系列好物&#xff0c;它们不仅品质卓越&#xff0c;更能在日常生活中为我们带来无限便利与乐趣。这里的每一款产品都经过我严格筛选&#xff0c;只为给你最优质的购物体验。让我们一起在这个618&#xff0c;发现生活中…

【编程题-错题集】kotori和气球(组合数学)

牛客对应题目链接&#xff1a;kotori和气球 (nowcoder.com) 一、分析题目 简单的排列组合问题&#xff0c;结果等于 n 与 m-1 个 n - 1 的乘积。 二、代码 //值得学习的代码 #include <iostream>using namespace std;const int MOD 109;int main() {int n, m;cin >…

Redis基于Redisson的限流和限流算法

限流 限流是在高并发或者某个瞬间高并发时&#xff0c;为了保证系统的稳定性&#xff0c;对超出服务处理能力之外的请求进行拦截&#xff0c;对访问服务的流量进行限制。 常见的限流算法有四种&#xff1a;固定窗口限流算法、滑动窗口限流算法、漏桶限流算法和令牌桶限流算法…

为何要使用静态或动态住宅IP代理来运营亚马逊?

跨境电商作为当前主流的行业&#xff0c;在运营亚马逊等跨境电商平台时&#xff0c;使用静态或动态住宅IP代理成为了一个重要的策略。这种策略不仅有助于提升运营效率&#xff0c;还能在一定程度上保护卖家的隐私和账号安全。 静态住宅IP代理在亚马逊运营中的优势。 静态住宅I…