大数据开发--01.初步认识了解

一.环境准备

1.使用虚拟机构建至少三台linux服务器

2.使用公有云来部署服务器

 

 

 二.大数据相关概念

大数据是指处理和分析大规模数据集的一系列技术、工具和方法。这些数据集通常涉及海量的数据,包括结构化数据(如关系型数据库中的表格)以及非结构化的数据(如图像、音频或视频文件等)。

大数据的特点之一是规模巨大,可以达到数百TBPB级别。另一个特点是多样性,不同类型的数据可能需要不同的处理和分析方法。此外,大数据还具有高速增长的趋势,随着互联网的普及和社会化媒体的发展,大量的新数据源不断涌现。

为了有效地处理和分析这些大规模的数据集,大数据技术提供了一系列解决方案。其中一些常见的技术包括:

  1. 分布式存储系统:通过将数据分散存储在多个物理位置上,可以提高系统的可靠性、可扩展性和性能。

  2. 数据库管理系统(DBMS):用于组织和管理结构化数据的软件工具,如关系型数据库或NoSQL数据库。

  3. 数据挖掘技术:使用统计学、机器学习等方法从大规模数据中提取有价值的信息和模式。

  4. 实时分析:通过实时处理和分析大量流式数据来支持决策制定和业务运营。

  5. 云计算平台:提供弹性计算资源,可以根据需求动态扩展或缩减系统规模,以满足大数据的处理需求。

   三V

  • Volume(大量):大数据通常指的是数据量非常庞大,传统数据库管理系统无法有效处理的数据集合。随着互联网的发展和信息化程度的提高,大数据集合的规模越来越大,从几TB到PB、甚至EB级别的数据都很常见。

  • Variety(多样性):大数据来源多样,包括结构化数据(如关系型数据库中的表格数据)、半结构化数据(如XML、JSON格式的数据)和非结构化数据(如文本、音频、视频等)。这些不同类型的数据需要以不同的方式来进行处理和分析。

  • Velocity(高速度):大数据集的数据产生速度非常快,需要实时或近实时地对数据进行处理和分析。例如,社交媒体平台上的用户生成的数据、传感器产生的数据等都具有高速度的特点。

大数据技术被广泛应用于各个领域,如金融、医疗、零售、制造、互联网等,帮助企业和组织更好地理解市场趋势、用户行为、业务情况等,从而做出更明智的决策和规划。随着大数据技术的不断发展和普及,大数据在推动企业数字化转型和创新方面发挥着越来越重要的作用。

 

 

 

三.分布式存储相关概念

1.概念

分布式存储是一种将数据分散在多个物理位置的计算机系统中的技术。它允许用户从任何地方访问和共享数据,而不必依赖于单一的物理服务器或存储设备。

分布式存储通过使用多台计算机来实现数据冗余高可用性可扩展性。每个节点(即一台计算机)都负责存储一部分数据,并与其他节点进行通信以协调数据的更新和访问。这种架构可以提供更高的性能、更好的容错能力和更大的容量,适用于需要处理大量数据的应用程序或系统。

分布式存储通常使用一些常见的技术来实现,如文件系统复制(例如RAID)、网络文件系统(NFS)、对象存储(如Hadoop Distributed File System)和数据库分片等。这些技术可以提供不同的功能和性能特点,以满足不同应用的需求。

在分布式存储中,数据的一致性是关键问题之一。为了确保数据的正确性和可用性,通常使用一些机制来协调节点之间的通信、同步数据更新并解决冲突等问题。常见的解决方案包括基于Paxos算法的分布式一致性协议(如ZooKeeper)和基于Raft算法的分布式一致性协议(如Hazelcast)等。


 2.特点

分布式存储系统通常具有以下特点:

  1. 冗余和容错:分布式存储系统通常会在多个存储节点上存储数据的多个副本,以确保数据不会丢失。当某个存储节点发生故障时,系统能够继续提供数据访问服务,以保证数据的可靠性。

  2. 负载均衡:分布式存储系统会根据数据量和访问量等因素,将存储任务均匀地分配到不同的存储节点上,以确保系统的性能能够得到最大化的利用。

  3. 可扩展性:分布式存储系统可以根据需求方便地进行横向扩展,增加存储节点以支持更大规模的数据存储和访问需求。

  4. 高性能:通过在多个存储节点上并行地存储和访问数据,分布式存储系统能够提供更快的数据读写速度和响应时间,以满足用户对高性能的需求。

  5. 可用性:由于数据被分散存储在多个节点上,即使其中一部分节点发生故障,系统仍然可以继续提供数据访问服务,以确保数据的可用性。

 

 

 四.大数据常见两种架构

1.去中心化架构

 

 

2.中心化架构

五.分布式计算

分布式计算是一种通过将计算任务分解为多个独立的子任务,并将这些子任务分配到不同的计算机节点上进行并行处理的技术。这种技术可以提高系统的性能和可扩展性,适用于大规模数据集或复杂计算问题。

在分布式计算中,通常使用一个主进程来协调各个子进程之间的通信和资源管理。每个子进程负责执行特定的任务,并将结果返回给主进程。通过将任务分解为多个独立的子任务并进行并行处理,可以大大提高系统的性能和吞吐量。

常见的分布式计算框架包括HadoopSpark等。这些框架提供了一个统一的编程模型和工具链来管理大规模数据集和执行复杂的计算任务。它们支持多种存储格式(如文件系统、数据库)以及各种计算引擎(如MapReduce、Spark),可以根据需求灵活地选择不同的组件组合。

分布式计算在大数据处理中具有广泛的应用场景。例如,它可以用于大规模数据的存储和管理、数据分析和挖掘、机器学习模型训练等任务。通过将这些任务分解为多个并行执行的任务,可以大大提高系统的性能和吞吐量,从而更好地满足用户的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/469185.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

mysql部署(1)单节点安装卸载

以8.0.36版本为例 一、下载安装 1、准备工作 (1)查看系统版本 cat /etc/redhat-release(2)查看是否安装了 MySQL rpm -qa | grep mysql查看是否有安装 mariadb,该软件与 MySQL 数据库有冲突,需要手动卸…

【C++庖丁解牛】继承的概念及定义 | 继承中的作用域 | 继承与友元继承与静态成员 | 复杂的菱形继承及菱形虚拟继承

🍁你好,我是 RO-BERRY 📗 致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 🎄感谢你的陪伴与支持 ,故事既有了开头,就要画上一个完美的句号,让我们一起加油 目录 1.继承的概念及定义1.1继…

(2024,EBGAN,扩散,变分近似)通过扩散过程改进基于能量的对抗模型

Improving Adversarial Energy-Based Model via Diffusion Process 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 2. 相关工作 3. 去噪扩散对抗 EBM 3.1. 具有去噪扩散过程…

JavaScript中a++和++a的区别是什么?

在JS中,a 和 a 都是对变量 a进行自增操作,但是他们在执行的行为和结果上有些不同: a (前缀自增): 首先是将a的值增加1,然后返回 a 增加后的值。这意味着,表达式的其余部分使用 a的时候, a 的值…

人大金仓携手中国大地保险上线核心超A系统

2023年底 中国大地保险 卡园三路59号办公室里 一群技术精英们正忙碌着 他们的眼中闪烁着对即将到来的胜利的期待 这是大地保险超A系统 项目上线的关键时刻 也是通过科技创新 引领行业服务新趋势的一场征程 项目现场 一次颠覆:改变传统保险服务模式 超A平…

微信小程序项目实战遇到的问题

我们以学生成绩平台来作为例子。这是我们想得到的效果。 以下是完整代码: index.js // index.js Page({//页面的初始数据data: {hello: 欢迎进入微信小程序的编程世界,score: 80,userArray: [{name: 张三,score: [66, 77, 86, 70, 90]},{name: 李四,score: [88, 7…

中国传统游戏-幻方-c/c++实现

幻方(Magic Square)是一种将数字安排在正方形格子中,使每行、列和对角线上的数字和都相等的方法。 幻方也是一种中国传统游戏。旧时在官府、学堂多见。它是将从一到若干个数的自然数排成纵横各为若干个数的正方形,使在同一行、同…

由浅到深认识Java语言(2):Java语言概述

该文章Github地址:https://github.com/AntonyCheng/java-notes 在此介绍一下作者开源的SpringBoot项目初始化模板(Github仓库地址:https://github.com/AntonyCheng/spring-boot-init-template & CSDN文章地址:https://blog.c…

CSS案例-4.padding导航栏练习

效果 相关数据: 上边框:3px,颜色#ff8500 下边框:1px,颜色#edeef0 背景颜色:#fcfcfc 高度:41px 内边距20px 字体颜色#4c4c4c 知识点 盒子边框border 属性 作用 border-width 定义边框粗细,单位px border-style 边框的样式 border-color 边框颜色 边框样式

拿捏指针(三)

✨✨欢迎👍👍点赞☕️☕️收藏✍✍评论 个人主页:秋邱博客 所属栏目:C语言 (感谢您的光临,您的光临蓬荜生辉) 前言 在这之前我们学习了《拿捏指针(一)》,《拿…

Ansible基本介绍与模块使用

目录 引言 一、Ansible简介 (一)基本概述 (二)主要特点 二、Ansible安装及基本组件 (一)yum安装 (二)编译安装 (三)基本配置信息 1.主配置文件 2.主…

【Linux】自动化构建工具-make/Makefile

个人主页 : zxctscl 如有转载请先通知 文章目录 1. 前言2. 认识make/Makefile3. 了解make/Makefile原理3.1 依赖关系和依赖方法3.2 make检测的顺序3.3 PHONY:XXX 4. makefile内置符号 1. 前言 在上一篇中已经了解了【Linux】编译器-gcc/g使用,这次来一起…

01|模型IO:输入提示、调用模型、解析输出

Model I/O 可以把对模型的使用过程拆解成三块,分别是输入提示(对应图中的Format)、调用模型(对应图中的Predict)和输出解析(对应图中的Parse)。这三块形成了一个整体,因此在LangCha…

idea将非UTF-8的properties修改为UTF-8编码的文件

需求背景 由于项目初始化时,properties文件的编码格式为ASCII编码格式,此时用idea打开该文件会默认展示UTF-8的编码内容,其中汉字可以正常展示,但是使用notepad打开却依旧时ASCII编码格式 idea配置 打开idea-setting-editor-f…

TCP - 传输控制协议

TCP - 传输控制协议 是一种面向连接的可靠传输协议。 特点: TCP是面向连接(虚连接)的传输层协议。 每一条TCP连接有且只能有两个端点。 可靠、有序、无丢弃和不重复。 TCP协议提供全双工通讯。 发送缓存 存放发送方TCP准备发送的数据。T…

Springboot笔记-01

简化spring应用开发,约定大于配置 简化Spring应用开发的一个框架; 整个Spring技术栈的一个大整合; J2EE开发的一站式解决方案; 优点: 快速创建独立运行的spring项目以及于主流框架集成 使用嵌入式的Servlet容器&#x…

Reactor线程模型

线程模型 一、背景1.socket网络通信2.IO模型与线程模型3.线程模型分类3.1 阻塞模型3.2 Reactor模型3.3 Proactor模式 二、阻塞模型1.代码示例 三、Reactor模型1.单Reactor单线程1.1 处理过程1.2 优缺点1.3 代码示例 2.单Reactor多线程2.1 处理机制2.2 优缺点 3.主从Reactor3.1 …

深度学习_卷积

卷积 卷积(Convolution)是数学和计算机科学中的一个重要概念,特别在信号处理和图像处理中应用广泛。在信号处理领域,卷积是两个函数之间的一种数学操作,它表示两个函数的重叠部分的积分量。 在图像处理中&#xff0c…

JavaScript数组排序sort自定义函数不生效

背景 刷LeetCode时,遇到一道简单的数组排序题: 问题 想着直接用js的数组sort自定义排序即可,奈何测试用例运行总是不通过,返回的一直都是原数组。 代码排查 复制代码到Firefox浏览器控制台运行,结果输出的是正确结果&a…

搭建Hadoop集群(完全分布式运行模式)

目录 一、准备模板机(最小化安装)二、配置一台纯净的模板机修改主机名固定IP地址通过yum安装方式安装必要的软件关闭防火墙且禁止自启修改hosts映射文件创建普通用户 并让他能用sudo命令在/opt下创建software和module完成 三、搭建完全分布式运行模式3.1克隆第一台机器hadoop10…