【大数据导论】大数据序言

各位大佬好 ,这里是阿川的博客,祝您变得更强

在这里插入图片描述 个人主页:在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力在这里插入图片描述

阿川水平有限,如有错误,欢迎大佬指正在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

目录

  • 数据概念及类型及可用及组织形式
    • 数据概念
    • 数据类型
    • 数据的可用
    • 数据组织形式
  • 大数据的时代
    • 大数据技术
  • 中国大数据未来

数据概念及类型及可用及组织形式

数据概念

数据

  • 客观事件进行记录可以鉴别符号
  • 构成信息基本单位

在这里插入图片描述

数据类型

数据类型

  • 文本(字符型数据)

在这里插入图片描述

文本文件常见格式

在这里插入图片描述

  • 图片

在这里插入图片描述

图片常见格式

在这里插入图片描述

  • 音频

在这里插入图片描述

音频常见格式

在这里插入图片描述

  • 视频

在这里插入图片描述

视频常见格式
在这里插入图片描述

数据的可用

step1.数据清洗
脏乱数据进行清洗;将数据缺失和语义模糊等数据进行处理;数据类型不符合进行转换及解析
其中转换及解析常用工具和脚本语言

在这里插入图片描述

step2.数据管理

  • 将第1步后的数据放入数据库系统中进行管理和使用

step3.数据分析

  • 将第2步后的数据利用数据挖掘机器学习算法构建统计模型(其中首选R语言及它的CRAN综合类库)及大数据处理技术(主要为谷歌分布式编程模型MapReduceHadoop对其进行开源实现)进行分析

补充环节
step3.1 数据可视化

  • 用图像等可视化帮助人们进行直观理解数据

数据组织形式

文件

在这里插入图片描述

文件由文件系统进行管理

数据库软件开发基础与核心

在这里插入图片描述

其中,关系数据库之前主流的数据库,具有三种特性

  • 提供SQL语句进行各种查询操作
  • 支持事务一致性功能
  • 满足各种商业应用需求

在这里插入图片描述
其中,NoSQL数据库主要处理非结构化数据,而目前海量数据中90%都属于非结构化数据
在现在及未来的时代中,NoSQL数据库的使用将是大势所趋

大数据的时代

在如今的时代,数据的产生正处于爆炸式的增长
如今不管是移动端还是PC端、Mac端,甚至传感器、摄像头亦或是各种设备(家用电器电视汽车等等)无时无刻不在产生着大量的数据
大数据的时代已经来临,随着时代的发展越加迅猛
与此同时,对数据储存、处理与分析提出了更高的要求
与之所对应的 物联网、云计算和大数据孕育而生
大数据四个特性

  • 数据量大PB级别甚至到EP、ZP级别

在这里插入图片描述

  • 数据类型繁多 (可以是文本、图片、视频、音频等非结构化类型
  • 处理速度快 (每秒钟处理GB数据甚至更高
  • 价值密度低 (海量数据中,符合条件单点数据价值密度高
    在这里插入图片描述

大数据技术

大数据技术前提要求

  • 储存设备的容量需要
  • CPU处理能力需要
  • 网络宽带传输需要
    (抖个包袱:所以说搞大数据的电脑设备还是要有要求的)

大数据技术 四个流程

  • 数据采集与预处理
  • 数据储存与管理
  • 数据处理与分析
  • 数据可视化

中国大数据未来

大数据它是 赋能型专业 (可从大量的已知数据进行计算推出未知的理论
可以为各行业进行深度融合(可与制造业、金融业、交通行业、互联网行业、餐饮行业、能源行业、城市管理行业等等进行融合
也可以推动新技术和新应用不断涌现(其中大数据产业是一条相当庞大的产业链 [其中包含数据的贩卖、数据的储存与管理、数据的平台、数据的应用软件等产业] )

国家政策

2015年8月31日国务院发布了 《促进大数据发展行动纲要》
2021年11月30日工业和信息化部发布了《“十四五”大数据产业发展规划》
2022年12月19日 国务院发布了 《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》
地方政策
《河南省大数据产业发展行动计划(2022-2025)》
《黑龙江省大数据产业发展规划(2021—2025年)》
顺便说说:
我抽时间把一些地方的产业集群详细地了解了一遍,如果要从事大数据、人工智能等高创新方向的人才,建议首选但残酷的北京,其次选积极向未来布局的广东和江苏
夹带一个私货,由于阿川是四川的,所以说这里贴一个四川的产业集群

在这里插入图片描述
再加一个重庆的哈

在这里插入图片描述

大数据 专业
2016年开始,国内由北京大学、中南大学、对外经济贸易大学这三所大学,首个建立了"数据科学与大数据技术"的新工科专业。截至2023年,国内已有654所学校开展相关专业。
培养目标
掌握大数据相关技术具有较好数据、数理、编程、大数据的基础知识与技能,且能够运用大数据思维解决实际问题高级复合型人才
在学习中,与 数学、统计、计算机 三大领域密不可分
至少应该掌握概率论数理统计、线性代数、高等数学、离散数学、应用数学、统计学、程序设计、软件工程、计算机系统基础及组成原理、计算机网络、计算机操作系统、算法与数据结构、机器学习、深度学习、模式识别、云计算、网络爬虫、数据安全、数据清洗、数据挖掘、数据库系统、数据仓库、数据可视化、分布式并行编程、系统架构设计等编程语言建议选择Python、Java和R、Scala(尽量都学,如果实在没有时间,建议看下列图))

在这里插入图片描述

主要工作场所
互联网企业、金融机构、医疗机构、科研院所、高等院校、科技公司、传统企业

主要职位有:

在这里插入图片描述

好的,到此为止啦,祝您变得更强

在这里插入图片描述
想说的话

阿川的本篇博客,学习来源厦门大学林子雨老师的《大数据导论》(我反反复复学习了4遍哈并且做了相应的练习 然后才进行的这篇博客的书写)很累希望大佬支持一下

在这里插入图片描述

道阻且长 行则将至

个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/759309.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

golang项目基于gorm框架从postgre数据库迁移到达梦数据库的实践

一、安装达梦数据库 1、登录达梦数据库官网,下载对应系统版本的安装包。 2、下载地址为:https://www.dameng.com/list_103.html 3、达梦数据库对大小写敏感,在安装初始化数据库实例时建议忽略大小写;具体安装教程可参考以下博客: …

python办公自动化之pandas

用到的库:pandas 实现效果:创建一张空白的表同时往里面插入准备好的数据 代码: import pandas # 准备好要写入的数据,字典格式 data{日期:[7.2,7.3],产品型号:[ca,ce],成交量:[500,600]} dfpandas.DataFrame(data) # 把数据写入…

Java代码基础算法练习-计算被 3 或 5 整除数之和-2024.06.29

任务描述: 计算 1 到 n 之间能够被 3 或者 5 整除的数之和。 解决思路: 输入的数字为 for 循环总次数,每次循环就以当前的 i 进行 3、5 的取余操作,都成立计入总数sum中,循环结束,输出 sum 的值 代码示例&…

QT加载安装外围依赖库的翻译文件后翻译失败的现象分析:依赖库以饿汉式的形式暴露单例接口导致该现象的产生

1、前提说明 QtClassLibaryDll是动态库,QtWidgetsApplication4是应用程序。 首先明确:动态库以饿汉式的形式进行单例接口暴露; 然后,应用程序加载动态库的翻译文件并进行全局安装; // ...QTranslator* trans = new QTranslator();//qDebug() << trans->load(&quo…

大模型系列:提示词管理

既然大模型应用的编程范式是面向提示词的编程&#xff0c;需要建立一个全面且结构化的提示词库&#xff0c; 对提示词进行持续优化也是必不可少的&#xff0c;那么如何在大模型应用中更好的管理提示词呢&#xff1f; 1. 提示词回顾 提示词在本质上是向大型语言模型&#xff08…

​Chrome插件:React Developer Tools为React开发调试而生

React Developer Tools 是什么? 它是允许在Chrome和Firefox开发者工具中检查React组件层次结构的扩展插件。 插件源码下载 源码下载地址:GitHub - facebook/react-devtools at v3 下载完成以后执行红框中的代码,下载react-devtools 源码,源码如下图所示: 插件打包 当前n…

【C++】 ——【模板初阶】——基础详解

目录 1. 泛型编程 1.1 泛型编程的概念 1.2 泛型编程的历史与发展 1.3 泛型编程的优势 1.4 泛型编程的挑战 2. 函数模板 2.1 函数模板概念 2.2 函数模板格式 2.3 函数模板的原理 2.4 函数模板的实例化 2.5 模板参数的匹配原则 2.6 函数模板的特化 2.7 函数模板的使…

Linux CentOS 宝塔中禁用php8.2的eval函数详细图文教程

PHP_diseval_extension 这个方法是支持PHP8的, Suhosin禁用eval函数&#xff0c;不支持PHP8 一、安装 cd / git clone https://github.com/mk-j/PHP_diseval_extension.gitcd /PHP_diseval_extension/source/www/server/php/82/bin/phpize ./configure --with-php-config/ww…

美团校招机试 - 小美的平衡矩阵(20240309-T1)

题目来源 美团校招笔试真题_小美的平衡矩阵 题目描述 小美拿到了一个 n * n 的矩阵&#xff0c;其中每个元素是 0 或者 1。 小美认为一个矩形区域是完美的&#xff0c;当且仅当该区域内 0 的数量恰好等于 1 的数量。 现在&#xff0c;小美希望你回答有多少个 i * i 的完美…

C++操作系列(二):VSCode安装和配置C++开发环境

1. VSCode下载 进入VSCode的官网网页&#xff1a;Download Visual Studio Code - Mac, Linux, Windows 下载相应的版本&#xff1a; 2. 安装VSCode 安装到指定位置&#xff1a; 一路下一步&#xff0c;直至安装完成&#xff1a; 3. 安装C插件 3.1. 安装C/C 点击扩展图标&…

linux上git的使用

目录 1.测试是否安装有git 2.下载项目到本地 3.三板斧 1.将代码放在创建的目录中 2.提交改动到本地 3.提交代码到远端 4.注意点 以及补充内容 1.测试是否安装有git 如果输入git --help 会显示下面一大串那么就是已经安装&#xff0c;否则需要自行手动安装 yum install g…

Elasticsearch开启认证|为ES设置账号密码|ES账号密码设置|ES单机开启认证|ES集群开启认证

文章目录 前言单节点模式开启认证生成节点证书修改ES配置文件为内置账号添加密码Kibana修改配置验证 ES集群开启认证验证 前言 ES安装完成并运行&#xff0c;默认情况下是允许任何用户访问的&#xff0c;这样并不安全&#xff0c;可以为ES开启认证&#xff0c;设置账号密码。 …

【Python从入门到进阶】59、Pandas库中Series对象的操作(二)

接上篇《58、Pandas库中Series对象的操作(一)》 上一篇我们讲解了Pandas库中Series对象的基本概念、对象创建和操作&#xff0c;本篇我们来继续学习Series对象的运算、函数应用、时间序列操作&#xff0c;以及Series的案例实践。 一、Series对象的运算 1. 数值型数据的算术运…

ElasticSearch索引架构与存储

关于ES官网的介绍: Elasticsearch provides near real-time search and analytics for all types of data. Whether you have structured or unstructured text, numerical data, or geospatial data, Elasticsearch can efficiently store and index it in a way that support…

详细介绍MySQL的索引(下)

索引的使用 同一条数据在未创建索引的情况下耗时&#xff1a; nick字段是未创建索引的 select * from t_user WHERE nick 邹丽;SHOW PROFILES; 耗时为&#xff1a; user_account字段创建了唯一索引 select * from t_user WHERE user_account 13781945844;SHOW PROFILES;…

基于Vue3 + Typescript 封装 Element-Plus 组件

1. 课程简介 项目地址 git clone https://gitee.com/childe-jia/my-message.git 背景: 该课程是基于Vue3 Typescript Vite构建, 教会大家封装Element-Plus组件 具备能力: 最新的 Vue3 及相关技术组件的设计思想大厂的开发模式/代码规范 技术: Vue3 首次渲染 / diff 算法 …

5-linux文件路径与文件目录系统

目录 ①文件路径 目录跳转 绝对路径与相对路径 ②文件目录系统 目录系统组成 目录命名规则 命令补充 ls命令补充 file filename查看文件类型 less查看文本文件 ①文件路径 目录跳转 pwd:查看当前工作目录。 cd:改变目录。 ls:列出目录内容。 [root########## ~]# …

取证工作:怎样解锁 LUKS2 加密磁盘?

对于 LUKS2 密码进行恢复&#xff0c;Elcomsoft Distributed Password Recovery &#xff08;简称 EDPR&#xff09; 软件可以构建高性能集群&#xff0c;以更快地破解密码。EDPR 软件提供零开销的可扩展性&#xff0c;并支持 GPU 加速&#xff0c;以加快恢复速度。EDPR 可帮助…

下属无执行力,领导无能为力?用好这3大法则,打造一流行动力

下属无执行力&#xff0c;领导无能为力&#xff1f;用好这3大法则&#xff0c;打造一流行动力 第一个&#xff1a;漏斗法则 在沟通这个领域&#xff0c;有一个漏斗法则&#xff0c;意思就是指&#xff1a;如果你脑袋里面想表达的是100%&#xff0c;那你说出口的会只有80%&…

开发板以电脑为跳板连接互联网

标题 开发板以电脑为跳板连接互联网网络共享方式桥接方式 开发板以电脑为跳板连接互联网 分享下用网线直连电脑的开发板如何以电脑为跳板连接互联网的两个方法。 网络共享方式桥接方式 补充下&#xff0c;我的电脑连接的是无线网络&#xff0c;开发板和电脑是用网线进行连接的…