大数据开发--1.1大数据概论

目录

一.大数据的概念

什么是大数据?

二. 大数据的特点

三. 大数据应用场景

四. 大数据分析业务步骤

大数据分析的业务流程:

五.大数据职业规划

职业方向

岗位技术要求

六. 大数据学习路线


一.大数据的概念

什么是大数据?

  • 数据
    世界的本质是数据
            --大数据研究专家维克托·迈尔-世恩伯格博士
  • 大数据定义
         大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据。
  • 大数据处理的数据量有多大?
    (2的10次方)
    目前的大数据应用,数据量主要集中在PB/EB级别
  • 大数据解决什么问题?
         海量数据存储:数据分析的前提是有数据,数据存储的目的是支撑数据分析。究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。
         海量数据运算:当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。

二. 大数据的特点

  • 大数据的特点可以使用5个字来概括:

                               结构化:文字、数字。
                               非结构化:图片、音频、视频。
                               半结构化:json。

三. 大数据应用场景

  • 行业领域

四. 大数据分析业务步骤

  • 大数据的应用场景--大数据让借贷更放心
          在金融行业中,以借贷款为例。在贷款前,贷款借出方会先利用大数据对借款人进行贷前审核,以此来保障贷后的还款率。
         借出方从各个渠道合法收集借款人的标签信息,如学历,职业,薪资状况,历史借还款情况等。海量数据被放入反欺诈模型,还款能力模型,身份验证模型等数个中做训练,最终得出是否通过本次贷款申请,贷款的额度,贷款人的还款意愿等评估信息。
         借款人数据收集的越多,标签维度越细,数据越真实,则审核效果越全面。
         (逻辑回归、人物画像)
  • 大数据的应用场景-大数据让广告营销更高效
         广告作为互联网行业最常见的变现手段之一,曾几何时,你会发现日常生活中看到的广告居然那么懂你。
         在广告的投放期间,通过大数据手段大量的整合、分析数据,包括用户的浏览习惯、消费行为、浏览记录、对广告的点击数量等,构建全面的用户画像,保证广告定向投放。
         在广告投放的中后期,通过实时的数据反馈,结合用户所处地域,时间的变化,动态优化广告素材,让同一个用户在不同的场景下享受不一样的广告服务。

                落地的产品,但是大数据不做这些,算法团队来做个性化推荐,大数据杀熟

        通过型的算法有:spark(MLlib),贝叶斯,效果非常的差。所以要自己写算法。

  • 大数据的应用场景--大数据让新媒体更懂你
         短视频平台会通过大数据平台,分析用户的喜好,根据用户的喜好给用户推荐小视频。

         头条平台会根据你的浏览历史推荐你喜欢或者关注的内容。

大数据分析的业务流程:

五.大数据职业规划

  • 大数据开发工程师
  • Hadoop开发工程师
  • Spark开发工程师
  • 实时计算开发工程师
    flink+kafka,sparksreaming+kafka
  • 数据仓库工程师
    Hive脚本开发(Hive开发工程师)
  • ETL开发工程师
  • BI开发工程师
    数据分析,Python+fineBI,tableau
  • 数据挖掘工程师
    算法
  • 数据架构师
    5年起步

职业方向

岗位技术要求

六. 大数据学习路线

  1. Linux系统
    (大数据的所有组件都是在Linux环境下搭建的)
  2. 编程语言
  3. 大数据框架
    (核心框架:Hadoop、Hive、Spark、Kakfa、Hbase)

    大数据工具:
         zookeeper
         Hadoop(MapReduce、hdfs)
         Hive
         azkaban:调度工具
         impala
         HBASE
         Phoenix
         Redis
         elasticsearch
         logstash
         kibana
         hue
         oozie
         spark
         flink
         kafka
         clickhouse
         DS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/885840.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot技术:构建高效网上购物平台

第3章 系统分析 3.1 可行性分析 在系统开发之初要进行系统可行分析,这样做的目的就是使用最小成本解决最大问题,一旦程序开发满足用户需要,带来的好处也是很多的。下面我们将从技术上、操作上、经济上等方面来考虑这个系统到底值不值得开发。…

车辆重识别(注意力 U-Net:学习在哪些区域寻找胰腺)论文阅读2024/10/01

什么是注意力机制? 什么是加性注意力? 大致说一下流程: 对于一张特征图来说,对于这张图中的每一个像素向量(例如a),计算该向量与所有像素向量的相似度,对这些相似度进行激活函数…

【重学 MySQL】四十五、数据库的创建、修改与删除

【重学 MySQL】四十五、数据库的创建、修改与删除 一条数据存储的过程数据输入数据验证数据处理数据存储数据持久化反馈与日志注意事项 标识符命名规则基本规则长度限制保留字与特殊字符命名建议示例 MySQL 中的数据类型创建数据库创建数据库时指定字符集和排序规则 查看数据库…

数据库重建索引的作用?

重建索引是数据库管理中的一个重要操作,主要用于优化数据库性能和提高查询效率。以下是重建索引的一些主要用途: 提高查询性能:随着时间的推移,数据的插入、更新和删除会导致索引碎片化,重建索引可以减少碎片&#xf…

DNS with libevent

DNS with libevent: high-level and low-level functionality libevent提供了少量用于解析DNS名字的API,以及用于实现简单DNS服务器的机制。 我们从用于名字查询的高层机制开始介绍,然后介绍底层机制和服务器机制。 Portable blocking name resolution…

15年408计算机网络

第一题: 解析: 接收方使用POP3向邮件服务器读取邮件,使用的TCP连接,TCP向上层提供的是面向连接的,可靠的数据传输服务。 第二题: 解析:物理层-不归零编码和曼彻斯特编码 编码1:电平在…

CSS中字体图标的使用

引言: 在网页设计当中,会有很多很简洁的图标,比如箭头,照相机,放大镜等 这些大概率都是使用字体图标来完成的,因为字体图标比较简洁高效,不会像图片一样需要向浏览器请求数据。那么字体图标该…

网络协议详解--IPv6

IPv6产生背景 (1)地址空间的耗尽:因特网呈指数级发展,导致IPv4地址空间几乎耗尽。虽然采用了子网划分、CIDR和NAT地址转换技术,但这没有从根源解决地址耗尽的问题 (2)IP层安全需求的增长&#x…

Oracle exadata存储节点更换内存操作及报错处理

1.报错信息 在进行Oracle exadata巡检时,发现cell节点有一根内存报错,报错信息如下: 报错内存位置为:CPU1 P1/D2槽位 报错内存信息: 根据报错信息确认内存PN号、大小等息,并将信息反馈公司,及…

Hadoop框架及应用场景说明

Hadoop是一个开源的分布式系统基础架构。由多个组件组成,组件之间协同工作,进行大规模数据集的存储和处理。 本文将探讨Hadoop的架构以及应用场景。 一Hadoop框架 Hadoop的核心组件包含: 1. Hadoop分布式文件系统(HDFS&#xff…

Qt --- 常用控件的介绍---Widget属性介绍

一、控件概述 编程,讲究的是站在巨人的肩膀上,而不是从头发明轮子。一个图形化界面上的内容,不需要咱们全都从零区实现,Qt中已经提供了很多内置的控件了(按钮,文本框,单选按钮,复选…

【Java SE 题库】移除元素(暴力解法)--力扣

🔥博客主页🔥:【 坊钰_CSDN博客 】 欢迎各位点赞👍评论✍收藏⭐ 目录 1. 题目 2. 解法(快慢“指针”) 3. 源码 4. 小结 1. 题目 给你一个数组 nums 和一个值 val,你需要原地移除所有数值等于 val 的元素。元素的顺…

C0007.Clion中添加ui文件及运行的完整步骤

1.创建ui文件 选择Ui文件目录,右击,打开Qt Designer; 创建完成后,保存ui界面,并且命名为test.ui; 2.新建头文件test.h 在include目录中,新建头文件,文件名为test.h 3.新建test.…

神点SAAS云财务系统/多账套/前后端全开源

>>>系统简述: 神点SAAS云财务软件开源版,包含账套、凭证字、科目、期初、币别、账簿、报表、凭证、结账等功能。 神点云财务系统,餐饮行业财务软件、微服务架构财务软件、开源云财务软件、Java全开源财务软件优选! >…

「轻盈」之旅:OOM故障重现与解决

前期准备 本项目均采用 VisualVM 2.1.10 进行dump文件的分析。JDK1.8及之前所在目录的bin目录下有自带的VisualVM,JDK1.8以后需要自行手动安装下载。 下载地址:https://visualvm.github.io/download.html IDEA插件配置:在Plugins里搜索visual…

CSS文本格式化

通过 CSS 中的文本属性您可以像操作 Word 文档那样定义网页中文本的字符间距、对齐方式、缩进等等,CSS 中常用的文本属性如下所示: text-align:设置文本的水平对齐方式;text-decoration:设置文本的装饰;te…

Vue项目开发注意事项

事项一:项目代码放在本地怎么运行起来 1、首先确定项目对应的node和npm版本 node下载地址 Index of /dist/https://nodejs.org/dist/ node 与 npm版本对应关系 Node.js — Node.js Releases 2、node卸载的时候,会自动把对应的npm卸载掉 情况1&…

光控资本:股票后边带个u是啥意思,常见股票后缀字母还有哪些?

股票后面带有字母U标明该股票发行人到目前为止还没有盈利,这是根据上交所发布的《关于科创板股票及存托凭证生意相关事项的奉告》中的规则,在上市后实现初度盈利,这个标识就会消除掉。一般是在科创板上市的股票会有U的标明,且一般…

河南做网站与SEO:如何提升搜索引擎排名

河南做网站与SEO:如何提升搜索引擎排名 在当今数字化时代,越来越多的企业意识到互联网的重要性,特别是在河南这样一个快速发展的地区,建立一个优秀的网站已经成为企业发展的必要条件。而在建立网站的同时,SEO&#xff…

【算法】链表:206.反转链表(easy)

系列专栏 《分治》 《模拟》 《Linux》 目录 1、题目链接 2、题目介绍 3、解法(快慢指针) 解题步骤: 关键点: 复杂度分析: 4、代码 1、题目链接 206. 反转链表 - 力扣(LeetCode) …