大学生如何当一个程序员——第三篇:热门专业学习之路6

文章出自https://www.bjsxt.com/xiulian.html#1F
各位小伙伴想要博客相关资料的话关注公众号:chuanyeTry即可领取相关资料!

大数据和云计算学习

  • 1.大数据学习之前“必看”
  • 2.Hadoop框架
  • 3.数据仓库技术
  • 4.Spark内存计算框架
  • 5.机器学习和数据挖掘
  • 6.Storm流式计算框架
  • 7.云计算之Openstack和docker
  • 8.做一个大数据项目

IT时代,最重要的特征就是:“数据越来越多”。每天产生的数据源源不断,成为了现代社会的“石油”。大数据的存储、分析都成了非常重要的技术。

1.大数据学习之前“必看”

大数据是现在这个时代非常流行的概念,并且随着人工智能的崛起,大数据也越来越有价值。人工智能算法其实在三十年前就有了,但是没有用。原因是:第一、计算机不够快;第二、数据量不够大,训练出来的模型太差。

IT时代,其实也是大数据时代。我们产生的数据越来越多,这些数据反过来就像“石油”一样,为我们提供了进一步的价值。人工智能等算法就像“吞食数据的怪兽”,数据越多人工智能也越强大。

因此,在学习大数据之前,一定要先搞明白几个问题:

1.什么大数据?

2.什么是云计算?

3.什么是数据挖掘?

4.什么是人工智能?

5.什么条件才能学习大数据?

了解之后你才能有的放矢,以及想一想自己是否适合学习。同时,也至少不会被人骗,因为了解这些问题之后,一看课程大纲里面有“遥控机器人技术,android技术”等。这些技术肯定和大数据是没有关系的。

知识块
1、什么大数据?
2、什么是人工智能?
3、什么是机器学习和深度学习?
4、数据挖掘到底挖什么?
5、大数据技术体系介绍
6、基础可以学习大数据吗?
7、大数据工作职务多吗?薪水怎么样?
8、大数据简历怎么写?
9、大数据的学习方法
10、哪些技术才是大数据的重点内容?

2.Hadoop框架

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的程序计算。HDFS技术是整个大数据的“入门”。只要从事大数据方面工作的程序员,不管你后面用什么样的分析技术都必须要学会HDFS。

MapReduce是用于大规模数据集(大于1TB)的并行运算。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。因为只有分布式计算才能解决“海量数据”的分析问题。

学好HDFS,就能知道为什么它可以存储海量数据,知道“百度网盘”本身是什么?能否自己也能实现一个网盘。让大家一开始就进入大数据实战状态。

Hadoop是大数据中必学的一个技术,也是大数据职位要求必有的一个技术。Hadoop也是后面其他技术的基础,学好了Hadoop才能更好的学好Hive,Hbase,Spark,Storm等。

3.数据仓库技术

大数据的数据仓库技术主要包括:Hive,Hbase,Sqoop,Flume等。其中Hive在企业中使用最为广泛。对于同学们来说,Hive最容易入门,因为不用写代码;只需要有sql基础就能很好的学习Hive。

Hbase是一个分布式、列式数据库。它解决的问题是:在海量数据的情况下还能做到秒级的增、删、改、查操作。

4.Spark内存计算框架

Spark是当前最为流行的基于内存计算的分布式框架,在Spark的生态圈中的框架几乎能够解决所有的大数据的应用场景,如果基于内存计算,计算速度比Hadoop生态圈中的MapReduce快100倍,如果是基于磁盘的计算,那么速度快10倍以上,所以Spark是当前大数据开发人员必备的。

Spark是有Scala语言开发的,包括:Spark-Core(离线计算)、Spark-SQL、Spark-Streaming(流式计算)、Spark-MLlib(机器学习)。

Spark是整个大数据技术中的“重中之重”。因为在面试过程中,笔试题和面试题有60%的可能性会涉及到Spark知识点。所以,Spark的学习要求是:了解Spark源码,能够优化Spark、能够用Java,Scala,Python三种计算机语言开发任何的Spark程序。

5.机器学习和数据挖掘

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
在这里插入图片描述
在公司项目应用过程中,重点强调的分布式的机器学习,因为基于海量的数据必须采用分布式的机器学习库。否则根本就是“扯淡”。所以根据企业的需求,同学们也要分辨出哪些是分布式的机器学习库,比如:M ahout,Spark-Mllib等。

6.Storm流式计算框架

目前有两种比较流行的计算方式:离线计算和流式计算。

流计算方式:它可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点。

Storm是流式计算中的技术之一,Storm集群由一个主节点和多个工作节点组成。主节点运行了一个名为“Nimbus”的守护进程,用于分配代码、布置任务及故障检测。每个工作节 点都运行了一个名为“Supervisor”的守护进程,用于监听工作,开始并终止工作进程。Nimbus和Supervisor都能快速失败,而且是无 状态的,这样一来它们就变得十分健壮。

一般来说只要用到了流式计算,还得用到Kafka。所以大数据里面需要掌握一套Kafka+Storm流式解决方案。

7.云计算之Openstack和docker

云计算从服务角度分为三层:
在这里插入图片描述

我们需要重点掌握:Iaas层的云计算技术。目前比较流行的云平台都是基于Iaas层的云计算,包括:阿里云(https://www.aliyun.com/)、腾讯云、百度云等。 而Openstack 和Docker就是属于Iaas层的云计算技术。

Openstack和Docker在找工作的过程中,对应的职位比较少,但是有很好的发展前景。建议大家先在入个门。等工作之后或者有剩余的时间再深入研究。

8.做一个大数据项目

“实战学习,最重要的就是参与项目”。大数据的技术学完之后,需要参与一个企业级的大项目,这样才能真正的出山,拿到高薪、获得更多的好机会。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/305647.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

测试覆盖率(详细总结)

我们将讨论测试覆盖率的相关问题,以及它如何帮助提高软件质量的。 测试覆盖率概述 测试覆盖率被定义为一种测试技术指标,它表明我们的测试用例是否真正完全覆盖了应用程序代码中的各种可能以及在运行这些测试用例时执行了多少代码。 如果有10个需求并…

【Java集合篇】ConcurrentHashMap是如何保证线程安全的

ConcurrentHashMap是如何保证线程安全的 ✔️典型解析✔️ 拓展知识仓✔️ 什么是CAS(Compare And Swap)✔️CAS和互斥量有什么区别✔️如何使用CAS和互斥量 ✔️CAS和Synchronized的区别✔️ConcurrentHashMap的优缺点✔️能用ConcurrentHashMap实现队列…

APP出海需知——Admob广告变现竞价策略

越来越多的出海公司更加重视应用的广告变现,Admob因其提供丰富的广告资源,稳定的平台支持,被广泛采用接入。 Admob广告变现策略 1、bidding竞价策略 Bidding目前是Admob广泛推广的较成熟的变现方案,当竞价网络和瀑布流混合时&a…

Kubernetes 核心实战之三(精华篇 3/3)

文章目录 6、Ingress ★6.1 安装 Ingress6.2 访问6.3 安装不成功的bug解决6.4 测试使用6.4.1 搭建测试环境6.4.2 配置 Ingress的规则6.4.3 测试I6.4.4 测试II6.4.5 路径重写6.4.6 限流 7. Kubernetes 存储抽象7.1 NFS 搭建7.2 原生方式 数据挂载7.3 PV 和 PVC ★7.3.1 创建 PV …

多PC文件夹同步方案

在多个工作终端独立具备svn版本库的情况下,可使用本工具进行一键同步。 相较于传统的SVN中心检出更新方案中移动存储设备硬件及文件目录系统多终端间易损坏,本方案更加稳定 资料同步结构: 使用步骤: 1.修改config.ini配置文件 2…

李沐-《动手学深度学习》--03-注意力机制

一、注意力机制 1 . 注意力提示 1)框架 **随意:**跟随自己的想法的,自主的想法,例如query **不随意:**没有任何偏向的选择,例如 Keys 如何得到 k v q 2)Nadaraya-Watson核回归 就是一个so…

强化学习Double DQN方法玩雅达利Breakout游戏完整实现代码与评估pytorch

1. 实验环境 1.1 硬件配置 处理器:2*AMD EPYC 7773X 64-Core内存:1.5TB显卡:8*NVIDIA GeForce RTX 3090 24GB 1.2 工具环境 Python:3.10.12Anaconda:23.7.4系统:Ubuntu 22.04.3 LTS (GNU/Linux 5.15.0-…

H264/AVC的句法和语义

概述 码流的基本单位: 在编码器输出的码流中,数据的基本单位是句法元素,每个句法元素由若干比特组成,它表示某个特定的物理意义 ,比如宏块类型、量化参数等。 句法:句法表征句法元素的组织结构。 语义&a…

Fluids —— Volume VOP

P,当前体素位置;density,此场的值;ix, iy, iz,体素索引(0 ~ res-1);resx, resy, resz,当前volume的精度;center,当前volume的中心点;o…

MYSQL学习之buffer pool的理论学习

MYSQL学习之buffer pool的理论学习 by 小乌龟 文章目录 MYSQL学习之buffer pool的理论学习一、buffer pool是什么?二、buffer pool 的内存结构三、buffer pool 的初始化和配置初始化配置 四、buffer pool 空间管理LRU淘汰法冷热数据分离的LRU算法 一、buffer pool是…

大模型第三节课程笔记

大模型开发范式 优点:具有强大语言理解,指令跟随,和语言生成的能力,具有强大的知识储备和一定的逻辑推理能力,进而能作为基座模型,支持多元应用。 不足:大模型的知识时效性受限,大模…

OLED透明屏多少钱一平方,价格影响因素、计算方法与规格种类

OLED透明屏,以其独特的透明度和出色的画质,正逐渐成为高端显示市场的宠儿。但对于消费者来说,最关心的莫过于其价格。本文将详细解析OLED透明屏的价格,包括影响因素、计算方法以及规格种类。 一、影响因素 OLED透明屏的价格受到多…

Nessus漏洞扫描工具安装、使用技巧及注意事项

Nessus是一款功能强大的安全评估工具,它可以帮助安全团队快速发现网络中潜在的安全风险和漏洞,并对其进行评估和修复。对于渗透测试人员来说,Nessus更是必不可少的工具之一。 1. Nessus安装 获取安装包,官网地址:http…

【Java并发】聊聊concurrentHashMap的put核心流程

结构介绍 1.8中concurrentHashMap采用数组链表红黑树的方式存储,并且采用CASSYN的方式。在1.7中主要采用的是数组链表,segment分段锁reentrantlock。本篇主要在1.8基础上介绍下. 那么,我们的主要重点是分析什么呢,其实主要就是p…

业界首款PCIe 4.0/5.0多通道融合接口SSD技术解读

之前小编写过一篇文章劝大家不要碰PCIe 5.0 SSD,详细内容,可以再回顾下: 扩展阅读:当下最好不要入坑PCIe 5.0 SSD 如果想要进一步了解PCIe 6.0,欢迎点击阅读: 浅析PCIe 6.0功能更新与实现的挑战 PCIe 6.…

【强化学习的数学原理-赵世钰】课程笔记(五)蒙特卡洛方法

目录 一.内容概述 二.激励性实例(Motivating examples) 三.最简单的基于 MC 的 RL 算法:MC basic 1.将策略迭代转换为无模型迭代(Convert policy iteration to be model-free) 2.The MC Basic algorithm 3.例子 …

无人驾驶卡尔曼滤波

无人驾驶卡尔曼滤波(行人检测) x k a x k − 1 w k x_k ax_{k-1} w_k xk​axk−1​wk​ w k w_k wk​:过程噪声 状态估计 估计飞行器状态(高度) x k z k − v k x_k z_k - v_k xk​zk​−vk​ 卡尔曼滤波通…

vivado 导入工程、TCL创建工程命令、

导入外部项目 您可以使用导入在Vivado IDE外部创建的现有RTL级项目文件Synopsys Synplify。Vivado IDE检测项目中的源文件并自动添加文件到新项目。设置,如顶部模块、目标设备和VHDL库 分配是从现有项目导入的。 1.按照创建项目中的步骤进行操作。 2.在“项目类…

Linux学习(13)——系统安全及应用

一、账号安全基本措施 1、系统账号清理 将非登录用户的Shell设为/sbin/nologin,及将用户设置为无法登录 锁定长期不使用的账户 删除无用的账户 锁定账户密码 本质锁定 shell——/sbin/nologin却比较特殊,所谓“无法登陆”指的仅是这个用户无法使用bash或其他sh…

忆阻器芯片STELLAR权重更新算法(清华大学吴华强课题组)

参考文献(清华大学吴华强课题组) Zhang, Wenbin, et al. “Edge learning using a fully integrated neuro-inspired memristor chip.” Science 381.6663 (2023): 1205-1211. STELLAR更新算法原理 在权值更新阶段,只需根据输入、输出和误差…