《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群

📋 博主简介

  • 💖 作者简介:大家好,我是wux_labs。😜
    热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。
    通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。
    通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
    对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。
  • 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
  • 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
  • 🎉 请支持我:欢迎大家 点赞👍+收藏⭐️+吐槽📝,您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群

  • 《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群
    • 前言
    • 创建集群
    • 数据集成
    • 结束语

《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群

前言

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍创建集群。

图书在:当当、京东、机械工业出版社以及各大书店有售!

创建集群

使用Databricks进行数据集成、数据分析、机器学习前,必须创建集群。通过Compute菜单打开Compute列表界面,如图所示。

Databricks支持两种类型的Compute,All-purpose compute是通用的计算资源,可用于交互式数据集成、数据分析等;Job compute是用于执行定时作业的计算资源。在All-purpose compute页面点击Create compute按钮,打开集群创建界面,如图所示。

Databricks的集群支持两种模式,Single node是单节点模式,类似于Spark的单机模式;Muti node是多节点模式,类似于Spark的独立集群模式,包含1个Master节点和多个可弹性扩缩容的Worker节点。选择Multi node选项,在Databricks runtime version下面选择Spark版本。Databricks支持两种类型的runtime版本,Standard是标准类型版本,通常用于数据工程、数据科学;ML版本包含更多的机器学习的库,适用于学习,支持GPU运算。在ML版本下选择不支持GPU运算的Spark 3.4.0版本的集群环境,如图所示。

在Worker type下面选择Worker节点的类型,主要是选择CPU核数和内存大小,以及Worker节点个数,Worker节点支持弹性伸缩,根据需要进行设置,如图所示。

在Driver type下面选择Master节点的类型,选择与Worker节点一样,如图所示。

所有配置设置完成,点击Create Cluster按钮创建集群。集群创建完成后,在Compute列表可以看到创建的集群,如图所示。

数据集成

在Databircks中可以通过URL访问HDFS上的文件,但是Databricks是部署在云端的,这种数据访问会带来网络数据传输的开销。为了能够快速访问数据,可以将文件存储在DBFS上。通过左侧菜单栏的New菜单,选择Data菜单,如图所示。

在数据集成界面列出了可以集成到Databricks的数据源,Databricks支持很多数据源的集成,如图所示。

选择DBFS,在Upload File页面下,选择words.txt上传到DBFS的/FileStore/tables/路径下,如图所示。

结束语

好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/258218.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python爬虫之两种urlencode编码发起post请求方式

背景 闲来无事想爬一下牛客网的校招薪资水平及城市分布,最后想做一个薪资水平分布的图表出来 于是发现牛客使用的是application/x-www-form-urlencoded的格式 测试 首先可以先用apipost等测试工具先测试一下是否需要cookie之类的,发现是不需要的&…

内网渗透测试基础——内网信息收集

内网渗透测试基础——内网信息收集 在内网渗透测试环境中,有很多设备和防护软件,例如Bit9、ArcSight、Maniant等。它们通过收集目标内网的信息,洞察内网网络拓扑结构,找出内网中最薄弱的环节。信息收集的深度,直接关系…

即兴小索奇-MyBatis全套笔记

一、MyBatis 1、MyBatis简介 1.1、MyBatis历史 MyBatis最初是Apache的一个开源项目iBatis, 2010年6月这个项目由Apache Software Foundation迁移到了Google Code。随着开发团队转投Google Code旗下, iBatis3.x正式更名为MyBatis(3之前还是iBatis&…

Docker 核心技术

Docker 定义:于 Linux 内核的 Cgroup,Namespace,以及 Union FS 等技术,对进程进行封装隔离,属于操作系统层面的虚拟化技术,由于隔离的进程独立于宿主和其它的隔离的进程,因此也称其为容器Docke…

MicroBin让代码共享更简单

什么是 MicroBin ? MicroBin 是一个超小型,功能丰富、可配置、安全、独立且自托管的Pastebin Web 应用程序。但更简单,可通过调整环境变量来添加或删除功能,具有 URL 重定向、自动文件过期、原始文件服务、5 级隐私设置、二维码共…

工业一体化污水处理设备有哪些

工业一体化污水处理设备是目前污水处理领域中的重要技术手段之一,对于各行各业的生产过程中产生的污水进行高效、环保的处理至关重要。如今,工业一体化污水处理设备已经得到广泛应用,并得到了许多企业和环保机构的认可。在本文中,…

手把手带你死磕ORBSLAM3源代码(一)目录详解

目录 一.引言 二.关键目录 2.1Examples目录 2.2 Include目录 2.3 src目录 一.引言 ORB-SLAM3是一种基于特征点的稀疏实时单目SLAM(Simultaneous Localization and Mapping)系统。它是ORB-SLAM系列模型的第三代版本,用于在无人机、机器人…

多目标跟踪学习

本文来源: 目标跟踪那些事儿-技术和课程介绍_哔哩哔哩_bilibili 为该视频的学习笔记 目的:我的学习目的主要是了解现有的跟踪算法,并着重了解卡尔曼滤波算法,利用卡尔曼滤波算法进行多目标跟踪等后续一系列估计算法。老师视频中提…

从零开始学小波变换

小波变换 哈尔变换 对于哈尔变换可以用如下矩阵表示: T H F H T THFH^T THFHT 其中, F F F为一个 N N N\times N NN大小的图像矩阵, H H H为一个 N N N\times N NN大小的哈尔变换矩阵, T T T一个 N N N\times N NN大小的图像变换的结果…

多维时序 | MATLAB实现KOA-CNN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测

多维时序 | MATLAB实现KOA-CNN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测 目录 多维时序 | MATLAB实现KOA-CNN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 MATLAB实现KOA-CNN-B…

el-select multiple表单校验问题

记录一个el-select复选框表单校验例子 1、一打开页面就会触发校验 解决方案:设置初始值为空数组 2、选中下拉数据,不会再次触发校验,导致提示文字一直存在 解决这个问题,首先先看看v-model 、prop属性、rules校验是否正确&#…

【位运算】136.只出现1次的数字

题目 进阶题目:剑指:找出数组中2个只出现1次的数字 剑指:数组中数字出现的次数 异或基本性质: 法1:异或位运算 class Solution {public int singleNumber(int[] nums) {int res 0;for (int i : nums) {res ^ i;}re…

机器学习---bagging与随机森林

1. bagging算法 集成学习有两个流派:一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是 bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。 Bagging的弱学习器之间的确没有boosting那样的联…

操作系统之银行家算法

Dijkstra在1965年提出的银行家算法是著名的死锁避免算法,这个用于一个银行家给多个顾客贷款的算法可以直接用于操作系统给进程分配资源,这时只要把银行家换成操作系统,把顾客换成进程,把资金换成资源,把银行家决定是否…

redis基本用法学习(字符串类型基本操作)

字符串类型是redis支持的最简单的数据类型,同时最简单的键值对类型也是key和value都是单个字符串,本质上就是字符串之间的相互映射,redis官网String类型简介页面提到可以用于缓存HTML片段或页面内容。   redis支持设置/获取单个键值对&…

Python | Flask测试:发送post请求的接口测试

HTTP/1.1 协议规定的 HTTP 请求方法有OPTIONS、GET、HEAD、POST、PUT、DELETE、TRACE、CONNECT 几种。POST通常用来向服务端提交数据,主要用于提交表单、上传文件。 HTTP 协议是以ASCII码传输,建立在 TCP/IP 协议之上的应用层规范。规范把 HTTP 请求分为…

用GMAT进行卫星轨道仿真

文章目录 设计飞行器预报模型配置轨道图配置预报命令运行和分析 GMAT是一跨开源轨道设计软件,官网挂着NASA的名字,看上去十分给力。 下载之后直接解压,可执行文件在bin目录下,双击GMAT.exe,就可以进入其欢迎界面了。G…

新版Android Studio Logcat 筛选日志

下载了新版的Android Studio,android-studio-2022.3.1.21-mac_arm,记录一下新版本AS的logcat过滤日志条件 1. 按照包名过滤 1.1 过滤当前包名的日志 package:mine 1.2 过滤其他包名日志 package:com.example.firstemptyapplication 2. 按照日志等级过滤…

Qt之使用QListView加载相册(富文本ToolTip)

一.效果 二.实现 #include "mainwindow.h" #include "ui_mainwindow.h"#include <QStandardItemModel> #include <QFont>MainWindow::MainWindow(QWidget *parent): QMainWindow(parent), ui(new Ui::MainWindow) {ui->setupUi(this);QFont…

使用Httpclient来替代客户端的jsonp跨域解决方案

最近接手一个项目&#xff0c;新项目需要调用老项目的接口&#xff0c;但是老项目和新项目不再同一个域名下&#xff0c;所以必须进行跨域调用了&#xff0c;但是老项目又不能进行任何修改&#xff0c;所以jsonp也无法解决了&#xff0c;于是想到了使用了Httpclient来进行服务端…