《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

📋 博主简介

  • 💖 作者简介:大家好,我是wux_labs。😜
    热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。
    通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。
    通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
    对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。
  • 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
  • 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
  • 🎉 请支持我:欢迎大家 点赞👍+收藏⭐️+吐槽📝,您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

  • 《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念
    • 前言
    • Databricks基本概念
      • 工作空间Workspaces
      • 工作区Workspace
      • 笔记本Notebook
      • 集群Cluster
      • 文件系统DBFS
      • 作业Job
    • 结束语

《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

前言

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍基本概念。

图书在:当当、京东、机械工业出版社以及各大书店有售!

除了自己部署Spark的集群环境,Spark的商业母公司还提供了基于云环境的Spark环境Databricks。Databricks是软件即服务(SaaS)环境,基于Spark的统一数据分析平台,用于数据工程、数据科学和机器学习。Databricks提供了一组统一的工具,用于大规模构建、部署、共享和维护企业级数据解决方案。Databricks的主界面如图所示。

Databricks基本概念

在使用Databricks之前,需要对Databricks中的一些基本概念有所了解。

工作空间Workspaces

Workspaces称为工作区,是一个基于角色的交互式环境UI界面,可以管理Databricks的Cluster、Notebook、Job等,为了跟Workspace进行区分,本书将Workspaces称为工作空间。Databricks的主界面就是一个工作空间,不同角色的工作空间,可以通过主界面左侧菜单栏顶部菜单进行切换。

工作区Workspace

Workspace也称工作区,用于访问所有Databricks资产的环境,可以管理Notebook、Library,并将这些对象按文件夹的形式进行组织,同时工作区还提供对数据对象和计算资源的访问。工作区对应于主界面左侧菜单栏上的Workspace菜单。

笔记本Notebook

Notebook即笔记本,是一个基于Web的笔记本,包含可执行代码、笔记、图片资源等,可以在笔记本中编写Python、R、Scala、SQL等代码,执行代码并获得输出结果,可以对结果进行可视化处理。笔记本可以在工作区中创建,也可以将已有笔记本托管于Git仓库,通过Repos菜单将Git仓库添加到Databricks,实现笔记本的版本控制管理。

集群Cluster

Cluster即集群,是Databricks的计算资源,进行数据集成、数据分析、机器学习需要计算资源,必须先创建集群。Databricks的集群是Spark集群,支持单节点、多节点集群。集群可以通过主界面左侧菜单栏中的Compute菜单进行创建。

文件系统DBFS

Databricks文件系统(DBFS)是一个装载到Databricks工作区的分布式文件系统,可以在Databricks群集上使用。在Databricks中,集群提供计算资源,包括CPU、内存、网络等;DBFS则提供数据和文件的存储、读写能力,是Databricks中一个非常重要基础设施,这与HDFS类似。与HDFS不同的是,DBFS是针对可缩放对象存储的一种抽象,可将类Unix文件系统调用映射到本机云存储API调用,这让访问DBFS上的文件就像访问本地文件一样简单。

作业Job

Job称为作业,是Databricks中运行代码的一种方式。作业与笔记本不同,笔记本是Databricks中运行交互式代码的一种方式,而作业是Databricks中运行非交互式代码的一种方式。作业中可以运行笔记本、Python脚本、Jar包等,支持定时启动运行、持续运行。

结束语

好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/255358.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

centos安装opencv并在springboot中使用

使用conda安装opencv,并在docker运行的容器中使用,这里以运行则springboot应用的容器为例 步骤一:安装 在conda中安装 # 安装依赖 conda install numpy matplotlib# 安装opencv conda install -c conda-forge opencv # 或者制定版本 conda…

记一次java for循环改造多线程的操作

背景 今天在开发质量平台时需要获取某些数据,要请求公司某个工程的OpenAPI接口A。此接口为返回通用数据的接口,且接口本身的RT都在2~3秒之间。使用该接口,需要进行两次循环获取,然后对返回数据进行处理组装&#xff0…

【NI-RIO入门】扫描模式

于NI KB摘录 所有CompactRIO设备都可以访问CompactRIO扫描引擎和LabVIEW FPGA。 CompactRIO 904x 系列是第一个引入 DAQmx 功能的产品线。 扫描引擎(IO 变量) – 主要为迁移和初始开发而设计。控制循环频率高达 1 kHz1,性能控制器上的频率更…

kill编译异常处理

当kill编译时出现如下警告 Build target Target 1 linking... *** WARNING L16: UNCALLED SEGMENT, IGNORED FOR OVERLAY PROCESSSEGMENT: ?PR?_LCD_SHOWCHAR?LCD1602 *** WARNING L16: UNCALLED SEGMENT, IGNORED FOR OVERLAY PROCESSSEGMENT: ?PR?_LCD_SHOWSTRING?LCD…

代码随想录第三十五天(一刷C语言)|整数拆分不同的二叉搜索树

创作目的:为了方便自己后续复习重点,以及养成写博客的习惯。 一、整数拆分 思路:参考carl文档。 1、确定dp数组以及下标的含义:分拆数字i,可以得到的最大乘积为dp[i]。 2、确定递推公式:从1遍历j&#…

Nginx location+Nginx rewrite(重写)(新版)

Nginx locationNginx rewrite(重写) Nginx locationNginx rewrite(重写)一、location1、常用的Nginx 正则表达式2、location的类型3、location 的匹配规则4、location 优先级5、location 示例说明5.1只修改网页路径5.2修改nginx配置文件和网页路径5.3一般前缀5.4正则匹配5.5前缀…

C# WPF上位机开发(usb设备访问)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 目前很多嵌入式设备都支持usb访问,特别是很多mcu都支持高速usb访问。和232、485下个比较,usb的访问速度和它们基本不在一个…

miRMaker

Introduction 除了miRNA表达数据,各种miRNA相关的知识也强有力地支持了对miRNA功能相互作用的理解。 那些具有许多共同调控靶基因或疾病的miRNAs可能具有相似的功能 一些方法通过考虑实验验证的miRNA-靶标关系来评估miRNA相互作用,评估miRNA功能相互作…

自清洗过滤器工作原理尺寸选型参数,内部结构,压差开关如何调节

​ 1:全自动自清洗过滤器设备介绍 全自动反冲洗过滤器是水净化过程中不可缺少的处理手段,用于拦截水中的各种杂质,以净化水质或保护系统中其他设备的正常工作。普通网式过滤器因其结构简单、过滤效果好、阻力小而广泛应用于水源过滤、工业循…

【Android Studio】各个版本下载地址

下载地址: https://developer.android.com/studio/archive?hlzh-cn

如何用 Cargo 管理 Rust 工程系列 丁

以下内容为本人的学习笔记,如需要转载,请声明原文链接微信公众号「ENG八戒」https://mp.weixin.qq.com/s/PP9b5cSNd-7IqgNovcrB0A 优化输出 前面已经对 cargo package 工程编译输出了好多遍,发现编译结果打印的信息都包含了这个 unoptimize…

c语言:[输出函数]与[输入函数]|要点简述

一、【输出函数】 printf() 与 puts()的不同点 1、printf()函数 printf()支持单个字符%c的输出,以及字符串%s的输出。 (1)如果是以%c的形式输出,是一个字符一个字符的输出。因此,要用一个循环语句,把字符逐个输出。 (2)而用%…

Unity与Android交互通信系列(2)

在上一篇文章中,我们介绍了Unity和Android交互通信的原理及在Unity中直接调用Java代码的方式,但没有给出代码示例,下面通过实际例子演示上篇文章中AndroidJavaClass、AndroidJavaObject两个类的基本用法,由于交互通信涉及到两端&a…

查看知乎数学公式Tex源码的方法

首先使用F12打开开发者工具,再使用元素选择器选中要查看的公式。 在源码对应位置附近可以看到一个类型为 math/tex 的 script,如果没找到可以展开目录查找。

网络时间服务器

本章主要介绍网络时间服务器。 使用chrony配置时间服务器 配置chrony客户端向服务器同步时间 1 时间同步的必要性 一些服务对时间要求非常严格,例如,图所示的由三台服务器搭建的ceph集群。 这三台服务器的时间必须保持一致,如果不一致&#…

若依打包将vue放到.jar里面部署

1.vue静态文件,以及单页面 ruoyi-admin\src\main\resources\static \ruoyi-admin\src\main\resources\templates 2.后台开放白名单 "/cms", "/cms#/login" 3. mvc访问vue页面入口,接口 package com.ruoyi.web.controller.syst…

08_CSS定位与综合案例开发

day08_CSS定位与&综合案例开发 Objective(本课目标) 理解什么是定位能说出为什么要用定位 1. 为什么使用定位 标准流在最底层 (海底) ------- 浮动的盒子在中间层 (海面) ------- 定位的盒子 在 最上层 (天空) 小黄色块在…

软件测试面试八股文,最常见的7个高频面试题(附答案,建议收藏)

问题1:请自我介绍下? 核心要素:个人技能优势工作背景经验亮点 参考回答: 第一种:基本信息离职理由 面试官您好,我叫张三,来自番茄市,在软件测试⾏业有 3 年的⼯作经验。做过 Web…

算法——动态规划(DP,Dynamic Programming)

一、基础概念 DP的思想: 把问题分成子问题,前面子问题的解决结果被后面的子问题使用DP与分治法的区别: 分治法把问题分成独立的子问题,各个子问题能独立解决 自顶向下DP前面子问题的解决结果被后面的子问题使用,子问题…

3090K MOSFET N通道沟槽功率 PWM应用

3090K 采用沟槽技术&#xff0c;提供活x氧(导通)&#xff0c;低栅J电荷和栅J电压低至4.5V的工作。3090K 设备适用于各种应用。 3090K 特性&#xff1a; ● VDS 30V,ID 86A RDS(ON) < 5 mΩ VGS 10V RDS(ON) < 9.5mΩ VGS 4.5V ● 高功率和电流处理能力 ● 获得无…