Spark SQL概述、数据帧与数据集

文章目录

      • 一、准备工作
        • 1、准备数据文件
        • 2、启动Spark Shell
      • 二、加载数据为Dataset
        • 1、读文件得数据集
      • 三、给数据集添加元数据信息
        • 1、定义学生样例类
        • 2、导入隐式转换
        • 3、将数据集转换成学生数据集
        • 4、对学生数据集进行操作
          • (1)显示数据集内容
          • (2)打印数据集模式
          • (3)对数据集进行投影操作
          • (4)对数据集进行过滤操作
          • (5)对数据集进行统计操作
          • (6)对数据集进行排序操作
          • (7)重命名数据集字段
      • 四、将数据集转为数据帧
        • 1、将数据集转为数据帧
        • 2、对学生数据帧进行操作
          • (1)显示数据帧内容
          • (2)显示数据帧模式信息
          • (3)对数据帧进行投影操作
          • (4)对数据帧进行过滤操作
          • (5)对数据帧进行统计操作
          • (6)对数据帧进行排序操作
          • (7)重命名数据帧字段
      • 五、基于数据帧进行SQL查询
        • 1、基于数据帧创建临时视图
        • 2、使用spark对象执行SQL查询
          • (1)查询全部表记录
          • (2)显示数据表结构
          • (3)对表进行投影操作
          • (4)对表进行选择操作
          • (5)对表进行统计操作
          • (6)对表进行排序操作
          • (7)重命名数据表字段

一、准备工作

1、准备数据文件

1,郑秀芸,,20
2,王志峰,,18
3,陈燕文,,21
4,郑国栋,,19
5,肖雨涵,,20

  • 在/home目录里创建student.txt文件

cd /home
vim student.txt

  • 将student.txt上传到HDFS的/student/input目录

hdfs dfs -mkdir -p /student/input
hdfs dfs -put student.txt /student/input

2、启动Spark Shell

  • 启动Spark Shell,执行命令:spark-shell --master spark://master:7077

在这里插入图片描述

二、加载数据为Dataset

1、读文件得数据集

  • 调用SparkSession对象的read.textFile()可以读取指定路径中的文件内容,并加载为一个Dataset
  • 执行命令:val ds = spark.read.textFile("hdfs://master:9000/student/input/student.txt")
    在这里插入图片描述

三、给数据集添加元数据信息

1、定义学生样例类

  • 定义一个样例类Student,用于存放数据描述信息(Schema)
  • 执行命令:case class Student(id: Int, name: String, gender: String, age: Int)
    在这里插入图片描述

2、导入隐式转换

  • 执行命令:import spark.implicits._ (_表示implicits包里所有的类,类似于Java里的*)
    在这里插入图片描述

3、将数据集转换成学生数据集

  • 执行命令:paste进入粘贴模式,然后执行如下命令
val studentDS = ds.map(line => {
      val fields = line.split(",")
      val id = fields(0).toInt
      val name = fields(1)
      val gender = fields(2)
      val age = fields(3).toInt
      Student(id, name, gender, age)
   }
)

在这里插入图片描述

4、对学生数据集进行操作

(1)显示数据集内容
  • 执行命令:studentDS.show
    在这里插入图片描述
(2)打印数据集模式
  • 执行命令:studentDS.printSchema
    在这里插入图片描述
(3)对数据集进行投影操作
  • 显示学生的姓名和年龄字段,执行命令:studentDS.select("name", "age").show
    在这里插入图片描述
  • 对应的SQL语句:select name, age from student
(4)对数据集进行过滤操作
  • 显示女生记录,执行命令:studentDS.filter("gender == '女'").show
    在这里插入图片描述
  • 显示年龄在[19, 20]之间的记录
  • 执行命令:val ds1 = studentDS.filter("age >= 19")
    在这里插入图片描述
    在这里插入图片描述
  • 两个数据集求交集
    在这里插入图片描述
  • 可以有更简单的处理方式,执行命令:studentDS.filter("age >= 19 and age <= 20").show
    在这里插入图片描述
(5)对数据集进行统计操作
  • 求20岁以上的女生人数
    在这里插入图片描述
  • 分组统计男女生总年龄,执行命令:studentDS.groupBy("gender").sum("age").show
    在这里插入图片描述
  • 分组统计男女生平均年龄:执行命令:studentDS.groupBy("gender").sum("age").show
    在这里插入图片描述
  • 分组统计男女生最大年龄,执行命令:studentDS.groupBy("gender").max("age").show
    在这里插入图片描述
  • 分组统计男女生最小年龄,执行命令:studentDS.groupBy("gender").min("age").show
    在这里插入图片描述
(6)对数据集进行排序操作
  • 按年龄升序排列,执行命令:studentDS.sort("age").show()
    在这里插入图片描述
  • 按年龄降序排列,执行命令:studentDS.sort(studentDS("age").desc).show
    在这里插入图片描述
  • 先按性别升序排列,再按年龄降序排列,执行命令:studentDS.sort(studentDS("gender"), studentDS("age").desc).show()
    在这里插入图片描述
  • 对应的SQL语句:select * from student order by gender, age desc;
(7)重命名数据集字段
  • 执行命令:studentDS.select(studentDS("id").as("学号"), studentDS("name").as("姓名"), studentDS("gender").as("性别"), studentDS("age").as("年龄")).show
    在这里插入图片描述

四、将数据集转为数据帧

1、将数据集转为数据帧

  • 将学生数据集转为学生数据帧,执行命令:val studentDF = studentDS.toDF()
    在这里插入图片描述

2、对学生数据帧进行操作

(1)显示数据帧内容
  • 显示学生数据帧内容,执行命令:studentDF.show
    在这里插入图片描述
(2)显示数据帧模式信息
  • 打印学生数据帧模式信息,执行命令:studentDF.printSchema
    在这里插入图片描述
(3)对数据帧进行投影操作
  • 显示学生数据帧姓名与年龄字段,年龄加1,执行命令:studentDF.select(studentDF("name"), studentDF("age") + 1).show
    在这里插入图片描述
(4)对数据帧进行过滤操作
  • 查询年龄在19岁以上的记录,执行命令:studentDF.filter(studentDF("age") > 19).show
    在这里插入图片描述
  • 查询20岁以上的女生记录,执行命令:studentDF.filter("age > 20 and gender == '女'").show()
    在这里插入图片描述
(5)对数据帧进行统计操作
  • 统计学生数据帧总记录数,执行命令:studentDF.count
    在这里插入图片描述
  • 分组统计男女生总年龄,执行命令:studentDF.groupBy("gender").sum("age").show
    在这里插入图片描述
  • 分组统计男女生平均年龄,执行命令:studentDF.groupBy("gender").avg("age").show
    在这里插入图片描述
  • 分组统计男女生最大年龄,执行命令:studentDF.groupBy("gender").max("age").show
    在这里插入图片描述
  • 分组统计男女生最小年龄,执行命令:studentDF.groupBy("gender").min("age").show
    在这里插入图片描述
  • 分组统计男女生人数,执行命令:studentDF.groupBy("gender").count.show
    在这里插入图片描述
(6)对数据帧进行排序操作
  • 对年龄升序排列,执行命令:studentDF.sort("age").show
    在这里插入图片描述
  • 对年龄降序排列,执行命令:studentDF.sort(studentDF("age").desc).show
    在这里插入图片描述
  • 先按性别升序,再按年龄降序,- 执行命令:studentDF.sort(studentDF("gender"), studentDF("age").desc).show
    在这里插入图片描述
(7)重命名数据帧字段
  • 执行命令:studentDF.select(studentDF("id").as("学号"), studentDF("name").as("姓名"), studentDF("gender").as("性别"), studentDF("age").as("年龄")).show
    在这里插入图片描述

五、基于数据帧进行SQL查询

1、基于数据帧创建临时视图

  • 执行命令:studentDF.createOrReplaceTempView("student")
    在这里插入图片描述

2、使用spark对象执行SQL查询

(1)查询全部表记录
  • 执行命令:spark.sql("select * from student").show
    在这里插入图片描述
(2)显示数据表结构
  • 执行命令:spark.sql("describe student").show
    在这里插入图片描述
(3)对表进行投影操作
  • 执行命令:spark.sql("select name, age + 1 from student").show
    在这里插入图片描述
(4)对表进行选择操作
  • 查询年龄在19岁以上的记录,执行命令:spark.sql("select * from student where age > 19").show
    在这里插入图片描述
  • 查询20岁以上的女生记录,执行命令:spark.sql("select * from student where age > 20 and gender = '女'").show()
    在这里插入图片描述
(5)对表进行统计操作
  • 查询学生表总记录数,执行命令:spark.sql("select count(*) count from student").show
    在这里插入图片描述
  • 分组统计男女生总年龄,执行命令:spark.sql("select gender, sum(age) from student group by gender").show
    在这里插入图片描述
  • 分组统计男女生平均年龄,执行命令:spark.sql("select gender, avg(age) from student group by gender").show
    在这里插入图片描述
  • 分组统计男女生最大年龄,执行命令:spark.sql("select gender, max(age) from student group by gender").show

在这里插入图片描述

  • 分组统计男女生最小年龄,执行命令:spark.sql("select gender, min(age) from student group by gender").show
    在这里插入图片描述
  • 分组统计男女生人数,执行命令:spark.sql("select gender, count(*) count from student group by gender").show
    在这里插入图片描述
(6)对表进行排序操作
  • 按年龄升序排列,执行命令:spark.sql("select * from student order by age").show
    在这里插入图片描述
  • 按年龄降序排列,执行命令:spark.sql("select * from student order by age desc").show
    在这里插入图片描述
  • 先按性别升序,再按年龄降序,执行命令:spark.sql("select * from student order by gender asc, age desc").show
    在这里插入图片描述
(7)重命名数据表字段
  • 执行命令:spark.sql("select id stu_id, name stu_name, gender stu_gender, age stu_age from student").show()
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/26259.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Zabbix5通过脚本自定义Nginx监控

1、客户端配置 1.1、nginx开启nginx status 使用 zabbix 监控 nginx&#xff0c;首先 nginx 需要配置 ngx_status&#xff0c;nginx.conf加入以下配置&#xff0c;并重启Nginx或reload location /ngx_status { stub_status on; access_log off; #allow 127.0.0.1; #deny all…

【操作系统】03.内存管理

存储器的层级结构 程序的运行 现代操作系统使用的连接方式&#xff1a;运行时动态链接 对某些模块的链接推迟到程序执行时才进行 现代操作系统使用的装入方式&#xff1a;动态重定位 程序装入内存后&#xff0c;逻辑地址不会立即转换成物理地址&#xff0c;而是推迟到指令执行…

Linux 终端安装并使用tmux管理远程会话 tmux使用教程

文章目录 1 Tmux简介1.1 会话与窗口1.2 tmux功能 2 tmux安装2.1 源码安装2.2 命令行安装 3 基本用法&#xff08;命令行&#xff09;3.1 创建窗口3.2 分离会话 切换会话3.3 连接会话3.4 关闭会话并杀死进行对会话进行重命名 4 Tmux 的快捷键5 窗口操作与窗格操作参考 1 Tmux简介…

【事务】@Transactional 注解参数详解

文章目录 前言一、参数详解1.1、isolation&#xff08;事务隔离级别&#xff09;1.2、propagation&#xff08;事务传播机制&#xff09;1.3、readOnly&#xff08;事务读写性&#xff09;1.4、noRollbackFor 和 noRollbackForClassName&#xff08;遇到时不回滚&#xff09;1.…

智能出行 驱动未来|2023 开放原子全球开源峰会 CARSMOS 开源智能出行生态年会即将启幕

由开放原子开源基金会主办&#xff0c;元遨 / CARSMOS 开源智能出行项目组协办&#xff0c;深信科创、Futurewei Technologies、Open Motors、北极雄芯等单位共同承办的 2023 开放原子全球开源峰会 “CARSMOS 开源智能出行生态年会” 将于 6 月 12 日在北京经开区北人亦创国际会…

华为OD机试真题 Java 实现【分糖果】【2022Q2 200分】,附详细解题思路

一、题目描述 小明从糖果盒中随意抓一把糖果&#xff0c;每次小明会取出一半的糖果分给同学们。 当糖果不能平均分配时&#xff0c;小明可以选择从糖果盒中&#xff08;假设盒中糖果足够&#xff09;取出一个糖果或放回一个糖果。 小明最少需要多少次&#xff08;取出、放回…

基于深度学习的高精度家禽猪检测识别系统(PyTorch+Pyside6+YOLOv5模型)

摘要&#xff1a;基于深度学习的高精度家禽猪检测识别系统可用于日常生活中或野外来检测与定位家禽猪目标&#xff0c;利用深度学习算法可实现图片、视频、摄像头等方式的家禽猪目标检测识别&#xff0c;另外支持结果可视化与图片或视频检测结果的导出。本系统采用YOLOv5目标检…

维护嵌入式 Linux 内核——So Easy

导读Pengutronix 内核黑客 Jan Lbbe 总结了嵌入式 Linux 中正在不断增长的安全威胁&#xff0c;并在这次欧洲嵌入式 Linux 会议上概述了一个计划&#xff0c;以保持长期设备的安全和功能完整。 安全漏洞只发生在 Windows 上的好日子正在快速过去。恶意软件黑客和拒绝服务老手们…

【JavaSE】Java基础语法(三十八):并发工具类

文章目录 1. Hashtable2. ConcurrentHashMap基本使用3. ConcurrentHashMap1.7原理4. ConcurrentHashMap1.8原理5. CountDownLatch6. Semaphore 1. Hashtable Hashtable出现的原因 : 在集合类中HashMap是比较常用的集合对象&#xff0c;但是HashMap是线程不安全的(多线程环境下…

CentOS7使用Docker快速安装Davinci

环境信息 操作系统&#xff1a;CentOS7Docker : 23.0.6 &#xff08;已配置阿里云镜像加速&#xff09; 安装步骤 安装docker-compose-plugin 官方的例子使用的是docker-compose&#xff0c;但是由于yum能够安装的最新斑斑是1.x,而且官方的docker-compose要求最低版本为2.2以…

如何在电脑上图片裁剪?裁剪图片大小的方法介绍

图片裁剪大小的优点 在数字化时代&#xff0c;图片已成为人们日常生活中使用最频繁的媒介之一。然而&#xff0c;由于不同尺寸和比例的图片在不同的平台上展示效果有所不同&#xff0c;因此需要对其进行裁剪。 图片裁剪大小的主要优点包括&#xff1a; 1. 优化页面显示&…

地震勘探基础(十)之地震速度关系

地震速度 地震勘探中引入了多种速度的概念&#xff0c;如下图所示。 层速度、平均速度和均方根速度之间的关系 层速度指的是某一套地层垂向上&#xff0c;由于地质条件相对稳定&#xff0c;地层顶底厚度比上地震波的传播时间为层速度&#xff0c;用 v n v_n vn​ 表示。 如下…

Eclipse教程 Ⅸ

今天继续来学习Eclipse 快速修复、Eclipse 浏览菜单、Eclipse 查找以及Eclipse 悬浮提示的内容&#xff01;老规矩&#xff0c;废话不多说&#xff0c;开始吧。 Eclipse 快速修复 使用快速修复 在 Eclipse 编辑器中当你输入字母时&#xff0c;编辑器会对你输入的内容进行错误…

Fiddler抓包工具配置+Jmeter基本使用

一、Fiddler抓包工具的配置和使用 在编写网关自动化脚本之前&#xff0c;得先学会如何抓包&#xff0c;这里以Fiddler为例。会抓包的同学可以跳过这一步&#xff0c;当然看看也是没坏处的…… 局域网络配置 将要进行抓包的手机与电脑连入同一局域网&#xff0c;电脑才能够…

CPU、内存、缓存的关系

术语解释 &#xff08;1&#xff09;CPU&#xff08;Central Processing Unit&#xff09; 中央处理器 &#xff08;2&#xff09;内存 内存用于暂时存放CPU中的运算数据&#xff0c;以及与硬盘等外部存储器交换的数据。它是外存与CPU进行沟通的桥梁&#xff0c;内存的运行决定…

生成式模型的质量评估标准

Sample Quality Matrix 如何评价生成式模型的效果&#xff1f;ISFIDsFIDPrecision & RecallPrecisonRecall计算precision和recall 如何评价生成式模型的效果&#xff1f; Quality: 真实性&#xff08;逼真&#xff0c;狗咬有四条腿&#xff09; Diversity: 多样性&#x…

Hive

Hive 概览 Hive是基于Hadoop的一个数据仓库工具&#xff0c;可以将结构化的数据文件映射为一张数据库表&#xff0c;并提供类SQL查询功能。 本质是将SQL转换为MapReduce程序。 主要用途&#xff1a;用来做离线数据分析&#xff0c;比直接用MapReduce开发效率更高。 架构 数…

机器视觉怎么对陶瓷板外观尺寸进行自动检测?

随着陶瓷行业的发展&#xff0c;陶瓷板的生产和质量控制面临越来越高的要求。而机器视觉技术作为一种高精度、高效率、无损、可靠性高的自动化检测手段&#xff0c;已经成为陶瓷板外观尺寸自动化检测的首选方案。本文就如何利用机器视觉对陶瓷板外观尺寸进行自动检测进行分析和…

常用模拟低通滤波器的设计——巴特沃斯滤波器

常用模拟低通滤波器的设计——巴特沃斯(Butterworth)滤波器 滤波器是一种具有频率选择作用的电路或运算处理系统&#xff0c;它具有区分区分输入信号的各种不同频率成分的功能&#xff0c;具有滤除噪声和分离各种不同信号的功能。综合一个滤波器的基本步骤分为逼近和实现。逼近…

设计模式之~享元模式

定义&#xff1a; 享元模式英文称为“Flyweight Pattern”&#xff0c;又译为羽量级模式或者蝇量级模式。 享元模式&#xff08;Flyweight Pattern&#xff09;主要用于减少创建对象的数量&#xff0c;以减少内存占用和提高性能。这种类型的设计模式属于结构型模式&#xff0c…