spark实战:实现分区内求最大值,分区间求和以及获取日志文件固定日期的请求路径

spark实战:实现分区内求最大值,分区间求和以及获取日志文件固定日期的请求路径

Apache Spark是一个广泛使用的开源大数据处理框架,以其快速、易用和灵活的特点而受到开发者的青睐。在本文中,我们将通过两个具体的编程任务来展示Spark的强大功能:首先是对一个简单的数据列表进行分区操作,并在每个分区内求最大值以及跨分区间求和;其次是从Apache日志文件中提取特定日期的请求路径。这两个任务将帮助你理解Spark在数据处理和日志分析方面的应用。

问题一:数据处理 - 分区内求最大值,分区间求和

给定一个包含键值对的列表 List((“a”, 1),(“a”, 2), (“b”, 3), (“b”, 4),(“b”, 5),(“a”, 6)),任务是将这个列表分成两个分区,并在每个分区内找到最大值,同时计算所有分区间的总和。
解决方案
1、创建SparkSession:初始化Spark环境。
2、数据转换:将列表转换为RDD或DataFrame。
3、分区操作:将数据分成两个分区。
4、求最大值:在每个分区内使用reduce或aggregate操作求得最大值。
5、求总和:使用collect操作收集所有数据,然后求和。

示例代码

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

object MaxAndSumExample {
  def main(args: Array[String]): Unit = {
    // 创建Spark会话
    val spark = SparkSession.builder()
      .appName("MaxAndSumExample")
      .master("local[*]") // 使用本地模式,根据需要可以改为集群模式
      .getOrCreate()

    import spark.implicits._

    // 给定的列表
    val data = List(("a", 1), ("a", 2), ("b", 3), ("b", 4), ("b", 5), ("a", 6))

    // 将列表转换为DataFrame
    val df = data.toDF("key", "value")

    // 设置分区数为2
    val partitionedDF = df.repartition(2)

    // 分区内求最大值
    val maxPerPartition = partitionedDF.groupBy("key").agg(max($"value").alias("maxValue"))

    // 分区间求和
    val sumAcrossPartitions = df.groupBy("key").sum("value")

    // 显示结果
    maxPerPartition.show()
    sumAcrossPartitions.show()

    // 停止Spark会话
    spark.stop()
  }
}

在这里插入图片描述
在这里插入图片描述

问题二:日志分析 - 提取特定日期的请求路径

任务描述
从Apache日志文件中提取2015年5月17日的所有请求路径。

解决方案
1、日志文件读取:使用Spark读取日志文件。
2、日志解析:编写函数解析每行日志,提取日期和请求路径。
3、日期过滤:根据日期过滤日志行。
4、提取请求路径:从过滤后的日志中提取请求路径。
示例代码

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

object MaxAndSumExample {
  def main(args: Array[String]): Unit = {
    // 创建Spark会话
    val spark = SparkSession.builder()
      .appName("MaxAndSumExample")
      .master("local[*]") // 使用本地模式,根据需要可以改为集群模式
      .getOrCreate()

    import spark.implicits._

    // 给定的列表
    val data = List(("a", 1), ("a", 2), ("b", 3), ("b", 4), ("b", 5), ("a", 6))

    // 将列表转换为DataFrame
    val df = data.toDF("key", "value")

    // 设置分区数为2
    val partitionedDF = df.repartition(2)

    // 分区内求最大值
    val maxPerPartition = partitionedDF.groupBy("key").agg(max($"value").alias("maxValue"))

    // 分区间求和
    val sumAcrossPartitions = df.groupBy("key").sum("value")

    // 显示结果
    maxPerPartition.show()
    sumAcrossPartitions.show()

    // 停止Spark会话
    spark.stop()
  }
}

在这里插入图片描述

结论

通过这两个示例,我们可以看到Apache Spark在处理数据列表和分析日志文件方面的强大能力。第一个示例展示了如何在Spark中进行基本的数据转换、分区操作和聚合操作。第二个示例则展示了如何读取和解析日志文件,以及如何根据特定条件过滤数据。这些技能在处理大数据时非常有用,可以帮助我们快速获得所需的信息。
如有遇到问题可以找小编沟通交流哦。另外小编帮忙辅导大课作业,学生毕设等。不限于MapReduce, MySQL, python,java,大数据,模型训练等。 hadoop hdfs yarn spark Django flask flink kafka flume datax sqoop seatunnel echart可视化 机器学习等
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/645067.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在CentOS7上安装Oracle11

一、概述 Oracle有两种安装方式,桌面安装和静默安装。这里我采用桌面安装的方式。 不得不说,Oracle真的是我目前为止安装过的最麻烦的软件没有之一,比K8S还麻烦,Oracle,真有你的!废话不多说,臭…

重学java 45.多线程 下 总结 定时器_Timer

人开始反向思考 —— 24.5.26 定时器_Timer 1.概述:定时器 2.构造: Timer() 3.方法: void schedule(TimerTask task, Date firstTime, long period) task:抽象类,是Runnable的实现类 firstTime:从什么时间开始执行 period:每隔多长时间执行一次…

Java | Leetcode Java题解之第100题相同的树

题目&#xff1a; 题解&#xff1a; class Solution {public boolean isSameTree(TreeNode p, TreeNode q) {if (p null && q null) {return true;} else if (p null || q null) {return false;}Queue<TreeNode> queue1 new LinkedList<TreeNode>();…

MySQL——优化

全文搜索最慢 EXPLAIN select * from city; 范围搜索 EXPLAIN select * from city where ID>5 and ID<20; 主键查询 EXPLAIN select * from citywhere ID5; 索引查询 EXPLAIN select * from citywhere CountryCodeNLD; 普通查询 EXPLAIN select * from city where Nam…

C# WPF入门学习(四)—— 按钮控件

上期介绍了WPF的实现架构和原理&#xff0c;之后我们开始来使用WPF来学习各种控件。 一、尝试插入一个按钮&#xff08;方法一&#xff09; 1. VS2019 在界面中&#xff0c;点击工具栏中的视图&#xff0c;在下拉菜单中选择工具箱。 至于编译器中的视图怎么舒服怎么来布置&am…

揭秘Kafka从入门到精通,架构最全详解

Kafka架构最全详解 Kafka&#xff0c;作为关键消息中间件&#xff0c;广泛应用于大型架构与顶尖企业。本篇深入解析Kafka架构&#xff0c;掌握其核心技术要点。 Kafka Apache Kafka 是一个分布式发布-订阅消息系统&#xff0c;由LinkedIn开创的分布式发布-订阅消息系统&#x…

数据仓库与数据挖掘实验练习6-7(实验四2024.5.22)

tips&#xff1a; 列出虚拟环境&#xff1a;conda env list 激活虚拟环境&#xff1a;activate hi 进入jupyter-lab&#xff1a;jupyter lab 练习6 1. 处理字符串空格 发现问题: 使用 values 属性查看数据时&#xff0c;如果发现 Name 列没有对齐&#xff0c;很可能是 Name 左…

008-Linux后台进程管理(作业控制:、jobs、fg、bg、ctrl + z、nohup)

文章目录 前言 1、& 2、ctrl z 3、jobs 4、fg&#xff1a;将后台进程调到前台执行 5、bg&#xff1a;将一个暂停的后台进程变为执行 6、&和nohup 总结 前言 有时候我们需要将一个进程放到后台去运行&#xff0c;或者将后台程序切换回前台&#xff0c;这时候就…

刷代码随想录有感(79):回溯算法——N皇后问题

题干: 代码&#xff1a; class Solution { public:vector<vector<string>> res;void backtracking(vector<string>& chessboard, int n, int row){if(row n){res.push_back(chessboard);return;}for(int col 0; col < n; col){if(isvalid(chessboa…

【吊打面试官系列】Java高并发篇 - ThreadLocal 是什么?有什么用?

大家好&#xff0c;我是锋哥。今天分享关于 【ThreadLocal 是什么&#xff1f;有什么用&#xff1f;】面试题&#xff0c;希望对大家有帮助&#xff1b; ThreadLocal 是什么&#xff1f;有什么用&#xff1f; ThreadLocal 是一个本地线程副本变量工具类。主要用于将私有线程和该…

六招搞定,SPA单页面加载速度慢的问题。

众所周知&#xff0c;SPA页面有很多优点&#xff0c;但是首屏加载慢的问题一直被诟病&#xff0c;本文介绍几种解决策略&#xff0c;希望对老铁们有所帮助。 一、SPA页面的独有优势 1. 更快的用户体验&#xff1a; SPA在加载初始页面后&#xff0c;可以在用户与应用程序交互…

看这两位东北圣女美吗?如何描写美女的大长腿?

看这两位东北圣女美吗&#xff1f;如何描写美女的大长腿&#xff1f; 最近署名为懂球娘娘的一篇描写东北圣女的文章火了&#xff0c;文中描述了海棠朵朵与辛芷蕾这两位娇媚动人的角色。其美艳动人的形象和魅力四溢的描写让人为之倾倒。 这种通过文字展现人物魅力的能力让人佩服…

4个宝藏网站,免费即用,办公运营效率利器!

哈喽&#xff0c;各位小伙伴们好&#xff0c;我是给大家带来各类黑科技与前沿资讯的小武。 有很多朋友在日常办公时&#xff0c;需要发送邮件&#xff1b;在新媒体运营、设计及前端开发等工作场合中&#xff0c;都或多或少会遇上图片、视频等文件太大及格式问题需要压缩和转换…

白嫖的在线工具类宝藏网站清单,快点击进来收藏一波

简单整理了一下自己日常经常使用的10个免费工具网站&#xff0c;建议点赞关注收藏&#xff0c;快点分享给小伙伴们&#xff01; 1.奶牛快传:用户体验更好的网盘工具。 https://cowtransfer.com/ 今年开始使用的一款网盘工具&#xff0c;和百度网盘类似,叫奶牛快传&#xff0c;如…

VUE3视频播放器 videojs-player/vue

简介 官网&#xff1a; https://gitcode.com/surmon-china/videojs-player/overviewhttps://github.com/surmon-china/videojs-player?tabreadme-ov-file video-player是一个基于video.js的视频播放器组件&#xff0c;它提供了丰富的功能&#xff0c;包括视频播放、暂停、快…

前缀和算法:提升编程效率的秘密武器(Java版)

本篇会加入个人的所谓鱼式疯言 ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 小编会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. &#x1f92d;&#x1f92d;&#x1f92d;可能说的不是那么严谨.但小编初心是能让更多人能接…

千亿级开源大模型Qwen110B部署实测

近日&#xff0c;通义千问团队震撼开源 Qwen1.5 系列首个千亿参数模型 Qwen1.5-110B-Chat。 千亿级大模型普通显卡是跑不了推理的&#xff0c;普通人一般也没办法本地运行千亿级大模型。 为了探索千亿级大模型到底需要计算资源&#xff0c;我用云计算资源部署了Qwen1.5-110B-…

JAVAEE之线程(10)_线程池、线程池的创建、实现线程池

一 线程池 1.1为什么要有线程池&#xff1f; 线程池顾名思义是由多个线程所组成&#xff0c;作用就是减少线程的建立与销毁&#xff0c;与数据库连接池相同概念&#xff0c;为了减少连接与释放&#xff0c;从而降低消耗提升效率。 1.2 线程池的优势 总体来说&#xff0c;线程…

大模型中的Tokenizer

在使用GPT 、BERT模型输入词语常常会先进行tokenize 。 tokenize的目标是把输入的文本流&#xff0c;切分成一个个子串&#xff0c;每个子串相对有完整的语义&#xff0c;便于学习embedding表达和后续模型的使用。 一、粒度 三种粒度&#xff1a;word/subword/char word词&a…