Python学习从0到1 day26 第三阶段 Spark ⑤ 搜索引擎日志分析

目录

一、搜索引擎日志分析

二、需求1:热门搜索时间段(小时精度)Top3

实现步骤

三、需求2:打印输出:热门搜索词Top3

实现步骤

四、需求3:打印输出:统计hadoop关键字在哪个时段被搜索最多

实现步骤

五、需求4:将数据转换为JSON格式,写出到文件中

实现步骤

注:


我带着这份勇敢继续向前,忽然明白,我应该是自己的那座山

                                                                                        —— 24.11.10

一、搜索引擎日志分析

原数据文件:(打开百度网盘复制链接)

通过百度网盘分享的文件:search_log.txt
链接:

https://pan.baidu.com/s/1liw33MOGTUn6qdgYFk2SOQ?pwd=1234 

提取码:1234

读取文件转换成RDD,并完成:

        ① 打印输出:热门搜索时间段(小时精度)Top3

        ② 打印输出:热门搜索词Top3

        ③ 打印输出:统计hadoop关键字在哪个时段被搜索最多

        ④ 将数据转换为JSON格式,写出为文件


二、需求1:热门搜索时间段(小时精度)Top3

实现步骤

① 取出全部的时间并转换为小时

② 转换为(小时,1)的二元元组

③ Key分组聚合Value

④ 排序(降序)

⑤ 取前3

from pyspark import SparkConf, SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"
os.environ['HADOOP_HOME'] = "E:\python.learning\hadoop分布式相关\hadoop-3.0.0"
conf = SparkConf().setMaster("local").setAppName("test_spark")
conf.set("spark.default.parallelize", "1")
sc = SparkContext(conf = conf)

#  读取文件转换成rdd对象
file_rdd = sc.textFile("E:\python.learning\第15章资料\资料\search_log.txt")

# TODO 需求1:热门搜索时间段(小时精度)Top3
# ①取出全部的时间并转换为小时
# ② 转换为(小时,1)的二元元组
# ③ Key分组聚合Value
# ④ 排序(降序)
# ⑤ 取前3
res1 = file_rdd.map(lambda x:x.split("\t")).\
    map(lambda x:x[0][:2]).\
    map(lambda x:(x, 1)).\
    reduceByKey(lambda a,b : a + b).\
    sortBy(lambda x:x[1], ascending = False, numPartitions = 1).\
    take(3)
print(res1)


三、需求2:打印输出:热门搜索词Top3

实现步骤

① 取出全部的搜索词

② (词,1) 二元元组

③ 分组聚合

④ 排序

⑤ 取出Top3

from pyspark import SparkConf, SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"
os.environ['HADOOP_HOME'] = "E:\python.learning\hadoop分布式相关\hadoop-3.0.0"
conf = SparkConf().setMaster("local").setAppName("test_spark")
conf.set("spark.default.parallelize", "1")
sc = SparkContext(conf = conf)

#  读取文件转换成rdd对象
file_rdd = sc.textFile("E:\python.learning\第15章资料\资料\search_log.txt")

# TODO 需求2:打印输出:热门搜索词Top3
# ① 取出全部的搜索词
# ② (词,1) 二元元组
# ③ 分组聚合
# ④ 排序
# ⑤ 取出Top3
file_rdd.map(lambda x : (x.split("\t")[2],1)).\
    reduceBy(lambda a, b : a + b ).\
    sortBy(lambda x : x[1], ascending = False, numPartitions = 1).\
    take(3)


四、需求3:打印输出:统计hadoop关键字在哪个时段被搜索最多

实现步骤

① 过滤内容,只保留hadoop关键词

② 转换为(小时,1)的二元元组

③ Key分组聚合Value

④ 排序(降序)

⑤ 取前1(最多的一个)

from pyspark import SparkConf, SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"
os.environ['HADOOP_HOME'] = "E:\python.learning\hadoop分布式相关\hadoop-3.0.0"
conf = SparkConf().setMaster("local").setAppName("test_spark")
conf.set("spark.default.parallelize", "1")
sc = SparkContext(conf = conf)

#  读取文件转换成rdd对象
file_rdd = sc.textFile("E:\python.learning\第15章资料\资料\search_log.txt")


# TODO 需求3:打印输出:统计hadoop关键字在哪个时段被搜索最多
# ① 过滤内容,只保留hadoop关键词
# ② 转换为(小时,1)的二元元组
# ③ Key分组聚合Value
# ④ 排序(降序)
# ⑤ 取前1(最多的一个)
res3 = file_rdd.map(lambda x : x.split("\t")).\
    filter(lambda x : x[2] == "hadoop").\
    map(lambda x : (x[0][:2] , 1)).\
    reduceByKey(lambda a, b : a + b).\
    sortBy(lambda x : x[1], ascending = False, numPartitions = 1).\
    take(1)
print("res3 : ",res3)


五、需求4:将数据转换为JSON格式,写出到文件中

实现步骤

① 转换为JSON格式的RDD

② 写出为文件

注:

① 每一次链接调用时,都可以在上一层的末尾加上" \ "进行换行,再用” . “进行调用

② 将数据转换为JSON格式最好的方式是先转换为字典,再由字典转换为JSON格式

from pyspark import SparkConf, SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"
os.environ['HADOOP_HOME'] = "E:\python.learning\hadoop分布式相关\hadoop-3.0.0"
conf = SparkConf().setMaster("local").setAppName("test_spark")
conf.set("spark.default.parallelize", "1")
sc = SparkContext(conf = conf)

#  读取文件转换成rdd对象
file_rdd = sc.textFile("E:\python.learning\第15章资料\资料\search_log.txt")

# TODO 需求4:将数据转换为JSON格式,写出到文件中
# ① 转换为JSON格式的RDD
# ② 写出为文件
res4 = file_rdd.map(lambda x : x.split("\t")).\
    map(lambda x : {"time" : x[0], "user_id" : x[1], "key_word" : x[2], "rank1" : x[3], "rank2" : x[4], "url" : x[5]}).\
    saveAsTextFile("E:\python.learning\hadoop分布式相关\data\output4")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/913356.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Pr:视频过渡快速参考(合集 · 2025版)

Adobe Premiere Pro 自带七组约四十多个视频过渡 Video Transitions效果,包含不同风格和用途,可在两个剪辑之间创造平滑、自然的转场,用来丰富时间、地点或情绪的变化。恰当地应用过渡可让观众更好地理解故事或人物。 提示: 点击下…

Transformer-GRU、Transformer、CNN-GRU、GRU、CNN五模型多变量回归预测

Transformer-GRU、Transformer、CNN-GRU、GRU、CNN五模型多变量回归预测 目录 Transformer-GRU、Transformer、CNN-GRU、GRU、CNN五模型多变量回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 Transformer-GRU、Transformer、CNN-GRU、GRU、CNN五模型多变量回归预…

多模态大模型技术方向和应用场景

多模态大模型(Multimodal Large Language Models,MLLM)是一种结合了大型语言模型(LLM)和大型视觉模型(LVM)的深度学习模型,它们能够处理和理解多种类型的数据,如文本、图…

用 Python 从零开始创建神经网络(四):激活函数(Activation Functions)

激活函数(Activation Functions) 引言1. 激活函数的种类a. 阶跃激活功能b. 线性激活函数c. Sigmoid激活函数d. ReLU 激活函数e. more 2. 为什么使用激活函数3. 隐藏层的线性激活4. 一对神经元的 ReLU 激活5. 在隐蔽层中激活 ReLU6. ReLU 激活函数代码7. …

从0到1基于LangChain制作一个AI猫娘

前言: 看到B站上的AIVtuber的项目落地了,就心血来潮想制作一个AI的猫娘供自己使用,顺便出一个简单的教程,跳过理论,直接实践,作者也还在学习摸索中,所以有错误可以直接在评论区指正。&#xff0…

【R78/G15 开发板测评】串口打印 DHT11 温湿度传感器、DS18B20 温度传感器数据,LabVIEW 上位机绘制演化曲线

【R78/G15 开发板测评】串口打印 DHT11 温湿度传感器、DS18B20 温度传感器数据,LabVIEW 上位机绘制演化曲线 主要介绍了 R78/G15 开发板基于 Arduino IDE 环境串口打印温湿度传感器 DHT11 和温度传感器 DS18B20 传感器的数据,并通过LabVIEW上位机绘制演…

【CAE SDK】CEETRON 28年应用案例——以船舶、结构仿真、材料成型领域为例

随着计算机辅助工程(CAE)技术的不断发展,虚拟仿真工具在工程设计、分析和优化中发挥着越来越重要的作用。CAE系统涵盖了前处理、求解、后处理等多个环节,极大地提升了工程仿真的准确性和效率。 CEETRON SDK作为虚拟仿真领域的一款…

ThingsBoard规则链节点:RPC Call Reply节点详解

引言 1. RPC Call Reply 节点简介 2. 节点配置 2.1 基本配置示例 3. 使用场景 3.1 设备控制 3.2 状态查询 3.3 命令执行 4. 实际项目中的应用 4.1 项目背景 4.2 项目需求 4.3 实现步骤 5. 总结 引言 ThingsBoard 是一个开源的物联网平台,提供了设备管理…

基于深度学习的路面裂缝检测算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 (完整程序运行后无水印) 2.算法运行软件版本 matlab2022a 3.部分核心程序 (完整版代码包含详细中文注释和操作步骤视频&#xff09…

“心玲守护”乡村孩子的一片天公益活动在10所学校开展

2023年9月—2024年10月期间,由林志玲女士发起、中国乡村发展基金会支持,并联合重庆市渝中区红樱桃义工协会执行的“心玲守护”乡村孩子的一片天——儿童青少年心理健康援助项目活动,已在重庆市万州区、璧山区、巫山县和湖南省益阳市区域内的1…

计算机网络——1.1计算机网络概述

计算机网络——计算机网络概念 前言 计算机网络是计算机学习中必不可少的一环,甚至可以说,是离我们普通人日常生活最近的计算机知识。为什么呢?因为我们上网上网,都离不开计算机网络,打游戏,刷剧&#xff…

使用HtmlAgilityPack+PuppeteerSharp+iText7抓取IdentityServer4帮助文档

需要学习IdentityServer4的用法,但是在IdentityServer4帮助文档网站(参考文献1)中没有找到下载离线文档的地方,准备使用HtmlAgilityPackPuppeteerSharpiText7将网站内容抓取生成离线PDF文档,便于本机学习、查看。   …

热烈庆祝,2024年11月9日(星期六)骑行马刺沟顺利结束

晨光微露:蓄势待发清晨的第一缕阳光穿透薄雾,照亮了集合现场。我们校长群的骑行爱好者们早早地聚集在约定地点,检查装备、调整车辆,彼此间寒暄着,兴奋之情溢于言表。随着一声令下,队伍正式出发,…

python数据分析|二 IPython和JupyterNotebooks

一 python 解释器 Python解释器同一时间只能运行一个程序的一条语句。 如何适用: win r cmd 要退出Python解释器返回终端,可以输入 exit() 或 Ctrl-D。 假设创建了一个 hello_world.py 文件,它的内容是: 可以用下面的命令运…

【持续更新】【NLP项目】【自然语言处理】智能聊天机器人——“有问必答”【Chatbot】第2章、《模式一:问候模式》

智能聊天机器人——“有问必答” 【注】该项目已开源,开源地址为:链接,代码更新可能不及时。 第2章、《模式一:问候模式》 主窗体的布局如下图所示: 共九种功能模式,最下方为关闭窗口按钮。 点击问候模…

@RestController 源码解读:解决 Web 开发中 REST 服务的疑难杂症

目录 一、RestContrller注解 1.1 查看底层源码 1.2 AliasFor注解说明 1.2.1 注解别名 1.2.2 元数据别名 1.3 value() 方法的作用 一、RestContrller注解 1.1 查看底层源码 首先编写如下内容: RestController public class TestController {} 按住 Ctrl &am…

【Android】轮播图——Banner

引言 Banner轮播图是一种在网页和移动应用界面设计中常见的元素,主要用于在一个固定的区域内自动或手动切换一系列图片,以展示不同的内容或信息。这个控件在软件当中经常看到,商品促销、热门歌单、头像新闻等等。它不同于ViewPgaer在于无需手…

游戏引擎学习第一天

视频参考: https://www.bilibili.com/video/BV1zGDCYHErA/ 创建一个保存项目的路径 VS的安装略过,个人自行百度 1. vs 创建第一个CMAKE的窗口项目 game.cpp 修改如下的代码 到https://learn.microsoft.com/en-us/windows/win32/api/winbase/nf-winbase-winmain 去…

ArcGIS软件之“计算面积几何”地图制作

目录 一、消防站的泰森多边形ex12二、人口调查的泰森多边形三、人口调查的泰森多边形属性设置四、计算面积几何,用于求密度五、求密度六、给“现有中学”属性 R1赋值七、“现有中学”设置多环缓存区 并为它赋值八、“土地使用”为不同的功能区赋值九、三个图层相交十…

Rust @绑定(Rust@绑定)(在模式匹配的同时将值绑定到变量)

文章目录 Rust中的绑定基础概念示例:基本模式匹配 绑定的使用示例:范围匹配并绑定变量 深入探索绑定的好处示例:复杂数据结构中的应用 总结 附加 Rust中的绑定 Rust 语言以其强类型系统和内存安全的特性著称。在进行模式匹配时,R…