Day6—热点搜索词统计

一、要求

根据用户上网的搜索记录对每天的热点搜索词进行统计,以了解用户所关心的热点话题。
要求完成:统计每天搜索数量前3名的搜索词(同一天中同一用户多次搜索同一个搜索词视为1次)。

二、数据

在这里插入图片描述

三、配置scala环境

1.下载scala插件

Scala插件的安装有两种方式:在线与离线。我们学习在线安装方式。
启动IDEA,在欢迎界面中选择Configure→Plugins命令,搜索scala进行下载

2.配置scala环境

下载后的scala进行环境配置
在Project Settings->Libraries中添加下载好的Scala
在这里插入图片描述

3.创建scala class

在这里插入图片描述

4.编写scala代码

  def main(args: Array[String]): Unit = { // 初始化 Spark 会话
    val spark = SparkSession.builder.appName("HotSearchWords").master("local[*]").getOrCreate
    // 读取文件 key.txt
    var df = spark.read.option("header", "false").option("delimiter", ",").csv("data/keywords.txt")
    df = df.withColumnRenamed("_c0", "date").withColumnRenamed("_c1", "user").withColumnRenamed("_c2", "search_word")
    // 去重:同一用户在同一天内对同一搜索词的多次搜索视为1次
    val dfDistinct = df.dropDuplicates("date", "user", "search_word")
    // 统计每个日期每个搜索词的搜索次数
    val searchCount = dfDistinct.groupBy("date", "search_word").agg(countDistinct("user").alias("search_count"))
    // 定义窗口函数,按日期分区并按搜索次数排序
    val window = Window.partitionBy("date").orderBy(col("search_count").desc)
    // 使用窗口函数添加排名
    val rankedSearchCount = searchCount.withColumn("rank", dense_rank.over(window))
    // 过滤出每个日期搜索次数排名前3的搜索词
    val top3SearchWords = rankedSearchCount.filter(col("rank").leq(3))
    // 对结果按日期降序排序
    val sortedTop3SearchWords = top3SearchWords.orderBy(col("date").desc)
    // 显示结果
    sortedTop3SearchWords.show()
    // 结束 Spark 会话
    spark.stop()
  }
}

5.结果展示

在这里插入图片描述

遇到的问题

  • 运行程序时显示找不到主类
    在这里插入图片描述

解决方法

  • 在Project Structure ->modules中将Language level 改成8 即可解决
    在这里插入图片描述

小结

  • 本次的项目作业是一项富有成效的学术探索,它不仅让我们首次接触并学习了Scala这一现代的多范式编程语言,而且还让我们在实践中深入理解了其面向对象与函数式编程的精妙结合。通过Scala,我们得以高效地编写出既简洁又功能强大的代码,这在统计热点词的项目中表现得尤为明显。我们学会了如何使用Scala的集合操作、模式匹配和高阶函数来处理和分析大量数据,进而识别和统计出那些频繁出现的热点词汇。

  • 此外,项目过程中的挑战和问题解决进一步加深了我们对Scala强类型系统和类型推断的理解,这些特性在保证代码安全的同时,也提高了开发效率。我们还体验到了Scala与大数据技术栈的无缝集成,尤其是在与Apache Spark等工具的结合使用中,感受到了Scala在处理大规模数据集时的强大能力。

  • 通过这次作业,我们不仅提升了自己的编程技能,还学习了如何使用新的工具和库,这对于我们未来在软件开发和数据分析领域的职业生涯是极其宝贵的。最终,当看到程序成功运行并输出预期结果时,那份成就感和对编程之美的领悟,让我们更加坚定了在技术道路上不断探索和前进的决心。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/726390.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

微信小程序端在线客服源码系统 聊天记录实时保存 带完整的安装代码包以及搭建教程

系统概述 在当今数字化时代,客户服务的质量和效率成为企业竞争的关键因素之一。微信小程序作为一种便捷的应用形式,为在线客服提供了广阔的平台。而具备聊天记录实时保存功能的微信小程序端在线客服源码系统,则能够更好地满足企业与客户之间…

你用AI作画工具生成过哪些惊艳、令人拍案叫绝的作品?

在水墨的基础上追加了一些水彩润色,大家多提提建议,喜欢的话我就定期追加各种全新融合的水墨风格。 应评论区要求,更新了一些横屏的供大家作壁纸用,同时更换了一组新合成的更适合这个风格的模型。 目前为止,Stable D…

idea插件开发之在项目右键添加菜单

写在前面 本文看下如何在右键列表中增加菜单。 正戏 首先创建一个Action,要显示的menu选择ProjectViewPopupMenu,如下: action public class CAction extends AnAction {Overridepublic void actionPerformed(AnActionEvent e) { // …

一分钟生成论文全文,这款AI论文神器你不会还不知道吧?

毕业季写论文就选范文喵AI论文助手。范文喵V2.0主要包括了论文范文、选题分析、开题报告、任务书的写作、以及论文答辩PPT、论文解读等功能。此外,我们也会在近期进一步优化范文喵论文助手,写作效果更好的V3.0版本预计将于今年7月份和大家见面&#xff0…

Python——Flask开发框架基础使用介绍

目录 Flask简介 安装 Flask 创建一个简单的 Flask 应用 运行你的Flask应用 添加模板和静态文件 使用静态文件 处理表单和数据 使用 Flask 扩展 结论 Flask简介 Flask 是一个轻量级的 Python Web 框架,它以其简洁和灵活的特点广受欢迎。Flask 让开发者能够快…

leaflet,canvas渲染目标,可加载大批量数据

基于Leaflet-CanvasMarker: 在Canvas上绘制Marker,而不是每个marker插件一个dom节点,极大地提高了渲染效率。主要代码参考自 https://github.com/eJuke/Leaflet.Canvas-Markers,不过此插件有些Bug,github国内不方便,作者也不维护了&#xff0…

小学生杂志小学生杂志社小学生编辑部2024年第5期目录

教学研究 小学数学教学中易错题的纠正策略研究 黄喜军; 1-3 主题语境下小学英语作业多模态设计与实施策略研究 韩蓓; 4-6 小学美术教育中色彩教学的实施措施研究 顾雅洁; 7-9《小学生》投稿:cn7kantougao163.com 核心素养视域下小学英语单元整体教学…

Linux:配置本地yum源仓库

目录 一、挂载光盘到目录下 二、配置本地yum源仓库 一、挂载光盘到目录下 mount /dev/cdrom /mnt/ #把光盘挂载到/mnt目录下 挂载 设备 目录或文件夹 注:最好是空的 原来的数据将被隐藏一个挂载点同一时只能挂载一个设备。 mount /dev…

数据中心网络自动化不断发展

评估数据中心自动化的状况 随着数据中心变得越来越复杂,网络自动化对大多数企业来说愈发重要。因此,寻找一种更灵活、更高效的运营方式应该成为每个公司的首要任务。然而,即使是那些可能从自动化中受益的实体企业——例如通信服务提供商&…

Spring(核心概念:IoC/DI思想)

目录 一、引言 (1)如今的代码书写现状 1、业务层 2、数据层 3、假如当项目上线发布之后,想把数据层的实现换一下 二、核心概念 (1)IoC( Inversion of Control ) 控制反转 (2)…

【开源】AigoTools —— 自动收录网站的导航站模板

在管理导航站点时,我们常常面临各种挑战:手动创建和更新站点信息费时费力,国际化需求,SEO 优化难以实施,以及图片存储方案不够灵活。针对这些问题,我们推出了 AigoTools,让导航站点管理变得更加…

【vue scrollTo 数据无限滚动 】

vue数据无限滚动 参考来源 Vue3 实现消息无限滚动的新思路 —— 林三心不学挖掘机 vue3代码 <template><div class"scroll-container" ref"scrollRef"><div v-for"(item, index) in list" :key"index" style"hei…

AD域离线破解新思路:Trustroasting和TimeRoasting

简介 近期Tom Tervoort发表了白皮书《TIMEROASTING, TRUSTROASTING AND COMPUTER SPRAYING》并在Github发布了名为Timeroast的工具包&#xff0c;其中介绍了几种新的攻击思路TimeRoasting、Trustroasting和计算机账户密码喷洒&#xff0c;本篇文章主要对TimeRoasting和Trustro…

Appium:Appium-Python-Client与Selenium版本不兼容导致的问题

一、问题描述 在执行python代码过程中&#xff0c;出现了以下错误&#xff1a; 错误一&#xff1a;No module named appium.webdriver.common.touch_action Traceback (most recent call last):File "d:\xxx\index.py", line 3, in <module> ModuleNotFound…

电动汽车电池是如何制造的

锂离子电池如何工作&#xff1f; 锂离子电池的工作原理是电化学反应&#xff0c;电子在两个电极之间转移&#xff0c;其中一个带负电&#xff0c;另一个带正电。电极浸入导电电解质中&#xff0c;促进带电离子在电极之间移动。 锂离子电池充电 锂离子电池具有插层化合物&…

使用Flink接受kafka中的数据并对数据进行ETL

做这个开发是因为&#xff1a;在实际开发操作中&#xff0c;你的kafka主题中会有大量的数据但是需求并不需要所有数据&#xff0c;所有我们要对数据进行清洗&#xff0c;把需要的数据保存在flink流中&#xff0c;为下流的开发做好数据保障&#xff01; 首先创建工具类 再写一…

ssh生成时注意事项

生成ssh ssh-keygen -t rsa -C "your_emailtemplate.com.cn"重新生成ssh后&#xff0c;拉代码时遇见 remote: remote: remote: remote: The project you were looking for could not be found or you dont have permission to view it. remote: remote: remote: f…

免费分享:1994-2020年中国各行业二氧化碳排放数据(附下载方法)

日前&#xff0c;国务院印发《2024—2025年节能降碳行动方案》针对重点领域进行部署&#xff0c;同时明确了制度标准、价格政策、资金支持、科技引领、市场化机制、全民行动等6项措施&#xff0c;为节能降碳提供支撑保障。1994-2020年中国各行业二氧化碳排放数据为评估环境政策…

RadioML 2016.10a 调制方式识别-IQ分量

文章目录 RadioML 2016.10a 调制方式识别-IQ分量一、IQ分量什么是 IQ 分量&#xff1f;为什么使用 IQ 分量&#xff1f;如何还原原始波形&#xff1f;如何进行傅里叶变换&#xff1f; 二、信号还原1、还原信号2、快速傅里叶变换3、频率域图 三、可视化1、时间域图2、 功率谱图 …

ecoAddRepeater -loc与-offLoadAtLoc的区别

我正在「拾陆楼」和朋友们讨论有趣的话题&#xff0c;你⼀起来吧&#xff1f; 拾陆楼知识星球入口 ecoAddRepeater -loc {x y} -cell BUF -net NET ecoAddRepeater -offLoadAtLoc {x y} -cell BUF -net NET 都是指定插buf/inv物理位置&#xff0c;区别在于前者用于插buf/inv…