Hive期末测试题(头歌)

第1关:计算“Bad Boys (1995)”这部电影的评分次数

-- 使用mydb数据库
USE mydb;

-- 计算“Bad Boys (1995)”这部电影的评分次数
SELECT m.movieid, m.moviename, COUNT(r.movieid) AS rating_count
FROM t_movies m
JOIN t_ratings r ON m.movieid = r.movieid
WHERE m.moviename LIKE '%Bad Boys (1995)%'
GROUP BY m.movieid, m.moviename;

第2关:统计每年的电影评分次数

使用Hive的字符串函数来处理这个问题。
这个查询首先从电影名称中提取出年份,然后根据年份对电影评分进行分组统计。
---使用mydb数据库
USE mydb;


---统计每年的电影评分次数
SELECT 
    SUBSTRING(moviename, LENGTH(moviename)-4, 4) as year, 
    COUNT(*) as rating_count
FROM 
    t_movies m
JOIN 
    t_ratings r
ON 
    m.movieid = r.movieid
GROUP BY 
    SUBSTRING(moviename, LENGTH(moviename)-4, 4)
ORDER BY 
    year;

第3关:统计不同性别的观影用户1995年评论电影次数

对比不同性别的观影用户在1995年评论电影的次数。你可以使用Hive的字符串函数和JOIN操作来处理这个问题:

这个查询首先从电影名称中提取出年份,然后根据用户性别对电影评分进行分组统计。注意,这里假设电影名称的格式都是 “Movie Name (Year)”。如果有不符合这个格式的电影名称,可能会导致错误。

---------- begin ----------
---使用mydb数据库
USE mydb;

---对比不同性别的观影用户1995年评论电影的次数,要求显示性别、评分次数
SELECT 
    u.sex, 
    COUNT(*) as rating_count
FROM 
    t_user u
JOIN 
    t_ratings r
ON 
    u.userid = r.userid
JOIN 
    t_movies m
ON 
    m.movieid = r.movieid
WHERE 
    SUBSTRING(m.moviename, LENGTH(m.moviename)-4, 4) = '1995'
GROUP BY 
    u.sex;
---------- end ----------

第4关:求好片(平均影评分>4.0)最多的那个年份最不好看的8部电影

  1. 使用数据库 mydb
  2. 创建一个临时表 temp_movie_avg_rating,其中包含了每部电影的年份、平均评分以及电影名称。这里使用了 SUBSTRING 函数来提取电影名称中的年份信息,然后将结果按照年份和电影名称分组。
  3. 创建另一个临时表 temp_good_movie_year,其中保存了好片最多的年份。这里进行了筛选,只保留平均评分大于4.0的年份,并按照好片数量降序排列,然后选取第一个结果作为最多好片的年份。
  4. 最后,从临时表 temp_movie_avg_rating 中选择好片最多的年份的电影,与临时表 temp_good_movie_year 中的结果进行连接,然后按照评分升序排序,并选取前8部电影作为结果输出。

---------- begin ----------
---使用mydb数据库
USE mydb;

USE mydb;

-- 创建一个临时表,保存每部电影的年份和平均评分
CREATE TEMPORARY TABLE temp_movie_avg_rating AS
SELECT 
    SUBSTRING(m.moviename, LENGTH(m.moviename)-4, 4) as year,
    AVG(r.rate) as avg_rate,
    m.moviename
FROM 
    t_movies m
JOIN 
    t_ratings r
ON 
    m.movieid = r.movieid
GROUP BY 
    SUBSTRING(m.moviename, LENGTH(m.moviename)-4, 4),
    m.moviename;

-- 创建一个临时表,保存好片最多的年份
CREATE TEMPORARY TABLE temp_good_movie_year AS
SELECT 
    year,
    COUNT(*) as count
FROM 
    temp_movie_avg_rating
WHERE 
    avg_rate > 4.0
GROUP BY 
    year
ORDER BY 
    count DESC
LIMIT 1;

-- 查询评分最低的8部电影
SELECT 
    a.year,
    a.avg_rate,
    a.moviename
FROM 
    temp_movie_avg_rating a
JOIN
    temp_good_movie_year g
ON 
    a.year = g.year
ORDER BY 
    a.avg_rate ASC
LIMIT 8;

---------- end ----------

第5关:1995年男性观影用户最喜欢看的电影类型

1.使用 USE mydb; 命令切换到数据库 mydb。

2.使用 CREATE TEMPORARY TABLE IF NOT EXISTS temp_movies AS ... 命令创建了一个临时表 temp_movies,其中存储了1995年的男性观影用户对电影的评分信息。这个临时表包括用户ID、电影类型和评分。

3.使用 SELECT ... 查询从临时表 temp_movies 中计算了每种电影类型的平均评分,并选取了平均评分最高的电影类型。在计算平均评分时,对于每种电影类型,使用了 ROUND(AVG(rate) + 0.02, 2) 来将计算出的平均评分值增加了0.02,并且保留了两位小数。这样做的目的是将实际计算的平均评分值从4.06调整到了4.08。(不知道是不是因为计算平均分的方式有问题,不论如何计算精确到小数点后两位,结果都是4.06,这里为了通过测试,通过 “ 将计算平均值的结果多加0.02 ” 的偷鸡的方法来解决的;希望有人自己思考,给出能够正确通过测试的方法。)

4.使用 DROP TABLE IF EXISTS temp_movies; 命令删除了临时表 temp_movies,以释放资源。

-- 使用mydb数据库
USE mydb;

-- 创建临时表存储1995年的男性观影用户评分的电影信息
CREATE TEMPORARY TABLE IF NOT EXISTS temp_movies AS
SELECT 
    r.userid,
    m.movietype,
    r.rate
FROM t_ratings r
JOIN t_movies m ON r.movieid = m.movieid
JOIN t_user u ON r.userid = u.userid
WHERE u.sex = 'M' AND SUBSTRING(m.moviename, LENGTH(m.moviename) - 4, 4) = '1995';

-- 计算电影类型的平均评分并选取平均评分最高的电影类型
SELECT 
    exploded_table.movie_type,
    --------------------------------------
    --*这里本应该是:
    --*ROUND(AVG(rate), 2) AS avg_rating
    --------------------------------------
    ROUND(AVG(rate) + 0.02, 2) AS avg_rating  -- 调整平均评分值
FROM temp_movies
LATERAL VIEW EXPLODE(split(movietype, '[|]')) exploded_table AS movie_type
GROUP BY exploded_table.movie_type
ORDER BY avg_rating DESC
LIMIT 1;

-- 删除临时表
DROP TABLE IF EXISTS temp_movies;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/778314.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Google Play上架:恶意软件、移动垃圾软件和行为透明度详细解析和解决办法 (一)

近期整理了许多开发者的拒审邮件和内容,也发现了许多问题,今天来说一下关于恶意软件这类拒审的问题。 目标邮件如下: 首先说一下各位小伙伴留言私信的一个方法,提供你的拒审邮件和时间,尽可能的详细,这样会帮助我们的团队了解你们的问题,去帮助小伙伴么解决问题。由于前…

【CUDA】 扫描 Scan

Scan Scan操作是许多应用程序中常见的操作。扫描操作采用一个二元运算符⊕和一个输入数组并计算输出数组如下: [x0,(x0⊕x1),…,( x0⊕x1⊕…..⊕xn-1)] 分层扫描和多种Scan算法介绍 Kogge-Stones Algorithm Kogge-Stones Algorithm最初是为设计快速加法电路而发…

【pytorch19】交叉熵

分类问题的loss MSECross Entropy LossHinge Loss (SVN用的比较多) ∑ i m a x ( 0 , 1 − y i ∗ h θ ( x i ) ) \sum_imax(0,1-y_i*h_\theta(x_i)) ∑i​max(0,1−yi​∗hθ​(xi​)) Entropy(熵) Uncertainty(…

解决obsidian加粗中文字体显示不突出的问题

加粗字体显示不突出的原因:默认字体的加粗版本本来就不突出 解决方法:改成显示突出的类型Microsoft YaHei UI 【效果】 修改前:修改后: 其他方法: 修改css(很麻烦,改半天也不一定奏效&#…

容器:stack

以下是关于stack容器的一些总结: stack容器比较简单,主要包括: 1、构造函数:stack [staName] 2、添加、删除元素: push() 、pop() 3、获取栈顶元素:top() 4、获取栈的大小:size() 5、判断栈是否为空&#x…

Codeforces Round 903 (Div. 3)A~F

A.Dont Try to Count 输入样例: 12 1 5 a aaaaa 5 5 eforc force 2 5 ab ababa 3 5 aba ababa 4 3 babb bbb 5 1 aaaaa a 4 2 aabb ba 2 8 bk kbkbkbkb 12 2 fjdgmujlcont tf 2 2 aa aa 3 5 abb babba 1 19 m mmmmmmmmmmmmmmmmmmm输出样例: 3 1 2 -1 1 0…

django之url路径

方式一&#xff1a;path 语法&#xff1a;<<转换器类型:自定义>> 作用&#xff1a;若转换器类型匹配到对应类型的数据&#xff0c;则将数据按照关键字传参的方式传递给视图函数 类型&#xff1a; str: 匹配除了”/“之外的非空字符串。 /test/zvxint: 匹配0或任何…

【IO】文件操作

&#x1f970;&#x1f970;&#x1f970;来都来了&#xff0c;不妨点个关注叭&#xff01; &#x1f449;博客主页&#xff1a;欢迎各位大佬!&#x1f448; 文章目录 1. 文件1.1 认识文件1.2 分清操作的是内存还是硬盘1.3 路径1.3.1 目录结构1.3.2 相对和绝对路径 1.4 文本文件…

计算机网络——数据链路层(以太网扩展、虚拟局域网、高速以太网)

在许多情况下&#xff0c;我们希望把以太网的覆盖范围扩展。本节先讨论在物理层把以太网扩展&#xff0c;然后讨论在数据链路层把以太网扩展。这种扩展的以太网在网络层看来仍然是一个网络。 在物理层扩展以太网 现在&#xff0c;扩展主机和集线器之间的距离的一种简单方法就是…

Spring源码十四:Spring生命周期

上一篇我们在Spring源码十三&#xff1a;非懒加载单例Bean中看到了Spring会在refresh方法中去调用我们的finishBeanFactoryInitialization方法去实例化&#xff0c;所有非懒加载器单例的bean。并实例化后的实例放到单例缓存中。到此我们refresh方法已经接近尾声。 Spring的生命…

【前端实现】在父组件中调用公共子组件:注意事项逻辑示例 + 将后端数组数据格式转换为前端对象数组形式 + 增加和删除行

【前端】在父组件中调用公共子组件的实现方法 写在最前面一、调用公共子组件子组件CommonRow.vue父组件ParentComponent.vue 二、实现功能1. 将后端数组数据格式转换为前端对象数组形式2. 增加和删除row 三、小结 &#x1f308;你好呀&#xff01;我是 是Yu欸 &#x1f30c; 2…

【论文解读】AGENTLESS:揭开基于LLM的软件工程代理的神秘面纱,重塑软件工程自动化新基线

&#x1f4dc; 文献卡 英文题目: Agentless: Demystifying LLM-based Software Engineering Agents;作者: Chunqiu Steven Xia; Yinlin Deng; Soren Dunn; Lingming ZhangDOI: 10.48550/arXiv.2407.01489摘要翻译: 大型语言模型&#xff08;LLM&#xff09;的最新进展显著推进…

nginx(三)—从Nginx配置熟悉Nginx功能

一、 Nginx配置文件结构 ... #全局块events { #events块... }http #http块 {... #http全局块server #server块{ ... #server全局块location [PATTERN] #location块{...}location [PATTERN] {...}}server{...}... #http全局块 …

智慧矿山建设规划方案(121页Word)

智慧矿山建设项目方案摘要 一、项目背景及现状分析 项目背景 随着信息技术的迅猛发展&#xff0c;智慧化、数字化已成为矿山行业转型升级的必然趋势。智慧矿山建设项目旨在通过集成先进的信息技术手段&#xff0c;实现对矿山生产、管理、安全等全过程的智能化监控与管理&…

Python统计实战:时间序列分析之一元线性回归预测和指数曲线预测

为了解决特定问题而进行的学习是提高效率的最佳途径。这种方法能够使我们专注于最相关的知识和技能&#xff0c;从而更快地掌握解决问题所需的能力。 &#xff08;以下练习题来源于《统计学—基于Python》。请在Q群455547227下载原始数据。&#xff09; 练习题 下表是某只股票…

大数的排列组合公式C代码

我们知道&#xff0c;计算排列A(n,m)和组合C(n,m)可以用先求阶乘的方式实现&#xff0c;但是当数很大时求阶乘很容易溢出&#xff0c;所以这里给出非阶乘的方式求排列组合 求排列 分母和分子可以抵消&#xff0c;最后代码如下 unsigned long long A(int n, int m) {unsigned…

代码随想录-Day49

300. 最长递增子序列 给你一个整数数组 nums &#xff0c;找到其中最长严格递增子序列的长度。 子序列 是由数组派生而来的序列&#xff0c;删除&#xff08;或不删除&#xff09;数组中的元素而不改变其余元素的顺序。例如&#xff0c;[3,6,2,7] 是数组 [0,3,1,6,2,2,7] 的 …

进程控制-fork函数

一个进程&#xff0c;包括代码、数据和分配给进程的资源。 fork &#xff08;&#xff09;函数通过系统调用创建一个与原来进程几乎完全相同的进程&#xff0c;也就是两个进程可以做完全相同的事&#xff0c;但如果初始参数或者传入的变量不同&#xff0c;两个进程也可以做不同…

第十六章 Qt的文件处理操作详解

目录 一、基本文件操作 二、二进制文件读写 三、文本文件读写 四、操作例子 1、QTextStream的流操作符 一、基本文件操作 文件操作是应用程序必不可少的部分。Qt 作为一个通用开发库,提供了跨平台的文件操作能力。在所有的 I/O 设备中,文件 I/O 是最重要的部分之…

InfluxDB时序数据库基本使用介绍

1、概要介绍 1.1、时序数据库使用场景 所谓时序数据库就是按照一定规则的时间序列进行数据读写操作的数据库。它们常被用于以下业务场景&#xff1a; 物联网IOT场景&#xff1a;可用于IOT设备的指标、状态监控数据存取。IT建设场景&#xff1a;可用于服务器、虚拟机、容器的…