TMDB电影数据分析(下)

TMDB电影数据分析(下)

      本文对源自Kaggle TMDB电影数据集进行分析影响电影票房的因素,数据分析流程包含数据集概分析、数据清洗、数据统计以及分析影响电影票房的因素。影响票房因素可能是电影预算、电影类型、电影时长、受欢迎程度、电影评分,发行时间等有关系,通过具体数据进行分析影响票房的因素。

数据集概分析 以及 数据清洗

接上文TMDB电影数据分析(上)

数据统计

1、查看收入前十的电影信息

      初步猜测影响电影收入的因素是电影预算,电影类型,上映年份,电影时长,评分,参与评分次数,受欢迎程度等。下面我们找出电影收入最高的前十部电影的基本信息。
在这里插入图片描述

      第一行代码调用sort_values()方法针对revenue字段进行降序排列并取前10行记录赋值给top10变量。该变量的值是一份DataFrame表格,一共有11行,第一行是列标题,剩下10行是电影收入排名前十的电影信息。第二行代码输出top10表格中的buget、genres、original_title等字段,结果发现电影收入排名前十的电影预算相对高,genres字段中id为12、name为Adventure的电影和id为28、name为Action的电影占比较大,release_date字段中显示上映年份基本分布在2000年后,vote_count字段表明参与评分次数相对充足,从vote_average字段看出收入高的电影评分不低,而popularity字段显示高收入电影的受欢迎程度。

2、计算收入与其他字段相关系数

      第一行代码在原数据集中增加一个release_year字段,数据集中提供了电影上映日期,但release_data字段值的数据类型不是日期类型,使用DataFrame的to_datatime()函数将指定格式转为日期格式,使用year属性获取日期中的年份作为新增字段的值。为了验证猜测,第二行代码中调用DataFrame的corr()函数计算budget、release_year、runtime、popularity、vote_average、vote_count等字段与revenue(电影收入)字段的相关性,获取发现revenue字段与budget、popularity及vote_count字段相关系数分别为0.70、0.60及0.76,具有高相关性,revenue字段与runtime、release_year、vote_average字段相关系数分别为0.23、0.14、0.18,具有低相关性。
在这里插入图片描述

3、查看电影年份分布

      首先调用DataFrame中的value_counts()方法对release_year字段值进行频数统计,得出各个年度发行的电影数量,数据集中电影发行年份自1916年起,包含89个年份的电影信息。
在这里插入图片描述

      通过绘制直方图直观看出电影在各年度的分布情况,如下图所示。
在这里插入图片描述

      从图中可以看出,电影发行年份集中在2000-2016年之间。

4、查看电影时长分布

      统计不同时长电影的数量,通过数据可以看出数据集中记录的电影时长总共有136个以及不同时长电影的数量。
在这里插入图片描述

      通过直方图可以直观看出电影时长集中分布在80-130之间,其中时长在90-110的电影数量占比较大。
在这里插入图片描述

5、查看预算分布

在这里插入图片描述

      数据集中低预算电影占比较大,预算集中在0至0.5x108

6、查看评分分布

在这里插入图片描述

      电影的评分集中分布在5-7分

7、查看评论次数分布

在这里插入图片描述

      数据集中绝大多数电影评论次数低于2000,其中评论次数在500以内评论次数占比最大。

影响收入的因素分析

1、绘制电影收入与影响因子散点图

      下面的代码绘制budget、release_year、runtime、popularity、vote_average、vote_count等字段与revenue字段的散点图。Matplotlib.pyplot模块参数可用plt.rcParams[‘配置参数’]=[修改值]进行修改默认配置,rcParams即run configuration parameters运行配置参数。第一行代码修改配置参数中的字体(font)为黑体(SimHei),是为了在图中可以正常显示中文。第三行代码使用Matplotlib.pyplot模块提供的subplots()函数返回一个元组,包括一个图形对象和所有的axes对象作为元素的ndarray对象,ndarray是2行3列的矩阵,每一个axes对象通过索引进行访问,索引下标从0开始。为每一个axes对象调用scatter()方法绘制散点图,并调用set_title()方法为每个axes对象增加标题。完成子图绘制后,代码第7行调用suptitle()方法为fig对象增加一个标题。效果如下图所示;

在这里插入图片描述
在这里插入图片描述

      上图的第一行标题为budget、popularrity、vote_count的三个子图能更可以直观看出,budget、popularrity、vote_count字段与revenue字段呈线性分布,意味着随影响因子增长,收入整体均呈增长趋势。而第二行标题为vote_average、runtime、release_year的三个子图表明,vote_average、runtime、release_year字段与revenue字段没有明显的线性关系。

2、分组分析电影收入与影响因子的关系

      由于电影发行时间集中在2000年以后,为了更好研究影响电影票房的因素,我们针对2001年至2015年发布的电影数据做进一步分析。

      首先,提取出发行年份在2001年至2015年的所有电影,保存到movies中,筛选后数据还有2103条记录。
在这里插入图片描述

      电影中数据记录了2001至2015总共15年的电影数据,时间跨度可能会相对大一些,按照年份进行分组,以每5年作为一组,将电影数据分成三组,针对每一组数据分析影响电影票房的因素。
在这里插入图片描述

      接下来,使用cut()方法将电影票房按照四分位点划分为四个等级,分别为’Low’, ‘Medium’, ‘Moderately High’, ‘High’,也即“低”、“中下”、“中上”和“高”。
在这里插入图片描述

      划分等级后,按照revenueclass、 fiveyearclass字段对数据进行分组,取出各组数据的中位数,保存到变量d_summary中。
在这里插入图片描述

      按年份分组后,得到三组数据,分别为‘2001-2005年’,‘2006-2010年’,‘2011-2015年’,针对每一组数据进行分析,随着收入越高,对应的预算越高,受欢迎程度越高,评论次数越多,电影时长、评分情况表现不明显。下面通过绘制条形图可以更直观的显示影响收入的因素。

      下面代码调用matplotlib.pyplot模块中bar()函数绘制电影收入与预算、受欢迎度、评论次数、评分、时长、发行年份之间关系的条形图。
在这里插入图片描述

在这里插入图片描述

      上图中含有6幅图,图中横坐标表示收入等级,纵坐标表示影响因素,针对每一幅图,同一收入等级中有三根柱子,从左向右以此表示为第一个5年数据,即2001至2005年电影数据,第二个5年数据,即2006至2010年电影数据,第三个5年数据,即2011至2015年电影数据。第一行分别绘制收入与预算条形图、收入与受欢迎程度条形图、收入与评论次数条形图。从收入与受欢迎程度图像可以看出,三组5年数据,每一组数据均是当电影票房高时,对应受欢迎程度也高,当收入处于同一个等级时,随着时间的推移,电影受欢迎程度略微增高,可能电影受欢迎层度受时间影响,间接影响着电影票房。

      针对收入与预算条形图,对于每一组年份,预算对票房的影响比较明显,收入高的电影,对应预算也高,即随着预算增加,电影票房也增加。说明投资方在制片质量上具有保障性,外加对影片宣传力度大,使票房得以提高。另外,针对收入等级相同时,预算投入与时间没有直接关系,说明不会因为当时时代背景而影响电影预算投入。

      针对收入与评论次数条形图,电影票房受评论次数影响比较大,参与评论的次数多的电影,电影票房高。

      第二行分别绘制收入与评分条形图、收入与时长条形图、收入与年份条形图。从这三幅条形图可以看出,电影收入与电影评分、电影时长、电影发行年份的关联度不明显。说明评分高低、时长长短及上映年份与电影收入无关。

3、分析电影类型对电影收入的影响

      由于每一部电影类型可以兼有多种类型,数据集中genres字段值是以字典数据类型给出。定义一个counttype函数,以数据集作为参数,使用for循环遍历genres字段数据,函数返回值为以电影类型为键,电影类型数量为值构成键值对的字典。
在这里插入图片描述

      针对数据集数据统计各种类型电影数量,将统计结果绘制成条形图,可以更直观查看不同类型电影数量,发现Drama、Comedy是占比最多的。

在这里插入图片描述
在这里插入图片描述

      按照受欢迎程度进行排序,提取最受欢迎前100部电影。并统计最受欢迎的100部电影不同类型占比。由于每一部电影类型可以兼有多种类型,数据集中genres字段值是以字典数据类型给出。使用for循环遍历genres字段数据,并以电影类型为键,电影数目为值构成的键值对作为元素存储到moviestype字典中,得到最受欢迎前100部电影不同类型的数量。
在这里插入图片描述
在这里插入图片描述

      100部最受欢迎电影中,其中Adventure类型和Action类型占比较高。猜测Adventure类型和Action类型是最受欢迎的两类电影,电影类型会影响电影受欢迎程度。

      针对不同收入等级统计电影类型出现频数,并提取频数最多的前5种类型电影,绘制条形图,效果如下:
在这里插入图片描述

在这里插入图片描述

      Action、Adventure、Drama、Comedy、Thriller等类型电影在收入不同等级中占比都很高,考虑到Drama、Comedy在整体电影类型占比中基数比较大,可以猜测电影类型对电影票房具有一定影响,但影响不明显。电影票房可能与影片质量本身有密切关系。

      本博客采用TMDB电影数据集,记录了1919-2016年间电影4803组数据,从电影的评分、预算、受欢迎程度、评论次数、时长、类型以及票房等信息进行分析评价,主要有以下结论:

      (1) 电影评分主要集中在5-7分,电影评分与电影收入没有明显关联关系。说明评分高低不代表电影好坏,不一定能带来更好收益,可能有一大部分观众没有参与评分。

      (2) 电影受欢迎程度,电影预算及评论数量直接影响电影收入。说明电影拍摄前期在灯光、演员、道具、服饰、制作等方面投入较大,保证影片质量,另外收入高的影片,参与评论次数多,观众更受欢迎,说明可以电影宣传比较到位,宣传力度大。

      (3) 最受欢迎的电影类型是Adventure,Action,且收入最高的电影类型依然是Adventure,Action,说明电影类型对电影收入有一定影响,但影响不明显。推测可能与电影上映地区的文化有关。

      (4) 电影时长对电影收入影响不大,记录中电影时长集中分布在90-110分钟,推测原因是数据集中不同时长的数据量过少,体现不出时长和收入的关系,另外,收入高的电影时长比较适中,所以电影时长适中才能保证观众对电影满意,同时能够保证拍片质量,创造更多收益;时长过短,无法保证质量,过长影响观众的观感。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/330408.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

十二、Qt 操作PDF文件(2)

一、在《十、Qt 操作PDF文件-CSDN博客》中我们用Poppler类库打开了PDF文件,并显示到窗体上,但只能显示一页,功能还没完善,在本章节中,加入了: 通过选择框选择PDF文件并打开,默认打开第一页。通…

【机器学习300问】11、多元线性回归模型和一元线性回归有什么不同?

在之前的文章中,我们已经学习了一元线性回归模型,其中最关键的参数是w和b。机器学习的目的就是去得到合适w和b后能准确预测未知数据。但现实世界是复杂的,一个事情的发生绝大多数时候不会是一个原因导致。 因此多元线性回归模型区别与一元线性…

虚幻UE 特效-Niagara特效实战-火焰、烛火

在上一篇笔记中:虚幻UE 特效-Niagara特效实战-烟雾、喷泉 我们进行了烟雾和喷泉的实战,而今天这篇笔记 我们在不使用模板的前提下对火焰和烛火特效进行实战 文章目录 一、火焰1、创建火焰的Niagara系统2、分析火焰是怎样的特征3、优化设置 二、烛火1、创…

cefsharp120.2.50(cef120.2.5,Chromium6167)升级测试及其他H264版本

一、版本变化 1.1 本次版本 本版本暂不支持H264,请参考其他版本,见文章底部。 有关cefsharp更新说明,这几天github打不开就不截图了。较上一版本没有大的变更。 1.2 H264版本 推荐版本:V100,V109,V111,V119版本 二、升级过程及注意事项 三、相关版本(H264版本) 私信…

RT-Thread Studio学习(十四)ADC

RT-Thread Studio学习(十四)ADC 一、简介二、新建RT-Thread项目并使用外部时钟三、启用ADC四、测试 一、简介 本文将基于STM32F407VET芯片介绍如何在RT-Thread Studio开发环境下使用ADC设备。硬件及开发环境如下: OS WIN10STM32F407VET6STM…

2.常见的点云数据滤波的方法总结(C++)

常见的点云数据处理有体素网格滤波、半径滤波、直通滤波、双边滤波器,统计滤波器,卷积滤波,条件滤波,高斯滤波等等。每种方法的原理和代码如下: 1.体素网格滤波 体素网格滤波是对密度大的三维的点在保持原来形状的条件…

Go后端开发 -- 反射reflect

Go后端开发 – 反射reflect && 结构体标签 文章目录 Go后端开发 -- 反射reflect && 结构体标签一、反射reflect1.编程语言中反射的概念2.interface 和反射3.变量内置的pair结构4.reflect的基本功能TypeOf和ValueOf5.从relfect.Value中获取接口interface的信息6…

SSL证书自动化管理有什么好处?如何实现SSL证书自动化?

SSL证书是用于加密网站与用户之间传输数据的关键元素,在维护网络安全方面,管理SSL证书与部署SSL证书一样重要。定期更新、监测和更换SSL证书,可以确保网站的安全性和合规性。而自动化管理可以为此节省时间,并避免人为错误和不必要…

React 基于Ant Degisn 实现table表格列表拖拽排序

效果图: 代码: myRow.js import { MenuOutlined } from ant-design/icons; import { DndContext } from dnd-kit/core; import { restrictToVerticalAxis } from dnd-kit/modifiers; import {arrayMove,SortableContext,useSortable,verticalListSorti…

【Java实战项目】基于ssm的数据结构课程网络学习平台

🙊作者简介:多年一线开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

Datawhale 强化学习笔记(二)马尔可夫过程,DQN 算法

文章目录 参考马尔可夫过程DQN 算法(Deep Q-Network)如何用神经网络来近似 Q 函数如何用梯度下降的方式更新网络参数强化学习 vs 深度学习 提高训练稳定性的技巧经验回放目标网络 代码实战 DQN 算法进阶Double DQNDueling DQN 算法代码实战 参考 在线阅…

计算机网络-计算机网络的概念 功能 发展阶段 组成 分类

文章目录 计算机网络的概念 功能 发展阶段总览计算机网络的概念计算机网络的功能计算机网络的发展计算机网络的发展-第一阶段计算机网络的发展-第二阶段-第三阶段计算机网络的发展-第三阶段-多层次ISP结构 小结 计算机网络的组成与分类计算机网络的组成计算机网络的分类小结 计…

RDMA原理浅析

1. DMA和RDMA概念 1.1 DMA DMA(直接内存访问)是一种能力,允许在计算机主板上的设备直接把数据发送到内存中去,数据搬运不需要CPU的参与。 传统内存访问需要通过CPU进行数据copy来移动数据,通过CPU将内存中的Buffer1移动到Buffer2中。DMA模式…

【Axure高保真原型】文字翻页效果

今天和大家分享选择文字翻页效果的原型模板,我们通过这个模板实现类似翻书的效果。鼠标点击右箭头,可以翻开下一页,点击左箭头翻开上一页;当然我们也可以通过鼠标拖动的操作进行翻页,鼠标想左拖动时,翻开下…

algotithm -- 排序算法

排序算法总结表: 1. In-place 和 Out-place 含义 参考链接 in-place 占用常数内存,不占用额外内存 假如问题规模是n,在解决问题过程中,只开辟了常数量的空间,与n无关,这是原址操作,就是In-…

Kotlin 移动端多平台

支持多平台编程是 Kotlin 的主要优势之一。它减少了为不同平台编写和维护相同代码所花费的时间,同时保留了本机编程的灵活性和优势。 1. 基本概念 KMM:Kotlin Multiplatform for mobile(移动设备的 Kotlin 多平台) KMM 多平台的主…

vue3有了解过吗?能说说跟vue2的区别吗?

一、Vue3介绍 关于vue3的重构背景,尤大是这样说的: 「Vue 新版本的理念成型于 2018 年末,当时 Vue 2 的代码库已经有两岁半了。比起通用软件的生命周期来这好像也没那么久,但在这段时期,前端世界已经今昔非比了 在我…

Redis 笔记一

概览 1.Redis核心数据存储结构 2.Redis底层String编码int&embstr&raw 3.Redis底层压缩列表&跳表&哈希表 4.Redis底层Zset实现压缩列表和跳表如何选择 5.基于Redis实现微博&抢红包&12306核心业务 辅助学习:Redis 教程 | 菜鸟教程 1.Redis为什…

web3.0基本概念简析

web3.0概念简析 web3.0的发展史 web1.0 仅用于展示,无法进行点赞评论等交互 web2.0 不仅可以展示,还可以上传视频、图片等,用户可以参与创作内容并获取收益。但还是中心化的模型 缺点 1 机械化的人机验证 2 账户安全无法保证 多年未登陆…

dp--64. 最小路径和/medium 理解度A

64. 最小路径和 1、题目2、题目分析3、复杂度最优解代码示例4、抽象与扩展 1、题目 给定一个包含非负整数的 m x n 网格 grid ,请找出一条从左上角到右下角的路径,使得路径上的数字总和为最小。 说明:每次只能向下或者向右移动一步。 示例 …