在某网站抓取了百条数据,试图通过对这些数据的分析,找出电影受欢迎的因素。本案例共获取100条数据。数据详情如下:
1.数据处理及变量描述
首先对数据进行筛选处理,将不需要或者缺失变量进行剔除。
电影类型只保留第一个选项,即《唐人街探案2》的电影类型有喜剧,动作,犯罪,我们只选择第一个类型为主要电影类型。为了避免电影类型这一变量的失真,于是将电影类型重新分解出另一个变量为电影类型数量,即《红海行动》为战争类型电影,选择为1;《唐人街探案2》的电影类型有喜剧,动作,犯罪,选择为2,所以数值越大,其属于类型越多。
制片国家取国产与非国产两个选择。
各个变量的具体取值及描述如下。
处理完的数据如下:
2.描述分析
2.1 变量描述性分析
对进行描述性分析,结果如下表所示。