MapReduce案例-电影网站数据统计分析

本文适合大数据初学者学习MapReduce统计分析业务问题的步骤和基础的MapReduce编程方法,初步掌握Hadoop对计算任务的管理。

本文末尾有全部数据集和完整代码连接。

1.准备工作

安装Hadoop:Hadoop 3.3.2 离线安装-CSDN博客

按照好Hadoop之后要检查一下datanode运行情况,Hadoop3.x的默认端口是9870

http://10.16.60.31:9870/

2.上传数据文件到HDFS

准备数据集

将数据上传到HDFS

[root@master sbin]# hadoop fs -mkdir -p /mapred-case
[root@master sbin]# hadoop fs -put /home/国家.txt /mapred-case/国家.txt
[root@master sbin]# hadoop fs -put /home/类型.txt /mapred-case/类型.txt
[root@master sbin]# hadoop fs -put /home/评分.txt /mapred-case/评分.txt
[root@master sbin]# hadoop fs -put /home/评价.txt /mapred-case/评价.txt
[root@master sbin]# hadoop fs -chmod a+w /mapred-case

3.编写统计分析代码

3.1 Windows系统配置Hadoop开发环境

windows开发调试Hadoop代码需要下载编译好的Hadoop二进制包。

还要下载winutils放到Hadoopbin目录

winutils下载地址吴所谓/winutils

注意这里Hadoop版本服务器Hadoop版本虽然不一致但是不影响程序调试

并且windowsHadoop不需要启动因为这个步骤只是为了解决MapReduce程序运行开始检测Hadoop环境报错问题

配置Hadoop环境变量并且D:\Dataware\data_cmpt\hadoop\hadoop-2.8.5\bin 添加到Path环境变量

3.2新建maven工程添加Hadoop 依赖配置信息

    <dependencies>
        <!-- Hadoop相关依赖包-->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>3.3.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>3.3.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.3.1</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
        </dependency>
    </dependencies>

resources目录增加core-site.xml文件,并添加如下配置信息

    <property>
        <!-- URI 定义主机名称和 namenode 的 RPC 服务器工作的端口号 -->
        <name>fs.defaultFS</name>
        <value>hdfs://10.16.60.31:8020</value>
    </property>

resources目录增加mapred-site.xml文件,并添加如下配置信息

<configuration>
    <!-- 远程提交到 Linux 的平台上 -->
    <property>
        <name>mapred.remote.os</name>
        <value>Linux</value>
        <description>Remote MapReduce framework's OS, can be either Linux or Windows</description>
    </property>
    <!--允许跨平台提交 解决 /bin/bash: line 0: fg: no job control  -->
    <property>
        <name>mapreduce.app-submission.cross-platform</name>
        <value>true</value>
    </property>
</configuration>

添加log4j.properties文件用于配置日志输出信息

log4j.appender.A1.Encoding=UTF-8
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d{ABSOLUTE} | %-5.5p | %-16.16t | %-32.32c{1} | %-32.32C %4L | %m%n

3.3. 按照国家和地区统计电影的产地信息

首先看下国家.txt数据

新建Map用于统计文档单词信息

    // Mapper抽象类的核心方法,三个参数
    public void map(Object key, // 首字符偏移量
                    Text value, // 文件的一行内容
                    Context context) // Mapper端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        String[] ars = value.toString().split("['.;,?| \t\n\r\f]");
        for (String tmp : ars) {
            if (tmp == null || tmp.length() <= 0) {
                continue;
            }
            word.set(tmp);
            context.write(word, one);
        }
    }

新建Reduce用于文档每个单词出现次数

    // Reducer抽象类的核心方法,三个参数
    public void reduce(Text key, // Map端 输出的 key 值
                       Iterable<IntWritable> values, // Map端 输出的 Value 集合(相同key的集合)
                       Context context) // Reduce 端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) // 遍历 values集合,并把值相加
        {
            sum += val.get();
        }
        map.put(key.toString(), sum);
        System.out.println(new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").format(new Date()) + ":" + key + "出现了" + sum);
    }

新建主程序

public class CountryMain {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();

//        if (args.length != 2) {
//            System.exit(2);
//        }

        String input = "/mapred-case/国家.txt";
        String output = "/mapred-case/国家分布统计";

        Job job = new Job(conf, "CountryCount"); // 新建一个 job,传入配置信息
        job.setJarByClass(CountryMain.class); // 设置 job 的主类
        job.setMapperClass(CountryMap.class); // 设置 job 的 Mapper 类
        job.setCombinerClass(CountryReduce.class); // 设置 job 的 作业合成类
        job.setReducerClass(CountryReduce.class); // 设置 job 的 Reducer 类
        job.setOutputKeyClass(Text.class); // 设置 job 输出数据的关键类
        job.setOutputValueClass(IntWritable.class); // 设置 job 输出值类
        FileInputFormat.addInputPath(job, new Path(input)); // 输入路径(数据所在目录)
        FileOutputFormat.setOutputPath(job, new Path(output)); // 输出路径(必须不存在的文件夹)
        boolean result = false;
        try {
            result = job.waitForCompletion(true);
        } catch (Exception e) {
            e.printStackTrace();
        }
        System.out.println(new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").format(new Date()) +
                (result ? "电影类型(Country)统计完毕!!!" : "统计失败!!!"));
    }
}

IDEA启动主程序可以看到程序执行日志信息如下

浏览器打开Hadoop管理页面下载part-r-00000文件,并用记事本打开

可以看到电影数据已经按照国家这个分类统计出来了

3.4 电影评论数量排行榜

首先看下数据这是电影名称评论数量列表但是评论数量并不是有序我们需要电影名按照评论数量排序

新建一个Map,将文档中的电影评论数量存入一个HashMap并调用上一步排序函数进行排序

    protected void map(LongWritable k1, Text v1, Context context) throws IOException, InterruptedException {
        String line = v1.toString();
        String[] fields = line.split("\t");
        String province = fields[0];
        if (isNumeric(fields[1])){
            Integer critics = Integer.parseInt(fields[1]);
            map.put(province, critics);
        }
    }

新建一个启动创建一个Hadoop Job执行上一步统计排序函数

public class CommentMain {
    public static void main(String[] args) {
        try {
            // 运行jar包程序指令输入错误,直接退出程序
//            if (args.length != 2) {
//                System.exit(100);
//            }

            String input = "/mapred-case/评价.txt";
            String output = "/mapred-case/评价数量统计";

            Configuration conf = new Configuration();//job需要的配置参数
            Job job = Job.getInstance(conf, "CommentMain");//创建一个job作业
            job.setJarByClass(CommentMain.class);//设置入口类
            FileInputFormat.setInputPaths(job, new Path(input));//指定输入路径(可以是文件,也可以是目录)
            FileOutputFormat.setOutputPath(job, new Path(output));//指定输出路径(只能是指定一个不存在的目录)
            job.setMapperClass(CommentMap.class);
            // 指定K2的输出数据类型
            job.setMapOutputKeyClass(Text.class);
            // 指定v2的输出数据类型
            job.setMapOutputValueClass(IntWritable.class);
            // 指定Reduce阶段的相关类
            job.setNumReduceTasks(0);
            //提交作业job
            job.waitForCompletion(true);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

执行成功之后我们看下执行日志

浏览器打开Hadoop管理页面下载执行结果文件

看下执行结果电影名称已经按照评论数量降序排列

3.5 电影评分分布

首先看一下数据文档中电影评分

新建Map程序评分写入上下文


    // Mapper抽象类的核心方法,三个参数
    public void map(Object key, // 首字符偏移量
                    Text value, // 文件的一行内容
                    Context context) // Mapper端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        String[] ars = value.toString().split("\t\n");
        for (String tmp : ars) {
            if (tmp == null || tmp.length() <= 0) {
                continue;
            }
            word.set(tmp);
            context.write(word, one);
        }
    }

新建Reduce统计每个评分梳理放入HashMapkey评分value次数

    // Reducer抽象类的核心方法,三个参数
    public void reduce(Text key, // Map端 输出的 key 值
                       Iterable<IntWritable> values, // Map端 输出的 Value 集合(相同key的集合)
                       Context context) // Reduce 端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) // 遍历 values集合,并把值相加
        {
            sum += val.get();
        }
        map.put(key.toString(), sum);
        System.out.println(new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").format(new Date()) + ":" + key + "出现了" + sum);
    }

新建MapReduce程序启动创建一个Job并执行

public class ScoreMain {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();

//        if (args.length != 2) {
//            System.exit(2);
//        }
        String input = "/mapred-case/评分.txt";
        String output = "/mapred-case/评分分布";
        Job job = new Job(conf, "ScoreCount"); // 新建一个 job,传入配置信息
        job.setJarByClass(ScoreMain.class); // 设置 job 的主类
        job.setMapperClass(ScoreMap.class); // 设置 job 的 Mapper 类
        job.setCombinerClass(ScoreReduce.class); // 设置 job 的 作业合成类
        job.setReducerClass(ScoreReduce.class); // 设置 job 的 Reducer 类
        job.setOutputKeyClass(Text.class); // 设置 job 输出数据的关键类
        job.setOutputValueClass(IntWritable.class); // 设置 job 输出值类
        FileInputFormat.addInputPath(job, new Path(input)); // 文件输入
        FileOutputFormat.setOutputPath(job, new Path(output)); // 文件输出
        boolean result = false;
        try {
            result = job.waitForCompletion(true);
        } catch (Exception e) {
            e.printStackTrace();
        }
        System.out.println(new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").format(new Date()) + (result ? "电影评分(Score)统计完毕!!!" : "统计失败!!!"));
    }
}

执行统计结果如下

3.6 电影类型分布

数据电影分类

新建Map电影类型写入上下文

    // Mapper抽象类的核心方法,三个参数
    public void map(Object key, // 首字符偏移量
                    Text value, // 文件的一行内容
                    Context context) // Mapper端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        String[] ars = value.toString().split("['.;,?| \t\n\r\f]");
        for (String tmp : ars) {
            if (tmp == null || tmp.length() <= 0) {
                continue;
            }
            word.set(tmp);
            context.write(word, one);
        }
    }

新建Reduce统计每个分类数量

    // Reducer抽象类的核心方法,三个参数
    public void reduce(Text key, // Map端 输出的 key 值
                       Iterable<IntWritable> values, // Map端 输出的 Value 集合(相同key的集合)
                       Context context) // Reduce 端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) // 遍历 values集合,并把值相加
        {
            sum += val.get();
        }
        map.put(key.toString(), sum);
        System.out.println(new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").format(new Date()) + ":" + key + "出现了" + sum);
    }

新建MapReduce程序启动创建一个Job并执行

public class TypeMain {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();

//        if (args.length != 2) {
//            System.exit(2);
//        }

        String input = "/mapred-case/类型.txt";
        String output = "/mapred-case/类型分布";

        Job job = new Job(conf, "TypeCount"); // 新建一个 job,传入配置信息
        job.setJarByClass(TypeMain.class); // 设置 job 的主类
        job.setMapperClass(TypeMap.class); // 设置 job 的 Mapper 类
        job.setCombinerClass(TypeReduce.class); // 设置 job 的 作业合成类
        job.setReducerClass(TypeReduce.class); // 设置 job 的 Reducer 类
        job.setOutputKeyClass(Text.class); // 设置 job 输出数据的关键类
        job.setOutputValueClass(IntWritable.class); // 设置 job 输出值类
        FileInputFormat.addInputPath(job, new Path(input)); // 文件输入
        FileOutputFormat.setOutputPath(job, new Path(output)); // 文件输出
        boolean result = false;
        try {
            result = job.waitForCompletion(true);
        } catch (Exception e) {
            e.printStackTrace();
        }
        System.out.println(new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").format(new Date()) + (result ? "电影标签(Type)统计完毕!!!" : "统计失败!!!"));
    }
}

本文全部数据代码连接https://download.csdn.net/download/shangjg03/88596022

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/567890.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Llama网络结构介绍

LLaMA现在已经是开源社区里炙手可热的模型了&#xff0c;但是原文中仅仅介绍了其和标准Transformer的差别&#xff0c;并没有一个全局的模型介绍。因此打算写篇文章&#xff0c;争取让读者不参考任何其他资料把LLaMA的模型搞懂。 结构 如图所示为LLaMA的示意图&#xff0c;由…

ESP32学习第一天-ESP32点亮LED,按键控制LED状态,LED流水灯

第一天使用到的函数: 函数第一个参数设置哪一个引脚&#xff0c;第二个参数设置引脚模式。 pinMode(led_pin,OUTPUT); //设置引脚模式 函数的第一个参数设置哪一个引脚&#xff0c;第二个参数设置是高电平还是低电平。 digitalWrite(led_pin,HIGH);//将引脚电平拉高 #incl…

电脑怎么拖动文件到想要的位置?电脑上拖拽没了的文件怎么找回

在日常的办公和学习中&#xff0c;电脑文件拖拽操作是每位用户都不可或缺的技能。然而&#xff0c;有时在拖动文件时&#xff0c;可能会因为误操作或其他原因&#xff0c;导致文件消失或移至未知位置。本文将详细解析如何在电脑上轻松拖动文件到指定位置&#xff0c;并为您提供…

大模型中的位置编码ALiBi,RoPE的总结和实现

目录 Alibi与旋转位置编码的比较 1. Alibi和旋转位置编码的外推性能比较 2. Alibi的处理方式 注意力线性偏置&#xff1a;ALiBi位置编码的实现 1. ALiBi的基本概念 2. ALiBi的实现方式 ALiBi位置编码的代码解读 1. 导入必要的库 2. 定义get_slopes函数 3. 定义get_al…

C++ Primer 总结索引 | 第十三章:拷贝控制

1、类可以定义构造函数&#xff0c;用来控制在创建此类型对象时做什么 类如何控制该类型对象拷贝、赋值、移动或销毁时做什么 类通过一些 特殊的成员函数 控制这些操作&#xff0c;包括&#xff1a;拷贝构造函数、移动构造函数、拷贝赋值运算符、移动赋值运算符 以及 析构函数 …

API请求报错 Required request body is missing问题解决

背景 在进行调用的时候&#xff0c;加载方法&#xff0c;提示以下错误 错误信息如下&#xff1a; {"code": 10001,"msg": "Required request body is missing: XXX","data": null,"extra": null }Required request body…

Qt使用miniblink第三方浏览器模块

文章目录 一、前言二、miniblink简介三、miniblink使用四、运行效果五、工程结构 一、前言 本文取自刘典武大师&#xff1a;Qt编写地图综合应用58-兼容多浏览器内核 用Qt做项目过程中&#xff0c;遇到需要用到浏览器控件的项目&#xff0c;可能都会绕不开一个问题&#xff0c;那…

机器人模型匹配控制(MPC)MATLAB实现

模型匹配控制&#xff08;Model matching control&#xff09;是指设计一个控制器使闭环系统的传递函数tf(s)与td(s)相一致&#xff01; mpcDesigner 可以分为&#xff1a; 2时域精确模型匹配控制3频域精确模型匹配控制 机械臂控制中应用模型匹配控制&#xff08;Model Matc…

手把手教你搭建鲜花团购小程序

随着互联网的快速发展&#xff0c;线上小程序商城已经成为了一种流行的电商模式。对于花店来说&#xff0c;开发线上小程序商城不仅可以扩大销售渠道&#xff0c;提高销售效率&#xff0c;还可以增加客户粘性&#xff0c;提升品牌形象。下面就以花店为例&#xff0c;教你怎么开…

【python】Python成语接龙游戏[1-3难度均有](源码+数据)【独一无二】

&#x1f449;博__主&#x1f448;&#xff1a;米码收割机 &#x1f449;技__能&#x1f448;&#xff1a;C/Python语言 &#x1f449;公众号&#x1f448;&#xff1a;测试开发自动化【获取源码商业合作】 &#x1f449;荣__誉&#x1f448;&#xff1a;阿里云博客专家博主、5…

平衡二叉树(AVLTree)

AVLTree 1、树的分类2、平衡二叉树2.1、构建一个平衡二叉树2.2、删除节点2.3、搜索方式2.3.1、广度优先搜索&#xff08;BFS&#xff09;2.3.2、深度优先搜索&#xff08;DFS&#xff09; 1、树的分类 树形结构是编程当中特别常见的一种数据结构。比如电脑中的文件管理系统就大…

模拟BACnet设备(八)

文章目录 前言模拟呼梯设备的功能前期准备——xml文件的编写创建工程&#xff0c;建立BACnet模拟设备如何将设备的对象列表打包发送呢&#xff1f;被订阅的属性值变化时&#xff0c;如何主动通知对方&#xff1f;读写属性值完整代码小结 前言 前面一到七篇&#xff0c;从理论&…

[Collection与数据结构] PriorityQueue与堆

1. 优先级队列 1.1 概念 前面介绍过队列&#xff0c;队列是一种先进先出(FIFO)的数据结构&#xff0c;但有些情况下&#xff0c;操作的数据可能带有优先级&#xff0c;一般出队列时&#xff0c;可能需要优先级高的元素先出队列&#xff0c;该中场景下&#xff0c;使用队列显然…

Rust - 引用和借用

上一篇章末尾提到&#xff0c;如果仅仅支持通过转移所有权的方式获取一个值&#xff0c;那会让程序变得复杂。 Rust 能否像其它编程语言一样&#xff0c;使用某个变量的指针或者引用呢&#xff1f;答案是可以。 Rust 通过 借用(Borrowing) 这个行为来达成上述的目的&#xff0…

深入探索GDB:Linux下强大的调试神器

目录 一、GDB简介&#xff1a;源码级调试的基石 二、GDB基础操作&#xff1a;从入门到熟练 启动与基本命令 三、GDB进阶功能&#xff1a;解锁更深层次的调试能力 1. 回溯追踪&#xff1a;洞察调用栈 2. 动态内存检测&#xff1a;揪出内存问题 3. 条件断点与观察点&#…

JavaSE——程序逻辑控制

1. 顺序结构 顺序结构 比较简单&#xff0c;按照代码书写的顺序一行一行执行。 例如&#xff1a; public static void main(String[] args) {System.out.println(111);System.out.println(222);System.out.println(333);} 运行结果如下&#xff1a; 如果调整代码的书写顺序 , …

C++:继承作业题

1. 关于以下菱形继承说法不正确的是&#xff08; &#xff09; &#xfeff;class B {public: int b;};class C1: public B {public: int c1;};class C2: public B {public: int c2;};class D : public C1, public C2 {public: int d;};A.D总共占了20个字节B.B中的内容总共在D…

PE文件格式

PE文件格式 PE头&#xff1a;DOS头DOS存根NT头NT头&#xff1a;文件头NT头&#xff1a;可选头 节区头.text(代码)(节区头).data(数据)(节区头).rdata.idata&#xff0c;导入表 最后给出一个PE文件的16进制编辑器中的截图&#xff0c;找到其中每一个头的信息&#xff0c;和导入表…

2015NOIP普及组真题 3. 求和

线上OJ&#xff1a; 一本通&#xff1a;http://ybt.ssoier.cn:8088/problem_show.php?pid1971 核心思想&#xff1a; 本题的约束条件有两个&#xff1a; 条件1、colorx colorz 条件2、x、y、z的坐标满足 y − x z − y&#xff08;即 y 在 x 和 z 的中心位置&#xff09; …

scipy csr_matrix: understand indptr

See https://stackoverflow.com/questions/52299420/scipy-csr-matrix-understand-indptr