MR实战:分科汇总求月考平均分

文章目录

  • 一、实战概述
  • 二、提出任务
  • 三、完成任务
    • (一)准备数据
      • 1、在虚拟机上创建文本文件
      • 2、上传文件到HDFS指定目录
    • (二)实现步骤
      • 1、创建Maven项目
      • 2、添加相关依赖
      • 3、创建日志属性文件
      • 4、创建学生实体类
      • 5、创建科目平均分映射器类
      • 6、创建科目平均分归并器类
      • 7、创建科目平均分驱动器类
      • 8、启动应用,查看结果

一、实战概述

  • 在本次实战中,我们将利用Hadoop MapReduce处理学生月考成绩数据,目标是计算每个同学语文、数学和英语的平均分。通过启动Hadoop服务、准备数据、创建Maven项目以及实现Mapper、Reducer和Driver类,我们将深入实践大数据处理流程。此任务将帮助我们理解MapReduce的工作原理,并提升大数据分析能力。一起来探索分布式计算的力量,揭示隐藏在海量数据中的学习表现趋势。

  • 我们首先启动Hadoop服务,并在虚拟机上创建包含语文、数学、英语成绩的文本文件chinese.txtmath.txtenglish.txt。然后,我们将这三个文件上传到HDFS的/subjectavg/input目录。

  • 接下来,我们通过Maven创建一个名为SubjectAvg的项目,并添加hadoopjunit依赖。在项目中,我们创建了日志属性文件log4j.properties以配置日志输出。

  • 为了处理数据,我们创建了学生实体类Student,该类实现了Writable接口,以便在Mapper和Reducer中使用。在Student类中,我们定义了姓名、语文、数学和英语成绩的属性以及相关的getter和setter方法。

  • 我们还创建了科目平均分映射器类SubjectAvgMapper,该类继承自Mapper<LongWritable, Text, Text, Student>。在map方法中,我们获取文件切片对象以确定读取的是哪个科目成绩文件,然后解析输入行并创建Student对象,根据科目设置相应的成绩。

  • 科目平均分归并器类SubjectAvgReducer继承自Reducer<Text, Student, Text, Student>。在reduce方法中,我们遍历学生迭代器,累加各科成绩,然后计算平均分并更新Student对象。

  • 最后,我们创建了科目平均分驱动器类SubjectAvgDriver,在其中设置了作业的相关配置,包括Mapper类、Reducer类、输入路径和输出路径。通过运行此驱动器类,我们可以得到每个同学各科的平均分。

二、提出任务

  • 语文月考成绩 - chinese.txt
1 张晓云 89
2 张晓云 73
3 张晓云 67
4 张晓云 70
5 张晓云 79
6 张晓云 87
7 张晓云 99
8 张晓云 83
9 张晓云 97
10 张晓云 92
11 张晓云 67
12 张晓云 86
1 王东林 49
2 王东林 83
3 王东林 67
4 王东林 49
5 王东林 93
6 王东林 87
7 王东林 65
8 王东林 92
9 王东林 60
10 王东林 94
11 王东林 81
12 王东林 90
1 李宏宇 77
2 李宏宇 66
3 李宏宇 89
4 李宏宇 87
5 李宏宇 96
6 李宏宇 79
7 李宏宇 87
8 李宏宇 96
9 李宏宇 69
10 李宏宇 87
11 李宏宇 96
12 李宏宇 79
  • 数学月考成绩 - math.txt
1 张晓云 79
2 张晓云 83
3 张晓云 77
4 张晓云 90
5 张晓云 89
6 张晓云 67
7 张晓云 89
8 张晓云 93
9 张晓云 90
10 张晓云 82
11 张晓云 77
12 张晓云 96
1 王东林 78
2 王东林 94
3 王东林 76
4 王东林 70
5 王东林 90
6 王东林 83
7 王东林 85
8 王东林 82
9 王东林 84
10 王东林 78
11 王东林 99
12 王东林 93
1 李宏宇 86
2 李宏宇 81
3 李宏宇 76
4 李宏宇 93
5 李宏宇 88
6 李宏宇 82
7 李宏宇 81
8 李宏宇 93
9 李宏宇 86
10 李宏宇 90
11 李宏宇 67
12 李宏宇 88
  • 英语月考成绩 - english.txt
1 张晓云 78
2 张晓云 83
3 张晓云 92
4 张晓云 66
5 张晓云 82
6 张晓云 89
7 张晓云 79
8 张晓云 68
9 张晓云 96
10 张晓云 91
11 张晓云 87
12 张晓云 82
1 王东林 69
2 王东林 86
3 王东林 73
4 王东林 99
5 王东林 67
6 王东林 95
7 王东林 74
8 王东林 92
9 王东林 76
10 王东林 88
11 王东林 92
12 王东林 56
1 李宏宇 88
2 李宏宇 78
3 李宏宇 92
4 李宏宇 78
5 李宏宇 89
6 李宏宇 76
7 李宏宇 92
8 李宏宇 75
9 李宏宇 88
10 李宏宇 92
11 李宏宇 97
12 李宏宇 85
  • 统计每个同学各科月考平均分
张晓云	Student{name='张晓云', chinese=82.4, math=84.3, english=82.8}
李宏宇	Student{name='李宏宇', chinese=84.0, math=84.2, english=85.8}
王东林	Student{name='王东林', chinese=75.8, math=84.3, english=80.6}

三、完成任务

(一)准备数据

  • 启动hadoop服务
    在这里插入图片描述

1、在虚拟机上创建文本文件

  • 创建subjectavg目录,在里面创建chinese.txt文件(数据没有显示全)
    在这里插入图片描述
  • 创建math.txt(数据没有显示全)
    在这里插入图片描述
  • 创建english.txt(数据没有显示全)
    在这里插入图片描述

2、上传文件到HDFS指定目录

  • 创建/subjectavg/input目录,执行命令:hdfs dfs -mkdir -p /subjectavg/input
    在这里插入图片描述
  • 将文本文件chinese.txtmath.txtenglish.txt,上传到HDFS的/subjectavg/input目录
    在这里插入图片描述

(二)实现步骤

1、创建Maven项目

  • Maven项目 - SubjectAvg
    在这里插入图片描述
  • 单击【Finish】按钮

2、添加相关依赖

  • pom.xml文件里添加hadoopjunit依赖
<dependencies>                                      
    <!--hadoop客户端-->                                
    <dependency>                                    
        <groupId>org.apache.hadoop</groupId>        
        <artifactId>hadoop-client</artifactId>      
        <version>3.3.4</version>                    
    </dependency>                                   
    <!--单元测试框架-->                                   
    <dependency>                                    
        <groupId>junit</groupId>                    
        <artifactId>junit</artifactId>              
        <version>4.13.2</version>                   
    </dependency>                                   
</dependencies>                                     

3、创建日志属性文件

  • resources目录里创建log4j.properties文件
    在这里插入图片描述
log4j.rootLogger=INFO, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/subjectavg.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

4、创建学生实体类

  • net.hw.mr包里创建Student
    在这里插入图片描述
  • 注意:学生实体类必须实现Writable接口,才能作为Mapper和Reducer的输出值类型
package net.hw.mr;

import org.apache.hadoop.io.Writable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * 功能:学生实体类
 * 作者:华卫
 * 日期:2022年12月05日
 */
public class Student implements Writable {
    private String name;
    private double chinese;
    private double math;
    private double english;

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public double getChinese() {
        return chinese;
    }

    public void setChinese(double chinese) {
        this.chinese = chinese;
    }

    public double getMath() {
        return math;
    }

    public void setMath(double math) {
        this.math = math;
    }

    public double getEnglish() {
        return english;
    }

    public void setEnglish(double english) {
        this.english = english;
    }

    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeUTF(name);
        dataOutput.writeDouble(chinese);
        dataOutput.writeDouble(math);
        dataOutput.writeDouble(english);
    }

    public void readFields(DataInput dataInput) throws IOException {
        name = dataInput.readUTF();
        chinese = dataInput.readDouble();
        math = dataInput.readDouble();
        english = dataInput.readDouble();
    }

    @Override
    public String toString() {
        return "Student{" +
                "name='" + name + '\'' +
                ", chinese=" + chinese +
                ", math=" + math +
                ", english=" + english +
                '}';
    }
}

5、创建科目平均分映射器类

  • net.hw.mr包里创建SubjectAvgMapper
    在这里插入图片描述
  • 由于MR程序读取/subjectavg/input目录里的三个科目成绩文件,在Mapper获取文件切片时就要区分读取的是哪一个文件,可以通过contextgetInputSplit()方法获得文件切片对象,由此可以获取该切片对应的文件名,从而知道读取的是哪一科的成绩文件。
package net.hw.mr;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import java.io.IOException;

/**
 * 功能:科目平均分映射器类
 * 作者:华卫
 * 日期:2022年12月05日
 */
public class SubjectAvgMapper extends Mapper<LongWritable, Text, Text, Student> {
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        // 获取文件切片对象(将输入切片强转成文件切片)
        FileSplit split = (FileSplit) context.getInputSplit();
        // 获取文件切片对应的文件名
        String filename = split.getPath().getName();

        // 拆分行获取成绩数据
        String line = value.toString();
        String[] data = line.split(" ");
        String name = data[1];
        int score = Integer.parseInt(data[2]);

        // 创建学生实体
        Student student = new Student();
        // 设置姓名属性
        student.setName(name);
        // 根据读取文件名来设置相应科目成绩
        if (filename.contains("chinese")) {
            student.setChinese(score);
        } else if (filename.contains("math")) {
            student.setMath(score);
        } else if (filename.contains("english")){
            student.setEnglish(score);
        }

        context.write(new Text(name), student);
    }
}

6、创建科目平均分归并器类

  • net.hw.mr包里创建SubjectAvgReducer
package net.hw.mr;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.text.DecimalFormat;

/**
 * 功能:科目平均分归并器类
 * 作者:华卫
 * 日期:2022年12月05日
 */
public class SubjectAvgReducer extends Reducer<Text, Student, Text, Student> {
    @Override
    protected void reduce(Text key, Iterable<Student> values, Context context) throws IOException, InterruptedException {
        // 创建学生对象
        Student student = new Student();
        // 设置姓名属性
        student.setName(key.toString());
        // 遍历学生迭代器,累加各科成绩
        for (Student value : values) {
            student.setChinese(student.getChinese() + value.getChinese());
            student.setMath(student.getMath() + value.getMath());
            student.setEnglish(student.getEnglish() + value.getEnglish());
        }
        // 求各科平均分
        DecimalFormat df = new DecimalFormat("##.#");
        student.setChinese(Double.parseDouble(df.format(student.getChinese() / 12)));
        student.setMath(Double.parseDouble(df.format(student.getMath() / 12)));
        student.setEnglish(Double.parseDouble(df.format(student.getEnglish() / 12)));
        // 输出处理后的键值对
        context.write(key, student);
    }
}

7、创建科目平均分驱动器类

  • net.hw.mr包里创建SubjectAvgDriver
    在这里插入图片描述
package net.hw.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.net.URI;

/**
 * 功能:成绩和驱动器类
 * 作者:华卫
 * 日期:2022年12月02日
 */
public class ScoreSumDriver {
    public static void main(String[] args) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");

        // 获取作业实例
        Job job = Job.getInstance(conf);
        // 设置作业启动类
        job.setJarByClass(ScoreSumDriver.class);

        // 设置Mapper类
        job.setMapperClass(ScoreSumMapper.class);
        // 设置map任务输出键类型
        job.setMapOutputKeyClass(Text.class);
        // 设置map任务输出值类型
        job.setMapOutputValueClass(IntWritable.class);

        // 设置Reducer类
        job.setReducerClass(ScoreSumReducer.class);
        // 设置reduce任务输出键类型
        job.setOutputKeyClass(Text.class);
        // 设置reduce任务输出值类型
        job.setOutputValueClass(NullWritable.class);

        // 定义uri字符串
        String uri = "hdfs://master:9000";
        // 创建输入目录
        Path inputPath = new Path(uri + "/scoresum/input");
        // 创建输出目录
        Path outputPath = new Path(uri + "/scoresum/output");

        // 获取文件系统
        FileSystem fs =  FileSystem.get(new URI(uri), conf);
        // 删除输出目录(第二个参数设置是否递归)
        fs.delete(outputPath, true);

        // 给作业添加输入目录(允许多个)
        FileInputFormat.addInputPath(job, inputPath);
        // 给作业设置输出目录(只能一个)
        FileOutputFormat.setOutputPath(job, outputPath);

        // 等待作业完成
        job.waitForCompletion(true);

        // 输出统计结果
        System.out.println("======统计结果======");
        FileStatus[] fileStatuses = fs.listStatus(outputPath);
        for (int i = 1; i < fileStatuses.length; i++) {
            // 输出结果文件路径
            System.out.println(fileStatuses[i].getPath());
            // 获取文件系统数据字节输入流
            FSDataInputStream in = fs.open(fileStatuses[i].getPath());
            // 将结果文件显示在控制台
            IOUtils.copyBytes(in, System.out, 4096, false);
        }
    }
}

8、启动应用,查看结果

  • 运行SubjectAvgDriver
    在这里插入图片描述
    在这里插入图片描述

  • 下载结果文件 - part-r-00000
    在这里插入图片描述

  • 查看结果文件 - part-r-00000
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/271875.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构初阶】二叉树(2)

二叉树顺序结构 1.二叉树的顺序结构及实现1.1二叉树的顺序结构 1.2 堆的概念及结构1.3 堆的实现1.3.1向上调整1.3.2向下调整1.3.3交换函数1.3.4打印1.3.5初始化1.3.6销毁1.3.7插入1.3.8删除1.3.9获得堆顶元素1.3.10判断是否为空1.3.6 堆的代码实现 1.3.2堆的创建1.3.3 建堆时间…

CV 语义分割的基础和应用 | 附源码步骤

引言 计算机视觉中的语义分割是一个引人入胜且迅速发展的领域。它涉及将图像分割为有意义的部分&#xff0c;并将每个部分分类为预定义的类别之一。本文将探讨在计算机视觉领域中语义分割的重要性、技术、应用、挑战以及未来前景。 每个像素都讲述一个故事&#xff1a;透过语义…

关于解决微服务A调用微服务B的接口获取不到数据

前提&#xff1a; 1、首先&#xff0c;你得确保写的不同微服务之间调用接口时没有任何问题的&#xff0c;可以参考我上一篇文章&#xff1b; 2、其次&#xff0c;你需要具备怎么去调试&#xff0c;怎么去定位问题。 具备以上两点其实问题就迎刃而解了。先来看看我的问题吧 问题…

Doraemon-接口自动化测试工具

这是一个自动生成接口测试测试用例的项目, 您可以通过如下方式使用他 run in python3 当你git clone 该项目后,可以通过如下命令配置你的环境 如果你习惯使用venv环境, 那么你可以进行如下操作 >>> cd doraemon >>> . venv/bin/activate >>> pip3 i…

华为防火墙双机热备

实验需求&#xff1a; 如图所示&#xff0c;PC1为公司内部网络设备&#xff0c;AR1为出口设备&#xff0c;在FW1和FW2上配置双机热备&#xff0c;当网络正常时PC1访问AR1路径为FW1-AR1&#xff0c;当FW1出现故障后&#xff0c;切换路径为FW2-AR1。 实现目的&#xff1a; 了解…

Matlab:解非线性方程组

1、基于问题求解非线性方程组 例&#xff1a; xoptimvar(x,2); %将x定义为一个二元素优化变量 eq1exp(-exp(-(x(1)x(2))))x(2)*(1x(1)^2); %创建第一个方程作为优化等式表达式 eq2x(1)*cos(x(2))x(2)*sin(x(1))1/2; %创建第二个方程作为优化等式表达式 probe…

nextTick的使用

场景&#xff1a; 左边的树有被选中项&#xff0c;则显示右边的内容&#xff0c;且清除右边表格的被选中项 代码大概就是 选中左边的树然后执行 this.$refs.treeRef.setCurrentRow(); // 取消表格高亮行 然后报错&#xff1a; 解决&#xff1a; 在外面包一层this.$nextTi…

AI可以一键生成的年终工作总结思维导图了!(内附10张年终总结模版)

月交替&#xff0c;斗转星移。不知不觉&#xff0c;2023年的进度条已经所剩无几了&#xff01; 又到了一年一度写年终总结的时候了&#xff0c;很多小伙伴是不是又开始发愁了&#xff0c;ProcessOn 告诉你不用担心&#xff0c; 我们今年上线了&#xff0c;AI一键生成各行各业年…

挑战与应对:迅软科技探讨IT企业应对数据泄密危机的智慧之路

随着信息技术的快速发展&#xff0c;软件IT行业面临着前所未有的数据安全挑战。黑客攻击、病毒传播、内部泄密等安全威胁层出不穷&#xff0c;给企业的核心资产和运营带来严重威胁。同时&#xff0c;国家对于数据安全的法律法规也日益严格&#xff0c;要求企业必须采取更加有效…

亚马逊云科技创业加速器,帮助企业重塑业务并加速生成式AI之旅

经济蓬勃发展的时代&#xff0c;每一个初创企业都可能成为未来独角兽。随着创新科技快速发展、层出不穷&#xff0c;生成式AI席卷全球&#xff0c;各行各业游戏规则面临重构&#xff0c;也为初创企业带来巨大机遇。 初创公司值得信赖的云计算厂商 全球排名前1000的独角兽&#…

Java多线程技术五——单例模式与多线程-备份

1 概述 本章的知识点非常重要。在单例模式与多线程技术相结合的过程中&#xff0c;我们能发现很多以前从未考虑过的问题。这些不良的程序设计如果应用在商业项目中将会带来非常大的麻烦。本章的案例也充分说明&#xff0c;线程与某些技术相结合中&#xff0c;我们要考虑的事情会…

ComfyUI如何中文汉化

comfyui中文地址如下&#xff1a; https://github.com/AIGODLIKE/AIGODLIKE-ComfyUI-Translationhttps://github.com/AIGODLIKE/AIGODLIKE-ComfyUI-Translation如何安装&#xff1f; 1. git安装 进入项目目录下的custom_nodes目录下&#xff0c;然后进入控制台&#xff0c;运…

ppt美化的的几个小技巧

最简单的提升方式&#xff1a;加一层相对透明的矩形底色。 1、图标设置为透明的 方法&#xff1a;双击图片-》格式-》颜色-》设置透明色 2、使用渐变填充透明度配合作为文本底色。 1&#xff09;如透明度为90%&#xff0c;颜色会变浅&#xff0c;然后作为文本的底色。 2&…

iPad绘画之旅:从小白到文创手账设计的萌系简笔画探索

&#x1f482; 个人网站:【 海拥】【神级代码资源网站】【办公神器】&#x1f91f; 基于Web端打造的&#xff1a;&#x1f449;轻量化工具创作平台&#x1f485; 想寻找共同学习交流的小伙伴&#xff0c;请点击【全栈技术交流群】 iPad的出现&#xff0c;不仅改变了我们对电子设…

HarmonyOS共享包HAR

共享包概述 OpenHarmony提供了两种共享包&#xff0c;HAR&#xff08;Harmony Archive&#xff09;静态共享包&#xff0c;和HSP&#xff08;Harmony Shared Package&#xff09;动态共享包。 HAR与HSP都是为了实现代码和资源的共享&#xff0c;都可以包含代码、C库、资源和配…

【Java基础】Java中异常分类,他们之间的区别?

&#x1f341;Java中异常分哪两类 &#x1f341;Java中异常类&#x1f341;受检异常&#x1f341;非受检异常 &#x1f341;拓展知识仓&#x1f341;什么是Throwable&#x1f341;Error和Exception的区别和联系&#x1f341; 列举几个常用的RuntimeException&#x1f341;Java异…

索引是如何提高查询性能的?

引言问&#xff1a;如何提高一条查询SQL的性能&#xff1f;答&#xff1a;最常用的方式就是加「索引」。问&#xff1a;索引为什么就能提高查询性能&#xff1f;答&#xff1a;索引就像一本书的目录&#xff0c;用目录查当然很快。问&#xff1a;为什么通过目录就能提高查询速度…

restTemplate支持https忽略证书

由于公司的某个服务器由http转为https&#xff0c;导致原先的接口不可用&#xff0c;不过网上一堆忽略ssl都可以用就不多写了&#xff0c;写几个奇葩的问题 首先报错都是 sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.cert…

前端开发之通过vue-office组件实现文件预览

前端开发之通过vue-office组件实现文件预览 前言效果图docx文件xlsx文件pdf文件 vue中简单案例1、安装组件2、vue中代码 前言 在实现文件预览的时候我们可以通过vue-office组件来实现文件的预览效果 效果图 docx文件 xlsx文件 pdf文件 vue中简单案例 1、安装组件 整体安装…

Intel® SGX Instruction References(五)

文章目录 前言一、Intel SGX Instruction Syntax and Operation1.1 ENCLS Register Usage Summary1.2 ENCLU Register Usage Summary1.3 ENCLV Register Usage Summary1.4 Information and Error Codes1.5 Internal CREGs1.6 Concurrent Operation Restrictions 二、Intel SGX …