hadoop编程之词频统计

数据集实例

java代码，编程

实例

我们要先创建三个类分别为WordCoutMain、WordCoutMapper、WordCoutReducer这三个类

对应的代码如下

WordCoutMain

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 
public class WordCountMain{
	public static void main(String[] args) throws Exception {
	    Configuration conf = new Configuration();
	    Job job = Job.getInstance(conf);
	    job.setJarByClass(WordCountMain.class);
	    job.setMapperClass(WordCountMapper.class);
	    job.setReducerClass(WordCountReducer.class);
	    job.setMapOutputKeyClass(Text.class);
	    job.setMapOutputValueClass(LongWritable.class);
	    job.setOutputKeyClass(Text.class);
	    job.setOutputValueClass(LongWritable.class);
	    FileInputFormat.setInputPaths(job, new Path(args[0]));
	    FileOutputFormat.setOutputPath(job, new Path(args[1]));
	    job.waitForCompletion(true);
	}
 
}

WordCoutMapper

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
 
public class WordCountMapper extends Mapper<LongWritable, Text, Text, LongWritable> {
@Override
protected void map(LongWritable key1, Text value1, Context context)
throws IOException, InterruptedException {
		String data = value1.toString();
      	String[] words = data.split(" ");
        	for(String w:words)
       	 {
        		context.write(new Text(w),new LongWritable(1));
       	 }
        }
}

WordCoutReducer

import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
 
 
public class WordCountReducer extends Reducer<Text, LongWritable,Text, LongWritable> {
@Override
protected void reduce(Text k3, Iterable<LongWritable> v3,Context   context) throws IOException,InterruptedException {
        	long  total = 0;
        	for(LongWritable v:v3)
       	 {
        		total+=v.get();
       	 }
        	context.write(k3, new LongWritable(total));
        }
}

对应的使用命令

hadoop jar 1.jar  ch01.WordCountMain  /user/data/input/hamlet.txt  /user/data/output/ch1

hadoop jar 包名   引用主类   输入文件路径  输出文件路径

结果展示

学习链接：

在Ubuntu上用mapreduce进行词频统计（伪分布式）_mapreduce怎么统计txt文件词频终端-CSDN博客

利用mapreduce统计部门的最高工资_使用mapreduce查询某个部门中薪资最高的员工姓名,如果输出结果的格式为“薪资员-CSDN博客

hadoop编程之工资序列化排序-CSDN博客

hadoop编程之部门工资求和-CSDN博客

hadoop编程之词频统计-CSDN博客

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/563725.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

hadoop编程之词频统计

相关文章

亚马逊---设计安全架构

买了个三星i9300(S3)供以后给黑莓Q10开发软件用(安卓4.3)

深度学习之视觉特征提取器——VGG系列

layabox手游全面屏、ipad屏幕适配方案

Java web应用性能分析服务端慢之Nginx慢

Flink Job提交分析

Springboot+Vue项目-基于Java+MySQL的影城管理系统(附源码+演示视频+LW)

Unity 新版输入系统（Input System）

【WEB前端2024】开源元宇宙：乔布斯3D纪念馆-第8课-新增摆件

mysql基础20——数据备份

C++笔试强训day4

【嵌入式】keil5安装（同时兼容C51和STM32）

vue-Router 路由（常量路由）

mysql基础6——多表查询

【MATLAB源码-第190期】基于matlab的32QAM系统相位偏移估计EOS算法仿真，对比补偿前后的星座图误码率。

舍得酒业陷入瓶颈期：业绩增速再放缓，股价低迷，市场信心缺失？

加入新团队时，为什么你需要一个“WTF 笔记本”

引用静态方法

docker 报错 error adding seccomp filter rule for syscall clone3

是用computed获取vuex数据后，修改数据页面不响应的问题