项目二 _____(电商日志数据分析项目)
- 项目部署过程
- 相关依赖
- 运行结果截图
- 统计页面浏览量
- 日志的ETL操作
- 统计各个省份的浏览量
项目部署过程
以IDEA 2023版本为例
步骤一:创建一个空项目,命名为demo_2,并指定语言类型和构建工具,这里选择Java和Maven,选择自己的JDK版本,推荐使用1.8
,在下方的Advanced Setting中的GroupId以及ArtifactId默认即可,点击Create创建。
在IDEA上方File—>New—>Project可以找到创建New Project。
创建成功如图所示,这里的Main.java可以删除。
在pom.xml文件中加入新的Hadoop依赖,点击右上角进行刷新。
加载成功会出现如下的图示。
我们需要导入本地的maven路径,这应该是在创建完项目后就要进行的,
点击File—>Settings。
在最上方搜索框输入maven,或者在Build,Execution,Deployment—>Build Tools—>Maven,在Maven home path设置自己的maven安装路径,User setting file 首先点击一下Override,然后选择自己maven路径下中的conf文件夹下的settings.xml文件,Local repository 新建一个文件夹作为本地仓库地址,命名为localRepository。
在src—>main—>java—>org—>example目录下,创建一个名为PageCount的Java Class,如图所示。
并向其中填写代码。
在编写ETL解析代码之前,我们需要导入工具类,复制粘贴即可,注意导入目录
继续创建一个名为ETL和PageProvince的Java Class,并向其中填入代码。
点击IDEA右侧栏中的maven—>Lifecycle—>package,进行打包。
在下方出现BUILD SUCCESS,表示打包成功。
在生成的target目录中包含demo_2-1.0-SNAPSHOT.jar就是我们的目的jar包
将jar包上传到Linux操作系统的本地上,通过Xftp工具,Windows路径(左侧)为你生成的jar包路径,Linux路径(右侧)就是你操作系统的当前路径,点击一下即可上传。
上传成功后,可以通过ls命令或者ll命令在当前目录下找到上传的jar包
进行在Linux中操作运行,
通过命令start-all.sh,启动Hadoop集群,
并通过命令hdfs dfs -put /trackinfo_20130721.txt /pageFlum将需要处理的数据文件上传到HDFS上。
首先需要创建/pageFlum目录,hdfs dfs -mkdir /pageFlum,
通过命令hadoop jar demo_2-1.0-SNAPSHOT.jar org.example.PageCount /pageFlum 运行jar包。
之后ETL类和PageProvince类分别运行,通过修改org.example后的类名即可。
hadoop jar demo_2-1.0-SNAPSHOT.jar org.example.ETL /pageFlum
hadoop jar demo_2-1.0-SNAPSHOT.jar org.example.PageProvince /ETL/etl
在output/PageCountOut查看结果文件part-r-00000,即为统计页面浏览量的结果
在ETL/etl查看结果文件part-r-00000,即为日志ETL解析结果
在output/PageProvinceOut查看结果文件part-r-00000,即为省份浏览量的结果
相关依赖
<dependencies>
<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client -->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.2.0</version>
</dependency>
</dependencies>
<groupId>
:指定依赖的组织ID,这里是 org.apache.hadoop,表示 Apache Hadoop 组织。
<artifactId>
:指定依赖的项目ID,这里是 hadoop-client,表示 Apache Hadoop 的客户端库。
<version>
:指定依赖的版本号,这里是 3.2.0,表示您要使用的 Apache Hadoop 客户端库的版本是 3.2.0。