Web日志/招聘网站/电商大数据项目样例【实时/离线】

Web服务器日志分析项目

业务分析

业务背景

某大型电商公司，产生原始数据日志某小时达4千五万条，一天日志量月4亿两千万条。

主机规划

在这里插入图片描述

（可略）日志格式：

2017-06-1900:26:36101.200.190.54 GET /sys/ashx/ConfigHandler.ashx action=js
8008 - 60.23.128.118 Mazilla/5.0+ (Windows+NT+6.1;+WOW64;+rv:53.0)+Gecko/20100101+
Firefox/53.0 http://某网址/welcome.aspx 200

业务需求

企业高层期望通过日志进行流量来源分析、网站访客特性等信息，从而下沉访客为会员和客户。
期望通过日志网页访问，来分析出受欢迎和不受欢迎的功能模块、公司运营情况、关注细分功能访问量的统计和报表。
掌握网站缺陷情况，以便进行优化分析。

用户需求

运营、运维、产品部门提出以下具体需求：

运营部门想知道最活跃的用户有哪些
运维部门想知道经常被访问但无法响应的页面有哪些
产品部门想知道最常被访问的页面有哪些，以便进一步加强

功能需求

统计客户端访问次数最多的前10个IP地址，按访问次数排序，使用EChats柱状图可视化。
分析客户端访问页面不正常的页面（返回状态码不为200），同（上）一的形式展示。
统计客户端访问次数最多的前10个访问路径，按访问次数排序，使用EChats柱状图可视化。

技术方案设计

技术特性

数据量大
不需要实时分析
需要简单报表（考虑Hive）

技术选型

大数据离线分析的行业最佳实践将架构由下向上分为5层，此处不需要机器学习层：

数据采集层
数据存储层
数据分析层
~~机器学习层~~
数据展示层

数据采集层

这里选用Flume：Flume可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据 -> 又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中。（在初步使用过程中，我们经常监听一个socket端口或者是一个目录的形式去采集元数据）。

这里我们监听目录的形式，去将数据文件采集到HDFS上供给作业处理。

配置Flume对应的.conf文件进行采集和下沉

数据存储层

使用Hadoop的文件系统HDFS进行存储，是最广泛和廉价的大数据分析平台存储方式。

使用基于hadoop的作业进行处理（文中是MapReduce）

数据分析层

此层文中规划的比较笼统，如MapReduce、Spark、Hive等（主离线），如果是实时需求我们一般采用Flink。文中采用的具体技术栈是HIVE，因为SQL语法减少了代码量。（同时需求较为简单，避免了引入Spark增加复杂度【技术没有最好的，只有符合场景下最合适的】）。

在Hive中引入hdfs中的表，进行分析处理，且输出：

开启客户端Hive，然后在Hive中创建数据库t1，在t1数据库中创建内部表a1，列之间用空格分隔，将数据文件/out/part*导入该表。然后将业务逻辑SQL处理结果输出到结果目录，针对不同的三个业务需求，进行不同的SQL处理和编写，此处略。

hive> create database t1;
hive> use t1;
hive> create table a1(... ...) row format delimited fields terminated by " ";
hive> load data inpath 'hdfs://localhost:9000/out/part*' into table a1;
hive> select * from a1 limit 10;

...

//把分析数据以覆盖的方式插入该目录
hive> insert overwrite directory 'hdfs://localhost:9000/user/hive/warehouse/a1' select n9,count(*) as num from a1 group by n9;

数据展示层

此层略述，主是SpringBoot一套的搭配Echatrs的可视化展示。具体是原生还是VUE均可。

Hadoop文件数据由sqoop管道传输到关系型数据库中。

利用管道工具sqoop将hdfs文件迁移到关系型数据库

sqoop export --connect jdbc:mysql://localhost:3306/sqoop --username hive --password hive --table a1 --export-dir /user/hive/warehouse/a1 --input-fields-terminated-by '\001' --num-mappers 1

项目技术栈流程图

在这里插入图片描述

招聘网站数据分析项目

相比于直接生成的数据文件，这里的原始数据通过Python爬虫进行爬取，后续步骤类似（比如技术特性一致：数据量大，非实时等），具体业务需求不一致，原始数据格式不一致（此处非日志格式，而是JSON）。即数据采集层使用Python的request模块进行采集。

项目技术栈流程图

在这里插入图片描述

电商网站实时数据分析项目

业务分析

电商网站的数据非常多，有用户基本数据（个人信息、账户信息等）、访问数据（浏览、点击、收藏、购买等）、消费数据（支付、转账等）等。借助这些信息我们取其中两个简单的业务需求。

业务需求

企业高层期望能够随时查看当天的累计销售总额；
部门经理期望能看到某种类型商品（如家电、食品）下的销售总额，观察日内的销售情况的变化；

功能需求

统计当天的累计销售金额；
统计某种类型的商品当天每个时间段内的销售金额；

这里，技术特性就多了个实时性，文中采用spark进行微批处理，近实时性。

技术选型

大数据实时计算的行业最佳实践架构由下往上分为5层：

数据采集层
数据缓存层
数据计算层
数据存储层
数据展示层

这里数据采集层依旧是使用Flume进行采集原始文件数据【数据采集层】，但是采集之后下沉到缓存层不再是hdfs文件而是消息队列Kafka。【数据缓存层】。后经由Spark程序消费处理【数据计算层】后存储到Redis中【数据存储层】，再通过Spring程序进行可视化展示【数据展示层】。

核心代码

这里的核心代码是Spark的处理，如何把数据归纳到对应时间段进行累加统计，文中采用的是最简单的直接根据解析出的JSON数据中的time字段进行Redis中对应的key进行累加操作。【采用的是Redis的incrBy累加操作，此处文中未作说明，并发情况下可能封装了redis的事务watch或者CAS乐观锁？】（并未使用开窗，这里的需求和实现是伪实时的）