Web日志/招聘网站/电商大数据项目样例【实时/离线】

Web服务器日志分析项目

业务分析

业务背景

​ 某大型电商公司,产生原始数据日志某小时达4千五万条,一天日志量月4亿两千万条

主机规划

在这里插入图片描述

(可略)日志格式:

2017-06-1900:26:36101.200.190.54 GET /sys/ashx/ConfigHandler.ashx action=js
8008 - 60.23.128.118 Mazilla/5.0+ (Windows+NT+6.1;+WOW64;+rv:53.0)+Gecko/20100101+
Firefox/53.0 http://某网址/welcome.aspx 200

业务需求

  • 企业高层期望通过日志进行流量来源分析、网站访客特性等信息,从而下沉访客为会员和客户。
  • 期望通过日志网页访问,来分析出受欢迎和不受欢迎的功能模块、公司运营情况、关注细分功能访问量的统计和报表。
  • 掌握网站缺陷情况,以便进行优化分析。

用户需求

运营、运维、产品部门提出以下具体需求:

  • 运营部门想知道最活跃的用户有哪些
  • 运维部门想知道经常被访问但无法响应的页面有哪些
  • 产品部门想知道最常被访问的页面有哪些,以便进一步加强

功能需求

  • 统计客户端访问次数最多的前10个IP地址,按访问次数排序,使用EChats柱状图可视化。
  • 分析客户端访问页面不正常的页面(返回状态码不为200),同(上)一的形式展示。
  • 统计客户端访问次数最多的前10个访问路径,按访问次数排序,使用EChats柱状图可视化。

技术方案设计

技术特性

  • 数据量大
  • 不需要实时分析
  • 需要简单报表 (考虑Hive)

技术选型

大数据离线分析的行业最佳实践将架构由下向上分为5层,此处不需要机器学习层:

  • 数据采集层
  • 数据存储层
  • 数据分析层
  • 机器学习层
  • 数据展示层

数据采集层

这里选用Flume:Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据 -> 又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中。(在初步使用过程中,我们经常监听一个socket端口或者是一个目录的形式去采集元数据)。

这里我们监听目录的形式,去将数据文件采集到HDFS上供给作业处理。

配置Flume对应的.conf文件进行采集和下沉

数据存储层

使用Hadoop的文件系统HDFS进行存储,是最广泛和廉价的大数据分析平台存储方式。

使用基于hadoop的作业进行处理(文中是MapReduce)

数据分析层

此层文中规划的比较笼统,如MapReduce、Spark、Hive等(主离线),如果是实时需求我们一般采用Flink。文中采用的具体技术栈是HIVE,因为SQL语法减少了代码量。(同时需求较为简单,避免了引入Spark增加复杂度【技术没有最好的,只有符合场景下最合适的】)。

在Hive中引入hdfs中的表,进行分析处理,且输出:

开启客户端Hive,然后在Hive中创建数据库t1,在t1数据库中创建内部表a1,列之间用空格分隔,将数据文件/out/part*导入该表。然后将业务逻辑SQL处理结果输出到结果目录,针对不同的三个业务需求,进行不同的SQL处理和编写,此处略。

hive> create database t1;
hive> use t1;
hive> create table a1(... ...) row format delimited fields terminated by " ";
hive> load data inpath 'hdfs://localhost:9000/out/part*' into table a1;
hive> select * from a1 limit 10;

...

//把分析数据以覆盖的方式插入该目录
hive> insert overwrite directory 'hdfs://localhost:9000/user/hive/warehouse/a1' select n9,count(*) as num from a1 group by n9;

数据展示层

此层略述 , 主是SpringBoot一套的搭配Echatrs的可视化展示。具体是原生还是VUE均可。

Hadoop文件数据由sqoop管道传输到关系型数据库中。

利用管道工具sqoop将hdfs文件迁移到关系型数据库

sqoop export --connect jdbc:mysql://localhost:3306/sqoop --username hive --password hive --table a1 --export-dir /user/hive/warehouse/a1 --input-fields-terminated-by '\001' --num-mappers 1

项目技术栈流程图

在这里插入图片描述

招聘网站数据分析项目

相比于直接生成的数据文件,这里的原始数据通过Python爬虫进行爬取,后续步骤类似(比如技术特性一致:数据量大,非实时等),具体业务需求不一致,原始数据格式不一致(此处非日志格式,而是JSON)。即数据采集层使用Python的request模块进行采集。

项目技术栈流程图

在这里插入图片描述

电商网站实时数据分析项目

业务分析

电商网站的数据非常多,有用户基本数据(个人信息、账户信息等)、访问数据(浏览、点击、收藏、购买等)、消费数据(支付、转账等)等。借助这些信息我们取其中两个简单的业务需求。

业务需求

  • 企业高层期望能够随时查看当天的累计销售总额;
  • 部门经理期望能看到某种类型商品(如家电、食品)下的销售总额,观察日内的销售情况的变化;

功能需求

  • 统计当天的累计销售金额;
  • 统计某种类型的商品当天每个时间段内的销售金额;

这里,技术特性就多了个实时性,文中采用spark进行微批处理,近实时性。

技术选型

大数据实时计算的行业最佳实践架构由下往上分为5层:

  • 数据采集层
  • 数据缓存层
  • 数据计算层
  • 数据存储层
  • 数据展示层

这里数据采集层依旧是使用Flume进行采集原始文件数据【数据采集层】,但是采集之后下沉到缓存层不再是hdfs文件而是消息队列Kafka。【数据缓存层】。后经由Spark程序消费处理【数据计算层】后存储到Redis中【数据存储层】,再通过Spring程序进行可视化展示【数据展示层】。

核心代码

这里的核心代码是Spark的处理,如何把数据归纳到对应时间段进行累加统计,文中采用的是最简单的直接根据解析出的JSON数据中的time字段进行Redis中对应的key进行累加操作。【采用的是Redis的incrBy累加操作,此处文中未作说明,并发情况下可能封装了redis的事务watch或者CAS乐观锁?】(并未使用开窗,这里的需求和实现是伪实时的)

项目技术栈流程图

在这里插入图片描述

金融大数据分析项目

业务需求

  • 银行高层希望了解银行有哪些业务办理的方式?各自占多少份额?这样可以优化现有的资源配置,更好地服务客户
  • 银行高层希望了解各个城市的业务量分别是多少,有利于开展业务活动
  • 银行高层想要知道今年依赖哥哥月份的业务量及变化趋势,并预测今年的业务办理总量
  • 银行高层希望能给基金用户推荐合适的基金(真歹毒啊!)

功能需求

  1. 统计分析银行各种业务办理方式的占比,采用Echarts饼状图;
  2. 统计分析银行哥哥城市的业务量,并采用ECharts柱状图可视化;
  3. 统计分析银行截止到目前,每个月的业务量,并采用ECharts折线图可视化;
  4. 通过历史用户购买基金的数据,使用协同过滤算法,给当前用户推荐合适的基金;

其中(1)和(2)属于离线数据分析,(3)属于实时数据分析,(4)属于数据挖掘。

技术特性

  • 数据量较大
  • 业务较为复杂
  • 离线和实时需求交叉

技术框架

将其分为四层:数据采集层、数据处理层、数据存储层、数据展示层。

数据采集层

文中离线处理方向:数据采集使用SparkSQL从MySQL中采集数据;实时方向采用Flume和Kafka从服务器进行采集数据。

数据处理层

离线方向采用Spark Core进行数据处理;

实时方向采用Flink处理;

数据存储层

离线采用MySql进行存储;实时采用Redis进行存储;

数据展示层

采用SpringBoot和VUE.js进行处理。

项目技术栈流程图

离线方向将数据用SparkSQL从MySQL中抽取后处理存放在Hive分区表中,再用Spark进行处理和清洗统计分析保存在MySQL中。实时则是直接处理Flume采集到Kafka中的数据下沉到Redis和MySQL中。

【Flink业务处理都是简单的keyBy(0)和sum(1)】未进行开窗类的。

在这里插入图片描述

使用Spark ML进行数据挖掘:引入maven中spark-mllib_2.11调用对应的API进行结果训练获取:略。

参考

《“1+x”大数据应用开发(Java)职业技能等级证书系列教材》 卢正平 曹小平 郑子伟 编著

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/509263.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

jdk1.8下载与安装

jdk1.8下载与安装 jdk1.8下载jdk1.8安装jdk环境配置环境测试 jdk1.8下载 可以通过官网来下载,但是需要Oracl账号注册,所以这里我提供了百度网盘下载链接: 链接:https://pan.baidu.com/s/1NBapId_3UbWrz_qqf95Wgg?pwddlk7 提取码…

Python100个库分享第6个—esmre

目录 专栏导读安装安装失败解决方案常见用法1:匹配邮箱常见用法2:查找HTML标签:常见用法3:替换URL链接:总结 专栏导读 🌸 欢迎来到Python办公自动化专栏—Python处理办公问题,解放您的双手 &a…

螺钉拧紧扭矩曲线的表现——SunTorque智能扭矩系统

智能扭矩系统-智能拧紧系统-扭矩自动控制系统-SunTorque 螺钉拧紧扭矩曲线是描述螺钉在拧紧过程中扭矩与转角关系的曲线。在螺钉拧紧过程中,扭矩与转角之间存在一定的关系,这种关系可以通过扭矩曲线来反映。螺钉拧紧扭矩曲线常见的不同表现主要包括以下…

nginx | nginx反向代理/负载均衡/缓存

文章目录 一、Nginx 反向代理1.1 nginx 文件结构1.2 默认的nginx配置文件1.3 实践中的 nginx.conf 二、Nginx 负载均衡2.1 热备负载均衡2.2 轮询负责均衡2.3 加权轮询负载规则2.4 ip_hash 负载均衡2.5 对特定资源实现负载均衡2.6 对不同域名实现负载均衡2.7 实现带有URL重写的负…

vue3源码解析——ref和reactive定义响应式的区别

ref 和 reactive 是 Vue 3.0 中用于定义响应式数据的两个新 API。它们有以下区别: ref 定义单个响应式数据 数据类型可以是任意类型。它通常用于定义原始数据类型为响应式数据。返回一个响应式对象,该对象包含一个 .value 属性,可用于获取和设…

在ScadaFramework里配置采集Modbus设备

ScadaFramework是一个实现SCADA功能的软件工具,经过简单配置之后,即可采集设备数据,并进行存储、监控、组态可视化,并可将数据上传至平台。 本文将介绍如何在ScadaFramework中配置,以采集Modbus协议的设备。 一、添加链…

win10配置CLion2022+ubuntu20.04远程部署

背景 在博文ubunut搭建aarch64 cuda交叉编译环境记录中,使用的ubuntu20.04虚拟机安装eclipse来交叉编译aarch64的程序,然后发送到jetson板子上执行。开发一段时间后发现eclipse IDE使用起来不太便捷,因此,考虑使用CLion IDE&…

分库分表 ——12 种分片算法

目录 前言 分片策略 标准分片策略 行表达式分片策略 复合分片策略 Hint分片策略 不分片策略 分片算法 准备工作 自动分片算法 1、MOD 2、HASH_MOD 3、VOLUME_RANGE 4、BOUNDARY_RANGE 5、AUTO_INTERVAL 标准分片算法 6、INLINE 7、INTERVAL COSID 类型算法 …

鸿蒙(HarmonyOS)ArkTs语言基础教程开发准备

本文档适用于HarmonyOS应用开发的初学者。通过构建一个简单的具有页面跳转/返回功能的应用(如下图所示),快速了解工程目录的主要文件,熟悉HarmonyOS应用开发流程。 在开始之前,您需要了解有关HarmonyOS应用的一些基本概…

【洛谷】P9240 [蓝桥杯 2023 省 B] 冶炼金属

题目链接 P9240 [蓝桥杯 2023 省 B] 冶炼金属 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 思路 这道题可以用数学的方法去做,但是我想不到😇有兴趣的可以去看看数学的题解 比较简单的思路就是二分查找,轻松简单不费脑,带你…

pygame的搭建

pygame的介绍与环境搭建 Pygame模块 安装 WindowsR打开命令窗口,输入: pip install pygame 或者安装指定版本 pip install pygame 2.3.0常用模块 在Pygame框架中有很多模块,官方网址pygame news 。 其中最常用模块的具体说明如下表所示…

【Java SE】深入理解static关键字

🥰🥰🥰来都来了,不妨点个关注叭! 👉博客主页:欢迎各位大佬!👈 文章目录 1.static关键字1.1 static的概念1.2 static的作用1.3 static的用法1.3.1 static修饰成员变量1.3.2 static修饰…

Ubuntu20安装python3.10

1、添加 deadsnakes PPA 到源列表 add-apt-repository ppa:deadsnakes/ppa apt update 2、安装 apt install python3.10 3设置默认版本为 Python3.10 查看所有python版本 ls -l /usr/bin/python* update-alternatives --install /usr/bin/python3 python3 /usr/bin/pytho…

居里亚斩获金定奖,第13届广州定制家居展见证品牌实力飞跃

2024年3月30日,第13届广州定制家居展圆满落幕。 作为年度首场定制家居专业大展,第13届广州定制家居展的展览规模达到了100,000平方米,吸引了超过350,000人次的关注,以及800多家参展企业的参与。 在百花齐放的定制家居品类中&#…

物联网监控可视化是什么?部署物联网监控可视化大屏有什么作用?

随着物联网技术的深入应用,物联网监控可视化成为了企业数字化转型的关键环节。物联网监控可视化大屏作为物联网监控平台的重要组成部分,能够实时展示物联网设备的运行状态和数据,为企业管理决策和运维监控提供了有力的支持。今天,…

第45期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找…

使用Git处理Github中提交有冲突的pull request

前言: 为什么要写这篇文章,因为前段时间有一个开源的github中的项目有一个朋友提交了一个pr看了下是帮忙优化了下代码(十分感谢这位网友)。但是他提交的pr刚好和我的项目有许多的冲突导致无法自动合并,在github中提示…

[蓝鲸有奖征文]蓝鲸6.1 CMDB 事件推送的开源替代方案

本文来自腾讯蓝鲸智云社区用户:木讷大叔爱运维 背景 在蓝鲸社区“社区问答”帖子中发现这么一个需求: 究其原因,我在《不是CMDB筑高墙,运维需要一定的开发能力!》一文中已经介绍,在此我再简单重复下&#…

喜讯!全视通获评“医用气体行业优秀装备制造企业”称号

春意盎然,“渝”您相见。3月28日,“2024中国医学装备大会暨展览会”在重庆隆重启幕,本次展览会是我国医学装备领域政府部门、相关专家、头部企业深度参与的综合性展会,是先进技术最权威的展示平台之一,是引领创新发展的…

备战2024年中学生古诗文大会(初中组):单选题真题和独家解析

我们继续来做中学生古诗文大会(初中组)——简称初中生古诗文大会的一些真题,让大家了解初中生古诗文大会的考察内容和形式,并且提供了我独家的题目解析和答案,供初中的同学们学习和参考。 以下题目截取自我独家制作的在…