黑马甄选离线数仓项目day01(项目介绍)

课程介绍

  • 项目名称 黑马甄选
  • 数仓形式 离线数仓开发
  • 业务类型 电商业务

电商介绍

B2B B2C C2C

项目属于 新零售电商 新零售 线上(网站,app,小程序)+ 线下(实体体验店)+ 物流(自营物流)

项目行业 果蔬生鲜领域

商业模式 B2C 企业售卖商品给个人

项目业务介绍

  • 门店业务
    • 线下实体店
    • 及时达(快递物流)
    • 社区团购
    • 三方平台 在第三发平台开设店铺
  • 线上商城
    • 线上的B2C的网站
  • 商品批发
    • app 经销商在app中下单采购
  • 大客户团购
    • app 公司在app中下单采购
  • 自营商品
    • 商品贴牌

线下到线上

  • 有线下的连锁商店,为了线上购物需求,开发了网站,app,小程序
  • 在三方平台开设店铺
  • 线下商店 根据规模不同可以 商品批发 ,企业团购

线上到线下

现有线上网站,引入新零售场景,开始发展线下(开设店铺,发展物流)

开发需求介绍

  • 销售需求
  • 会员需求
  • 供应链需求
  • 商城需求

不同需求就是一个开发主题

需求开发完成后会有新的需求产生

项目架构介绍

数仓分层架构

  • 传统数仓架构
    • 数据是自上而下进行开发 ,上是上游数据
    • 在导入数据时,直接将所有数据导入数仓,在根据需求从数仓中筛序数据进行计算
    • 该架构模式会造成数仓中存储大量无用数据
      • 用户数据
      • 订单数据
      • 商品数据
      • 业务需求
        • 计算用户总量
        • 计算每天新增用户量
        • 计算每天留存用户量
        • 月增用户量
        • 月留存用户量
    • 传统数仓架构,需求变化快
  • 离线数仓架构
    • 自下而上 先确认下游的计算需求,根据计算需求向上找要计算的数据,将需要计算的数据导入数仓
    • 维度表 分组数据 时间维度表
    • 事实表 计算内容做为事实表
      • 用户主题分析 用到时间维度表 年月日 tb_dt_user
      • 商品主题分析 用到时间维度表 时分秒 tb_dt_goods

技术架构

数仓架构描述的是数据处理流程

技术架构描述的是实现数仓用的技术组成

  • 数据源存储
    • Mysql
    • SQL Server
  • 数据导入 ETL
    • sqoop
    • datax
    • flume
    • kettle
  • 数据仓库
    • 分布式存储 hdfs
    • 分布式计算 mapreduce + hive
    • 资源调度 yarn
  • 数仓数据导出
    • datax
    • sqoop
    • kettle
  • 存储结果的数据库
    • mysql
    • Oracle
    • SQL server
    • PostGreSQL
  • 数据展示
    • FineBI
    • FineReport
    • superset
    • powerBI
  • 任务调度
    • DS
    • oozie

项目人员及开发周期介绍

项目人员构成

  • 项目经理 1人
  • 管控整个项目的开发进度
  • 进行部门和人员协调
  • 产品经理 1人
    • 负责产品设计
      • 网站,app产品
  • 数据分析师或数据产品经理 1人
    • 负责主题需求设计
  • 数据开发 2-4人
    • 进行数仓搭建开发
  • 业务开发
    • 网站,app
    • 前端开发 pc端1人 手机端1人
    • 后端开发 1人
  • 测试开发 1-2人
    • 产品测试,检查功能是否完整,计算结果是否正确
  • 大数据运维开发 1
    • 大数据软件安装,业务的上线部署,服务器维

项目开发周期

产品调研 说明该项目开发原因,形成立项报告进行审批

数仓设计 设计数仓分层,技术选型,数仓表设计

数仓开发

集成测试 测试数仓开发的代码是否计算正确

上线部署

项目服务器选择

  • 物理服务器还是云服务器
    • 成本问题
    • 项目中选择物理机 配置 128G 内存 ,20核物理CPU,40线程 ,8T HDD和 2T SSD硬盘
  • 服务器数量
    • 基于每天产生的数据量进行推测
    • 当前项目每天产生 34G的数据
    • 历史数据数量 10T
    • 增量数据 未来五年(服务器进行扩容)的数据 34G*365*5 = 15T
    • 计算时中间结果的存储 34G * 0.5 17G * 365*5 = 7.5T 10+15+7.5=32.5T
    • 3副本存储 数据存储三份 32.5 * 3
    • 每台服务器需要预留20%空间 97.5 / 0.8 = 122 T
    • 开发需要13台服务器 预留测试服务器 2台 管理服务器3台 (namenode resourcemanager CM的主服务)

产生订单数据人数占 日活用户 30–40% 日活用户占总用户量的10%-20%

CDH介绍

CDH Cloudera’s Distribution Including Apache Hadoop

CDH 是商业版的hadoop,由Cloudera公司基于开源的hadoop进行二次开发,封装更多的功能,部分功能需要付费使用

CDH 集成了一个 CM(Cloudera Manager),使用各B(浏览器)/S(服务器)模型服务,可以在CM中通过web浏览器页面管理维护hadoop集群

CM的核心角色

server 主服务 处理CM的各类请求

agent 从服务 运行多台服务器上,接受server分配的任务

项目数据介绍

服务器说明

hadoop01 192.168.88.80

hadoop02 192.168.88.81

账户 root

密码 123456

注意: 需要通过域名访问hadoop服务,就需要更改windos下域名解析文件

在这里插入图片描述
在这里插入图片描述

mysql数据导入

在这里插入图片描述
账户 root

密码 123456

sqlserver

用户名: SA
密码: ITheima123
端口号: 1433

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/619656.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[图解]实现领域驱动设计译文暴露的问题03

0 00:00:02,960 --> 00:00:04,940 前面我们讲了 1 00:00:05,260 --> 00:00:06,810 第①句话的 2 00:00:07,090 --> 00:00:09,750 第(1)个问题和第(2)个问题 3 00:00:13,920 --> 00:00:16,930 共享父类的对象&#…

【代码随想录算法训练Day5】今天休息,复盘总结

Day5 休息日 时机恰到好处,刚好学习完了数组和链表,从代码随想录里扒了两张总结图来,这就是这几天里我们一起解决的问题,如果以后忘了,还有问题,先回到这里,只看思维导图,还能想起来…

WordPress 管理员密码重置方法汇总

最近明月碰到一个 WordPress 站长求助咨询,说是自己 WordPress 站点的管理员密码被恶意篡改了,对 WordPress 了解的都知道这一般都是恶意代码造成的,问题大多出在使用了所谓的破解版、去授权版的插件或者主题被植入了恶意代码、后门木马。明月…

【目标检测论文解读复现NO.38】基于改进YOLOv8模型的轻量化板栗果实识别方法

前言 此前出了目标改进算法专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读最新目标检测算法论文&#xff0c…

革新机器人任务规划:TREE-PLANNER引领高效、准确的机器人动作生成新趋势

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享,与你一起了解前沿深度学习信息! 引言 任务规划在机器人技术中扮演着至关重要的角色。它涉及到为机器人设计一系列中级动作(技能),使其能够完成复杂的高级任…

网络基础(三)——网络层

目录 IP协议 1、基本概念 2、协议头格式 2.1、报头和载荷如何有效分离 2.2、如果超过了MAC的规定,IP应该如何做呢? 2.3、分片会有什么影响 3、网段划分 4、特殊的ip地址 5、ip地址的数量限制 6、私有ip地址和公网ip地址 7、路由 IP协议 网络…

C语言/数据解构——(随即链表的复制)

一.前言 嗨嗨嗨,大家好久不见。已经有好几天没更新了。今天我们就分享一道链表题吧——随即链表的复制https://leetcode.cn/problems/copy-list-with-random-pointer废话不多说,让我们直接开始今天的题目分享吧。 二.正文 1.1题目描述 他和单链表不同…

Java入门最小必要知识:变量及其本质

编程语言是与计算机交流的桥梁,而在编程世界中,变量是这座桥上不可或缺的砖石。 从本质上,可以把复杂的编程工作简化为两件事: ①定义变量②操作变量 可见,变量之于编程的重要性。 对于Java开发者,理解…

自动土壤墒情监测仪

TH-GTS04随着科技的快速发展,自动土壤墒情监测仪已成为现代农业、园林、城市绿化等领域不可或缺的重要工具。其中,管式土壤墒情监测仪以其独特的优势,受到了广大用户的青睐。本文将详细阐述管式土壤墒情监测仪的优势,以便读者更好…

【AI+漫画】程序员小李解决疑难杂症BUG的日常

周末花了点时间制作的AI漫画。 感慨一句,程序人生, 相伴随行。 原文链接:【AI漫画】程序员小李解决疑难杂症BUG的日常

java sql中 大于 小于 大于等于 小于等于 代替符号

在写java时sql会经常会忘记大于小于号的表示方法导致无法运行&#xff0c;总结一下 第一种方法&#xff1a; < &#xff1a;< < &#xff1a; < &#xff1a;> &#xff1a; > sql如下&#xff1a; create_at > #{startTime} and create_at < #{end…

AI图书推荐:利用生成式AI实现业务流程超自动化

《利用生成式AI实现业务流程超自动化》&#xff08;Hyperautomation with Generative AI&#xff09;这本书探索了广泛的用例和示例&#xff0c;展示了超自动化在不同行业、领域和特定部门的多样化应用&#xff0c; 让您熟悉UiPath、Automation Anywhere和IBM等流行工具和平台&…

vue3中的toRef、toRefs和toRaw

1.toRef toRef 的作用是将一个响应式对象中的属性转换成单独的响应式引用。转换后的响应式引用会跟踪原始属性的变化。转换后的响应式可以被用于计算属性及监听器中。 如果原始对象是非响应式的则不会更新视图&#xff0c;数据会改变。 接收两个参数&#xff1a; 参数一&…

DDS块集是如何工作的?

DDS块集使你能够在Simulink中创建DDS应用程序。如果你有一个在Simulink中建模的应用程序&#xff0c;希望能够使用DDS&#xff0c;则可以使用DDS块集轻松连接到DDS中间件平台。 DDS块集将DDS概念引入Simulink环境&#xff0c;在Simulink应用程序中对这些概念进行建模&#xff0…

一个注解实现SpringBoot接口请求数据和返回数据加密,提高系统安全性!

注解实现接口加密 1、前言1.1、前端必看1.2、后端必看 2、后端注解实现2.1、实现流程2.2、开始实现2.2.1、 pom2.2.2、 注解2.2.3、 加密工具类2.2.3、 定义切面(注意切点包名)2.2.4、 定义加密基类与各种入参VO2.2.5、写两个Controller 3、参考文章 1、前言 起因是公司给人开发…

Python | Leetcode Python题解之第79题单词搜索

题目&#xff1a; 题解&#xff1a; class Solution:def exist(self, board: List[List[str]], word: str) -> bool:def dfs(i, j, k):if not 0 < i < len(board) or not 0 < j < len(board[0]) or board[i][j] ! word[k]: return Falseif k len(word) - 1: r…

linux性能监控之lsof

lsof&#xff1a;list open files&#xff0c;显示所有打开的文件以及进程信息&#xff0c;我们通常用来检查特定的文件被哪些进程打开 [rootk8s-master ~]# lsof --help lsof: illegal option character: - lsof: -e not followed by a file system path: "lp" lso…

《软件方法(下)》8.3.3 泛化的一些重点讨论(202405更新)

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 8.3 建模步骤C-2 识别类的关系 8.3.3 泛化的一些重点讨论 8.3.3.1 子集的不相交和完整 泛化是集合关系&#xff0c;在建模泛化关系时&#xff0c;我们对泛化关系中的子类&#xff0…

【随笔】Git 高级篇 -- 远程跟踪分支 git checkout -b | branch -u(三十五)

&#x1f48c; 所属专栏&#xff1a;【Git】 &#x1f600; 作  者&#xff1a;我是夜阑的狗&#x1f436; &#x1f680; 个人简介&#xff1a;一个正在努力学技术的CV工程师&#xff0c;专注基础和实战分享 &#xff0c;欢迎咨询&#xff01; &#x1f496; 欢迎大…

Postman基础功能-常见类型的接口请求

天空灰暗到一定程度&#xff0c;星辰就会熠熠生辉。大家好&#xff0c;之前给大家分享了关于 Postman 工具的介绍以及安装&#xff0c;在当今数字化的时代&#xff0c;接口请求在软件开发和系统集成中扮演着至关重要的角色。而 Postman 作为一款强大且广受认可的接口测试工具&a…