聊一聊大数据需求的流程

大致的流程:需求对接、口径梳理、数据开发、任务发布、任务监控、任务保障

大数据需求种类.png

流程图

@startuml
skinparam packageStyle rectangle

actor 需求方
participant 数据BP as 数据组
participant 离线数仓
participant 实时数仓

需求方 -> 数据组: 提出需求
数据组 -> 数据组: 分析需求
数据组 -> 离线数仓: 确认指标\n口径&数据源确认
离线数仓 -> 实时数仓: 数据探查
实时数仓 -> 离线数仓: 接入数据开发验证
离线数仓 -> 实时数仓: 数据验收
实时数仓 -> 离线数仓: 数据上线

note right: 发起口径变更
离线数仓 -> 实时数仓: 判断是否涉及实时
alt 是
实时数仓 -> 离线数仓: 拉齐离线实时口径
end
alt 否
离线数仓 -> 离线数仓: 口径变更
end

离线数仓 -> 离线数仓: 离线变更
离线数仓 -> 实时数仓: 实时变更
实时数仓 -> 实时数仓: 数据验收
实时数仓 -> 实时数仓: 数据上线
@enduml

渲染过之后,长这样子了

数据需求-2024-06-08-14-35-57.png

大数据开发是一个复杂而系统性的过程,涉及多个环节和角色。以下是各个环节的详细介绍:

1. 需求对接

需求对接是大数据开发的起点,主要包括以下几个步骤:

  • 需求收集:与业务部门或客户沟通,明确他们的数据需求。例如,需要哪些数据、数据的来源、数据处理后的输出形式、数据的更新频率等。
  • 需求分析:分析需求的可行性,评估技术实现的难度,估算所需的时间和资源。
  • 需求确认:与业务部门或客户确认需求细节,确保双方对需求有一致的理解。
示例1:零售行业的需求对接
  • 需求收集
    • 业务背景:某零售连锁店希望分析会员消费数据,以便进行精准营销。
    • 沟通内容
      • 数据需求:会员的购买历史、优惠券使用记录、反馈评论等。
      • 数据来源:POS系统、会员管理系统、在线购物平台。
      • 输出形式:个性化营销方案、促销活动推荐。
      • 更新频率:每周更新一次。
  • 需求分析
    • 可行性分析:数据获取和处理的复杂性,数据量的大小,对数据实时性的要求。
    • 资源估算:预计需要1个月时间,涉及1名数据工程师、1名数据分析师。
  • 需求确认
    • 细节确认:与营销部门详细讨论和确认每个数据字段和分析指标,确定数据的处理流程和输出方式。
    • 确认文档:编写需求文档并获得相关部门签字确认。
      大数据需求.png

2. 口径梳理

口径梳理是指对数据指标、维度等进行定义和规范化,以确保数据的一致性和准确性。具体步骤包括:

  • 定义数据口径:明确数据指标的计算方法、维度的划分方式、数据的来源等。
  • 口径文档:编写详细的口径文档,记录数据口径的定义和规则,以便后续开发和维护。
  • 沟通确认:与相关部门沟通口径定义,确保所有人对口径的理解一致。

3. 数据开发

数据开发是整个过程的核心环节,涉及数据的获取、处理和存储。具体步骤包括:

  • 数据采集:从各种数据源(如数据库、日志文件、API等)获取原始数据。
  • 数据清洗:对原始数据进行清洗,处理缺失值、重复数据、异常值等问题。
  • 数据转换:根据需求对数据进行转换和加工,如聚合、分组、计算等。
  • 数据存储:将处理后的数据存储到数据仓库或数据库中,以便后续使用。

4. 任务发布

任务发布是指将开发完成的数据处理任务部署到生产环境中,通常包括以下步骤:

  • 测试:在测试环境中对数据处理任务进行测试,确保其能正确运行。
  • 部署:将经过测试的数据处理任务部署到生产环境中。
  • 发布:正式发布数据处理任务,并通知相关部门或客户。

5. 任务监控

任务监控是保证数据处理任务正常运行的重要环节,具体包括:

  • 实时监控:通过监控系统实时监控任务的运行状态,及时发现和处理异常。
  • 日志分析:通过分析任务的运行日志,了解任务的执行情况,发现潜在问题。
  • 告警机制:设置告警机制,当任务运行出现异常时,及时通知相关人员处理。

6. 任务保障

任务保障是确保数据处理任务稳定运行的一系列措施,包括:

  • 备份和恢复:定期备份数据和任务配置,确保在发生故障时能快速恢复。
  • 容错机制:设计任务的容错机制,如任务失败时自动重试、任务失败时的应急预案等。
  • 性能优化:对数据处理任务进行性能优化,提高任务的执行效率,减少资源消耗。
  • 定期巡检:定期对数据处理任务进行巡检,发现并解决潜在问题,确保任务的长期稳定运行。

以上是大数据开发各个环节的详细介绍,每个环节都至关重要,只有各个环节紧密配合,才能确保大数据开发工作的顺利进行和最终数据产品的高质量交付

需求流程.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/691589.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据挖掘--认识数据

数据挖掘--引论 数据挖掘--认识数据 数据挖掘--数据预处理 数据挖掘--数据仓库与联机分析处理 数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法 数据挖掘--分类 数据挖掘--聚类分析:基本概念和方法 数据对象与属性类型 属性:是一…

STM32关于uc/OS-III的多任务程序

目录 一、UCOS-III源码获取 二、HAL库工程的建立 1.RCC配置 2.SYS配置 3.USART1配置 4.GPIO配置 5.时钟配置 6.项目配置 三、KEil文件添加 1.文件复制 2.KEil工程添加 3.添加文件路径 四、代码修改 1. 2.修改文件app_cfg.h中代码 3.修改include.h的代码 4.修改…

数据库 | 关系数据库设计

第七章 1.简述数据库的设计阶段?(简要回答数据库设计步骤?)((数据库设计有哪几个阶段?) 需求分析、概念结构设计、逻辑结构设计、物理结构设计、数据库的实施、数据库的运行和维护…

【国产NI替代】SMU 源测量仪:源测量单元平台主要用于半导体、传感器、模组等 IVR 测试测量

• 集 5 台仪器 (数字万用表、电压源、电流源、电子负载和脉冲发生器) 功能于⼀体 • 典型输出源及测量精度 02%,支持直流/脉冲输出模式 • 脉冲输出模式,最⼩脉冲宽度 100 us ,上升时间 10 us • 具有 pA 级分辨率高精度源,且…

全自动饲料机械成套设备:养殖好帮手

全自动饲料机械成套设备是一套能够自动完成饲料生产全过程的机械设备。从原料的粉碎、混合、制粒,到成品的包装、储存,再到生产过程的监控与管理,全部实现自动化操作。减轻了人工劳动强度,提高了生产效率,同时也保证了…

【ARM Cache 及 MMU 系列文章 6 -- Cache 寄存器 CTR_EL0 | CLIDR | CCSIDR | CSSELR 使用详解 1】

请阅读【ARM Cache 及 MMU/MPU 系列文章专栏导读】 及【嵌入式开发学习必备专栏】 文章目录 Cache 常用寄存器Cache CSSELR 寄存器Cache CSSELR 使用场景Cache CSSELR 操作示例 Cache CLIDR 寄存器LoUU 介绍LoUU 使用 LoUIS 介绍CLIDR 使用 Cache CCSIDR 寄存器Cache CTR_EL0 C…

http协议,tomcat的作用

HTTP 概念:Hyper Text Transfer Protocol,超文本传输协议,规定了浏览器和服务器之间数据传输的规则。 特点: 1.基于TCP协议:面向连接,安全 2. 基于请求-响应模型的:一次请求对应一次响应 3HTTP协议是无状态的协议:对于事务处理没有记忆能…

大模型应用:基于Golang + 大模型构建简易的电商售前对话服务

1.背景 某X互联网电商公司为了解决当前大量用户的售前咨询问题,需要建设一个不需要客服介入的简易电商售前机器人,用于回答用户的售前问题,并给出基本可靠的咨询回答。 当前大模型如gpt、baichuan、文心等均有开放使用的OpenAPI接口&#xf…

单片机+TN901非接触式红外测温设计

摘要 温度测量技术应用十分广泛,而且在现代设备故障检测领域中也是一项非常重要的技术。但在某些应用领域中,要求测量温度用的传感器不能与被测物体相接触,这就需要一种非接触的测温方式来满足上述测温需求。本论文正是应上述实际需求而设计的…

【Autopilot】没有自动添加本地管理员的问题处理

【问题】某公司选用了D记的笔记本电脑,约定出厂就预配置好Autopilot,当时向D记提供了三个信息: 1. M365的租户ID 2. 公司域名信息 3. Group Tag (某公司为跨国公司,通过Group Tag来区分国家,比如CHN-中国,L…

2024 IDEA最新永久使用码教程(2099版)

本篇文章我就来分享一下2024年当前最新版 IntelliJ IDEA 最新注册码,教程如下,可免费永久,亲测有效,适合Windows和Mac。 本教程适用于 J B 全系列产品,包括 Pycharm、IDEA、WebStorm、Phpstorm、Datagrip、RubyMine、…

Web LLM 攻击技术

概述 在ChatGPT问世以来,我也尝试挖掘过ChatGPT的漏洞,不过仅仅发现过一些小问题:无法显示xml的bug和错误信息泄露,虽然也挖到过一些开源LLM的漏洞,比如前段时间发现的Jan的漏洞,但是不得不说传统漏洞越来…

[Cloud Networking] Layer Protocol (continue)

文章目录 1. STP / RSTP / MSTP Protocol1.1 STP的作用1.2 STP 生成树算法的三个步骤1.3 STP缺点 2. ARP Protocol3. DHCP Protocol3.1 DHCP 三种分配方式3.2 DHCP 攻击 4. IPSEC / MACSEC 1. STP / RSTP / MSTP Protocol 1.1 STP的作用 消除二层环路:通过阻断冗余…

分享一个 .NET Core Console 项目使用依赖注入的详细例子

前言 依赖注入(Dependency Injection,简称DI)是一种软件设计模式,主要用于管理和组织一个软件系统中不同模块之间的依赖关系。 在依赖注入中,依赖项(也称为组件或服务)不是在代码内部创建或查…

Vitis HLS 学习笔记--global_array_RAM初始化及复位

目录 1. 简介 2. 示例代分析 2.1 源代码 2.2 URAM 不可用 2.3 代码功能解释 2.4 综合报告 2.4.1 顶层控制接口 2.4.2 软件 IO 信息 2.4.3 存储绑定 3. 对比两种 solution 3.1 solution_A 3.2 solution_B 4. 总结 1. 简介 在C程序中,数组是一种基本的…

每日5题Day18 - LeetCode 86 - 90

每一步向前都是向自己的梦想更近一步,坚持不懈,勇往直前! 第一题:86. 分隔链表 - 力扣(LeetCode) /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;…

为下一波创新做准备:人工智能和元宇宙

人工智能和元宇宙的发展带来了独特的可能性和挑战。随着这些技术的发展,我们进入了一个沉浸式虚拟体验和智能系统的时代,我们正站在一个历史性的时刻。为迎接下一波创新,采取必要的措施是很重要的。 我们正在见证两项变革性技术的激动人心的发…

【TB作品】msp430f5529单片机,dht22,温湿度传感器,OLED显示屏

使用DHT22温湿度传感器和OLED显示屏的单片机项目 博客名称 利用MSP430单片机读取DHT22并显示温湿度 作品功能 本项目利用MSP430单片机读取DHT22温湿度传感器的数据,并将温湿度信息显示在OLED显示屏上。通过这个项目,您可以学习如何使用单片机与传感器…

计算机二级Access操作题总结——简单应用

查询设计 创建一个查询,能够在客人每次结账时根据客人的姓名提示统计这个客人已住天数和应交金额,并显示“姓名”、“房间号”、“已住天数”和“应交金额”,所建查询命名为“qT2”。 注:输入姓名时应提示“请输入姓名”。已住天…

vscode输出控制台中文显示乱码最有效解决办法

当VSCode的输出控制台中文显示乱码时,一个有效的解决办法是通过设置环境变量来确保编码的正确性。以下是解决方式: 首先,设置环境变量以修正乱码问题: 如果上述方法没有解决乱码问题,请继续以下步骤: 右键…