写给大数据开发:好的指标定义、特性与业务价值

在大数据时代,数据的质量对于业务决策和数据分析至关重要。好的数据不仅丰富,而且准确、及时,为业务提供有力支撑。

文章目录

    • 数据定义与特性
    • 数据对业务的价值
    • 指标展示与规范化定义
    • 一些指标的定义
    • 好的数据是业务成功的关键

数据定义与特性

好的数据应满足三个核心特性:丰富性、准确性和及时性。

DALL·E Infographic June 12.webp

丰富性:丰富的数据意味着涵盖多个维度和层面,能够全面描述业务情况。例如,在电商领域,一个完整的用户订单数据可能包含用户ID、商品ID、购买数量、购买时间、支付状态等多个字段。

-- 假设有一个名为orders的表,包含上述字段  
SELECT * FROM orders;

准确性:准确的数据是分析结论可靠性的基石。在数据分析中,我们经常使用聚合函数和条件筛选来确保数据的准确性。

-- 计算总销售额(假设订单表中有一个字段叫total_amount表示订单金额)  
SELECT SUM(total_amount) AS total_sales FROM orders;    
-- 筛选已支付的订单  
SELECT * FROM orders WHERE payment_status = 'paid';

及时性:及时的数据代表了我们对市场变化的快速响应能力。在实时数据分析系统中,我们经常使用流处理框架(如Apache Kafka、Apache Flink)来确保数据的实时性。

数据对业务的价值

好的数据对业务具有多方面的价值。
image.png

对于业务

  1. 提升决策效率:通过减少解释数据、统一数据口径的时间,业务团队可以将更多精力用于业务分析。

对于开发

  1. 提高需求响应速度:通过减少因数据质量问题导致的反复修改时间,开发团队可以更高效地响应业务需求。

指标展示与规范化定义

在数据分析过程中,指标是不可或缺的要素。然而,如果指标定义不清晰或存在歧义,将严重影响数据分析的准确性和效率。
image.png

指标展示

  • 使用可视化工具(如Tableau、PowerBI)来展示指标,如趋势图、折线柱状组合图、饼图等。

指标规范化定义

  • 引入指标命名公式:限定词+业务主题+指标名称+量化词,以确保指标定义的清晰性和一致性。

以下是一个基于指标命名公式的SQL查询示例,用于计算“当天首次下单并完成支付的新用户销售金额”:

-- 假设我们有两个表:users(用户表)和orders(订单表)
-- 用户表中包含用户ID(user_id)和注册时间(registration_date)
-- 订单表中包含订单ID(order_id)、用户ID(user_id)、订单金额(order_amount)、下单时间(order_date)和支付状态(payment_status)

-- 计算当天首次下单并完成支付的新用户销售金额

SELECT
    DATE(order_date) AS order_date,
    SUM(order_amount) AS new_user_sales_amount
FROM
    orders o
JOIN
    (
        SELECT
            user_id,
            MIN(order_date) AS first_order_date
        FROM
            orders
        WHERE
            payment_status = 'paid'
        GROUP BY
            user_id
        HAVING
            DATE(first_order_date) = DATE(orders.order_date)
    ) AS first_orders
    ON o.user_id = first_orders.user_id
JOIN
    users u
    ON o.user_id = u.user_id
WHERE
    DATE(o.order_date) = CURRENT_DATE
    AND DATE(u.registration_date) < DATE(o.order_date)
GROUP BY
    order_date;

这个查询首先通过子查询找出每个用户的首次下单日期,并将其与当前日期比较,确保只计算当天的数据。然后,它连接用户表以确保只计算新用户的订单(即注册日期在订单日期之前的用户)。最后,它按订单日期分组并计算销售金额。

一些指标的定义

在遵循“限定词+业务主题+指标名称+量化词”的命名规则下,我们可以对上面的指标定义表格中的指标名称进行重命名。以下是根据这个规则重新命名的指标名称示例:

指标编号指标名称业务主题指标描述量化词计算公式/方法数据来源
1日新增用户注册量用户增长新增注册用户的数量计数每日新增用户ID数量用户注册表
2周活跃用户数用户活跃度在一周内有活跃行为的用户数量计数每周登录或进行其他指定行为的用户数量用户行为日志
3总订单量销售业绩用户下单的总数量计数订单表中订单ID的数量订单表
4平均订单金额销售业绩所有订单的平均金额平均总订单金额 / 订单数量订单表
5月销售额销售业绩所有订单的总金额总额SUM(订单金额)订单表
6次月用户留存率用户忠诚度用户在次月返回应用的比率百分比(次月回访用户数 / 同期总用户数) * 100%用户行为日志
7访问至购买转化率营销效果访问用户中实际下单用户的比率百分比(下单用户数 / 访问用户数) * 100%访问日志、订单表
8客户满意度平均评分客户服务用户对服务或产品的满意度评分平均分用户评分总和 / 参与评分用户数用户反馈表
9页面跳出率网站/应用性能用户在访问单个页面后离开的比率百分比(单页面访问量 / 总访问量) * 100%页面访问日志
10用户首次访问至首次购买平均时长用户转化周期用户从首次访问到首次购买所花费的时间平均时长(首次购买时间 - 首次访问时间)的平均值用户行为日志、订单表

好的数据是业务成功的关键

总之,好的数据是业务成功的关键。
通过确保数据的丰富性、准确性和及时性,并规范化定义指标,我们可以为业务提供有力支撑,提升决策效率和准确性。
同时,结合适当的代码示例,我们可以更清晰地展示如何在实际中运用这些概念。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/703189.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在 Wed 中应用 MyBatis(同时使用MVC架构模式,以及ThreadLocal 事务控制)

1. 在 Wed 中应用 MyBatis&#xff08;同时使用MVC架构模式&#xff0c;以及ThreadLocal 事务控制&#xff09; 文章目录 1. 在 Wed 中应用 MyBatis&#xff08;同时使用MVC架构模式&#xff0c;以及ThreadLocal 事务控制&#xff09;2. 实现步骤&#xff1a;1. 第一步&#xf…

python爬虫爬取微博评论--完整版(超详细,大学生不骗大学生)

目录 一、找到页面 二、学会使用检查元素 2.1 打开检查元素界面 2.2 找到所有评论所在的位置 2.2.1 搜索评论 2.2.2 找到data表 三、基础部分代码实现 四、格式化输出 4.1 了解存储格式 4.2 单独取出内容 4.3 取出所有评论内容 4.4 格式化读取信息 五、导出成表格…

【ARM Cache 与 MMU 系列文章 7.4 -- ARMv8 MMU 配置 寄存器使用介绍】

请阅读【ARM Cache 及 MMU/MPU 系列文章专栏导读】 及【嵌入式开发学习必备专栏】 文章目录 MMU 转换控制寄存器 TCR_ELxTCR_ELx 概览TCR_ELx 寄存器字段详解TCR 使用示例Normal MemoryCacheableShareability MMU 内存属性寄存器 MAIR_ELxMAIR_ELx 寄存器结构内存属性字段Devic…

两种典型的嵌入式系统架构模式

大多数嵌入式系统都具备实时特征&#xff0c;那么&#xff0c;这种嵌入式系统的典型架构可概括为两种模式&#xff0c;即层次化模式架构和递归模式架构。 1.层次化模式架构 为了达到概念一致性&#xff0c;许多系统通过层次化的方法进行搭建。这样做的结果是&#xff1a;位于高…

【漏洞复现】海洋CMS /js/player/dmplayer/dmku/ SQL注入漏洞复现(CVE-2024-29275)

0x01 产品简介 海洋CMS是一套专为不同需求的站长而设计的内容管理系统&#xff0c;灵活、方便、人性化设计、内容的专业网站。海洋CMS基于PHPMySql技术开发&#xff0c;完全开源免费、无任何加密代码。简单易用是最大的特色&#xff0c;可快速建立一个海量 0x02 漏洞概述 海…

翻译: Gen AI生成式人工智能学习资源路线图一

Introduction 介绍 本文档旨在作为学习现代人工智能系统背后的关键概念的手册。考虑到人工智能最近的发展速度&#xff0c;确实没有一个好的教科书式的资源来快速了解 LLMs 或其他生成模型的最新和最伟大的创新&#xff0c;但互联网上有大量关于这些主题的优秀解释资源&#x…

.NET周刊【6月第2期 2024-06-09】

国内文章 C#开源实用的工具类库&#xff0c;集成超过1000多种扩展方法 https://www.cnblogs.com/Can-daydayup/p/18230586 文章介绍了一个免费的C#工具类库Z.ExtensionMethods&#xff0c;可以通过NuGet包管理器轻松集成。该库支持.NET Standard 2.0和.NET Framework 4.0&am…

make和Cmake都有什么区别?(内附使用详解)

Make和Cmake make和Cmake的区别&#xff1a; 角色和功能: make: 是一个构建工具&#xff0c;它的任务是读取 Makefile 文件&#xff0c;并基于这些文件中的指令执行具体的构建操作。Makefile 文件包含了如何构建项目的规则&#xff0c;make 负责解析这些规则并执行必要的命令来…

webshell获取总结(cms获取方法、非cms获取方法、中间件拿Webshell方法)

目录 前期准备&#xff1a; 1、cookices靶场网站搭建&#xff1a; 2、dedecms靶场环境搭建&#xff1a; 获取Webshell方法总结&#xff1a; 一、CMS获取Webshell方法 二、非CMS获取Webshell方法 1、数据库备份获取Webshell 例如&#xff1a; 2、抓包上传获取Webshell 3、…

什么是APS计划排程? 企业产能与效率提升的智能引擎

快节奏和愈发激烈的现代工业环境中&#xff0c;如何提升生产效率、降低生产成本、最大化的满足订单交期、实现企业的降本增效&#xff0c;已成为众多企业关注的焦点。而APS系统——作为高级生产计划和调度系统的代表&#xff0c;正以其卓越的生产过程实时监控、产品加工过程优化…

[CAN] 创建解析CAN报文DBC文件教程

&#x1f449;本教程需要先安装CANdb软件&#xff0c;[CAN] DBC数据库编辑器的下载与安装 &#x1f64b;前言 DBC(全称为Database CAN)&#xff0c;是用于描述单个CAN网络中各逻辑节点的信息。 DBC是汽车ECU&#xff08;Electronic Control Unit&#xff0c;电子控制单元&…

Java面试八股之构造方法有哪些特性

构造方法有哪些特性 方法名与类名相同&#xff1a;构造方法的名称必须与它所在的类名称完全相同&#xff0c;包括大小写。 无返回类型&#xff1a;构造方法没有返回类型声明&#xff0c;连void也不需要。虽然没有明确的返回类型&#xff0c;但它隐式地返回了新创建的实例的引…

基于Java的诊所医院管理系统,springboot+html,MySQL数据库,用户+医生+管理员三种身份,完美运行,有一万一千字论文

演示视频 基本介绍 基于Java的诊所医院管理系统&#xff0c;springboothtml&#xff0c;MySQL数据库&#xff0c;用户医生管理员三种身份&#xff0c;完美运行&#xff0c;有一万一千字论文。 用户&#xff1a;个人信息管理、预约医生、查看病例、查看公告、充值、支付费用...…

后端开发面经系列 -- 小鹏汽车一面面经

小鹏汽车一面面经 公众号&#xff1a;阿Q技术站 来源&#xff1a;职言详情页 (maimai.cn) 文章目录 小鹏汽车一面面经1、String类型为什么不可变&#xff1f;1. 安全性2. 缓存和性能优化3. 哈希码缓存4. 类设计和接口5. 简单性和可读性 2、在浏览器中输入url地址到显示主页的过…

一文搞懂flex布局

上学读书的时候&#xff0c;学习flex布局&#xff0c;更多停留在理论知识层面。近来&#xff0c;经过工作实践&#xff0c;发现自己对flex布局的理解更加深入&#xff0c;运用起来更加熟练&#xff0c;也越发能感受到flex布局的强大灵活性&#xff0c;特来总结一波。若有错误之…

Linux部署mysql8.0.28数据库

目录 1.基础准备 (1)首先去官网下载二进制安装包 (2)下载好之后上传至服务器 (3)禁用关闭selinux和防火墙 (4)挂载光盘搭建本地yum仓库 2.解压到指定目录 3.检查系统是否安装mariadb 4.安装MySQL数据库 (1)进入MySQL目录 看到‘完毕’就说面mysql已经安装成功了 4.初…

2024-6-12-IXI(mat)应用到SR的代码解读

数据集 Download and decompress data from the link 百度网盘 请输入提取码 Password: qrlt Transform .h5 format to .mat format "python convertH5tomat.py --data_dir XXX/T2Net/h5 论文:Task Transformer Network for Joint MRI Reconstruction and Super-Resoluti…

大数据概论总结

三次信息化浪潮 : 信息技术的支撑 : 存储设备容量不断增加 CPU的处理能力不断提高 网络带宽不断增加 数据产生方式的变革促成大数据时代的来临 运营式系统阶段用户原创内容感知式系统阶段 大数据发展历程 : 分为三个阶段 : 大数据的概念 : 1 . 数据量大 : 根据IDC作出…

量产导入 | Tessent Scan 和 ATPG

目标 Upon completion of this module, you should be able to: Use Tessent Scan to insert full scan. Write a scan-inserted netlist file. Write ATPG setup files. lnsert test logic. Create, configure, and balance scan chains. Edit a scan chain order file and …

PyCharm2018图文安装教程、附录软件下载

软件简介 PyCharm 2018是一款IDE集成开发环境&#xff0c;主要功能包括代码调试、语法高亮、智能提示、单元测试、版本控制等&#xff0c;支持Python 3.7&#xff0c;改进search everywhere功能等&#xff0c;可以让用户快速的开发程序。 软件下载 复制链接浏览器打开 https…