货拉拉0-1数据指标体系构建与应用

目录

一、背景

二、指标体系搭建

2.1 指标设计

2.2 指标体系搭建

2.3 指标维度拆解

三、指标标准化建设

四、指标元数据管理

五、指标应用&未来规划


   原文大佬介绍的这篇指标体系构建有借鉴意义,现摘抄下来用作沉淀学习。如有侵权请告知~

一、背景

    指标体系是指一系列维度、有组织以及结构的指标集合。构建指标体系是为了公司业务目标落地做辅助决策,以及监控业务运行的稳定性情况等。 具体从业务,技术及产品这三个视角来阐述指标体系构建中的痛点:

1. 业务视角:

  • 可信任性:业务口径不一致,导致指标数据不一致,影响到业务部门对数据的信任感;
  • 可理解性:业务术语不一致,导致不同人对业务的理解不一致,从而导致数据存在略微的差异,增加沟通成本;
  • 可衡量性:指标与业务的真实相关程度,能否准确衡量业务的变化,指导目标的达成;
  • 可追溯性:随着业务的发展,业务以及数据口径的变更,历史较难回溯;

2. 技术视角

  • 数据稳定性:数据的产出是否稳定及时;
  • 数据质量:数据是否准确,完整,一致。

3. 产品视角

  • 可访问性:数据是否易于访问;
  • 合规性:使用是否安全合规,如何防止数据泄露的风险等。

二、指标体系搭建

2.1 指标设计

针对上述痛点,我们从以下三个方面去解决:

  • 解决业务痛点:在指标设计时首先选取核心业务成体系化的来搭建指标体系,并将整个建设流程标准化;
  • 解决技术痛点:将数据研发流程规范化,把握好数据模型的业务扩展性及ETL的性能问题,并做好数据链路及质量监控;
  • 解决产品痛点:将建设的元数据产品化,数据的使用做到服务化。

    对于建设范围:先聚焦核心业务,快速将核心业务的指标体系搭建出来并落地应用,然后再迭代优化切忌刻意地追求指标的业务覆盖面,避免导致需求范围过大,实现周期太长,导致指标的应用落地严重延期。整个核心构建过程如上图中所示,目标是围绕赋能业务去设计指标。

2.2 指标体系搭建

   下面以货拉拉为例,简单介绍指标体系搭建的思路(例子与实际业务不一定相符,仅供参考):

  • 首先会制定业务的主要目标,然后依据参与人的业务轨迹梳理核心的业务过程;
  • 然后拆解负责各个核心业务的相关部门的具体目标,接着业务部门依此制定落地的方案或策略;
  • 最后为了指导目标达成,再梳理各业务具体的衡量指标。

2.3 指标维度拆解

 上图中列出了指标及维度拆解中的一些经典原则及常用数据模型。这里强调两点:

  • 遵循MECE原则,尤其是在底层数据模型的设计过程中,最好将维度和指标拆解地互斥且不交叉,这样有利于保证上层应用层维度及指标组合的灵活性,同时也有利于提升复用率、降低整体的计算及研发成本;具体的拆分方法参考如上图所示,二(多)分法、流程法等。
  • 需要深入理解各核心业务场景的常用数据分析模型(比如上图中 AARRR 等模型),结合自己公司的业务特点,选取合适的业务数据模型来搭建部门内部的指标体系。

三、指标标准化建设

指标体系建设的标准化流程可以参考以上流程图,重点强调的内容有以下两点:

  • 数据需求准入评审:为了解决业务口径描述不一致,业务口径转换为数据口径的质量问题,一定要成立一个指标评审组织,至少由业务方,数据分析人员,数仓研发人员这三部分组成,此项工作人力投入价值最大,直接影响后续研发的效率、交付质量以及是否返工修复数据口径等工作量。
  • 数据研发的标准化:为了数据模型设计工作的高质量开展,需要梳理好数据口径:核心工作内容是数据的维度及指标梳理,落地为指标维度矩阵,再进一步拆解到事实层(DWD)的维度及原子指标,这样可以更加准确得评估后续数据研发的工作量。

   指标体系建设过程中数据研发的工作重点:依据数仓的架构主要集中在汇总层各业务主题域的指标维度事实表的建设落地,其次是集市层,面向业务的多账期、跨业务主题域、衍生指标的建设工作等。

四、指标元数据管理

指标建设完成后,则需要进行指标元数据管理,主要有四部分内容:

  • 首先管理好指标建设流程;前期可以先采用 SOP 等文档落地,后续再产品化;
  • 其次管理好数据模型,包括偏向技术的物理模型和偏向业务的逻辑模型;
  • 然后管理好指标及维度的元数据信息,包括业务数据域、业务口径、数据口径、血缘关系等;
  • 最后将数据封装成服务,并将业务应用方的使用和调用信息登记管理起来,以便后期的服务稳定性分级管理及指标体系建设的业务收益回收等。

对于指标元数据管理方面,介绍以下三个相关定义:

  • 数据需求=时间+维度+指标

  • 指标=时间+修饰词+原子指标

  • 维度=通用维度+个性化的业务维度

 因此对应的具体管理内容主要是如上图所示的三部分元数据的管理,修饰词管理、指标管理和维度管理。

五、指标应用&未来规划

    对于指标体系的主要应用场景包括:业务报表和看板、特定的业务数据产品等,另外实际已落地的新场景是:结合 AI 大模型通过自然语言快速取数,具体框架如上图所示。

   具体应用场景功能设计上,对于衍生指标,即基础指标的四则运算、派生及衍生维度,关联父子维度,或者简单关联转化的维度,我们都是通过元数据配置来实现的,这样极大提高了数据应用的灵活性,并大大降低了数据及后端数据接口服务研发的成本,同时提高了需求响应的及时性。

    对于指标体系应用在未来的热门发展方向主要体现在通过自然语言快速取数、归因诊断及智能运营这三个方面:

  • 自然语言快速取数及简单可视化,在货拉拉已经接近落地,相关云厂商或者头部互联网公司也基本都有相关产品。这个场景的主要挑战是如何降低错误率,个人理解在这个场景中可以拒答,但是不能给出错误数据。
  •  诊断归因,则处于探索逐步落地阶段,前期主要先基于业务部门的分析经验来配置归因的逻辑来实现,后续再探索如何让大模型通过对行业业务的理解学习,结合数理统计分析算法来自主归因。
  • 智能运营场景,为了提高运营效率,进一步对 AI 大模型提出了更高的定制化能力要求。传统运营早已深入各行业公司的具体业务,主要是基于个人经验和历史沉淀的经验知识等,因此需要更深入理解行业及公司业务的运营知识。同时由于涉及到具体的运营策略及业务数据,对于这部分的数据安全性也是一个挑战。为了这个场景能更好地落地及推广,还要求相关产品能具备通用化且安全的行业知识学习及更新能力,并最好将大模型行业知识的学习流程产品化,降低大家的学习使用成本,在保证运营效果的同时,大大减少公司的运营人力投入成本。

参考文章:

从0到1,聊聊货拉拉如何搭建数据指标体系

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/566944.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

什么是仪器校准报告?

在科学实验和工业生产中,仪器是一种非常重要的辅助工具,无论是测量数据、控制实验进程还是保证产品质量,仪器都发挥着至关重要的作用。为了确保仪器的准确性和稳定性,仪器校准报告这一概念应运而生。本文给大家详细介绍仪器校准报…

利用STM32的定时器和中断实现精准时间控制

⬇帮大家整理了单片机的资料 包括stm32的项目合集【源码开发文档】 点击下方蓝字即可领取,感谢支持!⬇ 点击领取更多嵌入式详细资料 问题讨论,stm32的资料领取可以私信! 在嵌入式系统开发中,精确的时间控制是许多应用的…

0元实现网站HTTP升级到HTTPS(免费https证书)

HTTPS就是在HTTP的基础上加入了SSL,将一个使用HTTP的网站免费升级到HTTPS主要包括以下几个步骤: 1 获取SSL证书 永久免费的https证书申请通道https://www.joyssl.com/certificate/select/free.html?nid16 免费的SSL证书同样能实现HTTPS,国…

【前端】vue的基础知识及开发指引

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、Vue是什么二、学习 Vue.js 的基础知识三、熟悉 Vue.js 的生态系统四、掌握常用工具和库五、实践和项目开发六、 持续学习和跟进 前言 随着开发语言及人工智…

[Windows] Bypass分流抢票 v1.16.25 五一黄金周自动抢票软件(2024.02.08更新)

五一黄金周要来了,火车票难买到,即便官网候选订票也要看运气,推荐使用这个靠谱的自动抢票软件, 该工具是目前市面上最好用口碑最好的电脑抢票软件,从13年到现在,作者依旧在更新,可以自动识别123…

优秀博士学位论文分享:通往稳健在线学习的“在线集成”理论与方法

优秀博士学位论文代表了各学科领域博士研究生研究成果的最高水平,本公众号近期将推出“优秀博士学位论文分享”系列文章,对人工智能领域2023年优秀博士学位论文进行介绍和分享,方便广大读者了解人工智能领域最前沿的研究进展。 “CCF博士学位…

用于自动化机器陀螺仪传感器:XV7081BB

介绍一款用于自动化机器的数字输出型陀螺仪传感器XV7081BB。这款新推出的陀螺仪XV7081BB到底有什么魅力呢?我们可以用常用款用于智能割草机的XV7011BB作对比:XV7081BB提供16位或24位分辨率的角速率输出速率范围为400s。而XV7011BB采用16位角速度输出,检测范围为100…

软考 系统架构设计师系列知识点之大数据设计理论与实践(13)

接前一篇文章:软考 系统架构设计师系列知识点之大数据设计理论与实践(12) 所属章节: 第19章. 大数据架构设计理论与实践 第4节 Kappa架构 19.4.2 Kappa架构介绍 Kappa架构由Jay Kreps提出(Lambda由Storm之父Nayhan M…

48-PCIE转串口和并口电路设计

视频链接 PCIE转串口和并口电路设计01_哔哩哔哩_bilibili PCIe转串口和并口电路设计 1、PCIe转串并口电路设计基本介绍 2、PCIe转串口和并口的方案(京东) 2.1、PCIe转串口 2.1.1、ASIX (亚信)MCS9922-PCIe转2路RS232扩展卡 2.1.2、ASIX (亚信)MCS9900-PCIe转4路RS232扩展卡…

yield函数怎么理解?

目录 白话系列: 例子🌰: 什么叫暂停 yield和next搭配使用 例子🌰: 白话系列: 可以暂停,可以生成,next一个,yield一个 例子🌰: def generat…

如何使用 Meta AI 根据文本提示生成图片

在数字艺术和设计的世界中,AI 图片生成器已经成为了一种创新工具,它能够根据简短的文本描述来创造出令人惊叹的视觉作品。Meta AI 提供了这样一个平台,让用户可以轻松地将他们的想象变为现实。在本文中,我将指导您如何使用 Meta A…

C++——类和对象练习(日期类)

日期类 1. 构造函数和析构函数2. 拷贝构造和赋值运算符重载3. 运算符重载3.1 日期的比较3.2 日期加减天数3.3 日期减日期3.4 流插入和流提取 4. 取地址和const取地址重载5. 完整代码Date.hDate.c 对日期类进行一个完善,可以帮助我们理解六个默认成员函数&#xff0c…

图搜索算法详解:广度优先搜索与深度优先搜索的探索之旅

图搜索算法详解:广度优先搜索与深度优先搜索的探索之旅 1. 广度优先搜索(BFS)1.1 伪代码1.2 C语言实现 2. 深度优先搜索(DFS)2.1 伪代码2.2 C语言实现 3. 总结 图搜索算法是计算机科学中用于在图结构中查找路径的算法。…

手撕红黑树(map和set底层结构)(2)

[TOC]红黑树 一 红黑树概念 红黑树,是一种二叉搜索树,但在每个结点上增加一个存储位表示结点的颜色,可以是Red或Black。 通过对任何一条从根到叶子的路径上各个结点着色方式的限制,红黑树确保没有一条路径会比其他路径长出俩倍&…

54-摄像头DVP接口电路设计

视频链接 摄像头电路设计-DVP接口01_哔哩哔哩_bilibili 摄像头DVP接口电路设计 1、摄像头简介 1.1、Camera介绍 在各类信息中,图像含有最丰富的信息,作为机器视觉领域的核心部件,摄像头被广泛应用。 目前市面上最常用的摄像头为OV5640。…

【面试必备】Python 快问快答

什么是 Python,它有哪些主要特点 答:Python 是一种高级解释型编程语言,以简单易读著称。其主要特点包括动态类型、自动内存管理(垃圾回收)、丰富的标准库以及对多种编程范式(过程式、面向对象、函数式&…

内容营销ROI提升秘籍:Kompas.ai的高效内容分析

在内容营销的领域中,投资回报率(ROI)是衡量营销活动成效的关键指标。一个高ROI的内容营销策略不仅能够为企业带来直接的经济收益,还能够提升品牌价值和市场影响力。本文将深入探讨内容营销中ROI的重要性,介绍Kompas.ai…

【嵌入式】Arduino IDE + ESP32开发环境配置

一 背景说明 最近想捣鼓一下ESP32的集成芯片,比较了一下,选择Arduino IDE并添加ESP32支持库的方式来开发,下面记录一下安装过程以及安装过程中遇到的坑。 二 下载准备 【1】Arduino IDE ESP32支持一键安装包(非常推荐&#xff0…

canvas 学习

最近的项目涉及到 canvas 相关的知识,就在网站上找资源先大概了解一下,然后再细细研究。 看到了一篇 “canvas详细教程” 的资源,感觉十分不错,就分享给大家: canvas详细教程! ( 近1万字吐血总结)这期是潘潘整理的万…

C++入门(3)

文章目录 C入门auto同一行中定义多个变量auto不能推到的场景基于范围的for循环(C11)10. 指针空值nullptr(C11) C入门 auto auto:C11中,标准委员会赋予了auto全新的含义即:auto不再是一个存储类型指示符,而是作为一个新的类型指示…