数据指标与标签在数据分析中的关系与应用

导读:分享数据指标体系的文章很多,但讲数据标签的文章很少。实际上,标签和指标一样,是数据分析的左膀右臂,两者同样重要。实际上,很多人分析不深入,就是因为缺少对标签的应用。今天系统的讲解下。

一、 何为指标,何为标签,两者有何区别?

1、从内容上看:指标通常描述客观事实,标签往往存在人为划分。

指标是用来定义、评价和描述特定事物的一种标准或方式,多为数值型。比如:新增用户数、累计用户数、用户活跃率等是衡量用户发展情况的指标;月均收入、毛利率、净利率等是用来评价企业经营状况的指标。

标签是人为设定的,根据业务场景的需求,对目标对象运用一定的算法得到高度精炼的特征标识,标签是经过人为加工后的结果。比如客群标签可以分为长尾客户、高净值客户;产品标签有高风险和低风险。标签并不是一个客观的事实,而是由人为的定义和客观事实结合得到的数据标签。其核心的目的是划分不同的实体群组。

从二者之间的关系来说,指标和标签之间是可以相互转化的。指标可以从标签中转化,比如高净值客户的迁移率,其中高净值客户和长尾客户都是标签,但在标签的基础上增加一个迁徙率,就由标签转化为了指标。

同样标签也可以从指标转化得来,比如说银行中常用的数据标签:私行客户(AUM>=1000万),其中 AUM 就是数据指标,不同银行的标签设定可能是不同的。

2、从分类和场景上看:指标和标签的分类原则不同,使用的场景也不同。

1.指标分类一般来说指标常用的分类是相对固定的,会将指标分为原子指标、派生指标和衍生指标三类。

  • 原子指标:不叠加任何维度,仅是对业务事实的最基本描述,通常是一些整体指标,通过SQL直接统计出来的,比如客户数、项目数、成本支出数等等……
  • 派生指标:就是原子指标叠加一个或多个维度。广州在建的项目数是在建的项目数叠加地域维度;目前湛江停工的项目数,就是在建项目数加上地域维度和时间维度。
  • 衍生指标:很多时候仅仅叠加维度还不够,有时候我们还需要不同指标之间互相计算,最常见的就是求平均和占比,比如平均的项目标的、在建的项目和总项目的占比、回款额和合同额的占比……这就是衍生指标,即通过原子指标或派生指标互相加工而来。

2.标签分类标签可分为事实标签、规则标签和模型标签。

  • 事实标签是描述实体的客观事实,关注实体的属性特征,如一个部件是采购件还是非采购件,一名员工是男性还是女性等,标签来源于实体的属性,是客观和静态的;
  • 规则标签是对数据加工处理后的标签,是属性与度量结合的统计结果,如货物是否是超重货物,产品是否是热销产品等,标签是通过属性结合一些判断规则生成的,是相对客观和静态的;
  • 模型标签则是洞察业务价值导向的不同特征,是对于实体的评估和预测,如消费者的换机消费潜力是旺盛、普通还是低等,标签是通过属性结合算法生成的,是主观和动态的。

3.指标使用场景

指标通常拆解使用。比如一个较大的指标:客户数,可以拆解到不同维度上,并且加以限定词,比如手机银行客户数、七日内客户数的增量等,主要是用来监测和评价业务的效果。

4.标签使用场景

标签通常归纳使用,用来刻画某一个群体的特征,可以是客户也可以是产品,其核心是分类,给予不同类别不同的经营策略。

具体举例说明:指标体系通常会首先定义一个或几个北极星指标,比如银行常年使用AUM 作为北极星指标,将北极星指标拆解到现金/存款、投资理财或其他业务模块,同时用户也可以拆解为活跃用户和非活跃用户等。以此基础可以梳理出整体的指标框架,从而指导业务。在标签的使用场景上更多的偏向一线的营销场景,包括客户的经营、精准营销和资格判断等。通过不同客户的标签将其分成不同的类别,并进行不同的活动、资格或者产品的推送。也可以给产品打标签,用来标识产品适合哪类人群,在平安银行口袋 APP 这样的平台就做到了千人千面,每个人进去看到的具体内容是不一样的,这就是通过标签去筛选圈定的。

二、 指标体系相关概念

数据指标就是将大数据之“大”的精髓给提炼出来,展现每日观察数据的使用者最迫切想要看到的统计量。数据指标体系并不是第三方服务公司的专利,只要对埋点科学地进行数据采集,每个成型的互联网公司都可以自己搭建数据指标体系。

数据之大,很多时候人们并不知从哪里着手,甚至弄不清自己到底想要什么数据,这时候数据产品经理这一角色应运而生。数据产品经理既要完成数据体系设计,让原本无序或庞杂的数据变得“规矩”,又要根据业务场景的变化不断调整项目内容,推进项目进度,推进数据指标体系的建设与迭代。

数据指标体系的规划是平台型数据产品经理必备的能力,这也是数据产品经理有别于其他产品经理和数据分析师的方面。

《荀子》有云:“水能载舟,亦能覆舟。”在公司日常运营过程中,数据指标体系就像是水,孕育着生命,承载着万物。科学的数据指标体系能指引公司在正确的道路上不断前进,或者使平淡无常的业务焕发新生,而不合理的数据指标体系可能使得业务方无所适从。

1、什么是数据指标体系?

在了解什么是数据指标之前,我们思考一下为什么会出现指标,它是为了解决什么问题。人类及科学的发展是与时俱进的,早期为了使自然科学的实验及结果更具统一性及方便标准化衡量,一些标准化的专业指标应运而生。

随着人类社会的发展,社会科学也越来越需要统计学来进行事物的衡量,一系列统计学指标也逐步产生了。随着新信息技术的发展,数据指标逐步被大众认可为衡量目标的方法。

从社会科学角度看,指标是统计学的范畴,用于数据的描述性统计。指标是说明总体数量特征的概念及其数值的综合,故又称为综合指标。

在实际的统计工作和统计理论研究中,往往直接将说明总体数量特征的概念称为指标。传统的指标有国内生产总值(Gross Domestic Product,GDP)、国民生产总值(Gross National Product,GNP)、居民消费价格指数(Consumer Price Index,CPI)、沪深300指数等。

1. 什么是数据指标?

数据指标有别于传统意义上的统计指标,它是通过对数据进行分析得到的一个汇总结果,是将业务单元精分和量化后的度量值,使得业务目标可描述、可度量、可拆解。

数据指标需要对业务需求进行进一步抽象,通过埋点进行数据采集,设计一套计算规则,并通过BI和数据可视化呈现,最终能够解释用户行为变化及业务变化。常用的数据指标有PV、UV等。

本文提及的指标是衡量目标的方法,指标由维度汇总方式量度组成(见下图)。

指标的构成

  • 其中,维度是指从哪些角度衡量,是看待事物的视角与方向,决定了根据不同角度去衡量指标。
  • 汇总方式是指用哪些方法衡量,是统计汇总数据的方式。
  • 而量度主要是明确事物的具体目标是什么,是对一个物理量的测定,也用来明确数据的计量单位。

比如,播放总时长是指用户在一段时间内播放音频的时长总和(单位:分钟)。按照上述拆解,维度是指筛选的一段时间,汇总方式为计算了时间长度的总和,而量度就是统一的单位—分钟数。

这里,我们可以理解为指标是由这几个方面构成,相当于英文的构词法,前缀、后缀等共同形成了一个单词。

2. 什么是指标体系?

体系化的本质是将数据指标系统性地组织起来,具体会按照业务模型、按标准对指标不同的属性分类及分层。当然,不同的业务阶段、不同业务类型会有不同阶段的划分标准。

数据指标体系含有十分丰富的统计量,从宏观上看,它是一个相对全面的有机整体;从微观上看,每个数据指标都有其特定含义,反映了某一细节的客观事实。不同的数据指标定义不同,逻辑也不同,这些各种各样的统计量共同构成了数据指标体系,使其产生不可磨灭的价值。

总的来说,数据指标体系是对业务指标体系化的汇总,用来明确指标的口径、维度、指标取数逻辑等信息,并能快速获取到指标的相关信息。

2、数据指标体系的价值

数据指标体系是业务数据标准化的基础,其对指标进行了统一管理,体系化是为了方便统一修改、共享及维护。

宏观方面,数据指标体系建设是数据中台建设的重要一环,不仅符合“创新驱动”的意识,更是企业实现自身“数据驱动”发展的重要途径。

随着大数据和人工智能技术的发展,很多企业选择借助信息技术实现转型升级。在大数据时代早期,大部分数据并没有被充分地挖掘分析和利用。虽然数据规模非常大,但是却很难利用这些数据创造价值。而数据中台的提出及数据指标体系的构建,使得数据产生了实际价值。

有了数据指标,人们做决策时不再是按照经验“拍脑袋”,而是看看数据是怎样呈现的,能够及时基于数据进行战略调整及决策规划。

数据指标体系的价值主要体现在全面支持决策、指导业务运营、驱动用户增长,同时统一统计口径(如下图所示)。其中,作为压轴作用的统一统计口径对于数据指标体系而言具有战略意义。

数据指标体系的价值

在一个整体中,如果不能统一口径,那么一切分析及对比的参考价值就会显得无意义,各方也会陷入公说公有理,婆说婆有理的尴尬局面。由此说明,对于衡量整个公司的业务价值而言,建立一套统一标准的数据指标体系的作用不言而喻。

1. 全面支持决策

数据指标极具参考价值,公司的管理层为了更准确地进行战略决策,需要搭建完备的数据指标体系。一个相对全面的数据指标体系,可以让管理者对公司的发展从数据层面有一个比较客观的认知,而不是管中窥豹,这样在进行战略决策时,可以保持相对理性。

而对于新业务的洞察,也可以不断融入新的数据指标,丰富指标体系,灵活且全面地把握业务发展趋势,为未来的决策提供借鉴。

2. 指导业务运营

不懂数据的产品不是好运营,为了便捷地了解产品现状及业务效果,指标体系中会有很多拆解的细分指标,这些数据的变动反映的是用户对于运营情况的最新反馈,为运营的业务决策提供了数据支持。用户运营可以根据这些数据,了解用户的喜好,决定下一步的运营策略和活动开展。

例如,对于阅读行业来说,内容编辑会基于自己对内容的认知,将一组有共性特征的书籍组成一个书单推送给用户,那么指标体系中也会有相应的指标反映用户对这个书单的偏好。内容编辑就可以通过这些指标,了解用户的偏好,决定下一步是否要继续尝试这种类型的专题。

3. 驱动用户增长

最近最火的词莫过于用户增长,数据指标体系中的用户行为数据,可以让产品及运营人员对用户的行为路径和喜好模式有一个比较深入的理解。剖析用户的行为特征,助力用户价值的提升,让产品及运营更聚焦于产品细节的优化,更好地进行监测,提升用户留存及转化。

人们在分析和挖掘用户行为的过程中,也许会发现不少新的用户增长点。体系化的指标结合了用户的场景,且多个不同的指标和维度可以串联起来进行全局分析,解决了非体系化指标无法串联的痛点。

公司在深入进行数据分析后,可能会在原有业务中发现某个点潜藏着巨大商业价值,从而单独把这块业务重点推进,实现用户增长的二次腾飞。

4. 统一统计口径

从技术角度来看,数据中台是为了汇总与融合企业内的全部数据,甚至外部数据,打破数据隔阂,解决数据标准与口径不一致的问题。数据指标体系化有个好处是可以实现指标的统一管理,实现统一的统计口径,避免定义模糊和逻辑混乱,影响数据质量。

同时,完备的数据指标体系也可减少重复统计的问题,从而避免日志上报产生的数据冗余和重复分析产生的服务器资源浪费。

三、 标签体系相关概念

标签由标签和标签值组成,打在目标对象上,如图所示。

打标签示例

标签由互联网领域逐步推广到其他领域,打标签的对象也由用户、产品等扩展到渠道、营销活动等。

  • 在互联网领域,标签有助于实现精准营销、定向推送、提升用户差异化体验等;
  • 在行业领域,标签更多助力于战略分级、智能搜索、优化运营、精准营销、优化服务、智慧经营等。

标签分为事实标签、规则标签和模型标签,如图所示。

三种类型的标签

  • 事实标签是描述实体的客观事实,关注实体的属性特征,如一个部件是采购件还是非采购件,一名员工是男性还是女性等,标签来源于实体的属性,是客观和静态的;
  • 规则标签是对数据加工处理后的标签,是属性与度量结合的统计结果,如货物是否是超重货物,产品是否是热销产品等,标签是通过属性结合一些判断规则生成的,是相对客观和静态的;
  • 模型标签则是洞察业务价值导向的不同特征,是对于实体的评估和预测,如消费者的换机消费潜力是旺盛、普通还是低等,标签是通过属性结合算法生成的,是主观和动态的。

标签管理分为标签体系建设打标签1、标签体系建设

  1. 选定目标对象,根据业务需求确定标签所打的业务对象,业务对象范围参考公司发布的信息架构中的业务对象。
  2. 根据标签的复杂程度进行标签层级设计。
  3. 进行详细的标签和标签值设计,包括标签定义、适用范围、标签的生成逻辑等:
  • 事实标签应与业务对象中的属性和属性值保持一致,不允许新增和修改;
  • 规则标签按照业务部门的规则进行相关设计;
  • 模型标签根据算法模型生成。

2、打标签

1. 打标签数据存储结构

打标签是建立标签值与实例数据的关系,可以对一个业务对象、一个逻辑数据实体、一个物理表或一条记录打标签。

为了方便从“用户”视角查找、关联、消费标签,可增加用户表,将标签归属到该“用户”下,这里的“用户”是泛指,可以是具体的人,也可以是一个组织、一个部门、一个项目等。

2. 打标签的实现方法

  • 事实标签:根据标签值和属性允许值的关系由系统自动打标签。
  • 规则标签:设计打标签逻辑由系统自动打标签。
  • 模型标签:设计打标签算法模型由系统自动打标签。

总结:

本文首先区分了标签和指标两个概念的一些异同;后面分别介绍了指标和标签体系的一些相概念,指标体系的梳理及应用价值等,标签要根据实际的应用场景出发,建立体系化的标签。

免责声明:本文素材和观点均基于当前可获得的资料和作者的个人理解进行撰写。本文章及其中所涉及的内容仅供读者参考和交流之用,并不构成任何专业建议、投资意见或法律指导,如文中有涉及您的著作权或所有权问题,请及时联系我们修改或下架文章,谢谢~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/921869.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Flutter-Web首次加载时添加动画

前言 现在web上线后首次加载会很慢&#xff0c;要5秒以上&#xff0c;并且在加载的过程中界面是白屏。因此想在白屏的时候放一个加载动画 实现步骤 1.找到web/index.html文件 2.添加以下<style>标签内容到<head>标签中 <style>.loading {display: flex;…

51单片机基础 06 串口通信与串口中断

目录 一、串口通信 二、串口协议 三、原理图 四、串口通信配置参数 1、常用的串行口工作方式1 2、数据发送 3、数据接收 4、波特率计算 5、轮询接收 6、中断接收 一、串口通信 串口通信是一种常见的数据传输方式&#xff0c;广泛用于计算机与外部设备或嵌入式系统之间…

【深度学习之回归预测篇】 深度极限学习机DELM多特征回归拟合预测(Matlab源代码)

深度极限学习机 (DELM) 作为一种新型的深度学习算法&#xff0c;凭借其独特的结构和训练方式&#xff0c;在诸多领域展现出优异的性能。本文将重点探讨DELM在多输入单输出 (MISO) 场景下的应用&#xff0c;深入分析其算法原理、性能特点以及未来发展前景。 1、 DELM算法原理及其…

动态规划子数组系列一>最长湍流子数组

1.题目&#xff1a; 解析&#xff1a; 代码&#xff1a; public int maxTurbulenceSize(int[] arr) {int n arr.length;int[] f new int[n];int[] g new int[n];for(int i 0; i < n; i)f[i] g[i] 1;int ret 1;for(int i 1; i < n-1; i,m. l.kmddsfsdafsd){int…

RabbitMQ3:Java客户端快速入门

欢迎来到“雪碧聊技术”CSDN博客&#xff01; 在这里&#xff0c;您将踏入一个专注于Java开发技术的知识殿堂。无论您是Java编程的初学者&#xff0c;还是具有一定经验的开发者&#xff0c;相信我的博客都能为您提供宝贵的学习资源和实用技巧。作为您的技术向导&#xff0c;我将…

【mongodb】社区版8:改变配置bindip和授权

更改配置 sudo systemctl restart mongod (base) root@k8s-master-pfsrv:/home/zhangbin# sudo tail -n 20 /var/log/mongodb/mongod.log 日志感觉是成功了:{"t":{"$date":"2024-11-19T19:57:47.076+08:00"

element dialog 2层弹窗数据同步问题

注意&#xff1a;本帖为公开技术贴&#xff0c;不得用做任何商业用途 element dialog 2层弹窗数据同步问题 如果嵌套dialog&#xff0c;也就是多层dialog嵌套 2个input&#xff0c;key用同样的值 会导致内外2层dialog&#xff0c;用相同key值的input会数据同步 原因如下&a…

C# 属性 学习理解记录

字段和属性 左边字段&#xff0c;右边属性 拓展&#xff0c;属性安全&#xff1a; 1、设置public private 和protected 等&#xff0c;只读&#xff0c;只写&#xff0c; 2、在get set 方法时&#xff0c;验证&#xff0c;异常时抛出错误

如何提取某站 MV 视频中的音乐为 MP3 音频

我们常常会遇到需要将视频中的音频提取出来并转换为 MP3 格式的情况&#xff0c;比如想要单独保存一段视频中的精彩音乐、演讲或旁白。简鹿视频格式转换器就是一款能够轻松实现这一需求的实用软件&#xff0c;它支持 Windows 和 Mac 系统&#xff0c;为不同操作系统的用户提供了…

SQLynx让数据库变得简单!

SQLynx让数据库管理和开发变得更简单&#xff0c;SQLynx是一款旨在简化飞客使用体验的创新型工具&#xff0c;它为数据库管理者、数据库分析师和开发人员提供了一个直观、易用、高效的平台&#xff0c;首先&#xff0c;SQLynx拥有直观友好的用户界面。无论您是新建还是导表&…

stm32f10x_tim.h(函数学习自用)

stm32f10x_tim.h 函数库 void TIM_TimeBaseInit(TIM_TypeDef* TIMx, TIM_TimeBaseInitTypeDef* TIM_TimeBaseInitStruct); //时基单元配置void TIM_OC1Init(TIM_TypeDef* TIMx, TIM_OCInitTypeDef* TIM_OCInitStruct); void TIM_OC2Init(TIM_TypeDef* TIMx, TIM_OCInitTypeDe…

Centos Stream 9安装Jenkins-2.485 构建自动化项目步骤

官网&#xff1a;https://www.jenkins.io/ 1 下载 环境准备&#xff1a; 版本支持查询&#xff1a;https://pkg.jenkins.io/redhat-stable/ 安装JDK17&#xff1a;https://blog.csdn.net/qq_44870331/article/details/140784297 yum -y install epel-release wget upgradew…

ubuntu修改成静态ip

先用ifconfg查询网卡名称 例如以下的是enp10s0 enp10s0: flags4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500inet 192.168.100.159 netmask 255.255.255.0 broadcast 192.168.100.255inet6 fe80::127c:61ff:fe4c:ab6b prefixlen 64 scopeid 0x20<link>ether…

Canvas 前端艺术家

目前各种数据来看&#xff0c;前端未来在 数据可视化 和 AI 这两个领域会比较香&#xff0c;而 Canvas 是 数据可视化 在前端方面的基础技术。所以给大家唠唠Canvas这个魔幻工具。 Canvas 介绍 Canvas 中文名叫 “画布”&#xff0c;是 HTML5 新增的一个标签。Canvas 允许开发…

WEB攻防-通用漏洞文件上传二次渲染.htaccess变异免杀

知识点&#xff1a; 1、文件上传-二次渲染 2、文件上传-简单免杀变异 3、文件上传-.htaccess妙用 4、文件上传-PHP语言特性 1、上传后门时&#xff0c;文件内容带.就不行 这时可以上传一个转换后的ip地址&#xff0c;ip地址对应网站包含后门代码 转换后的int会在访问的时候…

Linux驱动开发(9):pinctrl子系统和gpio子系统--led实验

在前面章节&#xff0c;我们有过使用寄存器去编写字符设备的经历了。这种直接在驱动代码中&#xff0c; 通过寄存器映射来对外设进行使用的编程方式&#xff0c;从驱动开发者的角度可以说是灾难。 因为每当芯片的寄存器发生了改动&#xff0c;那么底层的驱动几乎得重写。 那么…

Element-Ui组件(icon组件)

一、前言 本篇文章主要是对官网的Icon组件进行总结归纳Icon 图标 | Element Plus 在现代Web应用开发中&#xff0c;图标是用户界面设计中不可或缺的一部分。它们不仅提升了用户体验&#xff0c;还使得信息的传达更加直观和高效。本文主要对Element Plus 官方提供的Icon组件进行…

Echarts+VUE饼图的使用(基础使用、多个饼图功能、单组饼图对应颜色使用)

安装&#xff1a;npm install echarts --save 配置:main.js // 引入echarts import * as echarts from echarts Vue.prototype.$echarts echarts一、基础饼图&#xff08;直接拷贝就能出效果&#xff09; <div class"big-box" ref"demoEhart"><…

文件管理 II(文件的物理结构、存储空间管理)

一、文件的物理结构 文件实际上是一种抽象数据类型&#xff0c;我们要研究它的逻辑结构、物理结构&#xff0c;以及关于它的一系列操作。文件的物理结构就是研究文件的实现&#xff0c;即文件数据在物理存储设备上是如何分布和组织的。同一个问题有两个方面的回答&#xff1a;…

半导体、晶体管、集成电路、芯片、CPU、单片机、单片机最小系统、单片机开发板-概念串联辨析

下面概念定义从小到大串联&#xff1a; 半导体&#xff08;semiconductor&#xff09;&#xff1a; 是一类常温下导电性能介于导体与绝缘体之间的材料&#xff0c;这种材料的导电性可以随着外部环境比如电压、温度、光照的变换而改变。常见的半导体材料有硅、锗、砷化镓等。 晶…