数据化运营09 抓住问题关键:用相关性分析拆解多个影响因素

前一讲,和你探讨了多维分析的方法,通过多维分析来寻找指标变化的原因。当我们找到问题的原因时,自然会进一步思考一个问题:指标变化的原因这么多,决定问题的关键因素又是哪个呢?

需要专栏原数据进行实操的同学,可到“拉勾教育”公众号回复“数据化”,即可在百度云盘中获取本专栏的 21 组数据源。

比如,我们在工作场景中时不时会经常讨论这些问题:

  • 电商同学说,我们有 5 个品类,想知道哪个品类销售对整体销售贡献更大?

  • 渠道同学说,我们运营了 10 个渠道,想知道哪个渠道的用户对整体活跃作用更大?

  • 留存同学说,我们分析了 7 个客群,想知道哪个客群对整体的留存关系更大?

  • 产品同学说,产品已经上线一段时间,到底哪些维度(城市、年龄段、操作系统)更影响整体活跃?

还有很多类似的场景不一一列举。这些业务场景明显复杂很多,除了要能告知原因外,还需要明确出不同原因的重要性。确实,我们知道影响活跃的因素有很多,可资源有限,不可能全面铺开逐一去解决,只能集中优势资源解决核心问题。

那么如何从一大堆原因中找出最核心的原因呢?接下来,我将与你分享一个定量判断指标原因重要性和优先级的方法:相关性分析。

什么是相关性分析?

相关性分析,指对两个或多个指标进行分析,评估它们两两之间联系或相互影响的程度。相关性分析不仅可以分析出多个指标间的联系程度,还能给出联系程度紧密的量化值。

例如,相关性分析能够分析出营销活动的投入成本和活动转化率的相关程度,不仅能够告诉我们投入成本越高,转化率越高的数据关系,还能告诉我们高到什么程度。

图片1.png

相关性分析,使用“相关系数”这个指标定量给出几个指标间联系和影响的程度,通常用 p 来表示,我们用 p 值判断指标的相关性时遵循以下两个步骤。

相关系数 p 是一个介于 -1~1 的小数。

1.判断指标间是正相关、负相关,还是不相关

  • 当 p>0,认为指标间是正相关,也就是两者的趋势一致。
    如果指标 A 与指标 B 的 p>0,那么指标 A 上涨,指标 B 也会上涨;反之亦然。

  • 当 p<0,认为指标间是负相关,也就是两者的趋势相反。
    如果指标 A 与指标 B 的 p<0,那么指标 A 上涨,指标 B 会下降;反之亦然。

  • 当 p=0,认为指标间无任何联系。

2.其次判断相关的程度

  • 当 p 的值在 [0.5,1] 之间,认为指标间是强相关,认为指标间的业务联系非常紧密。
    当指标 A 和指标 B 是强相关,那么当我们去运营指标 A 时,指标 B 也会明显地发生变化。

  • 当 p 的值在 [0.1,0.5) 之间,认为指标间是弱相关,认为指标间的业务联系不太紧密。
    当指标 A 和指标 B 是弱相关,那么当我们去运营指标 A 时,指标 B 会有相应变化,但变化不明显。

  • 当 p 的值在 [0,0.1) 之间,认为指标间是无相关,认为指标间的业务联系无任何联系。
    当指标 A 和指标 B 是不相关,那么当我们去运营指标 A 时,指标 B 不会有任何相应的变化。

相关性分析的理论不复杂,我们看看在一些产品运营场景中是如何应用的。

相关性应用场景有哪些?

事实上,相关性分析的应用场景非常多,基本上只要提到“它俩有什么关系?”“哪个指标的作用/贡献/价值更大?”“我们应该重点解决哪个问题?”时,都可以用相关性分析给出定量和准确的回答,非常便于产品运营找到解决问题的核心抓手。

我将各类业务场景及其指标总结为下表,可供你需要时参考使用。

图片2.png

接下来,我们通过三个案例进行“相关性分析”实战。

产品运营场景实战案例

1.如何分析哪个客群的留存对整体留存贡献更大?

留存的运营中我们最常看的就是新客的留存和活跃客群的留存,用来评估哪个客群的留存与整体的留存联系更紧密,以便制定后续运营的策略。

图片3.png

对于这样的报表,我们需要找出到底是哪个客群的留存对于整体留存的影响最大。如果能找出来这个关系,那么后续要提升留存,就有非常清晰的方向。

用相关性分析可以很好地回答这个问题,在 Excel 中点击“数据”选项卡,进入“数据分析”,找到“相关系数”,选择数据区域,点击确定即可,分析结果如下图所示。

在 Excel 中的具体操作过程,会在本课时的最后讲解。

图片4.png

上表就是相关性分析输出的相关系数表,其中显示了指标两两间的相关系数。

可以看出,活跃访客的留存率与整体留存率的相关系数是 0.61,大于 0.5,故是强相关;而新增访客的留存率与整体留存率的相关系数只有 0.15,小于 0.5,故是弱相关。

所以如果要提升整体留存率,我们的产品运营资源应当更多地投放给活跃用户,以提升整体的留存率;而新增访客,虽然不会拿到很多运营资源,但是我们也要去深入分析为什么新增访客的留存的贡献比较小,适时做一些提升这部分客群与整体留存的策略。

2.如何找出对购买转化率贡献最高的渠道?

基本上电商运营会同时部署多个渠道,包括线上电商平台以及线下的门店。由于现有某产品从各个渠道获客的用户在产品上的购买转化率,需要评估哪些渠道的用户对整体购买转化率贡献最大,后续将重点营销此渠道。

图片5.png
图片6.png

可以看出各个渠道对整体购买转化率的相关性为:

  • 渠道 A 对整体购买转化率的相关性为 -1.2%

  • 渠道 B 对整体购买转化率的相关性为 48.2%

  • 渠道 C 对整体购买转化率的相关性为 6.4%

  • 渠道 D 对整体购买转化率的相关性为 -23.9%

可以看出,渠道 B 的购买转化率对整体购买转化率为正向贡献,故若要提升整体购买转化率,应当投入资源在渠道 B 的运营;同时,渠道 A 和渠道 D 对整体购买转化率为负向贡献,应当仔细分析排查原因。

3.如何分析哪些因素对 DAU 的影响更大?

我们分析 DAU 时常会将它拆解为各种维度来分析,这里我们分析与 DAU 联系最紧密的维度到底是哪些,以帮助我们制定针对性的运营策略,如下图所示。
图片7.png

由于数据源过多,该数据图并非完整数据,仅为部分截图。

对于这样的报表,我们需要找出到底是哪几个城市、哪个操作系统,以及哪个年龄段的用户对于 DAU 的影响最大。如果能找出来这个关系,那么后续要提升 DAU,就有非常清晰的方向。

用相关性分析可以很好地回答这个问题,在 Excel 中点击“数据”选项卡,进入“数据分析”,找到“相关系数”,选择数据区域,点击确定即可,分析结果如下图所示。

图片8.png

  • 先分析城市维度与 DAU 的相关性大小

考察这三个城市与 DAU 的相关系数,按照相关系数的大小排序依次是:上海 > 深圳 > 广州。

也就是说,从城市维度来看,上海、深圳与 DAU 的相关系数最高,超过 0.5,属于强相关;广州与 DAU 的相关系数小于 0.5,属于弱相关。

所以,如果要提升 DAU,那么促活的资源应当更多地投放在上海和深圳这两个城市的用户上。

图片9.png

  • 再分析操作系统维度与 DAU 的相关性大小

考察 Android、iOS 与 DAU 的相关系数,按照相关系数的大小排序依次是:iOS < Android,并且 Android 的相关系数高达 0.83,属于强相关。

也就是说,从操作系统维度来看,Android 设备的用户活跃对整体 DAU 贡献最大。所以,如果要提升 DAU,那么促活的资源应当更多地投放在 Android 的用户上。
图片10.png

  • 最后分析年龄段维度与 DAU 的相关性大小

考察这三个年龄段与 DAU 的相关系数,按照相关系数的大小排序依次是:大于 30 岁 > 20~30 岁 > 小于 20 岁。

也就是说,从年龄段维度来看,大于 30 岁的客群与 DAU 的相关系数最高,达到 0.94,属于强相关;20~30 岁的客群与 DAU 的相关系数为 0.12,小于 0.5,属于弱相关。

图片11.png

所以,如果要提升 DAU,那么促活的资源应当更多地投放在年龄大于 30 岁的用户上。特别地,我们还发现小于 20 岁的客群与整体 DAU 呈现弱的负相关。

一般而言,出现了负相关情况我们要更加留意,并且进行深入的专题分析。例如,分析这部分客群的行为和路径特征、留存等情况,来判断是产品功能或服务无法满足,还是用户体验不好,或是运营活动出现偏差导致了出现负相关。如果这个客群仍是我们的目标客群,那我们仍需要在做上述分析后努力将负相关转为正相关。

用“相关性分析”找出违背业务常识的真实情况

相关性分析除了能帮我们找出关键的影响因素,还能帮助我们论证业务逻辑的有效性,甚至能纠正我们的思维误区。

有时候,我们想当然的业务常识,可能就是与真实情况相悖的。接下来,向你介绍一个案例。

我有一个朋友是做快消品的,负责公司牙膏产品的渠道推广。他在快手、抖音等短视频平台根据产品的功能特性投放了大量的广告,希望可以引流短视频用户到淘宝去付费下单。

可他用“相关性分析法”追踪短视频平台商品链接的点击情况与淘宝付费下单情况时,非常意外地发现产品视频的点击量和淘宝的付费用户数毫无相关关系。

然后据此追踪用户行为,经过仔细排查后发现,用户的行为模式并不如预期所想。

  • 他预想的用户行为模式是:用户在短视频平台看到商品视频后,点击商品链接自动唤醒淘宝并直接进入商品详情页,同时引导用户直接付费,降低用户行为路径长度,提升付费率。

  • 可用户实际行为模式却是:用户在看到商品的视频后,关掉短视频 App,手动启动淘宝,搜索商品名称,找到目标商品进入详情页完成购买转化。

于是厂商果断大幅调整营销方向,不再在短视频平台投放“产品功能特性关键字”,而是投放“品牌”;在淘宝搜索栏也不再购买“产品功能特性关键字”,而是购买“品牌类关键字”。如此之后营销效果立竿见影。

如果没有相关性分析,谁能想到在各大短视频平台投放产品营销资源,与引流到电商完成付费转化这两者几乎无关联呢?

【注意:相关性分析前,别忘剔除指标中的异常值】

异常的指标,不管是极大值,还是极小值,都会显著影响相关性的计算,严重影响相关性结果。所以一般情况下,需要先通过描述性统计找出异常值,将异常值剔除后再进行相关性分析。

关于异常值,你可回顾《07 | 分析突破口:如何通过指标抓取数据的主要特征?》

操作:在 Excel 中进行“相关性分析”

在 Excel 中为我们提供了相关性分析的算法包,操作步骤如下。

第一步:点击“数据”选项卡,找到“数据分析”。

图片12.png

第二步:选择数据区域。

图片13.png

第三步:点击确定完成。

图片14.png

小结

“相关性分析”最大的作用,就是将两个事情/事物之间的关系做出了量化考核:
当 p 的值在 [0.5,1] 之间,认为指标间是强相关;
当 p 的值在 [0.1,0.5) 之间,认为指标间是弱相关;
当 p 的值在 [0,0.1) 之间,认为指标间是无相关

并能通过量化值对致因因素进行排序,让我们对业务的影响因素有了更清晰的认知,也就是能让我们看清事情的主要矛盾,能抓住“问题关键”制定出更合适的运营策略。

讲到这里,第一大类分析:描述分析的三种常用分析方法就讲完了,下图是这三个方法的核心知识点,希望你能够结合自己的工作场景去理解和使用。

图片15.png

接下来我们就要进入第二大类分析:推断分析的内容,看看推断分析能够为我们的产品运营解决哪些更加复杂的场景和问题。

我是磊叔,下次课见~~~



精选评论

**小编:

需要专栏原数据进行实操的同学,可到“拉勾教育”公众号回复“数据化”,即可在百度云盘中获取本专栏的 21 组数据源。

**生:

上一节的案例为什么不需要做相关性分析就可以得到结论?

    讲师回复:

    上一节课仍属于“定性分析”,即我知道有那么多原因,可是哪个原因更重要呢?这么多的原因我不可能都一一去解决,所以才需要相关性分析给我们一个“定量分析”,精确的告诉我们哪几个原因需要我们“重点”去解决。

**生:

所以描述性统计、多维分析和相关性分析一般是组合使用的吧?另外想请问有需要用到因果分析的场景么?

    讲师回复:

    是,分析方法都不是单一使用的,专栏里面的所有分析方法都是打包一起使用,以帮助我们全面、深入和准确的分析。
在数据分析领域,几乎不存在“因果”分析的场景,除非,我们能遍历出所有可能的原因,以及准确分析出每个单一原因对于结果的影响,以及准确分析出不同原因的组合对结果的影响。显然,这三点都难以实现,所以我们才会用相关性分析。

**田:

用户实际行为模式那里是怎么确定是用户关了短视频app后又打开的淘宝呢

    讲师回复:

    用户调研和访谈

*逸:

相关性分析,应该用于评判用户行为指标和增长指标的相关性,并通过实验进行验证,通过则可以说明,提高该行为指标,可以促进增长指标

    讲师回复:

    前半句不太对,相关性适用场景很多,不能把它限制在“应该做行为指标和增长指标”这样的小场景中。
后半句正确,您正确的给出了相关性分析后我们需要做的事情之一。

*逸:

感觉这节内容有点问题,找到原因的优先级,比较各自分类的占比就行了,占比高的自然会上级指标影响大,强行用相关性分析,在多数情况,结果相似,但好像混淆了相关关系和因果关系

    讲师回复:

    有点误解相关性分析的场景了。相关性分析是解决指标A的变化/趋势是否与指标B的变化/趋势一致,是动态的分析,继而再从业务角度分析两者间是否有明确的业务联系。占比是一个静态特征,是静态的分析。例如案例3中,广州、深圳和上海的流量占比分别是35%、38%、27%,看占比的话应该是深圳的影响更大,上海应该最差,但是相关性分析出的结果并不是这样,而是上海最高,深圳其次。您可以实际操作一下感受这个过程。

所以,我的答复是:
1)占比高的自然会对上级指标影响大?不一定。
2)多数情况下看占比和相关性分析结果相似?不一定

*逸:

感觉这节课有点将相关关系和因果关系混淆了,相关系数高不一定代表自变量提高,因变量就提高

    讲师回复:

    有点误解相关性分析的场景了。相关性分析是解决指标A的变化/趋势是否与指标B的变化/趋势一致,是动态的分析,继而再从业务角度分析两者间是否有明确的业务联系。占比是一个静态特征,是静态的分析。例如案例3中,广州、深圳和上海的流量占比分别是35%、38%、27%,看占比的话应该是深圳的影响更大,上海应该最差,但是相关性分析出的结果并不是这样,而是上海最高,深圳其次。您可以实际操作一下感受这个过程。

所以,我的答复是:
1)占比高的自然会对上级指标影响大?不一定。
2)多数情况下看占比和相关性分析结果相似?不一定

*逸:

渠道购买转化率那个案例不是直接执教各渠道的平均转化率高低,就可以看出哪个渠道效率高吗?应该不需要做相关性分析吧?

    讲师回复:

    你误会了题设的问题。我不是问哪个渠道更好,而是问哪个渠道对整体价值最高。首先厘清一个重要的概念:占比高,不代表它和整体的关系就更紧密。相关性分析考察的是几个指标之间的“趋势”是否一致,是在一个周期内哪个指标和大盘/整体的趋势更一致,我们就认为这个指标和大盘的联系更紧密。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/492464.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux小程序——进度条

前言&#xff1a;哈喽小伙伴们&#xff0c;经过我们对多个Linux基本开发工具的学习之后&#xff0c;对于Linux的使用也算是更上一层楼。 所以这篇文章&#xff0c;我们就尝试使用我们学过的Linux知识来写一个小程序——进度条&#xff0c;达到实践以及加深知识映像的效果。 目…

智能文档处理技术综述

一、 智能文档处理介绍 智能文档处理&#xff08;Intelligent Document Processing, IDP&#xff09;是利用人工智能&#xff08;AI&#xff09;、机器学习&#xff08;ML&#xff09;、计算机视觉&#xff08;CV&#xff09;、自然语言处理&#xff08;NLP&#xff09;等技术…

POJ3037 + HDU-6714

两道最短路好题 POJ3037 手玩一下 发现每一点的速度可以直接搞出来&#xff0c;就是pow(2,h[1][1]-h[i][j])*V 那么从这个点出发到达别的点的耗费的时间都是上面这个数的倒数&#xff0c;然后直接跑最短路就好了 #include<iostream> #include<vector> #include<…

BeanPostProcessors是什么以及如何使用?

目录 一、BeanPostProcessors是什么&#xff1f;二、如何使用 BeanPostProcessor1、实现 BeanPostProcessor 接口2、注册 BeanPostProcessor3、示例代码 三、使用场景四、注意事项 一、BeanPostProcessors是什么&#xff1f; BeanPostProcessor 是 Spring 框架提供的一个扩展点…

Java多线程实战-从零手搓一个简易线程池(一)定义任务等待队列

&#x1f3f7;️个人主页&#xff1a;牵着猫散步的鼠鼠 &#x1f3f7;️系列专栏&#xff1a;Java全栈-专栏 &#x1f3f7;️本系列源码仓库&#xff1a;多线程并发编程学习的多个代码片段(github) &#x1f3f7;️个人学习笔记&#xff0c;若有缺误&#xff0c;欢迎评论区指正…

每日一题——LeetCode1748.唯一元素的和

方法一 两次遍历 var sumOfUnique function(nums) {let map new Map()for(let num of nums){map.set(num,map.has(num)?map.get(num)1:1)}let res0for(let num of nums){if(map.get(num)1) resnum}return res }; 消耗时间和内存情况&#xff1a; 方法二 一次遍历 var su…

新书速递——《可解释AI实战(PyTorch版)》

本书旨在帮助你实施最新的可解释AI技术&#xff0c;以构建公平且可解释的AI系统。可解释AI是当今AI研究中的热门话题&#xff0c;但只有少数资源和指南涵盖了所有重要技术&#xff0c;这些技术对实践者来说非常有价值。本书旨在填补这一空白。 本书读者对象 本书既适合那些有兴…

揭秘神秘商业模式:看似赔钱的买卖,如何月赚600万?

你是否曾被一个看似赔钱的买卖所吸引&#xff0c;最终却惊喜地发现它一个月竟然能赚600多万&#xff1f;这样的数字&#xff0c;是否让你感到意外又好奇&#xff1f;如果你仔细品味我们今天的内容&#xff0c;我相信&#xff0c;你也能开启属于自己的赚钱之路。 他们是如何实现…

自学编程的六种方法,你必须知道

随着互联网日趋迅猛&#xff0c;编程已经在我们生活当中无处不在了。众所周知&#xff0c;程序员的工资都很不错&#xff0c;于是越来越多的人&#xff0c;都想加入到编程的行业中来。那么如何加入到程序员的行业当中&#xff1f; PHP从入门到放弃&#xff0c;C语言从入门到放…

【CSDN活动】程序员职业生涯的分水岭:年龄还是经验?

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 程序员职业生涯的分水岭&#xff1a;年龄还是经验&#xff1f;引言技术更新换代…

基于nodejs+vue在线学籍管理系统python-flask-django-php

系统开发主要在 Windows 系统下进行&#xff0c;采用支持跨平台的nodejs语言开发完成&#xff0c;因此可以运行在任意开发环境下。系统采用mysql数据库的方式&#xff0c;按照express框架进行开发。 前端技术&#xff1a;nodejsvueelementui, Express 框架于Node运行环境的Web框…

windows10彻底关闭Windows Defender的4种方法

Windows Defender是windows10系统自带的杀毒软件。默认情况下它处于打开的状态。大多数第三方的杀毒软件都可以识别&#xff0c;并代替它。 但是大多数情况下&#xff0c;我们总是有各种理由需要关闭它&#xff0c;例如 Windows Defender 导致资源使用率高或系统出现其他问题&…

蓝桥杯小白月赛3.23

题目描述&#xff1a; AC代码&#xff1a; #include <iostream> #include<cstring> #include<algorithm>using namespace std;const int N 2e510; string str[N]; //写上&会速度更快一些 bool cmp(const string &s1,const string &s2) {//例…

HTML5+CSS3+JS小实例:原生JS实现全屏滚动

实例:原生JS实现全屏滚动 技术栈:HTML+CSS+JS 效果: 源码: 【HTML】 <!DOCTYPE html> <html lang="zh-CN"> <head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial…

【JVM】JVM简介

文章目录 &#x1f334;简介&#x1f332;JVM发展史&#x1f338;Sun Classic VM&#x1f338;Exact VM&#x1f338;HotSpot VM&#x1f338;JRockit&#x1f338;J9 JVMTaobao JVM&#xff08;国产研发&#xff09; &#x1f333;JVM 运行流程⭕总结 &#x1f334;简介 JVM …

win10 禁止谷歌浏览器自动更新(操作贼简单)

禁止谷歌浏览器自动更新 &#xff08;1&#xff09;修改 "C:\Windows\System32\drivers\etc\hosts 文件&#xff0c;在最后增加 127.0.0.1 update.googleapis.com&#xff08;2&#xff09;保存后&#xff0c;winr 快捷键&#xff0c;输入cmd &#xff0c;打开命令行 &am…

学习笔记:MYSQL数据库基础知识

MYSQL数据库基础知识学习笔记 MYSQL基础学习数据库相关概念现主流数据库排名数据模型SQL分类SQL数据库基础操作 2024/3/27 学习资料&#xff1a;黑马程序员:MYSQL MYSQL基础学习 数据库和数据库管理系统(DBMS) 数据库: 是存储数据的集合&#xff0c;包括表、视图、索引等对象…

华为数通方向HCIP-DataCom H12-821题库(多选题:201-220)

第201题 以下关于BGP中Orginator ID属性的描述,正确的是哪些项? A、Originator ID属于公认任意属性 B、当其他BGP Speaker接收到这条路由的时候,将比较收到的0nginator ID和本地的Router ID,如果两个ID相同BGP Speaker会忽略掉这条路由,不做处理 C、当一条路由第一次被RR…

Android客户端自动化UI自动化airtest从0到1搭建macos+demo演示

iOS客户端自动化UI自动化airtest从0到1搭建macosdemo演示-CSDN博客 一、基础环境 1. 安装jdk 选择jdk8 如果下载高版本 可能不匹配会失败 下载.dmg文件 苹果电脑 &#xff5c; macOS &#xff5c; jdk1.8 &#xff5c; 环境变量配置_jdk1.8 mac-CSDN博客 Java Downloads …

STM32学习笔记(6_6)- TIM定时器的输入捕获模式测频率和PWMI模式测频率占空比代码

无人问津也好&#xff0c;技不如人也罢&#xff0c;都应静下心来&#xff0c;去做该做的事。 最近在学STM32&#xff0c;所以也开贴记录一下主要内容&#xff0c;省的过目即忘。视频教程为江科大&#xff08;改名江协科技&#xff09;&#xff0c;网站jiangxiekeji.com 现在开…