前一讲,和你探讨了多维分析的方法,通过多维分析来寻找指标变化的原因。当我们找到问题的原因时,自然会进一步思考一个问题:指标变化的原因这么多,决定问题的关键因素又是哪个呢?
需要专栏原数据进行实操的同学,可到“拉勾教育”公众号回复“数据化”,即可在百度云盘中获取本专栏的 21 组数据源。
比如,我们在工作场景中时不时会经常讨论这些问题:
-
电商同学说,我们有 5 个品类,想知道哪个品类销售对整体销售贡献更大?
-
渠道同学说,我们运营了 10 个渠道,想知道哪个渠道的用户对整体活跃作用更大?
-
留存同学说,我们分析了 7 个客群,想知道哪个客群对整体的留存关系更大?
-
产品同学说,产品已经上线一段时间,到底哪些维度(城市、年龄段、操作系统)更影响整体活跃?
还有很多类似的场景不一一列举。这些业务场景明显复杂很多,除了要能告知原因外,还需要明确出不同原因的重要性。确实,我们知道影响活跃的因素有很多,可资源有限,不可能全面铺开逐一去解决,只能集中优势资源解决核心问题。
那么如何从一大堆原因中找出最核心的原因呢?接下来,我将与你分享一个定量判断指标原因重要性和优先级的方法:相关性分析。
什么是相关性分析?
相关性分析,指对两个或多个指标进行分析,评估它们两两之间联系或相互影响的程度。相关性分析不仅可以分析出多个指标间的联系程度,还能给出联系程度紧密的量化值。
例如,相关性分析能够分析出营销活动的投入成本和活动转化率的相关程度,不仅能够告诉我们投入成本越高,转化率越高的数据关系,还能告诉我们高到什么程度。
相关性分析,使用“相关系数”这个指标定量给出几个指标间联系和影响的程度,通常用 p 来表示,我们用 p 值判断指标的相关性时遵循以下两个步骤。
相关系数 p 是一个介于 -1~1 的小数。
1.判断指标间是正相关、负相关,还是不相关
-
当 p>0,认为指标间是正相关,也就是两者的趋势一致。
如果指标 A 与指标 B 的 p>0,那么指标 A 上涨,指标 B 也会上涨;反之亦然。 -
当 p<0,认为指标间是负相关,也就是两者的趋势相反。
如果指标 A 与指标 B 的 p<0,那么指标 A 上涨,指标 B 会下降;反之亦然。 -
当 p=0,认为指标间无任何联系。
2.其次判断相关的程度
-
当 p 的值在 [0.5,1] 之间,认为指标间是强相关,认为指标间的业务联系非常紧密。
当指标 A 和指标 B 是强相关,那么当我们去运营指标 A 时,指标 B 也会明显地发生变化。 -
当 p 的值在 [0.1,0.5) 之间,认为指标间是弱相关,认为指标间的业务联系不太紧密。
当指标 A 和指标 B 是弱相关,那么当我们去运营指标 A 时,指标 B 会有相应变化,但变化不明显。 -
当 p 的值在 [0,0.1) 之间,认为指标间是无相关,认为指标间的业务联系无任何联系。
当指标 A 和指标 B 是不相关,那么当我们去运营指标 A 时,指标 B 不会有任何相应的变化。
相关性分析的理论不复杂,我们看看在一些产品运营场景中是如何应用的。
相关性应用场景有哪些?
事实上,相关性分析的应用场景非常多,基本上只要提到“它俩有什么关系?”“哪个指标的作用/贡献/价值更大?”“我们应该重点解决哪个问题?”时,都可以用相关性分析给出定量和准确的回答,非常便于产品运营找到解决问题的核心抓手。
我将各类业务场景及其指标总结为下表,可供你需要时参考使用。
接下来,我们通过三个案例进行“相关性分析”实战。
产品运营场景实战案例
1.如何分析哪个客群的留存对整体留存贡献更大?
留存的运营中我们最常看的就是新客的留存和活跃客群的留存,用来评估哪个客群的留存与整体的留存联系更紧密,以便制定后续运营的策略。
对于这样的报表,我们需要找出到底是哪个客群的留存对于整体留存的影响最大。如果能找出来这个关系,那么后续要提升留存,就有非常清晰的方向。
用相关性分析可以很好地回答这个问题,在 Excel 中点击“数据”选项卡,进入“数据分析”,找到“相关系数”,选择数据区域,点击确定即可,分析结果如下图所示。
在 Excel 中的具体操作过程,会在本课时的最后讲解。
上表就是相关性分析输出的相关系数表,其中显示了指标两两间的相关系数。
可以看出,活跃访客的留存率与整体留存率的相关系数是 0.61,大于 0.5,故是强相关;而新增访客的留存率与整体留存率的相关系数只有 0.15,小于 0.5,故是弱相关。
所以如果要提升整体留存率,我们的产品运营资源应当更多地投放给活跃用户,以提升整体的留存率;而新增访客,虽然不会拿到很多运营资源,但是我们也要去深入分析为什么新增访客的留存的贡献比较小,适时做一些提升这部分客群与整体留存的策略。
2.如何找出对购买转化率贡献最高的渠道?
基本上电商运营会同时部署多个渠道,包括线上电商平台以及线下的门店。由于现有某产品从各个渠道获客的用户在产品上的购买转化率,需要评估哪些渠道的用户对整体购买转化率贡献最大,后续将重点营销此渠道。
可以看出各个渠道对整体购买转化率的相关性为:
-
渠道 A 对整体购买转化率的相关性为 -1.2%
-
渠道 B 对整体购买转化率的相关性为 48.2%
-
渠道 C 对整体购买转化率的相关性为 6.4%
-
渠道 D 对整体购买转化率的相关性为 -23.9%
可以看出,渠道 B 的购买转化率对整体购买转化率为正向贡献,故若要提升整体购买转化率,应当投入资源在渠道 B 的运营;同时,渠道 A 和渠道 D 对整体购买转化率为负向贡献,应当仔细分析排查原因。
3.如何分析哪些因素对 DAU 的影响更大?
我们分析 DAU 时常会将它拆解为各种维度来分析,这里我们分析与 DAU 联系最紧密的维度到底是哪些,以帮助我们制定针对性的运营策略,如下图所示。
由于数据源过多,该数据图并非完整数据,仅为部分截图。
对于这样的报表,我们需要找出到底是哪几个城市、哪个操作系统,以及哪个年龄段的用户对于 DAU 的影响最大。如果能找出来这个关系,那么后续要提升 DAU,就有非常清晰的方向。
用相关性分析可以很好地回答这个问题,在 Excel 中点击“数据”选项卡,进入“数据分析”,找到“相关系数”,选择数据区域,点击确定即可,分析结果如下图所示。
-
先分析城市维度与 DAU 的相关性大小
考察这三个城市与 DAU 的相关系数,按照相关系数的大小排序依次是:上海 > 深圳 > 广州。
也就是说,从城市维度来看,上海、深圳与 DAU 的相关系数最高,超过 0.5,属于强相关;广州与 DAU 的相关系数小于 0.5,属于弱相关。
所以,如果要提升 DAU,那么促活的资源应当更多地投放在上海和深圳这两个城市的用户上。
-
再分析操作系统维度与 DAU 的相关性大小
考察 Android、iOS 与 DAU 的相关系数,按照相关系数的大小排序依次是:iOS < Android,并且 Android 的相关系数高达 0.83,属于强相关。
也就是说,从操作系统维度来看,Android 设备的用户活跃对整体 DAU 贡献最大。所以,如果要提升 DAU,那么促活的资源应当更多地投放在 Android 的用户上。
-
最后分析年龄段维度与 DAU 的相关性大小
考察这三个年龄段与 DAU 的相关系数,按照相关系数的大小排序依次是:大于 30 岁 > 20~30 岁 > 小于 20 岁。
也就是说,从年龄段维度来看,大于 30 岁的客群与 DAU 的相关系数最高,达到 0.94,属于强相关;20~30 岁的客群与 DAU 的相关系数为 0.12,小于 0.5,属于弱相关。
所以,如果要提升 DAU,那么促活的资源应当更多地投放在年龄大于 30 岁的用户上。特别地,我们还发现小于 20 岁的客群与整体 DAU 呈现弱的负相关。
一般而言,出现了负相关情况我们要更加留意,并且进行深入的专题分析。例如,分析这部分客群的行为和路径特征、留存等情况,来判断是产品功能或服务无法满足,还是用户体验不好,或是运营活动出现偏差导致了出现负相关。如果这个客群仍是我们的目标客群,那我们仍需要在做上述分析后努力将负相关转为正相关。
用“相关性分析”找出违背业务常识的真实情况
相关性分析除了能帮我们找出关键的影响因素,还能帮助我们论证业务逻辑的有效性,甚至能纠正我们的思维误区。
有时候,我们想当然的业务常识,可能就是与真实情况相悖的。接下来,向你介绍一个案例。
我有一个朋友是做快消品的,负责公司牙膏产品的渠道推广。他在快手、抖音等短视频平台根据产品的功能特性投放了大量的广告,希望可以引流短视频用户到淘宝去付费下单。
可他用“相关性分析法”追踪短视频平台商品链接的点击情况与淘宝付费下单情况时,非常意外地发现产品视频的点击量和淘宝的付费用户数毫无相关关系。
然后据此追踪用户行为,经过仔细排查后发现,用户的行为模式并不如预期所想。
-
他预想的用户行为模式是:用户在短视频平台看到商品视频后,点击商品链接自动唤醒淘宝并直接进入商品详情页,同时引导用户直接付费,降低用户行为路径长度,提升付费率。
-
可用户实际行为模式却是:用户在看到商品的视频后,关掉短视频 App,手动启动淘宝,搜索商品名称,找到目标商品进入详情页完成购买转化。
于是厂商果断大幅调整营销方向,不再在短视频平台投放“产品功能特性关键字”,而是投放“品牌”;在淘宝搜索栏也不再购买“产品功能特性关键字”,而是购买“品牌类关键字”。如此之后营销效果立竿见影。
如果没有相关性分析,谁能想到在各大短视频平台投放产品营销资源,与引流到电商完成付费转化这两者几乎无关联呢?
【注意:相关性分析前,别忘剔除指标中的异常值】
异常的指标,不管是极大值,还是极小值,都会显著影响相关性的计算,严重影响相关性结果。所以一般情况下,需要先通过描述性统计找出异常值,将异常值剔除后再进行相关性分析。
关于异常值,你可回顾《07 | 分析突破口:如何通过指标抓取数据的主要特征?》
操作:在 Excel 中进行“相关性分析”
在 Excel 中为我们提供了相关性分析的算法包,操作步骤如下。
第一步:点击“数据”选项卡,找到“数据分析”。
第二步:选择数据区域。
第三步:点击确定完成。
小结
“相关性分析”最大的作用,就是将两个事情/事物之间的关系做出了量化考核:
当 p 的值在 [0.5,1] 之间,认为指标间是强相关;
当 p 的值在 [0.1,0.5) 之间,认为指标间是弱相关;
当 p 的值在 [0,0.1) 之间,认为指标间是无相关
并能通过量化值对致因因素进行排序,让我们对业务的影响因素有了更清晰的认知,也就是能让我们看清事情的主要矛盾,能抓住“问题关键”制定出更合适的运营策略。
讲到这里,第一大类分析:描述分析的三种常用分析方法就讲完了,下图是这三个方法的核心知识点,希望你能够结合自己的工作场景去理解和使用。
接下来我们就要进入第二大类分析:推断分析的内容,看看推断分析能够为我们的产品运营解决哪些更加复杂的场景和问题。
我是磊叔,下次课见~~~
精选评论
**小编:
需要专栏原数据进行实操的同学,可到“拉勾教育”公众号回复“数据化”,即可在百度云盘中获取本专栏的 21 组数据源。
**生:
上一节的案例为什么不需要做相关性分析就可以得到结论?
讲师回复:
上一节课仍属于“定性分析”,即我知道有那么多原因,可是哪个原因更重要呢?这么多的原因我不可能都一一去解决,所以才需要相关性分析给我们一个“定量分析”,精确的告诉我们哪几个原因需要我们“重点”去解决。
**生:
所以描述性统计、多维分析和相关性分析一般是组合使用的吧?另外想请问有需要用到因果分析的场景么?
讲师回复:
是,分析方法都不是单一使用的,专栏里面的所有分析方法都是打包一起使用,以帮助我们全面、深入和准确的分析。
在数据分析领域,几乎不存在“因果”分析的场景,除非,我们能遍历出所有可能的原因,以及准确分析出每个单一原因对于结果的影响,以及准确分析出不同原因的组合对结果的影响。显然,这三点都难以实现,所以我们才会用相关性分析。
**田:
用户实际行为模式那里是怎么确定是用户关了短视频app后又打开的淘宝呢
讲师回复:
用户调研和访谈
*逸:
相关性分析,应该用于评判用户行为指标和增长指标的相关性,并通过实验进行验证,通过则可以说明,提高该行为指标,可以促进增长指标
讲师回复:
前半句不太对,相关性适用场景很多,不能把它限制在“应该做行为指标和增长指标”这样的小场景中。
后半句正确,您正确的给出了相关性分析后我们需要做的事情之一。
*逸:
感觉这节内容有点问题,找到原因的优先级,比较各自分类的占比就行了,占比高的自然会上级指标影响大,强行用相关性分析,在多数情况,结果相似,但好像混淆了相关关系和因果关系
讲师回复:
有点误解相关性分析的场景了。相关性分析是解决指标A的变化/趋势是否与指标B的变化/趋势一致,是动态的分析,继而再从业务角度分析两者间是否有明确的业务联系。占比是一个静态特征,是静态的分析。例如案例3中,广州、深圳和上海的流量占比分别是35%、38%、27%,看占比的话应该是深圳的影响更大,上海应该最差,但是相关性分析出的结果并不是这样,而是上海最高,深圳其次。您可以实际操作一下感受这个过程。
所以,我的答复是:
1)占比高的自然会对上级指标影响大?不一定。
2)多数情况下看占比和相关性分析结果相似?不一定
*逸:
感觉这节课有点将相关关系和因果关系混淆了,相关系数高不一定代表自变量提高,因变量就提高
讲师回复:
有点误解相关性分析的场景了。相关性分析是解决指标A的变化/趋势是否与指标B的变化/趋势一致,是动态的分析,继而再从业务角度分析两者间是否有明确的业务联系。占比是一个静态特征,是静态的分析。例如案例3中,广州、深圳和上海的流量占比分别是35%、38%、27%,看占比的话应该是深圳的影响更大,上海应该最差,但是相关性分析出的结果并不是这样,而是上海最高,深圳其次。您可以实际操作一下感受这个过程。
所以,我的答复是:
1)占比高的自然会对上级指标影响大?不一定。
2)多数情况下看占比和相关性分析结果相似?不一定
*逸:
渠道购买转化率那个案例不是直接执教各渠道的平均转化率高低,就可以看出哪个渠道效率高吗?应该不需要做相关性分析吧?
讲师回复:
你误会了题设的问题。我不是问哪个渠道更好,而是问哪个渠道对整体价值最高。首先厘清一个重要的概念:占比高,不代表它和整体的关系就更紧密。相关性分析考察的是几个指标之间的“趋势”是否一致,是在一个周期内哪个指标和大盘/整体的趋势更一致,我们就认为这个指标和大盘的联系更紧密。