留存率的定义与SQL实现

1.什么是留存率

留存率是指在特定时间段内,仍然继续使用某项产品或服务的用户占用户总数的百分比。

通常,留存率会以日,周,或月为单位进行统计和分析。

2.SQL留存率常见问题

1.计算新用户登录的日期的次日留存率以及3日留存率

CREATE TABLE ods_user_login_log (
    user_id VARCHAR(255) NOT NULL,
    login_dt VARCHAR(255) NOT NULL
);
INSERT INTO ods_user_login_log VALUES 
('001','20240701'),
('001','20240701'),
('002','20240701'),
('003','20240701'),
('001','20240702'),
('002','20240702'),
('002','20240702'),
('001','20240703'),
('002','20240704'),
('004','20240704')
;

有一张用户登录日志表 ods_usr_login_log,包含 user_id(用户ID)和 login_dt(登录日期)。每个用户在同一天可能登录多次。

问题:计算有新用户登录的日期的次日留存率和3日留存率。

N日留存用户数:指某日活跃的用户在第N日再次活跃的用户数量。

本道题思路如下:

  1. 找出每个用户首次登录的日期

    使用子查询 t1,通过 MIN(login_dt) 函数获取每个用户的首次登录日期,并将其转换为日期格式 date
  2. 将所有登录记录转换为日期格式

    子查询 t2 将 login_dt 字段转换为日期格式。
  3. 计算次日留存率和3日留存率

    • 在最终的 SELECT 语句中,使用 DATEDIFF(t2.dt, t1.dt) 来计算用户登录日期与其首次登录日期的天数差。
    • 对于次日留存率,当天数差为1时,使用 COUNT(DISTINCT t2.user_id) 统计次日再次登录的用户数量,并将其除以首次登录的用户数量 COUNT(DISTINCT t1.user_id),得到次日留存率。
    • 对于3日留存率,类似地,当天数差为3时,计算第3日再次登录的用户数,并进行相应的计算。
  4. LEFT JOIN 进行多表联查

为什么使用LEFT JOIN?
LEFT JOIN 的作用是保留左表中的所有记录(即使在右表中没有匹配项)。在这个SQL语句中,左表是子查询 t1,它包含每个用户的首次登录日期。右表是 t2,它包含用户的所有登录记录。通过 LEFT JOIN,我们可以确保所有首次登录的用户都会出现在最终的结果中,即使这些用户在后续的指定日期(如次日或第3日)没有再次登录。这样可以保证在计算留存率时,所有首次登录的用户都被纳入分母,即使他们在后续日期没有登录,确保留存率计算准确无误。

一分钟搞明白Join、Left Join、Right Join的区别_join left join right join-CSDN博客

-- 计算用户首次登录的日期
with t1 as (
  select  
     user_id,
     cast(min(login_dt) as date) as dt
     from ods_user_login_log
  group by user_id, cast(login_dt as date)
),
-- 将数据转为date格式
t2 as (
  select 
    user_id, cast(login_dt as date) as dt
  from ods_user_login_log
  group by user_id, cast(login_dt as date) 
)

select 
  t1.dt
  -- 确保用户在同一天登录的数据只被计算一次
,count(distinct case when datediff(t2.dt, t1.dt) = 1 then t2.user_id else null end) 
  / count(distinct t1.user_id) as retain_1d_rate
,count(distinct case when datediff(t2.dt, t1.dt) = 3 then t2.user_id else null end) 
 / count(distinct t1.user_id) as retain_3d_rate
from t1
left join t2
on t1.user_id = t2.user_id
group by t1.dt
;

2.2021年11月每天新用户的次日留存率_牛客题霸_牛客网

在本道题中,我们同样是计算新用户的次日留存率。

但数据列却完全不同,第一道题中,我们的数据列就只有登录时间。

在本题中,我们既有in_time进入时间,又有离开时间out_time。

那么就会存在一个情况:当在一条记录中,如果in_time-进入时间和out_time-离开时间跨天了。

如:(101, 9002, '2021-11-04 11:00:55', '2021-11-05 11:00:59', 0);

这时我们也算该用户在两天里都活跃过

那么,我们该如果计算,才能实现该逻辑呢?

具体来说,就是将in_time和out_time合并为同一个数据列,记录每个用户在每天的活跃情况。

select uid, date(in_time) as active_dt from tb_user_log
   union all
select uid, date(out_time) as active_dt from tb_user_log

具体来说,我们就是把out_time也算作是活跃日。

在这里我们使用UNION ALL,是因为:

  • 它可以保留所有的用户行为记录,包括重复的日期。这对于准确计算次日留存率很重要。
  • 我们需要考虑每个用户可能在同一天多次访问的情况。使用 UNION ALL 确保了我们捕获到所有这些访问记录。(然后distinct去重)

剩下的操作就跟第一道题一样,计算用户首次登录的日期,然后通过计算datediff(end_time, start_time)来确定日期间隔。

with t1 as (
    select 
    uid,
    min(in_time) as dt
    from 
    tb_user_log
    group by uid
),
t2 as (
    select uid, date(in_time) as active_dt from tb_user_log
    union all
    select uid, date(out_time) as active_dt from tb_user_log
)
    select 
     date_format(t1.dt,'%Y-%m-%d') as dt,
     round(count(distinct case when datediff(t2.active_dt,t1.dt) = 1 then t2.uid else null end) /
     count(distinct t1.uid),2) as uv_left_rate
     from t1
     left join t2
     on t1.uid = t2.uid
     where date_format(t1.dt,'%Y-%m') = '2021-11'
     -- t1.dt BETWEEN '2021-11-01' AND '2021-11-30'
     group by date_format(t1.dt,'%Y-%m-%d')

优化小建议:

使用 DATE_FORMAT(t1.dt, '%Y-%m') = '2021-11' 进行筛选,这样的条件会在查询时对所有结果再次进行格式化,可能会影响性能。 (格式化 + 筛选)

使用 t1.dt BETWEEN '2021-11-01' AND '2021-11-30' 进行时间范围过滤,这样的条件可以利用之前已经格式化好的数据,性能更好。 (只有筛选)

20230724024159.png?origin_url=chrome-extension%3A%2F%2Fpbhpcbdjngblklnibanbkgkogjmbjeoe%2Fsrc%2Fpublic%2Fimages%2F128px.png&pos_id=htfBsUYu)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/888451.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何实现 C/C++ 与 Python 的通信?

在现代编程中,C/C与Python的通信已经成为一种趋势,尤其是在需要高性能和灵活性的场景中。本文将深入探讨如何实现这两者之间的互通,包括基础和高级方法,帮助大家在混合编程中游刃有余。 C/C 调用 Python(基础篇&#…

生成正激波表的代码

k1.4 import math import numpy as np import pandas as pd #Ma1到p之比 def Ma2p(Ma1,k):return 2*k*Ma1**2/(k1)-(k-1)/(k1) def Ma2rho(Ma1,k):return (k1)*Ma1**2/(2(k-1)*Ma1**2) def Ma2T(Ma1,k):return 1/Ma1**2*(2/(k1))**2*(k*Ma1**2-(k-1)/2)*(1(k-1)/2*Ma1**2) def…

国外电商系统开发-运维系统文件上传

文件上传,是指您把您当前的PC电脑上的文件批量的上传到远程服务器上,在这里,您可以很轻松的通过拖动方式上传,只需要动动鼠标就搞定。 第一步,您应该选择要上传的服务器: 选择好了以后,点击【确…

小程序-全局数据共享

目录 1.什么是全局数据共享 2. 小程序中的全局数据共享方案 MboX 1. 安装 MobX 相关的包 2. 创建 MobX 的 Store 实例 3. 将 Store 中的成员绑定到页面中 4. 在页面上使用 Store 中的成员 5. 将 Store 中的成员绑定到组件中 6. 在组件中使用 Store 中的成员 1.什么是全…

谷歌发布了日语版的 Gemma2 模型——gemma-2-2b-jpn-it

Gemma 是一系列同类最佳的开放式模型,其灵感和技术源自 Gemini 系列模型。 它们是具有开放权重的文本到文本、纯解码器大型语言模型。 Gemma 模型非常适合各种文本生成任务,包括问题解答、摘要和推理。 Gemma-2-JPN 是一个针对日语文本进行微调的 Gemma…

使用微服务Spring Cloud集成Kafka实现异步通信

在微服务架构中,使用Spring Cloud集成Apache Kafka来实现异步通信是一种常见且高效的做法。Kafka作为一个分布式流处理平台,能够处理高吞吐量的数据,非常适合用于微服务之间的消息传递。 微服务之间的通信方式包括同步通信和异步通信。 1&a…

【CTF Web】Pikachu CSRF(get) Writeup(CSRF+GET请求+社会工程学)

CSRF(跨站请求伪造)概述 Cross-site request forgery 简称为“CSRF”,在CSRF的攻击场景中攻击者会伪造一个请求(这个请求一般是一个链接),然后欺骗目标用户进行点击,用户一旦点击了这个请求,整个攻击就完成…

vmstat命令:系统性能监控

一、命令简介 ​vmstat​ 是一种在类 Unix 系统上常用的性能监控工具,它可以报告虚拟内存统计信息,包括进程、内存、分页、块 IO、陷阱(中断)和 CPU 活动等。 ‍ 二、命令参数 2.1 命令格式 vmstat [选项] [ 延迟 [次数] ]2…

docker快速上手

一个轻量的虚拟机,让程序员不再纠结于环境部署,更多集中于代码编写,基础建设,开发 作用: 打包:把你软件运行所需的所有东西打包到一起 分发:把你打包好的“安装包”上传到一个镜像仓库&#…

渲染技术的教育普及,塑造未来视觉艺术与技术的璀璨星辰

在数字时代的浪潮中,渲染技术作为连接创意与现实的桥梁,正以前所未有的速度推动着视觉艺术与技术领域的融合与发展。从电影特效的震撼呈现到游戏世界的细腻构建,从广告设计的视觉冲击力到建筑设计方案的直观展示,渲染技术无处不在…

css 简单网页布局——浮动(一)

1. 三种布局方式 1.1 标准流 1.2 浮动的使用 1.3 简述浮动 1.3.1 浮动三大特性 <style>.out {border: 1px red solid;width: 1000px;height: 500px;}.one {background-color: aquamarine;width: 200px;height: 100px;}.two {background-color: blueviolet;width: 200px;h…

『网络游戏』窗口基类【06】

创建脚本&#xff1a;WindowRoot.cs 编写脚本&#xff1a; 修改脚本&#xff1a;LoginWnd.cs 修改脚本&#xff1a;LoadingWnd.cs 修改脚本&#xff1a;ResSvc.cs 修改脚本&#xff1a;LoginSys.cs 运行项目 - 功能不变 本章结束

【AI知识点】批归一化(Batch Normalization)

批归一化&#xff08;Batch Normalization&#xff0c;BN&#xff09; 是一种用于加速神经网络训练并提高模型稳定性的方法&#xff0c;通过在每一层对神经网络中的激活值进行标准化&#xff0c;使得每一层的输入保持在一个稳定的分布中&#xff0c;从而缓解梯度消失和梯度爆炸…

Chromium 搜索引擎功能浅析c++

地址栏输入&#xff1a;chrome://settings/searchEngines 可以看到 有百度等数据源&#xff0c;那么如何调整其顺序呢&#xff0c;此数据又存储在哪里呢&#xff1f; 1、浏览器初始化搜索引擎数据来源在 components\search_engines\prepopulated_engines.json // Copyright …

机器学习-支撑向量机SVM

Support Vector Machine 离分类样本尽可能远 Soft Margin SVM scikit-learn中的SVM 和kNN一样&#xff0c;要做数据标准化处理&#xff01; 涉及距离&#xff01; 加载数据集 import numpy as np import matplotlib.pyplot as plt from sklearn import datasetsiris datas…

Debezium日常分享系列之:Debezium 3.0.0.Final发布

Debezium日常分享系列之&#xff1a;Debezium 3.0.0.Final发布 Debezium 核心的变化需要 Java 17基于Kafka 3.8 构建废弃的增量信号字段的删除每个表的详细指标 MariaDB连接器的更改版本 11.4.3 支持 MongoDB连接器的更改MongoDB sink connector MySQL连接器的改变MySQL 9MySQL…

【图论】迪杰特斯拉算法

文章目录 迪杰特斯拉算法主要特点基本思想算法步骤示例 实现迪杰斯特拉算法基本步骤算法思路 总结 迪杰特斯拉算法 迪杰特斯拉算法是由荷兰计算机科学家艾兹赫尔迪杰特斯拉&#xff08;Edsger W. Dijkstra&#xff09;在1956年提出的&#xff0c;用于解决单源最短路径问题的经…

命令行py脚本——Linux下方便快捷地运行*.py脚本

命令行参数传递&#xff0c;shell批指令和命令别名。 (笔记模板由python脚本于2024年10月08日 12:25:54创建&#xff0c;本篇笔记适合喜欢python和Linux的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网&#xff1a;https://www.python.org/ Free&#xff1a;大咖免费“圣…

Docker:快速部署

docker安装&#xff1a; ​‌​‬&#xfeff;​&#xfeff;⁠​‍‬​‍‬‬‌​‬‬‬​&#xfeff;⁠​‍​​‌‬‌&#xfeff;​​​​​​‌​​​​⁠​‍⁠‌安装Docker - 飞书云文档 (feishu.cn) docker命令解读 docker run -d \ > --name mysql \ > -p 33…

【bug】finalshell向远程主机拖动windows快捷方式导致卡死

finalshell向远程主机拖动windows快捷方式导致卡死 问题描述 如题&#xff0c;作死把桌面的快捷方式拖到了finalshell连接的服务器面板中&#xff0c;导致finalshell没有响应&#xff08;小概率事件&#xff0c;有时会触发&#xff09; 解决 打开任务管理器查看finalshell进…