数据分布之指数分布(sample database classicmodels _No.10)

数据分布之指数分布(sample database classicmodels _No.10)

准备工作,可以去下载 classicmodels 数据库具体如下
点击:classicmodels

也可以去 下面我的博客资源下载
https://download.csdn.net/download/tomxjc/88685970


文章目录

  • 数据分布之指数分布(sample database classicmodels _No.10)
  • 什么是指数分布?
  • 指数分布代码
  • SQL 查询说明
  • 截图
  • 判断和结论
    • 判断
    • 结论


什么是指数分布?

数据分布类型分析
指数分布(Exponential Distribution):
如果经过分组统计后,组的计数逐渐减少,尤其在初始的几个组中频率较高,然后逐步下降,则这可能符合指数分布的特点。
指数分布通常用于描述事件之间的时间间隔,如付款时间的间隔。它具有无记忆性,且通常是右偏的,这意味着较小的间隔频率较高,间隔时间越长的频次越低。

指数分布代码

WITH PaymentIntervals AS (
    SELECT 
        customerNumber,
        DATEDIFF(paymentDate, LAG(paymentDate) OVER (PARTITION BY customerNumber ORDER BY paymentDate)) AS interval_days
    FROM payments
    WHERE customerNumber IS NOT NULL
),
RangeStats AS (
    -- 计算最小值、最大值和区间宽度
    SELECT 
        MIN(interval_days) AS min_interval,
        MAX(interval_days) AS max_interval,
        (MAX(interval_days) - MIN(interval_days)) / 20 AS interval_width
    FROM PaymentIntervals
    WHERE interval_days IS NOT NULL
)
-- 分组统计不同的时间间隔区间
SELECT 
    FLOOR((interval_days - (SELECT min_interval FROM RangeStats)) / (SELECT interval_width FROM RangeStats)) AS group_index,
    COUNT(*) AS count
FROM PaymentIntervals, RangeStats
WHERE interval_days IS NOT NULL
GROUP BY group_index
ORDER BY group_index;

SQL 查询说明

CTE PaymentIntervals:

计算每个客户两次付款之间的时间间隔(interval_days)。
使用LAG函数计算相邻两次付款的时间差,按客户编号和付款日期排序。
CTE RangeStats:

计算时间间隔的最小值(min_interval)、最大值(max_interval),以及20个区间的宽度(interval_width)。
区间宽度计算为 (MAX(interval_days) - MIN(interval_days)) / 20。
主查询:

使用计算得到的区间宽度,将时间间隔分为20个组。
使用 FLOOR((interval_days - min_interval) / interval_width) 来确定每个时间间隔属于哪一个组。
对每个组统计时间间隔出现的次数。

截图

在这里插入图片描述

判断和结论

数据特征分析

集中性:
数据的高频部分出现在index为1、2,计数分别为21和21。
数据的频次在最初几个组中较高,然后逐渐减少。

下降趋势:
从index为3之后,计数开始逐渐减少,但减少的方式并不十分规则,而是有起伏。
在后半部分(index为13到20),计数值比较小,大部分为5以下,且逐步趋近于1。

整体形态:
高峰出现在前面几个组,然后频次逐渐下降。
没有明显的对称性,即没有明显的从高峰向两侧对称递减的趋势。
指数分布与正态分布的特点

指数分布:
指数分布是右偏的,通常在开始部分具有较高的频率,然后逐渐快速下降。
特征是单调递减的频次分布,事件发生的时间间隔越短,频率越高,随着间隔时间增大,频率显著下降。

正态分布:
正态分布是钟形的,数据集中在均值附近,并且两侧对称递减。
特征是具有明显的峰值,峰值两侧逐渐下降,呈现出较好的对称性。

判断

是否符合指数分布:
从图表看数据在最初几个index(0到4)中频次较高,然后逐渐减少,这与指数分布的特点较为接近。
从index 之后的计数下降趋势不十分规律,但整体来看,频次有向下递减的趋势,因此可以认为与指数分布较为接近。

是否符合正态分布:
您的数据并没有呈现出对称的钟形曲线,频次高峰在初期,并没有出现均匀的对称下降趋势。
因此,数据不符合正态分布。

结论

根据您提供的分组结果,这组数据更符合指数分布的特点,因为:

数据在初期有较高的频率,然后逐步下降。
尽管下降的幅度有一些起伏,但整体上符合指数分布的单调递减特征。
这种分布通常用于描述事件之间的时间间隔,例如客户付款时间间隔的分布,短间隔时间发生的次数更多,随着时间间隔增加,频率逐渐减少。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/917896.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

无人机动力系统测试-实测数据与CFD模拟仿真数据关联对比分析

我们经常被问到这样的问题:“我们计划运行 CFD 仿真,我们还需要对电机和螺旋桨进行实验测试吗?我们可能有偏见,但我们的答案始终是肯定的,而且有充分的理由。我们自己执行了大量的 CFD 仿真,但我们承认&…

MinIO 的 S3 over RDMA 计划: 为高速人工智能数据基础设施设定对象存储新标准

随着 AI 和机器学习的需求不断加速,数据中心网络正在迅速发展以跟上步伐。对于许多企业来说,400GbE 甚至 800GbE 正在成为标准选择,因为数据密集型和时间敏感型 AI 工作负载需要高速、低延迟的数据传输。用于大型语言处理、实时分析和计算机视…

游戏引擎学习第13天

视频参考:https://www.bilibili.com/video/BV1QQUaYMEEz/ 改代码的地方尽量一张图说清楚吧,懒得浪费时间 game.h #pragma once #include <cmath> #include <cstdint> #include <malloc.h>#define internal static // 用于定义内翻译单元内部函数 #…

十分钟学会html超文本标记语言

前言 本次学习的是在b站up主泷羽sec课程有感而发&#xff0c;如涉及侵权马上删除文章。 笔记的只是方便各位师傅学习知识&#xff0c;以下网站只涉及学习内容&#xff0c;其他的都与本人无关&#xff0c;切莫逾越法律红线&#xff0c;否则后果自负。 &#xff01;&#xff01;…

【Linux系统编程】第四十七弹---深入探索:POSIX信号量与基于环形队列的生产消费模型实现

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】 目录 1、POSIX信号量 2、基于环形队列的生产消费模型 2.1、代码实现 2.1.1、RingQueue基本结构 2.1.2、PV操作 2.1.3、构造析构…

除了 TON, 哪些公链在争夺 Telegram 用户?数据表现如何?

作者&#xff1a;Stella L (stellafootprint.network) 在 2024 年&#xff0c;区块链游戏大规模采用迎来了一个意想不到的催化剂&#xff1a;Telegram。随着各大公链争相布局这个拥有海量用户基础的即时通讯平台&#xff0c;一个核心问题浮出水面&#xff1a;这种用户获取策略…

小白进!QMK 键盘新手入门指南

经常玩键盘的伙伴应该都知道&#xff0c;现在的键盘市场可谓是百花齐放&#xff0c;已经不是之前的单一功能产品化时代。我们可以看到很多诸如&#xff1a;机械轴键盘、磁轴键盘、光轴键盘、电感轴键盘&#xff0c;以及可能会上市的光磁轴键盘&#xff0c;更有支持屏幕的、带旋…

【HarmonyOS】鸿蒙系统在租房项目中的项目实战(二)

从今天开始&#xff0c;博主将开设一门新的专栏用来讲解市面上比较热门的技术 “鸿蒙开发”&#xff0c;对于刚接触这项技术的小伙伴在学习鸿蒙开发之前&#xff0c;有必要先了解一下鸿蒙&#xff0c;从你的角度来讲&#xff0c;你认为什么是鸿蒙呢&#xff1f;它出现的意义又是…

《Markdown语法入门》

文章目录 《Markdown语法入门》1.标题2.段落2.1 换行2.2分割线 3.文字显示3.1 字体3.2 上下标 4. 列表4.1无序列表4.2 有序列表4.3 任务列表 5. 区块显示6. 代码显示6.1 行内代码6.2 代码块 7.插入超链接8.插入图片9. 插入表格 《Markdown语法入门》 【Typora 教程】手把手教你…

北京大学c++程序设计听课笔记101

基本概念 程序运行期间&#xff0c;每个函数都会占用一段连续的内存空间。而函数名就是该函数所占内存区域的起始地址&#xff08;也称“入口地址”&#xff09;。我们可以将函数的入口地址赋给一个指针变量&#xff0c;使该指针变量指向该函数。然后通过指针变量就可以调用这个…

C++:boost库安装

官网&#xff1a;https://www.boost.org/ Boost 库在 C 社区中广受欢迎&#xff0c;主要因为它提供了丰富、强大且稳定的功能&#xff0c;可以显著提高开发效率和代码质量。下面是使用 Boost 库的主要优势和特点&#xff1a; 1. 丰富的功能集合 Boost 提供了数十个高质量的 …

VScode学习前端-01

小问题合集&#xff1a; vscode按&#xff01;有时候没反应&#xff0c;有时候出来&#xff0c;是因为------>必须在英文状态下输入&#xff01; 把鼠标放在函数、变量等上面&#xff0c;会自动弹出提示&#xff0c;但挡住视线&#xff0c;有点不习惯。 打开file->pre…

机房动环境监控用各种列表已经淘汰了,现在都是可视化图表展示了

在信息技术飞速发展的今天&#xff0c;机房作为数据存储、处理和传输的核心场所&#xff0c;其稳定运行至关重要。过去&#xff0c;机房动环境监控主要依赖各种列表形式来呈现数据&#xff0c;但如今&#xff0c;这种方式已经逐渐被淘汰&#xff0c;取而代之的是更加直观、高效…

Pytest-Bdd-Playwright 系列教程(10):配置功能文件路径 优化场景定义

Pytest-Bdd-Playwright 系列教程&#xff08;10&#xff09;&#xff1a;配置功能文件路径 & 优化场景定义 前言一、功能文件路径的配置1.1 全局设置功能文件路径1.2. 在场景中覆盖路径 二、避免重复输入功能文件名2.1 使用方法2.2 functools.partial 的背景 三、应用场景总…

【软件测试】自动化常用函数

文章目录 元素的定位cssSelectorxpath查找元素 操作测试对象点击/提交对象——click()模拟按键输入——sendKeys(“”)清除文本内容——clear()获取文本信息——getText()获取页面标题和 URL 窗口设置窗口大小切换窗口关闭窗口 等待强制等待隐式等待显式等待 浏览器导航 元素的…

CC4学习记录

&#x1f338; CC4 CC4要求的commons-collections的版本是4.0的大版本。 其实后半条链是和cc3一样的&#xff0c;但是前面由于commons-collections进行了大的升级&#xff0c;所以出现了新的前半段链子。 配置文件&#xff1a; <dependency><groupId>org.apach…

【linux】网络基础 ---- 数据链路层

用于两个设备(同一种数据链路节点)之间进行传递 数据链路层解决的问题是&#xff1a;直接相连的主机之间&#xff0c;进行数据交付 1. 认识以太网 "以太网" 不是一种具体的网络, 而是一种技术标准&#xff1a; 既包含了数据链路层的内容, 也包含了一些物理层的内容…

5. ARM_指令集

概述 分类 汇编中的符号&#xff1a; 指令&#xff1a;能够编译生成一条32位机器码&#xff0c;并且能被处理器识别和执行伪指令&#xff1a;本身不是指令&#xff0c;编译器可以将其替换成若干条指令伪操作&#xff1a;不会生成指令&#xff0c;只是在编译阶段告诉编译器怎…

小程序租赁系统开发为企业提供高效便捷的租赁服务解决方案

内容概要 在这个数字化飞速发展的时代&#xff0c;小程序租赁系统应运而生&#xff0c;成为企业管理租赁业务的一种新选择。随着移动互联网的普及&#xff0c;越来越多的企业开始关注如何利用小程序来提高租赁服务的效率和便捷性。小程序不仅可以为用户提供一个快速、易用的平…

计算机组成原理——高速缓存

标记表示——主存块号和缓存块之前的一一对应关系