数据审计 -本福德定律 Benford‘s law (sample database classicmodels _No.6)

数据审计 -本福德定律 Benford’s law

准备工作,可以去下载 classicmodels 数据库资源如下
[ 点击:classicmodels]

也可以去我的博客资源下载

文章目录

    • 数据审计 -本福德定律 Benford's law
  • 前言
    • 一、什么是 本福德定律?
    • 二、数学公式
    • 三、应用领域
    • 四、应用(看看是否有 会计、审计和欺诈检测。)
    • 总结


前言

假设 classicmodels 公司的 CEO 想知道 自己的 公司的数据是可能造假,于是找到了 小Tom kk 帮他分析数据。

一、什么是 本福德定律?

本福特定律,也称为本福德法则,说明一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,接近期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的机率就越低。它可用于检查各种数据是否有造假。

本福特定律最早由数学家暨天文学家纽康伯(Simon Newcomb)在1881年观察到,而通用电器公司的物理学家本福特(Frank Benford)博士在1938年正式将其公开发表。这一定律因其贡献而被命名为本福特定律。本福特通过对各种数值数据的分析,确定了从1到9中以任意数字n作为第一位数的概率为log10(1+1/n)。

在我们的日常生活中,以数字1开头的数字在各个领域中出现的频率似乎要高于其他数字。这就是著名的本福特定律,也被称为“第一位数定律”或者“首位数现象”。本文将详细介绍本福特定律的历史背景、原理,并且探讨它的应用领域和实际意义。

大家可以去看 下 百度的文章,

在这里插入图片描述

二、数学公式

以n开头的数的出现概率为log10(1 + 1/n)。

三、应用领域

会计欺诈检测
在刑事审判中的使用
宏观经济数据
价格数字分析
基因组数据

四、应用(看看是否有 会计、审计和欺诈检测。)

也称为第一位数字定律,规定在来自许多(但不是全部)现实生活数据源的数字列表中,前导数字以特定的、不均匀的方式分布。准确地说,P(d) = log 10 (1 + 1/d),其中 d 是 1-9 范围内的数字。因此,如果您对某列有 n 个观察值,则每个数字的预期值为 n*log 10 (1 + 1/d)

编写 SQL 代码来计算 Payments 中金额第一位数字的观察值和预期值。

您需要使用卡方统计量来检验观察到的数据是否遵循本福德定律。
本福德定律

SELECT LEFT(amount,1) as Digit, COUNT(*) as Observed,
ROUND((SELECT COUNT(*) FROM Payments)*LOG10(1+1/left(amount,1)),0) as Expected
FROM Payments
GROUP BY Digit, Expected
ORDER BY Digit;

在这里插入图片描述
卡方统计

excel 永远是神器

在这里插入图片描述
在这里插入图片描述

用CHISQ.TEST进行卡方检验,得到P值,如果P值小于0.05,则拒绝观察的样本跟期望的样本比例一致。
在这里插入图片描述

总结

本福德定律在在统计学用的比较多。特别是上市公司财报。最后谢谢大家。

希望大家喜欢 , 谢谢大家,我一直在一边面试,一边学习,一边考证,一边写作,充实自己。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/425103.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

单细胞Seurat - 降维与细胞标记(4)

本系列持续更新Seurat单细胞分析教程,欢迎关注! 非线形降维 Seurat 提供了几种非线性降维技术,例如 tSNE 和 UMAP,来可视化和探索这些数据集。这些算法的目标是学习数据集中的底层结构,以便将相似的细胞放在低维空间中…

Grpc项目集成到java方式调用实践

背景:由于项目要对接到grcp 的框架,然后需要对接老外的东西,还有签名和证书刚开始没有接触其实有点懵逼。 gRPC 是由 Google 开发的高性能、开源的远程过程调用(RPC)框架。它建立在 HTTP/2 协议之上,使用 …

从零开始手写RPC框架(3)——ZooKeeper入门

目录 ZooKeeper简介ZooKeeper中的一些概念 ZooKeeper安装与常用命令常用命令 ZooKeeper Java客户端 Curator入门 ZooKeeper简介 是什么? ZooKeeper 是一个开源的分布式协调服务,本身就是一个分布式程序(只要半数以上节点存活,Zo…

django-admin登录窗口添加验证码功能-(替换原有的login.html)captcha插件

需求: 1:更改django框架的admin登录窗口标题 2:在admin登录窗口中添加验证码功能 3:验证码允许点击更换 步骤如下: 1:安装插件以及在安装列表中添加插件 2:自定义表单forms.py 3:创建login.html文件(复制django内置的l…

中国电子学会2020年6月份青少年软件编程Sc ratch图形化等级考试试卷四级真题。

第 1 题 【 单选题 】 1.执行下面程序,输入4和7后,角色说出的内容是? A:4,7 B:7,7 C:7,4 D:4,4 2.执行下面程序,输出是&#xff…

备战蓝桥杯Day22 - 计数排序

计数排序问题描述 对列表进行排序,已知列表中的数范围都在0-100之间。设计时间复杂度为O(n)的算法。 比如列表中有一串数字,2 5 3 1 6 3 2 1 ,需要将他们按照从小到大的次序排列,得到1 1 2 2 3 3 5 6 的结果。那么此时计数排序是…

每天一道leetcode:14.最长公共前缀(简单)

⭐今日份题目 编写一个函数来查找字符串数组中的最长公共前缀。 如果不存在公共前缀,返回空字符串 ""。 示例1 输入:strs ["flower","flow","flight"] 输出:"fl" 示例2 输入&#…

制作镜像与配置推送阿里云仓库

一、制作jdk镜像 1.1、Alpine linux简介 Alpine Linux是一个轻量级的Linux发行版,专注于安全、简洁和高效。它采用了musl libc和BusyBox,使得系统资源占用较少,启动速度较快。 Alpine Linux也提供了一个简单的包管理工具APK,(注…

MySQL:索引的优化方法

索引是帮助存储引擎快速获取数据的一种数据结构,形象的说就是索引是数据的目录。 索引创建的时机: 索引并不是越多越好的,虽然他再查询时会提高效率,但是保存索引和维护索引也需要一定的空间和时间成本的。 不创建索引&#xff1a…

消防主机报故障时发出故障及原因及解决办法!

本文以青鸟消防JBF-11SF为例。 其他型号或品牌的消防主机也可参考。 开机前,必须先测量系统接线的绝缘电阻,确保各绝缘电阻满足以下要求: 1)空载时各电路信号线之间的绝缘值应大于5K欧姆。 2)正常天气条件下&#x…

10 计算机结构

冯诺依曼体系结构 冯诺依曼体系结构,也被称为普林斯顿结构,是一种计算机架构,其核心特点包括将程序指令存储和数据存储合并在一起的存储器结构,程序指令和数据的宽度相同,通常都是16位或32位 我们常见的计算机,笔记本…

C语言第三十四弹---动态内存管理(下)

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】 动态内存管理 1、动态内存经典笔试题分析 1.1、题目1 1.2、题目2 1.3、题目3 1.4、题目4 2、柔性数组 2.1、柔性数组的特点 2.2、柔性数组的使用 2.3、…

68-解构赋值,迭代器,生成器函数,Symbol

1.解构赋值(针对数组array&#xff0c;字符串String及对象object以) 结构赋值是一种特殊的语法&#xff0c;通过将各种结构中的元素复制到变量中达到"解构"的目的&#xff0c;但是数组本身没有改变 1.1解构单层数组 <script>let arr [1,2,3,4,5];//获取数组…

【微服务】微服务中常用认证加密方案总结

目录 一、前言 二、登录认证安全问题 3.1 认证方式选择 三、常用的加密方案 3.1 MD5加密算法 3.1.1 md5特点 3.1.2 md5原理 3.1.3 md5使用场景 3.2 AES加密算法 3.2.1 AES简介 3.2.2 AES加解原理 3.2.3 AES算法优缺点 3.2.4 AES算法使用场景 3.3 RSA加密算法 3.3…

【每日一题】找到字符串中所有字母异位词

目录 题目&#xff1a;思路&#xff1a;暴力枚举&#xff1a;滑动窗口&#xff1a; 代码实现&#xff1a;一些优化&#xff1a;代码实现&#xff1a; 题目&#xff1a; 找到字符串中所有字母异位词 思路&#xff1a; 暴力枚举&#xff1a; 对于有关子串的题目我们使用暴力枚…

1.2 在卷积神经网络中,如何计算各层感受野的大小

1.2 在卷积神经网络中&#xff0c;如何计算各层感受野的大小 分析与解答&#xff1a; 在卷积神经网络中&#xff0c;由于卷积的局部连接性&#xff0c;输出特征图上的每个节点的取值&#xff0c;是由卷积核在输入特征图对应位置的局部区域内进行卷积而得到的&#xff0c;因此这…

Sora惊艳出世,AI能否给人类带来新的“视界”?

2月16日&#xff0c;OpenAI公司公布了其首个文生视频大模型Sora&#xff0c;同时展示了多个由Sora生成的最长时间达一分钟的视频&#xff0c;引起科技圈震动。 钢铁侠马斯克对其发出“人类愿赌服输”的感叹&#xff0c;360董事长周鸿祎也作出“Sora意味着AGI实现将从10年缩短到…

【探索Linux】—— 强大的命令行工具 P.24(网络基础)

阅读导航 引言一、计算机网络背景1. 网络发展历史 二、认识 "协议"1. 网络协议概念2. 网络协议初识&#xff08;1&#xff09;协议分层&#xff08;2&#xff09;OSI参考模型&#xff08;Open Systems Interconnection Reference Model&#xff09;&#xff08;3&…

k8s-kubeapps图形化管理 21

结合harbor仓库 由于kubeapps不读取hosts解析&#xff0c;因此需要添加本地仓库域名解析&#xff08;dns解析&#xff09; 更改context为全局模式 添加repo仓库 复制ca证书 添加成功 图形化部署 更新部署应用版本 再次进行部署 上传nginx 每隔十分钟会自动进行刷新 在本地仓库…

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的教室人员检测与计数(Python+PySide6界面+训练代码)

摘要&#xff1a;开发教室人员检测与计数系统对于优化教学资源和提升教学效率具有重要意义。本篇博客详细介绍了如何利用深度学习构建此系统&#xff0c;并提供了完整的实现代码。该系统基于强大的YOLOv8算法&#xff0c;并对比了YOLOv7、YOLOv6、YOLOv5的性能&#xff0c;展示…