【异常分析:四分位距与3σ原则】

文章目录

    • 前言
    • 四分位距(IQR)
    • 3σ原则
    • 使用步骤
      • 计算四分位距
      • 应用3σ原则
    • 代码

前言

异常分析的目标是识别数据中的异常值,这些异常值可能是由于错误的记录、设备故障或者其他未知原因导致的。四分位距(interquartile range, IQR)和3σ原则(3 sigma rule)是两个常用的工具。

四分位距(IQR)

四分位距是统计学中用于度量数据离散程度的一种方法。它是指数据的上四分位数(Q3)与下四分位数(Q1)之间的差值,通常用于识别数据集中的离群值。计算四分位距的公式如下:

IQR=Q3-Q1

其中,Q1是数据的25th百分位数,Q3是数据的75th百分位数。

3σ原则

3σ原则是一种基于正态分布的统计学原则,用于判断数据中的异常值。根据3σ原则,如果数据服从正态分布,那么大约有68%的数据值落在均值加减一个标准差范围内,大约有95%的数据值落在均值加减两个标准差范围内,大约有99.7%的数据值落在均值加减三个标准差范围内。因此,超出均值加减三个标准差范围的数据可以被视为异常值。

使用步骤

计算四分位距

import numpy as np

# 计算第一四分位数(Q1)
Q1 = np.percentile(data, 25)

# 计算第三四分位数(Q3)
Q3 = np.percentile(data, 75)

# 计算四分位距(IQR)
IQR = Q3 - Q1

应用3σ原则

# 计算数据的均值和标准差
mean = np.mean(data)
std_dev = np.std(data)

# 计算异常值的阈值
threshold = 3 * std_dev

# 根据3σ原则判断异常值
outliers = [x for x in data if abs(x - mean) > threshold]

代码

import numpy as np
import matplotlib.pyplot as plt

# 示例数据
data = [100, 150, 200, 250, 300, 350, 400, 450, 500, 1000]

# 计算四分位距
Q1 = np.percentile(data, 25)  # 第一四分位数
Q3 = np.percentile(data, 75)  # 第三四分位数
IQR = Q3 - Q1  # 四分位距
print("第一四分位数:", Q1)
print("第三四分位数:", Q3)
print("四分位距:", IQR)
print("异常值范围:", (Q1 - 1.5 * IQR, Q3 + 1.5 * IQR))

# 应用3σ原则识别异常值
mean = np.mean(data)
std_dev = np.std(data)
threshold = 3 * std_dev
outliers = [x for x in data if abs(x - mean) > threshold]
print("异常值:", outliers)

# 可视化
# 箱型图
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.boxplot(data)
plt.xlabel('数据')
plt.title('数据和异常值')
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/678944.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

目标检测数据集 - 海洋垃圾检测数据集下载「包含VOC、COCO、YOLO三种格式」

数据集介绍:海洋垃圾检测数据集,真实拍摄海洋海底场景高质量垃圾检测图片数据,涉及场景丰富,比如海底塑料垃圾数据、海底铁制品罐状垃圾数据、海底纸张垃圾数据、海洋生物和海底垃圾同框数据、海底探索仪器和海底垃圾同框数据、海…

前端localForage存储数据使用教程

前言 前端本地化存储算是一个老生常谈的话题了,我们对于 cookies、Web Storage(sessionStorage、localStorage)的使用已经非常熟悉,在面试与实际操作之中也会经常遇到相关的问题,但这些本地化存储的方式还存在一些缺陷…

iPhone录音的m4a格式音频文件怎么转成MP3格式?

在日常工作生活中,我们有时会用电脑或手机录音,比如iPhone录音的M4A格式音频,要上传至某些软件或者平台使用,但是有时这些平台或者软件对音频格式有要求,比如有的就只能上传mp3格式的文件。 这个时候我们就需要先将音频…

在Three.js中实现模型点击高亮:整合EffectComposer与OutlinePass的终极指南

效果【后期实现鼠标点击选中轮廓后给出一个弹窗显示相应的模型信息】 标签指示线参考我的上一篇文章 引言 Three.js不仅让WebGL的3D图形编程变得简单易懂,还通过其强大的扩展库支持丰富的后期处理效果,为3D场景增添无限魅力。本篇文章将引导您深入了…

客户案例|Zilliz Cloud 助力点石科技转型 AI 智能服务商

福建点石科技网络科技有限公司成立于2010年,是国家高新技术企业,阿里云、蚂蚁金服等大厂海内外生态合作伙伴ISV。在餐饮、零售、酒店、旅游、商圈的行业定制化服务化上有深厚积累,在境内外做了大量标杆性软件项目,如东南亚RWS圣淘…

详解智慧互联网医院系统源码:开发医院小程序教学

本篇文章,笔者将详细介绍智慧互联网医院系统的源码结构,并提供开发医院小程序的详细教学。 一、智慧互联网医院系统概述 智慧互联网医院系统涵盖了预约挂号、在线咨询、电子病历、药品管理等多个模块。 二、系统源码结构解析 智慧互联网医院系统的源码…

【软件测试】自动化测试如何管理测试数据

前言 在之前的自动化测试框架相关文章中,无论是接口自动化还是UI自动化,都谈及data模块和config模块,也就是测试数据和配置文件。 随着自动化用例的不断增加,需要维护的测试数据也会越来越多,维护成本越来越高&#…

MySQL Hints:控制查询优化器的选择

码到三十五 : 个人主页 MySQL Hints是优化数据库查询性能的一种强大工具。它们允许开发者在SQL查询中嵌入指令,以影响MySQL优化器的决策过程。在某些情况下,优化器可能无法选择最佳的查询执行计划,这时我们可以使用Hints来引导优化…

上位机图像处理和嵌入式模块部署(f407 mcu中的网络开发)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 和大家想的不太一样,只要mcu当中带有了mac ip,那么就意味着mcu本身支持了网络开发。但是如果需要mcu支持完整的tcp/ip&…

2024年信息素养大赛复赛时间已定,题库刷了吗?

刚刚,据全国青少年信息素养大赛华北赛区(北京)组委会发布公告,2024全国青少年信息素养大赛华北赛区(北京)将定于7月13日进行线下赛的复赛,7月20-21日进行线上赛(编程类)的…

模型训练篇 | yolov10来了!手把手教你如何用yolov10训练自己的数据集(含网络结构 + 模型训练 + 模型推理等)

前言:Hello大家好,我是小哥谈。YOLOv9还没捂热乎,YOLOv10就推出来了,太卷了,太快了,坐等YOLOv9000!自今年2月YOLOv9发布之后, YOLO(You Only Look Once)系列的…

c语言项目-贪吃蛇项目2-游戏的设计与分析

文章目录 前言游戏的设计与分析地图&#xff1a;这里简述一下c语言的国际化特性相关的知识<locale.h> 本地化头文件类项setlocale函数 上面我们讲到需要打印★&#xff0c;●&#xff0c;□三个宽字符找到这三个字符打印的方式有两种&#xff1a; 控制台屏幕的长宽特性&a…

[JAVASE] 异常 与 SE阶段知识点补充

目录 一. 异常 1.1 什么是异常? 1.2 异常的本质 1.3 异常的分类 1.4 如何处理异常? 1.5 自定义异常 1.6 受查异常 与 非受查异常 与 Error(重要) 二. Object类 三. 内部类 2.1 什么是内部类? 2.2 内部类的分类 2.3 常用内部类的使用 四. 总结 一. 异常 1.1 什么是异…

容声冰箱启动“以旧换新”活动,将掀起绿色消费新热潮

日前&#xff0c;容声冰箱正式启动了新一轮家电“以旧换新”活动&#xff0c;宣布从6月1日至8月31日&#xff0c;凡是通过容声自有渠道参与活动的用户&#xff0c;最高可获换新补贴1000元&#xff0c;并还有多重好礼相送。 此举旨在打造低碳、绿色、智能、时尚的家电消费新生态…

做项目管理,有哪些证书值得考?

考证可以提升技能水平&#xff0c;增强职场竞争力。 01PMP认证 PMP是受全球认可的项目管理专业人士资格认证&#xff0c;在国际上具有权威性&#xff0c;被媒体公认为继MBA、MPA之后的三大就业金字招牌。 在国内认可度也很高&#xff0c;中石油、中国石化、中兴通讯等大型企…

webf 框架源码、开发工具、数据库脚本、用户手册(233页)下载

用户手册将介绍 webf 的技术体系以及使用方法&#xff0c;便于用户快速配置出一致的开发环境&#xff0c;并能够将webf配置运行使用。 资料列表&#xff08;仅供学习参考&#xff09; webf源码持久层生成工具数据库脚本用户手册 说明&#xff1a;下载地址见文章尾部。 资源…

一图看懂 | 蓝卓热电行业解决方案

能源是人类社会发展过程中的永恒话题,热电联产作为电能和热能同时生产的能源利用形式,相较传统的火力发电具有能源利用效率高等优点,可以高效解决能源及环境问题。目前&#xff0c;世界各国都将热电联产作为更高效、更环保的能源供给体系而有效措施大力推广。 如何降本增效、减…

NeuralForecast 多变量的处理 包括训练和推理

NeuralForecast 多变量的处理 包括训练和推理 flyfish 两个excel表格合并后的结果 unique_id ds y ex_1 ex_2 ex_3 ex_4 0 HUFL 2016-07-01 00:00:00 -0.041413 -0.500000 0.166667 -0.500000 -0.001370 1 …

“滴滴打车,用友入账”,YonSuite商旅费控助力企业“降低成本”更进一步

在当今竞争激烈的商业环境中&#xff0c;企业对于成本控制和效率提升的需求日益迫切。特别是在商旅管理方面&#xff0c;如何有效整合资源、优化流程、降低费用&#xff0c;成为了成长型企业关注的焦点。用友YonSuite商旅费控作为用友集团旗下的重要产品&#xff0c;凭借其卓越…

SolidWorks功能强大的三维设计软件下载安装,SolidWorks最新资源获取!

SolidWorks&#xff0c;它凭借出色的三维建模能力&#xff0c;使得设计师们能够轻松构建出复杂且精细的机械模型&#xff0c;大大提升了设计效率和质量。 在机械设计领域&#xff0c;SolidWorks凭借其丰富的工具和特性&#xff0c;让设计师们能够随心所欲地挥洒创意。无论是零…