数据预处理之基于统计的(3σ,Z分数,Boxplot箱线图)异常值检测#matlab

基于统计的异常值检测

1.异常值的含义

异常值是指在数据集中偏离大部分数据的数据,使人怀疑这些数据的偏离并非由随机因素产生,而是产生于完全不同的机制。

异常挖掘(outlier mining)问题由两个子问题构成:(1)如何度量异常。(2)如何有效发现异常。

不同的异常挖掘方法就是通过不同的异常度量方法,构造异常点得分(outlier score),从而发现异常点。

2.异常值的使用背景

异常值的检测有助于识别数据中潜在的问题或异常情况,从而及早发现并解决可能的故障或错误。例如,在制造业中,通过检测流水线上生产的产品数据的异常,可以及时发现生产线的问题并进行修正,提高产品质量;通过住院费用的异常数据挖掘,可以有效的找到不合理的医疗费用支出,找出不规范的医疗行为,控制医疗费用不合理的上涨等。

因此,异常值的检测在数据研究和数学建模中是必不可少的一步。

3.方法理论简介

异常值的检测主要有基于统计、密度、距离、预测和聚类等检测方法,不同类型的数据和不同背景下异常值的检测有不同的适当的方法。

4.基于统计的异常值检测

基于统计的异常数据检测方法主要包括3σ 准则、Z分数、Boxplot(箱线图)等。其中,3σ 准则与Z分数等方法以数据服从正态分布为前提,而Boxplot不严格依赖于正态分布。

4.1 3σ准则

3σ 准则基于正态分布的性质,即大约99.7%的数据点会落在均值(μ)加减3个标准差(σ)的范围内。落在该范围之外的数据点被认为是异常值。
案例数据可从文章底部获得,接下来利用matlab实例代码介绍:

clear all

clc

data1=xlsread('3.6基于统计异常值检测案例数据.xlsx');%假设A为正态分布数据,此处不进行正态分布检验

%此处的data1虽然是42*16,但只是一个对象的一个指标的数据

%所以本文可以直接把data1改成一列

data = reshape(data1, [], 1);

mu = mean(data); % 计算均值

sigma = std(data); % 计算标准差

% 识别异常值

outliers = data(abs(data - mu) > 3*sigma);

disp('异常值:');

disp(outliers);

最终,matlab输出A.xlsx的异常值为15  15  20  20

4.2 Z分数

Z分数是数据点与其均值之间的差除以标准差。Z分数绝对值大于某个阈值(如3)的数据点被认为是异常值。

接下来利用matlab实例代码介绍:

clear all

clc

data1=xlsread('3.6基于统计异常值检测案例数据.xlsx');%假设A为正态分布数据,此处不进行正态分布检验

%此处的data1虽然是42*16,但只是一个对象的一个指标的数据

%所以本文可以直接把data1改成一列

data = reshape(data1, [], 1);

mu = mean(data); % 计算均值

sigma = std(data); % 计算标准差

% 计算Z分数

z_scores = (data - mu) ./ sigma;

% 识别异常值

outliers = data(abs(z_scores) > 3);

disp('异常值:');

disp(outliers);

最终,matlab输出A.xlsx的异常值为15  15  20  20

4.3 Boxplot(箱线图)

Boxplot是一种图形化显示数据分布的方法,它使用四分位数来绘制。箱线图可以帮助我们直观地识别出可能的异常值。

接下来利用matlab实例代码介绍:

clear all

clc

data1=xlsread('3.6基于统计异常值检测案例数据.xlsx');

%此处的data1虽然是42*16,但只是一个对象的一个指标的数据

%所以本文可以直接把data1改成一列

data = reshape(data1, [], 1);

figure;

boxplot(data);

title('箱线图');

xlabel('数据');

ylabel('值');

% MATLAB不会自动标记异常值,但你可以通过观察箱线图来识别它们

% 通常,异常值会被绘制为箱线图外的小点或星号

% 如果你想要根据箱线图计算的界限来识别异常值,你可以手动计算这些界限

Q1 = prctile(data, 25); % 下四分位数

Q3 = prctile(data, 75); % 上四分位数

IQR = Q3 - Q1; % 四分位距

lower_whisker = Q1 - 1.5 * IQR; % 下限

upper_whisker = Q3 + 1.5 * IQR; % 上限

% 识别异常值

outliers = data(data < lower_whisker | data > upper_whisker);

disp('异常值:');

disp(outliers);

最终,matlab输出A.xlsx的异常值为20 20,箱线图如下:

4.4 基于统计的优缺点

·优点:1)异常点检测的统计学方法具有坚实的基础,建立在标准的统计学技术(如分布参数的估计)之上。2)当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效。

·缺点:1)大部分统计方法都是针对单个属性的,对于多元数据技术方法较少。2)在许多情况下,数据分布是未知的。3)对于高维数据很难估计真实的分布。
案例数据:
链接:https://pan.baidu.com/s/1Mw6xwYvATB3atgrjnrRX6A?pwd=3650 
提取码:3650 
--来自百度网盘超级会员V4的分享

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/716796.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

我一直看不明白:“C++会被java/python等这些语言替代”

在开始前刚好我有一些资料&#xff0c;是我根据网友给的问题精心整理了一份「C的资料从专业入门到高级教程」&#xff0c; 点个关注在评论区回复“888”之后私信回复“888”&#xff0c;全部无偿共享给大家&#xff01;&#xff01;&#xff01; 有些程序&#xff0c;是既可以…

【QT5】<重点> IMX6ULL开发板运行QT

目录 1. 安装交叉编译器 2. 命令行交叉编译QT项目 3. 运行该可执行程序 4. 开发板上运行UDP程序与Ubuntu通信 1. 安装交叉编译器 第一步&#xff1a;进入正点原子论坛找到IMX6ULL开发板的资料&#xff0c;下载“开发工具”&#xff0c;将“交叉编译工具”中的fsl-imx-x11-…

Spring中的IOC

IOC&#xff08;Inversion of Control&#xff0c;控制反转&#xff09;是Spring框架核心概念之一。它是一种设计原则&#xff0c;用来实现对象的松耦合和依赖管理。在传统的编程中&#xff0c;对象负责创建或查找其依赖对象&#xff0c;而在IOC模式下&#xff0c;这些职责被移…

el-date-picker 有效时间精确到时分秒 且给有效时间添加标记

el-date-picker实现有效日期做标记且时分秒限制选择范围 代码如下&#xff1a; // html部分 <el-date-pickerv-model"dateTime"type"datetime":picker-options"pickerOptions" > </el-date-picker>// js部分 /*** 回放有效日期开始时…

WPF/C#:如何将数据分组显示

WPF Samples中的示例 在WPF Samples中有一个关于Grouping的Demo。 该Demo结构如下&#xff1a; MainWindow.xaml如下&#xff1a; <Window x:Class"Grouping.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x&q…

文心一言 VS 讯飞星火 VS chatgpt (283)-- 算法导论21.2 1题

一、使用链表表示和加权合并启发式策略&#xff0c;写出 MAKE-SET、FIND-SET 和 UNION 操作的伪代码。并指定你在集合对象和表对象中所使用的属性。如果要写代码&#xff0c;请用go语言。 文心一言&#xff1a; 在并查集&#xff08;Disjoint Sets&#xff09;或集合合并&…

6.7.29 基于卷积神经网络的乳腺良恶性图像分类

计算机化乳腺癌诊断系统在早期癌症诊断中发挥着重要作用。为此&#xff0c;应用深度学习&#xff0c;利用卷积神经网络 (CNN) 对基于小型乳房 X 线图像分析协会 (mini-MIAS) 数据库的乳房 X 线图像中的异常&#xff08;良性或恶性&#xff09;进行分类。观察准确度、灵敏度和特…

天锐绿盾数据防泄密软件有哪些功能

天锐绿盾数据防泄密软件的功能丰富而全面&#xff0c;旨在从源头上保障企业数据的安全。以下是对其主要功能的归纳和介绍&#xff1a; www.drhchina.com 一、文件加密模块 透明加密&#xff1a;在不影响用户工作流程的前提下&#xff0c;对需要保护的文件进行自动加密处理。文…

unity 打包PC安装包中常见文件的功能

目录 前言 一、打包好的文件 二、常用文件 1.文件夹XXX_Data 2.文件夹MonoBleedingEdge 3.文件夹XXX_Data内部 三、文件的应用 1.如果你替换了一个图片 2.如果你新增了或减少了图片和资源 3.场景中有变动 4.resources代码加载的资源改了 5.如果你代码替换了 四、作…

大模型时代:消失的飞轮

在移动互联网时代&#xff0c;“数据飞轮”效应深入人心&#xff1a;场景催生应用&#xff0c;应用生成数据&#xff0c;继而这些数据反馈优化算法&#xff0c;再反哺应用本身&#xff0c;进入迭代优化的良性循环。 随着生成式人工智能的兴起&#xff0c;许多人认为这一飞轮效…

springboot原理篇-bean管理

springboot原理篇-bean管理&#xff08;二&#xff09; 我们今天主要学习IOC容器中Bean的其他使用细节&#xff0c;主要学习以下三方面&#xff1a; 如何从IOC容器中手动的获取到bean对象bean的作用域配置管理第三方的bean对象 一、获取Bean 了解即可&#xff0c;默认情况下…

基于Python的花卉识别分类系统【W9】

简介&#xff1a; 基于Python的花卉识别分类系统利用深度学习和计算机视觉技术&#xff0c;能够准确识别和分类各种花卉&#xff0c;如玫瑰、郁金香和向日葵等。这种系统不仅有助于植物学研究和园艺管理&#xff0c;还在生态保护、智能农业和市场销售等领域展现广泛应用前景。随…

可视化大屏搞这样,是对前端开发尊严的巨大挑战。

现在可视化大屏不搞点炫酷的效果和3D交互&#xff0c;出门都不好意思给别人打招呼&#xff0c;作为前端领域的老司机&#xff0c;我感觉尊严受到了巨大挑战&#xff0c;必须迎难而上&#xff0c;hold住他们&#xff0c;老铁们你们觉得呢&#xff1f;

构建高效API接口:五个关键技术要点解析

构建高效API接口是现代软件开发中至关重要的一环。以下是五个关键技术要点&#xff0c;它们可以帮助开发者设计、实现、和维护高性能的API接口&#xff1a; 1. RESTful设计原则和HTTP协议最佳实践 资源定位与可寻址性&#xff1a;为每个资源定义清晰的URL&#xff0c;使用HTT…

买灯必看!护眼台灯是智商税吗?护眼台灯真的有用吗?

随着人们健康意识的日益增强、儿童近视率的大幅度增加&#xff0c;眼睛健康逐渐成为人们关注的焦点。为了减轻长时间用眼带来的疲劳&#xff0c;许多人开始寻求高品质的照明设备来呵护双眼。照明技术的飞速发展&#xff0c;使得现代照明产品能够精准地调整光线亮度、色温和闪烁…

RTSP/Onvif安防监控平台EasyNVR抓包命令tcpdump使用不了,该如何解决?

安防视频监控汇聚EasyNVR智能安防视频监控平台&#xff0c;是基于RTSP/Onvif协议的安防视频平台&#xff0c;可支持将接入的视频流进行全平台、全终端分发&#xff0c;分发的视频流包括RTSP、RTMP、HTTP-FLV、WS-FLV、HLS、WebRTC等格式。平台可提供的视频能力包括&#xff1a;…

区间DP——AcWing 282. 石子合并

区间DP 定义 区间 DP 是动态规划的一种特殊形式&#xff0c;主要是在一段区间上进行动态规划计算。 运用情况 通常用于解决涉及在一段区间内进行操作、计算最优值等问题。比如计算一个区间内的最大子段和、最小分割代价等。一些常见的场景包括合并操作、划分操作等在区间上…

华火新能源集成灶评测:创新与品质的融合

在厨房电器的不断推陈出新中&#xff0c;华火新能源集成灶以其独特的魅力进入了人们的视野。今天&#xff0c;我们就来深入评测这款备受关注的产品——华火新能源集成灶 一、华火新能源集成灶的创新与环保 首先&#xff0c;我们先来探讨新能源集成灶的整体表现。华火新能源集成…

如何将扫描的 PDF 转换为 Word

您是否正在寻找一种可靠且轻松的方式将扫描的 PDF 文档转换为可编辑的 Word 文件&#xff1f;要将 PDF 转换为可编辑的 Word 文档&#xff0c;神奇之处在于光学字符识别(OCR)。 使用 PDFgear&#xff0c;您可以无缝地将扫描的 PDF 转换为 Word&#xff0c;无论是在线还是离线。…

【电子实验4】TDA2030功率放大电路

&#x1f6a9; WRITE IN FRONT &#x1f6a9; &#x1f50e; 介绍&#xff1a;"謓泽"正在路上朝着"攻城狮"方向"前进四" &#x1f50e;&#x1f3c5; 荣誉&#xff1a;2021|2022年度博客之星物联网与嵌入式开发TOP5|TOP4、2021|2222年获评…