【Educoder数据挖掘实训】异常值检测-值域法

【Educoder数据挖掘实训】异常值检测-值域法

开挖!

这个题中 l o f lof lof算法给的很抽象,先用比较通俗的方式说一下:
首要想法是找到不合群的点,也就是异常点。采用的方法是对局部可达密度进行判断。相较于其他普通的简单基于聚类的算法,这个算法有两个优点:

  1. 可以应对下列问题:
    在这里插入图片描述
    在上图中,显然 p p p是一个异常点。但是可能根据常规的聚类算法很难排除点 p p p。原因是点 p p p是相较于 C 2 C_2 C2来说的异常点,可是 p p p C 2 C_2 C2中点的距离和 C 1 C_1 C1中点的平均距离差不多,所以常规的算法无法处理。但是 p p p l o f lof lof算法中密度显然很低,可以被标记出来。
  2. l o f lof lof算法中,不会像传统异常点检测算法一样直接给出哪些点是异常点,二是会给出每个点的密度。这样可以自己更新阈值更方便后续处理,或者说 l o f lof lof算法能更好的处理特殊情况。

那么什么是 l o f lof lof算法呢?先定义几个函数:
d ( p , q ) d(p,q) d(p,q)表示点到点的距离;
d k ( p ) d_k(p) dk(p):第 k k k距离,表示所有点到 p p p的距离里,从小到大排序的第 k k k个;
N k ( p ) N_k(p) Nk(p):第 k k k距离邻域:表示所有点到 p p p的距离里,不大于 d k ( p ) d_k(p) dk(p)的,不难看出 ∣ N k ( p ) ∣ ≥ k |N_k(p)|\ge k Nk(p)k
r e a c h _ d i s t k ( o , p ) = m a x ( d k ( o ) , d ( o , p ) ) reach\_dist_k(o,p)=max(d_k(o), d(o,p)) reach_distk(o,p)=max(dk(o),d(o,p)):第 k k k可达距离,显然在 o o o的第 k k k邻域里的点,点 o o o到这些点的第 k k k可达距离都为第 k k k距离。
l r d k ( p ) = 1 / ( ∑ o ∈ N k ( p ) r e a c h _ d i s t k ( o , p ) ∣ N k ( p ) ∣ ) lrd_k(p) = 1/(\frac{\sum_{o\in N_k(p)} reach\_dist_k(o,p)}{|N_k(p)|}) lrdk(p)=1/(Nk(p)oNk(p)reach_distk(o,p)):点 p p p的第 k k k局部可达密度;
L O F k ( p ) = ∑ o ∈ N k ( p ) l r d k ( o ) l r d k ( p ) ∣ N k ( p ) ∣ = ∑ o ∈ N k ( p ) l r d k ( o ) ∣ N k ( p ) ∣ / l r d k ( p ) LOF_k(p) = \frac{\sum_{o\in N_k(p)}\frac{lrd_k(o)}{lrd_k(p)}}{|N_k(p)|} = \frac{\sum_{o\in N_k(p)}lrd_k(o)}{|N_k(p)|} /lrd_k(p) LOFk(p)=Nk(p)oNk(p)lrdk(p)lrdk(o)=Nk(p)oNk(p)lrdk(o)/lrdk(p):局部离群因子,即将点 p p p N k ( p ) N_k(p) Nk(p)邻域内所有点的平均局部可达密度与点的局部可达密度做比较,通过这个值来反应点 p p p是不是异常点。

所以其实我们要做的就是求出所有点的 L O F k ( p ) LOF_k(p) LOFk(p)
显然有一种做法是 n 3 n^3 n3,即暴力枚举所有点和 k k k,这样当然是没问题的。
而且在数据挖掘中往往时间并不占据主要考虑对象,所以时间复杂度显得不是很重要。
但是显然有更优化的方法,比如用 K D T r e e KDTree KDTree来优化这个过程或者 B a l l T r e e Ball_Tree BallTree来优化,效果都是很好的。


当然这都不是我们考虑的范围, P y t h o n Python Python已经给出了相应的函数,我们只需要拿来用即可。
但是可能有一个问题,就是上述的 k k k到底取多少,题目里也并没有明确强调。经过实验取 10 10 10即可, P y t h o n Python Python函数中默认是 20 20 20
在求出所有密度之后我们在用 f i t _ p r e d i c t fit\_predict fit_predict函数进行预测即可,其中为 − 1 -1 1的点就是异常点。
代码:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor
# 导入数据
abc = pd.read_csv('deaths.csv')
## 只分析其中的Population和Lat两个变量
abc = abc[["Population","Lat"]]

###begin###
lof = LocalOutlierFactor(n_neighbors = 10)
###将lof作用于数据集
score = lof.fit_predict(abc)
ans = 0
for scr in score :
    if scr == -1 :
        ans += 1
print("检测出的异常值数量为:", ans)
###end####

一些问题和思考:

  1. 首先,这些算法 P y t h o n Python Python中都应相应的函数,只需要拿来用即可,关键要考虑清楚输入和输出的格式要求和数据类型。
  2. 这里 n _ n e i g h b o r s = 10 n\_neighbors = 10 n_neighbors=10并不是强制要求,而是我们采用 f i t _ p r e d i c t fit\_predict fit_predict函数进行异常点检测时恰好 k k k需要取到 10 10 10,我们如果换一种阈值可能就需要 k k k是另一个值。
  3. 对于 k k k值更深层次的理解:这里的 k k k并不具备单调属性。很容易被误解成以每个点周围的 k k k个点为聚类考虑问题。显然并不是,比如我们将 k k k 10 10 10枚举到 20 20 20,得到的异常点个数并不是单调的:在这里插入图片描述
    这其中的原因是: k k k并不是一个越大越宽松或者越大越严谨的可操控量, k k k只是一个算法中的变量。对于一个未知的数据我们并不能确定 k k k的值来找到最好的异常点检测方案。换句话说,对于不同的数据找到最合适的 k k k恰恰是我们应用 l o f lof lof算法的关键。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/427665.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

服务器后端是学习java还是php

没有绝对的"最好"语言,每种后端语言都有其适用的场景和特点。以下是几种常用的后端语言: 1. Java:Java是一种通用且强大的语言,广泛用于企业级应用和大型系统。它有很好的性能和可靠性,并且具有优秀的生态系…

图像增强技术总结

最近科研需要改进算法,需要先对图像进行增强后处理,所以对图像增强技术做一个总结。图像增强的目的就是要提高图像的质量,在图像处理中,有两种提高图像质量的方法:一是图像在采集的过程中,知道图像质量降低…

正信法律:借款纠纷的民事起诉状怎么写

在借款纠纷中,当协商无果时,诉诸法律成为债权人追回债务的有效途径。而民事起诉状作为启动诉讼程序的法律文书,其撰写质量直接关系到案件的受理与判决。本文旨在简明扼要地阐述如何撰写一份规范的借款纠纷民事起诉状。 起诉状需包含以下几个关…

23种设计模式——工厂方法模式

定义: 一个用于创建对象的接口,让子类决定实例化哪一个类。工厂方法使一个类的实例化延迟到其他子类。 工厂方法通用类图: 这个图更好理解 在工厂方法模式中,抽象产品类Product负责定义产品的共性,实现对事物最抽象的…

无公网ip环境使用DS file软件远程访问内网群晖NAS中储存的文件

文章目录 1. 群晖安装Cpolar2. 创建TCP公网地址3. 远程访问群晖文件4. 固定TCP公网地址5. 固定TCP地址连接 DS file 是一个由群晖公司开发的文件管理应用程序,主要用于浏览、访问和管理存储在群晖NAS(网络附加存储)中的文件。这个应用程序具有…

【C++从练气到飞升】01---C++入门

🎈个人主页:库库的里昂 ✨收录专栏:C从练气到飞升 🎉鸟欲高飞先振翅,人求上进先读书。 目录 推荐 前言 什么是C C的发展史 📋命名空间 命名空间定义 命名空间使用 命名空间的嵌套 std命名空间的使用 &#…

JavaScript-如何通过原生JS实现匀速动画

JavaScript-如何通过原生JS实现匀速动画 据我们所知,我们可以通过css3(transform translate即可)区实现这个动画,但是通常面试的时候,可能会被要求原生手敲; ​ 使用到的知识点:定时器去实现s…

力扣hot4--双指针

题目: 双指针想法: i 指针在数组不为 0 的地方停留,j 指针在每个地方停留,依次交换 i 和 j 指针。当 i 指针遍历完所有数组元素时,j 指针指向的元素及后面的元素都为0。 代码如下: C版本 class Solution …

5.测试教程 - 进阶篇

文章目录 1.按测试对像划分1.1**界面测试**1.2**可靠性测试**1.3**容错性测试**1.4**文档测试**1.5**兼容性测试**1.6**易用性测试**1.7**安装卸载测试**1.8**安全测试**1.9**性能测试**1.10**内存泄漏测试** 2.按是否查看代码划分2.1黑盒测试(Black-box Testing)2.2白盒测试(W…

retinaNet FocalLoss源码详解

targets[positive_indices, assigned_annotations[positive_indices, 4].long()] 1 ## 把正样本所对应的锚框所对应的类别的列置为1 # aim torch.randint(0, 1, (1, 80)) # tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, # 0…

【JavaEE进阶】使用云服务器实现Linux环境搭建

文章目录 🍃前言🌲Linux背景知识🚩Linux 是什么?🚩Linux发行版🚩Linux的优势 🎄Linux环境搭建🚩环境的搭建方式🚩使用云服务器 🎋使用终端软件连接到Linux&am…

企业CRM系统选型指南 | 掌握必备功能,提升工作效率

大家好我是卡林,今天分享CRM系统的十大功能,企业CRM系统选型指南。说起CRM的功能,大家会联想到什么?数据库、商机管理或者销售漏斗,这些是大部分人都会联想到的功能,但不太全面。如线索管理、联系人管理、客…

2. vue 工程创建

1. 基于 vite创建 官方文档: https://v3.cn.vuejs.org/guide/installation.html#vite vite官网: https://vitejs.cn 使用vite创建的优势: 开发环境中,无需打包操作,可快速的冷启动。轻量快速的热重载(HMR)。真正的按需编译,不再…

[青少年CTF擂台挑战赛 2024 #Round] Misc 1ez_model

[青少年CTF擂台挑战赛 2024 #Round] Misc 1ez_model 题目描述:从Pytorch开始的AI之路 下载附件,是一个pth文件 .pth 文件通常是 PyTorch 模型的权重文件,它包含了模型的参数。要还原(或加载)一个大模型,你…

利用ArcGISPro/GeoScenePro从激光雷达数据中提取 3D 建筑物

开始使用激光雷达数据 在本课程中,您将从激光雷达数据中提取信息。 激光雷达(激光探测及测距)是一项遥感技术,它利用激光对地球表面进行密集采样,以产生高精度的 x, y, z 点测量。 这些点的集合称为点云。 要从激光雷达…

CVE-2024-23334 AIOHTTP 目录遍历漏洞复现

aiohttp简介 aiohttp 是一个基于 asyncio 实现的 Python HTTP 客户端和服务器框架。它提供了异步的 HTTP 客户端和服务器功能,能够处理高并发的网络请求。以下是关于 aiohttp 的一些重要特点和用途: 基于 asyncio:aiohttp 是基于 Python 的 a…

FAST-LIO系列-阅读笔记

近期,阅读了FAST-LIO、FAST-LIO2以及Faster_LIO论文,这三篇论文都属于滤波器的SLAM算法,下面记录一下三个工作的主要贡献和不同。 FAST-LIO 1.提出了一种计算效率高、鲁棒性强的激光雷达-惯性里程测量框架。使用紧密耦合的迭代扩展卡尔曼滤…

SuperPoint和SuperGlue 的算法介绍及学习应用经验分享

SuperPoint和SuperGlue 的算法介绍及学习应用经验分享 2024年01月03日 10:38186浏览 3喜欢 0评论 视频地址: SuperPoint和SuperGlue 的算法介绍及学习应用经验分享 好想 特征点匹配,为了计算位姿 特征点:关键点描述子&#xff08…

迅速上手:CentOS 系统下 SSH 服务配置指南

前言 掌握 SSH 服务,就像拥有了一把解锁网络世界的钥匙。本文深入浅出地介绍了如何使用 SSH(Secure Shell)服务,从连接远程服务器到安全文件传输,让你轻松驾驭远程管理与数据传输,提高工作效率&#xff0c…

玩转地下管网三维建模:MagicPipe3D系统

地下管网是保障城市运行的基础设施和“生命线”。随着实景三维中国建设的推进,构建地下管网三维模型与地上融合的数字孪生场景,对于提升智慧城市管理至关重要!针对现有三维管线建模数据差异大、建模交互弱、模型效果差、缺乏语义信息等缺陷&a…