一文总结python的异常数据处理示例

AI应用开发相关目录

本专栏包括AI应用开发相关内容分享,包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧
适用于具备一定算法及Python使用基础的人群

  1. AI应用开发流程概述
  2. Visual Studio Code及Remote Development插件远程开发
  3. git开源项目的一些问题及镜像解决办法
  4. python实现UDP报文通信
  5. python实现日志生成及定期清理
  6. Linux终端命令Screen常见用法
  7. python实现redis数据存储
  8. python字符串转字典
  9. python实现文本向量化及文本相似度计算
  10. python对MySQL数据的常见使用
  11. 一文总结python的异常数据处理示例

文章目录

  • AI应用开发相关目录
    • 一、前言
    • 二、代码示例


一、前言

数据是一切应用开发的基础,异常数据处理可以保障数据质量。
本文总结了基于数据分布、聚类算法、树、距离以及概率的异常数据处理算法及其示例。

二、代码示例

数据
在这里插入图片描述
基于数据分布的异常处理算法

# 基于箱线图的异常数据检测
KW_data = data['线路长度'].tolist()
Q1 = np.quantile(KW_data,0.25,interpolation='lower')#下四分位数
Q3 = np.quantile(KW_data,0.75,interpolation='higher')#上四分位数
QE = Q3-Q1

max_value = Q3+1.5*QE
min_value = Q3-1.5*QE
error_index = []
for i in range(len(KW_data)):
    if (KW_data[i]>= min_value) and (KW_data[i] <= max_value):
        pass
    else:
        error_index.append(i)

在这里插入图片描述

基于聚类算法的异常处理算法

# DBSCAN聚类
import numpy as np
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler

# 创建数据集
X = np.array(data[['线路长度','导线长度','塔材','挂线金具','混凝土','土石方熨','本体投资']])

# 对数据进行标准化处理
X = StandardScaler().fit_transform(X)

# 使用DBSCAN算法进行聚类
dbscan = DBSCAN(eps=0.3, min_samples=2)
dbscan.fit(X)

# 获取异常数据的索引
outliers_mask = dbscan.labels_ == -1
outliers_indices = np.where(outliers_mask)[0]

# 输出异常数据的索引
print("异常数据的索引:", outliers_indices)

在这里插入图片描述

基于树的异常处理算法

# 基于孤立森林的异常数据检测

import numpy as np  
from sklearn.ensemble import IsolationForest  
import matplotlib.pyplot as plt  
  
# 生成示例数据  
X = np.array(data[['塔材','本体投资']])# 可多
  
# 使用孤立森林算法进行异常检测  
clf = IsolationForest(contamination='auto')  
pred = clf.fit_predict(X)  
  
# 将预测结果可视化  
plt.scatter(X[:, 0], X[:, 1], c=pred)  
plt.show()

在这里插入图片描述
基于数据间距的异常处理算法

# 基于局部异常因子的异常检测算法

import numpy as np  
from sklearn.neighbors import LocalOutlierFactor  
  
# 生成示例数据  
X = np.array(data[['塔材','本体投资']])# 可多
  
# 使用局部异常因子算法进行异常检测  
clf = LocalOutlierFactor(n_neighbors=20, contamination='auto')  
pred = clf.fit_predict(X)  
  
# 将预测结果可视化  
plt.scatter(X[:, 0], X[:, 1], c=pred)  
plt.show()

在这里插入图片描述
基于概率的异常处理算法

# 示例数据集
db_path = os.getcwd()+'\\db.sqlite3'
# 数据读取
gradedb = sqlite3.connect(db_path)
cursor=gradedb.cursor()
cursor.execute("SELECT * FROM returning_files_table;")
Tables=cursor.fetchall()
raw_data  = []
for i in Tables:
    raw_data.append([i[0],i[1],i[2],i[3],i[4],i[5],i[6],i[7],i[8]])
raw_data = pd.DataFrame(raw_data, columns=['标段', '线路长度', '导线长度', '塔材', '挂线金具', '盘型绝缘子', '混凝土', '土石方熨', '本体投资'])
a0 = raw_data['标段'].tolist()
a1 = [float(i) for i in raw_data['线路长度']]
a2 = [float(i) for i in raw_data['导线长度']]
a3 = [float(i) for i in raw_data['塔材']]
a4 = [float(i) for i in raw_data['挂线金具']]
a5 = raw_data['盘型绝缘子'].tolist()
a6 = [float(i) for i in raw_data['混凝土']]
a7 = [float(i) for i in raw_data['土石方熨']]
a8 = [float(i) for i in raw_data['本体投资']]
data = []
for i in range(len(a0)):
    data.append([a0[i],a1[i],a2[i],a3[i],a4[i],a5[i],a6[i],a7[i],a8[i]])
data = pd.DataFrame(data, columns=['标段', '线路长度', '导线长度', '塔材', '挂线金具', '盘型绝缘子', '混凝土', '土石方熨', '本体投资'])
# 从数据集中删除PassengerId,Name变量
data.drop(['标段'], axis=1, inplace=True) 
data = data[['线路长度','导线长度','塔材','挂线金具','混凝土','土石方熨','本体投资']]
data.head()
import pandas as pd
from sksos import SOS

X = np.array(data[['塔材','本体投资']]) # 两个维度
detector = SOS()
data["score"] = detector.predict(X)
data.sort_values("score", ascending=False).head(10)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/461870.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【打工日常】使用Docker部署团队协作文档工具

一、ShowDoc介绍 ​ShowDoc是一个适合IT团队共同协作API文档、技术文档的工具。通过showdoc&#xff0c;可以方便地使用markdown语法来书写出API文档、数据字典文档、技术文档、在线excel文档等等。 响应式网页设计&#xff1a;可将项目文档分享到电脑或移动设备查看。同时也可…

redis持久化策略

redis中持久化策略 1.持久化是什么 在前面的过程中讲述了有关于MySQL中事务的一些特性以及隔离等级。其中很重要的一条就提到了持久化&#xff0c;持久化就是可以将数据进行一个持久保存的意思。也就是将数据写入到硬盘中&#xff0c;虽然&#xff0c;redis是操作内存的一个数…

element-plus怎么修改表单中的label字体颜色及大小

问题描述&#xff1a; 当我们在vue3中使用element-plus组件库提供的表单组件时&#xff0c;有时我们需要修改表单中label的字体颜色等属性&#xff0c;这是如果直接选中label的class进行修改是不起作用的&#xff0c;我们只需深度选择即可选中并进行修改。 比如&#xff1a; …

PS学习-抠图-蒙版-冰块酒杯等透明物体

选中图&#xff0c;ctrlA 全选 ctrlC复制 创建一个蒙版图层 选中蒙版Alt 点击进入 ctrlv 复制 ctrli 反转 原图层 ctrldelete填充为白色 添加一个背景&#xff0c;这个方法通用 首选创建一个 拖到最底部 给它填充颜色 这个可能是我图片的原因。视频是这样做的

力扣L10--- 3. 无重复字符的最长子串--2024年3月14日

1.题目 2.知识点 注1&#xff1a;containsKey 是 Java 中 HashMap 类的一个方法&#xff0c;用于检查哈希表中是否包含指定的键。 注2&#xff1a;在哈希表&#xff08;HashMap)中&#xff0c;每个键对应着唯一的值&#xff0c;因此键不能重复&#xff0c;但值可以重复。 (1)创…

公众号留言功能恢复了,你的开通了吗?

了解公众号的人都知道&#xff0c;腾讯在2018年3月宣布暂停新注册公众号的留言功能&#xff0c;这之后注册的公众号都不具备留言功能。 这成了很多号主运营人的一块心病&#xff0c;也包括我。 没有留言&#xff0c;就好似一个人玩单机游戏&#xff0c;无法与读者互动&#xff…

数据资产管理解决方案:构建高效、安全的数据生态体系

在数字化时代&#xff0c;数据已成为企业最重要的资产之一。然而&#xff0c;如何有效管理和利用这些数据资产&#xff0c;却是许多企业面临的难题。本文将详细介绍数据资产管理解决方案&#xff0c;帮助企业构建高效、安全的数据生态体系。 一、引言 在信息化浪潮的推动下&a…

DVWA-File Upload文件上传

什么是文件上传漏洞&#xff1f; 黑客利用文件上传后服务器解析处理文件的漏洞上传一个可执行的脚本文件&#xff0c;并通过此脚本文件获得了执行服务器端命令的能力。 造成文件上传漏洞的原因: 1.服务器配置不当 2.开源编辑器上传漏洞 3.本地文件上传限制被绕过 4.过滤不严格被…

【C语言】分支语句(逻辑运算符与关系运算符)

文章目录 **逻辑运算符(&&、||、!)**逻辑运算符特点短路短路-逻辑与短路-逻辑或 **关系运算符&#xff08;relational expression&#xff09;**运算操作符的结合律、运算符 **选择结构/分支结构****if 语句****复合句的if语句(if...else..语句)****不良风格的程序** *…

使用Loadrunner进行性能测试

一、确定性能测试的范围、要求、配置、工具等 明确测试的系统&#xff1a; 本文档主要指的是web应用。 明确测试要求&#xff1a; 用户提出性能测试&#xff0c;例如&#xff0c;网站首页页面响应时间在3S之内&#xff0c;主要的业务操作时间小于10s&#xff0c;支持300用户在…

【触想智能】嵌入式工控一体机在交通监控管理上的应用分析

随着现代交通网络和技术的不断发展&#xff0c;高速公路的建设已经成为国家重点工程之一。然而&#xff0c;如何确保高速公路的安全驾驶则成为了一个长期亟待解决的问题。 为了提高高速公路的交通管理效率&#xff0c;嵌入式工控一体机被广泛应用于高速公路的联合监控管理系统中…

《古滇传说水龙吟》敖诀扮演者李亚云

2024年2月28日&#xff0c;演员李亚云参演新剧古滇传说原创系列剧第一部《水龙吟》在浙江横店影视城开机拍摄。该剧由中共昆明市西山区委宣传部、石林县委宣传部、昆明滇池国家旅游度假区管委会文旅投促局、云南民族电影制片厂、云南卫视、昆明影视拍摄服务中心支持&#xff0c…

[RAM] RAM 突发传输(Burst ,Burst size, length) | Burst 读写过程与时序 精讲

主页&#xff1a; 元存储博客 文章目录 前言1. Burst 基本概念含义Burst Width &Burst Length 2. CPU Burst mode3. 总线 burst mode总线的仲裁总线突发传输时序 4. Burst Chop (突发终止)5. Burst Mode 应用什么时候用突发模式 总结 前言 在DMA&#xff08;直接内存访问&…

java基础-异常、常用类

异常 Exception 如果程序员认为一段代码可能出现异常/问题&#xff0c;try-catch异常处理机制来解决&#xff0c;从而保证程序的健壮性。将该代码块–》选中–》快捷键 ctrlaltt–》选中 try-catch 常见的一些异常~ 异常体系图&#xff0c;体现了继承和实现关系。&#xff08…

ubuntu 安装 infiniband 和 RoCE 驱动

下载驱动程序 驱动程序地址 https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/ 安装 安装参考文档 https://docs.nvidia.com/networking/display/mlnxofedv24010331/installing+mlnx_ofed#src-2571322208_InstallingMLNX_OFED-InstallationProced…

调皮的String及多种玩法(上部)

&#x1f468;‍&#x1f4bb;作者简介&#xff1a;&#x1f468;&#x1f3fb;‍&#x1f393;告别&#xff0c;今天 &#x1f4d4;高质量专栏 &#xff1a;☕java趣味之旅 欢迎&#x1f64f;点赞&#x1f5e3;️评论&#x1f4e5;收藏&#x1f493;关注 &#x1f496;衷心的希…

通过actions configuration tool进行快速open 软件的定义

这个主要是看到有人可以直接在文件夹中右键打开terminator得到的启发&#xff1a; 首先需要下载工具 sudo apt-get install nautilus-actions下载terminator&#xff1a; sudo apt-get install terminator去软件目录寻找filemanager-action 然后新建一个action&#xff0c…

简单的网页制作

1网页编写格式 <!DOCTYPE html> <html><head><meta charset"utf-8"> <title>中文测试。。。。</title></head><body>这里是测试body测试内容。。。</body> </html>2标签 在body内<h1></h1&…

平衡树——treap

treap实际上就是tree(BST&#xff0c;二叉搜索树)heap(堆) 我们维护一个二叉树来储存值&#xff0c;但是为了避免二叉树由于值太特殊变成链式结构&#xff0c;我们对于每个点加入一个val值&#xff0c;这个是随机值&#xff0c;我们通过这个随机值来维护一个大根堆(只与val有关…

JDK8和JDK11在Ubuntu18上切换(解决nvvp启动报错)

本文主要介绍JDK8和JDK11在Ubuntu18上切换&#xff0c;以供读者能够理解该技术的定义、原理、应用。 &#x1f3ac;个人简介&#xff1a;一个全栈工程师的升级之路&#xff01; &#x1f4cb;个人专栏&#xff1a;计算机杂记 &#x1f380;CSDN主页 发狂的小花 &#x1f304;人…