【机器学习300问】40、如何评估一个异常检测系统?

        上一篇文章是我学习异常检测系统如何实现的学习笔记,这篇文章接着上文记录几个评价异常检测系统的关键步骤和指标。如果友友们没有看过之前的文章可以点击下面的链接去看看哦!

【机器学习300问】39、高斯分布模型如何实现异常检测?icon-default.png?t=N7T8http://t.csdnimg.cn/sPwBP

〇、假设异常检测的任务要求 

        假设我们负责管理电机设备网络共有10000台电机是正常的,各项监测指标(如温度、转速、电流、电压等)均在正常范围内波动。有20台电机是异常的,这些异常包括但不限于电机温度突然飙升、电流波动异常增大、转速不稳定等情况。

        现在我们的目标就是通过有效的数据分析和机器学习算法,利用那9980台正常电机的数据来构建模型,识别出电机的正常行为模式。然后,我们将模型应用到整个电机网络中,以此来检测那20台异常电机以及其他未来可能出现类似异常的电机。

一、具体评价步骤

(1)根据正常数据和异常数据来分配数据集

  • 训练集:6000台正常电机的数据作为训练集,用来训练模型学习正常数据的分布特征,估计特征的平均值和方差构建异常检测模型p(x)
  • 交叉验证集:可以将一部分已知正常数据与少量已知异常数据混合,例如2000台正常电机和10台异常电机的数据作为交叉检验集,用来调整阈值和优化模型参数,确保模型在含有异常情况下的表现。
  • 测试集:剩余的正常数据和尽可能多的真实异常数据构成测试集,例如2000台正常电机和10台异常电机的数据作为测试集,用于评估模型的最终性能。

(2)构建异常检测模型

        首先利用6000台正常电机的数据构建训练集,通过分析这些数据来了解正常电机运行时的各项指标(如温度、振动、电流等)的分布特征,基于这些数据估计出特征的平均值和方差,以此为基础建立异常检测模型,该模型能够识别出与正常状态不符的电机行为。

        接下来,在模型训练完成后,为了确保模型在面对既有正常又有异常情况时依然能准确识别异常,我们采用了一个混合数据集作为交叉检验集。这个交叉检验集包含了2000台正常电机的数据和仅有的10台异常电机的数据。通过在该集合上调整模型阈值和优化参数,可以评估模型在包含异常样本条件下的性能,确保模型既不过于敏感导致误报过多,也不过于迟钝导致遗漏真正的异常。

(3)选择合适的评估指标进行评估

        最后,为了全面且客观地评价模型在真实环境下的性能,保留了一部分正常电机数据(2000台)以及尽可能多的真实异常电机数据(同样假设为10台),组成测试集。通过测试集上的表现,我们可以得到模型在未知数据上的精确度、召回率以及F1分数等评估指标,从而对模型进行全面验收和最终性能评估。

二、 如何确定正常与异常的阈值?

        即使在无标签数据集上,通过调整阈值并观察模型性能指标的变化来确定阈值,指标可以是精确率、召回率或F1分数,之前我在:

【机器学习300问】31、不平衡数据集如何进行机器学习?icon-default.png?t=N7T8http://t.csdnimg.cn/Aciz8        中介绍过,面对这种不平衡数据集(异常检测就是很典型的不平衡数据集任务)可以精确率、召回率或F1分数来衡量机器学习模型的性能。通过评价模型在某个阈值下的误识别(误报)和漏识别(漏报)情况来调整阈值。

        例如:画出F1分数与阈值的函数曲线图,通过曲线的最高点来确定最佳阈值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/472544.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【鸿蒙HarmonyOS开发笔记】通知模块之发布基础类型通知,内含如何将图片变成PixelMap对象

通知简介 应用可以通过通知接口发送通知消息,终端用户可以通过通知栏查看通知内容,也可以点击通知来打开应用。 通知常见的使用场景: 显示接收到的短消息、即时消息等。 显示应用的推送消息,如广告、版本更新等。 显示当前正…

数据库系统概论-第3章 关系数据库标准语言SQL

3.1 SQL概述 3.2 学生-课程数据库 3.3 数据定义 3.4 数据查询 3.5 数据更新 3.6 空值的处理 3.7 视图 3.8 小结

Wav2Lip+facefusion通过云GPU实现自定义数字人

1 通过Wav2Lip同步嘴型 这里我是用的云GPU,选择的恒通云,下面是我的套餐信息 比较注意的是选择的镜像必须选择拥有python3.6的镜像,因为Wav2Lip需要的环境就是python3.6 开始进入系统执行下面操作 克隆源码: git clone https:…

【四六级最强四六级通关秘籍】十万字经验贴,浅谈 大学生与大学英语四六级的“爱恨情仇“

大学生与大学英语四六级的"爱恨情仇" 一、、创文初衷 1.1创作目的 亲爱的网友们, 大家好!我最近意识到,尽管英语六级考试对许多大学生来说是一个重要的挑战,但并不是每个人都能找到合适的学习方法和技巧来顺利通过这…

计算机设计大赛 题目: 基于深度学习的疲劳驾驶检测 深度学习

文章目录 0 前言1 课题背景2 实现目标3 当前市面上疲劳驾驶检测的方法4 相关数据集5 基于头部姿态的驾驶疲劳检测5.1 如何确定疲劳状态5.2 算法步骤5.3 打瞌睡判断 6 基于CNN与SVM的疲劳检测方法6.1 网络结构6.2 疲劳图像分类训练6.3 训练结果 7 最后 0 前言 🔥 优…

内核移植——开发板的软件抽象(struct machine_desc)

以下内容源于朱有鹏嵌入式课程的学习与整理,如有侵权请告知删除。 内核支持什么架构、支持哪款cpu,这是如何确定的?主要是通过机器码来确定的。 内核中定义了一份机器码,uboot也会给内核传递一个机器码。 在内核启动的汇编阶段&…

【呼市经开区建设服务项目水、电能耗监测 数采案例】

实施方案 针对能耗采集中的水、电能源数据采集,因客观因素条件,数据采集方面存在较大难度。大多数国网电表485接口由于封签限制,不能实施采集,不让拆机接线,采集实施存在困难。水量能耗采集,存在类似问题&a…

网络原理(3)——TCP协议

目录 一、连接管理 二、三次握手 1、何为三次握手? 2、三次握手有何意义? 三、四次挥手 三次握手和四次挥手的相似之处和不同之处 (1)相似之处 (2)不同之处 四、TCP的状态 建立连接: 断开…

Fabric.js在vue2中使用

Fabric.js安装 这里我是基于vue来使用的,先安装上Fabric.js npm install fabric 在main.js中 import fabric from fabric Vue.use(fabric);Fabric 提供了 7 种基础形状: fabric.Circle (圆)fabric.Ellipse (椭圆)fabric.Line (线)fabric.Polyline (多条…

GIS学习

匹配查询,先连接两个表,然后在一个表里面查询 合并两个形状 比较好的colormap http://soliton.vm.bytemark.co.uk/pub/cpt-city/views/totp-cpt.html https://docs.gmt-china.org/latest/cpt/builtin-cpt/ 计算坡度时就要捕捉栅格 重分类时也要捕捉栅…

protobuf原理解析-基于protobuf-c实现序列化,反向序列化

1.一个实例 前面介绍了使用protobuf的流程. (1). 定义proto文件来描述需要序列化和反向序列化传输的消息. (2). 借助proto-c,为proto文件生成对应的代码控制文件. (3). 程序借助生成的代码控制文件和protobuf-c动态库的支持实现类…

HarmonyOS如何创建及调用三方库

介绍 本篇主要向开发者展示了在Stage模型中,如何调用已经上架到三方库中心的社区库和项目内创建的本地库。效果图如下: 相关概念 Navigation:一般作为Page页面的根容器,通过属性设置来展示页面的标题、工具栏、菜单。Tabs&#…

win10 配置 oh-my-posh

win10 配置 oh-my-posh 0. 前置1. 安装1.1. 软件1.2. 字体1.3. 激活1.3.1. Git Bash1.3.2. PowerShell 2. 配置2.1. 效果2.2. 说明2.3. 其他2.3.1. 新版PowerShell2.3.2 conda问题 0. 前置 这个东西毕竟是个,命令行美化工具,所以需要先有一个命令行&…

代码随想录算法训练营第60天 | 84.柱状图中最大的矩形

单调栈章节理论基础: https://leetcode.cn/problems/daily-temperatures/ 84.柱状图中最大的矩形 题目链接:https://leetcode.cn/problems/largest-rectangle-in-histogram/description/ 思路: 本题双指针的写法整体思路和42. 接雨水是一…

ubuntu 20.04 Kimera semantic 运行记录

Ubuntu20.04 Kimera Semantic运行记录 Kimera VIO ROS 配置 MIT Kimera-VIO-ROS 安装 mkdir -p Kimera_ws/src cd Kimera_ws catkin init catkin config --cmake-args -DCMAKE_BUILD_TYPERelease -DGTSAM_TANGENT_PREINTEGRATIONOFF catkin config --merge-develcd src git…

《量子十年》报告更新!IBM精研量子计算,助力行业优化转型

近日,IBM商业价值研究院(IBM Institute for Business Value,简称IBV)精心出版了一本引人入胜的报告,《量子十年》第四版。这不仅是一本值得一读的书籍,更是对当前行业发展状况的全面总结和重要补充。 这部由…

Linux | Ubuntu安装pylsl

PYNQ开发中使用pylsl过程记录 操作系统为 Linux pynq 5.15.19-xilinx-v2022.1 #1 SMP PREEMPT Mon Apr 11 17:52:14 UTC 2022 armv7l armv7l armv7l GNU/Linux 使用 pip install pylsl 安装后在导入包的过程中会遇到如下错误: RuntimeError: LSL binary library f…

如何实现跨标签页通讯

什么是跨标签页通讯 同一浏览器,可以打开多个标签页,跨标签页通讯就是,一个标签页能够发消息给另一标签页。 有哪些实现方案 localStorage (window.onstorage事件监听)BroadcastChannel(广播&#xff09…

redis在springboot项目中的应用

一,将查询结果放到redis中作为缓存,减轻mysql的压力。 只有在数据量大的时候,查询速度慢的时候才有意义。 本次测试的数据量为XXX. 测试代码: 功能为根据昵称进行模糊匹配。 GetMapping("/get-by-nick")public String getNickN…