04、基于高斯分布的异常检测算法

04、基于高斯分布的异常检测算法原理与实践

开始学习机器学习啦,已经把吴恩达的课全部刷完了,现在开始熟悉一下复现代码。对这个手写数字实部比较感兴趣,作为入门的素材非常合适。

数据的严重偏斜往往会导致监督学习算法面临巨大的挑战——尤其是在负样本数量稀缺的情况下,监督学习模型难以充分汲取必要的知识。这就引发了一个重要的问题:我们能否从这种极端不平衡的数据中成功地训练出一个有效的异常检测模型呢?答案就在于基于统计学的异常检测算法。

此类方法通常建立在一种假设之上,即给定的数据集遵循某种随机分布模型,任何与该模型明显不符的样本都会被视为异常样本。在这些基于统计学的异常检测算法中**,高斯模型是最常用分布模型**。

当然,如果给定的原始数据集不遵循高斯分布,我们可以通过坐标轴变换的方式将其变换为符合高斯分布的数据再进行异常检测。

1、基于高斯分布的异常检测算法原理

高斯分布的概率密度函数如下所示:
在这里插入图片描述
处于图片的中心位置,是概率密度最高的地方,这代表此种情况是经常发生的。越向两边概率密度越低,这代表这些情况较小发生,更有可能是异常情况。我们需要的是确定这个阈值,当概率密度小于多少时则认定其为异常。

这种基于高斯分布的异常检测算法在训练时不需要标签,只需要根据训练数据计算出各个特征的均值与方差即可(就是高斯分布的参数)。在训练之后,可以根据少量的数据确定异常的阈值,从而实现整个异常检测算法。

对于高维的异常检测算法,其理论是一致的,如下面的二维概率密度的等高线图,处于边缘的会往往会被视为异常情况(小概率出现的事件):
在这里插入图片描述
在这里插入图片描述
至于为什么小概率事件会等同于异常呢,打个比方,训练集得出结论人是吃米的,但是出来一个奇葩人居然吃虫子,那么这个不相当于出现异常了嘛。

2、基于高斯分布的异常检测算法实现

STEP1: 从训练集计算数据的分布特性,主要是均值和方差

# 计算数据的均值与方差
def estimate_gaussian(X):
    mu = np.mean(X, axis=0)
    var = np.var(X, axis=0)
    return mu, var

STEP2: 将交叉验证集应用到概率分布上,得到其分布概率

# 定义一个函数,名为multivariate_gaussian,输入参数为X(样本点)、mu(均值向量)和var(方差)
def multivariate_gaussian(X, mu, var):
    # 计算均值向量的长度,也即特征的数量
    k = len(mu)
    # 如果输入的协方差矩阵是一维的,则将其转换为对角矩阵
    if var.ndim == 1:
        var = np.diag(var)
    # 将输入的样本点X减去均值向量mu,进行中心化处理
    X = X - mu
    # 计算多元高斯分布的概率密度函数值
    # 公式中的各部分分别计算,最后相乘得到结果
    p = (2 * np.pi) ** (-k / 2) * np.linalg.det(var) ** (-0.5) * \
        np.exp(-0.5 * np.sum(np.matmul(X, np.linalg.pinv(var)) * X, axis=1))
    # 返回概率密度函数值
    return p

其对应的公式如下:
在这里插入图片描述


STEP3: 根据交叉验证集得出阈值

epsilon 的选择使用的是便利的方法,以找到一个使得F1 score最大的epsilon :

def select_threshold(y_val, p_val):
    """
    通过选择最佳的阈值来最大化F1分数。
    参数:
    y_val (numpy数组): 真实的标签值,1代表正类,0代表负类。
    p_val (numpy数组): 预测的概率值。
    返回:
    best_epsilon, best_F1: 包含最佳阈值和对应的最大F1分数。
    """
    best_epsilon = 0  # 初始化最佳阈值为0
    best_F1 = 0  # 初始化最佳F1分数为0
    F1 = 0  # 当前的F1分数
    # 计算步长,使得在p_val的最小值和最大值之间有1000个步骤
    step_size = (max(p_val) - min(p_val)) / 1000
    # 对p_val中的每一个值进行遍历,从最小值到最大值,步长为step_size
    for epsilon in np.arange(min(p_val), max(p_val), step_size):
        # 根据当前的阈值epsilon,得到预测的标签
        predictions = (p_val < epsilon)
        # 计算假阳性(预测为正但实际为负的样本数)
        fp = sum((predictions == 1) & (y_val == 0))
        # 计算真阳性(预测为正且实际为正的样本数)
        tp = np.sum((predictions == 1) & (y_val == 1))
        # 计算假阴性(预测为负但实际为正的样本数)
        fn = np.sum((predictions == 0) & (y_val == 1))
        # 计算精确度(查准率)
        prec = tp / (tp + fp)
        # 计算召回率(查全率)
        rec = tp / (tp + fn)
        # 计算F1分数
        F1 = 2 * prec * rec / (prec + rec)
        # 如果当前的F1分数比之前的最佳F1分数还要大,则更新最佳F1分数和对应的阈值
        if F1 > best_F1:
            best_F1 = F1
            best_epsilon = epsilon
            # 返回最佳阈值和对应的最大F1分数
    return best_epsilon, best_F1

STEP4: 由此就可以根据交叉验证集得到的阈值计算训练集中的异常数据了
下面是结果:
在这里插入图片描述

3、完整代码

工程的下载链在最上方:

import numpy as np
import matplotlib.pyplot as plt

def load_data():
    X = np.load("Anomaly_Detection_data/X_part1.npy")
    X_val = np.load("Anomaly_Detection_data/X_val_part1.npy")
    y_val = np.load("Anomaly_Detection_data/y_val_part1.npy")
    return X, X_val, y_val
# 计算数据的均值与方差
def estimate_gaussian(X):
    mu = np.mean(X, axis=0)
    var = np.var(X, axis=0)
    return mu, var


# 定义一个函数,名为multivariate_gaussian,输入参数为X(样本点)、mu(均值向量)和var(方差)
def multivariate_gaussian(X, mu, var):
    # 计算均值向量的长度,也即特征的数量
    k = len(mu)
    # 如果输入的协方差矩阵是一维的,则将其转换为对角矩阵
    if var.ndim == 1:
        var = np.diag(var)
    # 将输入的样本点X减去均值向量mu,进行中心化处理
    X = X - mu
    # 计算多元高斯分布的概率密度函数值
    # 公式中的各部分分别计算,最后相乘得到结果
    p = (2 * np.pi) ** (-k / 2) * np.linalg.det(var) ** (-0.5) * \
        np.exp(-0.5 * np.sum(np.matmul(X, np.linalg.pinv(var)) * X, axis=1))
    # 返回概率密度函数值
    return p

def visualize_fit(X, mu, var):
    # 首先画出等高线,坐标在0, 35.5之间
    X1, X2 = np.meshgrid(np.arange(0, 35.5, 0.5), np.arange(0, 35.5, 0.5))
    Z = multivariate_gaussian(np.stack([X1.ravel(), X2.ravel()], axis=1), mu, var)
    Z = Z.reshape(X1.shape)
    plt.plot(X[:, 0], X[:, 1], 'rx')
    if np.sum(np.isinf(Z)) == 0:
        plt.contour(X1, X2, Z, levels=10 ** (np.arange(-20., 1, 3)), linewidths=1)
    plt.title("The Gaussian contours of the distribution fit to the dataset")
    plt.ylabel('Throughput (mb/s)')
    plt.xlabel('Latency (ms)')
    plt.show()


def select_threshold(y_val, p_val):
    """
    通过选择最佳的阈值来最大化F1分数。
    参数:
    y_val (numpy数组): 真实的标签值,1代表正类,0代表负类。
    p_val (numpy数组): 预测的概率值。
    返回:
    best_epsilon, best_F1: 包含最佳阈值和对应的最大F1分数。
    """
    best_epsilon = 0  # 初始化最佳阈值为0
    best_F1 = 0  # 初始化最佳F1分数为0
    F1 = 0  # 当前的F1分数
    # 计算步长,使得在p_val的最小值和最大值之间有1000个步骤
    step_size = (max(p_val) - min(p_val)) / 1000
    # 对p_val中的每一个值进行遍历,从最小值到最大值,步长为step_size
    for epsilon in np.arange(min(p_val), max(p_val), step_size):
        # 根据当前的阈值epsilon,得到预测的标签
        predictions = (p_val < epsilon)
        # 计算假阳性(预测为正但实际为负的样本数)
        fp = sum((predictions == 1) & (y_val == 0))
        # 计算真阳性(预测为正且实际为正的样本数)
        tp = np.sum((predictions == 1) & (y_val == 1))
        # 计算假阴性(预测为负但实际为正的样本数)
        fn = np.sum((predictions == 0) & (y_val == 1))
        # 计算精确度(查准率)
        prec = tp / (tp + fp)
        # 计算召回率(查全率)
        rec = tp / (tp + fn)
        # 计算F1分数
        F1 = 2 * prec * rec / (prec + rec)
        # 如果当前的F1分数比之前的最佳F1分数还要大,则更新最佳F1分数和对应的阈值
        if F1 > best_F1:
            best_F1 = F1
            best_epsilon = epsilon
            # 返回最佳阈值和对应的最大F1分数
    return best_epsilon, best_F1

# Load the dataset
# 利用吞吐量(兆比特/秒)和每台服务器的响应延迟(毫秒)来判断服务器是否正常运行
X_train, X_val, y_val = load_data()
print ('The shape of X_train is:', X_train.shape)
print ('The shape of X_val is:', X_val.shape)
print ('The shape of y_val is: ', y_val.shape)



# Estimate mean and variance of each feature
# 一共两个特征,因此返回的是一个包含两个元素的数组
mu, var = estimate_gaussian(X_train)
visualize_fit(X_val, mu, var)
p_val = multivariate_gaussian(X_val, mu, var)
p = multivariate_gaussian(X_train, mu, var)
epsilon, F1 = select_threshold(y_val, p_val)

# Find the outliers in the training set
outliers = p < epsilon
# Visualize the fit
visualize_fit(X_train, mu, var)
# 查看训练数据
plt.scatter(X_train[:, 0], X_train[:, 1], marker='x', c='b')
plt.title("The first dataset")
plt.ylabel('Throughput (mb/s)')
plt.xlabel('Latency (ms)')
plt.axis([0, 30, 0, 30])
# Draw a red circle around those outliers
plt.plot(X_train[outliers, 0], X_train[outliers, 1], 'ro',
         markersize= 10,markerfacecolor='none', markeredgewidth=2)
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/199593.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

西南科技大学模拟电子技术实验二(二极管特性测试及其应用电路)预习报告

目录 一、计算/设计过程 二、画出并填写实验指导书上的预表 三、画出并填写实验指导书上的虚表 四、粘贴原理仿真、工程仿真截图 一、计算/设计过程 说明:本实验是验证性实验,计算预测验证结果。是设计性实验一定要从系统指标计算出元件参数过程,越详细越好。用公式输入…

法线制作神器crazybump 和 Normal Map Generator

UE4系列文章目录 文章目录 UE4系列文章目录前言一、crazybump是什么&#xff1f;二、Normal Map Generator是什么&#xff1f; 前言 我们在使用UE4、UE5制作材质时&#xff0c;经常会遇到使用法线图。使用深度图生成法线图&#xff0c;一般会使用photoShop等软件&#xff0c;对…

运算符重载

运算符重载 类对象不能直接参与运算&#xff0c;需要对运算符进行重载。 运算符预定义的操作只能针对基本数据类型&#xff0c;但是对于自定义类型&#xff0c;若需要类似的运算符操作&#xff0c;此时也可以重新定义这些运算符的功能&#xff0c;使其支持特定类型&#xff0c…

基于QT的俄罗斯方块游戏设计与实现

基于QT的俄罗斯方块游戏设计与实现 摘要&#xff1a;信息时代正处于高速发展中&#xff0c;而电子游戏已经成为人生活中或不可少的消磨工具之一。科技时代在不断地高速发展中&#xff0c;游戏相关编程设计也随着发展变得越来越重要&#xff0c; 俄罗斯方块游戏是一款古老传遍世…

申请免费的ssl证书

申请网站&#xff1a; https://freessl.cn/ 解密域名&#xff0c;添加cname跳转 下载acme.sh 工具脚本&#xff0c;地址&#xff1a;https://github.com/acmesh-official/acme.sh/wiki/Install-in-China 下载成功之后的acme.sh是一个目录&#xff0c;进去之后才是脚本 执行…

【vue脚手架配置代理+github用户搜索案例+vue项目中常用的发送Ajax请求的库+slot插槽】

vue脚手架配置代理github用户搜索案例vue项目中常用的发送Ajax请求的库slot插槽 1 vue脚手架配置代理2 github用户搜索案例2.1 静态列表2.2 列表展示2.3 完善案例 3 vue项目中常用的发送Ajax请求的库3.1 xhr3.2 jQuery3.3 axios3.4 fetch3.5 vue-resource 4 slot 插槽4.1 效果4…

windows11 phpstudy_pro php8.2 安装redis扩展

环境&#xff1a;windows11 phpstudy_pro php8.2.9 一、命令查看是否安装redis扩展 在对应网站中通过打开&#xff0c;&#xff0c;选择对应的PHP版本&#xff0c;用命令 php -m 查看自己的php 有没有redis扩展 上面如果有&#xff0c;说明已经安装了,如果没有安装&#xff1…

Python加百度语音API实现文字转语音功能

目录 一、引言 二、百度语音API介绍 三、Python实现文字转语音功能 1、安装相关库和工具 2、准备待合成的文字信息 3、调用百度语音API进行合成 四、实验结果与讨论 五、优化与改进 六、结论 一、引言 随着人工智能技术的不断发展&#xff0c;语音合成技术也越来越成…

VT-MSPA1-12-1X/V0直动式比例压力阀放大器

适用于控制不带电位移反馈的比例压力阀、比例流量阀、比例方向阀的控制;差动输入;1个脉冲输出端口;函数发生器;带斜坡时间可调的斜坡生器&#xff08;可上升和下降斜坡&#xff09;; 可调电流调节器;电源带错极保护;LED 电磁铁动作显示;&#xff08;LED 的亮度与流过电磁铁的电…

Python 分解IP段获取所有IP(子网掩码)

需求 192.168.1.0/24,192.168.2.1-192.168.2.254,192.168.3.3 IP段格式已 "," 分割&#xff0c;获取所有IP 注意 1. 判断 IP 是否合规 2. 去除多余的字符&#xff0c;例如空格、换行符 3. 去重 代码 import re import ipaddressdef isIP(ip):p re.compile(^((…

网络运维与网络安全 学习笔记2023.11.28

网络运维与网络安全 学习笔记 第二十九天 今日目标 OSPF汇总之域间路由、OSPF汇总之外部路由、OSPF链路认证 OSPF安全认证之区域认证、OSPF虚链路 OSPF汇总指域间路由 项目背景 企业内网运行多区域的OSPF网络&#xff0c;在R1 上存在多个不稳定的链路 R1上的不稳定链路&a…

4.Spring源码解析-loadBeanDefinitions(XmlBeanDefinitionReader)

第一个点进去 发现是空 肯定走的第二个逻辑了 这里在这里已经给属性设置了值&#xff0c;所以肯定不是空能拿到。 1.ClassPathXmlApplicationContext 总结&#xff1a;该loadBeanDefinitions是XmlBeanDefinitionReader设置xml文件在哪。

Linux 磁盘挂载

一、查看挂载点 df -h 二、查看磁盘信息 fdisk -l 下面红色的这一块就是未分区的磁盘 三、 进行磁盘分区 fdisk /dev/sdb /dev/sdb &#xff1a;是上面fdisk -l查询出来未分区的磁盘地址 根据提示输入m获取命令 四、执行命令&#xff0c;创建一个分区 1、新建分区&#…

代码随想录算法训练营 ---第四十九天

前言&#xff1a; 今天是买卖股票的最佳时机系列&#xff0c;本系列之前在学习贪心思想时做过一些。 第一题&#xff1a; 简介&#xff1a; 本题在读题时我们要注意到几个细节 1.本题股票买卖只有一次。2.我们要在最低点买股票&#xff0c;在最高点卖股票。 我的思路&#…

不小心删除了短信,如何在 Android 上恢复已删除的短信

不小心删除了文字消息在 Android 手机上使用可能会是一种令人痛苦的体验。这些消息可能包含有价值的信息、珍贵的回忆或重要的细节。幸运的是&#xff0c;您可以探索多种方法来恢复这些丢失的消息。在本文中&#xff0c;我们将深入研究可用于检索已删除短信的选项&#xff0c;并…

同质化严重,创新突破难,德佑湿厕纸道阻且长

撰稿|行星 来源|贝多财经 随着大众卫生健康意识的日益加深&#xff0c;作为日常生活必需品的纸类产品也逐步向着精细化、多元化的趋势发展&#xff0c;厨房用纸、婴儿用纸等面向各类特定场景和人群的新品类如雨后春笋般涌出&#xff0c;为市场带来了更多的可能性。 在传统卫…

linux(2)之buildroot使用手册

Linux(2)之buildroot配置toolchain Author&#xff1a;Onceday Date&#xff1a;2023年11月27日 漫漫长路&#xff0c;才刚刚开始… 参考文档&#xff1a; Buildroot - Making Embedded Linux Easy 文章目录 Linux(2)之buildroot配置toolchain1. 构建配置1.1 配置config生成…

探索Python内置类属性__repr__:展示对象的魅力与实用性

概要 在Python中&#xff0c;每个对象都有一个内置的__repr__属性&#xff0c;它提供了对象的字符串表示形式。这个特殊的属性在调试、日志记录和交互式会话等场景中非常有用。本文将详细介绍__repr__属性的使用教程&#xff0c;包括定义、常见应用场景和注意事项&#xff0c;…

深入剖析 Django 与 Flask 的选择之谜

概要 在现代 Web 开发的世界里&#xff0c;Python 作为一门极具灵活性和易用性的编程语言&#xff0c;催生了多个强大的 Web 框架&#xff0c;其中 Django 和 Flask 是最受欢迎的两个。但对于开发者来说&#xff0c;选择哪一个始终是一个令人费解的难题。本文将详细地对比这两…

c++|类与对象(中)

目录 一、类的6个默认成员函数 二、构造函数 2.1概念 2.2七大特性 三、析构函数 3.1概念 3.2特性 四、拷贝构造函数 4.1概念 4.2特性 五、赋值运算符重载 5.1运算符重载 5.2赋值运算符重载 5.3前置和后置重载 六、const成员函数 七、取地址及const取地址操作符重…