【机器学习合集】优化目标与评估指标合集 ->(个人学习记录笔记)

文章目录

  • 优化目标与评估指标
    • 1. 优化目标
      • 1.1 两类基础任务与常见优化目标
      • 1.2 分类任务损失
        • 0-1损失
        • 交叉熵损失与KL散度
        • softmax损失的理解与改进
        • Hinge损失
      • 1.3 回归任务损失
        • L1/L2距离
        • L1/L2距离的改进 Huber loss
    • 2. 评测指标
      • 2.1 分类任务中评测指标
        • 准确率(查准率)/召回率(查全率)/精确度/PR曲线
        • ROC曲线/AUC面积
        • 混淆矩阵
      • 2.2 回归任务中的评测指标
        • IoU(Intersection-over-Union)
        • AP(Average Precision)/mAP
        • 峰值信噪比PSNR
        • 结构一致性相似SSIM

优化目标与评估指标

1. 优化目标

在这里插入图片描述

1.1 两类基础任务与常见优化目标

在这里插入图片描述

1.2 分类任务损失

在分类任务中,常见的损失函数包括交叉熵损失(Cross-Entropy Loss)、均方误差(Mean Squared Error, MSE)、Hinge损失(Hinge Loss)、对比损失(Contrastive Loss)、以及多类别对数损失(Multi-Class Log Loss)等。这些损失函数有不同的特点和用途,下面将简要介绍它们的区别:

  1. 交叉熵损失(Cross-Entropy Loss)

    • 用于多类别分类任务。
    • 计算模型的输出与真实标签之间的差异,鼓励模型为正确的类别分配更高的概率。
    • 常见的变体包括二元交叉熵和多类别对数损失。
  2. 均方误差(Mean Squared Error, MSE)

    • 通常用于回归任务,但也可以用于二元分类。
    • 计算模型的输出和真实标签之间的平方误差,不适用于多类别分类。
  3. Hinge损失(Hinge Loss)

    • 通常用于支持向量机(SVM)等模型,也用于二元分类任务。
    • 鼓励模型使正确类别的分数高于其他类别的分数,以增加分类的边际。
  4. 对比损失(Contrastive Loss)

    • 用于度量学习和相似度学习任务。
    • 鼓励相似样本之间的距离小于不相似样本之间的距离。
  5. 多类别对数损失(Multi-Class Log Loss)

    • 类似于交叉熵损失,用于多类别分类任务。
    • 计算模型对每个类别的对数概率,鼓励正确类别的概率高,常用于多标签分类任务。
  • 这些损失函数的选择通常取决于任务的性质和所使用的模型。交叉熵损失在深度学习中应用最广泛,因为它在多类别分类任务中效果良好,且容易优化。但对于其他任务,不同的损失函数可能更为合适。根据任务的具体要求和数据类型,选择合适的损失函数非常重要。
0-1损失

在这里插入图片描述

交叉熵损失与KL散度

在这里插入图片描述
在这里插入图片描述

softmax损失的理解与改进

在这里插入图片描述

Hinge损失

在这里插入图片描述

1.3 回归任务损失

在回归任务中,常见的损失函数包括均方误差(Mean Squared Error, MSE)、平均绝对误差(Mean Absolute Error, MAE)、L1损失(L1 Loss)、L2损失(L2 Loss),以及 Huber损失。以下是它们的主要区别:

  1. 均方误差(MSE)

    • 计算模型的预测值与真实标签之间的平方差,然后取平均。
    • MSE对异常值敏感,因为平方差会放大异常值的影响。
    • MSE通常用于普通的线性回归任务。
  2. 平均绝对误差(MAE)

    • 计算模型的预测值与真实标签之间的绝对差,然后取平均。
    • MAE鲁棒性更好,不太受异常值的影响。
    • MAE适用于对异常值敏感的任务,如金融风险评估。
  3. L1损失(L1 Loss)

    • 也称为绝对损失或L1范数损失,计算模型的预测值与真实标签之间的绝对差的总和。
    • 类似于MAE,L1损失对异常值鲁棒性更好。
    • L1损失通常用于稀疏建模和特征选择。
  4. L2损失(L2 Loss)

    • 也称为均方损失或L2范数损失,计算模型的预测值与真实标签之间的平方差的总和。
    • L2损失对异常值敏感,因为平方会放大异常值的影响。
    • L2损失通常用于正则化线性回归或神经网络。
  5. Huber损失

    • 一种折中方法,结合了L1和L2损失的特性。
    • 在接近真实值时使用平方损失,远离真实值时使用线性损失,从而在一定程度上抵抗异常值。

总的来说,MSE和MAE分别度量了平方差和绝对差的平均值,对异常值的敏感性不同。L1损失和L2损失分别度量了绝对差和平方差的总和。Huber损失是这些损失函数的折中,既有MSE的平滑性,又有MAE的鲁棒性。损失函数的选择通常取决于任务的性质和数据的特点,以及对异常值的处理需求。

L1/L2距离

在这里插入图片描述

L1/L2距离的改进 Huber loss

在这里插入图片描述

2. 评测指标

在机器学习和深度学习任务中,有多种常见的评测指标用于度量模型的性能。这些指标根据任务类型和需求的不同而有所变化。以下是一些常见的评测指标:

1. 分类任务评测指标:

  • 准确度(Accuracy):分类正确的样本数占总样本数的比例。
  • 精确度(Precision):真正例(True Positives)占真正例和假正例(False Positives)之和的比例。用于度量模型预测正例的准确性。
  • 召回率(Recall):真正例占真正例和假负例(False Negatives)之和的比例。用于度量模型检测正例的能力。
  • F1分数(F1 Score):精确度和召回率的调和平均值,用于综合评估模型性能。
  • ROC曲线(Receiver Operating Characteristic Curve):以不同的分类阈值绘制真正例率(True Positive Rate)和假正例率(False Positive Rate)之间的曲线。AUC(Area Under the Curve)用于度量ROC曲线下的面积。
  • PR曲线(Precision-Recall Curve):以不同的分类阈值绘制精确度和召回率之间的曲线。AP(Average Precision)用于度量PR曲线下的平均精确度。

2. 回归任务评测指标:

  • 均方误差(Mean Squared Error, MSE):预测值与真实值之间的平方差的平均值。
  • 平均绝对误差(Mean Absolute Error, MAE):预测值与真实值之间的绝对差的平均值。
  • 均方根误差(Root Mean Squared Error, RMSE):MSE的平方根,以与原始单位一致的方式度量误差。
  • R平方(R-squared):用于度量模型对总方差的解释比例,值范围在0到1之间。
  • 相关系数(Correlation Coefficient):用于度量模型预测值与真实值之间的线性关系。

3. 聚类任务评测指标:

  • 轮廓系数(Silhouette Score):用于度量聚类的紧凑性和分离度,值范围在-1到1之间。
  • Calinski-Harabasz指数:用于度量聚类的紧凑性和分离度,值越大表示聚类效果越好。
  • Davies-Bouldin指数:用于度量聚类之间的平均相似性,值越小表示聚类效果越好。
  • 这些评测指标根据任务类型和需求的不同,可以帮助您评估模型的性能和效果。选择适当的评测指标取决于具体任务的性质和目标。

在这里插入图片描述

2.1 分类任务中评测指标

准确率(查准率)/召回率(查全率)/精确度/PR曲线

这些指标是用于评估分类模型性能的重要工具:

  1. 准确率(Accuracy)

    • 准确率是指模型正确分类的样本数量与总样本数量的比例。
    • 公式:准确率 = (真正例 + 真负例) / (总样本数)。
    • 准确率度量了模型在所有类别上的分类正确性。然而,当类别分布不平衡时,准确率可能不是一个很好的度量标准。
  2. 召回率(Recall)(也称为查全率):

    • 召回率是指模型成功检测到的真正例的数量与真正例的总数量之比。
    • 公式:召回率 = 真正例 / (真正例 + 假负例)。
    • 召回率度量了模型检测正例的能力。高召回率意味着模型能够捕捉更多的正例,但可能伴随着更多的假正例。
  3. 精确度(Precision)

    • 精确度是指模型正确分类为正例的样本数量与所有分类为正例的样本数量之比。
    • 公式:精确度 = 真正例 / (真正例 + 假正例)。
    • 精确度度量了模型的预测中正例的准确性。高精确度意味着模型的正例预测更可信,但可能伴随着较低的召回率。
  4. PR曲线(Precision-Recall Curve)

    • PR曲线是一个图形表示,描述了不同分类阈值下精确度和召回率之间的关系。
    • 横轴是召回率,纵轴是精确度。通过在不同阈值下计算精确度和召回率,可以绘制PR曲线。
    • PR曲线可以帮助选择适当的分类阈值,以平衡精确度和召回率。面积下面积(AP)是PR曲线下的平均精确度,用于综合评估模型性能。

准确率、召回率和精确度是常见的二元分类评测指标,用于评估模型在正例和负例的分类中的表现。PR曲线则提供了精确度和召回率之间的权衡关系,有助于根据任务需求选择合适的分类阈值。这些指标对于不平衡数据集和不同任务的评估都非常重要。

真正例、真负例、假正例、假负例的区分

在二元分类问题中,混淆矩阵(Confusion Matrix)用于度量模型的分类性能,它包括四个主要元素,分别是真正例、真负例、假正例和假负例:

  1. 真正例(True Positives, TP)

    • 真正例是指模型正确地将正例(Positive)样本分类为正例的情况。
    • 换句话说,模型正确地检测到了正例。
  2. 真负例(True Negatives, TN)

    • 真负例是指模型正确地将负例(Negative)样本分类为负例的情况。
    • 换句话说,模型正确地识别了负例。
  3. 假正例(False Positives, FP)

    • 假正例是指模型错误地将负例样本分类为正例的情况。
    • 这种情况也被称为“误报”或“假阳性”。
  4. 假负例(False Negatives, FN)

    • 假负例是指模型错误地将正例样本分类为负例的情况。
    • 这种情况也被称为“漏报”或“假阴性”。

混淆矩阵的构成是为了帮助评估二元分类模型的性能,这四个元素允许您了解模型对正例和负例的分类准确性。基于这些元素,可以计算各种评测指标,如准确率、召回率、精确度等,以更全面地评估模型的性能。

看个样例:

让我们通过一个二元分类问题的示例来说明准确率、召回率、精确度和PR曲线的计算和解释。

假设我们正在解决一个垃圾邮件分类任务,其中模型的任务是将电子邮件标记为垃圾邮件(正例)或非垃圾邮件(负例)。

假设我们有以下混淆矩阵(Confusion Matrix):

 True Positives (TP): 100
 False Positives (FP): 20
 False Negatives (FN): 10
 True Negatives (TN): 300

基于这个混淆矩阵,我们可以计算以下指标:

  1. 准确率(Accuracy)

    • 准确率表示模型正确分类的样本占总样本数量的比例。
    • 准确率 = (TP + TN) / (TP + FP + FN + TN) = (100 + 300) / (100 + 20 + 10 + 300) = 400 / 430 ≈ 0.9302(约为93.02%)。
  2. 召回率(Recall)

    • 召回率表示模型成功检测到的垃圾邮件(真正例)的数量与所有垃圾邮件的数量之比。
    • 召回率 = TP / (TP + FN) = 100 / (100 + 10) = 100 / 110 ≈ 0.9091(约为90.91%)。
  3. 精确度(Precision)

    • 精确度表示模型正确分类为垃圾邮件的样本数量与所有分类为垃圾邮件的样本数量之比。
    • 精确度 = TP / (TP + FP) = 100 / (100 + 20) = 100 / 120 ≈ 0.8333(约为83.33%)。
  4. PR曲线(Precision-Recall Curve)

    • PR曲线通过在不同分类阈值下计算精确度和召回率来绘制。这里提供示例数据,而不是真正的PR曲线。
    • 根据不同分类阈值,可以绘制不同点,然后连接这些点以获得PR曲线。

这些指标可以帮助您了解模型在分类任务中的性能。在这个示例中,模型的准确率为93.02%,召回率为90.91%,精确度为83.33%。通过PR曲线,您可以选择适当的分类阈值,以在精确度和召回率之间进行权衡,具体取决于任务需求。

在这里插入图片描述

ROC曲线/AUC面积

在这里插入图片描述

混淆矩阵

在这里插入图片描述

2.2 回归任务中的评测指标

IoU(Intersection-over-Union)

在这里插入图片描述

AP(Average Precision)/mAP

在这里插入图片描述

峰值信噪比PSNR
  • PSNR越高,则代表图片质量越高
  • 255表示灰度范围
  • 在人眼感知的指标,表现不是很好
    在这里插入图片描述
结构一致性相似SSIM

在这里插入图片描述

注: 部分内容来自阿里云天池

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/107821.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

037-第三代软件开发-系统音量设置

第三代软件开发-系统音量设置 文章目录 第三代软件开发-系统音量设置项目介绍系统音量设置QML 实现C 实现 总结一下 关键字: Qt、 Qml、 volume、 声音、 GPT 项目介绍 欢迎来到我们的 QML & C 项目!这个项目结合了 QML(Qt Meta-Obj…

bitlocker 加密锁定的固态硬盘,更换到别的电脑上,怎么把原密钥写进新电脑TPM芯片内,开启无需手动填密钥

环境: Win11 专业版 联想E14笔记本 512G ssd 问题描述: 一台笔记本因充电故障,需要拿去维修,不想重装系统,将bitlocker 加密锁定的固态硬盘拆下更换到别的笔记本电脑上,现在开机要手动填密钥,怎么把原密钥写进新电脑TPM芯片内,开启无需手动填密钥和之前那台电脑一…

Mybatis基础

文章目录 Mybatis基础XML语言概述使用Mybatis配置Mybatis增删改查复杂查询事务操作动态 SQLifchoose、when、otherwise 缓存机制注解开发 Mybatis基础 虽然我们能够通过JDBC来连接和操作数据库,但是哪怕只是完成一个SQL语句的执行,都需要编写大量的代码…

Unity性能优化一本通

文章目录 关于Unity性能优化一、资源部分:1、图片1.1、 图片尺寸越小越好1.2、使用2N次幂大小1.3、取消勾选Read/Write Enabled1.4、图片压缩1.5、禁用多余的Mip Map1.6、合并图集 2、模型2.1.限制模型面数2.2.限制贴图的大小2.3.禁用Read/Write Enables2.4.不勾选其…

使用Selenium和Java编写爬虫程序

以下是一个使用Selenium和Java编写的音频爬虫程序,该程序使用了proxy的代码。请注意,这个示例需要在IDE中运行,并且可能需要根据您的系统和需求进行调整。 import java.io.IOException; import java.util.List; import java.util.concurrent…

synchronized 的锁类型

之前的文章有讲过对同步锁的理解,实现同步锁的方式无非是多个线程抢占一个互斥变量,如果抢占成功则表示获得了锁,而没有获得锁的线程则阻塞等待,直到获得锁的线程释放锁 如图所示,在Mark Word中,我们发现锁…

wangeditor 富文本编辑器使用

使用环境vue3 ts &#xff0c;添加了字数限制 尝试了两种&#xff0c;使用方法类似&#xff08;参考文档&#xff09;&#xff0c;工具栏图标有不同&#xff0c;最后选用了第一种。 一、wangeditor 安装 npm i wangeditor --save 使用 这里封装了个简单组件 <templat…

IO流框架,缓冲流

一.缓冲流有什么优点 Java中的缓冲流&#xff08;Buffered Stream&#xff09;具有以下优势&#xff1a; 提高效率&#xff1a;缓冲流通过在内存中缓存一部分数据&#xff0c;减少了直接从内存到磁盘或从磁盘到内存的频繁IO操作&#xff0c;从而提高了读写效率。缓冲区大小调整…

macOS 12 Monterey v12.7.1正式版:开启全新的操作系统体验

macOS 12 Monterey已经向所有兼容的Mac设备推出&#xff0c;为您带来了一系列强大的新功能和改进。这个全新的操作系统版本&#xff0c;不仅带来了更流畅的用户体验&#xff0c;还增强了与iOS设备的无缝集成&#xff0c;让您的设备使用更加高效&#xff0c;更加便捷。 macOS 1…

RabbitMQ生产者的可靠性

目录 MQ使用时会出现的问题 生产者的可靠性 1、生产者重连 2、生产者确认 3、数据持久化 交换机持久化 队列持久化 消息持久化 LazyQueue懒加载 MQ使用时会出现的问题 发送消息时丢失&#xff1a; 生产者发送消息时连接MQ失败生产者发送消息到达MQ后未找到Exchange生…

Vue 3.3.6 ,得益于WeakMap,比之前更快了

追忆往昔&#xff0c;穿越前朝&#xff0c;CSS也是当年前端三剑客之一&#xff0c;风光的很&#xff0c;随着前端跳跃式的变革&#xff0c;CSS在现代前端开发中似乎有点默默无闻起来。 不得不说当看到UnoCss之前&#xff0c;我甚至都还没听过原子化CSS[1]这个概念&#xff08;…

时序预测 | Matlab实现ARIMA-LSTM差分自回归移动模型结合长短期记忆神经网络时间序列预测

时序预测 | Matlab实现ARIMA-LSTM差分自回归移动模型结合长短期记忆神经网络时间序列预测 目录 时序预测 | Matlab实现ARIMA-LSTM差分自回归移动模型结合长短期记忆神经网络时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 时序预测 | Matlab实现ARIMA-LSTM差…

springboot配置https

SSL &#xff1a; secure socket layer 是一种加密协议&#xff0c;SSL主要用于保护数据在 客户端和服务器之间的传输&#xff0c;&#xff0c;防止未经授权的访问和窃取敏感信息 在腾讯云申请ssl证书 申请了之后在我的域名中&#xff0c;&#xff0c;解析 解析了之后&…

Jmeter的接口自动化测试

在去年实施了一年的三端&#xff08;PC、无线M站、无线APP【Android、IOS】&#xff09;后&#xff0c;今年7月份开始&#xff0c;我们开始进行接口自动化的实施&#xff0c;目前已完成了整个框架的搭建以及接口的持续测试集成。今天做个简单的分享。 在开始自动化投入前&#…

虚拟化 vs. 裸金属:K8s 部署环境架构与特性对比

伴随着 IT 云化转型的逐步推进&#xff0c;越来越多的用户加入应用容器化改造的行列&#xff0c;并使用 Kubernetes&#xff08;K8s&#xff09;进行容器部署管理。然而&#xff0c;令不少用户感到困惑的是&#xff0c;由于大部分应用此前都部署在虚拟化或超融合环境&#xff0…

轻量封装WebGPU渲染系统示例<7>-材质多pass(源码)

当前示例源码github地址: https://github.com/vilyLei/voxwebgpu/blob/version-1.01/src/voxgpu/sample/MultiMaterialPass.ts 此示例渲染系统实现的特性: 1. 用户态与系统态隔离。 2. 高频调用与低频调用隔离。 3. 面向用户的易用性封装。 4. 渲染数据和渲染机制分离。 …

Mac电脑窗口管理Magnet中文 for mac

Magnet是一款Mac窗口管理工具&#xff0c;它可以帮助用户轻松管理打开的窗口&#xff0c;提高多任务处理效率。以下是Magnet的一些主要特点和功能&#xff1a; 分屏模式支持&#xff1a;Magnet支持多种分屏模式&#xff0c;包括左/右/顶部/底部 1/2 分屏、左/中/右 1/3 分屏、…

基于51单片机的温度测量报警系统的设计与制作

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、实习目的二、实习任务2.1 设计温度测量报警系统硬件电路2.2 温度测量报警系统软件编程、仿真与调试&#xff1b;2.3 完成温度测量报警系统的实物制作与调试…

基于定容积法标准容器容积标定中的电动针阀自动化解决方案

摘要&#xff1a;在目前的六氟化硫气体精密计量中普遍采用重量法和定容法两种技术&#xff0c;本文分析了重量法中存在的问题以及定容法的优势&#xff0c;同时也指出定容法在实际应用中还存在自动化水平较低的问题。为了提高定容法精密计量过程中的自动化水平&#xff0c;本文…

从工厂到社会:探索如何应用设计模式工厂模式

文章目录 &#x1f31f; 将设计模式工厂模式运用到社会当中&#x1f34a; 工厂模式在社会中的应用&#x1f389; 工厂&#x1f389; 餐厅&#x1f389; 运输 &#x1f34a; 工厂模式的优势&#x1f389; 代码简洁&#x1f389; 扩展性强&#x1f389; 便于维护和管理 &#x1f…