【笔记】深度学习模型评估指标

推荐链接:
(0)多分类器的评价指标

(1)泛化误差的评价方法:【机器学习】模型评估与选择(留出法、交叉验证法、查全率、查准率、偏差、方差)

(2)机器学习:数据分布的漂移问题及应对方案

(3)机器学习:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线

0.背景+名词解释

在这里插入图片描述名词解释:
(1)过拟合:是指学习模型对训练样本预测得很好,但对新样本预测很差的现象。这通常是由于学习模型能力过于强大,以至于把训练样本自身的一些特点当做了一般性质。过拟合是无法彻底避免的,只能缓解。模型选择就是要旨在避免过拟合并提高模型的预测能力。
(2) 准确性:模型在训练数据集上的性能。
(3)泛化能力:模型在新数据集上的性能。
(4)过拟合:模型在训练数据集上表现良好,但在新数据集上表现差。
(5)欠拟合:模型在训练数据集和新数据集上表现差。
(6)验证集:用于评估模型性能的数据集,与训练集和测试集不同。
(7)交叉验证:在多个子集上进行验证,以减少验证集的随机性。

1.训练效果(泛化能力)评价指标

在这里插入图片描述

机器学习模型评估指标(有大量错误,需核对)

1.1.名词解释

  • 损失函数(Loss Function):深度学习模型在训练过程中使用损失函数来衡量预测值与真实值之间的差异。通常,通过优化算法(如梯度下降)最小化损失函数来调整模型的权重和参数。较低的损失值通常表示模型在训练数据上的拟合程度较好。
  • 准确率(Accuracy):准确率是评估深度学习模型分类性能的常见指标。它衡量模型在所有样本中正确分类的比例。准确率可以通过在测试集上计算正确分类的样本数除以总样本数得到。
  • 验证集(Validation Set):在训练过程中,可以将一部分数据集分离出来作为验证集,用于评估模型在未见过的数据上的性能。通过在验证集上计算损失和准确率等指标,可以判断模型的泛化能力。
  • 混淆矩阵(Confusion Matrix):混淆矩阵是用于评估分类模型性能的工具。它展示了模型在不同类别上的分类结果,包括真正例(True Positive,TP)、真负例(True Negative,TN)、假正例(False Positive,FP)和假负例(False Negative,FN)。基于混淆矩阵,可以计算出精确度(Precision)、召回率(Recall)和F1值等指标。
  • ROC曲线和AUC值:ROC曲线和AUC是用于评估二分类模型性能的指标。ROC曲线是以不同阈值下真正例率(True Positive Rate,TPR)和假正例率(False Positive Rate,FPR)为横纵轴绘制的曲线。AUC(Area Under Curve)是ROC曲线下的面积,用于衡量模型在所有可能阈值下的平均性能。
  • 平均精确度(Average Precision):平均精确度是用于评估目标检测和图像分割等任务的指标。它基于不同阈值下的精确度-召回率曲线,计算出曲线下的平均精确度。特定任务的指标:对于特定任务,可以选择适合的指标来评估模型的性能。例如,对于语言生成任务,可以使用BLEU(Bilingual Evaluation Understudy)指标来衡量生成文本的质量。

1.2.名词解释

  • 准确性(Accuracy):准确性是最常用的性能指标之一,用于衡量模型在整体数据集上的预测准确率。它可以通过计算正确预测的样本数量与总样本数量的比例来得到。

  • 损失函数(Loss Function):损失函数衡量了模型的预测输出与实际标签之间的差异。常见的损失函数包括均方误差(Mean Squared Error,MSE)、交叉熵损失(Cross-Entropy Loss)等。较低的损失函数值表示模型的预测与真实标签之间的差异较小。

  • 精确率(Precision)和召回率(Recall):精确率和召回率是用于评价二分类问题的性能指标。精确率表示被正确预测为正类的样本数量占所有被预测为正类的样本数量的比例,而召回率表示被正确预测为正类的样本数量占真实正类样本数量的比例。

  • F1分数(F1 Score):F1分数综合考虑了精确率和召回率,是一个综合评价指标。它是精确率和召回率的调和平均值,可以帮助综合评估模型的性能。

  • ROC曲线(Receiver Operating Characteristic Curve)和AUC(Area Under the Curve):ROC曲线是以真阳性率(True Positive Rate)为纵轴,假阳性率(False Positive Rate)为横轴绘制的曲线。AUC表示ROC曲线下的面积,用于衡量模型在不同阈值下的分类性能。

  • 交叉验证(Cross-Validation):交叉验证是一种用于评估模型性能的技术。它将数据集分成多个子集,每次使用其中一个子集作为验证集,其余子集作为训练集,多次重复训练和验证,计算模型在不同子集上的性能指标的平均值。

  • 超参数调优(Hyperparameter Tuning):深度学习模型通常有许多超参数,例如学习率、批量大小、正则化参数等。通过尝试不同的超参数组合,并使用评估指标来比较它们的性能,可以找到最佳的超参数配置。

1.3.多分类器训练效果示例

在这里插入图片描述在这里插入图片描述

kappa一致性评价

链接

p0被称为观测精确性或一致性单元的比例;pc被称为偶然性一致或期望的偶然一致的单元的比例。kappa计算结果为-1到1,但通常kappa是落在 0到1 间,可分为五组来表示不同级别的一致性:0.0到0.20极低的一致性(slight)、0.21到0.40一般的一致性(fair)、0.41到0.60 中等的一致性(moderate)、0.61到0.80 高度的一致性(substantial)和0.81到1几乎完全一致(almost perfect)。

例子:

混淆矩阵
在这里插入图片描述在这里插入图片描述k即kappa值,为0.8228,说明一致性良好

2.训练数据评价指标

目标类别分布是指训练数据中不同目标类别的比例。均衡的目标类别分布可以促进模型的泛化能力,使其能够有效地检测各种目标。不均衡的目标类别分布可能会导致模型对某些类别目标的检测精度较低。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/939967.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

前端实现页面自动播放音频方法

前端实现页面视频在谷歌浏览器中自动播放音频方法 了解Chrome自动播放策略 在Chrome和其他现代浏览器中,为了改善用户体验,自动播放功能受到了限制。Chrome的自动播放策略主要针对有声音的视频,目的是防止页面在用户不知情的情况下自动播放声…

MinCostMaxFlow-Graph Algorithm

lab要求如下: 1.代码实现思路 图的构建 使用邻接表 adjacencyList 来存储图的结构,每个节点对应一个列表,列表中存储从该节点出发的所有边。 通过 addEdge 方法添加有向边及其反向边,同时设置正向边和反向边的相互引用。 最小费…

简单工厂模式和策略模式的异同

文章目录 简单工厂模式和策略模式的异同相同点:不同点:目的:结构: C 代码示例简单工厂模式示例(以创建图形对象为例)策略模式示例(以计算价格折扣策略为例)UML区别 简单工厂模式和策…

欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型

我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2,这是 PaliGemma 的一个新版本。与其前代产品一样,PaliGemma 2 使用强大的SigLIP进行视觉处理,但在文本解码部分升级到了最新的 Gemma 2。 https://hf.co/collections/google/siglip-65…

Django基础 - 01入门简介

一、 基本概念 1.1 Django说明 Django发布于2005年, 网络框架, 用Python编写的开源的Web应用框架。采用了MVC框架模式,也称为MTV模式。官网: https://www.djangoproject.com1.2 MVC框架 Model: 封装和数据库相关…

华为OD --- 敏感字段加密

华为OD --- 敏感字段加密 题目独立实现思路源码实现 参考实现 题目 独立实现 思路 通过便利字符串把所有“关键字”找出来,然后将第N个关键字替换成******,最后再通过 “_” 拼接起来即可 源码实现 const rl require("readline").createInterface({ input: proce…

WebRTC服务质量(05)- 重传机制(02) NACK判断丢包

WebRTC服务质量(01)- Qos概述 WebRTC服务质量(02)- RTP协议 WebRTC服务质量(03)- RTCP协议 WebRTC服务质量(04)- 重传机制(01) RTX NACK概述 WebRTC服务质量(…

着色器 (三)

今天,是我们介绍opengl着色器最后一章,着色器(Shader)是运行在GPU上的小程序。这些小程序为图形渲染管线的某个特定部分而运行。从基本意义上来说,着色器只是一种把输入转化为输出的程序。着色器也是一种非常独立的程序,因为它们之…

【Linux网络】网络基础:IP协议

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:Linux “ 登神长阶 ” 🌹🌹期待您的关注 🌹🌹 ❀ IP协议 IP协议基本概念协议头格式分片与组装网段划分子网掩码特殊的IP地址 IP地址的数量限制…

neo4j 图表数据导入到 TuGraph

neo4j 图表数据导入到 TuGraph 代码文件说明后文 前言:近期在引入阿里的 TuGraph 图数据库,需要将 原 neo4j 数据导入到新的 tugraph 数据库中。预期走csv文件导入导出,但因为格式和数据库设计问题,操作起来比较麻烦(可能是个人没…

Node.js安装(含npm安装vue-cli,安装element-ui)的详细配置

搭建前端框架 前端平台 量子计算机–10^5级别运算只需5min,这代表可以计算从宇宙大爆炸到现在的数据可以计算 安卓工程师–.xml node.js 下载 运行在win/linus的js——node.js 安装 建议不要动路径,可以避免很多问题,但是要保证C盘有至少1…

亚马逊云科技 re:Invent 2024重磅发布!Amazon Bedrock Data Automation 预览版震撼登场

AWS re:Invent 2024 已圆满落幕! 在本次大会中,隆重推出了一项全新功能: Amazon Bedrock Data Automation(预览版)震撼登场! New Amazon Bedrock capabilities enhance data processing and retrieval | …

JAVA:组合模式(Composite Pattern)的技术指南

1、简述 组合模式(Composite Pattern)是一种结构型设计模式,旨在将对象组合成树形结构以表示“部分-整体”的层次结构。它使客户端对单个对象和组合对象的使用具有一致性。 设计模式样例:https://gitee.com/lhdxhl/design-pattern-example.git 2、什么是组合模式 组合模式…

计算机基础 试题

建议做的时候复制粘贴,全部颜色改为黑色,做完了可以看博客对答案。 一、单项选择题(本大题共25小题,每小题2分,共50分〉 1.计算机内部采用二进制数表示信息,为了便于书写,常用十六进制数表示。一个二进制数0010011010110用十六进制数表示为 A.9A6 B.26B C.4D6 D.…

SAP ABAP-日期格式问题 SAP内部错误,反序列化JSON字符串时发生异常 值 20241215 不是根据 ABAP 的 XML 格式的有效日期

SAP ABAP-日期格式问题 SAP内部错误,反序列化JSON字符串时发生异常 值 20241215 不是根据 ABAP 的 XML 格式的有效日期 在SAP内部用 YYYYMMDD没有问题 外部传入参数

腾讯云云开发 Copilot 深度探索与实战分享

个人主页:♡喜欢做梦 欢迎 👍点赞 ➕关注 ❤️收藏 💬评论 目录 一、引言 二、产品介绍 三、产品体验过程 四、整体总结 五、给开发者的复用建议 六、对 AI 辅助开发的前景展望 一、引言 在当今数字化转型加速的时代,…

中间件 redis安装

redis官网地址:Redis - The Real-time Data Platform 环境 CentOS Linux release 7.9.2009 (Core) java version "17.0.12" 2024-07-16 LTS 1、通过压缩包安装redis 1,远程下载redis压缩包,或去官网下载:Downloads …

CVE-2021-44228 漏洞复现

漏洞描述 什么是 log4j 和 log4j2 log4j 是 Apache 的一个开源日志库,是一个基于 Java 的日志记录框架,Log4j2 是 log4j 的后继者,其中引入了大量丰富的特性,可以控制日志信息输送的目的地为控制台、文件、GUI 组建等&#xff0…

SpringBoot02

1. 学习目标(了解) 2. Mybatis整合&数据访问(操作) 使用SpringBoot开发企业项目时,持久层数据访问是前端页面数据展示的基础,SpringBoot支持市面上常见的关系库产品(Oracle,Mysql,SqlServer,DB2等)对应…

答:C++需要学到什么程度再开始学 qt 比较合理?

有网友问:C需要学到什么程度再开始学 qt 比较合理? 南老师回答如下。 在我看来,这确实是一个好问题,但我的回答,大概很难成为一个好回答。 但我还是想回答,所以诚恳谢妖! 如果有人问我&…