模型评价指标

用训练好的模型结果进行预测,需要采用一些评价指标来进行评价,才可以得到最优的模型

常用的指标:

1.分类任务

  • ConfusionMatrix  混淆矩阵
  • Accuracy   准确率
  • Precision  精确率
  • Recall       召回率
  • F1 score   H-mean值
  • ROC Curve  ROC曲线
  • PR Curve     PR曲线
  • AUC

        ……

下面我将会具体介绍以上几种常见的分类模型评价指标

 ConfusionMatrix 混淆矩阵

 混淆矩阵是评判模型结果的一种指标,属于模型评估的一部分,常用于评判分类器模型的优劣

混淆矩阵(ConfusionMatrix)真实值(labels)
PositiveNegative
预测值(predict)PositiveTPFP
NegativeFNTN

其中,

  • TP (True  Positive)   : 真实值和预测值均为Positive
  • FP (False Positive)   : 真实值为Negative,预测值为Positive
  • FN (False Negative) : 真实值为Positive,预测值为Negative
  • TN (True  Negative)  : 真实值为Negative,预测值为Negative

一般地,期望TP和TN越高越好,FN和FP越低越好

 Accuracy  准确率、Precision 精确率、Recall 召回率

(引用 up主 :霹雳吧啦Wz的个人空间-霹雳吧啦Wz个人主页-哔哩哔哩视频   的一张图做说明)

准确率(正确率) :所有预测正确的样本数 / 总样本数   (所有的预测正确(正类负类)的占总的比重)

 虽然准确率可以判断总的正确率,但是在样本不平衡 的情况下,并不能作为很好的指标来衡量结果。举个简单的例子,比如在一个总样本中,正样本占 90%,负样本占 10%,样本是严重不平衡的。对于这种情况,我们只需要将全部样本预测为正样本即可得到 90% 的高准确率,但实际上我们并没有很用心的分类,只是随便无脑一分而已。这就说明了:由于样本不平衡的问题,导致了得到的高准确率结果含有很大的水分。即如果样本不平衡,准确率就会失效

作者:easyAI产品经理的AI知识库
链接:https://juejin.cn/post/6844903470756167688
来源:稀土掘金

精确率(查准率):预测正类为正类的样本数 / 预测的正类样本数    (真正正确的占所有预测为正的比例)

精准率和准确率看上去有些类似,但是完全不同的两个概念。精准率代表对正样本结果中的预测准确程度,而准确率则代表整体的预测准确程度,既包括正样本,也包括负样本

作者:easyAI产品经理的AI知识库
链接:https://juejin.cn/post/6844903470756167688
来源:稀土掘金

召回率(查全率):预测正类为正类的样本数 / 真实值为正类的样本数 (真正正确的占所有实际为正的比例)

召回率的应用场景: 比如拿网贷违约率为例,相对好用户,我们更关心坏用户,不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户,这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额,造成严重偿失。召回率越高,代表实际坏用户被预测出来的概率越高,它的含义类似:宁可错杀一千,绝不放过一个

作者:easyAI产品经理的AI知识库
链接:https://juejin.cn/post/6844903470756167688
来源:稀土掘金

注意

  • 精确率和召回率的区别

       从数学角度来看,精确率和召回率就是分母不一样

       召回率的分母是原本的正类(TP+FN),

       召回率让模型预测到所有想被预测到的样本(就算预测错的多一些,也能接受)

下面引用 博主 清如许. 的一张图片作总结

博客链接:https://blog.csdn.net/MacWx/article/details/129119016?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-1-129119016-blog-80964865.235^v39^pc_relevant_anti_t3_base&spm=1001.2101.3001.4242.2&utm_relevant_index=4

总得来说,精确率就是不错报,召回率就是不漏报

F1-Score(F1值、调和平均数)

精确率(Precision)和召回率(Recall)之间是两难全的关系,为了综合两者的表现,在两者之间找一个平衡点,就出现了一个 F1分数 

F = 2 / (1/Precision + 1/Recall) = (2 * Precision * Recall)/ (Precision + Recall)

F1值越大越好,F1对 Precision 和 Recall 进行了加权

ROC曲线

PR曲线

虽然准确率可以判断总的正确率,但是在样本不平衡 的情况下,并不能作为很好的指标来衡量结果。举个简单的例子,比如在一个总样本中,正样本占 90%,负样本占 10%,样本是严重不平衡的。对于这种情况,我们只需要将全部样本预测为正样本即可得到 90% 的高准确率,但实际上我们并没有很用心的分类,只是随便无脑一分而已。这就说明了:由于样本不平衡的问题,导致了得到的高准确率结果含有很大的水分。即如果样本不平衡,准确率就会失效

作者:easyAI产品经理的AI知识库
链接:https://juejin.cn/post/6844903470756167688
来源:稀土掘金

2.回归任务

  • MSE     均方误差    Mean Square Error
  • RMSE  均方根误差 Root Mean Square Error
  • MAE    平均绝对误差 Mean Absolute Error

          ……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/232799.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

yolov6 3.0 网络详解

YOLO社区自前两次发布以来一直情绪高涨!随着中国农历新年2023(兔年)的到来,美团对YOLOv6进行了许多新的网络架构和训练方案改进。此版本标识为YOLOv6 v3.0。 对于性能,YOLOv6-N在COCO数据集上的AP为37.5%,通过NVIDIA Tesla T4 GPU测试的吞吐量为1187 FPS。YOLOv6-S以484 …

网络安全等级保护V2.0测评指标

网络安全等级保护(等保V2.0)测评指标: 1、物理和环境安全 2、网络和通信安全 3、设备和计算安全 4、应用和数据安全 5、安全策略和管理制度 6、安全管理机构和人员 7、安全建设管理 8、安全运维管理 软件全文档获取:点我获取 1、物…

数组扁平化(四种方法)

数组扁平化: 指将多维数组 array(嵌套可以是任何层数,例如:[ 1,[2,3],[4,[5] ] ] )转换为一维数组(例如:[1,2,3,4,5] )。 [ 1,[2,3],[4,[5] ] ] -------> [1,2,3,4,5] 方法一: 递归 遍…

洛谷P1287 盒子与球

题干&#xff1a; 现有 r 个互不相同的盒子和 n 个互不相同的球&#xff0c;要将这 n 个球放入 r 个盒子中&#xff0c;且不允许有空盒子。请求出有多少种不同的放法。 两种放法不同当且仅当存在一个球使得该球在两种放法中放入了不同的盒子。 数据范围&#xff1a; 0<n,r&l…

nodejs微信小程序+python+PHP在线学习平台设计与实现-计算机毕业设计推荐

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性&#xff1a;…

C++编程法则365天一天一条(24)RTTI运行时类型信息typeid和type_info

文章目录 基本用法编译时或运行时判定 基本用法 typeid 是 C 的一个运算符&#xff0c;它用于获取表达式的类型信息。它返回一个 std::type_info 对象引用&#xff0c;该对象包含有关表达式的类型的信息。 要使用 typeid 运算符&#xff0c;需要包含 <typeinfo> 头文件…

Realme X7 Pro Root 刷机教程

Realme X7 Pro 刷机教程 Just For Fun&#xff0c;最近倒腾了下Realme X7 Pro 刷root。此博客为个人记录刷机过程&#xff0c;如有机友跟随本教程操作&#xff0c;请谨慎操作&#xff01;&#xff01;&#xff01; 以下教程真针对Realme X7 Pro&#xff0c;其他版本方法未知&…

Jmeter性能测试入门 -——性能插件介绍

一、前言 1、首先&#xff0c;JMeter提供了三个基本的线程组&#xff0c;分别为: Thread Group setUp Thread Group tearDown Thread Group 2、其他线程组可以通过集成插件的方式使用&#xff0c;包括&#xff1a; bzm - Arrivals Thread Group bzm - Concurrency Thread Group…

【Linux】如何对文本文件进行有条件地划分?——cut命令

cut 命令可以根据一个指定的标记&#xff08;默认是 tab&#xff09;来为文本划分列&#xff0c;然后将此列显示。 例如想要显示 passwd 文件的第一列可以使用以下命令&#xff1a;cut –f 1 –d : /etc/passwd cut&#xff1a;用于从文件的每一行中提取部分内容的命令。-f 1&…

【postgresql】ERROR: INSERT has more expressions than target columns

执行下面sql insert into apply_account_cancellation3 select * from pply_account_cancellation; 返回下面错误信息 insert into apply_account_cancellation3 select * from apply_account_cancellation > ERROR: INSERT has more expressions than target colu…

优麒麟ubuntukylin安装UE4.27.2

优麒麟ubuntukylin安装UE4.27.2 在&#xff08;国产&#xff09;优麒麟 ubuntukylin Linux平台上编译测试安装虚幻引擎。 优麒麟系统 这里选择的是官方增强版 https://www.ubuntukylin.com/downloads/ 同样的可以选择对应的Ubuntu22.04 LTS&#xff0c;唯一的区别就是优麒麟…

RK3568平台开发系列讲解(Linux系统篇)中断属性解析

🚀返回专栏总目录 沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇将介绍通过设备树中的解析。 一、interrupts interrupts 属性用于指定设备的中断相关信息。它描述了中断控制器的类型、中断号以及中断触发类型。下面将对 interrupts 属性的各个方面进行介绍。…

【深度学习】强化学习(三)强化学习的目标函数

文章目录 一、强化学习问题1、交互的对象2、强化学习的基本要素3、策略&#xff08;Policy&#xff09;4、马尔可夫决策过程5、强化学习的目标函数1. 总回报&#xff08;Return&#xff09;2. 折扣回报&#xff08;Discounted Return&#xff09;a. 折扣率b. 折扣回报的定义 3.…

BUUCTF crypto做题记录(3)新手向

目录 一、Rabbit 二、篱笆墙的影子 三、丢失的MD5 四、Alice与Bob 一、Rabbit 得到的密文&#xff1a;U2FsdGVkX1/ydnDPowGbjjJXhZxm2MP2AgI 依旧是看不懂是什么编码&#xff0c;上网搜索&#xff0c;在侧栏发现Rabbit解码&#xff0c;直接搜索就能有在线解码网站 二、篱笆…

Vulnhub-DC-2 靶机复现完整过程

环境准备&#xff1a; kali: NAT模式 网段 &#xff1a;192.168.200.0 DC-2: NAT模式 网段 &#xff1a;192.168.200.0 保证靶机和攻击机在一个网段上 信息收集 收集同网段存货主机IP地址 nmap -sP ip地址 arp-scan -l显示错误页面&#xff0c;显然是重定向错误&#xff0c…

电工--集成运算放大器

目录 集成运算放大器的简单介绍 运算放大器在信号运算方面的应用 比例运算 反相输入 同相输入 加法运算 减法运算 积分运算 微分运算 集成运算放大器的简单介绍 线性区 虚断&#xff1a; 虚短&#xff1a; 运算放大器在信号运算方面的应用 比例运算 反相…

进网TLC认证CE传导骚扰测试分析整改事例

1.1 设备是一款基于CAT1通信的电子产品&#xff0c;在做CE传导骚扰时低频超标异常 1.1.1 从上面测试数据图看&#xff0c;低于3MHz明显已超标。 1.2 什么是CE传导骚扰 电子设备一般主要测试150K~30MHz这个频段的骚扰大小。它是对设备电源线、信号线等产生的一些杂波对外辐射出…

《三十》模块化打包构建工具 Rollup

19的2小时06分钟 Rollup 是一个 JavaScript 的模块化打包工具&#xff0c;可以帮助编译微小的代码到庞大的复杂的代码中&#xff08;例如一个库或者一个应用程序&#xff09;。 Rollup 和 Webpack 的区别&#xff1a; Rollup 也是一个模块化的打包工具&#xff0c;但是它主要…

联合体和枚举

联合体&#xff1a; 联合体是什么&#xff1f; 联合体也是一种自定义类型&#xff0c;这种类型定义的变量也包含一系列类型&#xff0c;特征是这些类型公用一块内存空间(所以叫联合体也叫公用体)可以理解为结构体公用一块内存。 //联合-联合体-共用体 //联合也是一种特殊的自…

Other -- ChatGPT 原理

本文为个人理解&#xff0c;帮助小白&#xff08;本人就是&#xff09;了解正在创建新时代的 AI 产品&#xff0c;如文中理解有误欢迎留言。 [参考链接--](https://baijiahao.baidu.com/s?id1765556782543603120&wfrspider&forpc) 1. 了解一些基本概念 大语言模型&a…