模型性能评估简介

模型评估

混淆矩阵

  • Positive § - 正例
  • Negative (N) - 负例

结果:

                  预测为正类别    预测为负类别
真实为正类别      True Positive (TP)    False Negative (FN)
真实为负类别      False Positive (FP)   True Negative (TN)
  • TP - 预测 P, 实际 P, 模型预测正确
  • FP - 预测 P, 实际 N, 模型预测错误
  • FN - 预测 N, 实际 P, 模型预测错误
  • TN - 预测 N, 实际 N, 模型预测正确

指标

  • 准确率(Accuracy) - 判断模型正确分类的能力. (TP + TN) / (TP + TN + FP + FN)
  • 精确率(Precision)- 判断模型识别出来的结果有多精确的指标. TP / (TP + FP)
  • 召回率(Recall)- 查全率, 判断模型识别广度的指标. TP / (TP + FN)
  • F1 值 - 综合反应 精确率 和 召回率, 越高越好 2 * Precision * recall / (precision + recall)

精确率说明找到的 P 有多少是对的.

召回率说明所有的 P 中找到了多少个.

总结:

在这里插入图片描述

  • 准确率:理解成本最低,但不要滥用。在样本不均衡情况下,指标结果容易出现较大偏差;

  • 精确率:用于关注筛选结果是不是正确的场景,宁可没有预测出来,也不能预测错了。 比如,在刷脸支付的场景下,我们宁可告诉用户检测不通过,也不能让另外一个人的人脸通过检测;

  • 召回率:用于关注筛选结果是不是全面的场景,“宁可错杀一千,绝不放过一个”。 比如,在信贷场景下,我要控制逾期率,所以宁可把好用户拦在外面,不让他们贷款,也不能放进来一个可能逾期的用户。毕竟,用户一旦逾期,无法收回的本金产生的损失,比我多放过几个好用户带来的收益要多很多。

  • KS

  • AUC

基础指标:

  • TPR(True Positive Rate)真正率 - 评估模型正确预测的能力. TP / (TP + FN)
  • FPR(False Positive Rate)假正率 - 评估模型误判的比率或者误伤的比率. FP / (FP + TN)

ROC 曲线

在没有准确阈值的情况下,对所有分数进行分段处理,计算每一个切分点对应的TPR和FPR,以FPR做横轴、TPR做纵轴绘制出的一条曲线。

ROC代表的是模型召回率和误伤率之间的变化关系

在这里插入图片描述

红线是随机线.

模型的ROC曲线越贴近这条随机线,模型的分类效果就越差。

当ROC曲线越偏离随机线并且靠近左上方(0,1)点的时候,说明模型分类效果越好.

AUC

AUC: 把曲线右下方和横坐标轴闭合起来的面积作为一个评估指标。

AUC 一般在 0.5 到 1 之间.

  • AUC = 0.5 - 表示模型没有区分能力, 结果等于是随机猜测
  • AUC < 0.5 - 表示这个模型大概率很差
  • AUC > 0.5 && AUC < 1 - AUC 越高代表模型的区分能力越好

KS

KS 统计量是一种衡量累积分布函数(Cumulative Distribution Function,CDF)差异的指标。

KS代表的是在某一点上,模型召回率最大并且误伤率最小。

把召回率和误伤率都作为纵轴,把切分的分数点作为横轴。

一个切分点会同时得到TPR和FPR两个值,所以可以画出来两条曲线。

在这里插入图片描述

KS就是图中红色线和绿色线间隔最大时候的距离。

如果模型的KS或者AUC值很高,不一定是一件好事情。需要了解背后的原因,这有可能是数据不准确导致的。



模型评估的目的是找到真实标签和预测值之间的差异。

回归算法关注的是模型是否预测到了正确的数值。

回归算法常见的性能评估指标:

  • MSE (Mean Squared Error, 均方误差)
  • RMSE (Root-mean-squared Error, 均方根误差)
  • MAE (Mean Absolute Error, 平均绝对误差)
  • R^2 (R Squared 决定系数)

MSE (Mean Squared Error, 均方误差)

先求出所有样本真实值和预测值的差值平方,再除以样本数量。

在这里插入图片描述

  • n 代表测试样本数量
  • yi 代表实际值
  • ^yi 代表模型的预测值

结果:

  • MSE 一定大于等于 0
  • 对模型评估, 值越小越好

RMSE (Root-mean-squared Error, 均方根误差)

在对差值取平方的时候,经常会导致差值的量纲发生变化。

比如说,差值的单位是米,那对差值取平方,就会导致差值的量纲变成平方米。

因此,为了保证量纲相同,可以在MSE的基础上,再对它求一个平方根。

在这里插入图片描述

MAE (Mean Absolute Error, 平均绝对误差)

在这里插入图片描述

MSE vs MAE:

  • 算法工程师更多的是用 MSE, 数据放大, 更容易发现误差
  • 在实际效果评估的时候, 更多地使用 MAE, 更接近真实误差

RMSE vs MAE

  • RMSE 会导致误差在一定程度上被放大

R^2 (R Squared 决定系数)

以上几个指标在不同场景的值没有可对比性, 例如股票价格有几元也有几百元, 房价有几千到几十万.

如果要用一个模型来解决不同的问题, 选择 R^2 可以横向比较这个模型在哪个问题上表现更好.

用于评估回归模型拟合程度的统计指标。它表示模型解释变量方差的比例,范围在0到1之间。

在这里插入图片描述

  • n 表示样本数量
  • yi 表示真实值
  • ^yi 表示模型的预测值
  • _y 表示真实值的平均值

结果:

  • 越接近1表示模型对观测数据的拟合越好
  • 越接近0则表示模型的拟合程度较差

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/272243.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

promise的使用和实例方法

前言 异步,是任何编程都无法回避的话题。在promise出现之前,js中也有处理异步的方案,不过还没有专门的api能去处理链式的异步操作。所以,当大量的异步任务逐个执行,就变成了传说中的回调地狱。 function asyncFn(fn1, fn2, fn3) {setTimeout(() > {//处理第一个异步任务fn1…

网工内推 | 技术支持、解决方案工程师,RHCA认证优先,带薪年假

01 天融信 招聘岗位&#xff1a;售后技术支持工程师 职责描述&#xff1a; 1.负责公司运营商态势安全项目系统远程维护与运营支持工作。 2.负责远程对态势平台、数据探针进行日常巡检&#xff0c;及时发现故障问题&#xff0c;并反馈处置。 3.负责远程支撑态势平台的功能考核&…

k8s是什么

生么是k8s&#xff1a; Kubernetes:8个字母省略&#xff0c;就是k8s 自动部署&#xff0c;自动扩展和管理容器化部署的应用程序的一个开源系统、 k8s是负责自动化运维管理多个容器化程序的集群&#xff0c;是一个功能强大的容器编排工具。 分布式和集群化的分布式进行容器管…

Elasticsearch:无需搜索 “Christmas” 即可找到有关圣诞节的书籍

随着假期的临近&#xff0c;我期待着变得舒适&#xff0c;拿起一本新书&#xff0c;享受轻松的时光。 但是使用搜索栏在线发现图书并不像看起来那么容易......大多数零售搜索引擎仅依赖于关键字搜索&#xff0c;当我们确切地知道我们正在寻找什么书名时&#xff0c;这很好&…

渗透测试 | php的webshell绕过方法总结

目录 1.php的异或运算 2.通过获取注释去绕过 3.利用字符的运算符​​​​​​​ 4.通过end函数代替[] 5.通过常量去绕过 6.字符串拼接双美元符 7.通过函数定义绕过 8.通过类定义&#xff0c;然后传参分割 9.多传参方式绕过​​​​​​​ 10.通过get_defined_function…

教你一分钟弄清屏幕SPI接口名称

相关文章 快速入门ESP32——开发环境配置Arduino IDE 快速入门ESP32——开发环境配置PlatformIO IDE 快速入门ESP32—— platformIO添加开源库和自己的开发库 一分钟弄清屏幕SPI接口名称 前言一、屏幕SPI接口名称二、与单片机连接总结 前言 最近&#xff0c;我在捣鼓CD屏幕的SP…

四川云汇优想教育咨询有限公司抖音电商服务的领航者

四川云汇优想教育咨询有限公司&#xff0c;作为一家在电商服务领域有着深厚底蕴的企业&#xff0c;一直以来都以其卓越的服务质量在业界树立了良好的口碑。尤其是在抖音电商服务方面&#xff0c;云汇优想更是凭借其出色的实力和精准的策略&#xff0c;成为了行业的佼佼者。 在抖…

从企业级负载均衡到云原生,深入解读F5

上世纪九十年代&#xff0c;Internet快速发展催生了大量在线网站&#xff0c;Web访问量迅速提升。在互联网泡沫破灭前&#xff0c;这个领域基本是围绕如何对Web网站进行负载均衡与优化。从1997年F5发布了BIG-IP&#xff0c;到快速地形成完整ADC产品线&#xff0c;企业级负载均衡…

使用Dependency Walker和Process Explorer排查瑞芯微工具软件RKPQTool.exe启动报错问题

目录 1、问题说明 2、使用Dependency Walker查看工具程序的库依赖关系 3、在可以运行的电脑上使用Process Explorer查看依赖的msvcr120.dll和msvcp120.dll库的路径 4、C/C运行时库介绍 5、可以下载安装VC_redist.x86.exe或VC_redist.x64.exe解决系统库缺失问题 C软件异常排…

Apache RocketMQ,构建云原生统一消息引擎

本文整理于 2023 年云栖大会林清山带来的主题演讲《Apache RocketMQ 云原生统一消息引擎》 演讲嘉宾&#xff1a; 林清山&#xff08;花名&#xff1a;隆基&#xff09;&#xff0c;Apache RocketMQ 联合创始人&#xff0c;阿里云资深技术专家&#xff0c;阿里云消息产品线负…

华为鸿蒙的发展史:从初创到全球领先的历程

自2019年以来&#xff0c;华为的鸿蒙操作系统在全球范围内引发了广泛关注。鸿蒙的发展史见证了中国科技企业的崛起与坚韧&#xff0c;展现了华为对于技术创新的执着追求和坚定信念。本文将带你回顾华为鸿蒙的发展历程&#xff0c;了解这一操作系统如何从初创阶段走向全球领先地…

【Kafka】Kafka客户端认证失败:Cluster authorization failed.

背景 kafka客户端是公司内部基于spring-kafka封装的spring-boot版本&#xff1a;3.xspring-kafka版本&#xff1a;2.1.11.RELEASE集群认证方式&#xff1a;SASL_PLAINTEXT/SCRAM-SHA-512经过多年的经验&#xff0c;以及实际验证&#xff0c;配置是没问题的&#xff0c;但是业务…

三甲基碘硅烷,预计未来几年市场将以稳定的速度增长

三甲基碘硅烷是一种无色透明液体&#xff0c;广泛用作有机化学中的试剂。它用于制备多种有机化合物&#xff0c;包括药物、农用化学品和特种化学品。由于最终用途行业的需求不断增加&#xff0c;预计未来几年全球碘三甲基硅烷市场将以稳定的速度增长。 全球碘三甲基硅烷市场分为…

OpenGL :LearnOpenGL笔记

glfw https://github.com/JoeyDeVries/LearnOpenGL/blob/master/src/1.getting_started/1.1.hello_window/hello_window.cpp #include <glad/glad.h>// 注: GLAD的include文件包含所需的OpenGL头文件(如GL/GL.h) &#xff0c;因此确保在其他需要OpenGL的头文件 (如GLFW…

php 不加后缀访问

实现不带后缀访问php文件的方法&#xff1a;首先在htaccess文件中加入内容“RewriteRule ^(api/token) token.php [L]”&#xff1b;然后通过根目录下的“token.php”来接受“api/token”&#xff1b;最后修改配置文件。 考虑的做法有&#xff1a; HTTP重写技术&#xff0c;让…

仿Yasa算法-睡眠分期,目前五分期86.5%

参考链接 具体内容可见&#xff1a;个人文章 参考代码 The code that was used to train the classifiers can be found on GitHub at: Link 验证数据集 PhysiNet-Haaglanden 选取了其中150例数据&#xff08;剔除了No.98&#xff0c;标签数据长度不匹配&#xff09; 特征…

Shell 脚本应用(四)

正则表达式概述 正则表达式又称正规表达式&#xff0c;常规表达式。在代码中常简写为regex&#xff0c;regexp 或RE.正则表达式 是使用单个字符串来描述&#xff0c;匹配一系列符合某个句法规则的字符串&#xff0c;简单来说&#xff0c;是一种匹配字符串 的方法&#xff0c;通…

Nacos2.1.2改造适配达梦数据库7.0

出于业务需求&#xff0c;现将Nacos改造适配达梦数据库7.0&#xff0c;记录本次改造过程。 文章目录 一、前期准备二、适配流程1、项目初始化2、引入驱动3、源码修改 三、启动测试四、打包测试 一、前期准备 Nacos源码&#xff0c;版本&#xff1a;2.1.2&#xff1a;源码下载…

【Linux驱动】驱动框架的进化 | 总线设备驱动模型

&#x1f431;作者&#xff1a;一只大喵咪1201 &#x1f431;专栏&#xff1a;《Linux驱动》 &#x1f525;格言&#xff1a;你只管努力&#xff0c;剩下的交给时间&#xff01; 目录 &#x1f969;驱动框架的进化&#x1f960;分层&#x1f960;面向对象&#x1f960;编程&am…

爬虫工作量由小到大的思维转变---<第二十八章 Scrapy中间件说明书>

爬虫工作量由小到大的思维转变---&#xff1c;第二十六章 Scrapy通一通中间件的问题&#xff1e;-CSDN博客 前言: (书接上面链接)自定义中间件玩不明白? 好吧,写个翻译的文档点笔记,让中间件更通俗一点!!! 正文: 全局图: 爬虫中间件--->翻译笔记: from scrapy import s…