【机器学习】机器学习实验方法与原则(评价指标全面解析)

评价指标

不同任务 下衡量模型的性能,有 不同的评价指标 ,例如:
回归任务
平均绝对误差( MAE )、均方误差( MSE )、均方根误差( RMSE )等
分类任务
准确率( Accuracy )、精度( Precision )、召回率( Recall )等
特定任务
个性化推荐:前 K 项精度( Precision@K )、前 K 项召回率( Recall@K )、前 K
命中率( Hit@K )等
对话系统: BLEU ROUGE METEOR

1.回归任务(MAE, MSE,RMSE)

预测值 p i 常为连续值,需要衡量与真实值 y i 之间的误差
平均绝对误差( MAE

均方误差( MSE :预测误差较大的样本影响更大

均方根误差( RMSE :与预测值、标签单位相同

2.分类任务 (Accuracy, ER,P,R,F,AUC)

预测值一般为离散的类别,需要判断是否等于真实类别
准确率( Accuracy

错误率( Error Rate

考虑二分类时划分正负的阈值
ROC 曲线
    • 根据预测值对样本排序
    • 以该样本的预测值为阈值
    • 大于或等于阈值记正例,否则记负例
    • 可得到一组结果及评价指标,共有样本数 n 组结果
    • 假正例率( False Positive Rate, FPR )为横轴
    • 真正例率( True Positive Rate, TPR, 即召回率 )为纵轴

随机猜测模型的 ROC 曲线为 (0,0) (1,1) 的对角线
理想模型的 ROC 曲线为 (0,0)-(0,1)-(1,1) ,所有正例预测值大于所有负例预测值
AUC :( Area Under ROC Curve ROC 曲线下的面积,越大越好

 

AUC 的简便计算方法:
把测试样例以预测值从大到小排序,其中有 n1个真实正例,其中n0个真实负例
r i 为第 i 真实负例 的秩(排序位置), S 0 = r i

AUC 可以计算为 :

3.特定任务 

一些特定任务有其特有评价指标
个性化推荐
        • 前K项精度(Precision@K ):模型排序给出的前 K 个推荐中,用户喜欢的项目(正例)的比例
        • 前 K 项召回率( Recall@K ):模型排序给出的前 K 个推荐中,正例数占候选集中所有正例的比例
        • 前 K 项命中率( Hit@K ):模型排序给出的前 K 个推荐中,是否有正例
        • nDCG@K 、点击率、用户留存、利润转化等
对话系统
        • BLEU ROUGE METEOR :基于词、 n-gram 匹配衡量预测句子与目标句子之间的相似度
        • 基于词向量计算预测句子与目标句子之间的相似度
        • 用户与系统对话的时长、次数
        • 人工评价

特定任务(DCG

DCG: Discounted Cumulative Gain
检测一个文档,用 分级的相关性 来衡量有用性 , 或者 增益 (Gain)
        • rel 1 + rel 2 + rel 3 + …
增益从排序列表的开头开始累积,随着 位次增加 ,增益可能会 减弱 (Discounted)
        • rel1 + discounted( rel 2 ) + discounted( rel 3 ) + …
        • 典型的折损函数有 1/ log (rank)
        • 底数为 2 , 位次 4 的折损为 1/2, 位次 8 1/3
        • rel 1 + rel 2 / log 2 2+ rel 3 / log 2 3 + …

DCG 是对一个特定位次 p 累积增益 (Cumulative) :

:

特定任务(DCG)举例 

 • 10 个文档的展示列表,相关性分级0-3:

        3, 2, 3, 0, 0, 1, 2, 2, 3, 0

折扣增益 : ( 1/log 2 i )
        3, 2/1, 3/1.59, 0, 0, 1/2.59, 2/2.81, 2/3, 3/3.17, 0
        = 3, 2, 1.89, 0, 0, 0.39, 0.71, 0.67, 0.95, 0
累积折扣增益 (DCG@ n ):
        3, 5, 6.89, 6.89, 6.89, 7.28, 7.99, 8.66, 9.61, 9.61

特定任务(NDCG 

l 通过与 理想排序 的对应位置的 DCG 进行对比来 归一化
l 对有不同数量相关文档的搜索结果求均值时更科学简洁
l 在任何位置都有 NDCG ≤ 1
l 考虑了 分级相关性 位置 信息
l 搜索引擎等与排序相关的应用中相当常用的评价指标之一

特定任务(BLEU 

l BLEU: bilingual evaluation understudy 双语替代评价
l 最早多用于机器翻译,后来也被其他任务借鉴(如对话生成等)
l 检测译文中的每个 n-gram 是否在参考译文中出现
l Precision 没有考虑词出现的次数限制 ,结果偏高
l 某个词在译文中的有效频次不应超过参考译文中的频次

 

l 精度 log 可能出现为 0 的情况 ,   BLEU=0
l 也可对精度做平滑
l Google 的参考实现(扩展:多个句子的翻译、多个参考译文)
https://github.com/tensorflow/nmt/blob/master/nmt/scripts/bleu.py

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/477767.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据本地性如何助力企业在云上实现高效机器学习

分享嘉宾: Lu Qiu, Shawn Sun 本文将讨论数据本地性对于在云上进行高效机器学习的重要性。首先对比现有解决方案的利弊,并综合考虑如何通过数据本地性来降低成本和实现性能最大化。其次会介绍新一代的Alluxio设计与实现,详细说明其在模型训练…

语言与人生:编程中的“影视风云”

语言与人生:编程中的“影视风云” Language and Life: The “Cinematic Spectacle” in Programming 编程,于我而言,便如走进一座座影视城,每换一种语言,便仿佛遇见了一位新的影视人物,性格迥异&#xff0c…

使用Windows的“远程桌面连接”Ubuntu主机连接不上问题解决

问题描述: 使用Windows自带的“远程桌面连接”来连接自己的Ubuntu的系统的过程中,自己已经成功安装了 xrdp 文件包,但是在使用“远程桌面连接”时,自己的“远程桌面连接”软件在输入Ubuntu系统的用户名和密码后,连接不…

day13-SpringBootWeb 事务AOP

一、事务管理 1 事务回顾 概念 事务 是一组操作的集合,它是一个不可分割的工作单位,这些操作 要么同时成功,要么同时失败。 操作 开启事务(一组操作开始前,开启事务):start transaction / begi…

全过程管理为企业数字化落地保驾护航

上海金桥出口加工区开发股份有限公司(以下简称“金桥股份”)成立于1992年,主要从事上海金桥经济技术开发区的开发建设、招商引资、产业发展和载体运营管理。经过30年的努力,金桥股份已经成长为资本市场中资产质量优良、业绩稳定、…

linux之Haproxy

介绍 haproxy是一种开源的TCP和HTTP负载均衡代理服务器软件。客户端通过Haproxy代理服务器获得站点页面,而代理服务器收到客户请求后根据负载均衡的规则将请求数据转发给后端真实服务器 下载Haproxy yum install haproxy -y 开启服务 systemctl start haproxy 配…

信息学奥赛之MAC端VSCode C++环境配置

前提 安装 Visual Studio CodeVSCode 中安装 C/C扩展确保 Clang 已经安装(在终端中输入命令:clang --version 来确认是否安装)未安装,在命令行执行xcode-select --install 命令,会自行安装,安装文件有点大…

CSS 脱离标准文档流 浮动

浮动 在标准流当中,元素或者标签在页面上摆放的时候会出现不如意的地方。要想解决这些问题可以采用脱离标准流的方式来进行解决这些问题,脱离标准流也称为脱离文档流。 脱离标准流的解决方式有三种,一种是浮动,另外一种是固定定位…

综合案例:使用Scrapy爬取当当网的图片信息

本节将继续讲解 Scrapy 框架的使用。具体包括 Scrapy 爬虫框架以及内部每个组件的使用(Selector 选择器、Spider 爬虫类、Downloader 和 Spider 中间件、ItemPipeline 管道类等)。 本例目标是爬取当当图书网站中所有关于 “python” 关键字的图片信息&a…

网站没有SSL证书会遇到什么问题?怎么解决?

简单来说,如果一个网站没装SSL证书,会有以下几个大问题: 1.信息容易被偷看: - 就像写信不封口一样,网站和用户之间的交流信息是透明的,谁都能看到。比如你在网站上输入的账号密码、联系信息、银行卡号等重要…

最全APP抓包大法

前言:最近工作中遇到一些比较奇葩的App,一边测试一边搜集整理出了比较全的姿势。如有错误之处,还请各位师傅多多指教。 如何判断:连接Fiddler代理–>抓不到包–>关闭Fiddler后正常通信。 解决方法:PC端模拟器如…

计算机视觉项目-单目测距/双目测距/3D目标检测/语义分割/姿态识别及姿态估计

往期热门大项目合集: yolov5单目测距速度测量目标跟踪YOLOv8界面-目标检测语义分割追踪姿态识别(姿态估计)界面DeepSort/ByteTrack-PyQt-GUI_yolov8显示速度-CSDN博客 3D目标检测(教程代码)_3d目标检测原理-CSDN博客…

基于Springboot+Vue的前后端分离的简单Demo案例(一)

后端创建Springboot项目 创建数据库表结构及表信息 添加依赖&#xff08;pom.xml&#xff09; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/X…

CSDN欢迎使用Markdown编辑器你好,写文章快捷键与格式

了 解一下Markdown的基本语法知识。 1.全新的界面设计&#xff0c;将会带来全新的写作体验; 2.在创作中心设置你喜爱的代码高亮样式Markdown 将代码片显示选择的高亮样式进行展示; 3.增加了 图片拖拽 功能&#xff0c;你可以将本地的图片直接拖拽到编辑区域直接展示; 4.全新的 …

19.作业

1.作业样例图 2.学习视频 19.作业讲解

安卓使用MQTT实现阿里云物联网云台订阅和发布主题(3)

一、订阅主题代码讲解 private final String mqtt_sub_topic "/sys/k0wih08FdYq/LHAPP/thing/service/property/set";//订阅话题//mqtt客户端订阅主题//QoS0时&#xff0c;报文最多发送一次&#xff0c;有可能丢失//QoS1时&#xff0c;报文至少发送一次&#xff0c…

YOLOv9改进策略:block优化 | AIFI (尺度内特征交互)助力YOLO | YOLO终结者?RT-DETR一探究竟

&#x1f4a1;&#x1f4a1;&#x1f4a1;本文改进内容&#xff1a; YOLOv9如何魔改卷积进一步提升检测精度&#xff1f;AIFI (尺度内特征交互&#xff09;助力YOLO ,提升尺度内和尺度间特征交互能力&#xff0c;同时降低多个尺度的特征之间进行注意力运算&#xff0c;计算消耗…

C语言例:n是否为素数(质数)

质数是指只能被1和自身整除的正整数。要判断一个数n是否为质数&#xff0c;可以通过以下步骤进行&#xff1a; 首先&#xff0c;判断n是否小于2&#xff0c;如果小于2&#xff0c;则不是质数。然后&#xff0c;从2开始&#xff0c;逐个判断n是否能被2到sqrt(n)之间的数整除。如…

jdk api之SyncFailedException基础、应用、实战

博主18年的互联网软件开发经验&#xff0c;从一名程序员小白逐步成为了一名架构师&#xff0c;我想通过平台将经验分享给大家&#xff0c;因此博主每天会在各个大牛网站点赞量超高的博客等寻找该技术栈的资料结合自己的经验&#xff0c;晚上进行用心精简、整理、总结、定稿&…

实体框架EF(Entity Framework)简介

实体框架EF&#xff08;Entity Framework&#xff09;简介 文章目录 实体框架EF&#xff08;Entity Framework&#xff09;简介一、概述二、O/R Mapping是什么采用O/R Mapping带来哪些好处 三、Entity Framework架构3.1 下图展示了Entity Framework的整体架构3.2 Entity Framew…