机器学习(2)

目录

2-1泛化能力

2-2过拟合和欠拟合

2-3三大问题

2-4评估方法

2-5调参和验证集

2-6性能度量

2-7比较检验


2-1泛化能力

如何进行模型评估与选择?

2-2过拟合和欠拟合

泛化误差:在“未来”样本上的误差

经验误差:在训练集上的误差,亦称“训练误差”‘

过拟合:把训练样本自身的一些特点当成了所有潜在样本都会具有的一般性质

欠拟合:对训练样本的一般性质尚未学好

在使用算法时问自己两个问题:

1.该算法如何解决overfitting?

2.在什么时候解决overfitting会失效?

2-3三大问题

三个关键问题:

如何获得测试结果?——>评估方法

如何评估性能评估?——>性能度量

如何判断实质差别?——>比较检验

2-4评估方法

关键:怎么获得“测试集”?

测试集应该与训练集互斥

常见方法:留出法;交叉验证法;自助法

留出法:

拥有的数据集一部分用于训练,一部分用于测试

k-交叉验证法:

若k=m,则得到“留一法”

自助法:

2-5调参和验证集

算法的参数:一般由人工设定,亦称“超参数”

模型的参数:一般由学习确定

区别:训练集vs测试集vs验证集

其实验证集就是训练集的一部分,只是训练集中一部分用于训练,留出一部分用于调参数,亦称为验证集

2-6性能度量

性能度量是衡量模型泛化能力的评价标准,反映了任务需求

使用不同的任务度量往往会导致不同的评判结果

什么模型是“好”的,不取决于算法和数据,还取决于任务需求

错误率:分类错误的样本数占样本总数的比例

精度:分类正确的样本数占样本总数的比例

TP:模型预测为真,实际为真

FN:模型预测为假,实际为真

FP:模型预测为真,实际为假

TN:模型预测为假,实际为假

一般来说,查准率和查全率是一对矛盾的度量

F1是基于查准率和查全率的调和平均定义的

在一些应用中对查准率和查全率的重视程度有所不同,例如在商品推荐系统中,更希望推荐的是用户感兴趣的内容,此时查准率比较重要;而在逃犯检索系统中,更希望抓到所有逃犯,因此,查全率更为重要。

2-7比较检验

有了实验评估方法和性能度量,看起来就能对学习器的性能进行评估比较了。但实际上机器学习中性能比较这件事比大家想的复杂得多。

统计假设检验为我们进行学习器性能比较提供了重要依据。基于假设检验结果我们可以推断出,若在测试集上观察到学习器A比B好,则A的泛化性能是否在统计意义上优于B,以及这个结论的把握有多大。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/623468.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

什么叫拆分盘?什么是拆分盘!一篇文章带你了解!

随着互联网金融的快速发展,各种新型投资模式层出不穷,其中拆分盘作为一种只涨不跌的理财方式,吸引了众多投资者的目光。本文将结合一个简单的拆分盘示例,对拆分盘的投资逻辑进行解析,并探讨其潜在风险,以帮…

每日一题11:Pandas:数据重塑-透视

一、每日一题 解答: import pandas as pddef pivotTable(weather: pd.DataFrame) -> pd.DataFrame:df_pivot weather.pivot(indexmonth, columnscity, valuestemperature)return df_pivot 题源:力扣 二、总结 Pandas 是一个强大的 Python 数据分析…

怎么申请一年期免费的https证书

随着互联网的推广和普及,如今HTTPS证书的普及度还是比较高的了,大家对于https证书的需求度也在日益提升。针对于一些个人用户或是企业而言,实现网站的https访问已经成为了一种标配。从去年年底开始,各大SSL证书厂商陆续下架一年期…

FOTS:一种用于机器人操作技能Sim2Real学习的快速光学触觉仿真器

类 GelSight的视触觉传感器具有高分辨率和低制造成本的优势,但是在与现实中的物体进行频繁接触时易受磨损。而触觉仿真器可大幅降低硬件成本,同时为后续技能学习任务提供仿真训练环境。为此,来自东南大学自动化学院的钱堃副教授研究团队和伦敦…

LeetCode---循环队列

循环队列就是只有固定的内存,存数据,出数据,但是也和队列一样,先进先出。如下图所示,这是他的样子 在head出,tail进,但是这个如果用数组解决的话,就有问题,力扣给我们的接…

宝塔Linux面板5.9版本升级新版失败解决方法

下载地址:宝塔Linux面板5.9升级教程 宝塔5.9版本升级最新版宝塔失败,可以参考这份详细教程(不断更新中) 安装要求: Python版本: 2.6/2.7(安装宝塔时会自动安装) 内存:1…

java生成图形验证码

java生成图形验证码 在写项目的时候登录的方式有多种多样,根据需求的不同,有些是用手机号获取验证码登录,有些是需要账号,密码 手机验证码登录,还有写是需要账号,密码 图形验证码登录,不论怎样…

【MySQL】sql表设计的注意事项

程序员的实用神器 文章目录 程序员的实用神器强烈推荐引言注意事项强烈推荐专栏集锦写在最后 强烈推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:人工智能 推荐一个个人工作&#x…

机器学习案例:加州房产价格(四)

参考链接:https://hands1ml.apachecn.org/2/#_12 数据探索和可视化、发现规律 通过之前的工作,你只是快速查看了数据,对要处理的数据有了整体了解,现在的目标是更深的探索数据。 首先,保证你将测试集放在了一旁&…

数据库开发记录

一.MySQL相关 1.Spatial Data相关

AntDesign React 简单封装一个带错误提示的输入框

背景 没想到官方没有提供纯粹的带错误提示的输入框,官方提供了启用错误样式 status 属性。但是展示错误信息提示却需要捆绑Form 和 Form.Item。说实话有点不友好,我就一个简单的输入框,想要用户输入时用正则校验,错误时提示一些错…

电子硬件设计-LTC3839学习笔记

目录 1. 简介 2. 用法详解 2.1 工作原理 2.2 关键引脚分析 2.2.1 Pin6 - ITH 2.2.2 Pin 14/27 - BOOST1/2 3. 总结 1. 简介 具差分输出检测功能的快速、准确、两相、单路输出降压型 DC/DC 控制器。 特点: 输入:4.5V 至 38V,输出&am…

算法学习笔记(4)-基础排序算法

##O(n^2)算法时间复杂度的排序算法 目录 ##O(n^2)算法时间复杂度的排序算法 ##选择排序 ##原理 ##图例 ##代码实现示例 ##冒泡排序 ##原理 ##图例 ##代码实现示例 ##插入排序 ##原理 ##图例 ##代码实现示例 ##总结 ##选择排序 ##原理 在一个无序的数组或者列表…

使用Xshell工具连接ubuntu-方便快捷

使用Xshell连接ubuntu 在命令行输入 “sudo apt-get install openssh-server”安装openssh-server 开启 ssh-server,在命令行输入 “service ssh start”,然后输入密码即可

浅谈SiC MOSFET之双脉冲原理

1.双脉冲实验实验的必要性 在平常的使用中,我们基本通过芯片手册来了解功率器件的各种性能参数,但是手册中的参数的测量环境都是在理想状态下,与实际使用或多或少都会有差别。通过双脉冲实验可以获取器件在真实工况下的参数,对于产…

如何在创建之前检测 Elasticsearch 将使用哪个索引模板

作者:来自 Elastic Musab Dogan 概述 Elasticsearch 提供两种类型的索引模板:旧(legacy)索引模板和可组合 (composable) 索引模板。 Elasticsearch 7.8 中引入的可组合模板旨在替换旧模板,两者仍然可以在 Elasticsear…

ArcGIS软件损坏怎么修复?10.7分享

前言 我们经常ArcGIS用着用着就会出现一些莫名奇怪的情况,比如ArcGIS的工具箱都打,字体丢失等、dll文件缺失。尝试了很多方法之后没有效果的,我们可以对软件做修复 那么修复改如果做呢? 不需要卸载软件,直接安装deskt…

记录一下 log4j的漏洞

目录 背景 bug的产生 bug复现 JNDI 网络安全学习路线 (2024最新整理) 学习资料的推荐 1.视频教程 2.SRC技术文档&PDF书籍 3.大厂面试题 特别声明: 背景 log4j这次的bug,我相信大家都已经知道了,仅以…

【异常】SpringBoot整合RabbitMQ-发送消息报错

错误信息 reply-code406, reply-textPRECONDITION_FAILED - inequivalent arg ‘x-message-ttl’ for queue ‘hello-queue’ in vhost ‘/lq’: received none but current is the value ‘10000’ of type ‘signedint’, class-id50, method-id10 错误原因 hello-queue这…

【每日刷题】Day39

【每日刷题】Day39 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 622. 设计循环队列 - 力扣(LeetCode) 2. 387. 字符串中的第一个唯一字符 - …