[吃瓜教程]概览西瓜书+南瓜书第1、2章

第一章 绪论

1.1机器学习的定义,什么是机器学习?

1)机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验改善系统自身的性能
2)机器学习所研究的主要内容是关于在计算机上数据中产生模型算法,即“学习算法”。

1.2基本术语

在这里插入图片描述
在这里插入图片描述
数据相关概念:

  • 数据集(data set):记录的集合;
  • 示例(instance)/样本(sample):关于一个事件或对象的描述;注意一个示例也称为一个特征向量(因为一个示例是属性空间中的一个坐标向量)
  • 属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项
  • 属性值(attribute value):属性上的取值
  • 属性空间(attribute space)/样本空间(sample space):属性张成的空间
  • 训练数据(training data):训练过程中使用的数据。
  • 训练样本(training sample):训练数据中的每个样本称为一个训练样本。
  • 训练集(training set):训练样本组成的集合;
  • 标记(label):关于示例的结果的信息
  • 样例(sample):拥有了标记信息的示例。
  • 测试(testing):使用模型进行预测的过程称为测试。
  • 测试样本(testing sample):被预测的样本。
  • 假设(hypothesis):学得的模型对应了关于数据的某种潜在的规律。假设是对数据的某种规律或模式的假定。它是我们希望通过模型来捕捉和表达的数据内在规律。
  • 真相/真实(ground-truth):潜在规律本身。

学习任务相关概念:

  • 监督学习(supervised learning):训练数据有标记信息的任务,典型代表,分类和回归任务。
  • 无监督学习(unsupervised learning):训练数据无标记信息的任务,典型代表,聚类。
  • 分类(classification):预测值为离散值的学习任务。
  • 回归(regression):预测值为连续值得学习任务。
  • 二分类任务(binary classification):只涉及两个类别的分类任务,通常称一个类别为正类(positive class),另一个类别为反类(negative class)。
  • 多分类任务(multi-class classification):涉及多个类别的分类任务。
  • 聚类(clustering):将训练集中的样本分为若干组。分成的组称为族(cluster)。

模型相关概念

  • 泛化(generalization):学得模型适用于新样本的能力。

1.3 假设空间和版本空间

再来回顾一下假设的概念:

  • 假设(hypothesis):学得的模型对应了关于数据的某种潜在的规律。假设是对数据的某种规律或模式的假定。它是我们希望通过模型来捕捉和表达的数据内在规律。

可以理解,在机器学习中,假设是关于数据规律的,但通常通过模型来表示和实现这些假设
假设空间 (Hypothesis Space)
假设空间是指所有可能假设的集合。这些假设是用来拟合数据、进行预测或解释数据模式的函数或模型。
版本空间 (Version Space)
版本空间是指在给定训练数据的条件下,所有与训练数据一致的假设的集合。换句话说,版本空间是从假设空间中筛选出的能够正确分类或预测训练数据的假设子集。
假设空间和版本空间的关系
假设空间:表示所有可能的假设集合,是整个搜索范围。
版本空间:表示所有与训练数据一致的假设集合,是在假设空间中的一个子集。
Tips:
事实上,假设空间既可以用假设的集合表示,也可以用模型表示。这两种表示方法其实是互通的,因为特定类型的模型就是我们对数据规律的假设,而所有可能的模型实例构成了假设空间。

1.4 理解归纳偏好

  • 归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好。

第二章 模型评估与选择

2.1经验误差与过拟合

  • 错误率(error rate):分类错误的样本数占样本总数的比例;
  • 精度(accuracy):1-错误率;
  • 误差 (error):学习器的实际预测输出与样本的正式输出之间的差异;(更加一般的一个概念,错误率也是一种误差,在回归任务中错误率不适合表示误差还有其他的误差表示)。
  • 训练误差/经验误差(training error/empirical error):学习器在训练集上的误差;
  • 泛化误差(generalization error):在新样本上的误差。训练模型的目的是得到理想化的最小泛化误差的模型。
  • 过拟合(overfitting):把训练样本自身的一些特点当作了所有潜在样本都具有的一般性质,导致泛化性能的下降。
  • 欠拟合(underfitting):对训练样本的一般性质尚未充分学习。

2.2 评估方法

为了评估不同的模型的泛化性能,找到最小泛化误差的模型,我们需要用到测试集。
(1)测试集:用来测试学习器对新样本的判别能力,以测试集上的测试误差作为泛化误差的近似。
(2)测试集的选取标准:测试样本是从样本真实分布中独立同分布采样而得的,同时,测试集应该尽可能与训练集互斥,即测试样本尽量不在训练集中出现、未在训练过程中使用过。

如何从数据集中产生训练集和测试集?以下是常用的几种方法:
1.留出法(hold out):直接将数据集划分为两个互斥的集合,一个集合作为训练集,一个集合作为测试集。
注意,训练/测试的划分要尽可能的保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。同时即使给定划分比例,仍然存在多种划分方式,而不同的划分将导致不同的训练/测试集,模型的评估结果也会有差异,因此得到的结果往往不够稳定可靠,常常需要若干次随机划分后取平均值。
2.交叉验证法(cross validation):先将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性(通过分层采样得到),然后每次用k-1个子集的并集作为训练集,剩下的一个作为测试集。最终返回的k个测试结果的均值。同样由于划分方式的不同,通常要随机使用不同的划分方式重复p次,最终的结果是这p次k折交叉验证结果的均值。

特殊情况: 当数据集包含m个样本,令k=m,则得到了交叉验证法的一个特例:留一法(Leave-One-Out)。
优点: 留一法的评估结果往往被认为比较准确;
缺点: 数据集较大时,训练m个模型的计算开销难以忍受。
3.自助法(bootstrapping):对于给定的包含m个样本的数据集D,对它进行采样得到数据集D’,每次随机从D中放回式的挑选一个样本放入D‘中,重复该过程m次,得到包含有m个样本的数据集D’。显然,D中有一部分样本会在D‘中多次出现,而另一部分样本不出现。约有38.6%(1/e)的样本未出现在采样数据集D’中。
优点:在数据集小,难以有效划分时很有用,对集成学习等方法有好处;
缺点:改变了初始数据集的分布,引入了估计偏差,在数据集足够时,一般不用。

2.3 性能度量

模型的好坏是相对的,不仅取决于算法和数据,还取决于任务需求。因此就需要有衡量模型泛化能力的评价标准,也就是性能度量(performance measure)。
回归任务常见的性能度量:

  • 均方误差(mean squared error):
    E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D) = \frac{1}{m}\sum\limits_{i=1}^m(f(x_i)-y_i)^2 E(f;D)=m1i=1m(f(xi)yi)2

  • 错误率:分类错误的样本数占样本总数的比例

E ( f , D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f,D)=\frac{1}{m}\sum\limits_{i=1}^m\mathbb I (f(x_i)\neq{y_i}) E(f,D)=m1i=1mI(f(xi)=yi)

  • 精度:分类正确的样本数占样本总数的比例.
    a c c ( f , D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f , D ) acc(f,D)=\frac{1}{m}\sum\limits_{i=1}^m\mathbb I (f(x_i)={y_i}) =1-E(f,D) acc(f,D)=m1i=1mI(f(xi)=yi)=1E(f,D)
    在这里插入图片描述

  • 查准率/准确率(precision):它衡量的是模型预测的正类样本中有多少是正确的
    P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP

  • 查全率/召回率(recall):它衡量的是实际的正类样本中有多少被正确地预测为正类
    R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP

  • P-R曲线:P-R曲线是通过绘制不同阈值下精度和召回率的变化关系得到的。通常,曲线的横轴表示召回率,纵轴表示精度。
    P-R曲线的绘制步骤
    1)模型预测: 对于给定的分类模型,使用不同的阈值对数据进行预测。每个阈值会产生一组不同的精度和召回率。
    2)计算精度和召回率: 对每个阈值,计算对应的精度和召回率。
    3)绘制曲线: 以召回率为横轴,精度为纵轴,绘制精度-召回曲线。
    在这里插入图片描述

  • F1度量:
    F 1 = 2 ∗ P ∗ R P + R F1=\frac{2*P*R}{P+R} F1=P+R2PR
    一般形式:(能表达出对查准率/查全率的不同偏好)
    F β = ( 1 + β 2 ) ∗ P ∗ R ( β 2 ∗ P ) + R F_\beta=\frac{(1+\beta^2)*P*R}{(\beta ^2*P)+R} Fβ=(β2P)+R(1+β2)PR
    其中 β \beta β>0度量了查全率对查准率的相对重要性。 β = 1 \beta=1 β=1时退化为标准的F1; β > 1 \beta>1 β>1时查全率有更大影响; β < 1 \beta<1 β<1时查准率有更大影响。
    宏F1(macro-F1):
    微F1(micro-F1):

参考文献

[1]周志华.机器学习[M].清华大学出版社,2016.
[2]https://www.bilibili.com/video/BV1Mh411e7VU/?p=2&vd_source=0e750184037a989618cbfa3e8e030c7d

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/724530.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【golang学习之旅】Go程序快速开始 Go程序开发的基本注意事项

系列文章 【golang学习之旅】使用VScode安装配置Go开发环境 【golang学习之旅】报错&#xff1a;a declared but not used 【golang学习之旅】Go 的基本数据类型 【golang学习之旅】深入理解字符串string数据类型 【golang学习之旅】go mod tidy 【golang学习之旅】记录一次 p…

linux配置Vnc Server给Windows连接

1. linux 安装必要vnc server和桌面组件 sudo apt -y install tightvncserversudo apt install xfce4 xfce4-goodies2. linux 配置vncserver密码 #bash vncserver参考: https://cn.linux-console.net/?p21846#google_vignette 3. 将启动桌面命令写入.vnc/xstartup # .vnc/x…

了解指标体系1:指标是大数据开发中的关键要素

在大数据开发的过程中&#xff0c;指标体系是一个至关重要的概念。本文将介绍什么是指标&#xff0c;为什么它们如此重要&#xff0c;以及如何在大数据项目中有效地构建和应用指标体系。 目录 什么是指标&#xff1f;指标的类型为什么指标如此重要&#xff1f;如何构建有效的指…

2024最新自动化测试 —— Jest 测试框架应用

什么是自动化测试 在软件测试中&#xff0c;自动化测试指的是使用独立于待测软件的其他软件来自动执行测试、比较实际结果与预期并生成测试报告这一过程。在测试流程已经确定后&#xff0c;测试自动化可以自动执行的一些重复但必要的测试工作。也可以完成手动测试几乎不可能完…

xcode和iPhone真机或者watch真机连接问题

1.如果真机是第一次连接xocde&#xff0c;就需要开启真机上的开发者模式&#xff0c;开启开发者模式的方式&#xff1a; iphone/ipad开启方式: 设置 > 隐私与安全 > 开发者模式 > 开启&#xff0c;然后重启就可以了 watch设置&#xff1a;很麻烦&#xff0c;看文章…

对身外之物,不必在意

不管对待自己还是他人&#xff0c;外在的条件不值得挂怀&#xff0c;人在不得已颠沛流离时期&#xff0c;吃不好、穿不好&#xff0c;都应该从容接受。

外汇天眼:盈透证券为客户提供更丰富的欧洲衍生品交易渠道

电子交易巨头盈透证券&#xff08;纳斯达克代码&#xff1a;IBKR&#xff09;今日宣布&#xff0c;通过Cboe欧洲期权交易所&#xff08;CEDX&#xff09;新增欧洲股票期权和欧洲指数期货及期权。这一新增功能使得盈透证券的客户可以在单一统一平台上&#xff0c;除了股票、期权…

力扣469A

文章目录 1. 题目链接2. 题目代码3. 题目总结4. 代码分析 1. 题目链接 I Wanna Be the Guy 2. 题目代码 #include<iostream> #include<set> using namespace std; int main(){int highestLevelOfGame;cin >> highestLevelOfGame;set<int> levelCanPas…

【profinet】从站开发要点

目录 0、常见缩写及关键字注释 1、profinet简介 2、profinet协议栈 3、profinet数据帧 4、profinet网络解决方案示例 5、Application areas 注&#xff1a;本文主要简述profinet从站开发涉及到的知识点。【不足之处后续慢慢补充】。 0、常见缩写及关键字注释 MRP: Media…

移动硬盘接入mac无法复制文件进去怎么办,mac里的文件如何存进移动硬盘

如果要传输的文件数据量比较大&#xff0c;相比于使用U盘&#xff0c;移动硬盘是更多的选择。移动硬盘可存储量大、传输速度快&#xff0c;是实用性比较强的储存设备。不仅是Windows设备&#xff0c;Mac电脑也经常使用到移动硬盘。但有时候&#xff0c;移动硬盘在Mac上不能传文…

XHS-Downloader是一款小红书图片视频下载工具

这款软件可以提取账号发布、收藏、点赞作品链接&#xff1b;提取搜索结果作品链接、用户链接&#xff1b;下载小红书作品信息&#xff1b;提取小红书作品下载地址&#xff1b;下载小红书无水印作品文件&#xff01; &#x1f4d1; 功能清单 ✅ 采集小红书图文 / 视频作品信息…

【Pmac】PMAC QT联合开发中各种可能遇到的坑

目录 1. 错误 C2027 使用了未定义类型“PCOMMSERVERLib::DEVUPLOAD”2. 输入了正确的pmac的ip地址&#xff0c;没有显示可选的pmac设备3. Pmac DTC-28B无读数 使用QT编写PMAC上位机程序时&#xff0c;利用QT中的dump工具可以将pcommserver.exe转化为pcommserverlib.h和pcommser…

AMBA-CHI协议详解(四)

《AMBA 5 CHI Architecture Specification》 AMBA-CHI协议详解&#xff08;一&#xff09; AMBA-CHI协议详解&#xff08;二&#xff09; AMBA-CHI协议详解&#xff08;三&#xff09; AMBA-CHI协议详解&#xff08;四&#xff09; 文章目录 2.3.3 Atomic transactions2.3.4 S…

Hadoop3:MapReduce中的Shuffle机制

一、流程图 Shuffle是Map方法之后&#xff0c;Reduce方法之前的数据处理过程称。 二、图解说明 1、数据流向 map方法中context.write(outK, outV);开始&#xff0c;写入环形缓冲区&#xff0c;再进行分区排序&#xff0c;写到磁盘 reduce方法拉取磁盘上的数据&#xff0c;…

swift使用swift-protobuf协议通讯,使用指北

什么是Protobuf Protobuf&#xff08;Protocol Buffers&#xff09;协议&#x1f609; Protobuf 是一种由 Google 开发的二进制序列化格式和相关的技术&#xff0c;它用于高效地序列化和反序列化结构化数据&#xff0c;通常用于网络通信、数据存储等场景。 为什么要使用Proto…

【QT5】<重点> QT多线程

文章目录 前言 一、QThread创建多线程 二、QMutex基于互斥量的同步 三、QReadWriteLock线程同步 四、QWaitCondition线程同步 五、QSemaphore基于信号量的同步 前言 本篇记录学习QT多线程的知识&#xff0c;参考视频13.1QThread创建多线程程序_哔哩哔哩。若涉及版权问题…

Linux - 进程

一、什么是进程 首先&#xff0c;Linux是一个多用户多进程的操作系统&#xff0c;系统上可以同时运行多个进程。 进程的产生&#xff1a;①是在执行程序或者命令时产生的&#xff1b;②定时任务进程 进程的类型&#xff1a;前台进程/后台进程 前台进程&#xff1a;一个终端…

迭代器模式观察者模式

文章目录 1.引出迭代器模式1.展示院系结构2.传统方式 2.迭代器模式解决院系结构展示问题1.基本介绍2.原理类图3.类图4.代码实现1.Department.java 存储信息的对象2.College.java 被迭代的类型接口3.ComputerCollege.java 被迭代的具体实现类&#xff0c;存储数据并将其在创建迭…

契约锁电子签章平台 add 远程命令执行漏洞复现(XVE-2023-23720)

0x01 产品简介 契约锁电子签章平台是上海亘岩网络科技有限公司推出的一套数字签章解决方案。契约锁为中大型组织提供“数字身份、电子签章、印章管控以及数据存证服务”于一体的数字可信基础解决方案,可无缝集成各类系统,让其具有电子化签署的能力,实现组织全程数字化办公。通…

【LeetCode刷题】面试题 17.19. 消失的两个数字

1. 题目链接2. 题目描述3. 解题方法4. 代码 1. 题目链接 面试题 17.19. 消失的两个数字 2. 题目描述 3. 解题方法 例子假设&#xff1a; 数组A元素为 &#xff1a;1 &#xff0c;4&#xff0c;5 缺少的元素为&#xff1a;2&#xff0c; 3 那么所有整数就为1 ~ 5&#xff…