【简博士统计学习方法】2. 统计学习方法的基本分类

2. 统计学习方法的基本分类

监督学习所学习的数据都是已经标注过的;无监督学习所学习的数据没有标注信息;半监督学习只含有少量标注,大多数没有标注(利用已标注的数据来学习去标注未标注的数据)

2.1 监督学习


图里的点称作是一个实例,可以通过坐标来表达,颜色类别不同(颜色类别称为输出)
输入是每一个实例,输出是颜色类别,输入和输出成对的出现就称之为是一个样本,将这些样本作为训练集进行一个监督学习。

监督学习(Supervised Learning)是指从标注数据中学习预测模型的机器学习问题,其本质是学习输入到输出的映射的统计规律。
映射:两个集合中的元素相互对应的关系。

监督学习主要学习输入到输出之间的映射关系。

  • 输入空间(Input Space):输入的所有可能取值的集合。
  • 实例(Instance):每一个具体的输入,通常由特征向量(Feature Vector)表示。
  • 特征空间(Feature Space):所有特征向量存在的空间。
  • 输出空间(Output Space):输出的所有可能取值的集合。

根据变量类型不同

  • 输入变量与输出变量均为连续变量的预测问题———回归问题
  • 输出变量为有限个离散变量的预测问题————分类问题
  • 输入变量与输出变量均为变量序列的预测问题————标注问题

符号表示

  • 输入变量: X X X;输入变量的取值: x x x.
  • 输出变量: Y Y Y;输出变量的取值: y y y.
  • 输入实例 x x x的特征向量表示:
    x = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( j ) , ⋯   , x ( n ) ) T x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(j)}, \cdots, x^{(n)}\right)^{T} x=(x(1),x(2),,x(j),,x(n))T
  • x i x_i xi表示多个输入变量中的第 i i i个变量:
    x i = ( x i ( 1 ) , x i ( 2 ) , ⋯   , x i ( j ) , ⋯   , x i ( n ) ) T x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(j)}, \cdots, x_{i}^{(n)}\right)^{T} xi=(xi(1),xi(2),,xi(j),,xi(n))T
  • 样本容量为 N N N的训练集:
    T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) ⋯   , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(x_{N}, y_{N}\right)\right\} T={(x1,y1),(x2,y2),(xN,yN)}

监督学习的基本假设: X X X Y Y Y具有联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)

【前置知识】
联合概率分布(Joint Probability Distribution)是描述两个或多个随机变量同时发生的概率的数学函数。在概率论中,当我们有多个随机变量时,联合概率分布告诉我们这些随机变量同时取某些特定值的概率。

  1. 基本概念
    假设我们有两个离散型随机变量 X X X Y Y Y,联合概率分布就是一个定义在这两个变量上的概率分布,表示 X X X Y Y Y同时取某些特定值的概率。具体来说,联合概率分布 P ( X = x , Y = y ) P(X=x,Y=y) P(X=x,Y=y)就是 X X X取值为 x x x Y Y Y取值为 y y y的概率。
    如果 X X X Y Y Y是连续型随机变量,则联合概率分布通常是一个联合概率密度函数 f ( x , y ) f(x,y) f(x,y),它描述了在给定的点 ( x , y ) (x,y) (x,y)附近的概率密度
    【注】概率密度(Probability Density):是概率论中用于描述连续随机变量的一个重要概念。它表示在某个点附近的概率分布的“密集程度”,即随机变量取某个特定值的“概率密度”。不过,与离散随机变量的概率不同,连续随机变量的概率分布不直接给出某个值的概率,而是通过密度函数来描述该值所在区间的概率。
  2. 联合概率分布的表示
  • 离散型随机变量
    对于离散型随机变量 X X X Y Y Y,其联合概率分布可以通过一个概率表来表示,其中每个表格项表示 P ( X = x , Y = y ) P(X=x,Y=y) P(X=x,Y=y),即 X X X Y Y Y取特定值的联合概率。
    例如,假设我们掷两个骰子,令 X X X为第一个骰子的点数, Y Y Y为第二个骰子的点数,那么联合概率分布可以通过以下表格表示:
X \ Y X \backslash Y X\Y123456
1 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361
2 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361
3 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361
4 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361
5 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361
6 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361

这个表格表示 X X X Y Y Y取每一对点数的联合概率。例如, P ( X = 1 , Y = 2 ) = 1 36 P(X=1,Y=2)=\frac{1}{36} P(X=1,Y=2)=361表示投掷后,第一个骰子点数为1,第二个骰子点数为2的概率是 1 36 \frac{1}{36} 361 .

  • 连续型随机变量
    对于连续型随机变量 X X X Y Y Y,联合概率分布用联合概率密度函数 f ( x , y ) f(x,y) f(x,y)表示,它满足:
    P ( a ⩽ X ⩽ b , c ⩽ Y ⩽ d ) = ∫ a b ∫ c d f ( x , y ) d y d x P(a \leqslant X \leqslant b, c \leqslant Y \leqslant d)=\int_{a}^{b} \int_{c}^{d} f(x, y) d y d x P(aXb,cYd)=abcdf(x,y)dydx
    其中, f ( x , y ) f(x,y) f(x,y)是联合概率密度函数,表示在某个点 ( x , y ) (x,y) (x,y)处的概率密度。
  1. 边缘概率分布
    联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)可以通过边缘化(即求和或积分)得到单个随机变量的概率分布:
  • 对于离散型随机变量,边缘概率是通过对其他随机变量求和得到的:
    P ( X = x ) = ∑ y P ( X = x , Y = y ) P(X=x)=\sum\limits_{y} P(X=x, Y=y) P(X=x)=yP(X=x,Y=y)
  • 对于连续型随机变量,边缘概率是通过对其他变量积分得到的:
    P ( X = x ) = ∫ − ∞ ∞ f ( x , y ) d y P(X=x)=\int_{-\infty}^{\infty} f(x, y) d y P(X=x)=f(x,y)dy
  1. 条件概率分布
    联合概率分布还与条件概率分布密切相关。条件概率是指在已知一个随机变量取某个值的条件下,另一个随机变量取某个值的概率。条件概率可以通过联合概率和边缘概率来表示:
  • 对于离散型变量:
    P ( X = x ∣ Y = y ) = P ( X = x , Y = y ) P ( Y = y ) P(X=x \mid Y=y)=\frac{P(X=x, Y=y)}{P(Y=y)} P(X=xY=y)=P(Y=y)P(X=x,Y=y)
  • 对于连续型变量:
    f ( x ∣ y ) = f ( x , y ) f Y ( y ) f(x \mid y)=\frac{f(x, y)}{f_{Y}(y)} f(xy)=fY(y)f(x,y)
    其中 f Y ( y ) f_{Y}(y) fY(y) Y Y Y的边缘概率密度。

监督学习的目的:学习一个输入到输出的映射,这一映射以模型表示。

模型的形式:条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)或决策函数 Y = f ( X ) Y=f(X) Y=f(X)

假设空间(Hypothesis Space):所有这些可能模型的集合。

对具体的输入进行相应的输出预测时,表达为 P ( y ∣ x ) P(y|x) P(yx) y = f ( x ) y=f(x) y=f(x)

输入输出是成对出现, ( x i , y i ) (x_i,y_i) (xi,yi)是一个样本,通过训练集学习训练出一个模型来,这个模型既可以表达成条件概率分布的形式,也可以表达成决策函数的形式。符号加小帽子 p ^ \hat{p} p^这种就代表着我们这个模型是通过学习而得到的。
y N + 1 = arg ⁡ max ⁡ y P ^ ( y ∣ x N + 1 ) y_{N+1}=\arg \max _{y} \hat{P}\left(y \mid x_{N+1}\right) yN+1=argmaxyP^(yxN+1)是指取条件概率最大的那个结果,arg是取什么什么值。

2.2 无监督学习


通过聚类方法将其分为两个簇,上面一簇下面一簇(如上图),这就是无监督学习。

无监督学习(Unsupervised Learning)是指从无标注数据中学习预测模型的机器学习问题。其本质是学习数据中的统计规律或潜在结构。


几个符号的概念:

  • 输入空间 X \mathcal{X} X.
  • 隐式结构空间(隐含在数据内部的信息): Z \mathcal{Z} Z.
  • 模型:函数 z = g ( x ) z=g(x) z=g(x),条件概率分布 P ( z ∣ x ) P(z|x) P(zx)或条件概率分布 P ( x ∣ z ) P(x|z) P(xz).
  • 假设空间(Hypothesis Space):所有这些可能模型的集合。
  • 目的:选出在给定评价标准下的最优模型。
  • 样本容量为 N N N的训练集:
    U = { x 1 , x 2 , ⋯   , x N } U=\{x_1,x_2,\cdots,x_N\} U={x1,x2,,xN}

无监督学习的流程图为:

就是没了训练过程,其余和监督学习的符号意义差不多。

2.3 强化学习

就是智能系统和环境的互动。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/949227.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Python爬虫实战】从基础概念到HTTP/HTTPS协议全面解析

🌈个人主页:https://blog.csdn.net/2401_86688088?typeblog 🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html 目录 前言 一、爬虫的关键概念 (一)HTTP请求与响应 &#xff0…

Git命令行的使用

目录 一、什么是Git 1、本地仓库 vs 远端仓库 本地仓库 远端仓库 2、.git vs .gitignore .git .gitignore 二、使用Git命令 1、安装git 2、git首次使用需要配置用户邮箱和用户名 3、上传目录/文件到远端仓库步骤 1)创建放置文件的目录 2)cd…

Genome Research | 俄亥俄州立于忠堂组-结合深度学习与蛋白质数据库系统探究反刍动物真核微生物...

结合深度学习与蛋白质数据库系统探究反刍动物真核微生物 Probing the eukaryotic microbes of ruminants with a deep-learning classifier and comprehensive protein databases 期刊:Genome Research DOI:https://doi.org/10.1101/gr.279825.124 第一作…

unity 播放 序列帧图片 动画

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、方法一:代码控制播放序列帧1、设置图片属性2、创建Image组件3、简单的代码控制4、挂载代码并赋值 二、方法二:直接使用1.Image上添加…

UE5中实现右键开镜效果

右键之后添加时间轴,然后设置视野即可。Set Field Of View 时间轴设置,第一个点设置0,90度,因为默认的就是90度 第二个点看武器的类型或者倍境来设置,时间就是开镜时间,值越小开镜速度越快,第二个值就是视野…

Nginx:限流限速

1. 什么是限流限速? 限流限速是Nginx运维中一个非常重要的功能,用于防止服务器过载和保护资源免受滥用。它可以通过限制客户端的请求速率或上传/下载速度来实现。 限流:控制单位时间内允许处理的请求数量。这有助于防止过多的并发请求导致服务器性能下降或崩溃。限速:限制…

C++ 日志库 spdlog 使用教程

Spdlog是一个快速、异步、线程安全的C日志库,他可以方便地记录应用程序的运行状态,并提供多种输出格式。官网:https://github.com/gabime/spdlog 安装教程可以参考:https://blog.csdn.net/Harrytsz/article/details/144887297 S…

音视频入门基础:MPEG2-PS专题(3)——MPEG2-PS格式简介

一、引言 本文对MPEG2-PS格式进行简介。 进行简介之前,请各位先下载MPEG2-PS的官方文档。ITU-T和ISO/IEC都分别提供MPEG2-PS的官方文档。但是ITU提供的文档是免费的,ISO/IEC是付费的,所以我们主要阅读ITU提供的官方文档,比如较新…

Multisim更新:振幅调制器+解调器(含仿真程序+文档+原理图+PCB)

前言 继3年前设计的:Multisim:振幅调制器的设计(含仿真程序文档原理图PCB),有读者表示已经不能满足新需求,需要加上新的解调器功能😂😂😂,鸽了很久这里便安排…

BGP(Border Gateway Protocol)路由收集器

全球 BGP(边界网关协议)路由收集器的分布情况以及相关数据。以下是主要的信息解读: 地图标记: 每个绿色点代表一个路由收集器的位置。路由收集器分布在全球不同的地区,覆盖了五大区域: ARIN(美…

【Rust自学】10.5. 生命周期 Pt.1:生命周期的定义与意义、借用检查器与泛型生命周期

喜欢的话别忘了点赞、收藏加关注哦,对接下来的教程有兴趣的可以关注专栏。谢谢喵!(・ω・) 10.5.1. 什么是生命周期 Rust的每个引用都有自己的生命周期,生命周期的作用是让引用保持有效,也可以说它是保持引…

Vue2: table加载树形数据的踩坑记录

table中需要加载树形数据,如图: 官网给了两个例子,且每个例子中的tree-props都是这么写的: :tree-props="{children: children, hasChildren: hasChildren}" 给我一种错觉,以为数据结构中要同时指定children和hasChildren字段,然而,在非懒加载模式下,数据结…

深入了解 SSL/TLS 协议及其工作原理

深入了解 SSL/TLS 协议及其工作原理 一. 什么是 SSL/TLS?二. SSL/TLS 握手过程三. SSL/TLS 数据加密与传输四. 总结 点个免费的赞和关注,有错误的地方请指出,看个人主页有惊喜。 作者:神的孩子都在歌唱 一. 什么是 SSL/TLS? 安全套接层&am…

sqlserver sql转HTMM邮件发送

通过sql的形式,把表内数据通过邮件的形式发送出去 declare title varchar(100) DECLARE stat_date CHAR(10),create_time datetime SET stat_dateCONVERT(char(10),GETDATE(),120) SET create_timeDATEADD(MINUTE,-20,GETDATE()) DECLARE xml NVARCHAR (max) DECLAR…

用QT实现 端口扫描工具1

安装在线QT,尽量是完整地自己进行安装,不然会少包 参考【保姆级图文教程】QT下载、安装、入门、配置VS Qt环境-CSDN博客 临时存储空间不够。 Windows系统通常会使用C盘来存储临时文件。 修改临时文件存储位置 打开系统属性: 右键点击“此电…

Selenium 自动化,如何下载正确的 ChromeDriver

在 Python 的 Selenium 自动化操作中,chromedriver 是不可或缺的驱动程序。没有正确安装对应版本的驱动,运行代码时常常会遇到报错问题,比如 “session not created: This version of ChromeDriver only supports Chrome version XX”。 今天…

泊松融合 实例2025

目录 例子1: 实现代码: 原作者代码: 本博客直接给出来最好的效果和源代码 参数说明: 效果不好,不推荐的参数:MONOCHROME_TRANSFER,NORMAL_CLONE 例子1: 目标图: 原图: 效果图: 实现代码: 坐标是要目标图上中心点坐标: import cv2if __na

前端如何从入门进阶到高级

在前端学习的道路上,我们将其划分为三个阶段:入门、实战和进阶。以下是各阶段的学习指南 一、入门阶段 在入门阶段,我们的目标是掌握前端的基本语法和知识,以便能够独立解决一些基础问题。这一阶段,我们建议通过视频…

Python爬虫基础——认识网页结构(各种标签的使用)

1、添加<div>标签的代码定义了两个区块的宽度和高度均为100px&#xff0c;边框的格式也相同&#xff0c;只是区块中显示的内容不同&#xff1b; 2、添加<ul>和<ol>标签分别用于定义无序列表和有序列表。<il>标签位于<ul>标签或<ol>标签之…

基于W2605C语音识别合成芯片的智能语音交互闹钟方案-AI对话享受智能生活

随着科技的飞速发展&#xff0c;智能家居产品正逐步渗透到我们的日常生活中&#xff0c;其中智能闹钟作为时间管理的得力助手&#xff0c;也在不断进化。基于W2605C语音识别与语音合成芯片的智能语音交互闹钟&#xff0c;凭借其强大的联网能力、自动校时功能、实时天气获取、以…