【简博士统计学习方法】2. 统计学习方法的基本分类

2. 统计学习方法的基本分类

监督学习所学习的数据都是已经标注过的；无监督学习所学习的数据没有标注信息；半监督学习只含有少量标注，大多数没有标注（利用已标注的数据来学习去标注未标注的数据）

2.1 监督学习

图里的点称作是一个实例，可以通过坐标来表达，颜色类别不同（颜色类别称为输出）
输入是每一个实例，输出是颜色类别，输入和输出成对的出现就称之为是一个样本，将这些样本作为训练集进行一个监督学习。

监督学习（Supervised Learning）是指从标注数据中学习预测模型的机器学习问题，其本质是学习输入到输出的映射的统计规律。
映射：两个集合中的元素相互对应的关系。

监督学习主要学习输入到输出之间的映射关系。

输入空间（Input Space）：输入的所有可能取值的集合。
实例（Instance）：每一个具体的输入，通常由特征向量（Feature Vector）表示。
特征空间（Feature Space）：所有特征向量存在的空间。
输出空间（Output Space）：输出的所有可能取值的集合。

根据变量类型不同：

输入变量与输出变量均为连续变量的预测问题———回归问题；
输出变量为有限个离散变量的预测问题————分类问题；
输入变量与输出变量均为变量序列的预测问题————标注问题。

符号表示：

输入变量： $X$ ；输入变量的取值： $x$ .
输出变量： $Y$ ；输出变量的取值： $y$ .
输入实例 $x$ 的特征向量表示：
$x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(j)}, \cdots, x^{(n)}\right)^{T}$
以 $x_i$ 表示多个输入变量中的第 $i$ 个变量：
$x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(j)}, \cdots, x_{i}^{(n)}\right)^{T}$
样本容量为 $N$ 的训练集：
$T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(x_{N}, y_{N}\right)\right\}$

监督学习的基本假设： $X$ 和 $Y$ 具有联合概率分布 $P (X, Y)$

【前置知识】
联合概率分布（Joint Probability Distribution）是描述两个或多个随机变量同时发生的概率的数学函数。在概率论中，当我们有多个随机变量时，联合概率分布告诉我们这些随机变量同时取某些特定值的概率。

基本概念
假设我们有两个离散型随机变量 $X$ 和 $Y$ ，联合概率分布就是一个定义在这两个变量上的概率分布，表示 $X$ 和 $Y$ 同时取某些特定值的概率。具体来说，联合概率分布 $P (X = x, Y = y)$ 就是 $X$ 取值为 $x$ 且 $Y$ 取值为 $y$ 的概率。
如果 $X$ 和 $Y$ 是连续型随机变量，则联合概率分布通常是一个联合概率密度函数 $f (x, y)$ ，它描述了在给定的点 $(x, y)$ 附近的概率密度。
【注】概率密度（Probability Density）：是概率论中用于描述连续随机变量的一个重要概念。它表示在某个点附近的概率分布的“密集程度”，即随机变量取某个特定值的“概率密度”。不过，与离散随机变量的概率不同，连续随机变量的概率分布不直接给出某个值的概率，而是通过密度函数来描述该值所在区间的概率。
联合概率分布的表示

离散型随机变量：
对于离散型随机变量 $X$ 和 $Y$ ，其联合概率分布可以通过一个概率表来表示，其中每个表格项表示 $P (X = x, Y = y)$ ，即 $X$ 和 $Y$ 取特定值的联合概率。
例如，假设我们掷两个骰子，令 $X$ 为第一个骰子的点数， $Y$ 为第二个骰子的点数，那么联合概率分布可以通过以下表格表示：

$\ Y X \backslash Y$	1	2	3	4	5	6
1	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$
2	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$
3	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$
4	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$
5	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$
6	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$	$\frac{1}{36}$

这个表格表示 $X$ 和 $Y$ 取每一对点数的联合概率。例如， $P(X=1,Y=2)=\frac{1}{36}$ 表示投掷后，第一个骰子点数为1，第二个骰子点数为2的概率是 $\frac{1}{36}$ .

连续型随机变量：
对于连续型随机变量 $X$ 和 $Y$ ，联合概率分布用联合概率密度函数 $f (x, y)$ 表示，它满足：
$\leqslant X \leqslant b, c \leqslant Y \leqslant d)=\int_{a}^{b} \int_{c}^{d} f(x, y) d y d x$
其中， $f (x, y)$ 是联合概率密度函数，表示在某个点 $(x, y)$ 处的概率密度。

边缘概率分布：
联合概率分布 $P (X, Y)$ 可以通过边缘化（即求和或积分）得到单个随机变量的概率分布：

对于离散型随机变量，边缘概率是通过对其他随机变量求和得到的：
$P(X=x)=\sum\limits_{y} P(X=x, Y=y)$
对于连续型随机变量，边缘概率是通过对其他变量积分得到的：
$P(X=x)=\int_{-\infty}^{\infty} f(x, y) d y$

条件概率分布：
联合概率分布还与条件概率分布密切相关。条件概率是指在已知一个随机变量取某个值的条件下，另一个随机变量取某个值的概率。条件概率可以通过联合概率和边缘概率来表示：

对于离散型变量：
$\mid Y=y)=\frac{P(X=x, Y=y)}{P(Y=y)}$
对于连续型变量：
$\mid y)=\frac{f(x, y)}{f_{Y}(y)}$
其中 $f_{Y}(y)$ 是 $Y$ 的边缘概率密度。

监督学习的目的：学习一个输入到输出的映射，这一映射以模型表示。

模型的形式：条件概率分布 $P (Y ∣ X)$ 或决策函数 $Y = f (X)$ ；

假设空间（Hypothesis Space）：所有这些可能模型的集合。

对具体的输入进行相应的输出预测时，表达为 $P (y ∣ x)$ 或 $y = f (x)$

输入输出是成对出现， $x_i,y_i)$ 是一个样本，通过训练集学习训练出一个模型来，这个模型既可以表达成条件概率分布的形式，也可以表达成决策函数的形式。符号加小帽子 $\hat{p}$ 这种就代表着我们这个模型是通过学习而得到的。
$y_{N+1}=\arg \max _{y} \hat{P}\left(y \mid x_{N+1}\right)$ 是指取条件概率最大的那个结果，arg是取什么什么值。