2. 统计学习方法的基本分类
监督学习所学习的数据都是已经标注过的;无监督学习所学习的数据没有标注信息;半监督学习只含有少量标注,大多数没有标注(利用已标注的数据来学习去标注未标注的数据)
2.1 监督学习
图里的点称作是一个实例,可以通过坐标来表达,颜色类别不同(颜色类别称为输出)
输入是每一个实例,输出是颜色类别,输入和输出成对的出现就称之为是一个样本,将这些样本作为训练集进行一个监督学习。
监督学习(Supervised Learning)是指从标注数据中学习预测模型的机器学习问题,其本质是学习输入到输出的映射的统计规律。
映射:两个集合中的元素相互对应的关系。
监督学习主要学习输入到输出之间的映射关系。
- 输入空间(Input Space):输入的所有可能取值的集合。
- 实例(Instance):每一个具体的输入,通常由特征向量(Feature Vector)表示。
- 特征空间(Feature Space):所有特征向量存在的空间。
- 输出空间(Output Space):输出的所有可能取值的集合。
根据变量类型不同:
- 输入变量与输出变量均为连续变量的预测问题———回归问题;
- 输出变量为有限个离散变量的预测问题————分类问题;
- 输入变量与输出变量均为变量序列的预测问题————标注问题。
符号表示:
- 输入变量: X X X;输入变量的取值: x x x.
- 输出变量: Y Y Y;输出变量的取值: y y y.
- 输入实例
x
x
x的特征向量表示:
x = ( x ( 1 ) , x ( 2 ) , ⋯ , x ( j ) , ⋯ , x ( n ) ) T x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(j)}, \cdots, x^{(n)}\right)^{T} x=(x(1),x(2),⋯,x(j),⋯,x(n))T - 以
x
i
x_i
xi表示多个输入变量中的第
i
i
i个变量:
x i = ( x i ( 1 ) , x i ( 2 ) , ⋯ , x i ( j ) , ⋯ , x i ( n ) ) T x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(j)}, \cdots, x_{i}^{(n)}\right)^{T} xi=(xi(1),xi(2),⋯,xi(j),⋯,xi(n))T - 样本容量为
N
N
N的训练集:
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) ⋯ , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(x_{N}, y_{N}\right)\right\} T={(x1,y1),(x2,y2)⋯,(xN,yN)}
监督学习的基本假设: X X X和 Y Y Y具有联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)
【前置知识】
联合概率分布(Joint Probability Distribution)是描述两个或多个随机变量同时发生的概率的数学函数。在概率论中,当我们有多个随机变量时,联合概率分布告诉我们这些随机变量同时取某些特定值的概率。
- 基本概念
假设我们有两个离散型随机变量 X X X和 Y Y Y,联合概率分布就是一个定义在这两个变量上的概率分布,表示 X X X和 Y Y Y同时取某些特定值的概率。具体来说,联合概率分布 P ( X = x , Y = y ) P(X=x,Y=y) P(X=x,Y=y)就是 X X X取值为 x x x且 Y Y Y取值为 y y y的概率。
如果 X X X和 Y Y Y是连续型随机变量,则联合概率分布通常是一个联合概率密度函数 f ( x , y ) f(x,y) f(x,y),它描述了在给定的点 ( x , y ) (x,y) (x,y)附近的概率密度。
【注】概率密度(Probability Density):是概率论中用于描述连续随机变量的一个重要概念。它表示在某个点附近的概率分布的“密集程度”,即随机变量取某个特定值的“概率密度”。不过,与离散随机变量的概率不同,连续随机变量的概率分布不直接给出某个值的概率,而是通过密度函数来描述该值所在区间的概率。- 联合概率分布的表示
- 离散型随机变量:
对于离散型随机变量 X X X和 Y Y Y,其联合概率分布可以通过一个概率表来表示,其中每个表格项表示 P ( X = x , Y = y ) P(X=x,Y=y) P(X=x,Y=y),即 X X X和 Y Y Y取特定值的联合概率。
例如,假设我们掷两个骰子,令 X X X为第一个骰子的点数, Y Y Y为第二个骰子的点数,那么联合概率分布可以通过以下表格表示:
X \ Y X \backslash Y X\Y | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
1 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 |
2 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 |
3 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 |
4 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 |
5 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 |
6 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 | 1 36 \frac{1}{36} 361 |
这个表格表示 X X X和 Y Y Y取每一对点数的联合概率。例如, P ( X = 1 , Y = 2 ) = 1 36 P(X=1,Y=2)=\frac{1}{36} P(X=1,Y=2)=361表示投掷后,第一个骰子点数为1,第二个骰子点数为2的概率是 1 36 \frac{1}{36} 361 .
- 连续型随机变量:
对于连续型随机变量 X X X和 Y Y Y,联合概率分布用联合概率密度函数 f ( x , y ) f(x,y) f(x,y)表示,它满足:
P ( a ⩽ X ⩽ b , c ⩽ Y ⩽ d ) = ∫ a b ∫ c d f ( x , y ) d y d x P(a \leqslant X \leqslant b, c \leqslant Y \leqslant d)=\int_{a}^{b} \int_{c}^{d} f(x, y) d y d x P(a⩽X⩽b,c⩽Y⩽d)=∫ab∫cdf(x,y)dydx
其中, f ( x , y ) f(x,y) f(x,y)是联合概率密度函数,表示在某个点 ( x , y ) (x,y) (x,y)处的概率密度。
- 边缘概率分布:
联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)可以通过边缘化(即求和或积分)得到单个随机变量的概率分布:
- 对于离散型随机变量,边缘概率是通过对其他随机变量求和得到的:
P ( X = x ) = ∑ y P ( X = x , Y = y ) P(X=x)=\sum\limits_{y} P(X=x, Y=y) P(X=x)=y∑P(X=x,Y=y)- 对于连续型随机变量,边缘概率是通过对其他变量积分得到的:
P ( X = x ) = ∫ − ∞ ∞ f ( x , y ) d y P(X=x)=\int_{-\infty}^{\infty} f(x, y) d y P(X=x)=∫−∞∞f(x,y)dy
- 条件概率分布:
联合概率分布还与条件概率分布密切相关。条件概率是指在已知一个随机变量取某个值的条件下,另一个随机变量取某个值的概率。条件概率可以通过联合概率和边缘概率来表示:
- 对于离散型变量:
P ( X = x ∣ Y = y ) = P ( X = x , Y = y ) P ( Y = y ) P(X=x \mid Y=y)=\frac{P(X=x, Y=y)}{P(Y=y)} P(X=x∣Y=y)=P(Y=y)P(X=x,Y=y)- 对于连续型变量:
f ( x ∣ y ) = f ( x , y ) f Y ( y ) f(x \mid y)=\frac{f(x, y)}{f_{Y}(y)} f(x∣y)=fY(y)f(x,y)
其中 f Y ( y ) f_{Y}(y) fY(y)是 Y Y Y的边缘概率密度。
监督学习的目的:学习一个输入到输出的映射,这一映射以模型表示。
模型的形式:条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)或决策函数 Y = f ( X ) Y=f(X) Y=f(X);
假设空间(Hypothesis Space):所有这些可能模型的集合。
对具体的输入进行相应的输出预测时,表达为
P
(
y
∣
x
)
P(y|x)
P(y∣x)或
y
=
f
(
x
)
y=f(x)
y=f(x)
输入输出是成对出现,
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi)是一个样本,通过训练集学习训练出一个模型来,这个模型既可以表达成条件概率分布的形式,也可以表达成决策函数的形式。符号加小帽子
p
^
\hat{p}
p^这种就代表着我们这个模型是通过学习而得到的。
y
N
+
1
=
arg
max
y
P
^
(
y
∣
x
N
+
1
)
y_{N+1}=\arg \max _{y} \hat{P}\left(y \mid x_{N+1}\right)
yN+1=argmaxyP^(y∣xN+1)是指取条件概率最大的那个结果,arg是取什么什么值。
2.2 无监督学习
通过聚类方法将其分为两个簇,上面一簇下面一簇(如上图),这就是无监督学习。
无监督学习(Unsupervised Learning)是指从无标注数据中学习预测模型的机器学习问题。其本质是学习数据中的统计规律或潜在结构。
几个符号的概念:
- 输入空间: X \mathcal{X} X.
- 隐式结构空间(隐含在数据内部的信息): Z \mathcal{Z} Z.
- 模型:函数 z = g ( x ) z=g(x) z=g(x),条件概率分布 P ( z ∣ x ) P(z|x) P(z∣x)或条件概率分布 P ( x ∣ z ) P(x|z) P(x∣z).
- 假设空间(Hypothesis Space):所有这些可能模型的集合。
- 目的:选出在给定评价标准下的最优模型。
- 样本容量为
N
N
N的训练集:
U = { x 1 , x 2 , ⋯ , x N } U=\{x_1,x_2,\cdots,x_N\} U={x1,x2,⋯,xN}
无监督学习的流程图为:
就是没了训练过程,其余和监督学习的符号意义差不多。
2.3 强化学习
就是智能系统和环境的互动。