目录
- 第 8 周 13、 聚类(Clustering)
- 13.3 优化目标
- 13.4 随机初始化
第 8 周 13、 聚类(Clustering)
13.3 优化目标
K-均值最小化问题,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此 K-均值的代价函数(又称畸变函数 Distortion function)为:
J
(
c
(
1
)
,
.
.
.
,
c
(
m
)
,
u
1
,
.
.
.
,
u
k
)
=
1
m
∑
i
=
1
m
∣
∣
X
(
i
)
−
u
c
(
i
)
∣
∣
2
J(c^{(1)},...,c^{(m)},u_1,...,u_k) =\frac{1}{m}\sum_{i=1}^m{||X^{(i)} - u_c^{(i)}||^2}
J(c(1),...,c(m),u1,...,uk)=m1i=1∑m∣∣X(i)−uc(i)∣∣2
其中
u
c
(
i
)
u_c^{(i)}
uc(i)代表与
x
(
i
)
x^{(i)}
x(i)最近的聚类中心点。 我们的的优化目标便是找出使得代价函数最小的
c
(
1
)
,
c
(
2
)
,
.
.
.
,
c
(
m
)
c^{(1)},c^{(2)},...,c^{(m)}
c(1),c(2),...,c(m)和
u
1
,
u
2
,
.
.
.
,
u
k
u_1,u_2,...,u_k
u1,u2,...,uk:
回顾刚才给出的: K-均值迭代算法,我们知道,第一个循环是用于减小
c
(
i
)
c^{(i)}
c(i)引起的代价,而第二个循环则是用于减小
u
i
u_i
ui引起的代价。迭代的过程一定会是每一次迭代都在减小代价函数,不然便是出现了错误。
13.4 随机初始化
在运行 K-均值算法的之前,我们首先要随机初始化所有的聚类中心点,下面介绍怎样做:
- 我们应该选择𝐾 < 𝑚,即聚类中心点的个数要小于所有训练集实例的数量
- 随机选择𝐾个训练实例,然后令𝐾个聚类中心分别与这𝐾个训练实例相等
K-均值的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情况。
为了解决这个问题,我们通常需要多次运行 K-均值算法,每一次都重新进行随机初始化,最后再比较多次运行 K-均值的结果,选择代价函数最小的结果。这种方法在𝐾较小的时候(2–10)还是可行的,但是如果𝐾较大,这么做也可能不会有明显地改善。