一、模糊聚类分析的核心思想
在实际工程技术和经济管理问题中,我们常常需要对对象进行分类。例如,根据生物特征对物种分类、根据气候特征对城市分类、根据用户行为对客户群体分类等。传统的聚类分析基于清晰的分类边界,但现实中许多分类问题具有模糊性——类与类之间的界限并不分明。例如,"青年"与"中年"的年龄界限、空气质量等级的划分等。
模糊聚类分析正是为了解决这类模糊分类问题而提出的方法。它通过建立模糊关系矩阵,结合模糊数学理论,将对象的相似性转化为数值化的隶属度,从而实现对模糊类别的动态划分。
二、模糊等价矩阵:分类的数学基础
2.1 模糊等价矩阵的定义
设 R = ( r i j ) n × n R = (r_{ij})_{n \times n} R=(rij)n×n 是一个 n n n 阶模糊矩阵,若满足以下三个条件:
- 自反性: r i i = 1 r_{ii} = 1 rii=1(对角线元素全为1);
- 对称性: r i j = r j i r_{ij} = r_{ji} rij=rji(矩阵对称);
- 传递性: R ∘ R ⊆ R R \circ R \subseteq R R∘R⊆R(即 R 2 ≤ R R^2 \leq R R2≤R);
则称 R R R 为模糊等价矩阵。
传递性的直观解释
传递性保证了若 x i x_i xi 与 x j x_j xj 相似, x j x_j xj 与 x k x_k xk 相似,则 x i x_i xi 与 x k x_k xk 必须具有一定程度的相似性。数学上通过模糊矩阵的合成运算来验证:
R 2 = R ∘ R , 其中 c i j = max 1 ≤ k ≤ n { r i k ∧ r k j } R^2 = R \circ R, \quad \text{其中} \quad c_{ij} = \max_{1 \leq k \leq n} \{ r_{ik} \land r_{kj} \} R2=R∘R,其中cij=1≤k≤nmax{rik∧rkj}
若 R 2 ≤ R R^2 \leq R R2≤R(即所有元素满足 c i j ≤ r i j c_{ij} \leq r_{ij} cij≤rij),则 R R R 满足传递性。
2.2 模糊等价矩阵的性质
定理:若 R R R 是模糊等价矩阵,则对任意 λ ∈ [ 0 , 1 ] \lambda \in [0,1] λ∈[0,1],其 λ \lambda λ-截矩阵 R λ R_\lambda Rλ 是经典等价矩阵(布尔矩阵)。
λ \lambda λ-截矩阵的定义
对模糊矩阵 R R R,给定阈值 λ \lambda λ,构造布尔矩阵 R λ R_\lambda Rλ:
a i j ( λ ) = { 1 , r i j ≥ λ 0 , r i j < λ a_{ij}^{(\lambda)} = \begin{cases} 1, & r_{ij} \geq \lambda \\ 0, & r_{ij} < \lambda \end{cases} aij(λ)={1,0,rij≥λrij<λ
动态分类特性
当 λ \lambda λ 从 1 逐渐降低到 0 时, R λ R_\lambda Rλ 的分类结果从最细(每个对象单独一类)逐步合并为最粗(所有对象归为一类)。这种动态变化过程可以通过聚类图直观展示。
2.3 示例:模糊等价矩阵的聚类过程
例1:设论域 X = { x 1 , x 2 , x 3 , x 4 , x 5 } X = \{x_1, x_2, x_3, x_4, x_5\} X={x1,x2,x3,x4,x5},模糊等价矩阵为:
R = ( 1 0.4 0.8 0.5 0.5 0.4 1 0.4 0.4 0.4 0.8 0.4 1 0.5 0.5 0.5 0.4 0.5 1 0.6 0.5 0.4 0.5 0.6 1 ) R = \begin{pmatrix} 1 & 0.4 & 0.8 & 0.5 & 0.5 \\ 0.4 & 1 & 0.4 & 0.4 & 0.4 \\ 0.8 & 0.4 & 1 & 0.5 & 0.5 \\ 0.5 & 0.4 & 0.5 & 1 & 0.6 \\ 0.5 & 0.4 & 0.5 & 0.6 & 1 \end{pmatrix} R= 10.40.80.50.50.410.40.40.40.80.410.50.50.50.40.510.60.50.40.50.61
不同 λ \lambda λ 值的分类结果:
- λ = 1 \lambda = 1 λ=1: { x 1 } , { x 2 } , { x 3 } , { x 4 } , { x 5 } \{x_1\}, \{x_2\}, \{x_3\}, \{x_4\}, \{x_5\} {x1},{x2},{x3},{x4},{x5}
- λ = 0.8 \lambda = 0.8 λ=0.8: { x 1 , x 3 } , { x 2 } , { x 4 } , { x 5 } \{x_1, x_3\}, \{x_2\}, \{x_4\}, \{x_5\} {x1,x3},{x2},{x4},{x5}
- λ = 0.6 \lambda = 0.6 λ=0.6: { x 1 , x 3 } , { x 2 } , { x 4 , x 5 } \{x_1, x_3\}, \{x_2\}, \{x_4, x_5\} {x1,x3},{x2},{x4,x5}
- λ = 0.5 \lambda = 0.5 λ=0.5: { x 1 , x 3 , x 4 , x 5 } , { x 2 } \{x_1, x_3, x_4, x_5\}, \{x_2\} {x1,x3,x4,x5},{x2}
- λ = 0.4 \lambda = 0.4 λ=0.4: { x 1 , x 2 , x 3 , x 4 , x 5 } \{x_1, x_2, x_3, x_4, x_5\} {x1,x2,x3,x4,x5}
通过调整 λ \lambda λ,我们可以观察到类别的动态合并过程。
三、模糊相似矩阵:从相似性到等价性
3.1 模糊相似矩阵的定义
在实际问题中,直接构造模糊等价矩阵较为困难。更常见的是先构造模糊相似矩阵,再通过计算其传递闭包得到模糊等价矩阵。
设 R = ( r i j ) n × n R = (r_{ij})_{n \times n} R=(rij)n×n 是模糊矩阵,若满足:
- 自反性: r i i = 1 r_{ii} = 1 rii=1;
- 对称性: r i j = r j i r_{ij} = r_{ji} rij=rji;
则称 R R R 为模糊相似矩阵。
3.2 传递闭包的计算方法
定理:对任意模糊相似矩阵 R R R,存在最小自然数 k k k,使得 R k R^k Rk 是模糊等价矩阵,称为 R R R 的传递闭包,记为 t ( R ) t(R) t(R)。
平方法计算传递闭包
通过迭代计算 R 2 , R 4 , R 8 , … R^2, R^4, R^8, \dots R2,R4,R8,… 直到 R 2 k = R 2 k + 1 R^{2^k} = R^{2^{k+1}} R2k=R2k+1,此时 t ( R ) = R 2 k t(R) = R^{2^k} t(R)=R2k。
步骤:
- 计算 R 2 = R ∘ R R^2 = R \circ R R2=R∘R;
- 若 R 2 ≠ R R^2 \neq R R2=R,计算 R 4 = R 2 ∘ R 2 R^4 = R^2 \circ R^2 R4=R2∘R2;
- 重复直到 R 2 k = R 2 k + 1 R^{2^k} = R^{2^{k+1}} R2k=R2k+1。
3.3 示例:传递闭包的计算
例2:设模糊相似矩阵为:
R = ( 1 0.1 0.2 0.1 1 0.3 0.2 0.3 1 ) R = \begin{pmatrix} 1 & 0.1 & 0.2 \\ 0.1 & 1 & 0.3 \\ 0.2 & 0.3 & 1 \end{pmatrix} R= 10.10.20.110.30.20.31
计算过程:
- 计算
R
2
R^2
R2:
R 2 = R ∘ R = ( 1 0.2 0.2 0.2 1 0.3 0.2 0.3 1 ) R^2 = R \circ R = \begin{pmatrix} 1 & 0.2 & 0.2 \\ 0.2 & 1 & 0.3 \\ 0.2 & 0.3 & 1 \end{pmatrix} R2=R∘R= 10.20.20.210.30.20.31 - 计算 R 4 = R 2 ∘ R 2 R^4 = R^2 \circ R^2 R4=R2∘R2,发现 R 4 = R 2 R^4 = R^2 R4=R2,因此 t ( R ) = R 2 t(R) = R^2 t(R)=R2。
验证
t
(
R
)
t(R)
t(R) 满足传递性:
t
(
R
)
∘
t
(
R
)
=
t
(
R
)
t(R) \circ t(R) = t(R)
t(R)∘t(R)=t(R)
四、模糊聚类分析的一般步骤
4.1 数据标准化
原始数据可能存在量纲差异,需进行标准化处理。常用方法:
- 平移-标准差变换:
x i j ′ = x i j − x ˉ j s j , x ˉ j = 1 n ∑ i = 1 n x i j , s j = 1 n − 1 ∑ i = 1 n ( x i j − x ˉ j ) 2 x_{ij}' = \frac{x_{ij} - \bar{x}_j}{s_j}, \quad \bar{x}_j = \frac{1}{n}\sum_{i=1}^n x_{ij}, \quad s_j = \sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_{ij}-\bar{x}_j)^2} xij′=sjxij−xˉj,xˉj=n1i=1∑nxij,sj=n−11i=1∑n(xij−xˉj)2 - 平移-极差变换:
x i j ′ = x i j − min x j max x j − min x j x_{ij}' = \frac{x_{ij} - \min x_j}{\max x_j - \min x_j} xij′=maxxj−minxjxij−minxj
4.2 构建模糊相似矩阵
常用相似系数计算方法:
- 数量积法:
r i j = { 1 , i = j 1 M ∑ k = 1 m x i k ⋅ x j k , i ≠ j r_{ij} = \begin{cases} 1, & i = j \\ \frac{1}{M} \sum_{k=1}^m x_{ik} \cdot x_{jk}, & i \neq j \end{cases} rij={1,M1∑k=1mxik⋅xjk,i=ji=j - 夹角余弦法:
r i j = ∣ ∑ k = 1 m x i k x j k ∣ ∑ k = 1 m x i k 2 ∑ k = 1 m x j k 2 r_{ij} = \frac{\left| \sum_{k=1}^m x_{ik}x_{jk} \right|}{\sqrt{\sum_{k=1}^m x_{ik}^2} \sqrt{\sum_{k=1}^m x_{jk}^2}} rij=∑k=1mxik2∑k=1mxjk2∣∑k=1mxikxjk∣ - 欧氏距离法:
r i j = 1 − ∑ k = 1 m ( x i k − x j k ) 2 max 距离 r_{ij} = 1 - \frac{\sqrt{\sum_{k=1}^m (x_{ik} - x_{jk})^2}}{\max \text{距离}} rij=1−max距离∑k=1m(xik−xjk)2
4.3 动态聚类过程
- 计算传递闭包 t ( R ) t(R) t(R);
- 从高到低选取 λ \lambda λ 值,生成 λ \lambda λ-截矩阵;
- 根据 R λ R_\lambda Rλ 的分类结果绘制动态聚类图。
五、总结
模糊聚类分析通过模糊等价矩阵和动态阈值 λ \lambda λ,实现了对模糊性数据的灵活分类。其核心步骤包括:
- 数据标准化;
- 构建模糊相似矩阵;
- 计算传递闭包;
- 动态聚类分析。
该方法在图像识别、市场细分、环境监测等领域有广泛应用。理解模糊等价矩阵的性质和传递闭包的计算方法,是掌握模糊聚类分析的关键。