(五)相似性概念的数量化
ij j
数值分类学中需要引进比亲缘关系更广泛的概念即相似性的概念。相似性程度用数值来表示称为相似性系数。相似性系数的出现是生物分类朝定量方向发展的重要标志。相似性系数有距离系数、相关系数、联合系数、信息系数和模糊系数 5 个主要类型。现将应用较多的 2 种简述如下。
- 距离系数 在数值分类学中,距离系数应用较早。其优点是对于分类运算有较好的稳定性,而且也比较直观,所以直至今天仍被普遍采用。常用的距离系数计算公式有:
平均欧氏距离系数:
D = [1 ∑(x
1
− y ) 2 ] 2
Minkowski 距离系数:
ij t k =1
1 t
ik jk
1
Mij = [
∑(x
k =1
ik − x jk
) r ]r
(r > 0)
Canberra 距离系数:
t (xik − x jk )
Cij = ∑
k= 1
xik + x jk
( xij ≥ 0)
- 相关系数 相关系数来自统计数学中的相关系数。它在数值分类学中颇为重要。相关系数值的变化范围在-1—1 之间。用它来表示相似性程度, 其数值变化与距离系数有着相反的意义。相关系数值越大,相似性程度也越大,反之,值越小,相似性程度也越小。计算公式如下:
t
∑( xik − x i0 )(x jk − x j0 )
R = k=1
ij
[ (x
k= 1
ik − xi0
) 2 ∑(x
k =1
jk − x j0
1
) 2 ] 2
1 t
其中 xi0 = ∑xik
k =1
当 Rij=1 时,为完全正相关;当 Rij=0 时,两个分类单位的数据为不相关;当 Rij=-1 时,则为完全负相关。