(五)相似性概念的数量化

ij j

数值分类学中需要引进比亲缘关系更广泛的概念即相似性的概念。相似性程度用数值来表示称为相似性系数。相似性系数的出现是生物分类朝定量方向发展的重要标志。相似性系数有距离系数、相关系数、联合系数、信息系数和模糊系数 5 个主要类型。现将应用较多的 2 种简述如下。

  1. 距离系数 在数值分类学中,距离系数应用较早。其优点是对于分类运算有较好的稳定性,而且也比较直观,所以直至今天仍被普遍采用。常用的距离系数计算公式有:

平均欧氏距离系数:

D = [1 ∑(x

1

− y ) 2 ] 2

Minkowski 距离系数:

ij t k =1

1 t

ik jk

1

Mij = [

∑(x

k =1

ik − x jk

) r ]r

(r > 0)

Canberra 距离系数:

t (xik − x jk )

Cij = ∑

k= 1

xik + x jk

( xij ≥ 0)

  1. 相关系数 相关系数来自统计数学中的相关系数。它在数值分类学中颇为重要。相关系数值的变化范围在-1—1 之间。用它来表示相似性程度, 其数值变化与距离系数有着相反的意义。相关系数值越大,相似性程度也越大,反之,值越小,相似性程度也越小。计算公式如下:

t

∑( xik − x i0 )(x jk − x j0 )

R = k=1

ij

[ (x

k= 1

ik − xi0

) 2 ∑(x

k =1

jk − x j0

1

) 2 ] 2

1 t

其中 xi0 = ∑xik

k =1

当 Rij=1 时,为完全正相关;当 Rij=0 时,两个分类单位的数据为不相关;当 Rij=-1 时,则为完全负相关。