(六)分类运算

当从原始数据开始,经过很多步骤,算出了相似性系数矩阵的准备工作

完成后,就要开始着手聚类运算。聚类策略是整个分类分析的核心内容,选用策略不同,结果也将不同。现将按距离系数以最短距离聚类的运算过程简述于下。

按距离系数聚类是一种聚合的分类方法,运算过程大致如下:先将每一个分类单位看做一个 OTU,运算最初,求出 OTU 之间的相似性距离系数矩阵, 也就是分类单位的距离系数矩阵。从类群的相似性距离矩阵中找到距离最小的 1 对类群,将这两个类群合并得到 1 个新的类群。然后计算新类群与其余

所有类群之间的距离系数,并以此新类群代替被合并的 1 对类群,得到新的类群之间的距离系数矩阵,这样便完成了一次循环运算。接着进行下一次循环运算,从上次运算得到的距离系数矩阵中找到距离最近的两个类群,将这1 对类群合并,再计算新的距离系数,得到新的距离系数矩阵⋯⋯。一再重

复执行这样的循环运算过程,运算过程与前面完全相同,每循环一次,有 1

个类群被归并,获得的系数矩阵也减少 1 个,直到所有的分类单位都归属于

1 个类群为止,整个分类运算结束。

最后,将分类运算结果以树系图或其他图形表示。

聚类策略有多种,为了设计方便,现已总结为 1 个统一的公式:

D2 = α D 2 + α D 2 + βD 2 + v D 2 − D 2

ir p ip q iq pq ip iq

其中 Dip、Diq 和 Dpq 表示聚合前类群之间的距离;Dir 表示聚合后的距离; αp、αq、β和 v 是待定参数(表 9-1)。p 和 q 两个类群合并以后,需要计算新类群的距离系数 Dir,不同的 1 组参数给出不同的计算公式,由此获得不同的分类方法。现已有 8 种方法总结在这个公式中,见表 9-1。

表 9-1 距离系数系统分类法参数表

方法名称

参 数

αp

αq

β

v

最短距离法 单联法

1

1

0

− 1

2

2

2

最长距离法 全联法

1

1

0

1

2

2

2

WPGMA法(β = 0)

中间距离法 − 1

中线法( β = 4 )

1

2

1

2

− 1

≤ β ≤ 0

4

0

离差平方和法

n + n

i p

n + n

i r

n + n

i q

n + n

i r

  • n

i

n + n

i r

0

重心法

n

p

n

r

n

q

n

r

  • n n

p q

n 2 r

0

类平均法 UPGMA 法

n

p

n

r

n

q

n

r

0

0

可变类平均法

(1 − β) n

p

n

r

(1 − β) n

q

n

r

β<1

0

可变法

1 − β

1 − β

β<1

0

2

2

表中 ni、nr、np 和 nq 分别表示类群 Gi、Gr、Gp 和 Gq 中的分类单位个数。Gp 与 Gq 合并以后得新类群 Gr,因此 nr=np+nq。

上述总结的意义在于使许多不同的分类方法可以编在同一个电子计算机程序中,为分类运算工作提供很多方便。

现以桔梗科中 6 种植物(见表 9-2)的数值分类为例,介绍如下:

性状选取与编码 分类选用了 8 个性状。(1) 茎是否缠绕(缠绕为 1, 直立为 0);(2) 株高(1 米以上者为 1,不到 1 米者为 0);(3) 叶的着生方式(互生为 0,对生为 1,轮生为 2);(4) 叶缘(全缘或疏波齿为 0,锯齿为 1,重锯齿为 2);(5) 花序(单生或数个顶生为 0,总状花序或疏圆锥花序为 1);(6) 子房室数(3 室为 0,4 室为 1,5 室为 2);(7) 果实开裂方式(侧壁开裂为 0,顶部 5 瓣裂为 1,室背开裂为 2);8.种子有翼否(无翼为 0,有翼为 1)。特性编码数据见表 9-2。

表 9-2 原始数据

种 名

性 状
1 2 3 4 5 6 7 8

1

Codonpsis lanceolata

( Sieb.et Zucc. )

Trautv.羊乳

C.pilosula ( Franch.) Nannf. 党 参 Platycodon grandiflorus

( Jacq.) A.DC.桔梗Adenophora pereskiifolia ( Fisch.ex Roem. et Schult. ) G.Don 长白沙参A.trachelioides Maxim. 荠苨

A.polyantha Nakai 石沙参

平均值

标准差

1 1 1 0 0 1 2 1

2

1 1 1 0 0 1 2 0

3

0 0 0 1 0 2 1 0

4

5

0 0 0 2 1 0 0 0

6

0 0 0 1 2 0 0 0

0.333

0.516

0.333

0.516

0.667

0.816

0.833

0.753

0.833

0.983

0.667

0.816

0.833

0.933

0.167

0.403

演算的第一步将原始数据标准化。因此,先计算每个特性的平均值和标准差。若某一特性的 6 个数据值是 yi(i=1、2、⋯6),则

平均值

y = 1 ( y + y + + y ),

6 1 2 6

1 1

标准差

s = [ 6 − 1[(y1 − y) + (y − y) + + (y − y) ]] 2 。

2 2 2

再连同原始数据一起代入标准化变换公式:

x = yi − y

i s

(i = 1、2、

(六)分类运算 - 图1对每个特性都进行上面的运算,得标准化数值矩阵:

第二步计算相似性系数。如果采用平均欧氏距离,第 i 和第 j 两个种之间的距离系数计算如下:

1 1 i = 1、2、 6

D = [( x − x ) 2 + + (x − x ) 2 ]2 [ ],

ij 6 i1 j1

i8 j8

j = 1、2、 6

其中 xik 和 xjk(k=1、2、⋯⋯8)分别表示性状 k 对于第 i 和第 j 个种的标准化数据。将 6 个种每 1 对距离系数计算出来得到距离矩阵 M(0)(见表 9-3)。

第三步进行分类运算。分类运算的循环过程见表 9-3。执行第一次循环时先从 M(0)中找出最小值,D56=0.592,表明种 5 和种 6 相似性距离最近,

应先将它们合并成 1 个新类群。新类群的距离系数需要重新计算,从表 9-1

给出了 8 种不同的计算公式,不同的计算方法得出不同的分类结果。

表 9-3 分类运算过程

1 2 3 4 5 6

1

0

2

0.866 0

3

1.553 1.289

0

4

1.821 1.602

1.465

0

M(0)

5

1.895 1.686

1.109

1.049

0

6

1.821 1.602

1.182

0.866

0.592

0

1 2

3 4 7

1

0

0.866 0

1.553 1.289

1.821 1.602

1.821 1.602

8 3

0

1.465

1.109

4

0

0.866

7

0

M(1)

D = 0.592

56

G = G + G

7 5 6

2

3

4

7

8

0

1.289 0

1.602 1.465

1.602 1.109

8 3

0

0.866

9

0

M(2)

D = 0.866

12

G = G + G

8 1 2

<3

<4

7

8

0

1.289 0

1.602 1.109

8 10

0

M(3)

D = 0.866

74

G = G + G

9 7 4

3

9

8

0

1.289 0

M(4)

D = 1.109

93

G = G + G

10 9 3

10

在此例采用最容易计算的最短距离法,将数值代入公式,实际上是取最小值运算。例如:

D71=Min{D51,D61}

=Min{1.895,1.821}

=1.821

计算结果后得新的矩阵 M(1) 。

再对矩阵 M(1) M(2) 、⋯⋯依次施行前面的运算,每循环一次 1 个类群被归并,矩阵减小 1 阶,直到将所有的种都归并成 1 个类群为止。

最后将分类结果画成树系图(图 9-2)。树系图不仅形象地显示出被分类单位之间的隶属关系,而且还定量地表示类群之间的结合水平。例如种 5

和种 6 在 0.592 的距离水平上相互结合。

如果将表 9-1 所提供的 8 种方法都算出来,就可以得到 8 种结果,绘出相应的树系图。从运算所得结果表明,其中以 UPGMA 法和 WPGMA 法两个分类结果优于其他的结果,其树系图见 9-3 和图 9-4。

这两个树系图差异甚微。从图中清楚地看到党参与羊乳有较密切的关系,它们同属于党参属(Codonopsis),长白沙参,荠苨和石沙参 3 个种比较接近,它们同属于沙参属(Adenophora)。图中虚线表示区别属的截线。桔梗则属于另一属,桔梗属(Platycodon),该属与沙参属比较接近。定量分类的结果与传统分类非常吻合。它说明这个演算的例子尽管特性的选取和编码都十分简单,定量分类的方法仍然保持较高的可靠性。