(四)原始数据的变换和标准化

经过编码所获得的原始数据如果全部是二元数据,并无特殊需要,可以直接进行相似性系数的运算;如果数据是一般的实数,就必须先进行数据的变换和标准化,然后才能进行相似性系数的运算。在生物分类中从各方面观察记录的性状数据为多种多样,有来自形态解剖的,生理、生化的、细胞学的、生态学的等等。来源各不相同,数据本身所代表的意义也不同,度量标准亦异。数据的复杂性最后反映在数值的大小和变化的幅度,因不同的性状而各不相同。性状之间的这种差异便影响分类运算的结果。因此,在进行运算之前需要先进行变换或标准化处理。

  1. 数据的变换 对原始性状数据进行变换的方法,就是将需要变换的数据代入一个事先拟好的函数中进行计算,得出一组新的数值代替原来的性状数据。如果原始数据为 xi,变换后的数据为 x'i,则数据变换可用下式表示:

x 变换函数→ x'

下面是几种简单的数据变换:

  1. 减去某一常数:x'i=xi-c

  2. 乘以非零常数 c:x'i=xi·c

  3. m次幂乘方,变换函数是:x' = x m

  1. 数据的标准化 目前在分类运算中,有一种数据变换已成为常规手段,叫作数据标准化。原始数据进行这种变换的运算过程,称为原始数据的标准化。尤其在主成分分析和许多相似性系数的运算中,原始数据的标准化已成为必不可少的步骤。

(四)原始数据的变换和标准化 - 图1如果有 t 个分类单位,n 个性状,经过编码以后的原始性状状态数据, 可用如下矩阵表示:

原始数据进行标准化处理公式如下:

yij − y j

x =

式中 i = 1、2、 ,t个分类单位

ij

j

j = 1、2、 ,n个性状。

yij 表示原始矩阵中第 i 个分类单位,第 j 个性状的数值。标准化交换

后,相应的数值记作xij。y j和sj 分别表示第j个性状的平均值和标准差。

1 t

y = ∑yij ;

j= 1

s = [ 1 ∑( y

1

− y )2 ] 2

t − 1 i=1