三、变异指标

描述变量值分布的离散趋势用变异指标。变异指标反映一群变量值的变异程度或离散程度。常用的变异指标有全距、标准差(standard deviation)、四分位数间距(interquar-tile)和变异系数(coefficient of variation), 其中最常用的变异指标是标准差。不同变异指标的用途不同。全距对变量值的各种分布类型资料都适用;标准差和均数配套,变异系数作为辅助变异指标,适用于对称分布资料,特别是正态分布资料;四分位数间距和中位数配套,一般用于不对称的偏态分布资料。

变异指标和平均指标是彼此独立的。一群变量值的变异指标值越大,说明该群变量值的变异程度或离散程度越大,这是和平均指标值的大小无关的。平均指标和变异指标相结合,就可对一群变量值,特别是正态分布资料的一群变量值,作很好的描述。

  1. 全距 全距表示一群变量值的最大值与最小值之差,用 R 表示。全距反映样本变量值的变异范围,简单明了,各种分布类型的资料都可采用。但不

足之处是全距只考虑了最大值与最小值的差别,而未考虑其他变量值的差别。例如设甲组变量值为 16,19,20,21,24;乙组变量值为 16,17,20, 23,24。甲组和乙组的全距都为 24-16=8。但甲组其他 3 个变量值 19,20,

21 比乙组其他 3 个变量值 17,20,23 的差别小,也就是说全距不能准确反

映样本所有变量值的变异程度。另外,最大值和最小值是样本的 2 个极端值, 随样本不同而变化大。故全距只能作为参考变异指标,不能作为主要变异指标。由于全距的意义明显,可只表示为极小值~极大值,如表 7-1 资料的全距表示为 3.79~5.88。

  1. 标准差 标准差考虑了一群变量值中所有变量值的差别,用于对称分布资料,特别是正态分布资料,是最为恰当的。总体标准差用σ表示,样本标准差用 s 表示。

设为有限总体,变量值的个数为 N,总体均数为μ,则总体标准差的定义公式为

σ = (7·9)

三、变异指标 - 图1总体均数μ一般是未知的,若用变量值个数为 n 的样本均数 估计,则样本标准差的定义公式为

s = (7·10)

三、变异指标 - 图2三、变异指标 - 图3为什么(7·10)式的分母用 n-1 而不用 n?这是因为据数理统计理论, 若用 n,则样本标准差 s 平均说来是总体标准差σ的偏低估计;而用 n-1,则s 能很好的估计σ。据此引入了统计中的常用术语——自由度(degree of freedom),用γ表示。现γ=n-1,可以这样理解:∑(X- )2 是 n 个变量值的离均差平方和,由于 又是通过 n 个 X 值求出来的,于是受了 1 个条件限制,只有 n—1 个离均差平方是独立的。一般说来,变量值若求离均差平方和,则自由度等于离均差平方的个数减去限制条件个数。

标准差的单位是原变量的单位。标准差的平方σ 2 和 s2 叫做方差

(variance),其单位是原变量单位的平方。也可用方差代替标准差作变异指标。

  1. 直接法:由样本 n 个变量值 X1,X2,⋯⋯,Xn 求标准差 s 的公式为

s =

(7·11)式和(7·10)式是等价的。

例 7·9 求例 7·2 中 10 名 7 岁男孩体重的标准差。

17.3+18.0+⋯+25.5=213.5

17.32+18.02+⋯+25.52=4619.43

(7·11)

s = = 2.6( kg)

该地 10 名 7 岁男孩体重的标准差为 2.6kg。

  1. 加权法:当相同变量值的个数较多时,和加权法计算均数的(7·2)

    式配套,加权法计算标准差的公式为

s =

例 7·10

(7·12)

求例 7·1 中的 130 名正常成年男子红细胞数的标准差。在例

7·3 中的表 7-3 已算得∑fX=623.20,∑fX2=3009.12,故

s = = 0.409(1012 / L)

该地区 130 名正常成年男子的红细胞数的标准差为 0.409×1012/L。

  1. 四分位数间距 四分位数为特定的百分位数,用 Q 表示。下四分位数QL=P25,上四分位数 QU=P75,四分位数间距即 QU-QL。全部变量值比 QL 小有 1/4的变量值,比 QU 大有 1/4 的变量值。四分位数间距内包含全部变量值的 1/2, 可看作中间 1/2 变量值的全距。四分位数间距越大,变量值的变异程度或离散程度越大。也可用其他百分位数间距和中位数配套作变异指标,如 P80- P20,P90-P10,P95-P5 等。但四分位数间距较为常用,因为越靠近两端的百分位数越不稳定。

例 7·11 求例 7·8 中 238 名正常人发汞值的四分位数间距。在例 7·8 中已算得 P25=0.94μg/g,P75=1.77μg/g,故

QU-QL=1.77-0.94=0.83(μg/g)

238 名正常人发汞值的四分位数间距为 0.83μg/g。

现说明求几何均数的一群变量值,如何描述其变异程度或离散程度。若X 服从对数正态分布,则 Y=lgX 服从正态分布,把样本的 n 个 X 值转换成 n 个Y值,求n个Y值的均数Y和标准差s ,则中位数M = lg -1Y,可用lg-1

(Y − s )~lg−1 (Y + s )描述变异程度或离散程度 ο

描述变异程度或离散程度。

  1. 变异系数 对于对称分布资料,特别是正态分布资料,标准差反映变量值的绝对变异程度。当两组或多组变量值的单位不同或均数相差较大时,不能或不宜用两个或多个标准差的大小来比较其变异程度的大小,为此引入反映变量值的相对变异程度的变异系数,样本变异系数 CV 的公式为

CV = s

X

×100%

(7· 13)

例 7·12 某地 20 岁男子 160 人,身高均数为 166.06cm,标准差为 4.95cm;体重均数为 53.72kg,标准差为 4.96kg。比较身高与体重的变异程度。

身高CV = 4.95

166.06

体重 CV = 4.96

53.72

×100% = 2.98%

×100% = 9.23%

20 岁男子体重的变异程度比身高的变异程度大。

例 7·13 某地不同年龄女童的身高资料如表 7-6 的第(1)、(2)、(3)、(4)栏,比较不同年龄身高的变异程度。

表 7-6 某地不同年龄女童身高( cm )的变异程度

年龄组

人数

均数

标准差

变异系数(%)

(1)

(2)

(3)

(4)

(5)=(4)/ (3)

1 ~ 2 月

100

56.3

2.1

3.7

5 ~ 6 月

120

66.5

2.2

3.3

3 ~ 3.5 岁

300

96.1

3.1

3.2

5 ~ 5.5 岁

400

107.8

3.3

3.1

由表 7-6 第(5)栏算得的变异系数可见,1 月至 5.5 岁女童随年龄增加身高的变异程度减小。