二、平均指标
变量值分布的集中趋势和离散趋势这 2 个特征,可用相应的统计指标描述,成为数量特征或特征量。知道了变量值分布的各种特征量,对变量值分布就有了总的概括性的了解,而不必罗列所有变量值,这就是计算统计指标的意义。
描述变量值分布的集中趋势用平均指标,常称平均数(average)。平均数反映一群变量值的平均水平或集中位置,是统计中最重要和应用最广泛的统计指标。对规定的同质个体构成的群体计算平均数才有意义,如分性别和分年龄计算儿童的平均身高有意义,而不分性别和不分年龄计算儿童的平均身高无意义。
常用的平均数有均数(mean)、几何均数(geometric mean)和中位数
(median),据变量值的不同分布类型选用不同的平均数。一般来说,对称分布资料选用均数;偏态分布资料选用几何均数和中位数。实际研究某个医学定量指标时,通常是先凭理论或经验(包括查文献)来判断该指标符合什么总体分布,至于用频数表和频数分布图来判断一个指标符合什么总体分布,需要大样本。
1.均数均数是算术平均数的简称,是最重要的平均数。均数最适用于对称分布资料,特别是正态分布资料。总体均数用μ表示,样本均数作 表示。
- 直接法:由样本 n 个变量值 X1,X2⋯,Xn 求均数 的公式为
n
X + X Λ +X
∑Xi
X = 1 2
n
n = i=1
n
(7·1)
式中Σ是求和的符号,n 是样本含量。本书在不会引起误解的情况下简写成
X = 1
n X
例 7·2 某地抽样得 10 名 7 岁男孩体重(kg)为 17.3,18.0,19.4,20.6, 21.2,21.8,22.5,23.2,24.0,25.5。求均数。
X = 17.3 + 18.0+Λ 25.5 = 213.5 = 21.4( kg)
10 10
该地 10 名 7 岁男孩的体重均数(或平均体重)为 21.4kg。
- 加权法:当相同变量值的个数较多时,可用加权法计算均数。如 n
个变量值已编制成频数表,则可用加权法计算均数。设分为 k 组,每组的频数为 fi,fi 个变量值的均数用其组中值 Xi=(本组段下限+下组段下限)/2 代替,则频数 fi 为 Xi 的权(weight),加权法计算均数的公式为
X = f1 x1 + f2 X2 +Λ +fk Xk
f1 + f2 +Λ +fk
= ∑ fX
n
(7·2)
例 7·3 求例 7·1 的 130 名正常成年男子红细胞数的均数。据表 7-2 得表 7-3,表中第(5)栏是为后面计算标准差用。
表 7 - 3 某地区 130 名正常成年男子红细胞数( 1012/L )
的均数和标准差的加权计算
红细胞数 |
组中值 X |
频数 f |
fX |
fX2 |
---|---|---|---|---|
(1) |
(2) |
(3) |
(4)=(2)(3) |
(5)=(2)(4) |
3.70 ~ |
3.80 |
2 |
7.60 |
28.88 |
3.90 ~ |
4.00 |
4 |
16.00 |
64.00 |
4.10 ~ |
4.20 |
9 |
37.80 |
158.76 |
4.30 ~ |
4.40 |
16 |
70.40 |
309.76 |
4.50 ~ |
4.60 |
22 |
101.20 |
465.52 |
4.70 ~ |
4.80 |
25 |
120.00 |
576.00 |
4.90 ~ |
5.00 |
21 |
105.00 |
525.00 |
5.10 ~ |
5.20 |
17 |
88.40 |
459.68 |
5.30 ~ |
5.40 |
9 |
48.60 |
262.44 |
5.50 ~ |
5.60 |
4 |
22.40 |
125.44 |
5.70 ~ |
5.80 |
1 |
5.80 |
33.64 |
5.90 |
||||
合计 |
— |
130 |
623.20 |
3009.12 |
X = 623.20 = 4.794(1012
130
/ H)
该地区 130 名正常成年男子红细胞数的均数为 4.794×1012/L。
要说明的是,对于偏态分布资料,均数虽不能较好地反映变量值的平均水平或集中位置,但据(7·1)式有 n =ΣX,均数可间接反映 n 个变量值的总体数量水平(∑x)。
- 几何均数几何均数用于下述情况的偏态分布资料:变量值的变化呈倍数关系,特别是当变量值取对数后服从正态分布,即对数正态分布资料。几何均数用 G 表示。
- 直接法:由样本 n 个变量值 X1,X2,⋯,Xn 求几何均数 G 的公式为
G =
或用对数计算
(7·3)
G = lg− 1 lg X1 + lg X 2 +Λ + lg Xn = lg−1 ∑f lg X
(7·4)
n n
例 7·4 设有 5 人的血清抗体效价为 1:10,1:100,1:1000,1:10000, 1:100000。求平均血清抗体效价。
以血清抗体效价的倒数作变量值,本例若求均数,则得 =22222,5 个变量值比 小的有 4 个,比 大的只有 1 个,因此 不能表示这 5 个变量值的平均水平或集中位置。本例应求几何均数。
G = 5 10 × 100 × 1000 × 10000 × 100000 = 1000
或G = lg−1 lg10 + lg100 + lg1000 + lg10000 + lg100000
5
= lg−1 3 = 1000
5 人的平均血清抗体效价为 1:1000。
- 加权法:当相同变量值的个数较多时,如对于频数表资料,则用加权法计算几何均数,公式为
−1 f1 lg X1 + f2 lg X 2 +Λ +fk lg Xk
−1 ∑f lg X
G = lg
f1 + f 2 +Λ +fk
= lg
n
(7·5)
例 7·5 某地 23 名儿童接种麻疹疫苗后血清血凝抑制抗体滴度的频数分布如表 7-4 的第(1)、(2)栏,求平均抗体滴度。
表 7-4 某地 23 名儿童接种麻疹疫苗后血清血凝抑
制抗体滴度的几何均数的加权计算
抗体滴度 |
频数 f |
滴度倒数 X |
lgX |
flgX |
---|---|---|---|---|
(1) |
(2) |
(3) |
(4) |
(5)=(2)(4) |
1 ∶ 2.5 |
3 |
2.5 |
0.3979 |
1.1937 |
l ∶ 5.0 |
4 |
5.0 |
0.6990 |
2.7960 |
1 ∶ 10.0 |
5 |
10.0 |
1.0000 |
5.0000 |
1 ∶ 20.0 |
5 |
20.0 |
1.3010 |
6.5050 |
1 ∶ 40.0 |
6 |
40.0 |
1.6021 |
9.6126 |
合计 |
23 |
— |
— |
25.1073 |
G = lg −1 25.1073 = lg−1 1.0916 = 12.35
23
该地 23 名儿童血清血凝抑制的平均抗体滴度为 1∶12.35。
- 中位数和百分位数 把 n 个变量值从小到大排列,位于中间位置的变量值称为中位数,用 M 表示。中位数只是一个特定的百分位数(percentile)。把 n 个变量值从小到大排列,和第 x 百分位次对应的变量值称为第 x 百分位数,用 Px 表示。全部变量值比 Px 小有 x%的变量值,比 Px 大有(100-x)% 的变量值。显然中位数 M 即第 50 百分位数 P50。关于中位数以外其他百分位数的用途见后述内容。
中位数一般用于不宜或不能用几何均数的偏态分布资料:如变量值分布规律不清楚、有少数的特小或特大值;又如变量值分布一端或两端无确定数值,只是小于或大于某个数值(求不出均数或几何均数)。另外当资料分布不明时,即判断不出资料是否服从正态分布或对数正态分布时,也只好用中位数。
中位数一定在变量值分布的中心位置。对于正态分布总体,均数等于中位数;对于对数正态分布总体,几何均数等于中位数。但对于正态分布资料和对数正态分布资料,若用样本中位数比用样本均数和样本几何均数会降低推断总体均数和总体几何均数的灵敏度。
- 用原始变量值直接计算中位数:把 n 个变量值从小到大排列后记为Xi,即有 X1≤X2≤⋯≤Xn,则中位数为
n为奇数 M = X n+1
2
(7·6)
n为偶数 M = 1
2
(X n + X
2
n +1 )
2
(7·7)
例 7·6 某病患者 5 人的潜伏期(天)从小到大排列为 2,3,6,8,20。求中位数。
M = X5+1 = X3 = 6(天)
2
5 人的平均潜伏期为 6 天。
例 7·7 某病患者 8 人的潜伏期(天)从小到大排列为 5,6,8,9,11, 11,13,>16。求平均潜伏期。
M = 1 (X + X ) = 1 (X + X ) = 1 (9 + 11)10(天)
8 8 4 5
2 2 +1 2 2
8 人的平均潜伏期为 10 天。
- 用频数表计算中位数和百分位数:条件是样本含量(n)大。按所分组段,由小到大计算累计频数和累计频率。先从累计频率找出 Px 所在组段, 然后按下述公式计算中位数 M(P50)和其他百分位数 Px:
P = L + i (nx% - ∑f
) (7· 8)
L
x
式中 fx 为 Px 所在组段的频数,i 为该组段的组距,L 为其下限,∑fL 为小于 L 的各组段累计频数。
例 7·8 238 名正常人的发汞值如表 7-5 的第(1)、(2)栏,求中位数和百
分位数 P25、P75。
表 7-5 238 名正常人发汞值(μ g/g )的
中位数和百分位数的频数表计算
发汞值 |
频数 |
累计频数 |
累计频率 |
---|---|---|---|
(%)(1) |
(2) |
(3) |
(4)=(3)\238 |
0.3 ~ |
20 |
20 |
8.4 |
0.7 ~ |
66 |
86 |
36.1 |
1.1 ~ |
60 |
146 |
61.3 |
1.5 ~ |
48 |
194 |
81.5 |
1.9 ~ |
18 |
212 |
89.1 |
2.3 ~ |
16 |
228 |
95.8 |
2.7 ~ |
6 |
234 |
98.3 |
3.1 ~ |
1 |
235 |
98.7 |
3.5 ~ |
0 |
235 |
98.7 |
3.9 ~ 4.3 |
3 |
238 |
100.0 |
由表 7-5 的第(4)、(1)栏可见,M(P50)在 1.1~组段。现 L=1.1,i=0.4, fx=60,∑fL=86,代入(7·8)式得
M = 1.l + 0.4 (238×50% - 86) = 1.32(μg / g) 60
同样可得
P = 0.7 + 0.4 (238×25% - 20) = 0.94(μg / g)
25 66
P = 1.5 + 0.4 (238×75% - 146) = 1.77(μg / g)
75 48
238 名正常人发汞值的中位数为 1.32μg/g,P25 和 P75 为 0.94μg/g 和1.77μg/g。