二、总体率的区间估计

和由样本统计量推断总体均数一样,由样本统计量推断总体率(或总体构成比)有 2 个重要方面:区间估计和假设检验。先介绍总体率的区间估计。

设两类构成总体某类总体率为π,从中抽取含量 n 的样本,抽得某类个体数为 X,要由样本估计总体率π的 1-α可信区间。

算出样本率 p(X/n),当 nπ≥5 和 n(1-π)≥5 时,p 近似服从均数为π、标准差(即标准误)为σp 的正态分布,故标准正态变量为

u = p − π =

σp

p − π

(8·10)

当总体率π未知时,σp 用其估计值 sp 取代,则近似有

u = p − π =

sp

p − π

(8·11)

当总体率π未知时,正态近似条件 nπ≥5 和 n(1-π)≥5 用 np≥5 和n(1-p)≥5 取代,由于 np=X,因此即样本中的某类个体数 X≥5 和非某类个体数 n-X≥5。只要 p 不接近 0 或 1,n 较大即可达到此要求。在医学实际应用中,此条件一般容易满足,故总体率的区间估计常可用正态近似法。据

(8·11)式,总体率的 1-α可信区间为

p ± uasp

= p − ua sp ~p + uasp

(8·12)

ua 值见上章的表 7-8(也可见表 7-9 的ν=∝的 ta 值)。常用的是求总体率的 95%可信区间,双侧 u0.05=1.96,如要提高可信度,则求总体率的 99%可信区间,双侧 u0.01=2.58。样本率作为总体率的点估计处于可信区间中心。

例 8·4 求例 8·3 中某镇人群血清登革热血凝抑制抗体反应阳性率的 95%可信区间。

在 例 8·3 中 已 算 得 p=0.0881,sp=0.0156, 故 有 : 0.0881±1.96×0.0156=0.0575~0.1187=5.75%~11.87%

该镇人群血清登革热血凝抑制抗体反应阳性率的 95% 可信区间为

5.75%~11.87%。

注意的是:若样本中某类个体数 X<5 或非某类个体数 n-X<5 时,则不宜用正态近似法求总体率的可信区间,此时可据样本含量 n 和某类个体数 X, 查专门医学统计书中据二项分布算得的总体率的可信区间表。