第二节 计数资料的统计推断一、率的抽样误差与标准误
本节和下节介绍计数资料的统计推断。本节介绍最简单的计数资料是分
成两类,计数资料原分成多类但只研究其中特定的一类也可简化为两类—— 某类和非某类。
两类构成总体为:总个体数为 N,某类个体数为 M,非某类个体数为 N-M。只有一个总体参数,据其实际含义称为某类的总体率或总体构成比,用π表示,即π=M/N。
率(或构成比)的抽样误差与标准误和均数的抽样误差与标准误其概念相同。从总体率为π的两类构成总体中随机抽取含量 n 的样本,抽得某类个体数 X(非某类个体数 n-X),算出样本率 p=X/n。由抽样造成的样本率和总体率的差别称为率的抽样误差。所有可能的含量 n 的样本率构成变量为 p 的总体。样本率总体中 p 值的差别是由抽样误差造成的。总体率π为定值,分析样本率 p 的分布情况就可得出抽样误差 p-π的分布情况。数理统计学中证明,含量 n 的样本率 p 的总体均数为π,标准差为
σp = (8·8)
率的标准差又称为率的标准误。率的标准误是描述率的抽样误差的统计指标(变异指标),率的标准误越大,则率的抽样误差越大(更确切地说, 是抽样误差的波动程度越大)。
由(8·8)式可见,率的标准误σp 的大小决定于总体率π和样本含量 n, n 越大,σp 越小。从同一总体中抽样,总体率为定值,因此要减小率的标准误,降低抽样误差,只有加大样本含量。
总体率π一般是未知的,若用样本率 p 估计,则据(8·8)式,σp 的样
本估计值为
sp =
(8·9)
例 8·3 在某镇按人口的 1/20 随机抽取 329 人,作血清登革热血凝抑制抗体反应检验,发现阳性者 29 人,求阳性率及其标准误。
p = 29
329
= 0.0881 = 8.81%
sp =
0.0881(1− 0.0881) = 0.0156 = 1.56%
329
该镇 329 人血清登革热血凝抑制抗体反应检验的阳性率为 8.81%,标准误为 1.56%。
关于样本率 p 的总体分布,作说明如下:两类构成总体某类率为π,非某类率为 1-π。从总体中抽取含量 n 的样本,抽得某类个体数 X 和某类率 p 是不连续的,其取值可能情况为 X=0,1,2,⋯,n,即 p=0/n,1/n,2/n,⋯, n/n。由于抽得某类个体的概率为π,抽得非某类个体的概率为 1-π,数理统计学中证明,p(或 X)为上述各种取值的概率等于二项式〔(1-π)+π〕 n。展开后的各项,故 p(或 X)服从二项分布。二项分布是不连续的概率分布,有 2 个参数:原总体率π和样本含量 n。π=0.5,二项分布对称;π≠ 0.5,二项分布不对称。π和 0.5 相差越大,二项分布越不对称,特别当 n 小时更是如此。实际验证发现,当 n 足够大,π和 1-π均不太小,有 nπ≥5 和 n(1-π)≥5 时,二项分布近似正态分布。因此当π<0.5 时,总体率π
越小,需要的样本含量 n 越大 p 分布才近似正态分布,例如π=0.2,0.1,0.05,则需要的样本含量至少为 n=25,50,100。