一、x2 检验的基本思想
x2 检验要求把样本的分类个体数排成行×列表或列联表(contingency table)。现以最简单的 2×2 表即四格表(fourfold table)来说明 x2 检验的基本思想。
设要推断某人群男和女的某种疾病的患病率是否相等,即该病是否和性别有关。某人群为总体,该人群的每个人为个体。个体有 2 个研究因素,性别分男和女,某种疾病分有和无。从总体抽取样本,把样本的分类个体数 a、b、c、d 排成四格表,如表 8-7,其 2 行合计为 n1.和 n2.,2 列合计为 n.1; 和 n.2,总合计为 n。
表 8 — 7 四格表资料示意
有 无 合计男 a ( A11 ) b ( A12 ) a+b=n1
女 c ( A21 ) d ( A22 ) c+d=n2
合计 a+c=n.1 b+d=n.2 a+b+c+d=n
从该人群总体中随机抽样构成四格表资料有 3 种抽样方法:①从该总体抽取含量为 n 的一个样本,按性别的男和女及疾病的有和无的组合清点个体数;②把该总体分成男和女两个总体,分别抽取含量为 n1.和 n2.的两个样本, 按疾病的有和无清点个体数;③把该总体分成有病和无病两个总体,分别抽取含量为 n.1 和 n.2 的两个样本,按性别的男和女清点个体数。①和②都是由男和女的样本患病率来推断男和女的总体患病率是否相等。③是由有病和无病的样本男性(或女性)构成比来推断有病和无病的总体男性构成比是否相等,若相等就可间接推断男和女的总体患病率相等;若不等就可间接推断男和女的总体患病率不等。
3 种抽样方法计算样本检验统计量 x2 值的公式相同,现以第 1 种和第 2 种抽样方法说明之。 a、b、c、d 为四格表的实际频数(actual frequency), 用 A11、A12、A21、A22 表示。检验假设是男和女的总体患病率相等,即π1=π 2=π。如果检验假设成立,则四格表的合计率 n.1/n 应是π的最佳估计值, 用这个估计值和 2 个行合计算出四格表的理论频数( theoretical frequency ), T21=n2.n.1/n , T12=n1.n.2/n ,同理可得 T12=n1.n.2/n , T22=n2.n.2/n。把行合计记为 nR,列合计记为 nC,则求行×列表的 R 行 C 列
的理论频数 TRC 的公式为
TRC
= nR nC
n
(8·17)
求行×列表样本检验统计量 x2 值的基本公式为
X2 = ∑
(A − T) 2
T
(8·18)
∑表示对行×列表的所有格子求和,如行数用 R 表示,列数用 C 表示, 则共有 R×C 格。x2 分布只有 1 个参数——自由度ν,对于行×列表为ν=
(R-1)(C-1)(8·19)行×列表的自由度可以这样理解:在 R 个行合计数和 C 个列合计数固定的情况下,R×C 个格子可自由取值的格子数。如四格表的自由度ν=(2-1)(2-1)=1,即 4 个格子只有 1 个格子可自由取值,其他
3 个格子取值可用行合计数或列合计数用减法求得。因此行×列表只需用
(8·17)式求ν个理论频数,其余的理论频数可用行合计数或列合计数用减法求得。行×列表 x2 值反映 R×C 个格子的实际频数和理论频数的差别程度, 如果检验假设成立,则 x2 值越大,它由抽样误差造成的 P 值越
小。表8-8是常用的x2界值表,x 2<x2
时P>α;x2≥x2
时P≤α。