二、总体相关系数的假设检验
双变量(X,Y)正态分布总体 X 和 Y 的相关系数为ρ。若ρ=0,则 X 和Y 无相关;只有ρ≠0 时 X 和 Y 才有直线相关关系,ρ>0 为正相关,ρ<0 为负相关。因此推断总体的 X 和 Y 有无直线相关关系,即推断总体相关系数ρ是否等于零。样本相关系数 r 反映样本中 n 对变量值直线相关的方向与紧密程度,为总体相关系数ρ的点估计。显然只有ρ≠0,所求得的样本相关系数才有意义。
总体相关系数的假设检验的检验假设(或无效假设)H0 为ρ=0;备择假设 H1 双侧为ρ≠0,单侧为ρ>0 或ρ<0。如果 H0 成立,则 r 和 0 的差别完
全由抽样误差造成。样本检验统计量为 t,称为样本相关系数 r 和总体相关系数 0 比较的 t 检验。计算 t 值的公式为
t = |r − 0| =
sr
ν = n − 2
(10·9)
式中 sr 为相关系数的标准误。
例 10·4 据例 10·1 中某地 10 名女中学生的体重与肺活量资料,问体重和肺活量有无直线相关关系?
设该地女中学生总体体重和肺活量的相关系数为ρ,假设为: H0:ρ=0
H1:ρ≠0 α=0.05
今 n=10,在例 10·3 中已算得 r=0.6945。据(10·9)式有
t = 0.6945
1− 0.69452
10 − 2
= 2.730
ν = 10 − 2 = 8
查 t 界值表得 P<0.05。按α=0.05 水准拒绝 H0,接受 H1,认为该地女中学生的体重和肺活量有正的直线相关关系。
现在总结说明直线回归和直线相关的一些注意事项:
1.直线回归反映两变量间的依存关系,直线相关反映两变量间的互依关系,依存关系和互依关系都是数量关系,其实际的因果关系要靠专业知识阐述。因此不要把实际毫无关联的医学指标或现象作相关与回归分析。2.对于X 选定、Y 服从正态分布的双变量,只作直线回归分析;若(X,Y)服从双变量正态分布,则既可作直线相关分析;又可作直线回归分析。3.b 的正负和 r 的正负相同(r=0 时 b=0,r>0 时 b>0,r<0 时 b<0)。推断β是否等于 0 和推断ρ是否等于 0 等价,对同一样本用两种推断方法求得的 t 值相等。如对例 10·1 中的样本,例 10·2 中求得 t=2.728,例 10·4 中求得 t=2.730
(其微小差别是由于计算过程中的舍入误差)。若(X,Y)服从双变量正态分布,一般先作直线相关,如需要再作直线回归。作直线回归需在作直线相关推断出ρ≠0 才可进行,此时定会推断出β≠0,不必重复推断。
-
回归系数和相关系数的绝对值大小无直接关系,其意义不同:|r|越大,表示 X 和 Y 相关越紧密,各散点越靠近回归直线;|b|越大,表示 Y 随 X 变化越快,回归直线越陡。
-
双变量的小样本经 t 检验只能推断两变量间有无直线相关,而不能推断相关的紧密程度。要推断两变量间相关的紧密程度,样本含量必须很大, 比如 n>100。此时抽样误差很小,可认为样本相关系数近似等于总体相关系数,一般|r|≥0.7 表示高度相关,0.4≤|r|<0.7 表示中度相关,|r|<0.4 表示低度相关。
-
不服从双变量正态分布的两个随机变量,若要作相关分析,可计算等级相关系数 rs(见下节)。