二、平均分布

二、平均分布 - 图1上节(7·14)式曾说明,若 X 服从正态分布 N(μ,σ),作正态变量 X 的 u 转换 u=(X-μ)/σ,则标准正态变量 u 服从标准正态分布 N(0,1)。现从正态总体 N(μ,σ)抽取含量 n 的样本均数 服从正态分布 N

(μ,σ X ) = N(μ,σ / n)

u = X − μ =

X

(7·17)

二、平均分布 - 图2如果知道总体标准差,上式的 u 可用作为推断总体均数的样本检验统计量。u 检验就是基于此式。但一般的实际情况是总体标准差σ和总体均数μ 都是未知的,此时不能用 u 来推断总体均数。数理统计学中证明,当总体标准差未知时,可作正态变量 的 t 转换

t = X − μ

X

= X − μ

(7·18)

t 变量为样本检验统计量,用以推断总体均数。

从正态总体N(μ,σ)中随机抽取含量n的样本,算出样本均数X和其标准误sX ,假设总体均数μ已知,则每个样本可按(7·18)式算得1 个 t 值,所有可能的含量 n 的样本 t 值构成 t 变量的总体或 t 分布。

t 分布只有 1 个参数——自由度ν,为计算 t 的标准差的自由度。(7·18)

式 t 的ν=n-1,因为其 s 的ν=n-1。t 分布曲线如图 7-3 所示。横轴为 t 变量,纵轴为 t 的概率密度 f(t)。t 分布曲线的特点是:以 0 为中心,高峰位于 0 处,左右两侧对称;ν越小,t 变量值的离散程度越大,曲线越扁平。t 分布曲线较标准正态曲线要扁平些(高峰低些,两尾部翘得高些),若ν=

∝,则 t 分布曲线和标准正态曲线完全吻合。

图 7-3t 分布曲线示意图

t 分布曲线下的整个面积为 1,t 分布曲线下 t 从 a 到 b(>a)的面积为t 值分布在此范围内的百分比,即 t 值落在此范围内的概率 P。对于自由度为ν的 t 分布,如下定义 tα,v 值(取正值),称为自由度为ν、P 为α的 t 界值。

双侧: P(t≤-tα,v)和 P(t≥tα,v)为α,由于 t 分布以 0 为中心对称,即

P(t≤-tα,v)=P(t≥tα,v)=α/2

于是有 P(-tα,v<t<tα,v)=1-α

单侧:P(t≤-tα,v)=α或 P(t≥tα,v)=α

由上可知,单侧α和双侧 2α的 t 界值相同,即单侧 tα,v=双侧 t2α,v。如ν=20 时,单侧 t0.05,20=双侧 t0,10,20。

根据 t 分布曲线下的面积计算,由ν值和α值可得出 tα,v 值。表 7-9 是常用的 t 界值表,横标目为自由度ν,纵标目为概率 P(即α)。由表 7-9 可见,对于相同的自由度ν,α值越小,tα,v 值越大;对于相同的α值,自由度ν越大,tα,v 值越小。当ν=∝时,则 tα,v=uα,故查 u 界值即可查ν=

∝的 t 界值。

表 7-9 t 界值表

自由度 概 率( P ) 自由度 概 率 ( P ) 双侧: 0.10 0.05 0.02 0.01 双侧: 0.10 0.05 0.02 0.01

γ γ

要说明的是,若变量 X 服从偏态分布,但据中心极限定理,当样本含量足够大时,其样本均数近似服从正态分布,因此凡用 u 和 t 的推断正态分布总体均数的统计方法,只要样本含量足够大(比如 n>30),也可近似用于推断偏态分布的总体均数。只是不对称的偏态分布总体不宜用均数来反映其平均水平。但如果偏态分布和正态分布相差不太远,用均数也不必太担心会不恰当。