第二节 正态分布和正常值范围一、正态分布

正态分布(normal distribution)又称 Gauss 分布,是医学和生物学中常见的总体分布。用样本变量值的频数表和频数分布图来推断总体变量值分布,则其符合正态分布的条件为:频数分布以均数为中心、左右两侧基本对称,靠近均数两侧的频数较多,而两侧距均数较远时,频数逐渐减少。实际上如果某指标的频数分布符合这些必要条件,该指标一般符合正态分布。

正态分布曲线简称正态曲线(normal curve)。理论上的正态曲线如图7-2 所示,是一条高峰位于中央(均数所在处)、两侧完全对称、两端永远不与横轴相交的钟型曲线。任何实际指标的分布都不可能和理论上的正态分布完全吻合,只要近似为正态分布就认可。

图 7-2 正态曲线及面积分布示意

正态曲线的横轴为变量 X,纵轴为概率密度 f(X)(当频数表的组距很小时,把每组变量值的频率除以组距即相当于概率密度)。概率密度用以求正态曲线下的面积,正态曲线下的整个面积为 1,正态曲线下 X 从 a 到 b

(b>a)的面积也即该面积对整个面积的比(或百分数),可由概率密度

通过积分(∫a f(X)dX)求出。

正态分布总体有 2 个总体分布参数:均数μ和标准差σ,可记作 N(μ, σ)。均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平。知道了μ和σ就可确定正态曲线(可写出概率密度)。

图 7-2 正态曲线下的面积是据其概率密度的积分得出来的,下述规律在统计学上特别重要,经常用到:

μ±σ范围内占正态曲线下面积的 68.27%,也就是说有 68.27%的变量值分布在此范围内;

μ±1.96σ范围内占正态曲线下面积的 95.00%,也就是说有 95.00%的变量值分布在此范围内;反之,μ±1.96σ范围外只占正态曲线下面积的5.00%,也就是说只有 5.00%的变量值分布在此范围外(左、右两侧各占

2.50%);

μ±2.58σ范围内占正态曲线下面积的 99.00%,也就是说有 99.00%的变量值分布在此范围内;反之,μ±2.58σ范围外只占正态曲线下面积的1.00%,也就是说只有 1.00%的变量值分布在此范围外(左、右两侧各占

0.50%)。

如果样本含量很大(比如 n>100),用正态曲线下的面积分布规律,可据样本资料考察总体是否符合正态分布。

例 7·14 据例 7·1 中的 130 名正常成年男子的红细胞数,用正态曲线下的面积分布规律考察正常成年男子的红细胞数是否服从正态分布。

第二节 正态分布和正常值范围一、正态分布 - 图1本例作为大样本,例 7·3 和例 7·10 已算得 =4.794×1012/L s=0.409

×1012/L 故

第二节 正态分布和正常值范围一、正态分布 - 图2第二节 正态分布和正常值范围一、正态分布 - 图3-s~ +s=4.794-0.409~4.794+0.409

=4.385~5.203(1012/L)

第二节 正态分布和正常值范围一、正态分布 - 图4第二节 正态分布和正常值范围一、正态分布 - 图5-1.96s~ +1.96s=4.794-1.96×0.409~4.794+1.96×0.409

=3.992~5.596(1012/L)

第二节 正态分布和正常值范围一、正态分布 - 图6第二节 正态分布和正常值范围一、正态分布 - 图7-2.585~ +2.58s=4.794-2.58×0.409~4.794+2.58×0.409

=3.739~5.849(1012/L)

逐个清点表 7-1 中的 130 个变量值,得出在 4.385~5.203 之间有 88 个变量值;在 3.992~5.596 之间有 120 个变量值;在 3.739~5.849 之间有 129 个变量值。表 7-7 为 130 名正常成年男子红细胞数的实际分布与正态理论分布的比较,发现实际分布和正态理论分布近似,可认为正常成年男子的红细胞数服从正态分布。表 7-7 130 名正常成年男子红细胞数(1012/L)实际分布与正态理论分布的比较

表 7-7 130 名正常成年男子红细胞数( 1012/L )

实际分布与正态理论分布的比较

范围

红细胞数

人数

%

正态理论分布

%

X

4.385-5.203

88

67.69

68.27

X

3.992-5.596

120

92.31

95.00

X

3.739-5.849

129

99.23

99.00

可把变量值分布分为正态分布和偏态分布(skewnessdistribution)。所有不符合正态分布的变量值分布都称为偏态分布,不对称分布为实际应用中最常见的偏态分布。但对称分布不一定是正态分布,对称分布还要符合正态分布的面积分布规律才是正态分布。如均匀分布(在相等变量值范围内的变量值频数或频率相等)为对称分布,但为偏态分布。