第一节 计量资料的统计描述一、计量资料的频数表
设 X 为观察单位的变量(定量指标),n 个观察单位的变量值为:X1, X2,⋯,Xn 。如果 n 较大,可通过资料整理,编制频数分布(frequency distribution)表,简称频数表,用以描述变量值的分布情况,观察分布规律。为了使变量值的分布规律形象直观,还可绘制频数分布图。
例 7·1 某地区 130 名正常成年男子的红细胞数如表 7-1,编制频数表和绘制频数分布图。
表 7 - 1 某地区 130 名正常成年男子的红细胞数( 1012/L )
3.79* |
4.57 |
5.19 |
4.86 |
4.28 |
4.67 |
5.37 |
4.98 |
4.45 |
5.88* |
---|---|---|---|---|---|---|---|---|---|
4.53 |
5.16 |
4.84 |
4.15 |
4.66 |
5.31 |
4.97 |
4.43 |
4.77 |
4.78 |
5.10 |
4.83 |
4.11 |
4.63 |
5.28 |
4.94 |
4.40 |
4.74 |
5.67 |
5.05 |
4.81 |
3.98 |
4.61 |
5.23 |
4.90 |
4.35 |
4.70 |
5.46 |
5.03 |
4.49 |
3.89 |
4.57 |
5.21 |
4.87 |
4.29 |
4.67 |
5.38 |
4.98 |
4.46 |
4.78 |
4.54 |
5.16 |
4.85 |
4.17 |
4.66 |
5.32 |
4.97 |
4.43 |
4.77 |
5.07 |
5.13 |
4.83 |
4.13 |
4.64 |
5.29 |
4.95 |
4.42 |
4.74 |
5.69 |
4.53 |
4.81 |
4.01 |
4.62 |
5.26 |
4.91 |
4.36 |
4.73 |
5.49 |
5.04 |
4.78 |
3.94 |
4.57 |
5.23 |
4.90 |
4.31 |
4.68 |
5.39 |
4.99 |
4.48 |
5.08 |
4.54 |
5.17 |
4.86 |
4.27 |
4.66 |
5.36 |
4.98 |
4.43 |
4.77 |
4.53 |
5.15 |
4.84 |
4.13 |
4.64 |
5.29 |
4.96 |
4.42 |
4.75 |
5.69 |
4.80 |
4.82 |
4.10 |
4.62 |
5.26 |
4.93 |
4.39 |
4.74 |
5.61 |
5.04 |
5.10 |
3.98 |
4.58 |
5.23 |
4.90 |
4.33 |
4.68 |
5.40 |
5.00 |
4.49 |
4.80 |
-
找全距一群变量值的最大值和最小值之差称为全距(range),亦称极差。本例从表 7-1 找出最大值为 5.88,最小值为 3.79,故全距为 5.88- 3.79=2.09(1012/L)。
-
定组距一般把 n 个变量值分为 10~15 组。若 n 较小,组数可相应少些; n 较大,组数可酌情多些,以能揭示变量值的分布规律为宜。各组段的组距可相等,也可不等,根据该群变量值的实际情况而定,一般用等距。本例拟分 10 组左右,等组距。将全距除以拟分的组数 2.09/10=0.209,得组距的约数,再将约数酌情调整到较方便的数作为组距,本例取 0.20 为组距。
-
写组段每个组段的起点称组下限,终点称组上限。第 1 组段应包括变
量最小值,故其下限取小于最小值的方便数,本例取小于 3.79 的 3.70 作为
第 1 组段的下限。本例变量为连续变量,组段应写为上限开口型:3.70~,
3.90~,4.10~,⋯⋯。第 2 组段的下限 3.90 为第 1 组段的上限,第 3 组段
的下限 4.10 为第 2 组段的上限,余此类推。最后 1 个组段应包括变量最大值, 一般写为上限闭口型,本例最大值为 5.88,最后 1 个组段写为 5.70~5.90。如表 7-2 第(1)栏,本例共分 11 组,写成 11 个组段。
对于离散变量,如年龄(岁)取值为 0,1,2,⋯⋯,则既可上限开口型,如 0~,5~,10~,⋯⋯;也可写成上限闭口型 0~4,5~9,10~14,⋯⋯。
- 划记如表 7-2 第(2)栏,将表 7-1 的 130 个变量值划记归入相应的组段。表 7-2 第(3)栏为每个组段的合计变量值个数,称频数。表 7-2 的第(1) 栏和第(3)栏即构成频数表。
表 7 - 2 某地区 130 名正常成年男子红细胞数( 1012/L )的频数分布
红细胞数 |
划记 |
频数 |
---|---|---|
(1) |
(2) |
(3) |
3.70 ~ |
2 | |
3.90 ~ |
4 | |
4.10 ~ |
正 |
9 |
4.30 ~ |
正正正 |
16 |
4.50 ~ |
正正正正 |
22 |
4.70 ~ |
正正正正正 |
25 |
4.90 ~ |
正正正正 |
21 |
5.10 ~ |
正正正 |
17 |
5.30 ~ |
正 |
9 |
5.50 ~ |
4 |
5.70 ~ 5.90 1
合计 —— 130
以变量为横轴,频数为纵轴,本例据表 7-2 的频数分布表绘制出图 7- 1 的频数分布图。绘制频数分布图必须以相等组距的频数值作纵坐标值。如果绝大多数组距相等(记为 i),以该组距的频数值作纵坐标值,若有某个组距(记为 X·i)和该组距(i)不相等,则其频数值除以 X 作纵坐标值。频数表和频数分布图用以描述变量值的分布特征和揭示变量值的分布规
律。变量值的分布有 2 个重要特征:集中趋势(central tendency)和离散趋势(tendency ofdispersion)。集中趋势是指变量值的集中位置所在;离散趋势是指变量值围绕集中位置的
分布情况。根据变量值的分布规律,可把变量值分布分为对称分布和不对称分布。对称分布指集中位置在正中,左右两侧的频数分布大体对称(指样本变量值分布,理论上的总体变量值分布为完全对称),最常见的对称分布为正态分布(见本章第二节)。不对称分布则是一种偏态分布,是指集中位置
偏向一侧,左右两侧频数分布不对称。偏态分布又可分为正偏态分布和负偏态分布。如果集中位置偏向变量值小的一侧,称为正偏态分布;如果集中位置偏向变量值大的一侧,称为负偏态分布。医学指标的偏态分布多为正偏态分布。本例观察表 7-2 和图 7-1,可见正常成年男子的红细胞数的分布为对称分布。对称分布是正态分布的必要条件。
用频数表还便于发现特大或特小的可疑变量值。有时在频数表的两端出现连续几个组段的频数为 0 后,又出现 1 个或几个特大值或特小值,使人怀
疑这 1 个或几个变量值是否正确。如果检查出可疑值是错误的,能改正则改正,否则剔除。
对于计量资料,不同类型的分布所采用的描述统计指标和统计分析方法有所不同。