第三节 统计分组

统计分组的概念和作用 统计分组就是按照某种标志,把我们所要研究的社会经济现象区分为若干组或若干类。例如,企业按生产资料所有制的形式不同,可分为全民所有制企业、集体所有制企业和其他类型所有制企业等几组;社会产品按照它们的经济用途不同,可分为生产资料和消费资料两大类;等等。

具体地来讲,统计分组有以下几个主要作用: 一、划分社会现象的类型

在社会现象中,存在着各种不同的社会类型。各种不同的社会类型,具有不同的质的规定性,受着不同规律的支配。统计分组的根本任务,就是要把现象之间存在着的质的差别区别开来。也就是说,通过统计分组,把总体

中不同性质的单位区分开,把性质相同的单位归并在一起。只有这样,才能有助于研究现象的特征,也有助于研究现象之间存在的数量关系。

在阶级社会中,把人按阶级进行分组是头等重要的类型分组。按阶级分组,可以是直接按照一定的阶级或集团来进行分组,也可以通过反映阶级特点的一些其他标志(如按照某一集团拥有生产资料的多少或雇佣劳动的多少等)来进行分组。现在,我国已不存在剥削阶级,因而按阶级分组已失去了意义;但还存在着不同的经济类型,这些经济类型直接反映着不同的生产关系和社会经济结构。因此,按生产资料所有制的不同形式来进行分组,就具有特别重要的意义。例如,从表 3-1 数字中可以看出,随着对内搞活经济、对外实行开放这一方针政策的贯彻执行和商业体制改革的深入开展,近几年来,集体所有制商业和个体经济有了较快的发展,进一步繁荣和活跃了城乡市场。

二、说明现象的内部结构及其变动情况

从数量上说明现象的内部结构,是统计认识社会的一个重要内容。因为, 任何一个社会总体,它总是由若干个有差别的、但又有联系的部分所组成。通过统计分组,就可以区别总体内部所存在的各个部分,并在此基础之上, 计算各个组成部分在总体中所占的比重,反映现象的内部结构。例如,从表3-2 数字中,可以清楚地看出,1983 年与 1950 年进行比较,我国出口商品的构成有了明显的变化。即在解放初期,我国的出口商品绝大部分都是农副产品和农副产品加工品,它们分别所占的比重为 57.5%和 33.2%,而工矿产品所占的比重仅为 9.3%;而到了 1983 年,工矿产品出口所占的比重已经上升到57.4%。相反,农副产品和农副产品加工品出口所占的比重则分别下降到

15.9%和 26.7%。出口商品中工矿产品所占比重的不断上升,标志着国民经济的发展水平和工业化程度;同时,也反映了我国工业化的发展进程。

历年来我国的社会商品零售总额

表 3-1 金 额 单 位 : 人 民 币 亿 元

按经济类型分组

1978 年

1980 年

1981 年

1982 年

1983 年

1984 年

社会商品零售总额

1558.6

2140.0

2350.0

2570.0

2849.4

3376.4

全民所有制

1410.1

1797.8

1880.6

1968.6

2054.4

1537.9

集体所的制

115.3

257.8

341.5

414.4

473.9

1337.2

合 营

0.4

1.1

1.6

3.6

7.6

个 体

2.1

15.0

37.4

74.6

184.5

323.7

农民对非农业居民零售额

31.1

69.0

89.4

110.8

133.0

170.0

资料来源:《中国经济年鉴》, 1985 年。

我国出口商品构成的变化情况

表 3-2 金 额 单 位 : 人 民 币 亿 元

按生产部门分组

1950 年

1983 年

金额

比重(%)

金额

比重(%)

农副产品

11.6

57.5

69.1

15.9

农副产品加工品

6.7

33.2

116.0

26.7

工矿产品

1.9

9.3

249.4

57.4

合计

20.2

100.0

434.5

100.0

资料来源:《中国统计年鉴》, 1984 年。

三、分析现象之间的依存关系

在社会现象之间,存在着广泛的联系和制约关系。但现象之间发生联系的方面和联系的程度都不一样,有的比较紧密,有的就间接一些。联系比较紧密的现象之间,就存在着依存关系。例如,在耕地的耕作深度、施肥量、机械化程度与农作物的收获率之间就存在着一定的依存关系。又如,在商品流通额、商品流转速度与费用水平之间也存在着一定的依存关系。

例一:(见表 3-3)

下表中,耕作深度是影响因素,收获率是被影响因素。通过按耕作深度分组,可以看出它们之间的依存关系是:随着耕作深度的加深,该作物的平均收获率也就随之而提高。

某地某种农作物的耕作深度与收获率的依存关系

表 3-3

耕地按耕作深度分组(厘米)

地块数

平均收获率(斤、亩)

10 — 12

7

400

12 — 14

10

460

14 — 16

16

540

16 — 18

12

620

18 — 20

5

680

例二:

某专业进出口总公司所属企业 1990 年第二季度商品销售额与费用水平

依存关系分析表

表 3-4

按商品销售额分组(万元)

企业数

费用水平(%)

50 以下

3

11.2

50 — 100

2

10.4

100 — 150

4

9.5

150 — 200

6

7.7

200 — 250

8

6.4

250 — 300

5

5.9

300 以上

1

5.2

从上表数字中可以看出,商品销售额与费用水平之间存在着一定的依存关系,即商品销售额越大,费用水平越低;反之,则越高。可见,不断扩大商品销售额、加速商品流转乃是降低费用水平的重要因素之一。分组标志的选择和种类 分组标志的选择,是统计分组的一个关键问题。因为,分组标志就是分组的依据,分组标志选择得恰当或不恰当,就会直接影响到分组的作用和效果。统计分组标志,可分为品质标志和数量标志两种。但不论是按哪种标志进行分组,都必须根据统计研究的目的,考虑到现象所处的具体历史条件和经济条件,选择那些最能够反映事物性质、特征的标志。

一、按品质标志分组

按品质标志分组,就是按事物的质的属性来进行分组。例如,人口按性别、民族、文化程度、职业等标志来进行分组;在对外贸易统计中,进、出口国别按三个世界这个标志来进行分组,进、出口商品按经济用途或生产部门等这些标志来进行分组,等等。按品质标志分组,在大多数情况下,比较复杂。通常,我们把这种比较复杂的分组,叫做分类,并把它编成分类目录, 以便在实际工作中作为划分的标准。例如,在对外贸易统计中应用的《进、出口商品统计目录》就是一个典型的例子。二、按数量标志分组

按数量标志分组,就是按事物的数量特征来进行分组。例如,学生按年龄、身高、体重等标志来进行分组,企业按销售额的大小、计划完成程度的多少来进行分组等。

按数量标志进行分组,组数的多少和各组之间的界限,是一个需要很好研究的问题。它的基本要求,就是要通过数量标志的分组,把所研究的现象在各组之间的质的差别和变化反映出来。

分配数列 分配数列就是按照一定的标志进行分组,用来说明总体单位在各组中分配情况的一系列数字。分配数列有品质数列和变量数列两种:

一、品质数列

品质数列就是按照品质标志进行分组所形成的分配数列。例如:

某外贸企业职工的性别构成情况

表 3-5 1990 年 底

按性别分组

职工人数

绝对数

比重(%)

180

60

120

40

合计

300

100

次数或频数 频率

上表中的分配数列,是按照性别这个品质标志来进行分组的,所以把它叫做品质数列。品质数列是由各组的名称和总体单位在各组中分配的次数所组成;次数的相对数,又称频率。

二、变量数列

某外贸企业职工的年龄分配情况

表 3-6 1990 年 底

按年龄分组

职工人数

绝对数

比重(%)

20 岁以下

24

8

20-30 岁

120

40

30-40 岁

84

28

40-50 岁

39

13

50 岁以上

33

11

合计

300

100

次数或频数 频率

变量数列就是按照数量标志进行分组所形成的分配数列。例如,表 3-6 中的分配数列,则是按照年龄这个数量标志来进行分组的,所以把它叫做变量数列。变量数列也是由两部分所组成,即:一部分是由变量值所形成的各个组,另一部分是由总体单位在各组中分配的次数所组成。而各组职工人数所占的比重,就是频率。变量数列,又可分为单项变量数列和组距数列两种:

(一)单项变量数列。

单项变量数列,是指在变量数列中的每一个组,只用一个变量值来表示所形成的数列。(见表 3-7)

但单项变量数列的应用,受到一定的限制,一般仅适用于数列变异幅度不太大的情况;如果数列的变异范围很大,就要采用组距数列。

(二)组距数列。

组距数列,是指在变量数列中的每一个组,并不是由一个变量值来表示, 而是由表明一定变动范围或表示一定距离的两个变量值所形成的数列。(见表 3-8)

对外经济贸易大学某系录取新生按年龄的分组资料

表 3-7 1983 年

按年龄分组

录取新生人数

各组学生占录取新生总数的%

17 岁

20

33.3

18 岁

20

33.3

19 岁

13

21.7

20 岁

7

11.7

合 计

60

100.0

某外贸企业职工按工资组的分配资料

表 3-8 1990 年 底

工资组(元)

职工人数

30 — 40

12

40 — 50

23

50 — 60

122

60 — 70

97

70 — 80

28

80 — 90

9

90 — 100

5

100 — 110

4

合计

300

上表中的变量数列,是一个组距数列。我们把各组的最大值称为上限,

最小值称为下限,而把上限与下限之差称为组距(组中值 = 下限+ 上限)。

2

因为,在这个数列中,每一个组的组距是 10,所以又把它叫做等距数列。组距数列,可以是等距的,也可以是不等距的。我们把不等距的数列,叫做异距数列。例如,下表中的这个数列,就是一个异距数列:

1976 年北京市顺义县人口特殊年龄组的分布资料

表 3-9

年龄组

人数

(比重%)

年龄组

人数

比重(%)

0 — 6 岁

30,033

13.20

0 — 6 岁

28,094

11.83

7 — 17 岁

60,794

26.72

7 — 17 岁

57,092

24.04

18 — 59 岁

114,945

50.52

18 — 54 岁

115,248

48.53

60 岁以上

21,752

9.56

55 岁以上

37,051

15.60

合计

227,524

100.00

合计

237,485

100.00

上表中的组距数列,各个组的组距都不相等,是一个比较特殊的异距数列,它是根据各个不同年龄组的特点来编制的。

关于编制变量数列,还有以下各点需要说明:

第一,变量有连续变量与非连续变量之分。所谓连续变量,就是在一个变量数列中,相邻的两个变量值都是连续不断的,如产值、产量、贸易额等, 都可以用小数来表示的变量;所谓非连续变量,就是在一个变量数列中,相邻的两个变量值都是可以间断的,如职工人数、工厂数、商店数、机器台数等,这些变量都只能用整数来表示。

用连续变量来编制的组距数列,不论是等距数列,还是异距数列,上一组的下限与相邻下一组的上限可以重合。如表 3-6 和表 3-8 都属于这种情况, 而且各组的排列由小到大,并把处于上下两组交界线上的变量值,都划归下一组;用非连续变量来编制的组距数列,也不论是等距数列,还是异距数列, 相邻两组的上限与下限都不重合,如企业按职工人数分组,可分为 100 人以下,101—500 人,501—1,000 人,1,001 人以上各组,等等。在实际工作中, 为了简便起见,无论变量是否连续,常常是按连续变量分组的办法来处理的, 即允许上一组的下限与下一组的上限重合。

第二,在组距数列中,凡出现“以下”、“以上”字样的组叫开口组, 这样的变量数列就叫做开口式数列。开口组的组距如何确定?习惯上是以相邻组的组距为组距。例如,表 3-6 中,50 岁以上这一组为开口组,相邻的一组是 40—50 岁,组距是 10,因此 50 岁以上这一组的组距可视为 10,其组

中值为55(= 50 + 60)。

2

第三,在编制异距数列时,组数和组距应根据现象的特点来确定;而在编制等距数列时,便要经常编制组距为 5 或 10 的等距数列。这时,确定组数和组距的经验作法是:将总体单位某一数量标志的最大值减去最小值算出全距,然后除以 10 或 5,即可算出组数和组距来。例如,某外贸企业有职工 300

人,最高的工资为 106 元,最低的工资为 30 元,其全距为 76,假如每隔 10 为一组,则可算出组数为 8 组,于是将全部职工人数分在 30—40,40—50,⋯ 100—110 等八个组中去,便可编制出以组距为 10 的等距数列。