第三节 平均数

平均数的意义 平均数是说明同类社会经济现象某一数量标志一般水平的统计指标,也称平均指标。例如,为了说明某种工业产品生产的一般水平,就需要计算这种产品的每个工人的平均日产量;为了说明某种农作物生产的一般水平,就需要计算这种家作物的平均单位面积产量;为了说明某种工业产品生产消耗的一般水平,就需要计算这种产品的每件产品的平均单位成本;为了说明某种商品价格的一般水平,就需要计算这种商品的平均价格; 为了说明职工工资的一般水平,就需要计算平均工资,等等。

那么,为什么要计算平均数呢?因为,在社会经济现象的同质总体中, 各个单位都具有不同的特征,这些特征表现在数量上就是有大有小、有多有少、有高有低、有快有慢的差别。在这些千千万万数量差异的同质总体中, 如果用某一单位的数量来代表总体显然是不妥的;但各种现象又具有同质性,其数量差异总有一定的范围。统计平均数就是在同质总体内,将各个单位的数量差异抽象化,用一个代表性数值来反映总体某一数量标志在具体条件下的一般水平。例如,上面所提到的平均日产量、平均单位面积产量、平均单位成本、平均价格和平均工资等,都属于这种性质的统计数字。

平均数在统计研究中具有重要的意义。首先,利用平均数,可以对不同总体某一数量标志的一般水平进行比较,从而说明各部门、各单位生产水平的 高 低 , 或 工 作 成 绩 的 大 小 。 例 如 :

1990 年某县甲、乙两个乡的粮食生产情况

表 5-6

乡别

粮食播种面积(亩)

粮食产量(万斤)

平均每亩粮食产量(斤)

甲乡

5,000

500

1,000

乙乡

3,000

360

1,200

从上表数字中,我们可以看出:1990 年粮食总产量,甲乡多于乙乡,但这不能说明甲乡的生产水平高于乙乡,因为它们的播种面积是不同的。因此, 还须同时考虑到播种面积的多少,并计算出它们的平均每亩粮食产量,才能进行比较。计算结果表明,乙乡的平均亩产量高于甲乡 200 斤,这说明乙乡的生产水平比甲乡高。

其次,利用平均数,可以对比某一现象的水平在不同时间上的发展变化情况,从而说明现象发展的规律性。例如:

某县历年粮食亩产量

表 5-7 计 量 单 位 : 斤

项目

1980 年

1981 年

1982 年

1983 年 1984 年

1985

平均每亩粮食产量

1,078

1,231

1,345

1,398 1,467

1,512

从上表数字中可以看出,自从党的十一届三中全会以来,该县的粮食单位面积产量是逐年提高的,从而进一步说明近年来整个农业生产不断发展的规律性。

再次,利用平均数,可以分析现象之间的依存关系。例如,为了研究某乡粮食亩产量与单位产品成本之间的关系,我们可以把农户按粮食亩产量的多少先进行分组,然后把每组粮食产量和生产成本分别加总,计算出平均每一单位产品的成本。现列表如下:

某乡 1990 年早稻亩产量与单位产品成本的资料

表 5-8

早稻亩产量(斤)

农户数

单位产品成本(元/百斤)

400 斤以上

4

8.4

400 — 500

6

8.2

500 — 600

44

7.6

600 — 700

36

7.0

700 — 800

17

6.8

800 斤以上

10

6.5

合 计

117

7.2

从上表数字中可以看出,早稻亩产量与单位产品成本之间,存在着一定的依存关系,即产量愈高,单位产品成本愈低。由此可见,提高单位面积产量是降低单位产品成本的一个重要方面。

平均数的种类及其计算方法 统计平均数,一般有算术平均数、调和

平均数、几何平均数、众数、中位数等五种。现分别阐述如下: 一、算术平均数

算术平均数是统计中应用得最为广泛的一种平均数,它的基本公式是:

算术平均数 = 总体标志总量(标志总量)

总体单位总数(总体总量)

例如,某外贸基层企业 1991 年某月支付的工资总额为 559 元,职工人数为 10 人,则该公司职工的月平均工资为: 月平均工资 = 559 = 55.9元

10

平均数的计算方法,在形式上与强度相对数的计算方法很相似。但实际上是不相同的。平均数是同一总体的标志总量与总体单位数之比。在这里, 标志总量是随着总体单位数的变动而变动,二者是互相适应的;而强度相对数则是两个性质不同、但又有一定联系的总量指标之比。在这时,作为分子的总量指标,并不随着作为分母的总量指标的变动而变动。这就是平均数与强度相对数在计算方法上区别的地方。

在计算算术平均数时,由于掌握资料的不同,又可分为简单算术平均数和加权算术平均数两种:

(一)简单算术平均数

在直接掌握总体各单位的标志值和总体单位数时,应采用此法。其计算公式为:

简单算术平均数 = 总体各单位标志值之和

总体单位数

用符号表示:

X1 + X2 + X3 + + Xn ∑X

X = N = N

式中:X代表平均数:

X 代表总体各单位标志值; N 代表总体单位数;

∑ 表示总和的符号。

例如,某外贸基层企业有 10 名职工,1991 年某月他们的工资分别为 43 元、56 元、49 元、56 元、62 元、49 元、56 元、70 元、56 元、62 元,则该公 司 职 工 的 月 平 均 工 资 为 :

43 + 56 + 49 + 56 + 62 + 49 + 56 + 70 + 56 + 62

月平均工资 = 10

= 559 = 55.9 元10

(二)加权算术平均数。

利用权数计算的算术平均数称为加权算术平均数。其计算公式为:

加权算术平均数 = (变量值×权数)的总和

权数的总和

用符号表示:

x1 f1 + x 2 f2 + x3 f3 + + x n f n

∑ xf

X = f + f + f + + f = ∑ f

式中:X代表平均数(在这里即为加权算术平均数);

x 代表各组的变量值;

f 代表各组变量值出现的次数(在这里即为权数);

∑ 表示总和的符号。

现以某年对香港(地区)出口活猪为例:

某年对香港(地区)出口活猪价格、数量的资料

表 5-9

出口批次

单位(美元) x

出口数量(头) f

第一批

50

300

第二批

55

600

第三批

60

300

每头活猪出口的平均价格

= 50×300 + 55×500 + 60×300

300 + 600 + 300

15,000 + 33,000 + 18,000

= 1,200

66,000

= 1,200 = 55美元

从上例中可以看出,平均数除了受每批活猪出口价格高低的影响以外, 还受每批活猪出口数量多少的影响。这就是说,在这里存在着一个变量出现的次数问题,即变量出现的次数愈多,对平均数的影响就愈大;变量出现的次数愈少,对平均数的影响就愈小。由于次数对于各组变量值在总体中具有权衡轻重的作用,所以,通常把它叫做权数。而把上面的这种计算方法,称为加权算术平均数。

如果各组变量值出现的次数完全相同,这时权数也就失去了作用。在这种情况下,根据各组变量值直接计算的简单算术平均数和根据各组变量值与次数计算的加权算术平均数,其所得结果完全相同。

二、调和平均数

调和平均数是各个变量值倒数的算术平均数的倒数,也称倒数平均数。在实际工作中,有时我们掌握总体各单位标志值之和的资料,而没有总

体单位数的资料。在这种情况下,就不能直接用加权算术平均数,而需要用加权调和平均数来计算平均数。现在,我们仍用前面的例子来加以说明:

某年对香港(地区)出口活猪金额、价格的资料

表 5-10

出口批次

出口金额(美元) m

单价(美元) x

第一批

15,000

50

第二批

33,000

55

第三批

18,000

60

合计( S )

66,000

上表中,我们只有每批活猪的出口金额和具体价格,而没有这三批活猪的出口数量。在这种情况下,我们必须设法先求出各批活猪的出口数量,才

能计算每 头活猪出口的平均价格。根据已有资料,每批活猪的出口数量是可以求得的。因为,每批活猪的出口金额等于每批活猪的出口价格乘上每批活猪的出口数量,所以:

每批活猪的出口数量 = 每批活猪的出口金额

每批活猪的出口价格

根据计算结果,各批活猪的出口数量是:第一批为 300 头、第二批为 600

头、第三批为 300 头,然后把它们加总起来去除出口总额,就可以求得每头活猪出口的平均价格:

每头活猪出口的平均价格 =

66,000

1,200 = 55美元

根据这种方法计算出来的平均数,就叫做加权调和平均数。由于它是根据变量值的倒数来计算的,所以,又称倒数平均数。在这里,每批活猪的出口价格是变量值,每批活猪的出口金额是权数。由此,我们就可以得出加权调和平均数的计算公式:

加权调和平均数 = 权数的总和

权数  的总和

 

用符号表示:

 变量值

= 权数的总和

1

( 变量值×权数 )的总和

∑m

X = m =

x

∑m

∑ x m

式中:X代表平均数(在这里即为加权调和平均数);

x 代表变量值;

m 代表特定的权数(m=xf); S 表示总和的符号。

从以上计算的结果来看,加权调和平均数和加权算术平均数的计算结果是完全相同的,只是由于掌握资料的不同,在计算形式上才有所不同而已。所以我们说,加权调和平均数是算术平均数的一种变形,它在实质上同算术平均数并没有什么区别。

三、几何平均数

几何平均数是若干个变量值连乘积的 n 次方根。其公式如下:

G = =

式中:G 代表几何平均数; X 代表各个变量值; n 为变量值的个数; П为连乘积的符号。

在变量值较多的情况下,计算几何平均数需要开高根次方。这时,通常需要利用对数。现将几何平均数的公式,两边各取对数,则:

1

1gG = n (1gX1 + 1gX2 + 1gX3 + + 1gX n )

∑1gX

= n

由此可见,几何平均数的对数,就是各个变量值的对数的算术平均数。求出了几何平均数的对数以后,再由对数找出真数,即为几何平均数。

至于几何平均数的具体应用,我们将在下一章中向大家介绍,在此从略。四、众数

众数是总体中出现次数最多的标志值。在实际工作中,有时利用众数代替算术平均数来说明社会经济现象的一般水平。例如,我国对日本出口活塘渔,其中:按 CIF 横滨(a)US$3,000 价格条件成交出口的,占对日本出口总的 80%,则每吨 3,000 美元,就可以用来代替这种出口商品的价格水平。确定众数,需要根据所掌握的资料,采用不同的方法:

(一)根据单项变量数列确定众数。

根据单项变量数列确定众数是比较容易的,我们只要观察哪个标志值重复出现次数最多,就可以确定为众数。例如,下表中 56 元这一工资组,出现

的次数最多(为 4 人),所以,它就是众数。

某外贸基层企业职工按工资组的分配资料

1990 年某月

表 5-11

工资组(元)

职工人数

43

1

49

2

56

4

62

2

70

1

合计

10

(二)根据组距数列确定众数。如果我们掌握的是组距数列资料,确定众数就比较复杂,这就需要采用公式来进行计算。现设有某外贸企业对某种出口商品重量的抽样调查资料如下:

某种出口商品重量的抽样调查资料

表 5-12

抽查样本分组(斤)

样本数(件)

90 — 10

15

100 — 110

60

110 — 120

25

合计

100

从上表数字中可以看出,抽查样本 100—110(斤)一组的 60 件,即占抽查样本的 60%。根据概率原理,这组的成功率已超过样本的 1/2,所以,这一组就是众数组。

那么,众数的具体数值究竟是多少呢?这需要根据众数组相邻两个组的次数多少而定。如果众数组下一组的次数较多,上一组的次数较少,则众数在众数组内靠近它的下限;如果众数组上一组的次数较少,则众数在众数组内靠近它的下限;如果众数组上一组的次数较多,下一组的次数较少,则众数在众数组内靠近它的上限。因此,在众数组内计算众数时,有下限公式与上限公式这别。现分别说明如下:

  1. 下限公式:

M0 = L +

∆1 ×i

∆1 + ∆ 2

式中:M0 代表众数;L 代表众数组的下限;

△1 代表众数组次数与下一组次数之差;

△2 代表众数组次数与上一组次数之差; i 代表众数组的组距。

根据表中资料,已知:

L=100(斤)

△1=60-15=45

△2=60-25=35

i=10 斤

将上列资料代入公式:

M = 100 + 45

×10

0 45 + 35

= 100 + 5.6

= 105.6(斤)

  1. 上限公式:

M = U − ∆ 2 ×i

∆ 1 + ∆2

式中:U 代表众数组的上限。将有关资料代入公式:

M0 = 110 −

35

45 + 35

×10

= 110 − 4.4

= 105.6(斤)

以上计算结果表明,众数的近似值为 105.6 斤。由于应用这两个公式的计算结果是相同的,所以,我们可任意选用其中之一。五、中位数

当我们把所研究的现象,按标志值的大小顺序地排列起来,这时,处在正中间位置的那个数值,就是中位数。在某些场合,中位数也可以代替算术平均数用来反映社会经济现象的一般水平。

中位数的计算方法,也要根据所掌握的资料而定。现分述如下:

(一)由未分组资料确定中位数。

在资料未分组的情况下,确定中位数的位置,可采用下列公式:

中位数位置 = n + 1

2

如果总体单位的项数是奇数,则居于中间位置的那个标志值就是中位

数。例如,某外贸企业有九名外销员,他们平均每人每月的出口成交额为 12、15、17、20、22、25、26、28、30 万美元,则:

中位数位置 = 9 + 1 = 5

2

就是说,第五名外销员的成交额 22 万美元为中位数。

如果总体单位的项数是偶数,则中间位置的两个标志值的算术平均数为中位数。现假设上列资料为 10 人,他们平均每人每月的出口成交额为 12、15、17、20、22、25、26、28、30、31 万美元,则:

中位数位置 = 10 + 1 = 5.5

2

就是说,第 5 名外销员至第 6 名外销员之间为中间位置,第 5 名外销员

的成交额为 22 万美元,第 6 名外销员的成交额为 25 万美元,故中位数为:

22 + 25 = 23.5万美元 (二)由分组资料确定中位数。

2

从组距数列确定中位数,应先按∑ f

2

的公式求出中位数所在组的位置,

然后再按照下限公式或上限确定中位数的具体数值。1.下限公式

Me = L +

∑ f − S 2

f

m− 1

  • i

m

式中:Me 代表中位数;

L 代表中位数所在组的下限;

∑ f代表总次数;

fm 代表中位数所在组的次数;

Sm-1 代表中位数所在组以下累计减 1 组的累计次数; i 代表中位数所在组的组距。

2.上限公式:

Me = U −

∑ f − S 2

f

m+1

  • i

m

式中:U 代表中位数所在组的上限;

Sm+1 表中位数在组以上累计加 1 组的累计次数。

下限公式和上限公式,它们都是以中位数所在组内的次数均匀分配为前提的。在这种条件下,可以按比例推算出中位数的近似值。下面,我们还是用 第 三 章 中 举 过 的 例 子 来 说 明 它 的 计 算 方 法 :

表 5-13

某外贸企业职工按工资组的分配资料

1990 年底

工资组(元)

职工人数

职工人数的累计次数

以下累计

以上累计

30 — 40

12

12

300

40 — 50

23

35

288

50 — 60

122

157

265

60 — 70

97

254

143

70 — 80

28

282

46

80 — 90

9

291

18

90 — 100

5

296

9

100 — 110

4

300

4

合 计

300

从表中资料可知:

∑ f = 300 = 150

2 2

因而,中位数应在第三组内。同时,从上表资料可知: fm=122; L=50;

Sm-1=35; U=60;

Sm+1=143; i=10。

应用下限公式计算中位数:

150 − 35

Me = 50 +

122

× 10

= 50 + 115 × 10

122

= 50 + 9.4

= 59.4元

应用上限公式计算中位数:

Me = 60 −

150 − 143

122

× 10

= 60 −

7

122

× 10

= 60 − 0.6

= 59.4元

计算结果表明,中位数的近似值 59.4 元。由于应用这两个公式的计算果是相同的,所以,我们可任意选用其中之一。

众数、中位数和算术平均数、调和平均数的主要差别,就是这两种平均数都是位置平均数。它们不是根据全部变量值计算的代表值,而是要据它们在变数列中所处的特殊位置来计算的。众数是变值出现次数最密集的位置,

中位数的标志值正处在中间的位置上。因此,只要不影响其位置的变化,其他数值的增减变动是不会影响众数和中位数的大小的。

标志变动度的测定方法 标志变动度是反映总体中各单位标志值差异程度的统计指标,简称变异指标。

那么,为会么要测定标志变动度呢?因为,平均数已经把总体各单位的标志值抽象化了,但它们在数量上还是有差别的。为了全面、深刻地认识一个问题,一方面需要计算平均数,用来说明现象的一般水平;另一方面,还需要测定标志变动度,用来反映总体各单位在数量上的差程度。同时,如果我们想要知道平均数的代表性,也需要通过标志变动度来衡量。

例如,某车间有 3 个班组,都有 11 个工人,生产同一种产品零件,他们的日产量资料如下:

三个班组日产的资料

表 5-14

工人顺序号

每日生产件数

每一班组

第二班组

第三班组

1

15

18

22

2

17

18

22

3

19

19

22

4

20

20

22

5

22

22

22

6

22

22

22

7

23

23

22

8

23

24

22

9

25

25

22

10

26

25

22

11

30

26

22

合计

242

242

242

平均

22

22

22

在上面的例子中,这三个班组的生产情况,显然是不同的。第一班组每个工人生产件数的差程度最大,第二班组次之,第三班组每个工人都生产 22 件,没有差异。这种不同情况,要用生产件数这一标志的标志变动度来具体反映;另一方面,这三个班组的日产量的标志差异程度虽然不同,但说明这一标志一般水平的平均数却是一样的,都是 22 件。所以,如果用这个平均数

来代表这三个班组日产量的一般水平,它的代表性就不相同。平均数 22 件, 对第一班组来说,代表性最小;对第二班组来说,代表性较大;对第三班组来说,具有完全的代表性。由此可见,为了说明平均数所具有的确切意义, 必须把平均数与标志变动度结合起来应用,以便对平均数作出补充说明。

测定标志变动度,有全距、平均差、标准差和标准差系数等几种指标。现分别说明如下:

一、全距

全距是指一个数列中两个极端数值之差,又称极差。它说明两个极端数值的变动范围。例如,上面所举的某车间 3 个班组工人每日产量的资料中,

第一班组的全距为:30—50=15(件),第二班组的全距为:26—18=8(件), 第三班组的全距为零。全距是测定标志变动度的一种最简便的方法,但它只能说明总体中两个极端数值的差异范围,而不能全面反映总体各单位标志值的差程度,这就需要计算平均差、标准差和标准差系数。

二、平均差

平均差是总体各单位的标志值对其平均数的离差绝对值的算术平均数,简称平均离差。它能够综合地反映总体各单位在某一标志值上的差异程度。下面,我们还是用前面讲过的例子来说明它的计算方法:

平均差计算表

表 5-15

第一班组

第二班

工人序号

日产零件数 X

离差

X − X

离差绝对值

X − X

工人序号

日产零件数 X

离差

X − X

离差绝对值

X − X

1

15

-7

7

1

18

-4

4

2

17

— 5

5

2

18

— 4

4

3

19

— 3

3

3

19 — 3

3

4

20

— 2

2

4

20

— 2

2

5

22

0

0

5

22

0

0

6

22

0

0

6

22

0

0

7

23

1

1

7

23

1

1

8

23

1

1

8

24

2

2

9

25

3

3

9

25

3

3

10

26

4

4

10

25

3

3

11

30

8

8

11

26

4

4

合计

242

0

34

合计

242

0

26

计算平均差,要先求出平均数,后计算各单位的标志值对其平均数的离差绝对值,再把这此离差绝对值的总和除以总体单位数,就可以得到平均差。即:

第一班组的平均差 = 34 = 3.1件;

11

第二班组的平均差 = 26 = 2.4件。

11

计算结果表明,平均差的数值愈大,平均数的代表性愈小;相反,平均差的数值愈小,则平均数的代表性愈大。

以上计算过程:可以概括为以下公式:

A. D.=

N

式中:A.D.代表平均差;

X 代表总体各单位的标志值; X 代表算术平均数;

N 代表总体单位数;

∑表示总和的符号

在次数分配资料的条件下,应采用加权的方法来计算平均离差。其公式为:

A. D.= f

∑ f

三、标准差

标准差是总体各单位标志值对其平均数离差平方的算术平均数的平方根,也称均方根差或均方差。标准差是测定标志变动度的最主要的指标,通常用希腊字母 σ(∑的小写字母)来表示。在资料未分组的情况下,计算标准差应采用下列公式:

σ =

式中:σ代表标准差;

X 代表总体各单位的标志值;

X代表算术平均数;

N 代表总体单位数;

∑表示总和的符号。

对于经过分组的次数分配资料,需要采用加权平均的公式:

σ =

下面,我们还是用前面举过的例子说明其计算方法:

标准差计算表

表 5-16

第一班组

第二班组

工人序号

日产零件数 X

离差

X − X

离差平方

( X − X) 2

工人序号

日产零件数 X

离差

X − X

离差平方

(X − X) 2

1

15

— 7

49

1

18

— 4

16

2

17

— 5

25

2

18

— 4

16

3

19

— 3

9

3

19

— 3

9

4

20

— 2

4

4

20

— 2

4

5

22

0

0

6

22

0

0

6

22

0

0

6

22

0

0

7

23

1

1

7

23

1

1

8

23

1

1

8

24

2

4

9

25

3

9

9

25

3

9

10

26

4

16

10

25

3

9

11

30

8

64

11

26

4

16

合计

242

0

178

合计

242

0

84

计算标准差,先计算数列中的算术平均数,求出总体各单位标志值对其平均数的离差,再把每个离差平方起来,计算这些平方数值的算术平均数。最后,把所得到的数值再开平方,就可以得到标准差。

现将上表中的有关数值代入公式:

178

第一班组的标准差 =