第二节 相关分析的步骤和方法

相关表相关图 相关分析的第一个步骤,就是要知道现象之间有没有关系,如果有的话,是什么样的关系,这是相关分析的出发点。

那么,怎样才能判断现象之间有没有关系,或者这种关系表现为直线还是某种曲线呢?最简单的方法,就是把调查来的原始资料,编制成相关表, 或画成相关图。

编制相关表,必须具备若干个自变量与因变量的对应资料,而且这类资料要有一定的数量,如果有全面的资料则更好。为了避免计算上的麻烦和容易把问题说清楚,我们举一个简单的例子:(见下页)

下面这张相关表,是一张简单相关表。通过这张简单相关表,说明某种机床的使用年限和它的维修费之间,确实存在着相关关系,即随着使用年限的,维修费有所增多,但趋势还不够明显。这时,就需要绘制相关图。

这张相关图,叫做散布图,或者叫做相关点图。它是将原始资料的对应数值在座标图上用点画出来,这样,就可以用来表明相关点的分布状况。一般地讲,X 轴代表自变量,Y 轴代表因变量。通过这幅相关图,我们不仅可以看出,机床使用年限和维修费和关系比较密切,而且还表现为直线相关的趋势。像这种情况,就要用直线相关的方法来进行分析。

机床使用年限与维修费的相关表

表 9 — 1

序号

机床使用年限( X )

年维修费( Y )

1 2

400

2 2

540

3 3

520

4 4

640

5 4

740

6 5

600

7 5

800

8 6

700

9 6

760

10

6

900

11

8

840

12

9

1,080

{ewc MVIMAGE,MVIMAGE, !06300720_0194_1.bmp}

如果原始资料很多,就要把这些资料进行分组;否则,编制出来的相关表就会很长,使用起来很不方便。而且,由于相关点太多,相关图也不好画。下面这张相关表,就是一张单变量分组表:

商品销售额与流通费用率的分组相关表

表 9 — 2

按销售额分组(万元)

商店数

平均流通费用率(%)

4 以下

18

9.85

4 —— 8

24

7.70

8 —— 12

35

6.65

12 —— 16

46

6.20

16 —— 20

65

6.00

20 —— 24

60

5.90

24 —— 28

42

5.80

28 —— 32

36

5.70

32 —— 36

20

5.65

36 以上

14

5.60

根据这张单变量分组表,可以绘制成下面这幅相关图。从下图中可以看出,随着商品销售额的增加,商店的流通费用率相应地降低。起初下降较快, 随着商品销售额的增加,下降渐趋平缓,所以,最终两者表现为曲线关系。如果其他条件不变,根据商店销售额的多少,大致可以判断出它的流通费用率是多少。

{ewc MVIMAGE,MVIMAGE, !06300720_0196_1.bmp}

相关系数 相关分析的第二个步骤,就是要确定相关关系的密切程度, 这就需要计算相关系数。相关系数是在直线相关条件下,说明两个现象之间相关关系密切程度的一个统计分析指标。计算相关系数,先要计算三个指标:

第一个指标,是自变量数列的标准差。

σ x = =

式中:σx 代表自变量数列的标准差;

x 代表自变量及其变量值 x1,x2,x3,⋯xn;

x代表自变量数列的平均值x = Σ x ;

n

n 代表自变量数列的项数。

第二个指示,是因变量数列的标准差。

1

σ y =

= Σ(y - y) 2

n

式中:σy 代表因变量列的标准差;

y 代表因变量及其变量值 y1,y2,y3,yn;

y代表因变量数列的平均值y = Σy

n

n 代表因变量数列的项数。第三个指标,是两个数列的协方差。

σ2 = Σ(x - x)(y - y) = 1 Σ(x - x)(y - y)

xy n n

式中:σ2

代表两个数列的协方差;

x - x代表自变量数列各项变量值与平均值的离差; y - y代表因变量数列各项变量值与平均值的离差。

有了这三个指标,就可以用来计算相关系数了。相关系数,通常用 r

来代表,其计算公式如下:

2

r = xy =

σ x σ y

1

n Σ(x − x)(y − y)

这个的分子和分母都有 1n,在计算过程中,这个数值将会抵消掉。所以, 上公式又可简化为:

r = Σ(x − x)(y − y)

现在,我们还是用前面举过的例子来说明相关系数的计算过程。计算相关系数,先要一张计算表:

相关系数计算表

表 9 — 3 ( 机 床 使 用 年 限 与 维 修 费 用 的 相 关 )

序号

机床使用年限 x

维修费(元)y

x − x

y − y

(x − x)2

(y − y)2

(x − x) (y − y)

1

2

400

— 3

310

9

96100

930

2

2

540

— 3

170

9

28900

510

3

3

520

— 2

190

4

36100

380

4

4

640

— 1

— 70

1

4900

70

5

4

740

— 1

30

1

900

— 30

6

5

600

0

— 110

0

12100

0

7

5

800

0

90

0

8100

0

8

6

700

1

— 10

1

100

— 10

9

6

760

1

50

1

2500

50

10

6

900

1

190

1

36100

190

11

8

840

3

130

9

16900

390

12

9

1080

4

370

16

136900

1480

合计

60

8520

52

379600

3960

这张计算表,包括两栏原始资料和五栏需要计算的材料(即:两栏离差, 两栏离差平方,一栏两个离差的乘积)。根据这张计算表,我们可以按下列步骤进行计算:

第一步,先计算两个数列的平均值。

  1. 机床平均使用年限:

x = Σx = 60 = 5 年

n 12

  1. 平均每台机床维修费:

y = Σy = 8,520 = 710 元

n 12

第二步,根据两个平均值,计算出表中的各栏数值,并作出合计。

第三步,计算自变量数列的标准差:

σx =

= = 2.0817

第四步,计算因变量数列的标准差:

1

σy = n

Σ(y - y) 2 =

= 177.8576

第五步,计算两个数列的协方差:

σ2 = 1 Σ(x - x)(y - y) = 1

×3,960 = 330

xy n 12

第六步,根据协方差和两个数列的标准差,计算相关系数:

2

r = xy

σx σ

= 330

2.0817×177.8576

= 330

370.25

= 0.8913

如果用简化后的公式计算,则后四个步骤可以合并。这样,就可以直接将计算表中的数字代入公式:

r = Σ(x - x)(y - y)

Σ(x - x)2

3,960