第二节 相关分析的步骤和方法
相关表相关图 相关分析的第一个步骤,就是要知道现象之间有没有关系,如果有的话,是什么样的关系,这是相关分析的出发点。
那么,怎样才能判断现象之间有没有关系,或者这种关系表现为直线还是某种曲线呢?最简单的方法,就是把调查来的原始资料,编制成相关表, 或画成相关图。
编制相关表,必须具备若干个自变量与因变量的对应资料,而且这类资料要有一定的数量,如果有全面的资料则更好。为了避免计算上的麻烦和容易把问题说清楚,我们举一个简单的例子:(见下页)
下面这张相关表,是一张简单相关表。通过这张简单相关表,说明某种机床的使用年限和它的维修费之间,确实存在着相关关系,即随着使用年限的,维修费有所增多,但趋势还不够明显。这时,就需要绘制相关图。
这张相关图,叫做散布图,或者叫做相关点图。它是将原始资料的对应数值在座标图上用点画出来,这样,就可以用来表明相关点的分布状况。一般地讲,X 轴代表自变量,Y 轴代表因变量。通过这幅相关图,我们不仅可以看出,机床使用年限和维修费和关系比较密切,而且还表现为直线相关的趋势。像这种情况,就要用直线相关的方法来进行分析。
机床使用年限与维修费的相关表
表 9 — 1
序号 |
机床使用年限( X ) |
年维修费( Y ) |
---|---|---|
1 | 2 |
400 |
2 | 2 |
540 |
3 | 3 |
520 |
4 | 4 |
640 |
5 | 4 |
740 |
6 | 5 |
600 |
7 | 5 |
800 |
8 | 6 |
700 |
9 | 6 |
760 |
10 |
6 |
900 |
11 |
8 |
840 |
12 |
9 |
1,080 |
{ewc MVIMAGE,MVIMAGE, !06300720_0194_1.bmp}
如果原始资料很多,就要把这些资料进行分组;否则,编制出来的相关表就会很长,使用起来很不方便。而且,由于相关点太多,相关图也不好画。下面这张相关表,就是一张单变量分组表:
商品销售额与流通费用率的分组相关表
表 9 — 2
按销售额分组(万元) |
商店数 |
平均流通费用率(%) |
---|---|---|
4 以下 |
18 |
9.85 |
4 —— 8 |
24 |
7.70 |
8 —— 12 |
35 |
6.65 |
12 —— 16 |
46 |
6.20 |
16 —— 20 |
65 |
6.00 |
20 —— 24 |
60 |
5.90 |
24 —— 28 |
42 |
5.80 |
28 —— 32 |
36 |
5.70 |
32 —— 36 |
20 |
5.65 |
36 以上 |
14 |
5.60 |
根据这张单变量分组表,可以绘制成下面这幅相关图。从下图中可以看出,随着商品销售额的增加,商店的流通费用率相应地降低。起初下降较快, 随着商品销售额的增加,下降渐趋平缓,所以,最终两者表现为曲线关系。如果其他条件不变,根据商店销售额的多少,大致可以判断出它的流通费用率是多少。
{ewc MVIMAGE,MVIMAGE, !06300720_0196_1.bmp}
相关系数 相关分析的第二个步骤,就是要确定相关关系的密切程度, 这就需要计算相关系数。相关系数是在直线相关条件下,说明两个现象之间相关关系密切程度的一个统计分析指标。计算相关系数,先要计算三个指标:
第一个指标,是自变量数列的标准差。
σ x = =
式中:σx 代表自变量数列的标准差;
x 代表自变量及其变量值 x1,x2,x3,⋯xn;
x代表自变量数列的平均值x = Σ x ;
n
n 代表自变量数列的项数。
第二个指示,是因变量数列的标准差。
1
σ y =
= Σ(y - y) 2
n
式中:σy 代表因变量列的标准差;
y 代表因变量及其变量值 y1,y2,y3,yn;
y代表因变量数列的平均值y = Σy ;
n
n 代表因变量数列的项数。第三个指标,是两个数列的协方差。
σ2 = Σ(x - x)(y - y) = 1 Σ(x - x)(y - y)
xy n n
式中:σ2
代表两个数列的协方差;
x - x代表自变量数列各项变量值与平均值的离差; y - y代表因变量数列各项变量值与平均值的离差。
有了这三个指标,就可以用来计算相关系数了。相关系数,通常用 r
来代表,其计算公式如下:
2
r = xy =
σ x σ y
1
n Σ(x − x)(y − y)
这个的分子和分母都有 1n,在计算过程中,这个数值将会抵消掉。所以, 上公式又可简化为:
r = Σ(x − x)(y − y)
现在,我们还是用前面举过的例子来说明相关系数的计算过程。计算相关系数,先要一张计算表:
相关系数计算表
表 9 — 3 ( 机 床 使 用 年 限 与 维 修 费 用 的 相 关 )
序号 |
机床使用年限 x |
维修费(元)y |
x − x |
y − y |
(x − x)2 |
(y − y)2 |
(x − x) (y − y) |
---|---|---|---|---|---|---|---|
1 |
2 |
400 |
— 3 |
310 |
9 |
96100 |
930 |
2 |
2 |
540 |
— 3 |
170 |
9 |
28900 |
510 |
3 |
3 |
520 |
— 2 |
190 |
4 |
36100 |
380 |
4 |
4 |
640 |
— 1 |
— 70 |
1 |
4900 |
70 |
5 |
4 |
740 |
— 1 |
30 |
1 |
900 |
— 30 |
6 |
5 |
600 |
0 |
— 110 |
0 |
12100 |
0 |
7 |
5 |
800 |
0 |
90 |
0 |
8100 |
0 |
8 |
6 |
700 |
1 |
— 10 |
1 |
100 |
— 10 |
9 |
6 |
760 |
1 |
50 |
1 |
2500 |
50 |
10 |
6 |
900 |
1 |
190 |
1 |
36100 |
190 |
11 |
8 |
840 |
3 |
130 |
9 |
16900 |
390 |
12 |
9 |
1080 |
4 |
370 |
16 |
136900 |
1480 |
合计 |
60 |
8520 |
— | — |
52 |
379600 |
3960 |
这张计算表,包括两栏原始资料和五栏需要计算的材料(即:两栏离差, 两栏离差平方,一栏两个离差的乘积)。根据这张计算表,我们可以按下列步骤进行计算:
第一步,先计算两个数列的平均值。
- 机床平均使用年限:
x = Σx = 60 = 5 年
n 12
- 平均每台机床维修费:
y = Σy = 8,520 = 710 元
n 12
第二步,根据两个平均值,计算出表中的各栏数值,并作出合计。
第三步,计算自变量数列的标准差:
σx =
= = 2.0817
第四步,计算因变量数列的标准差:
1
σy = n
Σ(y - y) 2 =
= 177.8576
第五步,计算两个数列的协方差:
σ2 = 1 Σ(x - x)(y - y) = 1
×3,960 = 330
xy n 12
第六步,根据协方差和两个数列的标准差,计算相关系数:
2
r = xy
σx σ
= 330
2.0817×177.8576
= 330
370.25
= 0.8913
如果用简化后的公式计算,则后四个步骤可以合并。这样,就可以直接将计算表中的数字代入公式:
r = Σ(x - x)(y - y)
Σ(x - x)2
3,960