=
= 0.974
关于复相关系数的性质,可以概括为如下几点:
(1)复相关系数介于 0 到 1 之间,即
0≤Ry·12⋯k≤1
(1)复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为 1,表示完全相关;复相关系数为 0,表示完全无关。
(3)复相关系数必大于或至少等于单相关系数的绝对值。2.复相关系数的显著性检验
对复相关系数的显著性检验,一般采用 F-检验法。其统计量计算公式为
R2
F = y·12 k ×
1 − R 2
n − k −
k
(19)
y· 12 k
在(19)式中,n 为样本数,k 为自变量个数。对于前述计算得出的复相关系数 R4·123=0.974,由于 n=23,k=3,故
0.974
F = 1 − 0.9742
23 − 3 − 1
× 3 = 120.1907
查 F-检验的临界值表(见本书附录Ⅱ),可以得出不同显著水平上的临界值Fa,若 F>F0.01,则表示复相关在置信度水平 a=0.01 上显著,称为极显著; 若 F0.05<F≤F0.01,则表示复相关在置信度水平 a=0.05 上显著;若 F0.10≤F
≤F0.05,则表示复相关在置信度水平 a=0.10 上显著;若 F>F0.10,则表示复相关不显著,即因变量 Y 与 K 个自变量之间的关系不密切。在上例中, F=120.190 7>F0.01=5.0103,故复相关达到了极显著水平。
第二节 地理要素间的回归分析
地理要素间的相关分析揭示了诸地理要素之间相互关系的密切程度。然而诸要素之间相互关系的进一步具体化,譬如某一地理要素与其它地理要素之间的相互关系若能用一定的函数形式予以近似的表达,那么其实用意义将会更大。在复杂地理系统中,某些要素的变化很难预测或控制,相反,另外一些要素则容易被预测或控制。在这种复杂地理系统中,若能在某些难测难控的要素与其它易测易控的要素之间建立一种近似的函数表达式,则就可以比较容易地通过那些易测易控要素的变化情况去了解那些难测难控的要素的变化情况。数理统计学为我们提供了回归分析方法,是研究要素之间具体的数量关系的一种强有力的手段,借助于这种方法,可以建立地理要素之间的相关关系模型——回归分析模型。
现代地理科学研究的对象是多层次多要素的复杂系统,其要素之间的相互关系,既有线性的,也有非线性的。因此,地理要素之间的回归分析模型, 既有线性回归模型,也有非线性回归模型。但是在回归分析研究中,许多非线性模型都可以通过变量变换将其转化为线性模型来处理。下面我们首先来介绍地理要素之间的线性回归模型。
一、一元线性回归模型
一元线性回归模型描述的是两个要素(变量)之间的线性相关关系。假设有两个地理要素(变量)x 和 y,x 为自变量,y 为因变量。则,一元线性回归模型的基本结构形式为
ya=a+bxa+εa (1)
在(1)式中, a 和 b 为待定参数;a=1,2,⋯,n 为 n 组观测数据(x1,y1),
(x2,y2),⋯,(xn,yn)的下标;εa 为随机变量。如果记 a 和 b 分别为参数 a 与 b 的拟合值,便得一元线性回归模型
∧
(2)式代表x与y之间相关关系的拟合直线,常称为回归直线; y 是
y 的估计值,亦称回归值。
(一)参数 a、b 的最小二乘估计
∧ ∧ ∧
实际观测值y i 与回归值 y i 之差ei = y i - y i,刻画了yi 与 yi 的偏
离程度,即表示实际观测值与回归估计值之间的误差大小。参数 a 与 b 的最
∧
小二乘拟合原则要求y 与yi 的误差ei 的平方和达到最小,即
n n ∧ 2
Q = ∑e 2 = ∑(y − y )
i i
i=1
n
i =1
2
= ∑(yi − a − bxi )
i= 1
根据取极值的必要条件,有
→ min (3)
∂Q = −
∂Q
2∑( yi − a − bx i ) = 0
i=1
n
= −2∑( yi − a − bx i )xi = 0
∂b
即
i=1
n
∑(yi − a − bx i ) = 0
i=1
n
∑(y − a − bx )x = 0
i=1
上述方程组可以进一步写成
n n
na + ∑xi b = ∑yi
i =1 i=1
n n n
(4)
∑x a + ∑x2 b = ∑x y
i =1 i i=1 i i =1 i i
方程组(4)式通常被称为正规方程组,它又可以被写成矩阵形式
n a n
n ∑xi ∑yi
n i =1
=
i=1
(4)
n n
∑x ∑x2 b ∑x y
i =1 i i =1 i =1 i i
解上述正规方程组(4)式或(4′)式,就可以得到关于参数 a 与 b 的拟合值:
Lxy
b =
∧ ∧
a = y − b x
∑(x i − x)(y i − y)
= i =1
(5)
Lxx
n
∑(x i i =1
− x)2
n 1 n
n
∑xi y i − n ∑x i ∑yi
= i=1
n
i=1
1 n
i=1
2
(6)
∑x2 −
∑x
i
i=1
n i=1 i
在(5)式和(6)式中,x和y分别为xi 和yi (i = 1,2, , n) 的平均值, 即
1 n 1 n
x = n ∑ xi , y = n ∑ yi 。
i=1 i=1
建立一元线性回归模型的过程,就是用变量 xi 和 yi 的实际观测数据确
∧ ∧
定参数a和b的最小二乘估计值a 和b 的过程。现在,我们用表2 - 1中的数据,
建立某地区农业总产值(y)与粮食总产量(x)之间的一元线性回归模型。回归系数 a 和 b 的拟合值分别为
10 1 10
10
∑xi yi − ∑x i∑yi
∧ Lxy
i=1
10 i= 1
i =1
b = =
10
xx
1 10 2
∑x 2 − ∑x
i
i=1
1
10 i=1 i
= 837.1 − 10 ×240×33.6 =
1
0.085278
6120 −
∧ ∧
a = y − bx
×(240) 2
10
= 1 ×33.6 − 0.085278× 1
10 10
×240 = 1.313328
故该地区农业总产值(y)与粮食总产量(x)之间的回归方程为
∧
y = 1.313328 + 0.085278x
(二)一元线性回归模型显著性检验
(7)
回归模型建立之后,需要对模型的可信度进行检验,以鉴定模型的质量。线性回归方程的显著性检验是借助于 F 检验来完成的。
在回归分析中,y 的 n 次观测值 y1,y2⋯,yn 之间的差异,可用观测
值yi 与其平均值y的离差平方和来表示,它被称为总的离差平方和,记为
可以证明
2
S 总 = Lyy = ∑( yi − y)
i=1
(8)
S总 = L
n
yy = ∑( yi i=1
∧
− y)2
n ∧ 2
= ∑(y − y ) 2 + ∑(y − y)
i i
i= 1
= Q + U
n ∧
i
i=1
(9)
(9)式中,Q = ∑(y
i =1
N
i − y i
∧
)2 称为误差平方和,或剩余平方和,而
n
U = ∑(yi
i= 1
n
− yi) 2 = ∑(a + bx
i=1
- a − bx) 2
= b2 ∑(x
i=1
- x) 2 = b2Lxx = bL
称为回归平方和。
由(9)式可以看出,当 U 对 Lyy 的贡献越大时,Q 的影响就越小,回归模型的
效果就越好。这样,就可以由统计量F = U /
Q
n − 2
(10)
衡量回归模型的效果,显然 F 越大,就意味着模型的效果越佳。事实上,统计量 F—F(1,n-2)。在显著水平 a 下,若 F>Fa(1,n-2),则认为回归方程效果在此水平下显著。一般地,当 F<F0.10(1,n-2)时,则认为方程效果不明显。对于回归方程(7)式,我们有
S = L
10
yy = ( yi i=1
− y) 2 = 3.0840
U=bLxy=0.085278×30.7000=2.6180346 Q=S 总-U=3.0840-2.6180346-0.4659654
所以
Q
F = U / n − 2 =
2.6180346
1 = 44.948137
0.4659654× 8
在置信水平 a=0.01 下查F 分布表得:F0.0(1
1,8)=11.6。由于 F=44.948137
>F0.01(1,8)=11.6,所以回归方程(7)式在置信水平 a=0.01 下是显著的。二、多元线性回归模型
在多要素的地理系统中,除了在某两个要素之间存在着相互作用和影响
而发生某种相关外,在若干个(多于两个)要素之间也存在着相关影响、相互关联的情况。因此,多元地理回归模型更带有普遍性的意义。
(一)多元线性回归模型的建立
假设某一因变量 y 受 k 个自变量 x1,x2,⋯,xk 的影响,其 n 组观测值为(ya,xa1,xa2,⋯,xak),a=1,2,⋯,n。那么,多元线性回归模型的结构形式为:
ya=β0+β1xa1+β2xa2+⋯+βkxak+εa (11)
在(11)式中,β0,β1,⋯,βk 为待定参数,ε a 为随机变量。如果 b0, b1,⋯bk 分别为β0,β1,β2,⋯,βk 的拟合值,则得回归方程
∧
y = b0 + b1x1 + b2 x 2 + + bk xk (12)
在(12)式中,b0 为常数,b1,b2,⋯,bk 被称为偏回归系数。偏回归系数 bi(i=1,2,⋯,k)的意义是,当其它自变量 xj(j≠i)都固定时,自变量 xi 每变化一个单元而使因变量 y 平均改变的数值。
根据最小二乘法原理,βi(i=0,1,2,⋯,k)的估计值 bi(i=0,1,2,⋯,k)要使
Q = ∑( y
a=1
= ∑[y
∧
a − ya
- ( b
) 2
- b x
+ b x
+ + b x
)]2
a
a=1
→ min
0 1 a1
2 a 2
k ak
由求极值的必要条件得
∂Q
∂b
= −2∑
∧
(ya − ya ) = 0
0 a=1
∂Q n ∧
= −2∑( ya − y a ) xaj
= 0( j = 1 , 2 , , k)
∂b j
a=1
方程组(14)式经展开整理后得
n
n
n n
nb0 + ∑xa b1 + ∑xa b2 + + ∑xakbk = ∑ya
n
a=1
a=1 2
n n
a=1
a=1
n n
∑x
b + ∑x2 b
- ∑x x
b + + ∑x x
b = ∑x y
a=1
a1 0
a=1
a 1 1
a=1
a1 a 2 2
a=1
a 1 a2 k
a=1
a a
n n n
n n
∑x
b + ∑x x
b + ∑(x2 )b
+ + ∑x x
b = ∑x y
(15)
a=1
a2 0
a=1
a1 a 2 1
a=1
a 2 2
a=1
a1 ak k
a=1
a 2 a
n n
n
n n
∑x
b + ∑x x
b + ∑x x
b + + ∑ 2 b
= ∑x y
ak 0
a=1
a ak 1
a=1
a 2 ak 2
a=1 ak k
ak a
a=1
方程组(15)式称为正规方程组。如果引入以下矩阵:
1
1
X = 1
x11
x21
x 31
x12 x22 x32
x1k
x2 k
x
3k
1
xn1 x2 x nk
1 1 1 1
1 x11
x12
x1k
x11
x21
x31
xn1
1 x21
x22
x 2k
A = XTX = x12
x22
x32
x n2 ·1
x31
x 32 3k
x x x x
1
x x x
1k 2 k 3k nk
n n
n1 n2 nk
n
n ∑x a
a=1
n n
∑xa 2 a=1
n
∑xa
a=1
n
∑xa 2
a= 1
= n
2
a 1
a=1 n
∑xa1 x
a=1
n
an 2
∑x a1 xak
a=1
N
∑x
∑x x
∑x2
∑x x
a=1 a 2
n
a=1
n
a1 a 2
a 2
a= 1
n
a 2
A =1
n
ak
∑x
∑x x
∑x x
∑x2
a= 1
ak
a=1
y
a 1 ak
a=1
a 2 ak
a= 1
b 0
ak
1
Y = y 2
1
b = b
2
y n
n
1 1 1 1 y
∑ya
a=1
1 n
x11
x21
x31
xn1 y2
∑xa ya
B = XTY = x x x x
y
= a=1
12 22 32
n2 3
∑x y
Μ
a= 1
a 2 a
x x x x
y Μ
1k 2 k
3k nk n n
∑xak ya
则正规方程组(15)式可以进一步写成矩阵形式
a=1
Ab=B (15′)
求解(15′)式可得
b=A-1B=(XTX)-1XTY (16)
如果引入记号
n
Lij = L ji = ∑( xa
a=1
- xi )(xij − x j )
= n 1 n
n
∑x ai xaj − n ∑xai ∑xaj (i,
j = 1,
2, , k)
a=1 n
a=1
a=1
Liy = ∑(xai − xi )(ya − y)
a=1
= n 1 n
n
∑xai ya − n ∑xai ∑ya (i = 1,
2, , k)
a=1
则正规方程组也可以写成
a=1
a=1
L11b1 + L12 b2 +
L1k b k = L1y
L21 b1 + L22 b2 +
L2k bk
= L2 y
(15″)
L b
- L b +
L b = L
k1 1
k2 2
kk k ky
b = y − b x1 − b x1 − b x2 − b x k
0 1 1 2 k
例如,在 1981—1990 年期间,某地区各城市的公共交通营运总额(y)
与城市人口总数(x1)以及工农业总产值(x2)的年平均统计数据如表 2-7 所示。试建立 y 与 x1 及 x2 之间的线性回归模型。
