=
n − 2
(6.15)
为变量 Y 对 X 的最小二乘回归的估计标准误差,简称估计标准误。S2 和 S
y y
可以作为诸 y 值与回归直线变差的测度。Sy 的计量单位与变量 Y 的单位相同。显然,Sy 越小表明误差越小。
例 6.5 根据表 6.1 提供的统计数字,建立某地区居民对某产品的需求量与居民收入的回归方程。
解:今需求量为因变量 Y,居民收人为自变量 X,根据表 6.1 的数据,绘制两个变量之间的散点图,如图 6.6。从图 6.6 中可以
① 由(6.8)式中 b 的计算公式可以得到
表 6.1 某地区居民对某产品的需求量和居民收入
年份 |
需求量 (千件) |
居民收入 (万元) |
年分 |
需求量 (千件) |
居民收入 (万元) |
---|---|---|---|---|---|
1972 |
116.5 |
255.7 |
1980 |
146.8 |
330.0 |
1973 |
120.8 |
263.3 |
1981 |
149.6 |
340.2 |
1974 |
124.4 |
275.4 |
1982 |
153.0 |
350.7 |
1975 |
125.5 |
278.3 |
1983 |
158.2 |
367.3 |
1976 |
131.7 |
296.7 |
1984 |
163.2 |
381.3 |
1977 |
136.2 |
309.3 |
1985 |
170.5 |
406.5 |
1978 |
138.7 |
315.8 |
1986 |
178.2 |
430.8 |
1979 |
140.2 |
318.8 |
1987 |
185.9 |
451.5 |
图 6.6 某产品需求量与居民收入散点网
看出,二者之间呈线性关系,采用最小二乘法建立一无线性回归方程
Y∃ =27.9123+0.3524X
对模型进行各种检验(1)t 检验。
Σe2
17.57
因为 S2 = i = = 1.255
Sb =
= 0.0055
所以 tb=b/Sb=64.2069
根据显著水平α=0.05,自由度 df=14,查 t 分布表得 t0.05/2=2.1448。由
于
tb=64.2069>t0.05/2=2.1448
表明回归系数 b 是显著的,居民收入与居民对某产品的需求量之间存在线性关系。
- F 检验。
因为 SSR = Σ(y∃i - y) = 5173.78
2
SSE = Σ(y − y∃ ) 2 = 17.57
i i
所以 F = 5173.78 / 1 = 4122.53
17.57 / 14
根据显著水平 α=0.05 , df1=1 , df2=14 ,查 F 分布表得到F0.05(1,14)=4.60。由于
F=4122.53>F0.05(1,14)=4.60
表明回归方程的 F 检验通过,回归方程的回归效果显著。
可以验证:F=t2,Fα=tα/2,所以在一元线性回归中,F 检验与 t 检验的结果相同。
- D.W 检验。用公式(6.11)可以计算得到残差序列的 d 统计量:d=
0.68。根据显著性水平α=0.05,自变量个数 1,样本数据个数 16,查 D.W 表得到:di=1.10,du=1.37。由于
0<d=0.68<di=1.10
D.W 检验未通过,残差序列存在正自相关。
- 拟合程度测定。
r 2 = SSR = 5173.78 = 0.9966
SST 5191.35
r2 值很接近于 1,表明回归直线对样本数据点的拟合程度很高。
- 估计标准误差。由前面的计算知 Sy=1.2550,表明回归标准误差较小。
结论:该回归模型虽然其他检验都已通过,担 D.W 检验没有通过,表明
残差序列存在正自相关,前面应用最小二乘法的结果中S2 可能低估了真正的
σ2,因而 t 检验、F 检验不再有效。这种情况下,应分析查找残差序列自相关的原因,并采取相应措施加以解决,以建立更适宜的回归方程。
一般来说,导致残差序列自相关的原因有以下三种。(1)选择的数学模型不合适,变量间不是线性关系而建立了线性模型。这种情况应进一步选择合适的模型;(2)模型中包含的自变量数目不合适,或是遗漏了某些重要的影响因素,或是包含了不必要的影响因素;(3)序列中包含有很强的趋势分量。通常可以采用迭代法或差分法进行补救。由于经济的时间序列常常有自相关现象,因此在计量经济学教科书中都有较详细的讨论。
§6.2.4 利用回归方程进行预测
利用变量 Y 与 X 的 n 对样本数据建立的回归方程
Y∃ = a + bX (6.16)
如果通过了上述的各种检验,即可用来预测。所谓预测问题,就是在确定自变量的某一个 X0 值时求相应的因变量 Y 的估计值,其中又可以分为点预测和区间预测。
- 点预测。将自变量的预测值 X0 代人回归模型(6.16)式所得到的因变量
Y 的值Y∃ ,作为与 X 相对应的 Y 的预测,就是点预测。可以证明Y∃ 是无偏
0 0 0 0
预测。
- 区间预测。对于与 X0 相对应的值 Y0,Y∃ =a+bX 可以作为 Y0=α+βX+ε
的一个点估计值。但不同的样本会得到不同的a、b,因此,Y∃ 与 Y
之间总
0 0
存在一定的抽样误差。在回归模型的假设条件下,可以证明( Y∃ -Y ) ~
0 0
1 (x − x)2
N[0,σ2(1+
- 0 ) \],因此,Y 的慨率为 1-a 的预测区间为
2 0
n Σ(xi − x)
∃
Y0 ± t a/2 ·σ·
当 x0 取值在x 附近,n 又比较大时,可以近似地认为( Y∃ -Y )~N(0,
0 0
S2 )。因而 Y 的概率为 1-a的预测区间为
y 0
Y∃ ±t ·S
0 a/2 y
实际应用时,常常采用这一区间作为因变量 Y 相对应于自变量 X0 的回归预测区间。当a=0.05 时,Y0 的 95%预测区间为若a=0.01,则 Y0 的 99%预测区间为
Y∃ ±2S
0 y
若 a=0.01,则 Y0 的 99%预测区间为
Y∃ ±3S
0 y
以上是对利用回归方程进行预测方法的介绍。下面,以一个完整的例子加以说明。
例 6.6 根据表 6.2 提供的数据,分析预测 1981 年到 1985 年我国国民收入以 4.5%的速度递增,钢材消费量将达到的水平。
解:令钢材消费量为因变量 Y,国民收人为自变量 X,根据表 6.2 的数据绘制散点图,如图 6.7。从图可以看出,变量 Y 与 X 之间呈线性关系。利用最小二乘法建立一元线性回归方程
Y∃ =-460.5282+0.9840X
表 6.2 我国钢材消费量与国民收入*
年份 |
钢材消费量 (万吨) |
国民收入 (亿元) |
年份 |
钢材消费量 (万吨) |
国民收入 (亿元) |
---|---|---|---|---|---|
1964 |
698 |
1097 |
1973 |
1765 |
2286 |
1965 |
872 |
1284 |
1974 |
1762 |
2311 |
1966 |
988 |
1502 |
1975 |
1960 |
2003 |
1967 |
807 |
1394 |
1976 |
1902 |
2435 |
1968 |
738 |
1303 |
1977 |
2013 |
2625 |
1969 |
1025 |
1555 |
1978 |
2446 |
2948 |
1970 |
1316 |
1917 |
1979 |
2736 |
3155 |
1971 |
1539 |
2051 |
1980 |
2825 |
3372 |
1972 |
1561 |
2111 |
* 国民收入按 1975 年价格计算
图 6.7 钢材消费量与国民收入散点图对模型进行各种检验。
- t 检验。经计算得S2 18348.9240,由此可得
Sb=0.0497,因而 tb=b/Sb=0.9840/0.0497=19.78 根据显著性水平a= 0.05,df=15,查 t 分布表得 t0.05/2=2.1310。由于
tb=19.78>F0.05/2=2.1310
所以,回归系数 b 的 t 检验通过,表明回归系数 b 是显著的,变量国民收入能够解释变量钢材消费量的变化。
- F 检验。计算回归方程的 f 值为 F=391.27。根据显著性水平a=0.05,
df1=1,df2=15,查 F 分布表得 F0.05(1,15)=4.54。由于
F=391>F0.05(1,15)=4.54
所以 F 检验通过,表明回归方程的回归效果显著。
-
D.W 检验。计算 d
统计量:d=2.0326。根据a=0。05,自变量个数1,样本数据个数 17,查 D.W 表得 du =1.38。由于 du=1.38<d=2.0326<4- du=2.62,所以 D,w 检验通过,表明残差序列无自相关。
-
其他检验。r2=0.9631,接近千
1,表明回归直线对样本数据点的拟合程度很高。
Sy=135.4582,虽然并不接近于 0,但其与因变量样本数据平均值y =
1585.4710 的比值为:Sy/ y =0.0854,小于 10%,可以认为比较小。
上述分析说明,回归方程通过了各种统计检验,可以用来表述钢材消费量和国民收入之间的回归关系。
预测:
若 1981 年至 1985 年国民收入以 4.5%的速度递增,利用回归方程可以得到相应的钢材消费量点预测值及 95%的预测区间,如表 6.3。
利用变量 Y 与 X 的样本数据建立的回归方程能否用于预测,除了需要通过各种统计检验外,还应考虑变量之间结构关系的稳定性。若变量间的结构关 系 比 较 稳 定 , 这 种 关 系 又 能 保 持 到 预 测
表 6.3 钢材消费量的预测结果
年份 |
国民收入 (亿元) |
钢材消费量 (万吨) |
钢材消费量预测区间 (万吨) |
---|---|---|---|
1981 |
3523.7 |
3006.83 |
2741.33 ─ 3272.33 |
1982 |
3682.31 |
3162.86 |
2897.36 ─ 3428.36 |
1983 |
3848.01 |
3325.91 |
3060.41 ─ 3591.41 |
1984 |
4021.17 |
3496.30 |
3230.80 ─ 3761.80 |
1985 |
4202.13 |
3674.37 |
3408.87 ─ 3939.87 |
期,那么回归方程用于预测是适宜的。否则,应慎重使用。建立回归预测方程时,样本数据不宜过少,因为小样本也许不能真实反映变量之间的结构关系。
§6.2.5 可化为线性的回归
现实的社会经济现象之间并不都呈线性关系,更多的是非线性的,如图
-
所示的单机成本与产量的关系。这些非线性的统计关系,往往也可以配合适宜的曲线模型,但非线性回归不能进行上述的检验和推断,因为那是建立在线性统计模型基础上的。许多非线性回归模型经过适当变换,可以转化为线性回归模型的形式。通常采用的能化为线性回归的曲线模型有
-
幂函数曲线
-
双曲线
-
Y∃ = aX b
Y∃ = a + b
X
或
1 = a + b Y∃ X
- 指数曲线
或
-
对数曲线
-
S 曲线
Y∃ = aebX
b
Y∃ = ae x
Y∃ = a + b ln X
Y∃ =
1
a + be−x
表 6.4 是上述曲线模型的函数变换表。根馅变换以后的线性模型,可以采用最小二乘法确定回归曲线中相应的参数值。
回归曲线可以根据专业知识(理论上的推导或积累的实际经验)选择,也可以将有关样本数据点绘制成相关散点图,根据其分布形状和特点选择。为了判断回归曲线的选择是否合适,可以将变换后的因变量和自变量数据绘制成散点图,如果所有的点集中在一条直线附近,表明回归曲线的选择是恰当的。否则,应调整回归曲线模型。
例 6.7 分析某企业电视机单机成本与月产量之间的回归关系,有关数据如表 6.5。
解:根据生产实际考虑,一般单位成本与产量之间成反比例关系。将表
- 的数据绘制成散点图,如图 6.3。由图 6.3 可以看出,电视机单机成本与月产量的关系大致呈双曲线形式(双曲线的一支),因而可以考虑建立回归曲线
Y∃ = a + b
X
根据表 6.4 提供的变换,可以得到新方程
Y’=a+bX’
式中: X' = 1 。变换后的数据绘制的散点图如图 6.8。由图 6.8 可以看出,
X
Y’与 X’基本呈线性关系,表明建立双曲线回归模型合适。用最小二乘法估计参数,得到月产量与单机成本之间的回归方程Y∃ = 250.7848 + 355457.05 1
X
表 6.4 常见曲线的函数变换表
原方程式 |
自变量和因变量变换函数 |
新方程式 |
参数变换公式 |
||
---|---|---|---|---|---|
Y’=f1(Y) |
X’f2(X) |
||||
Y∃ =aXb |
Y’=lnY |
X’=lnX |
Y’=a+bX’ |
a=a’ |
b=b’ |
b Y∃ =a+ X |
Y’=Y |
1 X’= X |
Y’=a+bX’ |
a=a’ |
b=b’ |
1 b Y∃ =a+ X |
1 Y’= Y |
1 X’= X |
Y’=a+bX’ |
a=a’ |
b=b’ |
Y∃ =abbx |
Y’=lnY |
X’=X |
Y’=lna+bX’ |
a=a’ |
b=b’ |
b Y∃ = ae X |
Y’=lnY | 1 X’= X |
Y’=+lnabX’ |
a=ea’ |
b=b’ |
Y∃ =a+blnX |
Y’=Y |
X’=lnX |
Y’=+abX’ |
a=a’ |
b=b’ |
1 Y∃ = a + be− X |
1 Y’= Y |
X’=e-x |
Y’=+abX’ |
a=a’ |
b=b’ |
表 6.5 单机成本与月产量
时 间 |
单机成本(元/台) |
月产量(台) |
时 间 |
单机成本(元/台) |
月产量(台) |
---|---|---|---|---|---|
1987 年 1 月 |
346.23 |
4300 |
1987 年 9 月 |
310.82 |
6024 |
2 月 |
343.34 |
4004 |
10 月 |
306.83 |
6194 |
3 月 |
327.46 |
4300 |
11 月 |
305.11 |
7558 |
4 月 |
313.27 |
5016 |
12 月 |
300.71 |
7381 |
5 月 |
310.75 |
5511 |
1988 年 1 月 |
306.84 |
6950 |
6 月 |
307.61 |
5648 |
2 月 |
303.44 |
6471 |
7 月 |
314.56 |
5876 |
3 月 |
298.03 |
6354 |
8 月 |
305.72 |
6651 |
4 月 |
296.21 |
8000 |
图 6.8 变换后的单机成本与月产量散点图
§6.3 多元线性回归
一元线性回归将影响因变量的自变量限制为一个,这在现实的大量社会经济现象中并不易做到。因而,实际应用回归分析法时,常需要有更一般的模型,把两个或更多个解释变量的影响分别估计在内。这就是多元回归亦称多重回归。当影响因素与因变量之间是线性关系时,所进行的回归分析就是多元线性回归。
§6.3.1 多元线性回归的数学模型
当影响变量 Y 的主要因素有 k 个时,可以建立起的总体回归模型为Y=β0+β1X1+β2X2+⋯+βkXk+ε (6.17)
这是 Y 对 X1,X2,⋯,Xk 的多元回归,也称多重回归或复回归。β1,β2,⋯,βk 称为偏回归系数。
模型的基本假设大致与一元线性回归模型相同,只是自变量 X1,X2,⋯,Xk
之间不能有较强的线性关系。
利用变量 Y 与 X 的 n 组样本数据,依照一定准则,可以得到回归系数
β0,β1,⋯,βk 的估计值 b0,b1,⋯,bk;建立起样本回归模型
Y = b0 + b1 X + b2 X 2 + + bk Xk + e (6.18)
相应的多元线性回归方程为
Y∃ =b0+b1X1+b2X2+⋯+bkXk (6.19)
§6.3.2 参数的最小二乘估计
(6.17)式中参数β0,β1,⋯,βk 可以利用变量 Y 与 X1,X2,⋯Xk 的 n 组样本数据,依照最小二乘准则得到,它们可以采用求解正规方程组
计算得到。
式中: Q = Σ(y
- y∃ ) 2 ; y 是因变量的观测值, y∃ 是(6.19)式中的回归值。
i i i i
当自变量的数目 k 较大时,求解正规方程组(6.20)式很复杂,需应用电子计算机,因而通常将多元线性回归模型表述为矩阵形式。令
y1
y
Μ
b0
b
Μ
e1
e
Μ
n
k
n
1 x11
x12
x1k
1 x x x
X =
21 22 2 k
Μ Μ Μ Μ
1
xn1
xn2
xnk
则(6.18)式可以写成矩阵形式
Y=XB+e
依据最小二乘准则,回归系数阵 B 为
B=(X'X)-1X'Y① (6.22)
① 由于 e2=e'e=(Y-XB)'(Y-XB)=(Y'-B'X')(Y-XB)=Y'Y-B'X'Y-Y'XB+B'X'XB=Y'Y-2B'X'Y+B'XB 推导过程
中,由于 B’X’Y 与 Y’XB 均为秩是 1×1 的矩阵,且有(B’X’Y)’=Y’XB, 所以 Y’XB=B’X’Y 由此得 整理得到
式中:X’是矩阵 X 的转置阵;(X’X)-1 是(X’X)阵的逆阵。
由最小二乘准则得到的回归系数bj(j=1,2,⋯,k)表明在其他自变量保持不变的情况下,自变量 Xj(j=1,2,⋯,k)变动一个单位所引起的因变量 Y 的平均变动量。
§6.3.3 模型的检验
多元线性回归模型与一元线性回归模型一样,得到参数的最小二乘估计值后,对模型是否满足基本假设条件也需要进行检验。
- 回归系数的显著性检验。多元线性回归中,需要对每个回归系数的显著性进行检验,以便使模型中只保留那些对因变量有显著影响的因素。其步骤同一元线性回归,只是查 t 分布表时,自由度应是 n-k-1。
回归参数的 t 检验通不过,可能是与这个系数相应的自变量对因变量的影响不显著所致,也可能是自变量之间有共线性所致②。若自变量不是影响因变量的显著因素,应从回归模型中剔除;若自变量间有共线性,应设法消除共线性。
- 回归方程的显著性检验。在一元线性回归中,回归系数的显著性检验(t 检验)与回归方程的显著性检验(F 检验)是等价的,但在多元线性回归中, 这个等价不再成立。t 检验是分别检验回归模型中各个系数的显著性,而 F 检验则检验整个回归关系的显著性,即
原 假 设 H0:β1=β2=⋯=βk=0
对立假设 H1:βj 不同时为 0 j=1,2,⋯,k 计算 F 统计量
Σ(y∃- y) 2 / k
F = Σ(y - y∃)2 / n − k − 1
(6.23)
根据给定的显著性水平a,自由度 df1=k,df2=n-k-1,查 F 分布表,得到相应的临界值 Fa。若
F>Fa
拒绝 H0,可以认为回归方程有显著的意义,回归方程回归效果显著。若
F≤Fa
则不能拒绝 H0,回归方程无显著意义,回归方程回归效果不显著。
3。拟合程度的测定。与一元线性回归中可决系数 r2 相对应,多无线性回归中有多重可决系数 R2。它计量了在因变量的变动中,由回归关系解释的变动所占的比重。R2 与 r2 一样,定义为
R2 =
Σ(y∃− y)2
Σ(y − y)2
= 1 −
Σ(y − y∃) 2
Σ(y − y) 2
(6.24)
R2 是样本回归线对样本数据点拟合程度的测度,但它受回归方程中引进自变量数目多少的影响,与因变量有关的因素引进越多,R2 越接近于 1。但这样做,不仅加大计算工作量,还会引起自变量间的共线性。为消除自变量数目对 R2 的影响,常采用调整的(修正的)R2,调整的 R2 被定义为
X’XB=X’Y
② 自变量之间有较强的线性关系,如自变量 X1 与 X2 之间可表述为:X1=0.25X2,则称自变量有共线性。
R2 = 1 −
R2 与R2 有如下的关系
Σ(y − y∃) 2 / n − k − 1
Σ(y − y) 2 / n − 1
(6.25)
R2 = 1 − (1 − R2 )
n − 1 n − k − 1
(6.26)
多无线性回归中也应进行 D。W 检验井考察回归的估计标准误差,这与一
元线性回归中所讲述的没有差别,放不再赘述。
§6.3.4 应用举例
例 6.8 利用表 6.6 提供的数据,考察火柴销售量与各影响因素之间的回归关系。
解:令人柴销售量为因变量 Y,煤气、液化气户效,卷烟销量,蚊香销量,打火石销量分别为自变量 X1,X2,X3,X4。根据表 6.6 的数字,通过有关统计软件,采用最小二乘法估计参数。得到关于火柴销售量的四元线性回归方程
Y∃ = 17.3973 + 0.0503X + 0.2551X − 0.0040X − 0.2432X
1 2 3 4
(2.4002)(11.9004)(−0.1162)(−19.5454)
式中:每个回归系数下面括号中的数值是与其相应的 t 值。可以看出,其中
|tb |=0.1162<2,根据经验①可知,回归系数 b 的 t 检验未通过,且 b 的符号与其实际经济意义相反。蚊香销量增加,火柴销量相应地应该增加,b3 应为正数。变量调 X3 在这种情况下引人回归方程是不合适的。剔除 X3。用其余三个变量建立 Y 的回归方程得
对模型进行各种检验。
- 回归系数的显著性检验。根据显著性水平a=0.05,df=15-3-1=11,查t 分布表,得 t0.05/2=2.2010,通过在电子计算机上运用统计软件处理得到
tb1=3.5164>t0.05/2=2.2010 tb2=13.2278>t0.05/2=2.2010
|tb3|=20.5262>t0.05/2=2.2010
表明三个回归系数的 t 检验均通过,所选择的自变量是影响火柴销售量的主要因素。
- 回归方程的显著性检验。通过电子计算机处理得 F=645.4824,根据显著性水平a=0.05,df1=3,df2=11,查 F 分布表得 F0.05(3,11)=3.59,因为
F=645.4824>F0.05=3.59
所以,F 检验通过,表明回归方程的回归效果显著。
3.D.W 检验。计算残差序列 d 统计量得 d=2.0661,根据显著性水平a
=0.05,样本数据个数 n=15,自变量个数 k=3,查 D.W 表得 dl=0.82,du
=1.75。由于 du=1.75<d=2.0661<4-du=2.25,D.W 检验通过,表明残差序列无自相关。
① 经验规则,一般取 t0.05/2=2 来判断。
4.拟合程度测定。计算得到 R2=0.9944, R2 =0.928,接近于 1,表明回归线对样本数据点的拟合程度很高。
5.回归标准误差。计算得到的回归估计标准误差 Sy=0.4178,表明估计标准误差很小。
结论:回归方程通过了模型的所有统计检验,表明以煤气、液化气户数,
卷烟销售量,打火石销售量来解释说明火柴销售量的变化是适宜的,所建立的回归方程表述了这种回归关系。
习 题
- 某市电子工业公司有 14 个所属企业,各企业年设备能力与年劳动生产率统计数据如表 1。试分析企业年设备能力与年劳动生产率的关系。若该公司计划新建一个设备能力为 9.2 千瓦/人的企业,估计劳动生产率将为多少。
表 1
企 业 |
设备能力 (千瓦) |
劳动生产率 (千元/人) |
企 业 |
设备能力 (千瓦/人) |
劳动生产率 (千元/人) |
---|---|---|---|---|---|
1 |
2.8 |
6.7 |
8 |
4.8 |
9.8 |
2 |
2.8 |
6.9 |
9 |
4.9 |
10.6 |
3 |
3.0 |
7.2 |
10 |
5.2 |
10.7 |
4 |
2.9 |
7.3 |
11 |
5.4 |
11.1 |
5 |
3.4 |
8.4 |
12 |
5.5 |
11.8 |
6 |
3.9 |
8.8 |
13 |
6.2 |
12.1 |
7 |
4.0 |
9.1 |
14 |
7.0 |
12.4 |
- 对某市的百货商店进行抽佯调查,其中被抽查的 10 家商店职工月平均销售额和利润率的数字如表 2。试分析两个变量间存在的关系,并建立利润率对销售额的回归方程。
表 2
商店 |
人均月销售额 (千元) |
利润率(%) |
商店 |
人均月销售额 (千元) |
利润率(%) |
---|---|---|---|---|---|
1 |
6 |
12.6 |
6 |
7 |
16.3 |
2 |
5 |
10.4 |
7 |
6 |
12.4 |
3 |
8 |
18.5 |
8 |
3 |
6.2 |
4 |
1 |
3.0 |
9 |
3 |
6.5 |
5 |
4 |
8.1 |
10 |
7 |
16.8 |
- 某广告公司对购买该公司广告劳动的日用化工厂作随机调查。调查内容一是作广告后一年内销售额比这以前 12 个月销售额的增长率,二是广告作出后第 3 个月末顾客中知道广告商品的人数比率(商品知悉率)。8 家被调查厂家的有关资料如表 3。试确定商品知悉率为 20%时,销售额增长率平均水平的 95%置信区间。
表 3
工厂 |
销售额增长率 (%) |
商品知悉率 (%) |
工厂 |
销售额增长率 (%) |
商品知悉率 (%) |
---|---|---|---|---|---|
1 |
11 |
13 |
5 |
21 |
18 |
2 |
48 |
22 |
6 |
35 |
15 |
3 |
72 |
29 |
7 |
82 |
22 |
4 |
95 |
30 |
8 |
62 |
24 |
-
某公司的决策者通过反复调查分析认为,影响该公司总销售额的因素主要有:人均生活费收入、商品价格、投资额和广告费用。根据每半年一期的统计,有关数据如表 4。试分析评价总销售额对四个变量的回归方程。
-
对经营同一类产品出口业务的公司进行抽样调查,被抽查的 13 家公司,其出口换汇成本与商品流转费用率资料如表 5。试分析两个变量之间的关系,并估计某家公司商品流转费用率是 6.50%的出口换汇成本。
第 7 章 时间序列与指数
§7.1 时间序列的分析指标
反映社会经济现象的数据大部分是按时间顺序记录下来的,这些各期记录的观察值的序列就叫做时间序列。如 1983 年 1 月—1988 年 12 月各月的工业总产值,
1978 年—1989 年每年的粮食产量等。对时间序列进行分析的目的是描述时间序列的过去行为,分析这种行为,从而进一步预计未来的情况。对时间序列过去行为的描述可以采用一系列动态分析指标,如平均发展水平、平均发展速度。
§7.1.1 发展水平和平均发展水平
发展水平是时间序列中原有的统计指标数值,它通常用符号 a 表示。a0,a1,⋯,an 是序列各个时期(或时点)的发展水平,其中 a0 是最初水平,an 是最末水平,中间各项是中间各时期(或各时点)的水平。若有 1983 年 1 月到
1988 年 12 月我国工业总产值的时间序列,那么,1983 年 1 月工业总产值是序列的最初水平,1988 年 12 月的工业总产值是序列的最末水平。在研究某一时期的发展水平时,常把研究的那个时间的发展水平称作报告期水平或计算期水平,用来作为比较基础的时间的发展水平称为基期水平。如对比 1988
年 12 月与 1983 年 12 月的工业总产值,则 1988 年 12 月的工业总产值是报告期水平,1983 年 12 月为基期水平。基期和报舍期是随对比的时间而确定。平均发展水平是把不同时间的发展水平加以平均所得到的平均数,统计
上称为序时平均数。它将社会经济现象在不同时间上的数量差异抽象化,从动态上反映现象在一段时间的一般发展水平。序时平均数在时间序列的动态分析中,可以用来修匀序列,消除现象在短时间内的波动,使序列能更明显地反映出现象的发展变化趋势。序时平均数还广泛用来对比不同单位、不同地区、不同部门以至不同国家在某一时间内现象发展的一般水平。
序时平均数因时间序列指标性质的不同而有几种计算公式。
若时间序列反映的是一个时期指标在各个时期的发展水平,那么计算序时平均数可以采用下面公式:
a = a1 + a2 + + a n
n
= Σai
n
(7.1)
式中:a 是序时平均数;ai(i=1,2,⋯,n)是各个时期的发展水平;n 是时期数目。
用(7.1)式可以计算 1983 年至 1988 年的年平均工业总产值,1989 年 1
月至 12 月的月平均工资等。若序列表现的是某一时点指标在不同时期的发展水平,则当整个研究期的各个时点数据齐备时,也可以采用上式。如某工厂利用 1989 年 10 月份各日的工人人数,求 10 月份的平均工人数;某商店利用
8 月份每日的商品库存额,计算该月商品平均库存额等。
若时间序列反映某一时点指标在不同时期的发展水平,而时点数据资料不齐备,因而不连续,但时点的时间间隔相等时,可以采用下列公式计算序时平均数。
1 a + a + + a 1
2 1 2 n-1 + 2 a n
a n - 1 (7.2)
式中各符号意义同(7.1)式。
例 7.1 某工厂职工人数资料如表 7.1,试计算第二季度的平均职工人数。
表 7.1 第二季度职工人数 (单位:人)
4 月 1 日 |
5 月 1 日 |
6 月 1 日 |
7 月 1 日 |
|
---|---|---|---|---|
职工人数 |
2040 |
2035 |
2045 |
2058 |
解:假设职工人数在两个时点之间的变动是均匀的(因为表 7.1 提供的数据可认为时点间的间隔是相等的),故采用(7.2)式计算第二季度平均职工人数:
1 × 2040 + 2035 + 2045 1
2058
a = 2
4 − 1
+ 2 ×
= 2043(人)
该厂第二季度平均职工人数为 2043 人。
若时间序列反映某一时点指标在不同时期的发展水平,而掌握的时点数据资料的时间间隔不相等,则需以时间间隔长度 f 为权数,采用下列公式计算序时平均数。
( a1 + a2 ) × f
a = 2 1
+ ( a 2 + a 3 ) × f
2 2
n−1
+ + ( a n −1 + a n ) × f
2
n −1
(7.3)
∑fi i=1
例 7.2 某商店 1988 年商品库存额资料如表 7.2。试计算全年平均库存额。
表 7.2 商品库存额数据 (单位:万元)
时 间 |
库存额 |
时 间 |
库存额 |
---|---|---|---|
1 月 1 日 |
5.2 |
9 月 30 日 |
4.2 |
3 月 31 日 |
3.6 |
12 月 31 日 |
5.6 |
5 月 31 日 |
3.0 |
解:假定商品库存额在两个时点之间的变动是均匀的,由于时点数据资料的时间间隔不等,故采用(7.3)式求年平均库存额。
5.2 + 3.6
( 2
) × 3 + (
3.6 + 3.0
2
) × 2 +
( 3.0 + 4.2 ) × 4 + ( 4.2 + 5.6) × 3
a = 2 2
12
= 4.075
该商店 1988 年商品平均库存额为 4.075 万元。
§7.1.2 发展速度和平均发展速度
发展速度是时间序列中两个时期发展水平的比,即发展速度=报告期水平/基期水平
它是用来研究社会经济现象发展程度的相对指标,说明报告期水平已发展到基期水平的若干倍或百分之几。由于计算发展速度时采用的基期不同,发展速度可分为定基与环比两种。
定基发展速度是以各个报告期水平同某一固定基期发展水平之比。若以a0 表示固定基期,则定基发展速度为
a1 , a 2 , , a n -1 , a n
(7.4)
a0 a 0 a 0 a0
定基发展速度用来说明被研究现象在一定时期内总的发展情况。
环比发展速度是用各报告期水平同前一期水平相比。若时间序列是: a0,a1,a2,⋯,an,那么,环比发展速度为
a1 , a 2 , a 3 , , a n-1 , a n
(7.5)
a 0 a1 a2
a n-2
a n-1
环比发展速度用来说明被研究现象逐期发展变化的情况。
表 7.3 是某企业 1984 年到 1988 年工业生产的发展情况。从(7.4)式和
(7.5)式以及表 7.3 提供的数据可以看出,定基发展速度和环比发展速度虽然各说明不同的问题,但它们之间存在一定的数量关系,即
表 7.3 某企业工业生产发展情况 (单位:万元)
1984 年 |
1985 年 |
1986 年 |
1987 年 |
1988 年 |
|
---|---|---|---|---|---|
工业总产值 |
677 |
732 |
757 |
779 |
819 |
(1970 年不变价格) |
|||||
定基发展速度(%) |
— |
108.12 |
118.82 |
115.07 |
120.97 |
环比发展速度(%) |
— |
108.12 |
103.42 |
102.91 |
105.13 |
a n = a1 × a2
× a 3 × × a n
(7.6)
a0 a 0
a1 a 2
a n−1
(7.6)式表明定基发展速度等于相应的各环比发展速度的连乘积。利用(7.6) 式二者之间的关系,可以进行相互间的推算。
发展速度不仅表明社会经济现象发展的程度,还表明其发展的方向。若发展速度大于 1 即大于 100%,说明现象是上升的发展趋势;着小于 1 即小于 100%,说明现象是下降的发展趋势。
平均发展速度是某一段时间内,各时期环比发展速度的平均数,用以说明现象在这段时间内逐年平均发展变化的程度。由于社会经济现象在各个时期所处的条件及影响其变化的因素不同,因而各时期的发展速度有差别,平均发展速度通过对各个时期发展速度的平均,消除了差别,便于对不同时期社会经济现象的发展变化情况进行对比。它是编制计划的依据,也常是进行各种推算和预测的依据。
平均发展速度依据速度指标的特性采用不同的方法计算,常采用的有几何平均法和方程法两种。
- 几何平均法即水平法。若以 x1,x2,⋯,xn 分别表示各期的环比发展
速度,则这段时间年的平均发展速度x 为
x = = (7.7)
根据(7.6)式可知,平均发展速度x 也可为
x =
(7.8)
(7.8)式表明,几何平均法的平均发展速度,实际上只与时间序列的最初水平 a0 和最末水平 an 有关。当最初水平 a0 作为比较的基期时,平均发展速度的大小只取决于最末水平 an,而与时间序列中间各时期的水平无关。因此,它无法反映序列中间各时期水平的发展变化。
利用表 7.3 提供的统计数字,可以计算 1984 年到 1988 年间某企业工业总产值的平均发展速度。根据(7.7)式计算
x =