第一节 直线回归一、直线回归方程

统计研究的双变量有 2 种情况:①一个变量是选定变量,以 X 表示,其

X 值是选定的;一个变量是随机变量,以 Y 表示,其 Y 值是随机变化的。医学和生物学中常见的是各 X 值处 Y 服从正态分布。例如选定变量为年龄 X, 用 1 岁作间距,随机变量为各岁处人群的身高 Y,则各 X 值处 Y 服从正态分布。②两个变量都是随机变量,以 X 和 Y 表示。常见的是(X, Y)服从双变量正态分布(bivariation normal distribution),即任意 X 值处 Y 服从正态分布,任意 Y 值处 X 服从正态分布。例如某个人群的身高和体重用 X 和 Y 表示,则(X,Y)服从双变量正态分布。

双变量资料的统计方法是研究随机变量和选定变量或两个随机变量的数量关系。这种研究是群体研究,其数量关系为统计关系或不确定关系。X 值处的个体 Y 值是不确定的,而是以其均数为中心随机变化。例如不同年龄处的个体身高值是不确定的,而是以该年龄的身高均数为中心而随机变化。这和一般数学研究两个变量的个体函数关系或确定关系不同。

两个变量的数量关系就研究目的来说有依存关系和互依关系。依存关系中一个为自变量,常以 X 表示;一个为应变量,常以 Y 表示。研究 X 对 Y 的作用或 Y 对 X 的依赖,用回归分析。互依关系中两个变量可令为 X 和 Y。研究 X 和 Y 的彼此关系或彼此影响,用相关分析。一般说来,相关分析只适用于双随机变量。

两个变量的数量关系就数学形式来说有直线关系和曲线关系(或非直线关系)。直线关系为最简单和最基本关系,用直线回归与直线相关描述。本节介绍直线回归。

如果选定变量各 X 值处随机变量 Y 服从正态分布且方差相等,各 X 值处 Y 的总体均数μY.x 不等且在一条直线上,则该直线称为总体的μY.X 对 X 的回归直线。双变量正态分布总体若 X 和 Y 的总体相关系数(见下节)不等于零,则存在μY.X 对 X 和μY.X(Y 值处 X 的总体均数)对 Y 的两条回归直线, 但实际应用中一般只研究一条回归直线,可定自变量为 X,应变量为 Y。

设样本的 n 对变量值为:(X1,Y2),(X2,Y2),⋯,(Xn,Yn)。如

果观察到 Y 随 X 的变化有直线趋势,即 Y 随 X 增大而有相应的增大或减小趋势,把 n 对变量值在直角坐标图上描出相应的 n 点,散点图(scatter diagram)呈直线趋势(并非所有散点恰在 1 条直线上),则可拟合样本 Y 对 X 的直线回归方程(linear regression equation),作为总体直线回归方程的估计。据样本 n 对变量值拟合直线回归方程的方法用最小二乘法

(leastsquare method),即使各散点离回归直线的纵向距离平方和为最小。样本直线回归方程及其计算公式为

Y = a + bX (10·1)

∑(X − X)(Y − Y)

b = ∑(X − X) 2

= ∑ XY − (∑Y) / n

∑ X2 − (∑ X)2 / n

(10·2)

a = Y − bX − (∑Y) / n − b(∑ X) / n

(10·3)

Y为X值处Y的总体均数(μY.X )的估计值。a为常数项,是回归直线线在 Y 轴上的截距。b 称为直线回归系数,简称回归系数(regression coefficient),是直线的斜率。回归系数 b 描述 Y 依赖 X 的直线变化的数量关系的方向与大小。

为了进行直观分析,可据直线回归方程绘制回归直线。在 X 的实测全距范围内任取相距较远且易读数的两个 X 值,代入直线回归方程求得两个 Y 值, 把这两对变量值在直角坐标图上描两点,通过两点连直线。

直线回归方程及相应的回归直线的主要用途有:①描述应变量依赖自变量变化而变化的数量关系。例如描述儿童身高依赖年龄变化而变化的数量关系。②由易测的变量值来估算难测的变量值。如用病人体重来估算其体表面积。③由现在的变量值来预测将来的变量值。如由父亲身高来预测儿子成人后的身高。④由于引入自变量,缩减了应变量的变异,因此能更精密地确定不同自变量值处应变量值的正常值范围。例如若不考虑年龄,小儿体重的变异范围大,即正常值范围宽,引入年龄作为体重的自变量,各年龄处小儿体重的变异减小,正常值范围变窄。

例 10·1 某地 10 名女中学生的体重与肺活量如表 10-1 的第(1)、(2)、(3)栏。①以体重为 X(kg)、肺活量为 Y(L),绘制散点图,观察有无直线趋势。②若有直线趋势,拟合 Y 对 X 的直线回归方程。

如图 10-1,把表 10-1 的 10 对(X,Y)值在直角坐标图上描出相应的10 点。观察到散点图有直线趋势。于是拟合 Y 对 X 的直线回归方程。计算表如表 10-1,其相关系数的计算见下节。

b = 946.55 − 405 × 23.15 / 10 = 8.975 = 0.0911

16501 − 4052 / 10

98.5

a = 23.15 / 10 - 0.0911×405 / 10 = -1.3746

故得女中学生肺活量 Y(L)对体重 X(kg)的直线回归方程为

Y = -1.3746 + 0.0911X

据拟合的直线回归方程绘制回归直线:

取X1 = 35则Y1 = -1.3746 + 0.0911×35 = 1.81

)

取X2 = 45 则Y2 = -1.3746 + 0.0911×45 = 2.72

如图 10-1,把(35,1.81)和(45,2.72)在直角坐标图上描出 2 点, 通过这 2 点连直线即得回归直线。回归直线应在 X 的实测全距范围内或估计的实际可应用范围内绘制,不要任意延长。

表 10 - 1 某地 10 名女中学生的体重 X ( kg )与肺活量 Y ( L )的

直线回归方程及相关系数的计算

编号 X Y

X2

Y2

XY

(1)

(2)

(3)

(4)

(5)

(6)

1

35

1.60

1225

2.5600

56.00

2

37

1.60

1369

2.5600

59.20

3

37

2.40

1369

5.7600

88.80

4

40

2.10

1600

4.4100

84.00

5

40

2.60

1600

6.7600

104.00

6

42

2.50

1764

6.2500

105.00

7

42

2.65

1764

7.0225

111.30

8

43

2.75

1849

7.5625

118.25

9

44

2.75

1936

7.5625

121.00

10

45

2.20

2025

4.8400

99.00

合计

405

23.15

16501

55.2875

946.55

图10-1 10 名女中学生体重与肺活量的散点图及拟合的肺活量对体重的回归直线