第三节 多样本比较的秩和检验

(Kruskal-Wallis 法,即 H 值检验)本法利用多个样本的秩和来推断各样本分别代表的总体的位置有无差别(即各总体的变量值有无倾向性的不同)。它相当于单因素方差分析的非参数方法,亦称 H 检验,有直接法和频数表法。适用于计量资料与等级资料。1.建立假设

  1. 编秩将各样本数据从小到大统一编秩,分属于不同样本的相等观察值,应取其平均秩次。

  2. 求秩和分样本计算秩和R ,可用公式 R = N( N+)检验R 的计算是

i

否正确。

  1. 计算统计量 H

12 R 2

∑ i 2 i

H =

N(N + 1)

i − 3(N + 1) (9·5) n i

式中Ri 为第i个样本的秩和,ni 为其含量,N = ∑ni 。

  1. 判断结果求得 H 值后,查表 9-6 三组比较秩和检验 H 界值表,当样本数或各 ni 超出上表范围时,H 的分布近似于自由度为样本数减 1 的 X2 分布, 可查 X2 界值表,得 P 值。最后按所取检验水准作出推断结论。

例 9·3 某院外科用三种手术方法治疗肝癌患者 15 例,每组 5 例,进入各组患者系用随机方法分配,每例术后生存月数如表 9-5 的第(1)、(3)、(5) 栏。试问三种不同手术方法治疗肝癌的效果有无差别。

表 9 - 5 三种手术方法治疗肝癌患者的术后生存月数

甲法术后生存月数

秩次

乙法术后生存月数

秩次

丙法术后生存月数

秩次

(1)

(2)

(3)

(4)

(5)

(6)

3

4

9

13

1 1
7

10

12

15

2

2.5

7

10

11

14

6

7.5

6

7.5

8

12

4 5
2

2.5

5

6 7

10

Ri 34

60

26

ni 5

5 5
  1. 建 立 假 设 H0:三个总体的分布位置相同 H1:三个总体的分布位置不同或不全相同α=0.05

  2. 编秩见表 9-5

    第(2)、(4)、(6)栏。将各组数据混合由小到大排列并编上秩次,如遇相等数值则取平均秩次。

  3. 求秩和见表 9-5 下部。

  4. 计算统计量 H

本例,

H = 12

 342

+ 602 +

262

 3(15 1)

15(15 + 1) 

5 5 5 

=6.32

表 9 - 6 H 界值表(三样本比较的秩和检验用)

n n1

n2

n3

0.05 P

0.01

7 3

2

2 4.71
3

3

1 5.14
8 3

3

2 5.36
4

2

2 5.33
4

3

1 5.21
5

2

1 5.00
9 3

3

3 5.60

7.20

4 3

2

6.44

6.44
4

4

1 4.97

6.67

5

2

2 5.16

6.53

5

3

1 4.96
10 4

3

3 5.73

6.75

4

4

2 5.45

7.04

5

3

2 5.25

6.82

5

4

1 4.99

6.95

11 4

4

3 5.60

7.14

5

3

3 5.65

7.08

5

4

2 5.27

7.12

5

5

1 5.13

7.31

12 4

4

4 5.69

7.65

5

4

3 5.63

7.44

5

5

2 5.34

7.27

13 5

4

4 5.62

7.76

5

5

3 5.71

7.54

14 5

5

4 5.64

7.79

15 5

5

5 5.78

7.98

  1. 判断结果求得 H 值后,查表 9-6H 界值表,得 P

    值。如在编秩时未遇到相同的数值需计算平均秩次,就可以此 H 值与相应的临界值比较作出判断,否则要计算校正的 HC 值后再作判断。

 12 R2

  ∑(t 3 − t ) 

HC = 

i − 3(N + 1)

1 −

j j 

(9·6)

N( N + 1) n i

 

N 3 − N 

式中分子为 H 值,分母为校正数,tj 为各个需计算平均秩次处的相同数

值的个数,校正后,HC>H,P 值减小。

本例有 3 处需计算平均秩次,故要计算 HC。本例有两个 2(平均秩次均为 2.5),两个6(平均秩次均为 7.5)和三个 7(平均秩次均为 10),故 t1=2, t2=2,t3=3 代入

∑ (t 3 - t ) = (23 - 2) + (23 - 2) + (33 - 3) = 36

j j

j

 12

 342

602

262

  36 

HC = 15(15 + 1)  5 +

5 + 5  − 3(15 + 1)

1 − 153 − 15

 

=6.39

   

较 H 值增大,但相差甚微。查 H 界值表,得 P<0.05,按α=0.05 水准拒绝 H0,接受 H1,三种手术方法术后生存月数不同。

频数表法若样本含量较多,尤其是等级资料,各样本可制成统一组段的频数表进行秩和检验。属于同一组段或等级的观察值,一律取平均秩次,再以各组段的频数加权;由于此时重复的秩次较多,需计算校正 HC 值。

例 9·4 某研究者调查了分娩时孕周与乳量关系,数据见表 9-7 的第(1)~(4)栏,比较分娩时孕周与乳量的关系。

表 9 - 7 分娩时孕周与乳量的关系

乳量

早产

足月产

过期产

合计

秩次范围

平均秩次 秩和

(1)

(2)

(3)

(4)

(5)

(6)

(7)

早产(8)

足月产(9)

过期产(10)

30

132

10

172

1 ~ 172

86.5

2595

11418

865

36

292

14

342

173 ~ 514

343.5

12366

100302

4809

31

414

34

479

515 ~ 993

754

23374

312156

25636

合计

97

838

58

993

-

-

38335

423876

31310

  1. 建 立 假 设 H0:三个总体分布相同

H1:三个总体的分布位置不同或不全相同α=0.05

  1. 编秩求各级别合计及平均秩次。见表 9-7 第(5)、(6)、(7)栏。表中

列出秩次范围是为计算平均秩次用的。因为对于乳量栏为“无”的 172 名乳母来说,它们的秩次应取平均秩次,

即 1+ 2+Λ +172 = 86.5,如此计算较麻烦,可用 1 + 172 = 86.5,结果相等。

172 2

对于乳量少的一组,其平均秩次应为173 + 514 = 343.5,同样可算得乳量

2

多的一组的平均秩次为 754。

  1. 求秩和见表 9-7

    末行。根据平均秩次可分别算得早产组、足月产组及过期产组的秩和。如对于早产组:

R1=(30×86.5)+(36×343.5)+(31×754)

=2595+12366+23374

=38335

  1. 计算统计量 H 以三组的 ni 及 Ri 代入公式,可得

H = 12

993(993 + 1)

= 14.3

 383352

= ×

 97

+ 4238762 +

838

313102

58  - 3(993 + 1)

5.判断结果本例各组例数超出 H 界值表的范围,故按自由度=组=2 查 X2 界值表,得 P<0.05,按α=0.05 水准,拒绝 H0,接受 H1,可认为分娩时孕周对乳量是有影响的。

如果要计算校正的 HC 值,即:

∑ (t

j

3 - t ) = (172 3 - 172) + (3423 - 342) + (4793 - 479)

= 154991382

H = H

17.0

C ∑(t 3 = t )

j j

1− j

N 3 − N

= 14.3

1- 154991382

9933 − 993

= 17.0

查χ2 界值表,得 P<0.05,显然与前面所作出的结论一致,可对乳量是有影响的。