测验的信度

对该实验结果的一种解释认为，因为团体实施的智力测验的可信度不如个别实施的智力测验，所以，实验结果是由测试工具的不可靠性造成的。这一论点在统计上是错误的，但是，这一论点相当普遍，所以本章要加以讨论。

“信度”一词有几种意思，但是，我们最感兴趣的一个意思是，在连续几次测试中，人们的分数在各种分数中保持相对的位置。如果在连续的复测中，每人获得的分数有无同时增加一个相同的分数，那么这个测验就会有极大的信度。这里的一个要点是，即使复测时实验组中没有一个人获得在预测时获得的分数，但测验仍然有可能是完全可信的。理想信度的必备条件是，这个实验组所有成员，从预测到复测的变化是恒定的。

单凭直觉，我们难以弄清测验的不可靠性怎样会造成实验组儿童的 IQ 增量在统计上显然大于控制组儿童的 IQ 增量。事实上，更严格地说，可以证明，测验愈不可靠，就愈难以在两组儿童之间获得系统的、显著的差异，假如这些差异实际上确定存在的话。总之，看来我们的团体智力测验的“不可靠性”无法解释我们的结果，尽管在理论上它可以解释那些一直没有引起人们更多注意的结果。①

① 这里所作的分析仅限于奥克学校实验。假如我们要考虑该实验以外的证据，“意外”理论就会变得难以置信。前面简要提及的三个重复实验都证明了教师期望的显著效应，而且都证明这些效应在推理 IQ 的案例中最为显著。在这四个实验中，有两个实验表明了教师期望所预言的主要效应，但是另外两个实验证明只是在与学生特征或情景变量的交互作用中教师期望才有效应。尽管所有四项研究的结果总的来说使得人们不容怀疑教师期望中的各种变化的效能，但这些结果也有助于强调教师期望效应在运作中可能存在的复杂性。这种复杂性无论在行为科学中的哪一个领域出现，我们都不应感到惊奇，它在研究主试的期望对研究对象的行为之影响的一个有关的领域中已经得到了证明（Rosen－thal，1966）。

① 附录表 A－30 表明了从预测到一年后的后测的总体 IQ、言语 IQ 以及推理 IQ 的复测信度。这些信度按

奥克学校的每个年级、每个轨以及所有班级的实验组和控制组分别列入表中。言语 IQ 和总体 IQ 的总平均信度是＋0. 75，而推理 IQ 的总信度是＋ 0.49。在实验组和控制组之间，IQ 分数的平均信度不是不同的，这意味着实验组儿童确实表现出智力增量，这种增量没有影响他们在自己的实验条件下的等级次序。