哈佛习得变化测验

1964 年春，对秋季可能返校的奥克学校的全体儿童进行了“哈佛习得变化测验”（Harvard Test of Inflected Acquisition）。这意味着，幼儿园和除六年级以外的各个年级的儿童都参加了测验。六年级儿童准备进初级中学，秋季不来上学了。该测验据称可以预测学业的“大发展”或“激增”。在第一次测验举行前几个月，向每位教师发了一份研究说明书的复印件，内容如下。

习得变化研究

（哈佛-国家科学基金会）

所有儿童的学业进步都表现出上升、平缓和下降的现象。哈佛进行的这项研究得到了国家科学基金会的资助，它所感兴趣的是那些学业进步异常“激增”的儿童。这些“激增”能够而且的确发生在学业和理智活动的任何一个层次。如果这些“激增”发生在学业不太好的儿童中，结果就通称为“迟来的增长”。

作为我们研究的一部分，我们进一步验证一项测验，这个测验预言儿童在不远的将来会显示出一个转折点或“激增”的可能性。这个测验将在贵校实施，它将使我们预言哪些少年最可能显示出学业上的“激增”。我们可能发现在这个测验中 20％（近似值）得分最高的儿童处在学习活动的各个不同层次。

预言变化或“激增”测验的编制还不能够预言 20％得分最高者中每一个儿童都会表现出“大发展”或“激增”的效应。但是 20％得分最高的儿童将在下一年或更短时间内的学习中表现出比其余 80％的儿童更显著的变化或激增。

由于这些测验的实验性质，测验编制的基本原则不允许我们同家长或儿童本人讨论这个测验或测验分数。本研究结束后，参加研究的各个学区即将获得研究结果。

说明书还规定了测验的日期为 1964 年 5 月、1965 年 1 月、1965 年 5 月，

但未提及原定于 1966 年 5 月进行的追踪测验。

在奥克学校进行测验的表面理由是最后检核这项测验的效度，即已经得到充分确认的效度。实际上，“哈佛习得变化测验”是一种标准化的、相对地非言语的智力测验，即弗拉纳根（Flanagan）的一般能力测验（TOGA）。使用弗拉纳根的一般能力测验的理由如下。首先，这个测验看起来不像

平常在奥克学校使用的任何智力测验，而且教师不可能在其他地方看到过或听说过这种测验。其次，像大多数这类测验一样，它是对小组实施的测验，这是出于对所计划的两千多项测验的考虑而定的一个根本要求。①第三，它是一种完全同类型的测验，因为规定给儿童的任务类型对于小学这一阶段的各年龄都是相似的。最后，而且也许是在有大量会两种语言的学生的以下层社会儿童为主的学校中使用弗拉纳根一般能力测验的最重要的理由，即一般能力测验“旨在提供基本学习能力的测度”（Flanagan， 1960， p. 6），基本学习能力并不很明显地依赖于读写算这类在学校获得的技能。

小学各个年级使用的一般能力测验有三种形式，分别是为幼儿园至二年级、二至四年级和四至六年级这三个层次设计的。在幼儿园至二年级这个层次，由任课教师对所有幼儿园与一年级班的儿童作预测；在二至四年级层次，对二三年级进行预测；在四至六年级层次，对四五年级实施预测。下一个学年的复测用的是面向全体儿童的相同水平的测验，这样我们就会期望得到某种练习效应。然而，练习效应不会对实验组与控制组儿童产生不同影响。我们还应该记得，在相继的几年中，儿童必须有更好的学习成绩才能保持其 IQ 分数，因为随着儿童年龄的增大，必须提高他们的学习成绩才能保住已有的位置。

预测两年之后，对儿童又进行复测。这时，那些预测时在上幼儿园、二年级和四年级的儿童又接受相同的一般能力测验，而那些在一年级和三年级的儿童则参加比原来高一层次的测验。参加预测的五年级儿童在两年后就不参加复测，因为他们已是七年级学生，不再在奥克学校了。

无论在哪一个层次，一般能力测验都由两个相对独立的分测验组成，一个分测验测言语能力，另一个分测验测推理能力。言语分测验题目旨在测量知识、词汇和概念的水平。下面是幼儿园至二年级层次的一个言语测验题的例子：一套茄克服、一朵花、一个信封、一个苹果和一玻璃杯水的图片，要儿童用彩笔圈出“能吃的东西”。尽管对这类测验题的回答取决于儿童是否能够理解英语，但他们不必像在许多其他智力测验中那样用英语讲、读和写。

推理分测验题目旨在测验理解关系和形成概念的能力。每个题目有 5 幅

抽象线条画，其中有一幅与其他 4 幅有某点不同，并要求学生指出不同之处，下面是幼儿园至二年级层次上的这样一个题目的例子：4 个四方形和 1 个圆形，要求学生用彩笔划掉这个圆形。在我们的样本中，推理分测验与言语分测验分数之间的相关为＋0.42，弗拉纳根（1960）在 10 项研究中获得的相关中位数是＋0.43。

两个分测验的实施有重大差异。言语题目大都是大声念给儿童听的，教师在教室走廊前后频繁走动，看儿童是否都翻到了试卷中正确的页码上。推理题目由儿童自己作答，但是两个例子例外，这两个例子在学生开始答卷前由教师在班上作为范例来解答。推理分测验也是在规定时间内进行的。总之，在实施言语分测验期间的师生交互作用比在实施推理分测验期间多得多。这

① 这种情况的后勤问题要求进行小组测验，而且人们普遍感到，只有后勤问题才能证明进行小组测验是合适的。然而，可能还有一些更确实的理由赞成采用主考与考生之间个人交互作用较少的小组测验。例如，当控制主考期望的无意影响变得重要时，第四章中描述的证据表明，小组测验可以比个别测验提供更好的保护措施。在主考向小组读出指导语期间，主考很难对不同的考生作十分不同的朗读。也许主考更难不以十分不同的方式对待他的受到个别教育的考生。

一事实我们后面将有机会提到。