五、教学测量与标准化考试

【成功的教学测量必须具备的条件】

当前存在着滥用考试的情况，考试的结果也遭到随心所欲的解释，因此应该强调教学测量必须具备一定的条件才有意义。

有效考试必须具备的条件

对象的可考性：即考核的对象是可测的，并可能使用考试的方法来进行测量。
目标的明确性：即要明确考核什么，要达到什么目的。
试题的代表性：即试题的数量、分布和具体内容对被测的学生应有一定的代表性。
测量的客观性：即考试过程中的各种干扰所造成的误差不致使测量结果失去起码的客观程度。

衡量考试质量的 4 个主要指标

效度：衡量测量准确性的指标，即测量是杏测得了所要测量的东西，它表示所考的与所要考的两者之间相符合的程度。如果考试完全反映了所要考的东西，则效度为 1；如果与所要考的完全无关，则效度为零。真正做到正在测量的恰是想要测量的并非容易，如一次物理考试一个学生得分很低，那么这是由于学生缺乏必要的物理知识呢？还是由于对题目没有正确理解呢？若是后者，那就说明这次测量并没有测出学生的物理水平，而测量的仅是学生的阅读能力、语文水平，它作为一次物理考试，其效度就很低。常使用的效度有两类，即效标效度和内容效度。

①效标效度：效标指的是人为确定的效度标准，也就是被预测的目标。如公认的标准考试所得的分数，历年来的学习成绩等等都可作为效标。它反映了在多大程度上预测了被测的指标，即测量结果与效标间的一致性程度。

效度用效度系数 rxy 来表示。效度系数 rxy 就是测量分数与效标分数的

相关系数，即

式中 x 为测量分数变量，y 为效标分数变量。

如计算一下某次高考试题的效度。随机抽样 5 个学生的入学考试成绩

（测量分数）与他们入学后一年的学习成绩（效标分数），求效度系数。

高考分数 x1 x2 x3 x4 x5 一年级平均分数

则 n=5，∑xy=157601，∑x=1949，∑y=402，∑x2=763041，（∑x）

2=3798601，∑y2=32786，（∑y）2=161604，

这是什么意思呢？即它反映了大学一年级的平均分数（效标分数）中有 42%的差异可由高考成绩来预测。由效度系数 rxy 的平方可得差异数的百分比，本例中 rxy=0.65，r2xy=（0.65）2=0.42，即 42%。

效度是反映测量优劣的指标，效度系数越高，则说明测量越优（最高为 1），一般作为入学考试的效度应在 0.4～0.7 之间。

②内容效度：教学测量是在需要测量的知识总体中，选取一些具有代表性的知识作为样本组成试题进行测量的。作为样本的试题能否很好地代表知识总体的全部内容，即考试内容与预定要考的内容间的一致程度就是内容效度。内容效度尚无法使其数量化，只能靠逻辑推理进行判断。关键是对试题要采取代表性取样，如讲过初中力学以后，出了 10 道考题进行测量，全部都是关于压强方面的，其他内容，如力、运动和力、浮力、密度、简单机械、功和能等完全没有，则不管学生考得怎样，这份题目的内容效度却不高。

信度：衡量测量可靠性的指标。

信度的计算方法通过计算信度系数 rxx 来表示，信度系数越大，说明测量结果越可信（最大为 1）。我国一般要求测量信度在 0.8 以上。信度系数可用相关法求得，但由于搜集测量结果的程序不同，又有三种不同的系数。

①稳定性系数：又叫再测信度。是用同一测量内容在不同时间里进行

二次施测。

②等值性系数：又叫等值复本信度。是用内容取样、题目难度、试题长度都大体相同的两套试题，在最短的时间内，进行两次测量，并计算两

③分半信度系数：为了克服再测信度和等值复本信度要进行两次测量所造成的困难，便将一次测量的题目，等值地分为两半，如按奇、偶数分题，相当于两次考试计分时，将此两部分的分数分开统计，一半以变量 x 表示，一半以变量 y 表示，计算其相关系数作为信度的指标，称为分半信度系数。分半信度系数计算时省时、省力，但测量的信度与测量长度有密切联系，分半结果使测量长度缩短了一半，因此实际计算时常常使用“斯皮尔曼-布朗”公式加以校正。该公式是

式中 rxx 为校正后分半信度系数，rnn 为奇数与偶数题所得的分半信度系数。

这里主要介绍分半信度系数的计算。

如一次测量共出 10 道题，其中每个学生每次做 5 道题，共测了 8 个学生。

被测学生/一/二/三/四/五/六/七/八单数题平均/6/5/4/4/1/15/2

分数 x

双数题平均/4/3/2/4/3/1/5/4 分数 y

则 n=8，∑xy=100，∑x=28，∑y=26，∑x2=124，（∑x）2=784，∑y2=96，

（∑y）2＝676，

经“斯皮尔曼-布朗”公式校正后的分半信度系数

难度：表示测量题目的难易程度。测量难度是影响鉴别力的最重要因素。难度太大，学生得分就普遍降低，形成正偏态分布；难度太小，

学生得分就普遍偏高，形成负偏态分布。两种分布分别集中在高分与低分端，不能有效地鉴别学生的优劣，且分数过分集中，缩小分数分布范围，减小了得分间的差异。

一般的教学测量题目的难度都要求测量结果的分数接近正态分布。分数分布范围较广，是测量良好的重要条件。

难度P 一般可用 1 减去该题所得平均分X 与该题满分W 的比值来计算，

即

一般难度应在 0.3～0.7 之间，整个试卷的难度在 0.5 左右为宜，但这不是绝对的。

区分度：指测量时对被测者的知识和能力水平的鉴别程度。区分度大的测量使程度高的学生得高分，程度低的学生得低分。在录取率较低的考试中，一般要求区分度要大些，通常应在 0.3 以上。

区分度的计算，一般采用两端分组法。即把考生的得分按由高到低的顺序排列，然后用习惯上的“27%划分法”，从最高分开始向下把 27%的考

生作高分组，从最低分向上，把 27%的考生作低分组，分别求出高、低分组中答对的比例 PH 和 PL，则区分度 D=PH-PL。

【标准化考试】

指按照系统的科学组织程序，具有统一标准，并对误差作严格控制的考试，即对考试过程的各个环节都做到标准化，使之能客观而准确地反映出考生真实水平的考试。标准化考试通常有以下 4 项要求：

测量工具即试卷的标准化。按照统一的命题计划，编制出大量高质量的试题，这些试题都经过多次试测和筛选，难度和区分度符合要求，并搭配成多份等价的试卷，这些试卷都具有符合要求的信度和效度。这样一方面按照科学要求，实现了试卷组成的最优化，另一方面，对于使用标准试卷的不同次考试，成绩有了可比性。
考试过程的标准化。在命题的同时，编制出考试条件（考场编制，答卷时间，对考生所作的说明，考生答题方法等）和实施过程的说明书，要求严格按照说明书的规定组织考试工作。这样一方面有效控制了考试实施中可能引起误差的干扰，另一方面不同时间、不同地点的同类考试，又具备了相同的考试条件，具有了可比性。
评分的标准化。按照统一的评分标准和给分办法进行评分。标准化考试除个别主观性试题外，一般都采用阅卷机评分。
分数的解释和使用的标准化。将原始分数转换为标准分数，并提供用作比较的分数标准——“常模”和“目标”。分数常模，就是对大规模

的同类考生，使用标准化试卷，在严格控制的条件下（标准化的考试过程）进行测试，所得到的考试分数的平均值。分数目标，就是按照教学目标规定的可通过的最低标准。实际上它也是根据能够被人们承认为基本达到教学目标的人员的平均水平制定的。

标准化考试的优点是：考试的各个环节，对于可能造成误差的因素都进行了严格的控制，因而测试的结果准确可靠；不同次考试的标准、实施程序、测试条件都是相同的，它们的分数就具有可比性；对于经常举行的大规模考试来说，减少了重复劳动，较为经济。这是近几十年来世界各国广泛推行标准化考试的重要原因。

标准化试卷的编制，一般经过以下几个步骤： 1．明确考试目的。在编制试卷前，首先要明确考试目的，即明确考什

么，考什么人和为什么考。

制定考试大纲。在明确考试目的后，就要根据教学大纲的基本要求，进一步具体规定考试的内容及各部分的比例、考试的方式（如开卷、闭卷、操作等）、方法（如组织、评分、计分等）、考试的类型（如选择、简答、综合等）、考题的多少、相对的重点及考试的时间等。
拟定编题计划。编题计划，实际就是设计试卷的蓝图，通常是列出一张双向细目表，指出试卷所测量的知识和能力，以及对每一种知识和能力的相对重视程度。知识指的是某一学科的各个课题，能力是指通过教学在认识行为上要达到的目标。美国心理学家布鲁姆，把学习的认识活动分为记忆、理解、应用、分析、综合、评价 6 个层次，根据我国的情况，一

般可分为了解记忆、理解掌握和运用发展 3 个层次。 4．编写和审定题目。命题前先要搜集有关资料作为命题的依据。资料

要丰富齐全，具有普遍性，要以大纲和教材为题目来源，编写题目要注意以下几点：

题目的内容范围要与考试计划所列的双向细目表一致。
题目的数量要比最后所需的多几倍，以备筛选和编制复本。
题目的难度必须符合考试目的的需要。
题目的说明必须清楚明白。
题目试测。目的是对初步筛选出的试题性质优劣作出客观鉴定，

以便发现题目质量方面的问题。测试要有代表性，而且人数不能太少。
题目分析。指对题目测试结果进行统计分析，确定题目的难度、区分度。

拼配题目成试卷。总的编排原则是由易到难，形成梯度，以免考生在难题上耽搁太多时间而影响解答后面问题。最后可有少数难度较大的题目，以测考生的最高水平。如果同一份试卷中包含不同性质的材料或不同形式的题目，则要把属于同一内容或同样形式的题目编排在一起，便于作答和记分。
搜集效度和信度资料。试卷在试测和正式使用过程中，要对它在不同情况下测量的有效性和可信性作出评价。严格说来，没有效度、信度证据的试卷是不能使用的。