四、物理测验质量的测量与评价

对待测验，以往人们比较注重的是出考题，登考分，很少对测验的可靠性与有效性提出过怀疑。近年来，随着教育测量学的兴起，人们才对测验的科学化和标准化问题进行比较深入的研究，认识到如果不对测验的可靠性和有效性作出科学的评价、给出科学的结论，那么从测验中所获取的教与学的信息将是没有意义的。通常人们借助于对试卷的信度、效度和试题的难度和区分度四项指标的测量来评价一次测验的质量。

信度。

一次可以被人们信任的测验应具有较高的可靠性，即对学生进行多次测量能产生前后一致的结果。信度就是对测量的这种稳定性和一致性的估计，是测验结果能够反映学生稳定水平的程度。

在测量中，按照一定的规则赋值的结果总会包括误差，从而影响测量结果的可靠性。假定某次测验的方差为 St2，它表现出每一考生实得分数之间的差异，这种差异在相当程度上是由不同考生的实际水平的差异所致，但也有部分是由误差所造成。若由误差所造成的方差用 Se2 表示，那么信度的定义是：

r = 1 − S ²／S ² 0≤r≤1

实际上由于无法直接确定 Se2 的大小，故不能依据上式求得信度。通常只能根据实测分数进行估算。从测验结果来估算信度的方法有多种，常用的有分半法、α系数法和 K－R 法。

(1)分半法。具体做法是：先按正常的程序实施一次测验，然后将测验的试卷人为分成相等、独立的两部分，即要求这两部分试题在考查目标、内容、题型、题数、难度分布、分值分配等方面都相同或大致相同。这样做的效果就相当于把其中的一半试卷在相同的条件下，对同一批学生考两次。若每个学生前后两半的分数分别为 x、y，则运用公式

r =

即可计算出这两半测验分数的相关程度，由此可以推断出测验的可靠程度。式中 N 为参加测验的人数。

由于分半法是把一次测验分成两部分，所以由此计算得到的分半相关实际上是一半测验信度的估算值，对于全题量的测验信度还要用斯皮尔曼- 布朗公式进行矫正，即：

rxx=2rx／(1+rx) (2)α系数法。在实际测验中，当试题分成两半的等效性无法保证时，

且试卷中既包括有选择题又有非选择题时，一般采用α系数法来求信度。

其公式为：

ra =

m m − 1

ΣS ²

(1 −ⁱ )

式中 m 为题数，Si2 为考生在各题得分的方差，St2 为考生在测验中总得分

的方差。

(3)K-R 法。若试题全部是选择题时，则可采用 K-R 法来计算信度值。其公式为：

rK−R

= m m − 1

(1 − Σq·p )

式中 m 为题数，p 为某题答对人数的比率，q=1-p。

为提高测验的信度，首先必须使测验的程序规范化，以尽量避免与测验无关的因素引起测量的误差。其次，应注意控制试题的难易程度。一般来说，过难或过易的测验均会降低测量的信度。因为，试题的难易程度将直接影响测验分数的分布，在其他条件相同的情况下，测验分数的分布范围决定实得分数的方差(St2)的大小，由信度定义 r=1-Se2/St2 可知，当误差的方差(Se2)不变时，实得分数的方差 St2 将影响信度的值。再次，在可能的范围内应尽量增加试题的数目，这也是增加信度的有效方法。因为，测验试题越多，取样越全面，就越能消除测验中由学生猜测因素而引起的测量误差。

对于因测验题量太少而引起的低信度的测验，可通过适当增加题数的方法来提高其测验的信度，其增加后的总题量与原题量的比值(N)为

N = rk (1 − rx )

rx (1 − rk )

式中 rx 为原题量测验的信度值，rk 为期望的信度值。

对于用相关法计算的信度系数，在对其结果进行解释前，应先进行显著性检验。一般认为，对于小规模测验的信度值要求在 0.8 以上，对于大规模测验的信度值应在 0.9 以上。若某次测验的信度值 r=0.9，则可认为，本次测验的实得分数中有 90％的方差来自真分数的方差，另外 10％是来自误差的方差。

从信度系数我们不仅可以推断出整个测验的可靠程度，而且还可以从个人实得分数中推断其真分数的范围。即由信度定义式可求得测量的标准

差，其大小为Se

= St

1 − rx 。由于它是误差测量的标准差，所以它可以

像其他标准差一样地解释，即如果选用 95％的可靠度要求，那么，其真分数将有 95％的可能性落在实得分数±1.96Se 的范围内。这说明，由于测量误差的存在，我们不能以一个确定的分数来评论学生的学业成绩，而必须以“一段分数”来评价学生的实际学业成绩。

效度。

效度是衡量测验结果有效性或准确性的质量指标。它反映测验是否准确地测量出它所要测量的东西。一次测验虽能反映出考生在某一方面的稳定水平，但不一定能反映出它所要测量的那个方面的水平。例如，一次物理测验，它要考查的是考生对物理知识掌握的程度，但是，如果考生仅靠语文或数学知识就能得分，那么这次测验的效度就很低了。

从测量学理论来看，一次测验得分的总方差 St2 包括三个部分，即：

St2=Sc o2+Ssp2+Se2

式中 Sc o 2 是与所测量的特征有关的因素造成的方差；Ssp2 是与该测量特征无关的其他因素造成的方差；Se2 是测量误差的方差。

既然效度是指一个测验能测出所要测量的东西的程度，那么，效度可以定义为：

ral=Sc o2／St2

上式表示，效度就是实得分数的方差中，由测量特征造成的方差所占的比率。在实际应用中由于无法直接确定 Sc o2 的大小，故不能运用上式求得ral。

对于效度，通常可以从以下两个方面加以考察。

内容效度。内容效度指的是测验是否测量到所欲测量的具有代表性课程的教学内容和教学目标，是测验的预期目标和实测结果一致性程度的反映。对于内容效度的评估，到目前为止还没有一种简单而令人满意的方法，主要依靠对测验内容和预期目标的逻辑分析和比较来推断。由于作为一次测验的试题不可能包括预期目标中的全部内容，它只能是全部预期内容的一个样组，因此，样组中各成分是否能代表预期目标的整体，即试卷是否有一定的覆盖面，试题的难度、重点知识的分布是否合理以及各测验项目的分数分配是否恰当等是检验试卷内容效度的重要方面。
效标关联效度。所谓效标关联效度指的是，通过寻找一种能够反映某类测验有效程度的测验结果作为标准（亦称效标），进而通过考查这次测验与这种效标之间的关联程度，来描述这次测验的有效性。如果它们之间有较高的相关程度，则说明这次测验是很有效的。由此可见，评价效标关联效度有效性的关键在于寻找能够说明测验有效性的效标。在实际运用中，人们通常选择与实际测验同类的标准化考试的成绩作为关联效度的效标。因为，标准化考试是一种取样范围大、题量多、覆盖面广，并经过有关专家鉴定和权威性机构确认的高效度的考试。

难度。

难度指的是试题的难易程度，它是描述试题对考生知识和能力水平适合程度的指标。难度只具有统计意义，因为，一个学生对一个试题的回答通常是不足以作出该试题是难还是易的结论的，只有对一批考生的答案进行统计，才能给出试题难易的结论。难度分析是试卷项目分析的重要组成部分，亦是评价试题质量的重要指标之一。教育测量学理论指出，试题的难度对测验分数的分布、试卷的信度以及对试题的区分度等有较大的影响。

通常用下列公式来计算试题的难度： (1)二值计分题的难度。

P=1-Y/Y0

式中 Y 表示答对该题的人数；Y0 为考生数。(2)非二值计分题的难度。

P = 1 − X／X0

式中X表示考生在该题得分的平均值；X 0 表示该题的满分值。

用“两端分组法”求试题的难度。用这种方法计算试题难度的步骤是：首先将考生的测验成绩按高分到低分的秩序排列，然后从最高分开始向下取 27％的人作为高分组，从最低分开始向上取 27％的人作为低分组，再分别计算出高分组考生和低分组考生在该题得分的平均值与该题满分的比值 PH 和 PL，最后用公式 P=(PH+PL)/2 求得该题的难度。

在实际运用中，人们通常把试题的难度划分成 5 个等级，并以此作为判断试题难易程度的标准。

表 7—7 评判试题难易程度的一般标准

评判等级	难	较难	一般	较易	易
难度指数	0.00 ～ 0.19	0.20 ～ 0.29	0.30 ～ 0.59	0.60 ～ 0.79	0.80 ～ 1.00

区分度。

区分度是衡量试题对考生不同的知识和能力水平的鉴别程度。它的统计意义是：区分度好的题目，能把不同水平的考生有效地区别开来，即在这些题目上，好学生得高分，差学生得低分；反之，区分度差的试题，好学生和差学生得分呈无规律分布，因此不能有效地区分出能力强和能力差的考生之间的差异。

计算区分度的方法有多种，根据题目类型的不同，主要采用如下计算方法。

二值记分题的区分度。当题目的答案只有两种选择时，一般采用“点双列相关系数法”来计算试题区分度。其计算公式为：

D pq

= (Xp − Xq )·

式中p为答对人数的比率，q = 1 - p，Xp 为答对考生总分的平均值，Xq 为

答错考生总分的平均值，St 为全体考生总分的标准差。

非二值记分题的区分度。对于这类试题的区分度，在满足测验的总分能够区分不同水平考生的前提下，可以通过计算不同考生在该题得分(x) 与该考生的总分(y)之间的相关系数来评估。其计算公式就是积差相关系数计算公式。这样如果该题与总分之间有很大的相关，则说明它能区分不同程度的考生。

对于用上述两种方法计算的区分度值，应先对其进行显著性检验，然后根据检验结果来判断试题区分度的优劣。

用“两端分组法”求试题的区分度。用这种方法求试题区分度的计算步骤同用此法求试题难度的步骤大致相同，它可适用于计算各种题型的区分度。其计算公式为：

D=PH-PL

这种区分度值的取值范围在-1.00～1.00 之间，D 值越大，说明该题的区分度越大，即试题的质量越好。用两端分组法计算区分度的评价标准如表 7

—8 所示。

表 7—8 用两端分组法计算区分度的评判标准

评判等级	劣	尚可	一般	优良
区分度	0.19 以下	0.20 ～ 0.29	0.30 ～ 0.39	0.40 以上