三、评价考试质量的指标

对学生学业成绩的评定，不论其目的如何，总是以测验、考试所获成绩的结果为依据，因而要正确评定学生的成绩，必须重视测试工具试卷的编制。教师应当了解一个标准的，完善的，质量较好的测试工具的标准。一个好的测量仪器需要通过一些指标来说明它的质量，如天平就有误差范围、测量范围等。同样，一个好的测验考试，也须由一些指标来表明。效度、信度、难度、区分度等，则是评价测验、考试质量的指标。

（一）效度

是考试的有效性指标。即所编制的测验工具——试卷能否真正测量到我们想要测量的学习结果或学习特质（智力等问题）。效度可分为内容效度、标准关联效度和结构效度。内容效度可由命题双向细目表来体现，可通过编制“试题核检表”来检验。标准相关效度是用来了解考试分数能否有效地预测或评估某种学习表现。例如可通过计算高考成绩与国际上标准化考试成绩之间的相关系数，或者计算高考成绩与大学一年级学习成绩之间的相关系数来体现高考的有效性，效度高应呈显著正相关。效度最高为 1，表示考试内容完全反映了考生的实际水平。最低为-1，表示考试结果与考生的实际水平完全相反。0 则表示与所要测的完全无关。如果平时成绩优秀的学生在某测验中得较高分数，平时成绩较差的学生得分较低，则那个测试工具便有较高的效度。提高效度的途径是：考试内容要涉及教学的主要部分，试题难度要适当，评分记分标准要统一客观。目前美国大学入学考试效度为 0.4～0.7 之间。经测定，1985 年上海市普通高等学校入学生物学试卷效度为 0.84。说明该试卷效度较高。

（二）信度

考试的可靠性指标。指测验、考试的一致性、稳定性。信度越高，表明考试结果越可靠。故信度是指测值是否没有误差，是否可靠的问题。在视为大体同等的条件下，倘若测量多少次都可以得出大体同一的测值，可认为该测验的信度是高的。信度主要反映偶然因素的影响程度，偶然因素影响大，信度就低，反之，信度就高。一个测验如果不受或极小受其他偶然因素的影响，在相同条件下，几次考试结果大致相同，一致地反映了受测者的实际水平，则称这个测验是可靠的。影响信度的因素较多，如某些人做过类似的题目，而另一些人则未做过；测验试题的指导语不明确；教师评阅的偏见；测验前的提示等，都会影响测验的信度。故要提高信度，就应当尽量减少偶然因素的影响。信度最高为 1，表示测验、考试完全反映了考生的稳定水平。最低为 0，表示考生得分完全随机，与考生本身知识无关。大规模考试要求

信度在 0.9 以上。1985 年上海市普通高等学校招生考试生物学试卷的信度，经测定为 0.96。如信度值偏低，说明考生得分随机成分较大。提高信度的途径是：考试手续、时间必须严格统一规定；评分计分统一客观，消除个人偏见；在许可情况下，试卷覆盖面要尽量宽，增加试题数量；考试题难度适当；指导语清楚；消除考生紧张心理。信度也是统计学上的概念，可用相关系数表示。计算信度的常用方法有折半法，即将一个测试工具分成难易度和分数大致相等的两个部分，求这两部分得分的相关。教师在命题时，可有意识地把每项所要考查的内容和目标，都分成等效的两半（如奇数题、偶数题），在测验实施后，算出每位考生在这两半测验中得分之间的相关系数。或编制两个难度和形式相同的测试工具，具体考题不同，然后在两个不同场合，施行于相同的学生，而求其结果的相关。

（三）难度

即测试工具——试卷的难易程度。是试卷对学生知识水平适合程度的指标。一份好的试卷的难易程度应当符合被测试对象的实际情况，并根据测试目的而定，例如是水平测试，还是入学选拔测试等。所以难度是评价测验、考试质量的重要指标，适当的难度才能保证有较高的区分度。难度计算公式：

某题难度值或通过率（p）= 该题全体考生得分平均值例如某题满分为

该题满分

10 分，该题全体考生得分平均值为 6.4 分，则该题难度值或通过率p = 6.4 =0.64。难度值以 0.3～0.7 为宜。以 1985 年上海市普通高等学校招生

考试生物学试卷为例，研究者抽取了上海市参加生物学考试的全体考生的二十五分之一的试卷作为样本，并随机从准考证号每逢 25 号、51 号、76 号⋯⋯ 中抽取，共得 1115 名考生的试卷，以此为样本，经计算机测试，试卷的 88 个考查点难度分布见表 15。

表 15 1985 年上海市普通高等学校招生生物学试卷难度分布表

难度指数	0.2-	0.3-	0.4-	0.5-	0.6-	0.7-	0.8-	合计
次数（考查点数）	3	7	10	20	24	18	6	88
分值（分）	0.75	7.75	5.25	20.75	7	6.25	2.25	50

次数

（考查点数）

分值（分）

0.75

7.75

5.25

20.75

6.25

2.25

从上表看，试卷中大多数的考题难度在 0.3～0.7 之间，占分值 47 分，为满分 50 分的 94％，总难度为 0.54，故该测试工具的难度指标较为适当。难度指数也可称为通过率，通过率高，试题的难度值高，题较容易；通过率低，则试题的难度值就低，题较难。有人认为称通过率为难度不直观，因为通过率越大表示题目越容易。因而也有人用不通过率或失分率 q 来表示难度：q=1-p。失分率的意义和通过率的意义相反，q 值越小，题目越容易。当然，值得强调的是，在实际应用时，应说明其实际意义，不要将 p 和 q 相混淆。

（四）区分度

是指试卷对学生的学业水平的鉴别能力，也称为鉴别力。一份好的测验试卷应当可以把受测者之间的差异反映出来，鉴别力高的试卷，可使学习好的学生得高分，学习差的学生得低分。鉴别力低的试卷，学习好的学生与学

习差的学生差别不大，则不能很好地鉴别出学生的能力水平。影响区分度的主要因素是试题的难度，题目过难过易，都会使区分度降低，或无法区分。区分度最高为 1，一般要求在 0.4 以上。试题区分度的评价标准见表 16、表17。

从表 17 中试卷的区分度分布看，大多数考查点的区分度在 0.4 以上，占分 43.75 分，为满分 50 分的 87.5%，故区分度尚可。对区分度低的试题应进行分析，是否需要改进或淘汰。

表 16 试题区分度的评价标准

区分度	评价
0.4 以上	非常良好
0.30 ～ 0.39	良好。如能改进更好
0.20 ～ 0.29	尚可。用时需改进
0.19 以下	差。必须淘汰改进

表 17 1985 年上海市普通高等学校招生生物学试卷区分度分布表

区分度指数	0.1-	0.2-	0.3-	0.4-	0.5-	0.6-	0.7-	0.8-	合计
次数（考查点数）	1	5	8	35	22	13	3	1	88
分值（分）	0.5	2.25	4	14	12.75	5.75	0.75	10	50

次数

（考查点数）

分值（分）

0.5

2.25

12.75

5.75

0.75