表 6-2 1987 年广东化学高考试题内容效度统计

内容分数项目	概念和理论	元素和化合物	有机化合物	化学计算	化学实验	合计
第	题数	21	14	9	6	10	60
一	分数	30	19	13	8	15	85
卷	折算分	24.7	15.7	10.7	6.5	12.4	70
第二卷	小题数	4	2	2	2	2	12
	分数	7.0	6.0	4.0	8.0	5.0	30
合计	31.7	21.7	14.7	14.5	17.4	100
命题细目表内容	32	21	15	15	17	100

从表 6-2 可知，试题内容分布十分接近命题细目表中内容的分布。

若用具体数值来表示考试效度时，常采用效标相关效度（r）来衡量一种考试的有效程度。这里所谓的效标，就是要寻找一个能反映考试内容符合教学要求的客观标准，也就是要寻找或编制符合教学要求的样题，向某一学生群体进行测试，进而再编制与样题在考试方向、内容分布和难度分布等相近水平的待测试题，向同一学生群体进行第二次测试，然后考察第 1 次和第 2 次（样题和待测试题成绩）之间的相关程度是否密切①。相关程度越大，效度就越高，效度系数就越接近 1。

效度系数最高为 1，表示考试完全反映了要考的内容。效度为 0 时，表示考试完全与要考的内容无关。一般要求效度要在 0.30 以上，超过 0.5 则属于很好的效度。

考试的信度它表示试卷质量的可靠性、稳定性和可信程度。信度最高为 1，表示考试完全稳定，知识水平相当的一类学生每次测试所得成绩是一样的、完全不受偶然因素的干扰，例如，学生的情绪、身体状况，评分标准的不统一等。信度为零，表示学生的成绩完全是随机的、不稳定的，受偶然因素影响的结果，与学生水平无关。

① 这样测试得到的效度也称为预测效度。

对于较大型的考试，例如考生在 500 人以上，信度要求在 0.80 以上；对

于年级考试，信度在 0.60 以上就可以了，低于 0.50 则是不好的。

难度和区分度在现代教育测量和统计中，倾向于采用得分率或答对率来表示试题的难易程度。一般考试的难度分布要求多数题在 0.3～0.8 之间，少量题在其它两侧，总难度要适中，而且视考试目的要求来拟定。例如，及格率要达到 90％以上，则试题总难度就要控制在 75～80 之间，一般有如下的半经验性数据：

试卷难度	80 分左右	75 分左右	70 分左右	60 ～ 65 分
考生及格率（％）	95 左右	85 ～ 90	80 ～ 85	70 ～ 80

区分度是衡量试题质量的重要指标。区分度高，表示这道试题或这份试卷能区分不同水平的学生，即水平高的学生得高分，水平低的学生得低分。一般要求试题的区分度在 0.30 以上，低于 0.20 的试题在大型考试中就被认为不合格，必须进行修改或淘汰。但是，在常规班级教学测验中仍可保留少量区分度较低的试题。

试题的区分度与难度有关，难度太大或太小的试题，其区分度都较低，难度适中的试题，例如，难度为 0.30～0.80 其区分度一般都较高。

在现代教育统计中，常采用“27％的两端分组法”来计算试题的难度和区分度。①其计算程序是：

①将全班学生的考试分数从高到低按顺序排列，然后从最高分开始向下取 27％的考生作为高分组，再从最低分开始向上取 27％的考生作为低分组。

②求高分组和低分组的平均分（得分率），然后查“弗拉南根”②数据表，从上端 27％答对率数值和下端 27％答对率数值两者纵横直线相交点所代表的数值则为区分度数值，如果是试题分数则为试题区分度，如果是试卷分数，则为试卷区分度。

表 6-2 1987 年广东化学高考试题内容效度统计 - 图1

例如一个实例：

高分组（15 人）平均分 82.1；

低分组（14 人）平均分 46.3。由此，得到的区分度为 0.391。难度的计算采用下述公式：

难度 = 上端答对率 + 下端答对率（6 - 1）

= 0.821 + 0.463

=0.64

标准差标准差表示学生得分的离散程度。标准差值如果大，表示

① 陈梁波等.关于化学考试命题的科学化初探.化学教育，1985（5）：51；本书附录Ⅰ。

② 弗拉南根（J.C.Flanagan）发现从测验所得全部最高分的 27％与最低的 27％的比率迅速估计二列相关系数

（γb）的方法，简称为弗拉南根方法。数据见附录Ⅰ。

学生分数参差不齐，高低分相差较大，也就是学生的分数分散程度较大；若标准差小，表示学生分数比较集中在平均分附近，学生成绩比较均匀，亦即分数的离散程度小，这样的班级学生容易组织教学。对于一个教学班来说，如果考试的标准差随着考试次数的发展而不断减少的话，则说明成绩差的学生可能进步快，学生之间的分数差距不断缩小，这是当前提高教学质量所希望达到的。

标准差的计算公式：

s =

式中，s——考试的标准差X——某种考试的原始分数X——同次考试的平均分

∑—— 求和号 N——参加考试的考生人数

例如，某次考试的标准差计算式为：

s =

=12.4

（6 - 2）

这个数值对于中学化学常规教学来说，还是可以的。一般标准差在 5～ 10 的范围内对于中学化学教学来说是比较适宜的。

以上讨论的是考试质量指标的分析。下面，简要介绍考试内容分析和综合分析。

考试内容分析，是指根据试题所包含的内容，以正确答案的要求为标准，统计一下有关化学用语和基础理论、元素化合物知识、化学实验操作技能和化学计算等各占多少比例；然后分析一下哪些题答得较好，好的原因何在？哪些答得较差，差的原因何在？今后改进教与学的意见和措施，对考得好、进步快的给予肯定。

当在学期开始或初高中学生刚开始学习化学知识的时候，就要有意识拟定一个教学测试和统计分析计划，第一次实施测试时，最好是以了解学生的学习程度为测试目的（诊断性测验），然后将测试成绩按高低顺序排列，并分成若干等级（一般分为 5～6 级），例如：

分数段	90 ～ 100	80 ～ 89	70 ～ 79	60 ～ 69	50 ～ 59	49
以下级别	A	B	C	D	E	F

把学生成绩按分数段来分等级，建立教学档案，每次测试以后都跟前几次排队比较一下，就可发现哪些学生成绩提高快，哪些比较慢，哪些是退步了，哪些学生成绩不稳定等，从中找出适合的机会对各个等级的学生进行针对性的因材施教。

综合分析，是指将考试质量指标分析和考试内容分析结合起来，参照学生平时的学习表现、考试的目标和要求，对教学质量进行全面的、定性和定量相结合的综合分析和评价。