二、试题的难度与区分度

  1. 难度

难度是指测验题目的难易程度,通常用 P 表示。

  1. 难度的计算

基本公式:Pi

= Xi

Wi

其中,Xi 是参加测验的考生在第i题上的平均得分,Wi是第i题的满分。

此式适应于任何题型。

当第 i 题为客观题(如选择题)时,答对给满分,答错或不答均给零分, 则上述公式的另一个变式为:

P = Ri i N

其中 N 是参加测验的总人数,Ri 是答对第 i 题的人数。

当考生人数多,逐题点数工作量大,也容易出错,此时可采用“极端分组法”。其步骤是:根据考生的测验总分,将它们按高低次序排列,取分数最高的 27%的考生为高分组,分数最低的 27%的考生为低分组,分别计算这两组答对第 i 题的百分比 PH(i)和 PL(i),则该题的难度为

P = PH( i) 和PL( i) i 2

例如,有 130 名考生参加化学测验,取其中成绩最高的 27%,约为 35

人作为高分组,成绩最低的 35 人作为低分组。其中答对第 1 题的高分组有

28 人,低分组有 12 人,则该题的难度:

P = 28 / 35 + 12 / 35 = 0.57

1 2

  1. 对难度的评价

从以上公式可知,难度值 Pi 越大,说明该题的平均得分率(或答对率) 越高,表示该题越容易。反之,Pi 值越小,该题越难。可见,难度是一种反顺序量表。为了与习惯相适应,有人建议采用(1-Pi)表示难度。

难度 Pi 的值域为[0,1],最大值为 1,说明全体考生在该?题上均得满分;最小值为 0,说明全体考生该题均得零分。显然,当 Pi 取这两个极限值时,试题 i 对学生的学习水平没有区分作用。一般要求试题的难度分布在0.35~0.65 之间,整个测验的平均难度保持在 0.50 左右。这样,不仅测验对学生有较好的区分能力,而且测验分数也容易接近正态分布。

值得指出的是,难度大小是对学生的得分情况作统计分析得出的,具有表观意义。对选择题而言,由于猜测机遇的影响,使 P 值变大,这就需要对其进行校正:

CP = kP − 1

k − 1

其中,CP 是校正后的难度,P 是未校正时的难度,K 是备选答案数。

例如,某化学测验中第一大题系选择题,每题有四个选项,其中第 2 小题的答对率为 0.53,则校正难度为:

CP= 4 × 0.53 − 1 = 0.37

4 − 1

另外,难度大小也不能说明试题结构的复杂性或解题过程的艰难程度。1986 年高考化学试题第二大题第 1 小题就是一个典型的例子:

十九世纪初,英国科学家 提出了近代原子学说,意大利科学家 首先提出了分子概念。

据当年对浙江省全体考生的统计分析可知,该题的难度值最小

(0.175),系整卷的最“难”题。这仅仅表明由于教学中忽视了化学史的内容,导致绝大多数考生在简单题上失分。

也有人认为,对难度的评价不必过分拘泥于 0.50 左右这一要求,而应根据测验目的确定。①如只要选出 10%的学生参加省化学竞赛,则试题的平均难度应与选拔率大体相当,即保持在 P=0.10 左右。这样的测验对一般水平的学生而言过于艰深,难以区别,但测验目的在于选出高水平的学生,中下学生难以区分与并不违背测验目的。

  1. 区分度

区分度是指测验对考生实际水平的区分程度,即实际水平高的学生应得高分,水平低的学生应得低分。区分度用 D 表示。

  1. 区分度的计算

①相关系数法。一般认为,考生所得测验的总分,与每个题的得分呈正

① 王汉澜主编,教育测量学,开封:河南大学出版社,1987 年版,第 101 页。

相关。程度好的学生,总分高,他所答的每个题必有较高分数。正相关越好, 区分作用越强。

如设 N 是考生人数,N≥30,X 为某一试题所有考生的得分,Y 是对应的考生总分。运用积差相关法即可求得该题的区分度 D。

②极端分组法。确定高分组、低分组的方法与求难度时的步骤相同。如高分组、低分组在第 i 题上的答对率分别为 PH(i)、PL(i),则该题的区分度

D=PH(i)-PL(i)

由于测验总分是连续的,而试题往往被划分成对、错记分的二分变量。在统计学上,常用二列相关来表示测验总分与试题得分的关系,其相关系数rb 即为试题的区分度(公式略),常用弗拉南根表直接估计 rb 值。其步骤是: 根据极端分组法求得 PH(i)和 PL(i);查弗拉南根表,表中 PH(i)和 PL(i)交叉对应的数值即为第 i 题的区分度。具体实例可参阅有关著作。①

  1. 对区分度的评价

区分度的值域为[-1,1],最大值为 1,说明高分组在该题上全部通过, 低分组全部失败;最小值为-1,说明低分组在该题上全部通过,而高分组全部失败。D=0,说明高分组与低分组通过的人数相等。我们将 D>0 的情况称为积极区分,D<0 为消极区分,D=0 为无区分作用。

测验的重要作用之一是为了鉴别学生的相对水平,因而区分度直接影响到试题的质量,对常模参照性测验而言,这一点尤为重要(目标参照性测验主要衡量学生是否达标,区分度指标意义不大)。对试题质量的具体评价是: D>0.40,优秀;D=0.30~0.40,良好;D=0.20~0.29,合格;D=0~0.19, 较差;D<0,极差。对良好以下的试题,应结合测验目的作适当的修改,以提高区分度。