二、试题的难度与区分度

难度

难度是指测验题目的难易程度，通常用 P 表示。

难度的计算

基本公式：Pi

= Xi

其中，Xi 是参加测验的考生在第i题上的平均得分，W_i是第i题的满分。

此式适应于任何题型。

当第 i 题为客观题（如选择题）时，答对给满分，答错或不答均给零分，则上述公式的另一个变式为：

P = Ri i N

其中 N 是参加测验的总人数，Ri 是答对第 i 题的人数。

当考生人数多，逐题点数工作量大，也容易出错，此时可采用“极端分组法”。其步骤是：根据考生的测验总分，将它们按高低次序排列，取分数最高的 27％的考生为高分组，分数最低的 27％的考生为低分组，分别计算这两组答对第 i 题的百分比 PH（i）和 PL（i），则该题的难度为

P = PH( i) 和PL( i) i 2

例如，有 130 名考生参加化学测验，取其中成绩最高的 27％，约为 35

人作为高分组，成绩最低的 35 人作为低分组。其中答对第 1 题的高分组有

28 人，低分组有 12 人，则该题的难度：

P = 28 / 35 + 12 / 35 = 0.57

1 2

对难度的评价

从以上公式可知，难度值 Pi 越大，说明该题的平均得分率（或答对率）越高，表示该题越容易。反之，Pi 值越小，该题越难。可见，难度是一种反顺序量表。为了与习惯相适应，有人建议采用（1-Pi）表示难度。

难度 Pi 的值域为［0，1］，最大值为 1，说明全体考生在该?题上均得满分；最小值为 0，说明全体考生该题均得零分。显然，当 Pi 取这两个极限值时，试题 i 对学生的学习水平没有区分作用。一般要求试题的难度分布在0.35～0.65 之间，整个测验的平均难度保持在 0.50 左右。这样，不仅测验对学生有较好的区分能力，而且测验分数也容易接近正态分布。

值得指出的是，难度大小是对学生的得分情况作统计分析得出的，具有表观意义。对选择题而言，由于猜测机遇的影响，使 P 值变大，这就需要对其进行校正：

CP = kP − 1

k − 1

其中，CP 是校正后的难度，P 是未校正时的难度，K 是备选答案数。

例如，某化学测验中第一大题系选择题，每题有四个选项，其中第 2 小题的答对率为 0.53，则校正难度为：

CP＝ 4 × 0.53 − 1 = 0.37

4 − 1

另外，难度大小也不能说明试题结构的复杂性或解题过程的艰难程度。1986 年高考化学试题第二大题第 1 小题就是一个典型的例子：

十九世纪初，英国科学家提出了近代原子学说，意大利科学家首先提出了分子概念。

据当年对浙江省全体考生的统计分析可知，该题的难度值最小

（0.175），系整卷的最“难”题。这仅仅表明由于教学中忽视了化学史的内容，导致绝大多数考生在简单题上失分。

也有人认为，对难度的评价不必过分拘泥于 0.50 左右这一要求，而应根据测验目的确定。①如只要选出 10％的学生参加省化学竞赛，则试题的平均难度应与选拔率大体相当，即保持在 P=0.10 左右。这样的测验对一般水平的学生而言过于艰深，难以区别，但测验目的在于选出高水平的学生，中下学生难以区分与并不违背测验目的。

区分度

区分度是指测验对考生实际水平的区分程度，即实际水平高的学生应得高分，水平低的学生应得低分。区分度用 D 表示。

区分度的计算

①相关系数法。一般认为，考生所得测验的总分，与每个题的得分呈正

① 王汉澜主编，教育测量学，开封：河南大学出版社，1987 年版，第 101 页。

相关。程度好的学生，总分高，他所答的每个题必有较高分数。正相关越好，区分作用越强。

如设 N 是考生人数，N≥30，X 为某一试题所有考生的得分，Y 是对应的考生总分。运用积差相关法即可求得该题的区分度 D。

②极端分组法。确定高分组、低分组的方法与求难度时的步骤相同。如高分组、低分组在第 i 题上的答对率分别为 PH（i）、PL（i），则该题的区分度

D＝PH(i)-PL(i)

由于测验总分是连续的，而试题往往被划分成对、错记分的二分变量。在统计学上，常用二列相关来表示测验总分与试题得分的关系，其相关系数rb 即为试题的区分度（公式略），常用弗拉南根表直接估计 rb 值。其步骤是：根据极端分组法求得 PH(i)和 PL(i)；查弗拉南根表，表中 PH(i)和 PL(i)交叉对应的数值即为第 i 题的区分度。具体实例可参阅有关著作。①

对区分度的评价

区分度的值域为［-1，1］，最大值为 1，说明高分组在该题上全部通过，低分组全部失败；最小值为-1，说明低分组在该题上全部通过，而高分组全部失败。D=0，说明高分组与低分组通过的人数相等。我们将 D＞0 的情况称为积极区分，D＜0 为消极区分，D=0 为无区分作用。

测验的重要作用之一是为了鉴别学生的相对水平，因而区分度直接影响到试题的质量，对常模参照性测验而言，这一点尤为重要（目标参照性测验主要衡量学生是否达标，区分度指标意义不大）。对试题质量的具体评价是： D＞0.40，优秀；D＝0.30～0.40，良好；D＝0.20～0.29，合格；D=0～0.19，较差；D＜0，极差。对良好以下的试题，应结合测验目的作适当的修改，以提高区分度。