怎样进行试卷分析

在考试结束之后,对试卷进行分析,不但可以对试卷和考试作出恰当的评价,为试卷编制积累经验,提高教师编制试卷的水平,为修改试题和给题库遴选试题提供依据,而且有助于充分地获得考试提供的教学反馈信息,为改进教学提供依据,为考试讲评准备材料。全面的试卷分析主要包括下列内容。

一、试卷的结构分析

主要包括:

  1. 内容结构分析:基本概念和化学原理、元素化合物知识、有机化学知识、化学计算、化学实验等方面的内容比例乃至每一方面的二级结构分析。

  2. 目标水平结构分析:按照考试大纲所列水平(通常分为知道、理解、应用、综合运用等)种类,分析它们的组成比例并且作内容—水平双向交叉分析。

  3. 题型结构分析:各类题型的比例分析。

  4. 分数结构分析:内容—分数和水平—分数的双向交叉分析。

  5. 难度和时限结构分析:对难度测验作难度分布描述,对速度测验作时限分布描述。

  6. 试卷特点及横向、纵向比较:就试卷是否符合考试(教学)大纲规定、是否反映化学学科特点和内在联系、符合学生实际水平、合理性、适宜性以及其他特点作出描述和判断。横向比较可以在学校—学校或地区—地区间进行,纵向比较可以在不同学年间进行。

进行结构分析时,分析者要对测验各项目逐一分析和作出判断,因而结构分析带有较强的主观色彩。分析者对项目的判断跟编制、设计者不一致的情况经常会发生,对于比较复杂的综合题尤其是这样。为此可以把试卷结构分析结果跟编制试卷的结构设计进行比较。

除了难度结构分析跟答卷情况有关,只有在考试实施之后才能进行外,其他各项分析跟答卷情况无关,在考试实施之前就可以进行,属于试卷的“静态”分析。

二、答卷情况描述

主要包括:

  1. 成绩分布情况描述:列出频数分布表或频数分布图。

  2. 统计量描述:列出平均分、标准差、优分率和低分率以及某些因素间的相关系数等数据,还可以进一步作各内容跟其平均得分率、标准差、优分率和低分率的双向交叉分析,各水平层次跟其平均得分率、标准差、优分率和低分率的双向交叉分析,以便从中发现问题。

  3. 分布形态判断:判断总体分布是正态还是偏态或其它形态。

  4. 由样本统计量推测总体参数(总体平均成绩、总体标准差等)。

三、试题及解答情况分析

  1. 题目的内容、水平分析:逐一分析各题的内容、水平和考核意图。

  2. 题目的难度、区分度、灵敏度、识别度和题目反应分布:具体方法参见文后所附题目分析部分。

四、试卷质量分析

  1. 试卷的信度分析和效度分析。参见文后所附“试卷的信度分析和效度分析。”

  2. 整卷难度分析。

  3. 试卷质量评价:就考试目的和试卷内容、结构、形式的合理性、适宜性、有效性和可行性等对试卷作出全面评价。

五、教学分析和教学建议

从得分、失分情况以及某些部分之间的比较、分析,发现教师、学生以及命题等方面的成功与不足之处,并针对存在问题提出改进意见。为了使试卷分析全面、可靠和有效地发挥应有作用,试卷分析工作

应实行教师分析和学生自我分析结合、“动态”分析和“静态”分析结合、定性分析和定量分析结合,在认真分析的基础上,简明、扼要、有重点地写出试卷分析报告。

附:题目和试卷的统计分析方法一、常模参照性测验的题目分析

常模参照性测验题目的分析工作,主要是对测验结果进行统计分析,估计题目的难度、区分度,分析答案是否适宜等。

  1. 难度分析

所谓题目难度是指某一题目的难易程度,通常用答对率 P 来表示。一般说来,题目的 P 值以 0.2~0.8 为宜。也有人用不通过率 Q 来表

示难度。它们的计算方法如下表所示:

表 29 题目难度计算方法一览表

基本方法

题目类型 计 算 公 式

客观性试题 P = 答对人数RQ = 1 − R

总人数N N

非客观性试题 P = 得分总和X N·满分W

= 平均得分x W

极端分组法

 高低分组各

客观性试题

P = R

N

R

P 低 = N

P =

P + P

2

  高 低

 占总人数 

 25%~ 33% 

P = X

    N* 高·*L*

P

X 低 − N低·L

= ,

非客观性试题 高

N (HL)

P + P

N ( HL)

P = 高 低

2

*X 高为高分组的该题得分总和,X 低为低分组的该题得分总和,H、L 分别为该题的最高、最低得分。

P 值无等距性,无法对试题之间的难度差异作精确的比较,也不能用

于计算平均难度。为了对各题难度作比较,通常要把 P 转换成标准难度

△,使之等距化。

△值越大,题目难度越大;△=13 时,题目难度为中等。运用下表可以方便地由 P 值直接查得对应的△值:

表 30 标准难度△换算表

P

0

1

2

3

4

5

6

7

8

9

0.00

(∞)

25.36

24.51

23.99

23.61

23.30

23.05

22.83

22.64

22.46

0.0

(∞)

22.31

21.22

20.52

20.00

19.58

19.22

18.90

18.62

18.36

0.1

18.13

17.91

17.70

17.51

17.32

17.15

16.98

16.82

16.66

16.51

0.2

16.37

16.23

16.09

15.96

15.83

15.70

15.57

15.45

15.33

15.21

0.3

15.10

14.98

14.87

14.76

14.65

14.54

14.43

14.33

14.22

14.12

0.4

14.01

13.91

13.81

13.70

13.60

13.50

13.40

13.30

13.20

13.10

0.5

13.00

12.90

12.80

12.70

12.60

12.50

12.40

12.30

12.19

12.09

0.6

11.99

11.88

11.78

11.67

11.57

11.46

11.35

11.24

11.13

11.02

0.7

10.90

10.79

10.67

10.55

10.43

10.30

10.17

10.04

9.91

9.77

0.8

9.63

9.49

9.34

9.18

9.02

8.85

8.68

8.49

8.30

8.09

0.9

7.87

7.64

7.38

7.10

6.78

6.42

6.00

5.48

4.78

3.69

0.99

( 3.69

3.54

3.36

3.17

2.95

2.70

2.39

2.01

1.49

0.64

  1. 区分度分析

题目区分度是指某一题目对被测水平的区分能力。若某题目能使水平较高的被测得较高分、使水平较低的被测得较低分,该题就有较高的区分度。

区分度分析可以采用极端分组法,或者采用相关法。相关法比较复

杂,这里从略,不作介绍。在极端分组法中,从总体中分出高分组和低分组(比例均为 25%~33%且数值相同),然后计算区分指数 D 作为区分度的指标,如下表所示:

表 31 题目区分度计算方法一览表

题目类型 计算公式

P = R 高 ,P = R 低 ,D = PP

客观性试题 高 低 高 低高 低

极 式中,R高、R低分别为高分组和低分组答对人数;

N 高、N 低分别为高分组和低分组人数。

X 高 − N高 ·L X 低 − N低·L

法 非客观性试题

P 高 =

N 高 (HL)

X

P 低 =

  • X

N低 ( HL)

D = PP

= 高 低

N ( HL)

HL分别为总体中题分的最高分和最低分; N = N 高 = N

除了计算方法以外,还可以采用弗拉南根查表法:根据占总人数 27% 的高分组的答对率和占总体人数 27%的低分组的答对率,从专门的表(附表 5)中查得题目的区分度。

一般说来,当 D<0.20 时,题目的区分度太低,必须淘汰或者加以修改;当 D≥0.40 时,题目的区分度非常好;通常题目的区分度指数 D 在 0.2~0.4 之间。题目难度跟题目区分度之间有着一定的联系。难度太大或者太小,都可能使区分度变小;只有难度适中时,才可能有较高的区分度。

  1. 题目反应分布分析

对于多重选择题等可能有多种答题情况(题目反应)的题型来说, 仅仅作难度分析和区分度分析是不够的,还需要分析题目反应分布情况,检查它是否跟预期的反应分布模式符合,从而发现需要修改之处。题目的难度和区分度也可以从反应分布中得到反映。进行题目反应分布分析,先要制作题目反应分布表。下面是该表的示例,表中还列出了有关的分析和判断:

表 32 题目反应分布表示例

各反应人数

*为答对人数

二、目标参照性测验的题目分析

目标参照性测验题目试测后的分析工作主要是作灵敏度分析和识别度分析,有时也要作题目反应分布分析。

  1. 灵敏度分析

所谓灵敏度是指题目能灵敏地反映教学作用的能力,通常用目标教学前后被测总体的通过率之差来估计。

设目标教学前、后通过试题的被测人数分别为 R1、R2,被测总体人数为 N,则试题对教学的灵敏度指数 S 可按下式计算:

S = R2

N

    R*1

N

= R2 − R1

N

当 S>0 时,试题有效,S 越大,试题对教学作用的感受越灵敏;当

S≤0 时,需要研究是否由教学不当而引起,如非教学不当引起,则可认为试题质量不佳。

  1. 识别度分析

题目识别度是指某试题能有效地识别达标者的能力,通常用合格者通过本题的百分比跟不合格者通过本题的百分比之差来估计。

设 P1 和 P2 分别为合格者和不合格者的本题通过率,则识别度指标 D=P1-P2

识别度指标的最大值为 1.0,当 D≤0 时,该题无预期的识别能力。题目识别度还可以用被测是否合格跟是否通过本题的φ相关系数来

表示。设题目在总人数为 N 的被测总体中的试测结果如下表所示:

表 33 测试结果

合 格

不合格

合 计

通 过

a (人)

b (人)

a + b (人)

未通过

c (人)

d (人)

c+d (人)

合 计

a + c (人)

b+d (人)

N=a+b+c+d

则φ =

adbc

所得φ相关系数需进行检验,方法是:按下式算出 X2

X 2 = Nφ 2

根据df = 1。并取P = 0.05,从X2值表中查得X2 = 3.84,

2 2

(1) 0.05

,即X2>3.84,则可认为φ是可信的,其犯错

误可能性为 0.05。

  1. 题目反应分布分析

目标参照性测验的题目反应分布分析方法跟常模参照性测验的分析方法相似。通过分析不但可以发现题目中存在的问题,还可以了解被测的错误类型及其分布,具有学习诊断作用。

三、试卷的信度分析

信度表示测量的一致性、稳定性和测量结果的可靠性。测量时的随

机误差越小,测量结果就越接近真实值,其信度就越高;样本统计量越是接近总体参数,其信度也越高。

信度常用信度系数 rxx 表示,其值在 0~1 之间。若 rxx=0,表明实得分数完全由偶然误差决定;若 rxx=1,表明实得分数完全不受偶然误差的影响。一般说来,化学学业成绩测验的信度应在 0.90 以上,甚至达到0.95。

由于 Sr 和 SR 难于直接测得,所以 rxx 通常借助于某些特别方法进行

计算。

(一)常模参照测验信度的计算

常模参照测验的信度系数可以用再测法、等价测验法和两半法等方法求得,所得信度系数意义略有不同,分别表示测量的再测稳定性、等价测量稳定性和内在一致性,故又分别称为稳定性系数、等价性系数和内部一致性系数。在化学教学测量中,常用下列方法计算内部一致性系数。

  1. 两半法,即在一次施测后,把试题分为对等、可比的两半,其内容、预测难度、总分和题数都大致相同;计分时把各被测的两半实得总分分开统计,计算两半间的积差相关系数;

rhh

= NΣxΣy − Σx·Σ*y *

式中,x、y 分别为某被测实得的两半总分,N 为被测总数。再将 rhh 代入下式校正,即可得整卷的信度系数 rxx。

rxx

= 2rhh 1 + rhh

采用这一校正公式时,两半的平均数、标准差、项目的组间相关、分布的形态和内容都应相近。否则,整个测验的信度估计 rxx 将有误差。此时可改用下式计算 rxx:

S 2 + S 2

r = 2(1 − a b ) 或r

S 2

= 1− d

xx 2 xx 2

t t

式中,Sa、Sb 分别为两半分数的标准差,St 为整个测验总分方差,Sd 为两半分数之差的标准差。

  1. 克龙巴赫法

rxx

n

= n − 1

S 2 − ΣS 2

2

r

式中,n为题目总数,S2为总分方差,S2为每题得分的方差。

t i

影响测验信度的因素主要有:

  1. 测验长度:测验越长,题量越大,信度越高。

  2. 试题难度:当各题难度和平均难度为中等(P=0.25~0.75)时,

    有利于提高测验的信度。

  3. 样本(或总体)大小:样本(或总体)越大,分数分布越广, 信度越高。

  4. 测验内容的复杂性:测验内容同质性高,信度也高;反之,内容越庞杂,信度就越低。

  5. 施测条件的标准化,有利于减小随机误差的影响。

  6. 评分的客观性。

(二)目标参照测验信度的计算

复本法:以等价的两份测验对同一被测群体施测,设测验结果的分布情况如下表所示:

表 34 测验结果的分布情况

怎样进行试卷分析 - 图1

则测验的信度为

a + c N

合格标准a+b+c+d=N

四、试卷的效度分析

效度表示测量跟测量目的符合的程度,是测量准确性和有效性的指标。跟测验目的无关的因素影响越小,测验的有效性即效度就越高。

(一)常模参照测验的效标关联效度

在确定常模参照测验的效度时,通常以另一比较符合测量目的的测量结果作为检测效度的参照标准(即效标)。设被测总数为 N,x 和 y 分别为被测 i 的本次测得成绩和效标成绩,则

rxy

= NΣxy − Σx·Σ*y *

若已将成绩转换成 Z 标准分,则

rxy

= ΣZx Z y

N

rxy>0 时,说明两者相关(正相关),rxy 值越大相关程度也越大; rxy=1 时表示测量完全反映测量的目的;rxy=0 时,表明两组分数完全不相关(零相关)测量结果跟测量目的无关;rxy<0 时为负相关,表明一测量得分高者另一测量得分低,测量结果跟测量目的完全相反。一般情况下,化学学业成绩测验的效度应在 0.4~0.7 之间

系统误差和随机误差跟实得分数方差比值的大小影响着效度的高低,要提高效度,就必须:

  1. 提高测验的信度,减小随机误差的影响。

  2. 施测标准化、评分标准化、采用适宜的分数合成方法,减少与测验的目的无关的因素,尽量降低系统误差的影响。题文难于理解、数学计算过于复杂等,均会降低测验的效度。

  3. 提高命题质量。试题太少、偏、怪,覆盖面小、编排不当、过难过易等,都会影响效度。

  4. 增大样本容量、使之具有较好的代表性。

  5. 选择可靠(信度高)、符合测量目的的测验作效标。

效度系数也可以视具体情况改用二列相关系数或者点二列相关系

数、φ相关系数等来表示。

(二)目标参照测验的效度

目标参照测验要求测量结果的变异最好为零,故不能用变异量来表示其效度。此时,可以通过内容适宜性来确定其效度。

五、试卷难度分析

试卷难度跟试题难度相似,可以用得分率表示:

P = X

W

也可以用各题难度加权平均求得:

P = Σ WK

W

P = Σ X k k W

卷 卷

当 P 卷为 0.5 左右时,测验分数的分布近于正态。