二 几种常用的效度及估计方法

  1. 内容效度

内容效度是指根据测验目的确定的测验内容所引起的预期反应达到测验目的的程度。就化学教学测量而言,测验目的是考察学生达到教学大纲所规定的教学目的和要求的程度,测验内容应是对化学教学大纲所规定的全部教学内容的代表性取样。如果测验的内容取样代表性好,则学生对测验内容的行为反应可以代表教学所引起的学生的全部行为变化,如对化学知识的记忆、理解和应用等,该测验就可以正确地测量出学生的学习成绩,那就可以说,该测验有较高的内容效度。

但是,要用有限的几个或几十个项目代表全部教学内容是比较困难的。因而,测验项目的代表性有大有小,测验的内容效度有高有低。教学测验具备较高内容效度的条件是:一要有定义完好的内容范围;二要使项目对教学内容有较好的代表性。一般而言,按照第三章所介绍的命题步骤和原则设计出的化学试题是可以满足这两个条件的。命题计划设定了测验内容的范围及各部分的比例;双向细目表表明了每个项目所代表的测量目标。所以,当双向细目表与命题计划一致,且项目能够与双向细目表中的测量目标一一对应时,基本可以保证试题的内容效度。

判断一份化学试题的内容效度如何,可以采用以下步骤:

①考察测量的目的、测量目标的分类体系,了解试题取样的依据和材料的来源;

②考察试题的双向细目表,看其双向细目的划分及各个部分的比例是否符合化学教学大纲和考试目的的要求;

③逐个考察每个项目,包括项目内容、参考答案、评分标准等,并与双向细目表对照,看项目能否代表其测量目标;

④综合上述各项的考察结果,对试题的内容效度作出判断。

这种方法实际上是一个逻辑分析过程,以此方法确定的内容效度也可称为逻辑效度。此外,还可以用再测法和经验法判断试题的内容效度。再测法是在教学过程前后分别用同一份试题或等值复本进行两次测验,若后一次测验分数大大高于前一次测验分数,则说明测验内容和教学内容一致,试题有较高的内容效度;反之,内容效度就低。经验法是用包含不同年级教学内容的试题测验各个年级的学生,考察不同年级的学生的总分和在代表各个年级教学内容的项目上的反应情况,如果学生的测验分数和项目通过率随年级增高而增高,则说明项目代表了不同年级的教学内容,测验有较高的内容效度。

用内容效度考察试题的有效性,是目前比较合适且应用较多的方法。但由于内容效度尚未找到较理想的数量化指标,因而妨碍了试题评价信息的交流和各测验间的相互比较。

  1. 构想效度

构想效度就是指测验对预先设立的某一理论上的概念、构想或研究特性的实际测量程度。考察和研究构想效度的目的是要回答下面的问题:一个测验要测量的理论构想是什么?测验对该构想测量到何种程度?在测验分数的总变异中有多少来自要测的构想?

要判断一个测验的构想效度,通常需要经过以下三个基本步骤:

①确定能够解释学生在测验上表现的理论构想;

②根据理论构想推演出各种关于学生测验成绩的假设;

③用逻辑分析、统计分析等方法来收集证据、验证假设。

例如,中学化学教育目标(认知领域)的学习水平分类,实际上也是一个理论构想,我们可以通过构想效度来评价某种分类方法的合理性。假设: 当项目的测量水平与测量目标(即学习目标)的学习水平一一对应时,学生在属于同一学习水平的项目上的反应基本相同,而在属于不同学习水平的项目上反应基本不同,那么,学生在属同一学习水平的项目上的得分应存在高相关,而在不同水平层次的项目得分应具有低相关。根据这一假设,我们可以对所有项目或有重点的选择部分项目,计算其两两之间的相关系数,考察它们之中高相关的是否属于同一学习水平、低相关的是否属于不同的学习水平,从而验证我们的理论假设,进而评价学习水平分类的合理性。

我们还可以通过对项目难度的分析来评价关于化学教育目标学习水平分类的理论构想的合理性。假设:不同学习水平的项目应有不同的难度水平; 属于高层次学习水平的项目难度大,而低层次项目的难度小;学习能力不同的学生对水平不同的项目反应也应不同:高分组学生在低水平项目上的反应差别小,而在高水平项目上的反应差别大;低分组学生却恰恰相反,只在低水平项目上的反应有差别而在高水平项目上的反应几乎相同。根据上述假设,可以将项目按其难度大小进行分组分析,也可以分析高分组学生和低分

组学生对难度不同的项目的反应情况,对假设进行检验,从而评价学习水平分类的合理性。

当对测验结果的分析检验不能证实构想时,可能会有多种解释,例如:

①构想本身有错误;②测验的构想效度低,即测验没有能够测量构想;③检验假设的程度、方法不够合理,等等。尽管构想效度目前还存在着许多局限性,但它毕竟提供了一种研究理论构想的具体方法,使教育测量成为发展教育理论的有效工具之一。

  1. 效标效度

效标效度是指测验分数与效标的相关程度。所谓效标,就是检验测验有效性的一种参照标准。效标常用一种公认比较可靠或权威的测验结果表示。这实际上就是用一种已知的且认为其“有效”的测验结果去检验另一个新测验的有效性。之所以不直接用效标测验去代替新测验,往往是因为新测验可能比效标测验更为简单、易行。

化学教学中常用学生的实际高考成绩与模拟高考试题得分之间的相关来检验高考模拟试题的有效性。这里应用的就是效标效度的检测方法,高考就成了模拟考试的效标。

由于效标效度采用测验分数和效标分数间的相关系数来表示,可以对被检测的测验进行定量化的分析比较,相对于内容效度而言更为客观,其意义也较直观,易于被理解和接受。但是,效标效度在实际化学教育测量中应用得并不多,这主要是因为目前尚未找到比较合理的、可以满足化学教育测量各种要求的效标。除高考外,还没有其他比较权威的化学考试,而高考却不能作为一般化学教学测验的效标。这是因为两者之间在内容、性质上都有很大差别。高考是为高校录取新生服务的选拔性考试,而教学测验多是为教学服务的形成性评价的一部分;高考试题要在中学化学的全部教学内容范围内取样,而教学测验往往只就某一教学阶段的内容范围取样。在教学实际中, 有时用教师对学生的等级评定作为某种测验的效标,但这样的效标难免会带有较多的主观因素的影响。某些心理测验如智力测验、国外的一些学科水平测验等,与我国目前的化学教学实际尚有较大的距离,也很难作为化学教育测验的效标。因此,寻找化学教育测验的合理效标,是当前化学教育测评研究的重要课题之一。

现将三种效度的意义及其估计方法小结于表 4—2。

表 4-2 效度的类型、意义及其估计方法

类 型

意 义

估计方法

内容效度

测验内容反映测验目的、要求的程度

逻辑分析

构想效度

测验分数能够用理论构想加以解释的程度

提出假设和验证假设

效标效度

测验分数与效标分数之

间的相关程度

计算两种测验分数

之间的相关系数