一、有效测验的必备条件

设计和编制任何一种测验，都必须使其在效度、信度、难度和区分度方面达到一定要求，即起码达到有效、可信，具有一定难度和区分度。

（一）效度

效度是指一个测验或测量工具能真实地测量出所要测量的事物的程度。一次测验是否有效，主要看其是否准确测量了它所要测量的东西。效度是评价工具最重要的必备条件，一个缺乏效度的评价工具是没有什么使用价值的。效度是个相对概念，任何一种评价工具只是对一定的目的来说才是有效的。例如，智力测验用来测学生智力是有效的，但用来测学生体力则无效。因此，我们不能笼统地说某测验有没有效，而应当说它对测量什么有没有效。测验的效度有多种类型，主要有内容效度、构想效度和预测效度。根据不同的需要，一个测验可以采用一种或几种效度。

内容效度。测验的内容效度是指它从需要测验的教材中提取样本的适当程度。内容效度的高低，取决于测验题目的代表性，要看选出的题目能否包含所测内容范围的主要方面，并使各方面题目比例适当。
构想效度。测验的构想效度是指一个测验能够测量理论上的构想或内在心理特性的程度。例如，某智力测验测得的结果，如果与该测验所依据的智力理论关于智力的一些假设相符，那么这个智力测验就具有构想效度。构想效度对心理测量来说意义重大，但对于成绩测验来说则无关紧要。
预测效度。测验的预测效度指一个测验能够预测学生将来某种特定行为或表现的程度。预测得越准，效度就越高。例如，用入学考试预测学生入学后的学习成绩，用职业测验预测工作能力等。

（二）信度

信度是表明评价工具质量的又一重要指标，它主要指测验结果的前后一致性程度。例如，如果一个学生多次参加某种测验都得到相近的分数，那么就可以认为该测验稳定可靠，信度是较高的。

前面提到的效度是对测量的准确性程度的估计，而信度则是对测量的一致性或可靠性程度的估计。研究表明，效度和信度是交迭的，即有时一个测量工具对于某一个目的具有一定的信度，但并不一定是有效的；而一个测量工具如果对于某一个目的是有效的，那么它一定是可信的。这正如拿一把米尺去量身高是有效的，也是可信的。如果拿它量体重，尽管每次量得的结果是一致的，即信度是较高的，但效度却几乎没有。根据影响信度的不同因素，可以把信度分为以下几类，信度指标通常用相关系数表示。

再测信度：用同一种测验在不同时间里两次测验同一组学生，然后统计两次测试成绩的相关，求得的相关系数即为再测信度系数。信度系数的最大值为 1，表示再测信度最高，最小值为 0，表示再测信度最低。再测信度高，说明测验成绩稳定，反之，则测验不稳定，需修订。
分半信度：将一个测验分为等质量的两半，求这对半分的两半测验所

得分数的一致性程度，即为分半信度。分半信度是反映测验内在一致性的一个重要指标。求分半信度的基本方法是用一种测验对学生进行测试，在计算分数时把试题分为等质量的两半（通常以试题的奇数为一组，偶数为一组），分别计算总分，再以统计相关求得分半试卷成绩的相关系数，便为分半信度系数。

评分者信度：把相同的测验结果提供给不同的评分者打分，若不同评分者给的分数大致相同，说明该测验有较高的信度。客观性测验评分标准客观、准确，评分者信度一般较高。非客观性测验要想提高信度，就应当尽可能使评分标准达到客观、准确。

（三）难度

难度指测题的难易程度。在教学测量中，通常用答对或通过测验的人数比例作为难度值。

答对人数（R）

难度值（P） = 被试总人数（N） ×100％

P 值越大，难度越低，P 值越小，难度越高。一般来说，难度值平均在

最佳，难度值过高或过低，都会降低测验的信度。当然，在实际的评价过程中，测验的难度水平多高才合适，也还要取决于测验的目的。如果教师要对学生的知识准备状况进行一次诊断性测验，为了真实、准确地了解学生的知识掌握情况，测验难度大一点也是正常的。

（四）区分度

区分度有时也称鉴别力，它主要指测验对于不同水平的被试加以区分的能力。它反映着测验与被试实际水平的相符合程度，如果在某道题上得分高就意味着学生的实际水平高，得分低就意味着实际水平低，那么该测验就有较高的区分度。区分度与难度紧密相关，测验过难或过易，会造成被试都通不过或都通过的结果，这样，测验也就无鉴别力可言了。