一、军事训练成绩的检验

（一）检验概述

检验的概念。检验是指一种精确的评估，它是借助检验手段，如成绩测验，对受训者的知识、技能等方面发展进行定量考核，将其达到训练目标的程度客观、正确地加以数量化。成绩测验方式有全面测验、选题测验、问卷、答辩等，它可以测验受训者的理论掌握水平，也可以考核受训者的技术技能状况。检验要了解的问题是，受训者在课题某一阶段或整个课题的训练中掌握知识、技能的情况和受训者训练成绩的差别水平。这样检验的结果能对受训者一般地、全面地评定奠定了基础。同时，也为评价训练效果、改进训练设施提供可靠的依据。
检验的目的和特点。检验的基本目的是为了比较客观地掌握受训者知识、技能的实际程度，了解受训者的能力并进行积极而具体的指导，使之提高进步幅度并采取更为科学有效的训练方法。

检验受训者的训练成绩，一是具有模糊性。它不像测量长度一样，用尺子接触测验对象，即可得到准确的结果。检验受训者的知识、技能、能力等方面的水平，则需要通过对其解答问题的正确程度，实际操作的速度和精度的检验进行间接推断才能知道。在这一系列的间接过程中，就产生了一定的误差，所以检验的结果就具有模糊性。二是具有偶然住。偶然性的出现使人们难以判断出受训者的实际水平。比如，某一个受训者打靶没打中，这反映他是缺乏有关知识，还是反映其缺乏相应的技术呢？或者是反映其视觉能力差，或是由偶然因素所致？这些是很难全面料定的。

（二）检验的准确度

为了提高检验的准确度，我们必须注意测验手段的一些特性，即效度和信度，以便准确地反映出军事训练效果。

检验的效度。所谓效度，就是一种测验工具或手段能够检验出其所要检验的东西的程度。在任何测量之前，必须要知道这种测量可能成功的程度，一种测验工具或手段能否测出或能在多大程度上有效地测出受训者的实际水平，这是一个完善测验所具有的最重要的唯一标准。判断一种测验工具或手段是否有效，是以符合某个特点的测量目的为主要根据的。因此，选择高效度测验工具或手段，必须具备以下条件：

一是测验的项目符合课题内容。测验是以受训者对知识的理解和对问题的解决程度来推断真学习成绩全貌的。因此，测验项目与内容是否相符，是关奈到测验效度高低的第一位的问题。通俗地说，就是测验项目必须测量受训者已经学过的内容，这个测量才是高度有效的。由于时间和其他条件限制，

测验内容不可能包括所有的课题内容，只能涉及课题的部分内容。要使测验项目具有较广泛的代表性和较全面地反映出所要测量训练成绩的各个侧面，就需要从测验的课题中进行适当的抽样。如果一个测验中的项目合情合理地涉及到了课题内容的不同部分，那么这个测验效度就高。

二是测验的深度必须与训练目标相一致。所谓测验深度是指测验项目内容的难易程度。测验项目既不能太深太难，也不能太浅太易，而应根据训练大纲，精心选择受训者经过努力可以回答和能够解决的问题。太浅太易的测验项目，反映出受训者的知识、技能水平就高；太深太难的测验项目反映出的受训者的知识技能水平就低。但它们都没能客观地反映出受训者的真实水平，体现不出是否基本达到了训练大纲的要求。另外，在编制测验时还应充分考虑到受训者智力差异，处理好多数中等智力与超智力和弱智力这两头的关系，即编制测验的项目内容难易程度应适应大多数人达到训练目标所具备的水平，一般应以 60％的人能通过为基准。还有，军事科目的测验中，选择什么样的作业条件，也是影响测验深度的一个重要因素。比如，测验射击技能，测验测地距离和地形判断的能力，是在室内还是在室外，是由天还是在黑夜，是在熟悉的地形还是在生疏地形，是良好天气还是在不良气候下进行，这对真实反映被测验者的知识、技能、水平有较大影响。但是，无论选择什么样的作业条件的，只有其难易程度与训练大纲的要求和训练目标相一致，才是高度有效的。

三是测验的方式必额符合特定的测量目的。测验的方式，都有适应性的特点。某种方式往往是在实现某一特定的测验目的方面有效或效度较高，而对于实现别的测量目的则无效或效益较低，例如，开卷考试，用于测量分析问题和解决问题的能力，效果是比较好的，而对于测量对知识的记忆程度，效果就很差，甚至无效。再如，按照文字想定材料标图，用于测量军人掌握标图知识的情况效果比较好，而用于测量军人的技能，就不如口述或按录音进行标图效果好。由于课题的性质不同，有些课题单用一种测验方式尚达不到测量的目的，有时需要多种方式结合并用。比如，对专业技术知识技能的考核，既不能单独只进行实际操作，也不能片面考查对军事技术知识的理解程度，而应当选择适应全面考核军事专业技术知识技能的多种方式来测验，才能把测验成果置于可靠的基础上，以保证较高效度。

检验的信度。检验成绩时，必效采用能够产生一致结果的测验，这便是检验信度问题。信度是一种检验工具或手段检验其所测量的东西前后一致的程度。当测验分数反映了受试者的真实成绩或能力而不是他的侥幸所致时，这个测验便是可信的。检验信度包括两个方面：即检验的一致性和检验的稳定性。

检验的一致性，也叫形式信度。是指编成两个相等形式的测验，测验内的特殊问题并不相同，但都是同一领域内选取的性质相同的事件。每一受试者可在相同测验的两式中，先受乙式测验，再受甲式测验，两式分别获得的测分相似，这就是测验的一致性或形式信度。它是求得成绩测量信度的最好方法。

检验的稳定性，也叫时间信度。是指同一测验在两个不同的时间（在学习暂作短时停顿期内）或不同的场合施行于相同的被试者，产生的结果相似。如果被试者的测分不变或几乎不变，那便有高信度。这种信度可能会由于测验项目所选用的特殊样本而引起错误，也可能由于记忆和练习的影响而产生

变化。但在短时间停顿期内变化不会太大，对被试者的重复试验，其结果必然是相似的。

一个检验工具或手段就某一特定的目的来说，可能是很可靠的，也就是能产生前后一致的效果。但就这个目的来说，其效度可能是不高的。例如，采用标准化理解测验受训者的理解能力，在条件基本相同的情况下，测试多次，都得到基本相同的成绩。但是对其理解能力的有效而可靠的检验，假如用这种测验所测量的分数来表示受试者的兴趣水平，就没有效度。虽然它还是一个有信度的测量，但因工具或手段缺乏效度而不能再用了。所以，一个完善的检验工具或手段在确保其信度的前提下，必须考虑到效度。而任何有效的测量工具或手段也都应有前后一致的结果，决不能可靠而无效，也不能有效而不可靠。

影响检验信度的因素是多方面的，造成测验成绩变化的原因，除了与检验工具的效度不高这个主要因素有关系之外，还有如下因素起作用：一是受试者的反应差异，当学习动机水平不高，或因患病、疲劳、精神紧张等，则直接影响着知识、技能的掌握和其能力的发挥；当有其他客观条件的影响而分散精力时，比如：周日或假期来临，会影响测验成绩；二是测验内容的差异。如前一次给予过于容易的测验，下一次给予极困难的测验，测验内容难易悬殊，其结果是不可靠的；三是测验环境差异。在通风不好、光线差、噪音大等不良环境条件下进行测验，其结果将是不可靠的。受试者的压力过大也会影响测验的水平；四是评分的差异。当测验的评分方法不一致时，这种分数是不可靠的。评分者不能始终如一坚持原定评分标准、偏宽偏严都会影响测验结果的信度。

（三）检验误差及克服

检验误差的产生，是任何测验都不可避免的。研究出现误差的原因及克服方法，可以有助于避免或减少这种误差。

检验误差的原因

一般来说，检验误差的原因主要来自两个方面，即工具的误差和测验人员造成的误差。例如，在测量一块木板的长度时，用的尺子不精确，就不会测出木板的确切长度。同样，如果测量工具或手段缺乏效度和信度，测验的结果就不可避免地出现差错。还有一种可能情况，即使用最精确的尺子去测量木板的长度，我们也并不能完全排除由于人为因素看错记错的可能性。学习成绩测量也是如此，运用的尽管是效度和信度较高的测量工具，但可能由于评分者出现的错误而使测验的结果出现同样的误差。例如，评分者因责任心不强或过度疲倦，打了“马虎分”；评分者因对评分标准领会不一或掌握得不准，打了“随意分”；评分者因偏重被试者字迹的规整和语言的流畅，而忽视了被试者回答问题的准确、完整，打了“印象分”；评分者为了照顾某被试者取得满意成绩，打了“照顾分”；以及评分者出于某种考虑，在测验前为被试者圈定具体复习范围，规定标准答案，以及泄露考题等，都会使检验的结果出现误差。

检测误差的克服方法

选择良好的检测工具。要避免工具误差，首先，要选择高效而可靠的测量工具。选择工具时，一是要明确特定的目的；二是围绕这个目的，选定测验的项目内容、方式方法及作业条件；三是在前面两项的基础上，通盘考虑保证其效度和信度的要求。在没有直接可利用的现成工具时，可以按训

练目标自行编制测验。自行编制测验应与有关标准测验加以比较，以根据测验的需要作出适当的调整。并依据编制测验的原理认真分析，使试题的语言尽量以肯定语句陈述，做到清晰、准确、简练，以使受试者能够清楚地理解问题及要求，阻止用含糊或双重否定语句，以免引起混淆或误解。

制定准确的评价标准。如果评分标佳不适当，即使考题、检测方式和作业条件都满足测量要求，也会出现误差。因此，在制定评分标准时则要求：一是要符合测量目标，不能把检测目标以外的其他因素作为给分或扣分的条件；二是要符合训练大纲的质量要求，以达到训练大纲要求的程度作为评分的准绳；三是要合理地分配分数，根据测验内容各部分在测验项目中的地位和所占的比重来确定分数的多少；四是评分标准要具体明确，不能笼而统之，含糊不清。
掌握科学的评分方法。测量中常常会因为评分者方法不当而造成检测误差。为了避免这种情况的出现，就需要评分者掌握科学的评分方法。通常有以下几种：

一是重复评分法。在物理测量中，人为误差的减少，一种是通过重复检测同一东西以获得同一结果来实现，另一种是通过若干人同时进行同一检测而获得一致的结果实现。这些方法的基本原理对于学习成绩检测是完全适用的。如在进行论文考试时，评分者可以与另一同事合作，用同一个标准和要求对同一考卷打分，或者评分者对同一考卷进行两次评分，把分数分别记在两张纸上，然后比较其结果，这样就能较好地避免误差。

二是逐题评分法。这种方法是一个评分者对被试者的考卷每次批一题，系统地逐题打分。这样，有利于评分者对每一道考题，采取同一标准和要求，因而减少误差。

三是挖掘发现评分。在使用多选题测验或使用应答式的形式测验时，虽然评分标准明确和正误判断一致，但由于运用这样的判断缺少灵活性，特别是有些考题有几种解释，或者有几个正确答案，根据预定好的标准评分，事实上会误判被试者合理的答案，从而造成误差。在这种情况下，评分者应以高度的责任心，努力挖掘发现被试者的合理答案，客观化评分。另外当发现考分信度不高时，应及早采取补救措施，进行重新阅卷，以取得没有误差的高信度评分。