低效差异量
- 全距(或两极差)(range):常用符号 R 表示。它是一组数据离散程度最简单的度量。计算起来也十分简便,可用如下公式求得:
R=U-L 〔公式 2-4〕R:全距 U:一组数据中的最大值L:一组数据中的最小值
全距的计算比较简单,而且能回答我们直觉地提出的关于变量范围和间距等诸如此类的问题。但是全距与下面将介绍的其他差异量相比较,是比较不稳定的,因为,它仅仅是从分配中的两个个案的数值计算得来的,所以随机遇变化的幅度很大。
- 四分差(quartile deviation):是指在一个次数分配中,中间 50
%的次数的全距的一半。四分差常用符号 Q 表示。其计算公式为:
Q = Q 3 − Q1
2
[ 公式
2 − 5]
Q: 四 分 差 Q3:第三个四分位数Q1:第一个四分位数
从以上公式可见四分差的计算也很简单,然而意义却十分明了。这就是说,在全分配上第一个四分位数与第三个四分位数之间包含着全体项数之半。次数分配越集中,离中趋势越小,则这二者的距离也越小。因此,根据这两个四分位数的关系,观测次数分配的离散程度,也可以得到相当高的准确性。可见,四分差可说明某系列数据中间部分的离散程度,并可避免两极端值的影响。
- 百分位数(percentile):百分位数的度量在心理学中也常用以表示度量的变异性。例如关于感受性的实验,要使刺激能被某组被试中百分之九十的人清晰的感受到,那就用到第九十个百分位数了。
百分位数的求法与中数相同。实际上中数本身也是一个百分位数,它是第五十个百分位数。
另外,百分位数也可以相当准确地用作图法求出,就是在绘成的累积次数曲线上进行简单的内插处理。
- 平均差(简称均差)(average deviation):一般多用符号 AD 来表示。这也是一种检验离散程度通用的计算。尤其在阅读早年的心理学研究报告时,时常遇到用此度量表示离中趋势。它能告诉我们一组数据里所有的各量度与平均数的差数平均是多少。其计算公式为:
Ad = Σ│X − M│
n
[ 公式 2 − 6]
Ad:平均差M: 平 均 数 X:每一量数n:总量数之和
等式里两条垂直线表示两线段之间的数字只计其绝对值,而不计其正负号。因为我们感兴趣的是各个量度距离平均数有多远,而不管各个量度是比平均数大,还是比平均数小。从公式上可以看到,平均差的求法就是先算出各量度与平均数之差,不计正负号,加在一起,除以总次数,其商数就是平均差。平均差有其独特的功能,下一章将讲到的平均差误法(一种心理物理法)就是由平均差引伸而出的。但是平均差也有欠缺之处,即它易受极端数值的影响。
- 高效差异量
高效差异量,顾名思义是指这些差异量能效率较高地反映分布范围。高效差异量有二个:标准差和方差。它们的具体优点很多。与全距相比,标准差和方差大大减少了两极端值的影响;与四分差相比,它们在计算过程中考虑到全部的离差;与平均差相比,它们在离差测定中避免了绝对值,因而有利于代数处理,从总体上看,与低效差异量相比,它们既能用于小样组,又能用于大样组。鉴于高效差异量的种种优点,在整理资料中常用标准差和方差。下面我们分别讨论这两个差异量。
- 方差(或变异数、变差、均方)(variance):方差是每个数据与此组数据的平均数之差乘方后的均值,也就是离均差 Xd 平方后的平均数,它是度量数据分散程度的一个很重要的量数。方差作为统计量时,常用符号 S2 表示。方差的计算公式为:
Σ( X − X) 2 ΣX 2
S2 = i = d
[ 公式
2 − 7]
N N
- 标准差(standard deviation)是方差的平方根,通常用 S 或 SD 来表示。标准差的计算公式为:
S =
S:标准差X:平均数Xi:个别分数n:总量数
[ 公式
2 − 8A]
当观测次数 n<25 时,亦即样本较小时,若除数用 n 算出来的数值用来估计总体标准差时往往会偏低,因此可用 n-1 作为除数。上述公式 2-8A 就变为:
S = [ 公式
2 − 8B]
( ΣX )2
实际运算时,为简化计算可将分子Σ(X − X) 2 演算成ΣX 2 − i ,
i i n
这样公式写成:
S = [公式 2 − 8C]
兹举一个工业心理学中的例子来说明离中趋势和平均数代表性之间的关系。设有两个生产小组各有工人 11 人,生产同样数量的零件,每人每天生产零件数如下:甲组:3、4、5、8、10、15、17、18、22、30、33;乙组:10、11、12、13、14、15、16、17、18、19、20。为计算方便,这里用公式 2-8A 对 81 页列表 2-18 进行运算。
两组工人平均日产零件数都为 15 件,它们的标准差却彼此不同。
甲组工人日产零件数的标准差为S甲 = = 9.8(件)
乙组工人日产零件数的标准差为S乙 = = 3.2
(件)
标准差是描写数据围绕其算术平均值离散程度的一个很重要的数据,具有重要的理论意义和实际意义:(1)首先说明平均数代表性的高低。上例告诉我们,虽然两组工人的平均日产零件数相等,但对两组工人的代表性来说, 就不一样了。对甲组的代表性较小,而对乙组的代表性则相对大多了。可见把平均数和离中趋势结合起来应用,对反映现象的典型特征来说,具有一定的意义;(2)其次,在确定现象水平的基础上,进一步测定现象发生的节奏性或稳定程度。例如,工业生产中就可以通过离中趋势来看该企业执行计划的节奏性,变动程度很大的,就说明生产中存在着突击现象,前松后紧,时作时辍,还可以推测工作效率。
标准差用途很多,常用的主要有:(1)表示变量频数分配的离散程度: