受操纵的平均值(2)
5.1哪些平均数是可以相信的
尽管对于绝大多数的使用目的来说,算术平均值这个指标是完全可以胜任的,但是我们知道,算术平均值绝对不是唯一的指标。对于算术平均值来说,最大的竞争对手是中位数。粗略地说,中位数是指它左边的数字与右边的数字一样多。数据就像管风琴上面的按键一样,中位数的值就是指位于中间位置的数字的值。它甚至比算术平均值更容易找到,当然,中位数还有其他优点。(1)人们可以永远得到一个在现实中存在的数值。例如,平均每个家庭拥有1.7个孩子,统计学家更喜欢用这样一些数据来愉悦公众,然而这些数据并没有任何意义。(2)所有数据中的一半都小于这个中位数的数值,而另外的一半则都大于这个中位数的数值。正如我们从每一个理性的平均数中原本要得到的结论那样。(虽然算术平均数一般能够遵守这个原则,但是,事实上却经常是另外一回事。在上面所列举的村庄的例子中,9个农民所拥有的牛的数量要小于4头牛的算术平均值,而只有唯一一个农民拥有超过4头牛的数量。)(3)如果数据的特征值本身不能直接相加或者相减,那么,中位数可以起到表现数据本身性质的作用(例如学校中学生的考试分数或者观看流行音乐表演的座位),而算术平均值对于这些情形来说无能为力。
在村庄的例子中,两个数据:10个农民和40头牛(但是这些牛全部都属于唯一一个大富翁)。在这里,拥有牛的中位数是0。因为九个0和一个40彼此排序,在这个数列中,处于中间位置的那个数,就是中位数,其数值永远是0。而这10个数据的算术平均值则正好相反,算术平均值要更大一些,具体来说就是4。
这种现象绝不是一种偶然现象。在这个例子中,正如统计学家所说的,特征值是“非正态分布的”(准确地说,数据的分布是向右倾斜的,即右偏分布):较小的数值出现的机会更多一些,而较大的数值则很少出现。类似这样的分布情形,其他典型的例子有收入、财产或者不动产等;人们向上攀登得越高,空气就越稀薄(即拥有高收入、财产的人寥寥无几,而绝大多数人的收入或财产则较少)。在观察这样的特征值时,算术平均值永远位于中位数的上边,即大于中位数的值,在某些极端的情形下,算术平均值甚至要远远大于中位数的值。例如,当我们读到下面的信息时,文莱这个国家的居民的年平均收入达到54 000马克,与此相比,联邦德国居民的年平均收入是46 000马克。虽然两个国家的居民年平均收入的状况就是如此,但这绝不是说,一个普通德国居民的收入比在苏丹统治下的一个文莱居民的收入少,生活会更贫穷。事实上,情况正好相反。之所以会这样,是因为在上面的两个例子中,算术平均数仅仅是表示“平均”的意思,即国民收入除以居民的数量得到了居民的平均收入。然而,文莱的收入分配状况远远不同于德国,其收入分配呈现出较大的偏态分布,绝大多数人的收入偏低,极少数家庭拥有绝大多数的财产。如果我们不把世界上最富的苏丹及其家庭考虑在内的话,那么,文莱的景象就会完全表现出另一种样子。正如统计学家所指出的,“极端数据”会像磁铁一样把平均数极度地拉向自己一边,从而使得平均数出现一定程度的失真。
相反,对于中位数来说,极端数据是一个随意的并不会产生影响的因子。就算我们村子里面的那个大富翁,不是拥有40头牛,而是拥有400头牛,对于中位数来说,其数值依然是0。而平均数则表现出了一个较大的变动,从人均4头牛变为40头牛。也就是说,唯一的特征值就是那个平均数,这自然会导致误差。
当德国医师协会(Bundes妑ztekammer)主席在谈到德国医生的平均收入状况时,他一般不会说医生的平均收入,而是说医生收入的中位数是多少。所以,每当《德国医生》杂志中讨论医生的收入话题时,人们就会更多地记起,除了平均数以外还存在着其他反映平均值的指标。
有一些批评者认为德国医生的收入太高了,所以,他们更愿意使用算术平均数作为论据。正如所有的右偏分布情况,平均值永远大于医生本身所乐于使用的中位数指标。如果人们使用算术平均数的话,一个新从业的实习医生在扣除了诊断费用后,其年平均收入是700 000马克;如果按照中位数来衡量医生的收入,则要少200 000马克(也许还会多很多,但这对于本书来说是一件棘手的事)。