前言(1)

每天早上我们都会翻阅报纸,在读到报纸最后一页时,我们已经看到了比歌德和席勒生前看到的信息多得多的统计数据。失业者按照其来源不同进行统计,数据或多或少;癌症风险和臭氧黑洞不断增加;1/3的人生活在最低生活水平线以下;一个联邦德国公民一年内吃掉了5.8升食用冰;音乐家可以比其他人更长寿;农村的空气有益于健康,或者农村的空气不利于健康;全球到2020年将会有100亿人口;道琼斯指数又涨了30点;网球运动员B在与一个左手握拍、带着眼镜的选手比赛时从未输过,该选手比B年轻;与男性相比,超过25%的女性经常错误地拐入单行道;恐龙灭绝于6000万年前;吃猪肉会导致心脏病;外国人更容易成为罪犯;绿党的选民经常阳萎(这绝对不是开玩笑—这是一个汉堡的性学研究者在德国联邦议会上所做的说明);人们在纽约睡觉时,最安全的地方是中央公园;还有30年我们就要与下一次的核灾害分别了,目前存在着气候灾害的威胁;如果在下一个星期天投票,某党X不会进入联邦议会。

许多统计数据都是错误的。其中一些统计数据是在人们有意识地操纵下形成的,而另一些统计数据仅仅是源于抽样时没有运用适当的方法所致。在一些统计数据中,数字本身已经是错误的;而在另一些统计数据中,人们是在用正确的数字做错误的引导,把“苹果”和“梨”重新混到一起,提出带有暗示性的问题,继续以不在意的方式推导趋势,笨拙地计算比率、份额或者平均值,任意篡改概率或者扭曲抽样检验的真实含义,上述种种做法对于许多人来说会产生一个印象:谎言和统计学就像一对不能拆分的连体婴。自从本杰明·迪斯累里(Benjamin Disraelis)谈及“世界上有三种谎言:谎言、该死的谎言,还有统计数据”之后,相关的俏皮话、讽刺语就不断地落到可怜的统计学家头上。

这种批评、讽刺虽然“微不足道”,但在某种意义上却是真实的。之所以说“微不足道”,是因为人们不仅可以使用而且能够滥用每一种统计工具。统计数据在这里肯定不是孤立无援的,而是具有许多相互关联的因素。之所以说“真实”,是因为我们所有人看到的世界都是以我们喜欢的方式看到的世界,而不是世界的客观本来面目。我们使用统计数据的目的仅仅是像“一个喝醉的酒鬼使用电线杆:首先是为了寻找能够支撑我们立场的基石,很少是为了进一步说明客观事实”(安德鲁·朗)。

作为一个统计学家,本书总结了我24年以来职业生涯的相关经验。在此我绝不是凭借着专业数据收集家的身份自以为是,从而觉得高人一等,事实是,在各种情况下,我都避免出现这种情况。提供真实的实际数据不是可能不可能的事情,而是愿意不愿意的事情,这是许多数据吹嘘者明显的相通之处。

媒体有一个君子协定(Gentlemen誷 Agreement),在做一件好事时,真实并不那么重要(即手段要为目的服务)。如此一来,《德国医生》杂志(Deutsche