第二篇 医学统计方法

第六章 医学统计的基本内容第一节 医学统计的意义

运用数理统计(mathematical statistics)方法研究医学事物或现象的群体数量特征,叫做医学统计(medical statistics)或医学统计方法。用数量反映质量和用群体归纳个体是统计方法的两个特点。医学现象一般为随机现象,其个体的数量表现既受本质规律的制约,又受许多偶然因素的影响, 只有用统计方法才能揭露被偶然因素掩盖了的本质规律。例如男童的身高随年龄增加而增加,但同年龄男童的身高有高有矮,一些年龄大的男童比年龄小的男童还矮,只有用统计方法才能揭露男童身高随年龄增加而增加的必然规律。又如:用某种药物治疗某种疾病,对一些病人无效,甚至可能对个别病人有负作用;而对另一些病人有效,有效的程度又各有不同;只有用统计方法才能判断该药治疗该病的疗效。因此医学统计方法是认识各种医学事物或现象的重要工具,对医学科学研究和疾病防治工作有重要意义,是医学生所必须具备的基本知识和基本技能。

学习医学统计方法,首先要明确统计中的几个基本概念。

  1. 研究单位和研究因素研究单位(unit)或称观察单位、测量单位,即研究中的个体(individual),是根据研究目的而定的。例如 1 个人、1 头动物、1 只眼睛、1 家人、1 毫升水等。因素(factor)或称指标(index), 是描述个体的各种特征的。描述个体的因素很多,把要研究的因素称研究因素。例如人是研究单位,研究因素是身高、体重、血型等;患某种疾病的病人是研究单位,研究因素是各种诊断指标、疗效等。

  2. 同质和变异统计的研究对象是由个体构成的群体,必需给个体规定一些相同的因素情况,称为同质(homogeneity)。例如研究儿童的身高,规定某地区范围、某时间范围、某民族、某种性别、某个年龄范围、正常儿童等。但即使是同质个体,其研究因素情况也存在差异,称为变异(variation)。例如同地区、同时间、同民族和同年龄的正常男童的身高有高有矮;用相同的药治疗患相同疾病的病人的疗效有好有差。生物个体的各种指标所受偶然因素的影响极其复杂,有生物因素、心理因素、自然环境因素和社会环境因素,因此生物个体的各种指标变异很大,更需要用统计方法来揭露由变异所掩盖的本质规律。

  3. 总体和样本总体(population)是根据研究目的所定的同质个体的全体。更确切地说,是其个体值(指个体的变量值或分类变量值,见下文)的全体。总体分有限总体和无限总体。有限总体的个体数或个体值个数是有限的。例如研究某地某年 7 岁正常男童身高,如果有 5 万名男童,则总体包括

5 万名男童,更确切地说,包括其 5 万个身高值,为有限总体。无限总体是假想的,其个体数或个体值个数是无限的。例如研究用某药治疗某种疾病的疗效,总体为假想的包括所有使用该药治疗的病人,没有空间范围和时间范围限制,为无限总体。数理统计理论上的各种总体都为一般无限总体。

样本(sample)是从总体中随机抽取的一部分个体或个体值,每个被抽

到的个体可称为样品,样本中所包含的个体或个体值的个数称为样本含量

(sample size)。例如总体为 5 万名男童的身高值,从中随机抽取 40 名男童测量身高值,则样本含量为 40;从患某种疾病的病人总体随机抽取 30 例病人用某药治疗,则样本含量为 30。所谓随机抽样是指按随机原则从总体获取样本,避免研究者有意或无意给样本带来偏性,妨碍用样本信息推断总体特征。

  1. 参数和统计量根据总体个体值统计计算出来的描述总体(更确切地说,是指有规律分布的总体)的特征量,称为总体参数(parameter)。总体参数一般用希腊字母表示,如总体均数μ、总体率π等。和总体参数相对应, 根据样本个体值统计计算出来的描述样本的特征量,称为样本统计量

第二篇 医学统计方法 - 图1(statistic)。样本统计量用拉丁字母表示,如样本均数 、样本率 p 等。简言之,描述总体的统计指标称为参数,描述样本的统计指标称为统计量。总体参数是固定不变的,样本统计量随样本不同而异。

总体参数一般是不知道的,抽样研究的目的是要由样本统计量推断总体参数,包括区间估计和假设检验。统计中用于推断的统计量,如 u、t 和 X2 等,称为样本推断统计量或检验统计量。(详见本篇后续内容)

  1. 抽样误差由于变异造成总体所包含的个体值存在差别,因此样本统计量和相应的总体参数就会有差别(特殊情况差别为零),这种由抽样造成的样本统计量和总体参数的差别,称为抽样误差(sampling error)。从总体抽取含量相同的 2 个或多个样本,由于不同样本所包含的个体值不同,因此各样本统计量也会有差别,这种差别是抽样误差造成的,也可称为抽样误差。例如 5 万名 7 岁男童身高的总体均数为 1.20m,从中抽取 40 名 7 岁男童,算得样本均数为 1.16m,则 1.16m 和 1.20m 的差别为抽样误差;若从中再抽取40 名 7 岁男童,算得样本均数为 1.25m,则 1.25m 和 1.16m 的差别也为抽样误差。抽样误差是随机误差,是不可避免的,但可用抽样设计来控制抽样误差。

  2. 概率和概率推断概率(probability)是描述随机事件可能发生的量, 用 P 表示。0≤P≤1。不可能事件发生的概率为 0,必然事件发生的概率为 1, 随机事件发生的概率在 0 和 1 之间。P 越大,该随机事件越容易发生;P 越小, 该随机事件越难发生。概率是理论上的,但可用实际发生的频率验证。例如用某药治疗某疾病的治愈概率 P=0.5,并不说明治疗 2 例病人一定有 1 例病人治愈,假设治疗 n 例病人,有 m 例病人治愈,则实际治愈的频率为 m/n, 当 n 很大时,m/n 值会接近 0.5。

由于存在抽样误差,用样本统计量推断总体参数不可能是肯定推断,只能是概率推断。统计上一般将 P≤0.05 或 P≤0.01 定为小概率事件,小概率事件难于发生,实际中可认为不会发生。