对任何数据的统计分析,都是从统计描述开始的。而数据的分布情况,是统计描述最基本最核心的内容。

什么是数据的分布

统计上的分布,与位置(location)和频数(frequency)有关;在一个坐标系中,数据在不同位置上往往具有不同的频数,数据的分布就是用来描述这个特征的。

比如,男性和女性(某研究中定期进行锻炼的研究对象)的体重指数(计量资料)分布:

体重指数(计量资料)分布

再比如,在UCLA的演示数据集(here)中,学生的种族(计数资料)分布:

学生的种族(计数资料)分布

当然,数据的分布,呈现的形式不仅限于上述直方图与条图。

计量资料的集中趋势与离散趋势

在论文中普遍使用的$\bar x \pm S$,或者$M (Q1, Q3)$,也是用来描述计量资料数据分布的。

如果数据的分布是对称的,可以近似为正态分布,用前者描述该数据的集中趋势(即平均数)和离散趋势(即数据的变异程度);如果数据的分布不对称(左偏或右偏),我们就应使用后者:中位数和四分位间距(一般给出$Q1, Q3$即可),来直接描述这个数据的分布。

为什么要关注数据的分布

探索、了解数据的分布,尤其是计量资料的数据分布,主要有两个作用:

  1. 可以了解数值的大致范围,发现某些离群值(可能是异常值或错误值);
  2. 根据数据的不同分布,采用不同的统计检验方法进行统计学推断;这是关注数据分布最重要的意义所在。

统计检验方法,分为两大类,参数检验和非参数检验,虽然非参数检验也称为distribution-free test,但是因为在统计实践中,优先选择参数检验方法(以一定的总体分布为前提条件),所以,数据具有什么样的分布特征,就显得异常重要了。

如果我们没有按照数据的分布选择相应的、适用的统计方法,那么结果无非两个:

一是“得不到我们想要的结果”的可能性($\beta$)增加了;

二是“得到了我们想要的结果,但这个结果是错误”的可能性($\alpha$)超过了设定的水平。