今天聊聊数据的分布|生物统计话题

StatX 发表于 2022/04/17

对任何数据的统计分析，都是从统计描述开始的。而数据的分布情况，是统计描述最基本最核心的内容。

什么是数据的分布

统计上的分布，与位置（location）和频数（frequency）有关；在一个坐标系中，数据在不同位置上往往具有不同的频数，数据的分布就是用来描述这个特征的。

比如，男性和女性（某研究中定期进行锻炼的研究对象）的体重指数（计量资料）分布：

体重指数（计量资料）分布

再比如，在UCLA的演示数据集（here）中，学生的种族（计数资料）分布：

学生的种族（计数资料）分布

当然，数据的分布，呈现的形式不仅限于上述直方图与条图。

在论文中普遍使用的$\bar x \pm S$，或者$M (Q1, Q3)$，也是用来描述计量资料数据分布的。

如果数据的分布是对称的，可以近似为正态分布，用前者描述该数据的集中趋势（即平均数）和离散趋势（即数据的变异程度）；如果数据的分布不对称（左偏或右偏），我们就应使用后者：中位数和四分位间距（一般给出$Q1, Q3$即可），来直接描述这个数据的分布。

探索、了解数据的分布，尤其是计量资料的数据分布，主要有两个作用：

统计检验方法，分为两大类，参数检验和非参数检验，虽然非参数检验也称为distribution-free test，但是因为在统计实践中，优先选择参数检验方法（以一定的总体分布为前提条件），所以，数据具有什么样的分布特征，就显得异常重要了。

如果我们没有按照数据的分布选择相应的、适用的统计方法，那么结果无非两个：

一是“得不到我们想要的结果”的可能性（$\beta$）增加了；

二是“得到了我们想要的结果，但这个结果是错误”的可能性（$\alpha$）超过了设定的水平。

薛老师白话统计