样本量计算

一、基本概念

样本量（sample size），即样本含量：是指为使研究结论在一定检验效能（把握度）基础上得到证明，所需的最少观察单位数。

样本量计算，也称样本量估算，其目的就是确定研究所需的观察对象数量，以及相应检验的把握度，从而以一个适当的研究规模，保证研究结论的可靠性。

二、一般考虑

在进行样本含量估算之前，研究者必须首先明确研究目的、研究设计的类型、试验的主要终点指标、资料类型、对该指标的统计方法选择、试验总体设计方法(平行对照、交叉对照等)、以及检验水准（$\alpha$）和检验效能（$1-\beta$），对于主要终点是计量资料的，还涉及对均值、标准差等基础资料的估计（可以来自预试验/实验，或者参考文献，下同）；主要终点是计数资料的，则一般涉及对率或构成比的估计。

1. 检验水准（α）取值原则

检验水准，即I类错误的水平，是当我们得到阳性结果时，发生错误的概率水平；临床试验/医学研究中，检验水准α一般取0.05(双侧检验)或0.025(单侧检验)，其它研究基本也是如此。

假如我们进行的是双侧检验，α=0.05，当我们得到基于主要终点的P值<=0.05，并且我们通过这个P值进行推断（下结论）时，我们发生错误（得到错误的结论）的概率水平就是0.05。所以，基于统计方法得到的结论，并不总是正确，实际上，根据假设检验的基于原理，无论我们如何下结论，我们都有可能犯错，具体参见：常在河边走, 哪有不湿鞋--关于假设检验与检验水准α。

2. 检验效能（Power=1-β）

什么是检验效能呢？检验效能，也称把握度，简单地说，就是：如果我们要证明的研究结论确实是对的（成立/为真），那么我们有多大的把握（概率）能够证明它是对的。

检验效能（power）= 1-β

这里的β是检验假设的II类错误水平。所谓II类错误，就是我们要证明的结论（备择假设，用H₁表示）本来是正确的，但是我们没能证明它，也就是最终得到的P值>α，无法拒绝原假设（也称零假设，用H₀表示）。当我们得到了一个所谓的阴性结果时（P>α），我们就有可能犯II类错误。

检验效能一般选0.8(即II型错误β=0.2)或0.9，即我们有80%或90%的把握得到阳性结果。在样本量估算时，检验效能越大，需要的样本量越多。

3. 界值(Margin,Δ)

如果我们进行的检验是差异性检验，比如证明试验组疗效≠对照组的疗效时，样本量的计算并不涉及界值的问题。只有进行优效性检验（证明类似A-B>Δ的问题，Δ取正值，下同）、非劣效检验（证明类似A-B>-Δ的问题）、等效性检验（证明类似|A-B|<Δ的问题），才会考虑这个Margin如何确定。

1) 临床试验中，（临床）界值的选择，应由研究者与统计学家共同商定，是基于统计推理及临床判断的双重考虑；若无公认界值，可参考EMEA《Guideline on the choice of the non-inferiority margin》及《Issues on the selection of non-inferiority margin in clinical trials》等文献；

2) 请注意界值的正负：

高优者，效应值越高越好，进行非劣效性检验，界值应为负值(若为OR值，应小于1)，若进行优效性检验，界值为正值(若为OR值，应大于1)；

低优者，效应值越低越好，进行非劣效性检验，界值应为正值(OR值应大于1)，若进行优效性检验，界值为负值(OR值应小于1)。