不仅仅是医学研究生和研究者,即使是我这样的统计工作者,绝大多数情况下,P值≤0.05,都是一个让人心情愉悦、浑身舒畅的结果:欧耶,“显著”!
但是科研与生活无异。“不如意事常八九,可与人言无二三”。很多时候我们的数据不争气,在我们翘首企盼阳性结果时,她却选择了沉默,给了我们一个无言的结局:P>0.05。
所以,作为一名科研人,学会正确面对这种“不如意事”:理解这沉默背后的含义、成因并采取正确的对策,是我们的基本素养。
一、P>0.05不等于没差异
以最简单却最常用的两样本{$\chi^2$}检验为例:
原假设(零假设)与备择假设分别为:{$H_0~:~\Pi_A = \Pi_B$},{$H_1~:~\Pi_A \ne \Pi_B$}。
经过统计计算,若{$P \le 0.05$},则意味着在上述{$H_0$}成立的条件下,得到我们的样本数据(包括更极端即差异更大的情况)的概率非常低,低于我们设定的阈值(常用{$\alpha=0.05$}),是一个小概率事件;而小概率事件在一次抽样当中不太可能发生,现在却发生了,问题出在哪?
那既然样本已经取得,是一个事实,不应该是一个小概率事件,而P值是基于{$H_0$}成立计算的,当然我们就怀疑上述{$H_0$}应该是有问题的,错的、假的!于是,我们基于逻辑判断,{$H_1$}应该是对的,是我们应接受的结论。这就是{$P \le 0.05$}时统计上作出推断的逻辑。
而当{$P > 0.05$}时,意味着:在零假设{$H_0$}成立的条件下,我们得到当前数据的概率并不算低,此时我们就很难再说{$H_0$}有问题,结果就是无法接受{$H_1$}作为我们的推论。
那此时,我们的结论到底是什么?
针对上述假设,({$P \gt 0.05$})结论可以是:
- AB两组间的差异无统计学意义;或
- 尚不能认为(或尚无充分的证据表明)A与B的效应有差异。
结论不可以是:
==A与B的效应没有差异==;也就是在{$P > 0.05$}时,我们不能接受零假设{$H_0$}。
二、原因:数据为何沉默?
数据沉默的背后,是多种可能性的原因交织在一起,所以我们不能简单地接受{$H_0$}(没有差异);常见的可能原因如下:
1、样本量不足
比如下面这个卡方检验,两组率及率差相同(均为85% vs 70%),但{$P$}值相差很大,统计推断的结果也不相同。很显然,相同条件下,样本量一个是80例(左)、一个是160例(右),检验效能肯定不同,样本量大的检验效能高,容易拒绝{$H_0$}到得阳性结论。

2、数据的变异过大:组间的差异被淹没
数据的变异(波动)就像噪音,如果在嘈杂的闹市,有人在你身后轻唤你的名字,你很可能听不见,因为这个声音(组间差异)被噪声(数据变异)掩盖了。如下所示:

上述两个数据集,相同的样本量与组间差异结论却不同,就是因为右侧数据集中,数据变异较大(方差分析表中组内SS较组间SS大很多,差异淹没在噪声里)。
3、混杂因素影响
两种治疗结石的方法A与B,分别治疗350名结石患者,效果如下表;若单纯比较治疗小结石或大结石的疗效,AB两组间差异是有统计学意义的:

但是,若对大小结石合并后的研究数据(有效:273 vs 272),直接使用卡方检验进行组间差异的比较,结果为:{$\chi^2=0.008,P=0.927$},结论只能是:==AB两种治疗方法的疗效差异没有统计学意义==。
很明显,我们没有考虑大小结石这个混杂的因素。因为AB两组中大小结石所占比例不同,所以肯定会影响最终两组疗效的评价。阴性的结果,也有可能是忽略了关键的混淆变量所致。
4、总体差异可能确实很小甚至没有
此时几乎无法通过抽样研究得出总体之间有差异的结论。
三、对策:如何应对沉默的数据?
当主要研究指标出现P > 0.05的情况,我们不应简单的给出差异没有统计学意义的结论:
1、报告精确P值与效应量
报告精确的P值,可以传递更多信息(比如P=0.08暗示了某种“边缘”迹象)。同时报告效应量及其95%置信区间。一个很宽的、包含“零”但也包含有实际意义值的置信区间,说明了结论的不确定性,未来还有机会得到阳性结论。
2、给出更为严谨且保有余地的结论
比如:当前研究,未能给出充分的证据证明。。。;像之前的中风醒脑液的临床试验结果,就可以这样表述:
本研究未能给出充分的证据,证明在出血性卒中常规治疗基础上加用中风醒脑液,能给患者带来明确获益。
这样的一个结论,可以明确告知读者,这一结果可能源于效应不存在,也可能源于研究的局限性(反正我是不会承认试验失败的)。
3、进行检验效能分析
“在我的样本量、效应量和显著性水平下,检测到真实效应的概率(检验效能,或者说统计的功效)有多大?” 如果事后的检验效能分析显示统计功效很低(如<80%),那么这个“不显著”的结果几乎是意料之中。
4、深入审视你的数据
检查数据中是否存在误差过大、异常值干扰或存在混杂因素的问题,并尝试通过数据清理、数据变换或使用更稳健的模型,看统计结论是否稳定。
5、设计后续研究
如果研究的结果表明效应理应存在,那么此次“沉默”的数据,恰恰是下一次研究的最佳起点,因为你可以更加准确地估计各组效应量、变异等,从而设计一个检验效能较高,成功的把握更大的研究。
结语
主要研究终点的P值 > 0.05不是研究的终点,更不能简单地认为是失败的标志。它或是一个邀请,让我们去探寻这些数据背后的科学真相。