统计分析工作,没有统计软件不行(单靠AI也不行)。

目前生命科学领域,常用的统计软件,有R(生物信息学领域应该用的最多)、Python中的统计和可视化包、SPSS、SAS、Stata等等。其中SPSS在医学生及医生群体中应用非常广泛,R因为其免费开源、统计分析包众多等优势,也越来越被生物医学领域的研究们青睐,尤其是有了那个Rstudio以后。

SAS软件也是教育和工业界常用的统计软件,尤其是金融领域、医药研究领域,SAS是事实上的统计分析标准软件

SAS能够成为医药研究中统计分析的标准,与其深厚的技术背景分不开。且不说它20多个G的安装盘,1万多页的用户手册,就一个简单的直方图,也能够看出SAS的与众不同

以下是同一个样本数据,分别用R 4.6.0、AI(Kimi 2.6,基于Python的matplotlib包,直接生成直方图)、SPSS 27和SAS 9.4绘制的直方图(都是默认输出方式):

image.png

(基于R 4.6.0绘制,不同分箱算法的输出结果竟然一样,不知是不是我设置有问题)

image.png

(Kimi给出的基于两种分箱方法的直方图,感觉差不多)

image.png

(基于SPSS 27 的统计描述->变量探索过程绘制,从可视化角度,感觉这个图最丑,很多时候都是它最丑,公开的资料里没有明确它使用的分箱算法)

image.png

(这是SAS 9.4的proc univariate过程步给出的默认直方图,这个就顺眼多了)


如果从可视化角度,SAS的直方图完胜(它在Terrell-Scott 过平滑算法基础上进行了显著的工程优化);R软件和AI居其次,SPSS的最差。

所以,虽然SAS公司退出中国了,但是SAS软件不会。它的王者地位,短时间内无法被替代,原因就是SAS的算法,底层实现细节和特定的工程优化黑盒未公开,未公开意味着AI学不到其内部计算逻辑,也无法通过训练获得FDA合规认证的验证结果,因此无法替代SAS在企业级场景中的地位。