从美国CDC网站下载NHANES数据并进行整合

为了制作一个方差分析相关的课件,去美国CDC网站下载了几个数据集并进行了整合。过程很简单,记录如下:因为要用到糖化血红蛋白检测结果以及人种、年龄、是否糖尿病患者等数据,所以要下载3个数据集:先进入站点:NHANES Questionnaires, Datasets, and Related Documentation (cdc.gov)选择一个比较近的年份 NHANES 2017-2018:下载列

- 阅读全文 -

FDA数据提交标准-SAS仍是赢家

开放数据标准CDISC,作为FDA注册数据提交的标准之一,在国内受到越来越多人的追捧。然而,想要摆脱SAS目前来看几乎不可能:如下图所示:FDA明确要求,按照CDISC标准生成的数据集,需要以xpt格式提交,而xpt格式文件,恰恰是SAS的XPORT transport format file,一种专用于数据传输的文件格式。虽然CDISC标准是开放、免费的,但仍然要基于SAS数据传输文件格式来提交

- 阅读全文 -

SAS报表输出效率 WPS vs WORD

自动生成1000个表格并填充数据,WPS用了35分钟,生成的doc文件将近9M,打开文档进行操作,相当卡顿。同样的代码,用word生成,只要10分钟,生成的doc文件700多k,打开文档进行操作,相比wps好很多。不清楚为什么会这样。WPS想要赶超M$ Office,看来还有很长的路要走... 虽然如此,一般情况下的文档编辑我觉得WPS还是不输给M$的。所以,WPS仍然

- 阅读全文 -

SAS查找数据集中重复值的3种方法

第一种方法:利用sort过程步的dupout和nodupkey,原始的test数据集将输出为_unique和_dups两个数据集。proc sort data = test out=_unique dupout = _dups nodupkey ;by var; run ; 第二种方法:在数据步中利用by和first.var and Last.var。注意:此_dups和上面的_dups得到的结果

- 阅读全文 -