临床试验

临床研究的基本概念与方法

549
0
StatX 发表于 2020-05-18 10:46 pm

通俗、简单地归纳如下:

1. 区组长度一般是偶数(因为成组设计,1:1的设计最常见),6-10之间;

2. 当然也可以是奇数,如果试验设计为两组2:1,那么区组长度应是3的倍数,所以也可以是9这样的奇数,总之,要能实现设定的组间受试者数量比例;

3. 总的样本量除以区组长度,要能整除(这是必须的);

4. 区组长度一般不会选4,因为容易让人猜到区组内未随机的分组结果;

5. 也不太会选择超过12的长度(实际操作,避免在某个入组时间段内某个单一组的入组量过大而可能导致组间的不均衡)。

当然,区组长度也是“可变”的,即**随机**的区组长度,可更好地实现随机隐匿,不过目前国内使用不多。

3k
0
StatX 发表于 2019-06-21 7:18 am

Wiki百科给出的多中心临床试验的定义非常简单[1]:

A multicenter research trial is a clinical trial conducted at more than one medical center or clinic. 即其认为只要参与临床试验的临床中心或诊所数量超过1个,这个试验就是多中心的。

而我国的《医疗器械临床试验质量管理规范》[2](国家食品药品监督管理总局 中华人民共和国国家卫生和计划生育委员会令第25号)则在附则中明确规定:多中心临床试验,是指按照同一临床试验方案,在三个以上(含三个)临床试验机构实施的临床试验。

但在药物的GCP(现行与征求意义稿)中,对多中心试验的中心数量并没有明确的要求,如现行药物的GCP中,仅明确:多中心试验是由多位研究者按同一试验方案在不同地点和单位同时进行的临床试验。在FDA的相关文件与指南中,也没有明确的定义多中心试验中心的数量要求。

对于多中心临床试验,其实核心的要素是两个,一是统一的研究方案,二是多个研究中心。所以Wiki从参与中心的数量上去定义多中心临床试验,只是简单的一个方面。

对多中心的定义与理解,应更多地从从统计学角度考虑。多中心,统计上能够为研究的目标人群在不同地域进行“均匀”抽样提供保证,特别是在不同地域人群中潜在的相关基因型不同的情况下,试验的效应可能会有所不同,所以在不同地域选择不同中心,通过检验各中心的试验效应是否存在异质性,既有助于验证是否存在相关的潜在因素,也有利于得到一个更加接近研究总体真实效应的结果。

所以从这个意义上讲,多中心临床试验应该是不同地域、不同医疗条件与水平的研究中心参与下的临床研究。在具备条件的基础上,根据研究规模,至少应跨地域选择3个中心来实施临床试验。当然,从试验操作与管理的角度,中心数量增加、地域的扩大,意味着试验的管理难度也更大,投入的人力物力也会更多,但试验的进度可能更快,试验的规模也可以更大。

Ref:

[1] https://en.wikipedia.org/wiki/Multicenter_trial

[2] http://samr.cfda.gov.cn/WS01/CL0053/148101.html

10k
0

临床研究:**clinical study**

临床试验:**clinical trial**

就临床研究与临床试验而言,在书面的使用上其实区分并不明显,在英文中常是混用的。比如ICH的GCP(E6)中,就使用:Clinical Trial/Study 这样的形式来表述一个概念,并且在最后还特别注明了:"The terms clinical trial and clinical study are synonymous. "[1]。

从设计角度,trial属于有干预(interventions)的,而study**可以没有干预**,即study包含了观察性研究。从这个意义上讲,trial不等于study。

ClinicalTrials.gov 上面有句话,说的比较清楚了:

There are two main types of clinical studies: clinical trials (also called interventional studies) and observational studies. ClinicalTrials.gov includes both interventional and observational studies.[2]

在临床试验行业里,**从感性上讲**,study比trial范围广,一提到trial,意识里基本上就是以注册为目的(所以都是有干预的)试验了,而一提到study,首先联想到的是不以注册为目的单纯的医学研究。

[1] (ICH E6 R2, 1.12)

[2] https://clinicaltrials.gov/ct2/about-studies/learn

[1]: https://www.cnstat.org/community/usr/uploads/2020/04/3896210510.png

936
1

既然DeepTech深科技号称是关注三个方面:基于科学的发现;真正的科技创新;深科技应用的创新。既然你们要以科学的名义进行评价(review?),

那么:

一、关于文章的题目

虽然你们写的不是论文,但尚未起跑已分高下,这样的题目,想要告诉读者什么?你们这个标题,起得足够科学吗??这和标题党有多大的区别?

二、关于针对的患者人群(trial population)

原文:

两个试验,一个注册在国内的世卫组织临床试验注册一级平台,一个注册在美国的clinicaltrials.gov。我分别在两个平台上查阅了这两个试验的资料,确实如DeepTech深科技文章中所言,双黄连的试验排除了需要机械通气、危重型新冠肺炎患者,就是针对轻、中症患者的,我想这一治疗定位,与大家心里对于双黄连的定位,还是比较恰当的。但是反过来,瑞德西韦的试验,会入组哪些病人,其中有多少是危重的,只能等到试验数据公布时,我们才会知道,我们不能想像它就是针对重症患者的,虽然它没有明确排除危重患者,但,在瑞德西韦的试验方案中,排除标准的第1条是:

Physician makes a decision that trial involvement is not in patients' best interest, or any condition that does not allow the protocol to be followed safely.

也就是说,最终还是由医生决定某个患者是否入组。所以,最终这个试验入了哪样的患者,等试验结果公布。

三、关于药物结构与机理

原文:

这一段,你们大概是要告诉读者,双黄连天生不行。

我想说的是,它们俩本来就不一样,这种比较的意义何在?不过话要说回来,就算双黄连天生不行,也不代表瑞德西韦天生就行。开展临床试验的目的,就是要验证它们行不行。

在人体之外的试验,只是参考,毕竟人体是一个极其复杂的系统,进入人体会怎么样,疗效与安全性如何,要看最终的临床试验结果。瑞德西韦在理论上可以阻断病毒的复制,在体外实验中也有不错的表现,但据报导,在刚果开展的治疗埃博拉病毒的试验失败了。所以,在试验结果未出之时,行与不行的主观猜想,很显然不符合所谓科学的定位。

我们关注一个药物,核心的,应该是它的疗效与安全性,而非它的出身。 成份复杂,机理不清,正是我们深入研究的原由,而非打压的噱头。成份单一,机理清晰,只能为将来可能的疗效与安全性,提供一个相对容易的预测基础,而不代表将来的结果。

四、关于试验的设计

原文:

随机、对照、双盲的临床试验设计,可以看作是开展临床研究的金标准。瑞德西韦的试验采用双盲设计,客观讲,更为严谨科学。

但没有采用双盲设计,就不科学了? 在你们和某些专家眼里,确实非常不科学。

不过,在R.A.Fisher提出实验设计三原则的时候,还没有所谓的“双盲”。事实上,避免组间偏倚的最重要的手段,仍然是随机化。盲法的采用,只是让可能存在的偏倚尽可能再小些。

我们不应抓住设不设盲这个问题不放,盲不与盲,在严格随机、客观评价的情况下,不太可能从根本上改变试验的结果。

当然站在严谨、科学的角度,我也赞成试验在尽可能的情况下要设盲,能双盲就别单盲,能单盲就别开放,事实上,这是我给申办者一贯的建议。

但是,我们也不要迷信双盲(双盲试验设计仍然有可能被人为操作,国外不少试验造假、或者选择性地报导结果也是事实),同时把开放性试验妖魔化,或者猜想它的结果会怎么怎么样(此处略去几个字。。。),如果要质疑,请以科学的态度,凭借双盲与否就主观臆断研究者的态度,实属不该。这是其一。

其二,我更关心的,是试验的对照。双黄连采用了复合对照的方式(类似有基础治疗的安慰剂对照),即两组都接受常规治疗,试验组要加用双黄连,所以在最后比较时,要采用优效性检验,即,必须证明试验组优于对照组。否则,试验失败。

瑞德西韦的试验,采用了安慰剂对照,而且,我确实没有在公开的资料(clinicaltrials.gov)中看到两个组有接受基础治疗的说明,如果真的是单纯安慰剂对照,而无基础治疗,那么问题来了:这个试验的伦理是怎么考虑的?既然是随机双盲,而且是两组平行对照,那么理论上有一半(1:1对照的情况;如果是2:1对照,也有151例之多)的患者将进入安慰剂组。2003年我刚刚进入临床试验领域时,就从孙晓春博士那里知道了临床试验的两个核心问题:伦理与科学,而伦理(可以简单地理解为受试者的安全与权益),是第一位的,如果伦理与科学有冲突,那么,我们要站伦理一边。

如果瑞德西韦这个试验确实没有设置基础治疗,我想这个试验的伦理委员会专家们要出来给一个说法。

其三,关于主要终点指标的选择

原文:

从两者方案的注册资料看,主要终点的设计,瑞德西韦的比双黄连更严谨。其实双黄连的试验设计,国内当前的中医药研究中比较常见,众多中医药的研究,确实需要提高研究的设计水平,这是咱的心里话

但是,瑞德西韦与双黄连比,就没毛病了?你们,包括文中出现的这些专家(得罪了啊),既然要质疑那就本着科学的态度,两者的优缺点,全部列一列,客观地比一比。不能只拿一个的优点与另一个的缺点相比。

瑞德西韦的设计有没有可挑剔的地?

  • 主要终点,进行了修改(虽然不是大改,但确实是改变了评价标准);

  • 样本量刚注册时写的452,后来改为453,我很奇怪,Study Arms 那里明明写的2个试验组,453如何随机的,由原来的1:1对照,改成2:1对照了?在试验的中间修改随机化方法,这可是临床试验的大忌;另外有没有区组,有没有中心分层?

  • 关于试验终点,瑞德西韦共设计了:从6死亡到1出院共6个等级,主要终点TTCI是下降2个等级所用的时间,那么肯定是没有从6降到4的情况了,而且从5到3、从4到2、从3到1,都是下降两个等级,但病情的变化难度是相同的吗?(谁知道!)不同的变化程度对应的时间是不是要分层进行分析,而作为一个采用“生存分析”的试验,定义治愈、未愈的结局,会不会更好?等等。

五、最后,关于两个药物的安全性

原文:

我看了2014年的国家药品不良反应监测年度报告,确实有“中成药口服制剂排名前五位的品种分别是:双黄连合剂(口服液、颗粒、胶囊、片)”这一句,但是没有明确是按照什么标准排的,是报告不良反应的总数,还是发生的比例(排在首位这一句前面,一直是说报告的总数)。如果是报告的总数,那我们就得考虑实际的销量。如果是因为销量大排在前列,而实际发生的比例不高,那就是另外一种情况了。

瑞德西韦的安全性,很好?没有大规模的用药记录,目前已有的样本量和实验室研究,并不足以支持其安全性的说法。美国FDA审过上市的药,还有后来因为安全性问题退市的呢,何况一个还没上市的在研新药。所以安全性上不要妄下结论。搞统计的,看重的是用数据说话的,无论中西,都要用真实、准确、完整的数据说话。


写在最后:

其实每个试验的设计,都是从试验能够取得成功出发的,每个研究者也都有自己的考量。试验设计的水平确有高下,要质疑也没有问题,有问题提出来,大家共同提高。

在临床试验行业将近20年,亲身的感受,是国内临床试验的水平,这些年其实提高不少。但也确实存在一些设计不够严谨、不够合理的情况(很多情况是受限于研究经费),存在的问题,提出来应该是为了进一步提高我们的试验水平。

但是我反对厚此薄彼式的评价,站一个踩一个。如果一个事物的好与坏,已经在人的脑子里形成,那很可能就没有了公正、科学地评判,而在科学的名义下,这样的行为就更具危害性。


1.2k
0

新版GCP终于在2020年4月落地了。

所以各种所谓的大咖解读就来了。但非常不幸的是,很多所谓的大咖,无非就是蹭下新版GCP的热度,他们有时间去好好读下GCP的全部条文吗?包括那些参与了新版GCP修订的专家们。

2020新版GCP,原则上还是以ICH E6 R2为蓝本,并根据国内具体情况进行翻译与修订,最终成稿。我没参与GCP的修订,目前也没有认真去读一遍新版GCP,不过,关于新版GCP中的一个问题讨论,我觉得很有必要写一下。

中国2020版GCP中研究者的定义与ICH不同?这是中国特色?

有些专家认为新版GCP中研究者是中心现场实施试验的所有人,包括了ICH中的Investigator和Subinvestigator。这个理解很显然是错误的。虽然新版GCP中没有Subinvestigator这概念。

其实中国2020版GCP中研究者的定义与ICH E6 R2无本质区别,它就是指中心负责人,也就是PI。

新版GCP中,研究者的定义如下:

研究者,指实施临床试验并对临床试验质量及受试者权益和安全负责的试验现场的负责人

在ICH E6 R2中,Investigator的定义是:

A person responsible for the conduct of the clinical trial at a trial site. If a trial is conducted by a team of individuals at a trial site, the investigator is the responsible leader of the team and may be called the principal investigator.

为什么说,新版GCP中的研究者,并不是指研究中心实施研究的所有医生呢?

因为在第四章 研究者中,对研究者的职责进行了明确的说明,其中在第十七条中就有如下内容:

(三)研究者在临床试验期间有权支配参与临床试验的人员,具有使用临床试验所需医疗设施的权限,正确、安全地实施临床试验。

(四)研究者在临床试验期间确保所有参加临床试验的人员充分了解试验方案及试验用药品,明确各自在试验中的分工和职责,确保临床试验数据的真实、完整和准确。

(五)研究者监管所有研究人员执行试验方案,并采取措施实施临床试验的质量管理。

(其它内容就不再一一列举了)

研究者负责试验这么多的事情,这个角色在中心一般就是主任或副主任级别的医生来承担。其他参与临床试验实施的医生,其实应该是ICH中的Subinvestigator,但副研究者这个名称,并没出现在新版GCP中。那么这些人应该如何称呼?那就暂时统称为研究人员吧。


2.6k
0

对于一项临床试验的结果,你想看懂它,要知道一点医学与统计的知识,比如平板试验是什么,主要终点是啥,P值意味着什么,等等。我假设,这些概念你都懂。

这次试验的结果:主要终点未达到统计学要求,你可以简单地认为,这次试验没有成功,FDA不会因此试验的结果而批准丹参滴丸在美上市。

  1. 关于“未达到统计学要求”:统计学只是帮助我们对一个药物是否安全有效进行决策,但统计学不能代替决策本身,更不是评判标准。统计学结果未达要求,并不等于这个药物无效。相反,统计上能够做出来P<=α(0.05或0.01)的结果,也不等于这个药物就有效,一个很简单的例子,假设高血压患者的安慰剂效应是4mmHg,而某新药的降压效果是5mmHg,那么,只要两组的样本量足够大,统计检验时就可得到P<=α的结果,而且随着样本量的持续增大,这个P值会越来越小!但从临床意义上看,这个有意义吗,没有。所以说:一项临床研究的结果,要结合统计学意义与临床意义进行全面解读和评价,缺一不可。(不过我所见的结果中,都没列出主要终点的效应值,天士力也是够可以的,呵呵)

  2. 官方发布的试验结果,确实有一些避重就轻,也相当的外交词令~“临界显著”(P=0.06,注:官方稿件中的数据),意思是说:虽然没达统计学要求,但在检验水准附近,接近“显著”了,所以:官方称已经和FDA进行沟通,计划再做一个验证性试验,据说就在美国本土。其实,相当于“增加样本量”,为了达到统计学上的要求。作为一家企业,这种做法无可厚非,你以为外企的研究数据就有多透明?莫要太天真。我觉得只要不触碰底线:在临床数据上面造假,其它行为也都还可接受吧。

  3. 从目前情况看,确实属于统计学上“临界”的状态,所以FDA的态度(当然我并不知道,我是感觉)应该是比较谨慎的,不会断然说:你这个药就是无效啊!最后:未来丹参滴丸在美国有上市的可能性,概率,我猜(基于官方给出的数据,它要是没骗我的话,呵呵),60%。

下图内容来自ClinicalTrials.Gov:

最后,还想多说两句:

一个:

一个药物的疗效与安全性,和我们对这个药物内在的了解,如分子结构、作用靶点,作用机理等,没有关系。你了解不了解它,它就是客观存在在那里,它作用于人体,有效就是有效,安全就是安全。很多经典老药,在发现和使用之初,人们对它们又有多少了解呢!

所以,请不要从非临床研究的角度,看一项临床研究的结果,无论是中药,还是西药。临床研究的结果告诉我们,它是什么,非临床研究可以告诉我们,它为什么。对于广大患者而言,知道它是什么就足够了。

我8岁的时候,甲肝大流行,喝了一个月的汤药,好了。谁知道那个苦苦的汤药里(每次一大碗),都有啥东西!谁知道在熬药的时间里,那熬药的砂锅里发生了多少化学反应,又生成了几多新物质??开药的大夫也说不清吧,当然我就更不知道了。但这不影响我喝了,好了,这个结果。

另一个:

说中药无效的,请你拿出证据来;同样,说中药有效的,请你拿出证据来。无论你是谁,请用真实、完整、科学的数据出来说话。


355
0

今天偶然读到一则“新闻”:

“《Nature》杂志发表中国医药AI公司成果,利用AI优化药物临床试验”,第一反应是,我真得落伍了,连AI都大举进军临床试验行业了。

然而去Nature上翻到这个“成果”的原文,发现与上述中文报导,存在一个有意思的差异:

这个ADVERTISEMENT FEATURE,是什么鬼?

传说中的内页广告??果然高端大气上档次。。。

回到正题:

当人工智能披上了临床试验的外衣,临床试验还是那个临床试验,伦理与科学永远是它的主题;而人工智能,就不是那个人工智能了。。。

其实AI之于临床试验,所能做的无非就是提高效率。

但就目前临床试验的现状(无论国内还是国外),AI所起的作用,还是微乎其微,或者说,目前AI在临床试验中所起的作用,其实更是一种商业的噱头,毕竟AI现在风头正劲,再把它与临床试验组合到一块,Ok,又一个风口形成了。。。

说到底,AI就是一种基于统计的技术手段,它要想在临床试验中真正发挥作用,没有大量的患者数据是不行的,而这是目前的一个难题,大家都懂。

再有,临床试验病例的选择,除非真实世界研究,大规模、无随机地选择病例,否则,就属于抽样研究,逃不过随机抽样与随机分配 ,而这个样本,能否很好地代表总体,取决于这个随机的过程。所谓的AI加速病例的筛选与入组,包括后期脱落率的控制,先不说这个作用能否真正实现,就说它对随机过程的影响,以及是否会造成选择性地纳入受试者,这些都是问题。毕竟,影响有效性与安全性的未知因素太多,无偏倚地实施随机化过程,是我们后期应用各种统计方法的前提,否则,统计结果就无法合理解释。

所以,这些问题不解决,就谈AI在临床试验中的作用几何,除了里面的商业利益,不会根本性地改变临床试验的现状,也不会给申办方带来任何实际效益,当然没准能拉动一下股价。


568
0

据多家媒体的报道,瑞德西韦在中国的临床试验数据被WHO意外地泄露了出来,如下图:

如果这个截图中的数据,确实是瑞德西韦中国临床试验的最终结果,那么,也不需要帕西博士所谓的“统计学意义”了。因为这个结果,我们都看不到一点“临床意义”,统计意义有何用???

有统计学常识的都会知道,只要两个组的结果不完全相同,那么将样本量增大到一定程度,你一定能够得到一个P<=α的统计结果。


   9
   24
   0
浏览设置
隐藏帖子详情
启用无限滚动载入
该主题下的所有帖子将 已删除 ?
待审的草稿 ... 点击恢复编辑
放弃草稿