优效性试验
为了证实地氯雷他定对慢性荨麻疹的疗效和安全性,研究者设计了一项地氯雷他定对比安慰剂治疗慢性荨麻疹的随机对照双盲试验。本试验选择的主要终点是与基线相比搔痒评分的变化。假设标准差为1.0分,每组需要例病人在0.05的显著性水平上有90%的把握能检验出两组0.5分或更多的差别。最后结果显示地氯雷他定与基线相比搔痒评分的变化为1.05,安慰剂组为0.52,p0.,结论为地氯雷他定可以有效治疗慢性荨麻疹。
以上就是一个最经典的优效性试验的例子,即通过安慰剂对照试验显示试验药物优于安慰剂,从而证实试验药物的疗效。这种安慰剂对照的优效性试验在临床试验的发展进程中起到了鼻祖的作用,以前对于某种疾病还没有治疗药物的时候,一种新药物的出现,往往会选择安慰剂对照来证实疗效,当然随着越来越多标准药物的出现,以及出于伦理等方面的考虑,现在安慰剂对照的试验也开始变少,但它在药物研发中的地位是决不能抹杀的。
随着医学的发展,现在各个疾病基本上都有自己有效的治疗药物,这时我们推出一种新药,往往在选择对照时,不得不选择那些已有的有效治疗药物,所以相比较安慰剂对照试验,阳性对照试验越来越多,而阳性对照试验最理想的情况是,试验药物优于阳性对照药物,这和上文中提及的安慰剂对照试验一样,是证实药物疗效最好的也是最有力的方法。这种阳性对照的优效性试验在我们的临床试验中发挥了很重要的作用,一种新药的出现,如果它有突破性的进展,最大的证明就试验药物疗效优于现在这种疾病的标准治疗药物,而此时阳性对照的优效性试验就是证明疗效的最理想的选择。
药物研发历史上著名的阳性对照优效性试验-EVIDENCE研究。年3月8日,美国FDA正式批准瑞士雪兰诺公司的Rebif(干扰素beta-1a)治疗复发性多发性硬化。此次FDA批准Rebif上市,打破了另外一种干扰素类药物Avonex的市场专有状态,Avonex在年被批准用于多发性硬化的治疗。那么FDA为什么批准呢,其中最重要的依据就是一项Rebif与Avonex直接比较的研究-EVIDENCE研究,而Rebif的批准则说明了如果有另外一种药物比原有药物更有效或者更安全的话,那么就可以打破原有药物的市场专有状态。我们来看一下EVIDENCE的研究设计和结果。EVIDENCE研究是一项比较Rebif与Avonex两种药物治疗复发性多发性硬化效果的大规模研究,在美国、加拿大以及欧洲的多个中心进行。名复发性多发性硬化病人被随机分配到Rebif和Avonex组,其中Rebif组例,Avonex组例。主要疗效终点为治疗24周后的无复发率。研究者把本试验设计为优效性试验,即证明Rebif优于Avonex,而在进行样本量计算时,则假定Rebif组和Avonex组治疗24周后的无复发率分别为65%和50%。研究结果显示,治疗24周后,Rebif组和Avonex组无复发率分别为74.9%和63.3%,p=0.,而在其他的次要终点方面,Rebif组也显著优于Avonex组。最后研究结果证明,Rebif在治疗复发性多发性硬化方面比Avonex更有效。关于阳性对照的试验,能作出优效来当然是最理想的结果,但研究者在设计这种试验时,往往会遇到一个难题,一是对照药物的选择,另一个就是有没有把握作出优效,如果设计成优效试验,结果作出来确实优效,当然是皆大欢喜,但如果作不出来,两种药物没有统计学差异呢,这时对结果的解释和结论的得出往往就会变得比较复杂,最重要的一点是不能因为两者没有统计学差异而得出两种药物疗效相当或者非劣效之类的结论,而造成结果无统计学差异的原因则有很多,并不是一句两种药物疗效相等所能解释的。
首先我们来看两个例子:
研究1:随机、双盲、对照试验(1)比较两种溶栓药:SK和rt-PA(2)主要终点:30天死亡率(两分类变量)(3)SK:例病人,rt-PA:例病人(4)SK:7.4%,rt-PA:6.3%(5)卡方检验:p=0.
研究2:随机、双盲、对照试验(1)比较两种溶栓药:A和B(2)主要终点:30天死亡率(两分类变量)(3)A:0例病人,B:0例病人(4)A:7.4%,B:6.3%(5)卡方检验:p=0.37
从研究1和研究2,我们能得出什么结论?
研究1:差异有统计学意义,SK的疗效优于rt-PA。研究2:差异无统计学意义,能否得出A和B的疗效相同?
从上边的例子,我们可以看出,同样的30天死亡率,结果却大不相同。这里就涉及到一个对p值的正确认识的问题,这种问题在设计为优效性的试验中尤为常见。当p0.05时,统计上说是无统计学意义,它的含义是根据当前数据,尚不足以认为两组间疗效差异具有统计学意义。换句话说,p0.05是一个不是结论的结论,从统计学上说它是结论,表示无统计学意义;从临床上说,它不是结论,既不能说两药有差别,也不能说两药无差别,可能例数过少或误差过大,增大例数或减少误差就可能达到p0.05。就如上面的例子,当每组样本量从0增加到00时,同样的30天死亡率的比较就能达到p0.05。因此,我们必须在这里强调的一点就是,不能仅仅从p0.05就得出两药疗效相等的结论。
在优效性试验中,还会涉及到一个统计学差异与临床差异的问题。统计学差异很好理解,就是两组的差别有统计学意义,这个一般是由我们的p值或95%可信区间来判断的,而临床差异呢,就是从临床角度考虑两组的差别是具有临床意义的,举个例子来说,两种降压药降压差别在3mmHg以上才具有临床意义。在考察差异的临床试验中,两组差异无外乎会出现下列4种结果:(1)统计学和临床都有意义(2)统计学和临床都无意义(3)统计学有意义,临床无意义(4)统计学无意义,临床有意义上边的四种情况中,出现第一种和第二种,那么结论比较明确。然而,当统计学和临床不一致时,即出现上边的第三和第四种情况时,则需要进行具体分析:(1)当出现第三种情况时,即统计学有意义,临床无意义。这时我们不能以统计学上的意义来取代临床上的意义。不管真实差异多么小,当样本量足够大时,总会检验出两组具有统计学差异。例如,上边提及的降压药,如果两组实际差别也就是1mmHg,只要样本量足够大,上万,上十万,总能检验出统计学差异来,但这种差异无临床意义,如果是一种新药,那么这种药物本身也就失去了批准上市的意义。因此,考虑到这一点,当计算优效性试验的样本量时,假设的两组差异必须在临床上是有意义的。(2)当出现第四种情况时,即统计学无意义,临床有意义。为什么会出现这种情况呢?很好理解,如果两组真实差异确实很大,但样本量太小,也会出现差异无统计学意义的结果。比如研究2中,A组和B组30天死亡率分别为7.4%和6.3%,两者的差异是具有临床意义的,但由于样本量不够,差异无统计学意义;而当样本量增大时,同样的情况到了研究1中两组的差异就具有统计学意义了。
非劣效试验首先介绍一个非劣效试验的例子-Moxatag注册临床试验。年1月24日,Middlebrook制药有限公司宣布FDA已批准其开发的阿莫西林(amoxacillin)mg缓释片Moxatag,用于每日一次口服治疗12岁及以上青少年和成人的继发于酿脓链球菌感染的咽炎和(或)扁桃体炎,而Moxatag则成为在美获得批准的第一个每日一次用阿莫西林缓释制剂。而这次FDA批准的主要依据则正是一项随机双盲平行对照的非劣效试验。在这项试验中,对Moxatag每日一次和penicillin每日四次进行了比较,主要终点为细菌清除率。本试验设计为非劣效试验,即Moxatag在细菌清除率方面不劣于penicillin,非劣效界值为10%,即Moxatag在细菌清除率方面与penicillin相差不会超过10%。研究结果显示,Moxatag和penicillin的细菌清除率分别为85%和83.4%。两者相差的95%可信区间为(-5.1,8.2)。其95%可信区间的下限-5.1是大于非劣效界值-10的,因此可以证实非劣效性。另外本研究在其他次要终点方面也显示出了非劣效性。在本试验证实了Moxatag和penicillin在疗效和安全性相当的基础上,与penicillin每日四次相比,Moxatag每日一次便成为了它的主要优势,医生们有了第一种可以每日一次使用治疗青少年和成人咽炎和(或)扁桃体炎的阿莫西林药物,这也就大大增加了服用的方便性,从而也提高了病人的依从性,这种每日一次的优势也最终促使FDA批准了此药物。以上这个例子就是一个经典的非劣效试验,在证实疗效相当的基础上,通过自己药物的其他优势,比如服用的方便性等来获得批准。
非劣效试验的目的在于证明试验组的疗效是否在某个界值上不劣于对照组。当设计为非劣效试验时,既然在疗效上没有什么特别的优势,那么在别的方面就应该有自己的优势,比如说更便宜、更少的侵害、副作用更少、服用更方便等,这一点很重要。必须找到一个优势,这个优势足以说服临床医生和药监部门,这是设计非劣效试验的理论基础和前提。
让我们结合几个实例,来看一下非劣效试验设计时这方面的考虑:
1.更便宜RighiniM,LeGalG,AujeskyD,etal.DiagnosisofpulmonaryembolismbymultidetectorCTaloneor
转载请注明:http://www.shhongrui.net/xjgzl/6005.html