《临床试验的统计学设计与评价.docx》由会员分享,可在线阅读,更多相关《临床试验的统计学设计与评价.docx(5页珍藏版)》请在第一文库网上搜索。
1、临床试验的统计学设计与评价在循证医学框架下,确证性临床试验多采用随机对照设计,通常具有更高的证据等级,其结果也更有可能被领域指南所引用,进而将对应的诊疗策略传递到临床实践中。统计学方法在这一过程中起到重要作用,虽然以统计检验0.05作试验结论的依据受到诟病,但其仍是对临床试验结果做判断的关键参考。需要指出的是,统计学显著和临床显著间并不统一不,如果一项试验仅获得了统计学显著、但缺乏临床意义,这样的研究结果若被指南采纳并推荐,其对临床实践、患者权益和医疗资源投入都会造成严重的负面影响。试验设计阶段对预期效应值的假设,本身与统计分析阶段的统计学推断相关,前者决定样本量规模,后者则在方案设计的样本量
2、前提下确认观察效应值的统计学意义,所以两者具有天然的内在系。如果将试验设计阶段的预期效应值,与试验结果中获得的观察效应值相结合,不仅可以加强试验设计阶段对研究问题的理解,还可辅助判断试验结果临床意义的充分性。因此,本文就这一问题进行相应的介绍。一、试验设计阶段的统计学考虑用样本量设计代替样本量计算的表述更为合理,因为从技术角度样本量的计算仅是将给定的参数带入公式得到相应结果的过程,参数假设的适宜性包括方法选择的正确性就变得尤为重要,其背后的决定因素实际是研究方案中临床相关要素的设定,包括且不限于:研究的总体设计、研究假设、入选排除标准、主要指标及对应的评价标准等,任何临床要素的改变都有可能传递
3、至对预期疗效的假设(样本量计算时所需的参数),从而影响试验的最终规模,样本量确定过程中所涉及的关键要素见图1。图1研究设计阶段与样本量相关的临床要素样本量的确定实际是试验方案设计的终末环节,只有上述研究方案中临床相关要素均被确认后,结合预试验、文献或临床经验对预期疗效做出尽可能合理的假设,然后对样本规模进行测算。在确证性临床试验中(以验证特定药物、器械或诊疗策略等的安全性和有效性为目标),若聚焦样本量计算的具体参数,一般包括以下两个维度共计4个参数。1统计相关参数:显著性水平(SignifiCanCe1eve1)和把握度(POWer)是在确证性研究设计过程需要预先设置的统计相关参数。显著性水平
4、对应试验的假阳性风险,或理解为监管部门批准无效产品(结果因机会效应显示有效)上市、期刊发表无法重现的阳性结果(同样由于机会效应显示的阳性结果)的概率。显著性水平越严格、所需要的样本量越多,且在设置显著性水平的时候需要指明单侧或双侧,与拟开展的假设检验对应。需要注意的是,选择单侧0.025和双侧0.05的显著性水平,对应的正态分布分位数同为1.96,在计算样本量时具有对等性,方案阶段的显著性水平设置,也与统计检验时P值的阈值对应,如果因多重比较问题对显著性水平做了校正,比如设置了2个多重主要终点,将显著性水平调整为0.025,在最终分析时必须达到A0.025才算阳性结果。把握度可理解为试验成功的
5、概率,更严格地讲是当试验组真实有效时,当前试验能够将其验证的概率。把握度水平与样本量呈正比,设置更高的检验把握度需要更多的样本量。常规可通过把握度来计算样本量,也可以固定样本量反算把握度,对应试验设计阶段的把握度分析(POWeana1ysis)。显著性水平最高取0.05、把握度最低取80%是大多数临床试验的标准设定,所以真正决定试验规模差异的是接下来的临床参数。2.临床相关参数:样本量计算时所需的来自临床的参数包括效应值(effectsize)和变异度(variabi1ity),可以通过标准化差异的方式将两者整合(组间差异变异)。所谓的标准化差异可理解为主要指标在组间的差异程度,也就是目标效应
6、值(targeteffectsize)0标准化差异与样本量呈反比,预设的组间差异越小所需的样本量越大,预期的组间差异越大计算得到的样本量反而越小。目标效应值的设定,往往基于预试验结果、相关领域的参考文献或临床经验判断。预期效应值的准确假设,对试验至关重要。因为过于保守的预期疗效假设将导致不必要的样本量增加,最终检出的过小的组间差异也可能缺乏临床意义,而且让更多患者暴露在试验的不确定性风险下也有伦理问题。同时,过于乐观的预期疗效假设也是不推荐的,过大的组间预期效应值虽然能够将样本量控制在可行性的范围,但如果试验结果中观察到的实际组间差异(观察效应值ObSerVedeffectsize)远低于目标
7、效应值,最终将由于样本量不足导致阴性结果。所以对目标效应值的预估和假设需要更加综合的考虑,而且如前所述,研究中的纳入及排除标准、评价指标等的变化,都有可能传递到预期组间差异的变化,从而影响到样本量以及最终的试验结果。二、统计分析阶段的统计学考虑在对临床试验数据统计分析时,通常会借助统计检验辅助做出结论,但此时往往不再需要借助假设检验中备择假设的信息,仅以试验样本数据在原假设分布下对应的尾概率(P值)做推断。如前所述,此时的推断标准,与是否具有临床意义不存在任何关联。以优效性比较为例,如果在假设检验中引入界值,虽然能够保证所获得的阳性结果具有临床意义,但因为要求组间差异的置信区间不能包括界值,除
8、需要更大的样本量外,界值的确定依据及合理性也经常受到质疑和挑战。但从另一个角度理解,优效界值包括非劣效界值的引入(在比较类型为非劣效的试验中),相当于引入了一个参照值(在不含界值的试验中就对应组间的预期差异),这一参照值一方面决定了试验的样本量规模,另一方面在试验的统计分析阶段刚好可以用于作为观察效应值是否达到预期的参照,为试验结果的解读提供一个统计学的思路。其实,临床试验备择假设的设立,就是基于预期或目标的效应值程度,在相当一部分试验中,目标效应值就与有临床意义的最小差异(minimumc1inica1importantdifference,MC1D)”对应,MCID其实与上述优效或非劣效界
9、值(margin)非常类似;同时,试验设计阶段在给定的备择假设和预设把握度计算样本量时,确实以假设的备择假设分布存在为前提,按把握度水平(尾概率即概率密度函数下的面积)在备择假设下的分位数,在其与原假设分布下分位数重叠后方能进行样本量的计算。与此同时,假设检验的拒绝域(对应代0,05时检验统计量的取值范围)实际上也被同时确定,以高优指标为例,拒绝域的起点(临界值critica1va1ue,CV)一定低于备择假设中目标效应值的假设水平,这将导致结果推断过程中,必然出现:观察效应值(试验样本的结果)低于或高于目标效应值时都能够获得统计检验阳性结果。在获得统计学显著结果的试验中,观察效应值是否低于预
10、期效应值具有一定的随机性(真值未知前提下),但如果观察效应值低于预期效应值而且预期效应值本身对标了有临床意义的最小差异程度,那么将导致仅获得了统计学显著而缺乏临床意义的结果。上述现象可通过图2进行直观展示,图中Ho代表统计学假设检验的原假设、H1对应备择假设,TgtES为TargetEffeCtSiZe的简写,用来表示预期效应值的假设水平,曲线下的白色、浅灰和深灰区域代表观察效应值可能落在的区间,由于是按照高优指标的优效性假设进行举例,如果观察效应值落在白色区域,对应外0.05的结果,若观察效应值落在浅灰和深灰区域都对应P0.05的统计检验结果,但浅灰区域中观察效应值未达到预期效应值的水平,虽
11、组间差异有统计学意义,但其临床意义可能不充分,如果观察效应值落在深灰色区域,观察效应值大于预期,说明实际组间差异达到且超过了样本量计算过程中所假设的组间差异,其临床意义能够被更直接地进行确认。原假设对应分布TgtES:目标效应值-4-20246试验与对照组间的标准化差异图2假设检验拒绝域以及观察效应值与目标效应值间相对位置的示意图新英格兰医学杂志发表的一项前瞻性、多中心、随机对照的In期临床试验也可作为一个直观的窠例就上述设计与分析阶段的统计学考虑对应性进行说明,该试验的目标人群为未接受过治疗的慢性淋巴细胞白血病患者,采用了2:1的随机分组方式,将无进展生存(PFS)作为主要评价指标,在试验设
12、计时首先针对主要指标的组间预期差异进行假设,由于采用事件驱动的设计方法,将试验与对照组间的风险比(hazardratio,HR)假设为0.67,在检验显著性水平取单侧0.025、把握度取80%时,计算得到共需入组519例患者。在统计分析阶段,根据生存曲线的估计,试验组与对照组3年的PFS率分别为89.4%比72.9%,HR=O35,对应的95%置信区间为0.22056,统计检验QVO.001。试验结果中的观察效应值(例?=0.35)提示试验组能够将PFS风险相对降低65%的程度,这一程度远大于样本量计算阶段的预期效应值假设(HR=O.67,对应的预期相对获益水平仅为33%),当观察效应值达到且
13、超过预期效应值时,设计阶段的样本量能保证获得有统计学意义的结果,但如果实际的观察效应值没有达到预期水平,则有可能获得阴性结果。当然,在对研究结果进行解读时,仅仅是由于设计阶段对预期效应值做了保守假设,还是实际研究过程中患者的基础风险或其他潜在原因导致了更大的获益,则需要从临床角度进行更精准的解读。三、总结统计学在试验设计与分析中均发挥重要作用,在研究设计阶段聚焦的是将各临床关键要素进行串联,结合试验目的和研究假设提出相适宜的统计学解决方案,并协助确认临床考虑的合理性,这一过程中尤其需要关注试验方案中对纳入排除标准、主要指标和研究假设的设置合理性确认,并评估每一临床要素对试验预期疗效的潜在影响,
14、在其基础上选择相适宜的统计方法,对预期目标效应值进行合理的假设并获得样本量计算结果。而在试验数据的统计分析阶段,除了选择正确的统计分析方法外,还可以从观察效应值与预期效应值的对应性上去判断试验结果的临床价值,发现阳性或阴性结果背后的原因,尤其是在获得了有统计学意义的阳性结果时,还应该关注实际观察效应值与设计阶段目标效应值的关系,如果观察效应值低于预期,则可能提示当前的统计学显著结果有临床意义不充分的风险,需要结合数据对相关问题进行深入分析,评估组间差异的稀释是否与实际入选的研究对象、评价指标或研究实施过程中的潜在偏倚相关,尚未解决的问题也可成为未来新试验的研究假设。总之,通过统计学在试验设计和结果分析阶段的考虑,并将两者建立起对应关系,将有助于对试验设计的深入理解以及对试验结果科学性的更有利保障。