循证医学(第3版)
上QQ阅读APP看书,第一时间看更新

第一节 系统评价/Meta分析概述

一、系统评价/Meta分析起源

12世纪,中国著名的哲学家和思想家朱熹(1130—1200年),通过总结一系列相关的文献来凝练自己的哲学理论,提出了道统论。17世纪,西方天文学家采用一系列单一数据进行合并以便得出更准确、可靠的结果。1904年,Karl Pearson在研究血清接种对伤寒的预防作用时,由于各个研究的样本量太小,可能存在误差和得不到科学、准确、可靠的结论,为此,他对不同研究的数据进行合并。1935年,英国统计学家Ronald Fisher出版的The Design of Experiments一书中给出了在农业研究中合并多个研究的恰当方法,其随后出版的《Statistical Methods and Scientific Inference》一书中呈现了很多类似的例子,并鼓励科学家们采用这样的方法比较不同研究之间的差异,并对相似的研究进行合并。William Cochran对Ronald Fisher的方法进行了拓展,采用加权平均效应合并研究结果,即为最初的随机效应模型。William Cochran等先后将这种方法应用到农业研究和医学研究中(如评估迷走神经切断的效果)。此后,该方法在心理学和教育学研究中得到了广泛应用,但在医学研究领域中却没有得到普及。1976年,Gene Glass提出了“Meta分析”这个术语。

1974年,Peter Elwood开展了第一个评价阿司匹林预防心肌梗死复发效果的随机对照试验,研究显示,阿司匹林可以减少心肌梗死的复发,但差异无统计学意义。随着其他类似研究结论的公开发表,Elwood和Cochrane采用Meta分析的方法对阿司匹林预防心肌梗死复发效果进行了评估,明确了阿司匹林对心肌梗死复发的预防效果,这一研究结果发表在1980年的Lancet上。20世纪80年代,英国医学统计学家Richard Peto对研究间固定的权重持有异议,认为研究间结果差异是由于随机误差造成的。随后,DerSimonian和Laird对传统的随机效应模型进行改进,这就形成了现在常用的随机效应模型。

与此同时,Mulrow的研究显示,传统的文献综述由于没有系统全面的检索,因此可能存在着潜在的偏倚。英国内科医生和流行病学家Archie Cochrane指出进行临床决策的人员并不能够对当前所有的信息进行评估,因此,无法得到可靠的证据。为此,在1974年至1985年,Archie Cochrane带领他的团队完成了600多篇系统评价,共收集3500多项临床对照研究。至此,系统评价才被广泛接受。20世纪90年代,制作和更新系统评价的国际组织Cochrane协作网成立,进一步推动了医学各个领域系统评价和Meta分析的产生。系统评价/Meta分析已经成为最常被引用的证据来源,无论其绝对数量还是相对数量都在逐年上升。

二、系统评价/Meta分析定义

1.系统评价的定义

系统评价(systematic review,SR)是一种按照一定的纳入标准广泛收集关于某一医疗卫生问题的研究,对纳入研究进行严格的偏倚风险控制和证据质量评估,将各研究结果进行定量合并分析或定性分析,以对该问题进行系统总结的研究方法。Chalmers和Altman将其定义为:“采用各种方法以减少偏倚和随机误差并将其记录在案和研究报告的方法部分里的一种证据合成方法。美国医疗保健研究与质量局(The Agency for Healthcare Research and Quality,AHRQ)将SR定义为临床文献的总结。研究人员就某一特定临床问题,系统全面地收集证据,采用一定的标准评价和总结证据。通过对研究的客观评价和总结,进而解决一个特定的临床问题,也可包含定量数据分析。Cochrane协作网(The Cochrane Collaboration,CC)认为SR是全面收集符合纳入标准的证据,以期解决某一特定研究问题,采用严格和系统的方法收集证据,尽最大的可能降低偏倚,呈现可靠的证据,进而得出可信的结论。

虽然不同组织对SR的定义不同,但是所有SR通常包括:制订全面的检索策略和严格的纳入排除标准;评估纳入研究的偏倚风险;对纳入研究资料进行定量或定性分析,获得纳入研究的合并效应量或定性结果证据;估计所获证据的质量,在此基础上形成对临床实践的应用推荐。

2.Meta分析的定义

不同阶段,不同的组织对Meta分析(meta analysis,MA)的定义略有所不同,详见表3-1。

表3-1 不同的组织对MA定义的一览表

通过比较上述的定义,不难发现,MA首先是一种统计学方法,该方法可以对不同研究的结果进行合并,进而得到一个更精确、统计效能更高的结果。这种统计方法可以对研究结果间的相似性进行定量或定性的评价,可以克服原始研究样本量较小的问题。

3.Cochrane系统评价定义

Cochrane系统评价(Cochrane systematic reviews,CSR)是Cochrane协作网组织制作并在Cochrane Library上发表的SR。它是CSR作者在Cochrane协作网统一工作手册的指导下,在相应CSR工作组编辑部指导和帮助下所完成的SR。

固定化格式是CSR的一个鲜明的特点。CSR的固定化格式使其具有让读者很快找到研究结果并分析其真实性、实用性和潜在意义,易于更新、阅读、出版发行的特点。

与一般SR相比,CSR有非常严格的制作程序。第一,CSR的作者必须经过严格的培训,培训教材的内容全球统一;第二,CSR的研究计划书和CSR全文均须经评审小组评审,提出修改意见;第三,经过各相关专业组复审编辑才得以发表;发表后,任何人均可对其进行评价,提出意见,每年或每两年,作者根据这些意见和新检索到的临床研究对原SR进行修改或更新。因为严格的质量保障制度和周密体系,CSR被公认为最高级别的证据之一,已经被广泛地用于制订指南和卫生政策。

4.系统评价与Meta分析的关系

MA对多个纳入研究的资料进行合并分析得到定量结果,也可是单个研究的统计学效应量结果。并非所有SR都必须做MA,是否做MA要视纳入研究是否具有足够的相似性,如果纳入研究不具有同质性,则不进行MA,而仅进行描述性的SR,此类SR称为定性SR;若纳入研究具有足够相似性,则进行合并分析,此类SR称为定量SR。

由此可见,SR可以包含MA,MA可能是SR的一部分,但并不是所有的MA都是SR。当收集了一些研究,并进行了数据的定量合并,这时,研究的收集并不系统、全面,这样就不是SR。但是,SR不一定必须对纳入的研究进行定量分析,若纳入研究存在明显的临床异质性,这时候对数据进行定量合并就会产生偏倚,此时就需要对纳入的研究进行定性描述,分析其应用的不同范围。

三、系统评价/Meta分析进展

1.系统评价再评价

系统评价再评价(overviews of reviews,Overviews)是全面收集同一疾病或同一健康问题的治疗、病因、诊断或预后等方面的相关SR,进行综合研究的一种方法。Overviews是基于SR的研究,其研究方法既有SR的特点,又有所区别。除了防治性Overviews外,在疾病诊断与筛查、卫生经济学和卫生保健等多个领域也有相关研究成果发表。随着调整间接比较与多种干预措施的网状Meta分析(network Meta-analysis,NMA)的日趋成熟,对Overviews的发展产生了一定的影响。

2.诊断试验系统评价

诊断试验系统评价(diagnostic test accuracy systematic review,DTASR)是通过系统、全面地搜集诊断试验研究,严格按照预先制定的纳入排除标准筛选研究,依据国际公认的诊断试验质量评价工具评价纳入研究质量,并进行定性描述或用合成受试者工作特性曲线进行定量分析的一种全面评价诊断试验准确性和重要性的研究方法。与传统干预性MA相比,DTASR在诊断效能指标及MA方法的选择比较特殊,特别是一些合并方法处于不断完善中。

3.单个病例数据Meta分析

单个病例数据(individual patient data,IPD)MA是MA的一种特殊类型,是直接从纳入研究的原始研究者处收集每一个研究对象的原始数据,而非从已发表的研究结果中提取数据。这些资料可重新集中分析,在适当条件下可进行MA,但IPD-MA通常需专职人员,需大量的时间去开展。IPD-MA需要特殊的方法,比基于已发表或集合数据的传统MA需更多的时间和成本。但IPD-MA在数据质量和可进行的分析类型方面有独特优势。因此,IPD-MA被视为MA的“金标准”。目前,IPD-MA尚处于起步阶段,随着注册的临床研究数量不断增加,将为IPD-MA的发展奠定数据基础。

4.剂量-反应关系Meta分析

剂量-反应关系Meta分析(dose-response Meta-analysis,DRMA)是一类新型的MA方法,相比传统的二分类及连续性资料MA,DRMA可同时处理3个及以上组别的数据,并直接估计暴露因素与疾病的剂量反应关系。DRMA模型可用于病例-对照研究与队列研究,也可用于RCT,但要注意任何一种DRMA模型都需大样本的支持,以保证足够的统计效能。DRMA从本质是来说就是一种回归分析,剂量的取值范围要求在原始研究剂量的最大值和最小值之间,不能外推至拟合剂量范围之外的数值。

5.网状Meta分析

网状Meta分析(network Meta analysis,NMA)是由传统的MA发展而来,从标准的两组试验MA扩展为同时将一系列多个不同处理因素进行相互分析比较的方法。NMA也可同时分析直接比较和间接比较。在直接比较不存在的情况下,间接比较可以为卫生决策提供有价值的信息;当直接比较存在的情况下,合并直接比较和间接比较的结果可以增加结果的精确性。NMA还可基于不同干预措施的治疗结果进行排序,并提供最佳干预措施的概率。目前,NMA除在干预措施研究方面应用之外,在随后动物实验、单个病例数据、生存数据和观察性研究方面的NMA也得到了很快发展。

四、系统评价/Meta分析挑战

1.在全面、系统的获取资料方面仍然存在重要问题与障碍

全面、系统收集资料是进行SR/MA的先决条件,SR/MA的检索是否全面、如何实施检索可能会影响纳入研究的数量,也可能会对SR/MA的结果产生偏倚,而全面的文献检索依赖于敏感的检索策略和齐全的检索资源。在SR/MA检索和收集相关研究的过程中存在的偏倚主要有:发表偏倚、被检数据库的标引偏倚、检索偏倚、参考文献或引文偏倚、重复发表偏倚、重复使用研究对象偏倚和限制语种偏倚等。调查显示,我国干预类SR/MA、DTASR、NMA和我国中医药大学冠名为“SR/MA”的博硕士论文均存在不同程度的检索策略细节报告不全面、数据库使用率低、灰色文献检索有待加强等问题。要避免上述问题,①检索相同主题已发表的SR/MA是检索的基础:通过检索相同主题已发表的SR/MA,可弥补选择检索词过程中漏选的检索词和补充数据库检索结果漏检的研究;②检索必检数据库(Medline/PubMed、EMBASE和Cochrane Library)的同时,应重视与研究课题相关的专业数据库(如PsycINFO和CINAHL等);③为了检索的全面性,避免漏检,增强研究实用价值,研究者除了要全面检索数据库外,还应当进行手工检索、追踪参考文献和检索搜索引擎;④如果可能,在专业人员指导下制定检索策略,并检索课题相关特异性数据库,同时尽可能报告文献信息的获取是否在信息检索专家指导下完成。

2.对纳入研究间异质性的处理须慎重

CSR指导手册将异质性分为:临床异质性、方法学异质性和统计学异质性。纳入研究间若存在临床和(或)方法学异质性,需采取必要的方法进行分析,如亚组分析、Meta回归、改变效应模型、敏感性分析等。①亚组分析:每次只能对一个变量进行亚组分析,且对每个亚组都要进行效应量的合并;若要对两个以上的变量进行分析,则应采用Meta回归;在临床同质性的基础上亚组的数量越少越好;②Meta回归:若纳入研究数量小于10个,Meta回归模型中最好一次只分析一个协变量,以确保结果的稳健性;③敏感性分析:实施敏感性分析后,若结果未发生变化,说明结果较为稳定可信,若分析后得到差别较大甚至结论相反,说明结果的稳定性低,在解释结果和下结论时需慎重,提示存在与干预措施或诊断方法相关的、重要的、潜在的因素需进一步明确争议的来源;④改变模型:当异质性来源不能用临床和方法学异质性来解释时,通常用随机效应模型合并效应量,但该模型估计合并效应量,实际上是计算多个原始研究效应量的加权平均值。

3.不同类型SR/MA各自面临的挑战

①CSR面临的挑战主要有:如何使CSR涉及的领域更宽泛,如动物实验和实验室研究的SR/MA,如何使RevMan软件更加完善,如DTASR分层受试者工作曲线参数结果直接估算等;②Overviews:其制作过程中的证据质量分级、资料分析和处理方法、报告规范等问题值得深入研究,与此同时,与NMA的关系和异同点也值得关注;③NMA:纳入研究质量评价标准选择、异质性和一致性处理问题、如何规范报告统计问题等仍需要进一步研究;④DTASR:目前DTASR更多关注的是两种诊断方法之间的比较,在临床实践中,需要对多种诊断方法的准确度进行纵向比较,如何实现3种及以上诊断方法比较应该被关注;⑤IPD-MA:这种方法可一次分析目前所有原始研究的数据、研究水平和患者水平上的结果差异、时间相关数据的结果,也可对原始数据按照相同的方法进行重新分析;但漏掉的研究可能增加研究风险,在数据合并上可能存在统计学的挑战;⑥DRMA:对纳入研究数据的完整性要求较高,在实际应用中,许多纳入研究并未给出所需的数据,尽管通过一些估算方法得出的结果,但存在一定的差别。