漏斗图是由 Light 与 Pillemer于1984年所提出,并由 Egger 等人深入探讨,是Meta分析的有用工具。漏斗图结合相关的统计检验,在系统评价中检查研究是否存在报告偏倚的可能性。
定义
漏斗图是一个简单的散点图,反映研究在一定样本量或精确性下单个研究的干预效应估计值。漏斗图最常见的是在横轴为各研究效应估计值,纵轴为研究样本量。
干预措施疗效的比率指标(如比值比、风险比)要在对数尺度上绘制,这能使同样大小、但方向相反的疗效值(如比值比0.5、比值比2)与1.0等距。对以连续性(数值型)尺度表示的结局(如血压、抑郁评分),应以均数差或标准化均数差衡量干预措施疗效,这些统计指标可作为漏斗图的横轴。
漏斗图最初用于教育研究和心理学领域,绘制对应于不同总样本量的效应估计值。现常建议纵轴用干预措施疗效估计值的标准误,而非样本总量。
图形分布特点
“漏斗图”的称法是源于随着研究样本量增加,干预措施疗效估计值的精确度增加。因此,小样本研究的疗效估计值在漏斗图底部更分散,而较大样本的研究则分布得较窄。在没有偏倚的情况下,图像中的点应聚集成一个大致对称的(倒置的)漏斗。图1阐明了此种情况
若存在偏倚,例如由于疗效无统计学意义的小样本研究尚未发表(图A空心圈所示),将使漏斗图外观不对称,图形底角有空白(图2)。这种情况下,Meta分析计算出的效果可能会高估干预措施疗效。不对称越明显,越有可能存在实质的偏倚。
原理
造成漏斗图不对称的不同原因
尽管早就将漏斗图不对称与发表偏倚同等看待,但漏斗图应视为表示小样本研究效应(估计的干预效果在小样本研究与大样本研究中存在不同的一种趋势)的通用方法,而小样本研究效应可能取决于发表偏倚之外的其它因素。其中部分因素见表1。
方法学质量的差异
与大样本研究相比,小样本研究在实施和分析的方法学上可能不严谨。低质量的试验还同样可能得出较大的干预措施疗效。因此那些本来是“阴性”的试验,如果实施和分析得当,可能变为“阳性”(图3)。
真实的异质性
干预措施疗效真实的异质性也会使漏斗图不对称。比如,仅在就干预措施影响的结局而言处于高风险的患者中,才能看出干预的实质获益;而早期阶段的小样本研究更有可能纳入这些高风险患者。此外,小样本试验往往在大样本试验确立前就已经实施,在干预疗程期间内标准治疗可能已经得到改进(使大样本试验中干预措施的疗效偏小)。而且,有些干预措施在大样本试验里可能实施得不彻底,这样也可能会使干预措施的疗效估计值偏小。最后,当然有可能仅仅是机遇的原因使漏斗图不对成得到。Terrin等认为漏斗图不适用于存在异质性的Meta分析,因为发起漏斗图的前提条件是所有研究来自潜在的同一总体。
在解释漏斗图时,系统评价作者要能区分表1列举的造成漏斗图不对称的各个可能原因。对特定干预措施及其在不同研究中实施的环境的了解,有助于找出导致漏斗图不对称的实际存在的异质性。
值得留意的是,目测解释漏斗图本身就有主观性。所以,我们这里将讨论对漏斗图不对称进行统计检验,并探讨统计检验多大程度上能有助于客观解释漏斗图。如果系统评价作者担心小样本研究效应影响Meta分析结果,他们可能想进行敏感性分析,以进一步探索Meta分析对于漏斗图不对称原因的不同假设所得结论的稳定性。
有个可强化漏斗图的提议,即引入等高线,这些等高线相当于所谓有统计学意义(P=0.01、0.05、0.1等等)的“里程碑”。这样做能够兼顾研究效应估计值的统计学显著性,以及被视为缺失的研究。这种“经等高线强化的”漏斗图可帮助系统评价作者鉴别因发表偏倚造成的不对称及其它因素所致的不对称。
对于漏斗图不对称的检验方法
漏斗图不对称(小样本研究效应)的检验方法检验估计的干预疗效和研究样本量的测量值(如干预措施疗效的标准误)间的联系是否大于机遇产生的联系。采取连续性(数值型)尺度测量结局合理而直接。用Egger等推荐的方法,我们可用干预措施疗效估计值的标准误对其进行线性回归,权重为干预措施疗效估计值的方差的倒数,以寻找干预措施疗效及其标准误间的直线关系。如果无效假设是没有小样本研究效应,该直线将垂直于横轴。如果干预措施疗效及标准误间的联系愈大,漏斗斜线将越偏离中垂线。需要注意,权重对于确保回归估计值不受小样本研究的主导很重要。
如果结局指标属于二分类,干预措施疗效以比值比表示,则Egger等推荐的方法相当于对数比值比及对数比值比标准误间的线性回归,权重为对数比值比方差的倒数。迄今为止,本法系漏斗图不对称最常用的检验法。遗憾的是,这种方法还是存在统计学问题,因为即使没有小样本研究效应,对数比值比的标准误在数学上依然和比值比的大小有关。这会使以对数比值比绘制的漏斗图不对称,意味着用Egger等使用的检验法求得的P值过小,从而得到假阳性的检验结果。如果干预措施疗效很大、存在明显的研究间异质性、或各研究发生的事件数很少、或所有研究样本量相似,则这些问题更有可能出现。
众多作者因此提出其它检验漏斗图不对称的方法,表2总结了这些方法。正因为发表偏倚的准确成因不得而知,才要求在根据很多发表偏倚成因假设的前提下、用模拟试验(用计算机产生的海量的数据集来评估检验方法)评估这些检验法的特点。Rücker等报道了最为全面的研究(在检验的场景、实施的模拟、参照的各种检验等方面)(Rücker2008)。这一研究及其它已发表的模拟研究提供了对于漏斗图不对称检验的如下建议。尽管模拟研究能提供了十分有用的深入见解,但它们评价的环境不可避免的不同于某个特定的Meta分析的具体环境,因此在解释模拟研究的结果时务须慎重。
大部分的这类方法学工作主要集中于用比值比表示的干预措施疗效。对于以危险度或标准化均数差表示的干预措施疗效,预期将出现相同的问题尽管看似合理,但需要对这种情形进一步的调查。
对于模拟试验用的参数值的代表性,以及没有明确的合理性但经常用于模拟发表偏倚和小样本研究效应的机制,目前仍有争议。不同检验法一些可能有效的变更仍未经检查验证。因此在选择漏斗图不对称性的检验方法时,不可能给出明确建议。尽管如此,对于想要检验漏斗图不对称的系统评价作者,我们仍能够找到3种值得考虑的方法。RevMan软件未使用这里任何一种检验法,具体使用时宜咨询专业统计人员。
局限性
有些作者认为,对漏斗图的目测解释过于主观而用处不大。尤其是,Terrin等发现,研究人员只有非常有限的能力,可以正确无误找出受发表偏倚影响的Meta分析的漏斗图。
漏斗图还有个重要问题,就是有些疗效估计值(如比值比、标准均数差)本来就与其标准误相关,在漏斗图中可引起虚假的不对称。
此外,假如高精准度的研究与低精准度的研究在效应大小方面不同(例如因为研究不同族群所致),漏斗图可能得出出版偏差的错误结论。漏斗图的纵轴刻度大小也可能大大改变漏斗图的外观--不管其是反比平方误差或是研究大小所致。
参考资料
漏斗图.中文维基百科【维基百科中文版网站】.2021-05-08