数据提取
数据提取
数据提取(Data Extraction)指根据一定的目的,从原始文献中摘录所需要的信息,以作进一步存储、换算和分析的过程。在系统评价中,数据信息包括具体的方法、受试者、实施场地、背景、干预措施、结局、结果、出版物和研究者等。
数据来源
系统评价研究中数据的来源主要包括公开发表的文献、联系文献作者得到的数据和单个患者的数据。
对于公开发表的文献,如期刊论文、图书、学位论文、会议摘要和网站等,研究者需要从若干原始研究中提取与研究目的相关的信息。但因资料的可信度及详细级别不同,建议建立数据提取表收集研究报告数据。
如果无法从现有报告中提取所有寻求的信息,包括研究的详细资料和数值结果。在这种情况下,建议评价者联系原始研究作者,寻求具体信息或单个受试对象层面的数据。
单个患者数据(Individual patient data,IPD)的系统评价是指从每一个研究中获取每一个患者的研究数据,其为数据可用性的金标准。
人工数据提取方法
数据提取表作为数据提取过程中最常用的工具,由研究者根据研究目的和一定的规则精心设计,包含必要且适量的条目,并配以编码和注释。数据提取条目清单通常包括数据来源、合格性、方法、参与者、干预措施、结果、结论等。在使用前,数据提取表应当用具有代表性的原始研究报告进行预测试,因为这种测试可以确定数据提取表中遗漏或多余的内容。
为了缩小人工提取的误差和潜在偏倚,通常建议应至少两人独立平行地提取数据,并采用预设的方案来处理分歧。数据提取者最好来自互补(交叉)学科,如一个方法学专家和一个主题领域的专家。
自动数据提取
数据提取是系统评价研究中非常重要的一环,人工数据提取是一项费时、费力的工作。因此,一些研究者开始尝试在系统评价研究中进行自动的数据提取。
近年来,机器学习、自然语言处理、深度学习等技术的产生和发展,为实现自动的数据提取提供了可能性。2015年发表的一项系统综述显示,国际上共有26篇系统综述使用了自动的数据提取方法,共涉到52个变量。然而单个研究最多只实现7个变量的自动提取,并且生物医学自然语言处理技术没有得到很充分的应用,在这些研究之间也没有一个统一的自动提取框架。因此,自动数据提取技术还有很大的发展空间。
最新修订时间:2023-07-24 15:41
目录
概述
数据来源
参考资料