随机效应模型
数学术语
随机效应模型(random effects models),简称REM,是经典的线性模型的一种推广,就是把原来(固定效应模型)的回归系数看作是随机变量,一般都是假设是来自正态分布。如果模型里一部分系数是随机的,另外一些是固定的,一般就叫做混合模型(mixed models)。
简介
在面板数据线性回归模型中,如果对于不同的截面或不同的时间序列,只是模型的截距项是不同的,而模型的斜率系数是相同的,则称此模型为固定效应模型。随机效应模型把原来(固定)的回归系数看作是随机变量。
除了随机效应模型,典型的面板数据分析方法还有固定效应模型和混合效应模型。固定效应模型(FEM)假设所有的纳入研究拥有共同的真实效应量,而随机效应模型(REM)中的真实效应随研究的不同而改变。基于不同模型的运算,所得到的合并后的效应量均数值也不相同。早在1976年,第一篇Meta分析就使用FEM进行了数据合并,基于其统计简洁性及异质性认知,致使FEM广泛使用,直到2006年仍然有四分之三的Meta分析的文章在使用。然而,随着方法学不断更新及异质性理解,方法学家们对于证据合并内在结构理解与剖析,已开始逐渐对“理想”状态的FEM产生疑问。随后,REM逐渐被使用,并替代部分FEM。
随机效应模型的用途
随机效应最直观的用处就是把固定效应推广到随机效应。注意,这时随机效应是一个群体概念,代表了一个分布的信息 or 特征,而对固定效应而言,我们所做的推断仅限于那几个固定的(未知的)参数。例如,如果要研究一些水稻的品种是否与产量有影响,如果用于分析的品种是从一个很大的品种集合里随机选取的,那么这时用随机效应模型分析就可以推断所有品种构成的整体的一些信息。这里,就体现了经典的频率派的思想-任何样本都来源于一个无限的群体(population)。
同时,引入随机效应就可以使个体观测之间就有一定的相关性,所以就可以用来拟合非独立观测的数据。经典的就有重复观测的数据,多时间点的记录等等,很多时候就叫做纵向数据(longitudinal data),已经成为很大的一个统计分支。
上述两点基本上属于频率派,分析的工具也很经典,像极大似然估计似然比检验,大样本的渐近性等。但是,应该注意到把固定的参数看做是随机变量,可是贝叶斯学派的观念。当然,mixed models 不能算是完全的贝叶斯模型,因为贝叶斯学派要把所有的未知的参数都看作是随机的。所以有人把它看做是半贝叶斯的 or 经验贝叶斯的。在这个模型上,我们可以看到两个学派很好的共存与交流,在现代的统计方法里两种学派互相结合的例子也越来越多。
众所周知,随机效应有压缩(shrinkage)的功能, 而且可以使模型的自由度(df) 变小。这个简单的结果,对现在的高维数据分析的发展起到了至关重要的作用。事实上,随机效应模型就是一个带惩罚(penalty)的一个线性模型,有引入正态随机效应就等价于增加的一个二次惩罚。有趣的是,著名的岭回归(ridge regression) 就是一个二次惩罚,它的提出解决了当设计矩阵不满秩时最小二乘估计(LSE)无法计算以及提高了预测能力。于是,引入随机效应或者二次惩罚就可以处理当参数个数p 大于观测个数n的情形,这是在分析高维数据时必须面对的问题。当然,二次惩罚还有一个特性,如:计算简便,能选择相关的predictors,对前面的几个主成分压缩程度较小等。
与固定效应模型(FEM)的比较
从定义的角度
FEM:假设所有纳入的研究拥有共同的真实效应量,或者除了随机误差外,所观察效应量均为真实效应量。如比较对糖尿病黄斑水肿(DME)的抗血管内皮生长因子(Anti-VEGF)药物中aflibercept与bevacizumab疗效,除了药物自身疗效外,其他患者背景、药物使用情况及测量结局的工具等均“一致”,每个研究的观察效应量差别仅仅是由于抽样误差引起,也就是说,每个研究的观察效应量就“等于”其真实效应量。Cochrane Handbook已明确指出,当异质性小于40%,建议采用FEM进行Meta合并,因此,FEM对各研究背景较为苛刻,仅适用于“理想化”研究背景。
REM:如上所述,FEM中假设所有研究的真实效应量是相同的,但在大多数的系统评价和Meta分析中这是很难实现的。因为研究的对象很难保存同质性,所以在REM中的真实效应量会随着不同的研究所改变,例如一个研究的效应量可能比拥有不同年龄、教育背景、健康程度等参与者的研究的效应量更高或更低,所以真实效应量的大小不仅取决于样本的抽样误差,还取决于参与者或研究对象以及进行的干预措施等,也可称其为异质性。
基于统计学角度
FEM:假设纳入研究拥有共同的真实效应量,如图1中圆圈所示,各研究合并的真实效应量(θ)用倒三角表示。可以发现,对于FEM,所有研究真实效应量都是相同的。每个研究的样本量并非无限的,所以都会存在抽样误差(ε),从而导致了各研究的观察效应量(Y)不等于真实效应量(如图2中正方形所示),并且随着研究的不同而不同,可以用公式表示。
REM:在图3中,由于每个研究人群的背景、年龄、教育程度、地理环境的因素的不同,导致各个真实效应量也完全不同(成正态分布),同时也不同于合并的真实效应量(μ),把两者之间的差值叫做真实差值,并用ζ表示(如图4)。由于抽样误差的成在,相互之间的观察效应量或多或少于真实效应量,例如图4中的Study3,观察效应量小于真实效应量,而真实效应量又小于合并的真实效应量,所以在REM中,合并后的真实效应量由两种因素决定,即真实差值和抽样误差,可用下列公式表示。
基于权重分配的角度
在Meta分析中,为了减少误差获得更加准确的结果,每种模型的计算各不相同,主要体现在各个研究权重值的分配上,这也是两种效应模型的根本的区别所在。
FEM:在这种模型中,权重的分配主要依赖其精确度,每个研究的权重等于方差的倒数(W=1/V),样本量越大,效应量的方差就越大,那么相应的权重分配就越多。因此大样本的研究对总合并后效应量的贡献值相对于小样本研究就更大,导致小样本研究更容易被忽略,分配的权重也就更少。
REM:与FEM不同,REM的总效应量是各个研究真实效应量的均数值,并非只注重大样本量的研究,而是为了平衡每个研究的效应量注重所有纳入的研究。
参考资料
最新修订时间:2024-04-03 16:19
目录
概述
简介
参考资料