方差扩大因子(variance inflation factor)简称VIF,是表征自变量观察值之间复共线性程度的数值。线性回归分析中,回归系数βj的估计量的方差为σ2Cjj,其中Cjj=(1-Rj)-1,称Cjj为βj的方差扩大因子,这里Rj为xj对其余p-1个自变量的
复相关系数的平方,显然Cjj≥1,它的大小可以反映出自变量的观察值之间是否存在复共线性以及其程度如何,Cjj越大,复共线性越严重。
方差扩大(膨胀)因子法是通过考察给定的解释变量被方程中其他所有解释变量所解释的程度,以此来判断是否存在
多重共线性的一种方法。方程中的每一个解释变量都有一个方差扩大(膨胀)因子(variance inflation factor,VIF),它反映的是多重共线性在多大程度上增大估计系数方差的指标。统计上可以证明,解释变量、参数估计值的方差可表示为:
式中,是变量的方差扩大因子,即,这里的是多个解释变量辅助回归的可决系数。越大,说明变量间多重共线性越严重,
方差膨胀因子也就越大。经验表明,时,说明解释变量与其余解释变量之间有严重的多重共线性。且这种多重共线性可能会过度地影响最小二乘估计。
在不存在
多重共线性的情况下,方差扩大因子接近于1。但是,实际上自变量之间总是或多或少地存在多重共线性,因而将方差扩大因子等于1作为评价共线性的标准是不现实的。多重共线性越强,方差扩大因子就越大。一个易用的标准:当VIF值大于10时,就认为变量之间具有强烈的多重共线性,不能接受。
多元线性回归模型的一个基本假设,就是要求自变量矩阵X的列满秩,即秩(要求X中的列向量之间与线性无关)。如果X的列不满秩,则将不存在,于是基于最小二乘的回归系数估计,将不存在,所以很难得出稳定的结果。
完全多重共线性的情况并不多见,在回归分析之前,也很容易发现存在完全多重共线性的解释变量。可以采用以下三种方法来判断是否存在完全多重共线性:第一,考察一个变量是否是另一个变量的倍数;第二,考察一个变量是否等于另一个变量加上一个常数项;第三,考察一个变量是否等于另外两个变量相加。如果存在以上几种情况,就应该剔除其中的一个变量。
当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值会发生较大变化,我们就认为回归方程存在严重的
多重共线性。
从定性分析的角度来看,若一些重要的自变量在回归方程中没有通过
显著性检验,可初步判断它们存在着严重的多重共线性。若自变量的回归系数所带正负号与定性分析结果违背,我们就认为它们存在着多重共线性问题;自变量的相关矩阵中,自变量间的相关系数较大时,可能会出现多重共线性;一些重要的自变量的回归系数的标准误差较大时,可能存在多重共线性。