向前选择法是一种回归模型的自变量选择方法,其特点是把候选的自变量逐个引入回归方程,故称向前法。具体操作步骤是:先把与因变量y有最大相关系数的自变量拟合模型,进行回归系数的
显著性检验,决定是否把该自变量引入模型;然后,在未被引进模型的自变量中,对与y有最大偏相关系数的自变量引入模型并进行回归系数的显著性检验,决定取舍,依次类推。直至在排除了已选入变量对y的影响之后,未选入自变量对y的回归系数的显著性检验结果都不显著异于0为止。这种方法比较简单,但主要缺点是,如果存在
多重共线性,最后的模型中可能混有不太重要的自变量。
在实际问题中,选择合适的变量来建立回归方程,不是一件很容易的事情。因为影响因变量y的因素很多,而这些因素之间存在着
多重共线性,特别是在教育和经济类数据中,各自变量之间有高度的相互依赖性,这样会给回归系数估计值带来不合理的解释。为了得到一个稳健的、可靠的回归模型,这就需要给出一种方法,使得能从众多的影响y的因素中挑选出对y影响大的变量,在它们和y的观测数据基础上建立最优的回归方程。向前选择法与向后剔除法、逐步回归法一样是目前使用较为广泛的在众多因素中筛选对因变量有显著影响的自变量的统计方法。在向前选择法中,与因变量有最大正相关或最大负相关的变量首先进入回归方程,然后按假设H0:“进入回归方程的变量的系数为0”对进入回归方程的变量的系数进行F-检验。为了决定变量(及每一个后继变量)是否能进入回归方程,须指定进入回归方程的判别标准。常用的标准有:①F值进入标准FIN:当F统计量值(临界值,常指定为3.84)时,变量才可能进入回归方程;②F概率进入标准PIN:当F统计量的相伴概率≤PIN(临界概率,常指定为0.05)时,变量才可能进入回归方程。如果第一个被选变量满足F检验条件(即H0被拒绝),则向前选择变量过程继续;否则,选择变量过程结束,回归方程中无任何自变量。一旦有一个自变量进入回归方程,接着考察因变量与不在方程中的每个变量的
偏相关系数,具有最大偏相关系数的变量是下一个候选者。如果满足F检验条件,则该变量进入回归方程,且重复上述选择过程。当没有变量满足F检验条件时,选择变量过程终止。此时所得到的回归方程为最优回归方程。
1.对k个自变量分别拟合对因变量y的
一元线性回归模型,即得到k个一元
线性回归模型,然后找出F统计量值最高的模型及对应的,并将该自变量首先引入模型中。在此过程中,需要注意的是:如果所有模型的F统计量均未通过检验,说明所搜集的自变量与因变量之间均为不显著,说明模型构建不适合,应当考虑换其他模型,本方法的运算过程也就终止了。
2.在已经引入的模型上,分别引入剩余的k-1个自变量,分别得到k-1个二元线性回归模型,即变量组合为k-1个二元线性回归模型,继而得到k-1个新的F统计量,并从中找出F统计量的值为最高的模型,此时,该模型中含有两个自变量,新增加的自变量即为经过筛选出来的应当引入模型的自变量。同样地,如果在此过程中,没有F统计量通过检验,则运算终止。
3.按照第二步的筛选方法,不断引入新的自变量,直到引入的新的自变量也不能使得
残差平方和(SSE)显著减少为止(F统计量均为通过检验)。向前选择法就是这样一个不断引入新变量,进行F统计量检验的过程,由此可见,只要某个自变量增加到模型中,该自变量就一定会保留在模型中。