变量选择是指拟合多元回归方程(包括线性和非线性)的自变量选择、拟合判别函数的判别指标(变量)选择等。现以拟合
多元线性回归方程来说明。是要从m个自变量中选择m′(m′≤m)个自变量,拟合最优或较理想的多元线性回归方程。一般来说,m越大,m′会越小于m。拟合多元线性回归方程的用途是由自变量解释和预报应变量,筛选自变量的目的是使上述两大用途的实际效果更好:1.选择对应变量作最好的一组自变量。其着眼点是拟合回归方程的一组自变量整体,用该组自变量应使回归方程拟合得最好。2.选择对应变量作最好解释的主要自变量。其着眼点是引入回归方程的一组自变量的每个自变量,引入回归方程的各自变量对应变量的作用应有显著性(回归方程外的各自变量对应变量的作用无显著性)。
在回归分析的实际应用中,改进预报效果和改进解释效果,研究者有时希望达到这两个目的,有时只关心或偏重这两个目的中的一个。变量选择的方法分成两大类:最优子集回归法着眼于选择一组使回归方程拟合得最好的自变量;逐步回归法着眼于选择对应变量作用有显著性的主要自变量。