多元回归分析(Multiple Regression Analysis)是指在相关变量中将一个变量视为因变量,其他一个或多个变量视为自变量,建立多个变量之间线性或非线性数学模型数量关系式并利用样本数据进行分析的统计分析方法。另外也有讨论多个自变量与多个因变量的线性依赖关系的多元回归分析,称为多元多重回归分析模型(或简称多对多回归)。
基本介绍
通常影响因变量的因素有多个,这种多个自变量影响一个因变量的问题可以通过多元回归分析来解决。例如,经济学知识告诉我们,商品需求量Q除了与商品价格P有关外,还受到替代品的价格、互补品的价格,和消费者收入等因素,甚至还包括商品品牌Brand这一品质变量(品质变量不能用数字来衡量,需要在模型中引入
虚拟变量)的影响。多元回归分析应用的范围更加广泛。由于线性回归分析比较简单和普遍,下面首先介绍多元线性回归,在线性分析基础上,逐步引入虚拟变量回归和一类能够变换成线性回归的曲线回归模型。
多元回归模型
多元回归模型的数学形式
设因变量为Y,影响因变量的k个自变量分别为 ,假设每一个自变量对因变量Y的影响都是线性的,也就是说,在其他自变量不变的情况下,Y的均值随着自变量 的变化均匀变化,这时我们把
称为总体回归模型,把 称为回归参数。回归分析的基本任务是:
任务1:利用样本数据对模型参数作出估计。
任务2:对模型参数进行假设检验。
任务3:应用回归模型对因变量(被解释变量)作出预测。
模型的基本假定
为了保证多元回归分析的参数估计、统计检验以及置信区间估计的有效性,与一元线性回归分析类似,我们需要对总体回归模型及数据作一些基本假定。
假定1:随机误差项 的概率分布具有零均值,即 。
假定2:随机误差项 的概率分布对于不同的自变量表现值而言,具有同方差。即 的方差不随着 的变化而变化, 。
假定2:随机误差项 的概率分布对于不同的自变量表现值而言,具有同方方差不随着 的变化而变化, 。
假定3:随机误差项 不存在自相关,即 。
假定4: 与任一解释变量 不相关,可以表示为 。
假定5:解释变量X之间不存在完全共线性。
以上假定1~4与一元回归分析的假定是相同的。假定5 是针对解释变量而言,在一元回归分析中,由于只有一个解释变量,因此这一点是不需要的。在模型和数据满足上述假定时,对式(1)两边取期望,可得到:
式(2)称为总体回归方程(Population Regression Equation,PRE )或总体回归函数(Population Regression Function,PRF), 表示在给定自变量 的条件下观察值Y的条件均值。在实际问题中,总体参数 往往是未知的,我们需要根据样本观察值给出总体参数的相应的估计值 ,此时,
称为样本回归方程(Sample Regression Equation,SRE) 或样本回归函数(Sample RegressionFunction,SRF), 也就是 的点估计值。
多元线性回归方程的估计
对于多元回归方程,在模型和数据满足前文所述的基本假定的前提下,参数估计可以通过最小二乘估计来得到,同样假设
即
根据高等数学知识,Q分别对 对求
偏导数,令其等于0,得到
求解式(5)中的方程组,即可得到参数的估计值 。由于手工计算比较繁琐,而现在的统计软件都提供了回归分析工具,尤其Excel中的回归分析工具相当简单。
引进虚拟变量
前面介绍的回归分析中的自变量和因变量都是数值型变量,如果在回归分析中引入
虚拟变量(分类变量),则会使模型的应用范围迅速扩大。在自变量中引入虚拟变量本身并不影响回归模型的基本假定,因为经典回归分析是在给定自变量X的条件下被解释变量Y的随机分布。但是如果因变量为分类变量,则会改变经典回归分析的基本假定,一般在计量经济学教材中有比较深入的介绍,如Logistics回归等。
当虚拟变量的引入形式只影响回归方程的截距,我们称为加法模型。引入虚拟变量的另外一种形式是乘法模型,这时引入虚拟变量后并不影响模型的截距,而是影响了斜率。当然,在模型设定时也可能同时引入加法和乘法,同时改变模型的截距和斜率。
曲线回归
前面我们在模型中都假定Y和之间是线性关系,从广义的线性角度来讲,下面所讲的曲线模型是通过变量替换而转化成线性的模型。表1列出了常用的可以通过变量替换而转化成线性的曲线模型。