线性回归方程是利用
数理统计中的
回归分析,来确定两种或两种以上变数间相互依赖的
定量关系的一种统计分析方法之一。线性回归也是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。按自变量个数可分为一元线性回归分析方程和多元线性回归分析方程。
简介
在
统计学中,线性回归方程是利用最小二乘函数对一个或多个
自变量和
因变量之间关系进行建模的一种
回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为
简单回归,大于一个自变量情况的叫做
多元回归。(这反过来又应当由多个相关的因变量预测的多元线性回归区别,而不是一个单一的标量变量。)
在线性回归中,数据使用
线性预测函数来建模,并且未知的模型参数也是通过数据来估计。这些模型被叫做
线性模型。最常用的线性回归建模是给定X值的y的条件均值是X的
仿射函数。不太一般的情况,
线性回归模型可以是一个中位数或一些其他的给定X的条件下y的条件分布的分位数作为X的线性函数表示。像所有形式的回归分析一样,线性回归也把焦点放在给定X值的y的条件概率分布,而不是X和y的
联合概率分布(多元分析领域)。
模型
1.理论模型
给一个随机样本 ,一个线性回归模型假设回归子 和回归量 之间的关系是除了X的影响以外,还有其他的变数存在。我们加入一个误差项 (也是一个随机变量)来捕获除了 之外任何对 的影响。所以一个多变量线性回归模型表示为以下的形式:
其他的模型可能被认定成
非线性模型。一个线性回归模型不需要是自变量的线性函数。线性在这里表示 的条件均值在参数 里是线性的。例如:模型 在 和 里是线性的,但在 里是非线性的,它是 的
非线性函数。
2.数据和估计
区分随机变量和这些变量的观测值是很重要的。通常来说,观测值或数据(以小写字母表记)包括了n个值 。
我们有 个参数 需要决定,为了估计这些参数,使用
矩阵表记是很有用的。
其中Y是一个包括了观测值 的列向量, 包括了未观测的随机成分 以及回归量的观测值矩阵 :
X通常包括一个常数项。
如果X列之间存在
线性相关,那么参数向量 就不能以
最小二乘法估计除非 被限制,比如要求它的一些元素之和为0。
3.古典假设
1)样本是在母体之中随机抽取出来的。
3)残差项是
独立同分布的,也就是说,残差是独立随机的,且服从
高斯分布。
这些假设意味着
残差项不依赖自变量的值,所以 和自变量X(预测变量)之间是
相互独立的。
在这些假设下,建立一个显示线性回归作为条件预期模型的简单线性回归方程,可以表示为:
求解方法
线性回归模型经常用最小二乘逼近来
拟合,但他们也可能用别的方法来拟合,比如用最小化“拟合缺陷”在一些其他规范里(比如最小绝对误差回归),或者在回归中最小化最小二乘
损失函数的乘法。相反,最小二乘逼近可以用来拟合那些非线性的模型。因此,尽管最小二乘法和线性模型是紧密相连的,但他们是不能划等号的。
1.最小二乘法分析
回归分析的最初目的是估计模型的参数以便达到对数据的最佳拟合。在决定一个最佳拟合的不同标准之中,最小二乘法是非常优越的。这种估计可以表示为:
1).回归推论:
对于每一个,我们用代表误差项的方差。一个无偏误的估计是:
其中是误差平方和(残差平方和)。估计值和实际值之间的关系是:
其中服从卡方分布,自由度是。
对普通方程的解可以为:
这表示估计项是因变量的
线性组合。进一步地说,如果所观察的误差服从
正态分布。参数的估计值将服从联合正态分布。在当前的假设之下,估计的参数向量是精确分布的。
误差项可以表示为:
2).方差分析:
在方差分析中,总平方和分解为两个或更多部分。
总平方和SST (sum of squares for total) 是:
其中:。
同等地:
回归平方和SSReg (sum of squares for regression),也可写做模型平方和SSM( sum of squares for model) )是:
残差平方和SSE (sum of squares for error) 是:
2.其他方法
1.广义最小二乘法
广义最小二乘法可以用在当观测误差具有异方差或者自相关的情况下。
2.总体最小二乘法
3.广义线性模式
广义线性模式应用在当误差分布函数不是
正态分布时。比如
指数分布,
伽玛分布,
逆高斯分布,
泊松分布,
二项式分布等。
4.稳健回归
稳健回归是将
平均绝对误差最小化,不同于在线性回归中是将均方误差最小化。
应用
线性回归方程是
回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其位置参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定。
线性回归有很多实际用途。分为以下两大类:
1.趋势线
一条趋势线代表着
时间序列数据的长期走势。它告诉我们一组特定数据(如GDP、石油价格和股票价格)是否在一段时期内增长或下降。虽然我们可以用肉眼观察数据点在坐标系的位置大体画出趋势线,更恰当的方法是利用线性回归计算出趋势线的位置和斜率。
2.流行病学
有关吸烟对
死亡率和发病率影响的早期证据来自采用了回归分析的
观察性研究。为了在分析观测数据时减少
伪相关,除最感兴趣的变量之外,通常研究人员还会在他们的回归模型里包括一些额外变量。例如,假设我们有一个回归模型,在这个回归模型中吸烟行为是我们最感兴趣的独立变量,其相关变量是经数年观察得到的吸烟者寿命。研究人员可能将
社会经济地位当成一个额外的独立变量,已确保任何经观察所得的吸烟对寿命的影响不是由于教育或收入差异引起的。然而,我们不可能把所有可能混淆结果的变量都加入到实证分析中。例如,某种不存在的基因可能会增加人死亡的几率,还会让人的吸烟量增加。因此,比起采用观察数据的回归分析得出的结论,
随机对照试验常能产生更令人信服的因果关系证据。当可控实验不可行时,回归分析的衍生,如工具变量回归,可尝试用来估计观测数据的因果关系。
3.金融
资本资产定价模型利用线性回归以及
Beta系数的概念分析和计算投资的系统风险。这是从联系投资回报和所有风险性资产回报的模型
Beta系数直接得出的。
4.经济学
线性回归是经济学的主要实证工具。例如,它是用来预测消费支出,固定投资支出,存货投资,一国出口产品的购买,进口支出,要求持有流动性资产,劳动力需求、劳动力供给。