回归模型(regression model)对统计关系进行
定量描述的一种数学模型。如
多元线性回归的数学模型可以表示为y=β0+β1*x+εi,式中,β0,β1,…,βp是p+1个待估计的参数,εi是相互独立且服从同一
正态分布N(0,σ2)的
随机变量,y是随机变量;x可以是随机变量,也可以是非随机变量,βi称为
回归系数,表征
自变量对
因变量影响的程度。
定义
回归模型是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于
预测分析,
时间序列模型以及发现变量之间的
因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是
回归。
回归分析
回归模型重要的基础或者方法就是
回归分析,回归分析是研究一个变量(
被解释变量)关于另一个(些)变量(解释变量)的具体依赖关系的计算方法和理论,是建模和分析数据的重要工具。在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。下面是回归分析的几种常用方法:
1. Linear Regression线性回归
它是最为人熟知的建模技术之一。
线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。
线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
用一个方程式来表示它,即
其中a表示
截距,b表示直线的斜率,e是误差项。这个方程可以根据给定的预测变量(s)来预测目标变量的值。
2.Logistic Regression逻辑回归
逻辑回归是用来计算“事件=Success”和“事件=Failure”的
概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,我们就应该使用逻辑回归。这里,Y的值从0到1,它可以用下方程表示。
上述式子中,p表述具有某个特征的概率。
3. Polynomial Regression多项式回归
对于一个回归方程,如果自变量的
指数大于1,那么它就是多项式回归方程。如下方程所示:
在这种回归技术中,最佳拟合线不是直线。而是一个用于拟合数据点的曲线。
4. Stepwise Regression逐步回归
在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。
这一壮举是通过观察统计的值,如R-square,t-stats和
AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的
协变量来拟合模型。下面列出了一些最常用的逐步回归方法:
这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。
5. Ridge Regression岭回归
岭回归分析是一种用于存在
多重共线性(自变量高度相关)数据的技术。在多重共线性情况下,尽管
最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。
6. Lasso Regression套索回归
它类似于岭回归,Lasso (Least Absolute Shrinkage and Selection Operator)也会惩罚回归系数的绝对值大小。此外,它能够减少变化程度并提高
线性回归模型的精度。看看下面的公式:
7.ElasticNet回归
ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。
Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。
优点
使用回归分析的好处良多。具体如下:
回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与
促销活动数量之间联系。这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。