提到回归直线,首先要知道变量的
相关性。变量与变量之间的关系常见的有两类:一类是
确定性的
函数关系,像
正方形的边长a和面积S的关系;另一类是变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是
随机性的。当两个相互关系的量具有这两种变量关系的时候,就称两个变量具有
相关关系。
回归直线方程是根据样本资料通过
回归分析所得到的反映一个变量(
因变量)对另一个或一组变量(
自变量)的
回归关系的数学
表达式。指在一组具有相关关系的变量的数据(x与Y)间,一条最好地反映x与Y之间的关系直线。
离差作为表示xi对应的回归直线纵坐标y与观察值yi的差,其几何意义可用点与其在回归直线竖直方向上的投影间的距离来描述。数学表达:yi-y^=yi-a-bxi.总离差不能用n个离差之和来表示,通常是用离差的平方和即(yi-a-bxi)^2计算。
如果
散点图中点地分布从整体看大致在一条直线附近,我们就称这两个变量之间具有线性
相关关系。可以包括正相关和负相关。这条直线叫作回归直线。根据不同地标准,可以画出不同地直线来
近似表示这种线性相关关系。比如可以连接最左侧点和最右侧点得到一条直线,或者让画出地直线上方地点和下方地点数目相等。当所有数据点都分布在一条直线附近,显然这样地直线还可以画出许多条,而我们希望找出其中地一条,它能最好地反映x与Y地关系,换言之,我们要找出一条直线,使这条直线“最贴近”已知地数据点。记此
直线方程为y^=a+bx。这里在y地上方加记号“^”是为了区分Y地实际值y,表示x取值xi(i=1,2,3……,n)时,Y相应地观察值为yi,而直线上对应于xi地
纵坐标是yi^=a+bxi(i为x右
下角地数值)。y^=a+bx式叫作Y对x地
回归直线方程,b叫
回归系数。要确定
回归直线方程,只要确定a与
回归系数b。
在
回归分析中,用来描述具有
线性关系的
因变量y与
自变量xi的关系曲线,其一般表达式是y=a+∑bixi,i=1,2,…,n。
“回归”这个词是由英国著名的统计学家 Francils Galton 提出来的。1889年,他在研究祖先与后代身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母平均身高高。Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”。后来,人们把由一个变量的变化去推测另一个变量的变化的方法叫做回归方法。