回归方程(regression equation)是对变量之间统计关系进行
定量描述的一种数学
表达式。指具有相关的
随机变量和
固定变量之间关系的
方程。
回归
直线方程指在一组具有
相关关系的变量的数据(x与y)间,一条最好地反映x与y之间的关系直线。
若在一组具有
相关关系的变量的数据(x与Y)间,通过散点图我们可观察出所有数据点都分布在一条直线附近,这样的直线可以画出许多条,而我们希望其中的一条最好地反映x与Y之间的关系,即我们要找出一条直线,使这条直线“最贴近”已知的数据点。
因为模型中有残差,并且残差无法消除,所以就不能用二点确定一条直线的方法来得到方程,要保证几乎所有的实测值聚集在一条回归直线上,就需要它们的纵向距离的平方和到那个最好的拟合直线距离最小。
记此
直线方程为(如右所示,记为①式)这里在y的上方加记号“^”,是为了区分Y的实际值y,表示当x取值xi=1,2,……,6)时,Y相应的观察值为yi,而直线上对应于xi的纵坐标是①式叫做Y对x的
来表示,通常是用
离差的平方和,即作为总离差,并使之达到最小,这样回归直线就是所有直线中Q取最小值的那一条,这种使“离差平方和最小”的方法,叫做最小二乘法:
由于绝对值使得计算不变,在实际应用中人们更喜欢用:Q=(y1-bx1-a)2+(y2-bx2-a)2+······+(yn-bxn-a)2,这样,问题就归结于:当a,b取什么值时Q最小,即到点直线y=bx+a的“整体距离”最小。