相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。相关分析与回归分析之间的区别:回归分析侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量;相关分析侧重于发现随机变量间的种种相关特性。相关分析在工农业、水文、气象、社会经济和生物学等方面都有应用。
简介
相关分析就是对总体中确实具有联系的标志进行分析,其主体是对总体中具有因果关系标志的分析。它是描述客观事物相互间关系的密切程度并用适当的
统计指标表示出来的过程。在一段时期内出生率随经济水平上升而上升,这说明两指标间是正相关关系;而在另一时期,随着经济水平进一步发展,出现出生率下降的现象,两指标间就是负相关关系。
为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为“
散点图”。
根据散点图,当
自变量取某一值时,因变量对应为一
概率分布,如果对于所有的自变量取值的
概率分布都相同,则说明因变量和自变量是没有相关关系的。反之,如果,自变量的取值不同,因变量的分布也不同,则说明两者是存在相关关系的。
两个变量之间的相关程度通过相关系数r来表示。相关系数r的值在-1和1之间,但可以是此范围内的任何值。
正相关时,r值在0和1之间,散点图是斜向上的,这时一个变量增加,另一个变量也增加;
负相关时,r值在-1和0之间,散点图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。
分类
1、按相关的程度分为完全相关、不完全相关和不相关
1)两种依存关系的标志,其中一个标志的数量变化由另一个标志的数量变化所确定,则称完全相关,也称函数关系。
2)两个标志彼此互不影响,其数量变化各自独立,称为不相关。
3)两个现象之间的关系,介乎完全相关与不相关之间称不完全相关。
2、按相关的方向分为正相关和负相关
1)正相关指相关关系表现为因素标志和结果标志的数量变动方向一致。
2)负相关指相关关系表现为因素标志和结果标志的数量变动方向是相反的。
3、按相关的形式分为线性相关和非线性相关
一种现象的一个数值和另一现象相应的数值在直角坐标系中确定为一个点,称为线性相关。
4、按影响因素的多少分为单相关和复相关
1)如果研究的是一个结果标志同某一因素标志相关,就称单相关。
2)如果分析若干因素标志对结果标志的影响,称为复相关或多元相关。
相关关系
相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个
随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。
确定相关关系的存在,相关关系呈现的形态和方向,相关关系的密切程度。其主要方法是绘制相关图表和计算相关系数。
编制相关表前首先要通过实际调查取得一系列成对的标志值资料作为相关分析的原始数据。
相关表的分类:简单相关表和分组相关表。单变量分组相关表:自变量分组并计算次数,而对应的因变量不分组,只计算其平均值;该表特点:使冗长的资料简化,能够更清晰地反映出两变量之间相关关系。双变量分组相关表:自变量和因变量都进行分组而制成的相关表,这种表形似棋盘,故又称棋盘式相关表。
利用直角坐标系第一象限,把自变量置于横轴上,因变量置于纵轴上,而将两变量相对应的
变量值用坐标点形式描绘出来,用以表明相关点分布状况的图形。相关图被形象地称为相关散点图。因素标志分了组,结果标志表现为组平均数,所绘制的
相关图就是一条折线,这种折线又叫相关曲线。
1、相关系数是按积差方法计算,同样以两变量与各自平均值的
离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的
单相关系数。
2、确定相关关系的数学表达式。
3、确定因变量估计值误差的程度。
复相关
研究一个变量 x0与另一组变量 (x1,x2,…,xn)之间的相关程度。例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系,就是复相关。
复相关系数R0.12…n的测定,可先求出 x0对一组变量x1,x2,…,xn的
回归直线,再计算x0与用回归直线估计值悯之间的简单直线回归。复相关系数为
R0.12…n的
取值范围为0≤R0.12…n≤1。复相关系数值愈大,变量间的关系愈密切。
偏相关
研究在多变量的情况下,当控制其他变量影响后,两个变量间的
直线相关程度。又称净相关或部分相关。例如,
偏相关系数 r13.2表示
控制变量x2的影响之后,变量 x1和变量x3之间的直线相关。偏相关系数较简单直线相关系数更能真实反映两变量间的联系。
偏相关系数、
复相关系数、简单直线相关系数之间存在着一定的关系。以3个变量x1,x2,x3为例,它们有如下的关系:
或
定序变量
讨论两个定序变量间的相关的程度与方向。又称等级相关。例如,研究夫妇双方文化程度的相关等。等级相关系数有R系数和γ系数。
R系数 计算方法与简单直线相关系数相同。 式中
X,Y分别为x,y的测量值的等级。
英国统计学家 C.E.斯皮尔曼从R系数中推导出简捷式,称斯皮尔曼等级相关系数:
式中di=xi-yi,i=1,2,…,N(N为次数)。
等级相关系数 R具有与简单
直线相关相同的性质:
取值范围在〔-1,+1〕之间;R的绝对值愈大,变量间的等级相关程度愈大。
式中Ns为同序对数目,Nd为异序对数目。
同序对表示两个个案(xi,yi)和(xj,yj)相比时,具有xi>xj,则yi>yj的性质;反之,若xi>xj,但yi
γ系数的
取值范围在〔-1,+1〕之间。γ的绝对值愈大,变量间的等级相关程度愈大。