在
统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs),是用于度量两个变量X和Y之间的
相关(线性相关),其值介于-1与1之间。
函数介绍
在自然科学领域中,皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于-1与1之间。它是由
卡尔·皮尔逊从
弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔逊积矩相关系数”。
图1展示了几组的点集,以及各个点集中和之间的
相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向(第一排),而不是相关性的斜率(中间),也不是各种非线性关系(第三排)。请注意:中间的图中斜率为0,但相关系数是没有意义的,因为此时变量是0。
定义
两个变量之间的皮尔逊相关系数定义为两个变量之间的
协方差和
标准差的商:
上式定义了总体相关系数,常用希腊小写字母作为代表符号。估算
样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母 代表:
亦可由
样本点的
标准分数均值估计,得到与上式等价的表达式:
其中 、 及 分别是对 样本的标准分数、样本
平均值和样本
标准差。
数学特性
总体和样本皮尔逊系数的绝对值小于或等于1。如果样本数据点精确的落在直线上(计算样本皮尔逊系数的情况),或者双变量分布完全在直线上(计算总体皮尔逊系数的情况),则相关系数等于1或-1。皮尔逊系数是对称的: 。
皮尔逊相关系数有一个重要的数学特性是,因两个变量的位置和尺度的变化并不会引起该系数的改变,即它该变化的
不变量(由符号确定)。也就是说,我们如果把移动到和把Y移动到,并不会改变两个变量的相关系数(该结论在总体和样本皮尔逊相关系数中都成立),其中a、b、c和d是常数。我们发现更一般的线性变换则会改变相关系数:
由于 ,则 ,同理;
故相关系数也可以表示成
对于样本皮尔逊相关系数:
以上方程给出了计算样本皮尔逊相关系数简单的单流程算法,但是其依赖于涉及到的数据,有时它可能是数值不稳定的。
解释
皮尔逊相关系数的变化范围为-1到1。 系数的值为1意味着X和Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条
直线上,且随着 的增加而增加。系数的值为−1意味着所有的数据点都落在直线上,且随着 的增加而减少。系数的值为0意味着两个变量之间没有线性关系。
更一般的, 我们发现,当且仅当 和 均落在他们各自的均值的同一侧, 则 的值为正。 也就是说,如果 和 同时趋向于大于或小于其各自的均值,则相关系数为正。 如果 和 趋向于落在其均值的相反一侧,则相关系数为负。
1.几何学的解释
对于没有中心化的数据, 相关系数与两条可能的回归线(红)和 (蓝)夹角的余弦值一致。
对于中心化过的数据 (也就是说, 数据移动一个样本平均值以使其均值为0), 相关系数也可以被视作由两个随机变量向量夹角 的余弦值。
一般倾向于使用非中心化的相关系数, 比较如下:
例如,有5个国家的国民生产总值分别为10,20,30,50和80亿美元。假设这5个国家 (顺序相同) 的贫困百分比分别为11%,12%,13%,15%和18%。令x和y分别为包含上述5个数据的向量:x = (1, 2, 3, 5, 8) 和y ,= (0.11, 0.12, 0.13, 0.15, 0.18)。
利用通常的方法计算两个向量之间的夹角,未中心化的相关系数是:
我们发现以上的数据完全相关:。于是,皮尔逊相关系数应该等于1。将原始的x和y数据通过和中心化 (,),得到新的和,此时:
2.皮尔逊距离
定义式为,其值的区间为。
分析
样本相关系数的平方, 亦称作决定系数(coefficient of determination),利用
简单线性回归估计由引起的的变化。
将围绕它们平均值上的变化分解为:
其中 是作回归分析时的适应值。 整理后得:
等式左边表示由非引起的变化,右边两个被加数表示由引起的的变化。
接下来, 我们利用最小方差回归模型, 使和 的样本协方差为0。 于是,观测数据和适应值的样本相关系数可以被写成
于是
等式表示的线性方程会引起的平均变化。