典型相关分析(canonical correlation analysis),是对互
协方差矩阵的一种理解,是利用综合变量对之间的
相关关系来反映两组指标之间的整体相关性的
多元统计分析方法。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的
线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体
相关性。
典型相关分析最早
哈罗德·霍特林首次引入。他所提出的方法于 1936 年在《
生物统计》期刊上发表的一篇论文《两组变式之间的关系》经过多年的应用及发展,逐渐达到完善,在 70 年代臻于成熟。
由于典型相关分析涉及较大量的矩阵计算, 其方法的应用在早期曾受到相当的限制。但随着当代计算机技术及其软件的迅速发展,弥补了应用典型相关分析中的困难,因此它的应用开始走向普及化。 典型相关分析是研究两组变量之间
相关关系的一种统计分析方法。
为了研究两组变量量X= (X1, ...,Xn) 和Y= (Y1, ...,Ym) 之间的相关关系,采用类似于
主成分分析的方法,在两组变量中,分别选取若干有代表性的变量组成有代表性的
综合指标,通过研究这两组综合指标之间的相关关系,来代替这两组变量间的相关关系,这些综合指标称为
典型变量。
给定两个带有限矩的随机变量的列向量 和 ,我们可以定义互协方差矩阵 为 的
矩阵,其中 是协方差 。实际上,我们可以基于 和 的采样数据来估计
协方差矩阵。(如从一对数据矩阵)。
典型相关分析求出向量 和 使得随机变量 和 的相关性 最大。随机变量 和 是第一对典型变量。然后寻求一个依然最大化相关但与第一对典型变量不相关的向量;这样就得到了第二对典型变量。 这个步骤会进行 次。
如果向量 和 共线,那么上式相等。此外,如果 是矩阵 最大特征值对应的
特征向量,那么就可以得到相关的最大值。随后的典型变量对可以通过减少
特征值的量级来得到。
正交性保证了相关矩阵的对称性。
典型相关分析的用途很广。在实际分析问题中,当面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。 例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标如国内生产总值
增长率、就业增长率、物价上涨率等两组变量之间的相关程度。
又如,为了研究宏观经济走势与股票市场走势之间的关系,就需要考察各种
宏观经济指标如经济增长率、失业率、物价指数、进出口增长率等与各种反映股票市场状况的指标如股票价格指数、股票市场融资金额等两组变量之间的相关关系。再如,工厂要考察所使用的原料的质量对所生产的产品的质量的影响,就需要对所生产产品的各种质量指标与所使用的原料的各种质量指标之间的
相关关系进行测度。
再如在分析影响居民消费因素时,我们可以将劳动者报酬、
家庭经营收入、
转移性收入等变量构成反映居民收入的变量组,而将食品支出、医疗保健支出、交通和通讯支出等变量构成反映居民支出情况的变量组,然后通过研究两变量组之间关系来分析影响居民消费因素情况。