主元分析法(PCA)是基于多元
统计过程控制的
故障诊断技术的核心,是基于原始数据空间,通过构造一组新的潜隐变量来降低原始数据空间的维数,再从新的映射空间抽取主要变化信息,提取统计特征,从而构成对原始数据空间特性的理解。
新的映射空间的变量由
原始数据变量的
线性组合构成,从而大大降低了投影空间的维数。由于投影
空间统计特征向量彼此
正交,则消除了变量间的关联性,简化了原始过程特性分析的复杂程度。
主元分析法的基本思路是:寻找一组新变量来代替原变量,新变量是原变量的
线性组合。从优化的角度看,新变量的个数要比原变量少,并且最大限度地携带原变量的有用信息,且新变量之间互不相关。其内容包括主元的定义和获取,以及通过主元的数据重构。
假设一个要研究的系统仅包含两个变量 x1 , x2 。将两个变量的
样本点表示在一个
平面图上,可以看出所有的样本点集中在一个扁型的
椭圆区域内。因为样本点之间的差异显然是由于 x1 , x2 的变化而引起的。我们可以看出在沿着椭圆
横轴的方向上( y1 )的变动较大,而
纵轴方向上( y2 )的变动较小。这说明了样本点的主要变动都体现横轴方向上,比如 85%以上,那么这时就可以将 y 2忽略而只考虑y1 。这样两个变量就可以简化为一个变量了。我们称 y1 , y 2分别为 x1 , x2 的第一主元和第二主元。一般情况下,如果样本有 p 个变量,若样本之间的差异能由 p 个变量的 K 个(K<p)个主元成分来概括,那么就能用 K 个主元来代替 p 个变量。
主元分析中数据总体的
协方差阵往往是未知的,这需要利用过程的正常运行数据进行估计。假设采集得到过程数据样本为 X ∈ R n ×p,其中 n是样本的数量,p 为过程变量的个数。为了避免变量的不同
量纲的影响,需首先对数据进行标准化处理,即将各个变量转化为
均值为 0,
方差为 1 的数据。
在主元个数的选择上,有两种比较普遍的方法,一种是主元回归检验法,一种是主元
贡献率累积和百分比法(CPV)。
从统计的角度讲,要检测数据中是否包含过程的故障信息,可以通过建立
统计量进行
假设检验,判断过程数据是否背离了主
元模型。通常的方法是主元
子空间建立 Hotelling T2 统计量进行
统计检验;在
残差子空间中建立 Q 统计量进行统计检测。