聚类分析法是理想的多变量
统计技术,主要有分层聚类法和迭代聚类法。 聚类分析也称群分析、点群分析,是研究分类的一种多元
统计方法。
1、基本思想:我们所研究的样品(网点)或指标(变量)之间存在程度不同的
相似性(亲疏关系——以样品间距离衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的
统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。 在
聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。
2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行
回归分析或Q型聚类分析。
Q型聚类分析的优点是: 1、可以综合利用多个变量的信息对样本进行分类; 2、分类结果是直观的,聚类谱系图非常清楚地表现其
数值分类结果; 3、聚类分析所得到的结果比传统
分类方法更细致、全面、合理。
为了进行聚类分析,首先我们需要定义样品间的距离。 常见的距离有 : ①
绝对值距离 ②
欧氏距离 ③ 明科夫斯基距离 ④
切比雪夫距离先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。
最短距离聚类法,是在原来的m×m
距离矩阵的非对角元素中找出 ,把分类对象Gp和Gq归并为一新类Gr,然后按
计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。