系统聚类法(hierarchical cluster method)一译“分层聚类法”。
聚类分析的一种方法。其做法是开始时把每个样品作为一类,然后把最靠近的样品(即距离最小的群品)首先聚为小类,再将已聚合的小类按其类间距离再合并,不断继续下去,最后把一切子类都聚合到一个大类。
基本思想
系统聚类法是国内外使用得最多的一种聚类方法,这种方法是先将聚类的样本或变量各自看成一群,然后确定类与类间的相似统计量,并选择最接近的两类或若干个类合并成一个新类,计算新类与其他各类间的相似性统计量,再选择最接近的两群或若干群合并成一个新类,直到所有的样本或变量都合并成一类为止。
常用的系统聚类法是以距离为相似统计量时,确定新类与其他各类之间距离的方法,如最短距离法、最长距离法、
中间距离法、
重心法、群平均法、离差平方和法、
欧氏距离等。
首先将几个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并成一类。
步骤
以n个样本的聚类分析为例,系统聚类法的步骤如下:
定义以变量或指标的个数为维度的空间里的一种距离;
计算n个样本两两之间的距离;
将每个样本归为一类,根据计算出的样本间的距离合并距离最近的两类为一个新类;
再计算新类与其他各类的距离,同样再根据计算出的距离合并距离最近的两类为一个新类;
循环以上过程直至类别个数为1;
画出各阶段的聚类图并决定类别的个数。
对于变量聚类分析,只需要将距离替换为相似系数,然后将相似系数较大的变量分别聚类即可。
常用的空间距离有:绝对值距离、
欧氏距离、
切比雪夫距离、
马氏距离和兰氏距离等。
常用方法
确定了距离和相似系数后就要进行分类。
分类有许多种方法,最常用的一种方法是在样品距离的基础上定义类与类之间的距离。
首先将n个样品分成n类,每个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直持续到将所有的样品归为一类为止,并把这个过程画成一张聚类图,参照聚类图可方便地进行分类。因为聚类图很像一张系统图,所以这种方法就叫系统聚类法。系统聚类法是在实际中使用最多的一种方法,从上面的分析可以看出,虽然我们已给了计算样品之间距离的方法,但在实际计算过程中还要定义类与类之间的距离。
定义类与类之间的距离也有许多方法,不同的方法就产生了不同的系统聚类方法,常用的有如下六种:
(1)最短距离法:类与类之间的距离等于两类最近样品之间的距离;
(2)最长距离法:类与类之间的距离等于两类最远样品之间的距离:
(3)类平均法:类与类之间的距离等于各类元素两两之间的平方距离的平均;
(4)重心法:类与类之间的距离定义为对应这两类重心之间的距离对样品分类来说,每一类的类重心就是该类样品的均值;
(5)中间距离法:最长距离法夸大了类间距离,最短距离法低估了类间距离介于两者间的距离法即为中间距离法,类与类之间的距离既不采用两类之间最近距离。也不采用最远距离,而是采用介于最远和最近之间的距离;
(6)离差平方和法(Ward法):基于方差分析的思想,如果分类正确,同类样品之间的离差平方和应当较小,类与类之间的离差平方和应当较大。