设A是
拓扑空间X的子集,x∈X,若x既不属于A的内部,又不属于A的外部,亦即x的任意邻域既含有A的点也含有不属于A的点,则称x是A的边界点。A的所有边界点组成的集合称为A的边界,记为.
边界点处理在
数据挖掘技术中有重要意义,它们代表了一类归属并不明确的个体,如果单纯地依靠某种方法把其归类到一个特定的簇中,其效果往往适得其反。边界点不同于
孤立点和噪声点。
孤立点是一类在统计上处于少数地位的对象,噪声点是一类对统计产生干扰或者偏离一定分布的对象,它们通常位于数据空间的低密区域中,而边界点则不同,它们是数据空间中处于高密区域边沿的一类数据对象,它们的一侧是高密区域,一侧是相对的低密区域。
聚类技术的研究是近几年研究的一个热点,已经提出的许多聚类算法,但是,对聚类边界模式的探讨还不多。聚类的边界点是指位于高密聚类边沿的一类数据对象,它代表了游离在两个或多个类别之间的一类个体对象,其归属并不明确,它们常常具有两个或两个以上的聚类特征。边界点研究有着重要的应用价值。