离群点是指一个
时间序列中,远离序列的一般水平的极端大值和极端小值。
概念
离群点,因此,也称之为歧异值,有时也称其为野值。
概括的说,离群点是由于系统受外部干扰而造成的。但是,形成离群点的系统外部干扰是多种多样的。首先可能是采样中的误差,如记录的偏误,工作人员出现笔误,计算错误等,都有可能产生极端大值或者极端小值。其次可能是被研究现象本身由于受各种偶然非正常的因素影响而引起的,例如。在人口死亡序列中,由于某年发生了地震,使该年度死亡人数剧增,形成离群点;在股票价格序列中,由于受某项政策出台或某种谣传的刺激,都会出现极增,极减现象,变现为序列中的离群点。
不论是何种原因引起的离群点对以后的时间序列分析都会造成一定的影响。从造成分析的困难来看,统计分析人员说不希望序列中出现离群点,离群点会直接影响模型的拟合精度,甚至会得到一些虚伪的信息。例如,两个相距很近的离群点将在谱分析中产生许多虚假的频率。因此,离群点往往被分析人员看作是一个“坏值”。但是,从获得信息来看,离群点提供了很重要的信息,它不仅提示我们认真检查采样中是否存在差错,在进行时间序列分析前,认真确认序列,而且,当确认离群点是由于系统受外部突发因素刺激而引起的时候,他会提供相关的系统稳定性,灵敏性等重要信息。
在时间序列分析中通常把离群点分为四种类型进行处理。第一类是加性离群点。造成这种离群点的干扰,只影响该干扰发生的那一时刻T上的序列值,即XT而不影响该时刻以后的序列值;第二种是更新离群点,造成离群点的干扰不仅作用于XT,而且影响T时刻以后序列的所有观察值,它的出现意味着一个外部干扰作用于系统的开始,并且其作用方式与系统的动态模型有关;第三种树水平位移离群点,造成这种离群点的干扰素在某一时刻T,系统的结构发生了变化,并持续影响T时刻以后的所有行为,在数列上往往变现为T时刻前后的序列均值发生水平位移;第四种是暂时变更离群点,造成这种离群点的干扰是在T时刻干扰发生时具有一定初始效应,以后随时间根据衰减因子的大小呈指数衰减的一类干扰事件。
总结一下,离群点(outlier)是一个数据对象,它显著不同于其他数据对象,就像是被不同的机制产生一样,在样本空间中,与其他样本点的一般行为或特征不一致的点。值得注意的是,离群点并不是异常值。(比如说,A月薪50w,B、C、D月薪5000,虽然A月薪异常于样本集,是离群点,但是它并不是异常值。)
分类
离群点检验就是通过多种检测方法找出其行为不同于预期对象的数据点的过程。
根据正常数据和离群点的假定分类,可以分为以下4种方法:
基于统计的方法;
离群点概率定义:离群点是少数异常于正常数据集的数据对象,在概率分布模型中,具有低概率。
基于统计的离群点检测一般遵循以下思路:
设定数据集的分布模型——不和谐检验——发现离群点
因为离群点在概率分布模型中低概率出现,可以通过检测低概率的数据对象或数据样本,不过缺点也较为明显,低概率出现的样本不一定也是离群点(比如进货客户群中,进货量大的客户虽然少,但是也是我们需要的对象)
基于邻近性的方法;
离群点,一个“离”字表现其特点,在特征空间中,离群点对象与其最近邻之间的
邻近性显著偏离数据集中其他对象与它们自己的最近邻之间的邻近性。
比如说,使用数据对象的三个最近邻来进行建模,那么R区域里面的显著不同于该数据集的其他对象点;对应R中的对象,它们的第二个第三个最近邻都显著比其他对象的更远(超出一定的标差),因此可以将R区域中的对象作一个标记为基于邻近性的离群点。
基于聚类的方法;
通过考察对象与簇之间的关系检测离群点,换而言之,离群点是一个对象,它属于小的稀疏簇或者不属于任何簇。
主要有几种考察方法:
该对象属于某个簇吗?如果不属于,则被识别为离群点;[2](比如群居动物,山羊兔子成群居住和迁移,那么这些数据对象会划分为一个簇,这样可以不属于这些簇的数据对象识别为离群点)
该对象与最近的簇之间的距离很远吗?如果远,则被识别为离群点;
该对象是小簇或稀疏簇的一部分吗?如果是,则该簇内所有对象被识别为离群点;
基于分类的方法
如果训练数据中有类标号,则可以将其视为分类问题,该问题思路一般是:训练一个可以区分“正常数据”和离群点的分类模型。(一个人到银行是否办理贷款业务,办理与不办理就是2个类标号)
通常使用一类模型(one-class model),也就是构造一个仅仅描述正常类的分类器,这样不属于正常类的样本就是离群点,仅使用正常类检测离群点可以检测不靠近训练集中的离群点的新离群点;这样,当一个新离群点进来时,只要它位于正常类的决策边界内就为正常点,在决策边界外就为离群点。(决策边界的构建可以参考SVM:
支持向量机)
存在问题
正常对象和离群点的有效建模
正常数据与异常数据之间的边界通常并不清晰,它们之间通常有很宽的灰色地带。通常为正常点构建一个综合模型有一定挑战性的,那么对离群点检测便更是具有挑战性。
针对应用的离群点检测
通常,我们通过相似性或者距离度量来描述数据对象之间的联系,但是往往度量的选择依赖于应用。例如,在医疗分析、欺诈检测中,小偏离就可能是重要的,足以证实离群点。相反,在市场分析中,对象通常波动很大,显著的偏差才能证实离群点。所以离群点的检测高度依赖于应用类型使得我们不可能开发通用的离群点检测方法。
离群点检测中处理噪声
离群点不同于
噪声,实际数据质量往往很差。低质量的数据和噪声给离群点检测带来了巨大的挑战。它们可能扭曲数据,模糊正常对象与离群点之间的差别;此外,噪声和缺失数据可能“掩盖”离群点,降低离群点检测的有效性。(噪音数据指出现在某变量上的随机误差或变异)
可理解性
用户不仅要检测离群点,而且要知道被检测到的点为什么是离群点。为了满足可理解性要求,离群点检测方法必须提供某种检测理由。