离群值(outlier),也称逸出值,是指在数据中有一个或几个数值与其他
数值相比差异较大。chanwennt准则规定,如果一个数值偏离观测平均值的概率小于等于1/(2n),则该数据应当舍弃(其中n为观察例数,
概率可以根据数据的分布进行估计)。
产生原因
离群值的产生原因大致有两点:
(1)总体固有变异的极端表现, 这是真实而正常的数据, 只是在这次实验中表现的有些极端,这类离群值与其余观测值属于同一总体。
(2)由于试验条件和实验方法的偶然性, 或观测、 记录、计算时的失误所产生的结果,是一种非正常的、错误的数据,这些数据与其余观测值不属于同一总体。
判断
在一组平行测定所得到的分析数据中,有时会出现个别测定值与其他数据相差较远,这些数据称为离群值或逸出值(Outlier)。
对离群值的处理有一些统计判断的方法,如chanwennt准则规定,如果一个数值偏离观测
平均值的
概率小于等于1/(2n),则该数据应当舍弃(其中n为观察例数,概率可以根据数据的分布进行估计)。
发现离群值可以通过观察值的
频数表或直方图来初步判断,也可通过统计软件作观察值的
箱式图来判断,如果
观测值距箱式图底线Q1(第25
百分位数)或顶线Q3(第75百分位数)过远,如超出箱体高度(
四分位数间距)的两倍以上,则可视该观测值为离群值。当数据近似
正态分布时,有一种较为简单的方法,可用
均数加减2.5s来判断,如观测值在此范围以外,可视为离群值。
在统计学上也可用
线性回归的方法来对离群值进行判断。当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来,首先应认真检查原始数据,看能否从专业上加以合理的解释,如数据存在
逻辑错误而原始记录又确实如此,又无法在找到该观察对象进行核实,则只能将该
观测值删除。如果数据间无明显的逻辑错误,则可将离群值删除前后各做一次统计分析,若前后结果不矛盾,则该例观测值可予以保留。
处理方法
离群值处理方法包括:
(1)保留离群值并用于后续数据处理;
(2)在找到实际原因时修正离群值,否则予以保留;
(3)剔除离群值,不追加观察值;
(4)剔除离群值,并追加新的观察值或用适宜的插补值代替。
检验方法
离群值的检验可分为两大类:一类是标准偏差预先已知的场合;另一类是标准偏差未知的场合。只能利用待检验的一组分析数据本身来检验其中的离群值是否为异常值。
标准偏差预先已知
检验时使用统计量:
式中, 是被检验的离群值,X是一组测定值的算术平均值,σ是由不包括异常值在内的其他实验测定值求得。如果根据上式计算的T值查表大于舍弃界限中相应置信度下的临界值,则将 作为异常值舍弃。
标准偏差未知
在更多的情况下标准偏差是未知的,只能利用待检验的一组分析数据本身来检验其中的离群值是否应该保留或舍弃。常用的方法有拉依达法、Q检验法(狄克松法)、肖维特法、
格鲁布斯法、t检验法、极差法等。
这些方法有着各自的特点和适用范围:
(1)拉依达法使用方便,不需查表,但有失严密,测定次数较多或要求不高时可以应用它;但测定次数较少时,在一组测定值中即使混有异常值,有时也无法剔除。
(2)肖维特法比拉依达法有所改善,但从理论上考虑,当n和 趋向无穷大的时候,此时所有的异常值都无法剔除。
(3)而Q检验法、格鲁布斯法、t检验法和极差法等方法则考虑了置信度的因素,概率意义明确,使所得结果更为科学合理。
(4)Q检验法的优点是方法简便。当测定次数较少时,例如3~ 5次测定,Q检验法拒绝接受的只是偏差很大的测定值,将非异常值判定为异常值的几率是很小,但同时把异常值判断为非异常值的可能性较大。
(5)格鲁布斯法不仅设定了一定的置信度,而且引入了平均值和标准偏差,故判断的准确性比Q检验法高,被
中国国家标准推荐采用,也被美国实验材料协会推荐采用。
(6)t检验法在处理数据前,预先“剔除”了被检验的离群值,保证了计算标准偏差的正确性和独立性,在理论上得到了较严格的结果,提高了测定精度和检验的灵敏度。但如果在检验之前预先剔除的数据也可能不是异常值,而只是极值,这样就会造成计算的标准偏差偏小,原来位于限界的一些极值这时也可能被作为异常值舍弃。
(7)极差法优点是简便,但在检验时,将本来为异常值而作为异常值保留下来的可能性较大。