稳健统计学广义上指
统计中的假设最大程度上接近真实数据。稳健统计学产生的主要原因是
误差,也被称为异常值,指那些远离真实数据的值。异常值的出现会导致统计结果产生极大的
偏差。稳健统计学的问题可以追溯到
统计学起源的时期,许多杰出的统计学家,例如高斯(Fridericus Gauss,1777-l855),拉普拉斯(Pierre-Simon Marquis deLaplace,1749-1827)等都清楚的意识到了这个问题。但是,直到20世纪中期,稳健统计的问题才逐渐被统计学家重视起来。
观测数据的稳健处理方法,应能克服参数方法和
非参数方法的缺点而又综合二者的长处。也就是说,这种方法要充分地利用可以得到的
统计信息,并利用这些信息建立适当的概率分布模型,此模型应考虑到实际的
概率分布可能出现的偏差,然后在此模型的基础上设计出数据的最佳或次佳处理方式。于是人们试图寻求一类统计方法,使之具有下述三条性质;
③当实际情况偏离假定模型较远时,它的处理性能不会变得很差或导致错误结论。具有以上性质的统计方法就是稳健的
统计方法,它是介于参数方法与非参数方法之间的一种新型处理方法。
事实上,稳健统计方法的思想发展史是与经典统计方法的思想发展史交织在一起的。早在l9世纪初,正态分布律和
最小二乘法问世的时候,就有了稳健性思想的萌芽;到本世纪50年代为止,稳健统计学经历了长达一个半世纪的酝酿阶段;60年代以来,稳健统计学的研究出现了热烈的局面;1964年,P.J.Huber发表了以“位置参数的稳健估计”为题的开创性论文,标志着稳健统计学系统性研究的开端;1981年,P.J.Hubcr出版了第一本系统论述稳健统计学的专著Robust Statistics,至此,稳健统计学趋于成熟。由于稳健统计学较经典统计学有更强的抗异值影响的能力,更符合实际情况,所以从它一诞生便具有了强大的生命力。近年来,稳健统计学的理论方法已经引起我国学术界和工程界的广泛关注。