峰度
衡量实数随机变量概率分布的峰态
峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线平均值峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。
含义
峰度以bk表示,Xi是样本测定值,Xbar是样本n次测定值的平均值,s为样本标准差标准正态分布的峰度为3。以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度,若bk<3,则称分布具有不足的峰度,若bk>3,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性
根据均值不等式,可以确定出峰度(系数)的取值范围:它的下限不会低于1,上限不会高于数据的个数。有一些典型分布的峰度(系数)值得特别关注。例如,正态分布的峰度(系数)为常数3,均匀分布的峰度(系数)为常数1.8。在统计实践中,我们经常把这两个典型的分布曲线作为评价样本数据序列分布性态的参照。设若先将数据标准化,则峰度(系数)相当于标准化数据序列的四阶中心矩。所以,在相同的标准差下,峰度系数越大,分布就有更多的极端值,那么其余值必然要更加集中在众数周围,其分布必然就更加陡峭。
四阶标准矩
可以定义为:
其中μ4是四阶中心矩,σ是标准差
在更通常的情况下,峰度被定义为四阶累积量除以二阶累积量的平方,它等于四阶中心矩除以概率分布方差的平方再减去3:
这也被称为超值峰度(excess kurtosis)。“减3”是为了让正态分布的峰度为0。
假定Y为n个独立变量之和,且这些变量和X具有相同的分布,那么:Kurt[Y]=Kurt[X]/n, 但如果峰度被定义为:μ4/σ,公式可变得更加复杂。
更一般地说,假定X1, ...,Xn为方差相等的独立随机变量,那么:
而定义中如果不包含“减3”就无法成立。
如果超值峰度为正,称为尖峰态(leptokurtic)。如果超值峰度为负,称为低峰态(platykurtic)。
样本峰度
对于具有n个值的样本,样本峰度为:
其中m4是四阶样本中心矩,m2是二阶中心矩(即使样本方差),xi是第i个值, 是样本平均值。注意此处计算方差的时候除数是N,而不是单独计算样本方差的(N-1)。
有时候也使用公式:
其中,n为样本大小,D为事先计算的方差,xi为第i个测量值, 为事先计算的算术平均数
在一些统计软件中,其公式有所差别。如EXCEL,计算样本的峰度公式如下:
应用
在实际应用中,通常将峰度值做减3处理,使得正态分布的峰度0。因此,在使用统计软件进行计算时,应注意该软件默认的峰度值计算公式。如Eviews默认的正态分布峰度为3。
最新修订时间:2024-09-05 11:35
目录
概述
含义
参考资料