重尾分布(Heavy-tailed distribution)是一种
概率分布模型,它的尾部比
指数分布还要厚。在许多情况下,右边尾部的部分比较受到重视,但左边尾部比较厚,或是两边尾部都比较厚的状况,也被认为是一种重尾分布。
重尾分布又可以分为两个子类型,分别是
长尾分布(long-tailed distributions)以及次指数分布(subexponential distributions)。
在一个
累积分布函数中,一个
随机变量X 的分布状况,在以下状况时,被称为是一个重尾分布。假设:
重尾分布意味着可以更大的
概率获得很大的值. 因此与弱
随机性相反,重尾分布一般表示病态,增加的各种结果被确定为具有重尾分布,包括收入分布、财务报告、保险支出、网页的参考链接等。重尾分布的一个特殊的子集是
幂律,其意味着
概率密度函数是一个幂。 一个技术难题是,不是所有的矩存在于这些分布,这一般意味着它们使用
分位数和其它顺序统计学。这也就是说,
中心极限定理不再成立。但是对于诸如
均值,即稳定分布的
线性组合,我们获得一个新的标准极限分布。
一般来说,服从重尾分布的随机变量X具有较大甚至是无穷大的方差,而且当 时,X的均值也是无穷的。随机变量X会以不可忽略的概率取到非常大的数值,即:大量的小抽样取值和少量的大抽样取值并存。
在一个
累积分布函数中,一个
随机变量X的分布,出现以下状况时,被称为是一个长尾分布。假设对所有t>0 :
对一个右尾部形成长尾分布的状况,我们可以做一个直观的解释:假如一个长尾分布的尾部数量超过某个很高的水准,它超过另一个更高水准的机率会接近于一。也就是说,如果你发现状况很糟,它可能会比你想像的还要糟。
长尾分布是重尾分布中的一个特例。所有的长尾分布都是重尾分布,但反之则不然,也就是说,我们可以找出某一个重尾分布,它不是长尾分布。
次指数分布是以
概率分布的折积定义出来的。两个独立、不同的随机变数的共同分布函数 ,它自己的折积定义为,使用勒贝格-史台杰斯积分(Lebesgue–Stieltjes integration) 定义为: