长尾分布(long-tailed distributions)是
重尾分布的一个子类型。
长尾分布(long-tailed distributions)是
重尾分布的一个子类型。
在20世纪30年代,美国
哈佛大学语言学家齐普夫发现,将一文本中的词按照它们在文本中的出现(或使用)次数由高至低排列,以r表示序号(又称等级),g(r)表示序号为r的词在文本中的出现次数,则r的某一幂次r(β)和g(r)的乘积渐近为一常数,即g(r)*r(β)≈c。人们将关系式g(r)=cr(-β)(β>0,c>0)称为
齐普夫定律,因而,长尾分布就是齐普夫定律。
互联网上从歌曲和软件的下载、网页的点击到
网上店铺的销售,都呈现长尾分布的特征。长尾分布也与对流行事物进行统计排名的“排行榜”文化有关。网上音乐
资料库容量巨大,下载方式非常便捷。把曲目按照
下载量排序,可近似地得到一条递减曲线。在曲线的头部,热门曲目被大量下载。接下来,随着流行程度的降低(对应为序号的增大),曲线徒然下降。但有趣的是,在尾部曲线并没有迅速坠落到零,而是极其缓慢地贴近于横轴,粗看上去几乎与横轴平行延伸(这说明很不热门的曲日仍然保持着一定的下载率)。这种特殊的排序(即排名)与下载量之间的对应关系就是长尾分布。