幂律分布是指某个具有分布性质的变量,且其分布
密度函数是
幂函数(由于分布密度函数必然满足“归一律”,所以这里的幂函数,一般规定小于负1)的分布。
概率函数
假设变量x服从参数为 的幂律分布,则其
概率密度函数可以表示为
其互补
累积分布函数(complementary cumulative distribution)为
通式
Zipf定律与Pareto定律都是简单的幂函数,还有其他形式的幂律分布,像名次-规模分布、规模-
概率分布,这四种形式在数学上是等价的,其通式可写成lny= lnc - rlnx,其中x, y是正的
随机变量,c, r均为大于零的常数. 这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。 对上式两边取
对数,可知lny与lnx满足
线性关系lny= lnc - rlnx,图像为一条斜率为幂指数的负数的直线。
判断依据
在
双对数坐标下,
幂律分布表现为一条斜率为幂指数的负数的直线,这一
线性关系是判断给定的实例中
随机变量是否满足幂律的依据。
判断两个随机变量是否满足线性关系,可以求解两者之间的
相关系数;利用
一元线性回归模型和
最小二乘法,可得lny对lnx的经验
回归直线方程,从而得到y与x之间的幂律关系式.在双对数坐标下的图形,由于某些因素的影响,前半部分的线性特性并不是很强,而在后半部分,则近乎为一直线,其斜率的负数就是幂指数。
模型
泊松分布
自然界与社会生活中,许多科学家感兴趣的事件往往都有一个典型的规模,个体的尺度在这一
特征尺度附近变化很小. 比如说人的身高,中国
成年男子的身高绝大多数都在
平均值1.70m左右。 当然,地域不同这一数值会有一定的变化,但无论怎样,我们从未在大街上见过身高低于10cm的“小矮人”,或高于10m的“巨人”。 如果我们以身高为
横坐标,以取得此身高的人数或概率为
纵坐标,可绘出一条钟形
分布曲线,这种曲线两边衰减得极快;类似这样以一个平均值就能表征出整个群体特性的分布,我们称之为
泊松分布。
长尾分布
对于另一些分布,比如国家
GDP或
个人收入的分布,情况就大不一样了,个体的尺度可以在很宽的范围内变化,这种波动往往可以跨越多个
数量级。
根据
世界银行的统计,最富有的国家—美国,其2003年GDP高达10, 881, 609, 000,000美元(一个
天文数字) ,而
数据显示同年GDP最低的国家—
西非岛国
圣多美和普林西比,只有54, 000,000美元,二者之比高达201511. 3。
个人收入分布亦是如此,想想
世界首富比尔·盖茨那高达465亿美元的
个人资产就清楚了。
国家或
城市人口的分布也会出现类似的情形。全世界有224个
国家和地区,只有11个国家的
人口数超过一亿。 据世界银行的统计, 2003年人口最多的国家—中国,总人口数多达1, 288, 400,000,而数据显示同年人口最少的国家—西
太平洋上的
帕劳群岛,人口数仅为20, 000 (不及中国一个普通县城的人口数) ,二者之比有64420之多。
以收入值或国家总人口数为横坐标,以不低于该收入值的人数(概率)或国家数目(概率)为纵坐标,可绘出一条向右偏斜得很厉害,这种拖着长长“尾巴”的概率分布曲线,它与钟形的
泊松分布曲线有显著的不同. 这种“长尾”分布表明,绝大多数个体的尺度很小,而只有少数个体的尺度相当大。
对“长尾”分布研究做出重要贡献的是Zipf和Pareto ,虽然他们并不是这种分布的最早
发现者。
Zipf定律与Pareto定律都是简单的
幂函数,我们称之为幂律分布。
Zipf定律: f(r) ∝ r-b 英文单词中序为r的单词出现次数(频率)f(r)
反比于r的幂,即有f(r)~r-b。
发现过程:1932年,
哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的
顺序排列,则每个单词出现的频率与它的排名序号的常数
次幂存在简单的反比关系:P(r) ~r^-α。这种分布就称为
Zipf定律,它表明在
英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。 实际上,包括汉语在内的许多国家的语言都有这种特点。
物理世界在相当程度上是具有惰性的,动态过程总能找到
能量消耗最少的途径,人类的语言经过千万年的演化,最终也具有了这种特性,词频的差异有助于使用较少的词汇表达尽可能多的语义,符合“
最小努力原则”.
分形几何学的创始人Mandelbrot对Zipf定律进行了修订,增加了几个参数,使其更符合实际的情形。
Pareto定律: P[X>= x] ∝ x-k
发现过程:19世纪的
意大利经济学家Pareto研究了个人收入的
统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20法则,即20%的人口占据了80%的
社会财富。个人收入X不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系(累计
分布函数 cumulative distribution function,简称CDF):P[X≥x]~x-k,此式即为Pareto定律。Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布。对Pareto分布P[X >= x] ~ x-k,通过求导很容易得到其概率
分布密度:p[X < x] ~ x-(k+1) = x-a,a = 1+k。
形成机制
为了解释幂律分布的形成原因,科学家们提出了几种机制,包括增长与优先连接、
自组织临界、HOT理论、
渗流模型及一些
随机过程等。
优先连接
Barabási与Albert针对
复杂网络中普遍存在的幂律分布现象,提出了网络动态演化的
BA模型,他们解释,成长性和优先连接性是
无标度网络度分布呈现幂律的两个最根本的原因。所谓成长性是指
网络节点数的增加,像Internet中
自治系统或路由器的添加,以及WWW中网站或网页的增加等,优先连接性是指新加入的节点总是
优先选择与度值较高的节点相连,比如,新网站总是优先选择人们经常访问的网站作为
超链接。随着时间的演进,网络会逐渐呈现出一种“富者愈富,贫者愈贫”的现象。
社会学家所说的“
马太效应”。“优先连接”并不适用于所有出现幂律分布的情况,即便是对于某些无标度网络,用它解释幂律的成因也显得很不合理。以
生态系统中的
食物链为例,认为被捕食者最有可能被猎物广泛的
杂食性捕食者吃掉,确实是一件很荒唐的事。还有像Internet、航空网等网络,流量或容量的限制可以在一定程度上抑制优先连接性,电影演员的合作网络中,节点(演员)的衰老或隐退也能起到类似的作用。
自组织临界论
自组织临界理论认为,由大量相互作用的成分组成的系统会自然地向自组织临界态发展;当系统达到这种状态时,即使是很小的干扰事件也可能引起
系统发生一系列灾变。
著名的“
沙堆模型”形象地说明了
自组织临界态的形成和特点:
设想在一平台上缓缓地添加沙粒,一个沙堆逐渐形成。开始时,由于沙堆平矮,新添加的沙粒落下后不会滑得很远。但是,随着沙堆高度的增加,其坡度也不断增加,沙崩的规模也相应增大,但这些沙崩仍然是局部性的。到一定时候,沙堆的坡度会达到一个
临界值,这时,新添加一粒沙子(代表来自外界的微小干扰)就可能引起小到一粒或数粒沙子,大到涉及整个沙堆表面所有沙粒的沙崩。这时的沙堆系统处于“自组织临界态”,有趣的是,临界态时沙崩的大小与其出现的频率呈幂律关系。
幂律分布是自组织临界系统在混沌边缘,即从稳态过渡到混沌态的一个标志,利用它可以预测这类系统的相位及相变。自组织临界理论可以解释诸如
火山爆发、
山体滑坡、岩层形成、日辉耀斑、
物种灭绝、
交通阻塞、以及
金融市场中泡沫崩溃的幂律分布现象。这种理论的启示是小事件和大事件可能有相同的起因,这为地震、
恐龙灭绝、
森林火灾等复杂大系统的突变提供了新的解释。以恐龙灭绝为例,
古生物学家经过对化石的研究指出,这一重大事件不是经历了数万年或者几年,而是在20多天的突变中“一朝覆灭”的。恐龙的灭绝可以被看作是处于
临界状态下的生态系统发生的一次“大雪崩”
HOT理论
另一种解释幂律分布形成原因的重要理论是HOT。该理论由加州大学圣巴巴拉分校的Jean Carlson以及
加州理工学院的John Doyle提出。他们宣称,对于由许多
子系统连结成的
复杂系统,不管是自然演化还是人为设计的,当该系统可以有效地容忍某些不确定因素时(具强健性),将对其他未被考虑到的不确定因素变得更敏感。也就是说,强健性和敏感度具有相互递换的效果。这里的不确定因素包含系统内部的不确定因素以及外在环境的干扰。以生态系统为例,如果它可以容忍气温、湿度、养分等巨幅变化,那么这生态系统却可能无法容忍一些意料之外的小干扰,如基因突变、外来族群迁入、或新的病毒,这些干扰可能会造成
生态环境的巨大改变。当一复杂系统处于HOT状态时,该系统将满足幂律,也就是说,全局性的优化过程可导致幂律分布:具有特征尺度的输入经过一个全局性的系统“产量”优化过程后,可产生具有幂律分布特性的输出。全局性优化在生态系统、
航空航天与汽车系统、林业系统、因特网、
交通运输及
电力系统中具有广泛的应用,HOT理论可以解释上述系统中出现的幂律分布现象,比如可以解释林业系统中火灾规模所呈现的幂律分布。
应用
领域
实际上,幂律分布广泛存在于物理学、地球与行星科学、
计算机科学、生物学、
生态学、
人口统计学与
社会科学、经济与
金融学等众多领域中,且表现形式多种多样。
具体
在自然界与日常生活中,包括
地震规模大小的分布(古登堡2里希特定律) 、
月球表面上月坑直径的分布、行星间碎片大小的分布 、
太阳耀斑强度的分布 、计算机文件大小的分布 、
战争规模的分布 、
人类语言中单词频率的分布 、大多数国家姓氏的分布 、科学家撰写的论文数的分布、论文被引用的次数的分布、网页被
点击次数的分布 、书籍及唱片的销售册数或
张数的分布、每类生物中物种数的分布、甚至电影所获得的奥斯卡奖项数的分布等,都是典型的幂律分布。
实例
仅取
A股市场的100家股票, 按
流通市值大小排序,拟合的相关程度99.6%,其幂指数为0.897。
1000家股票拟合的幂分布函数曲线,拟合的相关程度93.7%,其幂指数约为0.53。
抽油机作为耗电“老虎”,其工程指标为产液
单耗,即从井每产一吨液耗多少度电,描述抽油机自身效率的
技术指标为系统效率。二者的关系呈幂律分布关系,这一发现对于我们
工程技术或油田管理人员进行提高系统效率,无疑具有很大的指导意义:即抓住20%的低效井进行治理改造,就可取得80%的提高效果。