泊松分布(Poisson distribution),又称波哇松分布、卜瓦松分布,是一种重要的离散型分布。
定义
泊松分布是一种重要的离散型分布。如果离散型随机变量 X 可取一切非负整数值,且有
则称 X 服从参数为 λ 的泊松分布,其中 λ > 0,记为,或记为 。泊松分布的平均值 m= λ,方差 = λ 。
与二项分布的联系
在二项分布的伯努利试验中,如果试验次数n很大,二项分布的概率p很小,且乘积 λ=np比较适中,则事件出现的次数的概率可以用泊松分布来逼近。在这种条件下,将较难计算的二项分布近似为泊松分布去计算较为方便。
泊松定理指出,在独立试验中,以代表事件 A 在试验中出现的概率,它与试验总数有关。如果,当时,二项分布的极限为泊松分布。下面给出证明。
记 ,为二项分布,则:
对给定的,有:
及
因此:
泊松分布公式为:
其中是泊松分布的参数。
性质
方差与期望
在泊松分布中,唯一的参数既是
数学期望也是
方差。推导如下:
设随机变量 ,则
这表明泊松分布的数学期望就是参数。
又因为
由此得的方差为
也就是说,泊松分布的方差与数学期望均为。
可加性
两个独立且服从泊松分布的随机变量,其和仍然服从泊松分布。即若且,则。
特征函数
其他性质
(1)泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量必须很大。
(2)是泊松分布所依赖的唯一参数。值愈小,分布愈偏倚,随着增大,分布趋于对称。
(3)当=20时分布泊松分布接近于正态分布;当=50时,可以认为泊松分布呈正态分布。 在实际工作中,当20时就可以用正态分布来近似地处理泊松分布的问题。
参数估计
最大似然估计
对于泊松分布,假设有n个观测值,它们都是独立同分布的随机变量,服从参数为的泊松分布。泊松分布的似然函数为:
为了简化计算,通常对似然函数取对数:
关于求导并令其等于 0,可以得到最大似然估计值:
即泊松分布的参数的最大似然估计值就是观测样本的均值。
贝叶斯估计
由贝叶斯公式知,在给定事件的情况下,事件A的条件概率与事件在给定事件发生的条件下的条件概率的关系如下:
结合全概率公式,贝叶斯公式可以进一步表示为:
贝叶斯估计的步骤如下:
1. 给定先验分布 :
先验分布反映了在没有数据之前对参数的认知。泊松分布的先验分布假定为某一伽马分布,即。
2. 定义似然函数 :
似然函数表示给定参数值 时,观测数据出现的可能性。对于泊松分布,似然函数为:
3. 计算后验分布 :
通过贝叶斯定理,将先验分布与似然函数相结合,得到后验分布。对于泊松分布,假设的先验分布为伽马分布 ,则后验分布仍然是一个伽马分布:
归一化后,后验分布为:
4. 求后验期望或其他统计量:
后验分布的期望值常作为贝叶斯估计的参数估计值。例如,伽马分布的期望为:
泊松过程
泊松过程是一种用于描述独立随机事件在时间或空间中发生的次数的随机过程,特别适用于稀疏事件的计数。泊松过程可以形式化定义如下:
若是一个非负整数值的随机过程,且满足:
1. 。
2. 对于,事件发生的概率在单位时间内为常数 。
3. 在任意两个不重叠的时间段和中,事件的发生是独立的,即过程具有独立增量。
则被称为参数为的泊松过程,记为。
泊松过程的性质
1. 独立增量:对于任意时间段,事件在时间段和之间的增量是相互独立的。这意味着在不重叠的时间区间中,事件的发生是相互独立的。
2. 均匀性:在泊松过程中,单位时间内事件发生的平均速率为,即事件发生的概率密度函数与时间无关。这表明泊松过程是均匀的。
3. 无后效性(马尔可夫性):泊松过程是一个马尔可夫过程,也就是说,未来事件的发生只依赖于当前时刻的状态,而与过去的历史无关。换句话说,事件的下一次发生时间仅依赖于当前时刻,而不依赖于之前发生事件的具体时刻。
4. 事件之间的时间间隔:在泊松过程中,事件之间的时间间隔是服从指数分布的。设表示第个事件发生的时间,则,即每次事件发生之间的间隔时间是独立且服从参数为的指数分布。
泊松过程与泊松分布的关系
给定一个时间段,泊松过程中在内事件发生的次数服从参数为的泊松分布,即:
其中是该时间段内事件的期望值,也即单位时间内的平均事件发生次数乘以时间 。
发展历史
泊松分布首先由法国数学家西莫恩·德尼·泊松(Siméon Denis Poisson,1781–1840)引入,并与他的概率理论一起发表在他1837年的著作《概率在刑事与民事诉讼方面应用的研究》中。该著作通过关注某些随机变量N,提出了关于某一国家中错误定罪数量的理论。然而这个结果实际上早在1711年由亚伯拉罕·德·莫阿弗(Abraham de Moivre)在《随机博弈事件概率的度量》(De MensuraSortis seu; de Probabilitate Eventuum in Ludis a Casu Fortuito Pendentibus)中提出 ,因此一些作者认为泊松分布应该以德·莫阿弗的名字命名。
1860年,西蒙·纽康(Simon Newcomb)将泊松分布用于统计单位空间内的恒星数量。 1898年,拉迪斯劳·波特基维茨(Ladislaus Bortkiewicz)进行了进一步的实际应用,他用泊松分布研究普鲁士军队中士兵因被马踢意外死亡的频率。
相关应用
泊松分布是概率统计学科中一种重要的离散分布,在实际中有着广泛的应用,它常与单位时间或单位面积及单位产品上的计数过程相关。泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量必须很大。例如:在单位时间内,电话总机接到用户呼唤的次数、路口通过的车辆数、放射性物质放射出的粒子数、每平方米玻璃上的气泡数等等,都可以用泊松分布来刻画。以下是一些具体的例子。
农业
在丹东地区,草莓的成熟期通常在5月至6月,此时暴雨灾害常常发生,影响草莓的产量和品质。通过泊松分布模型,可以有效预测草莓成熟期的暴雨灾害风险,有助于农民提前预防气象灾害,降低农业损失。
医学
泊松分布常用于研究和建模某些稀有疾病或不常见健康事件的发生率,帮助预测未来在某段时间内,社区中会有多少人可能患上该疾病。
生物学
由于基因突变事件通常是独立且随机发生的,且在单位长度上的突变发生概率相对较低,因此泊松分布可用于研究单位长度 DNA 链上的基因突变数量。