例如保险索赔次数,索赔数为0的概率很高,否则保险公司就面临破产风险。这种数据数资料中的零值过多,超出了Poisson分布等一般离散分布的预测能力。零膨胀这个概念首先是由
Lambert在1992年的论文“Zero-Inflated Poisson Regression,with an Application to Defects in Manufacturing”中提出。
第一个零膨胀模型是Diane Lambert的零膨胀泊松模型,该模型涉及在单位时间内包含过量零计数数据的随机事件。例如,某些类型风险的人口中的保险索赔数量将由那些没有针对风险购买保险而因此无法提出索赔的人实现零膨胀。零膨胀泊松(ZIP)模型采用两个对应于两个零生成过程的组件。第一个过程由生成结构零的二进制分布控制。第二个过程由泊松分布控制,该分布生成计数,其中一些可能为零。两个模型组件描述如下:
1994年,格林考虑了零膨胀负二项式(ZINB)模型。Daniel B. Hall将Lambert的方法应用于上限计数情况,从而获得零膨胀二项式(ZIB)模型。
实际上,让
生成函数。如果,则。然后从Wiener-Lévy定理我们证明具有离散伪
复合泊松分布的概率生成函数。