统计分布
统计学研究方法
统计分布(frequency distribution)亦称“次数(频数)分布(分配)”。在统计分组的基础上,将总体中的所有单位按组归类整理,形成总体单位在各组间的分布。分布在各组中的单位数叫做次数或频数。各组次数与总次数(全部总体单位数)之比,称为比率或频率。将各组别与次数依次编排而成的数列就叫做统计分布数列,简称分布数列或分配数列。它可以反映总体中所有单位在各组间的分布状态和分布特征,研究这种分布特征是统计分析的一项重要内容。统计分布及其分布数列,可以用表格或图形来表示。
统计分布的意义
在统计分组的基础上,把总体的所有单位数按组归并排列,形成各组单位数在总体中的分布,称统计分布。统计分布的实质是,把总体的全部单位按某标志所分的组进行分配所形成的数列,也可称为分配数列或分布数列。在每次把某个单位分配到某一组时,人们常常说分配了一次,所以,分配数列又叫次数分布。分配数列有两个构成要素:一是总体按某标志所分的组;二是各组对应的单位数——次数。
统计分布形式十分简单,但在统计研究中却有着重要的意义。统计分布是统计分析结果的一种重要表现形式,也是统计分析的一种重要方法。它可以表明总体各单位的分布特征和结构状况,并有助于我们进一步研究标志的构成、平均水平及其变动规律。从文字含义看,统计分布理论性强一些,分配数列更通俗一点。以下交叉使用这两名词。
统计分布的种类和特征
分配数列的种类
分配数列有两个构成要素。即总体按某标志所分的组和各组对应的次数或频率。
分配数列的第一个构成要素就是总体按某标志所分的组。根据分组标志的不同,分配数列可分为品质分配数列和变量分配数列。按品质标志分组形成的分配数列叫品质分配数列,简称品质数列;按数量标志分组形成的分配数列叫变量分配数列,简称变量数列。变量数列又可以分为单项式数列和组距式数列,组距式数列又可以分为等距数列和不等距数列。它们都是由相应的统计分组形成的。
对品质数列来说,由于用品质标志来区分事物的各种类型表现得比较明确,因此,品质数列一般比较稳定,能较好地反映总体各单位的分布特征。但对变量数列来说,因为事物性质的差异是用数量界限来表现的,而数量界限往往会受人们主观认识的影响,同一数量标志分组可能会出现多种分布状态。这就涉及各组频数和频率的问题。
频数和频率
分配数列的第二个构成要素就是各组对应的单位数——次数,次数也叫频数,常用表示。各组单位数占总体单位总数的比重称频率,常用表示。各组的频率要大于0 且小于1,即,所有组的频率总和一定等于1,即。总体按某标志所分的组(或以各组的组中值来代表)与各组对应的频率所形成的频率分布也是统计分布,与次数分布的作用是相同的。次数分布和频率分布都是分配数列。
在变量分配数列中,频数或频率表明对应组标志值的作用程度。频数或频率数值越大,表明该组标志值对总体水平所起的作用也越大;反之,频数或频率数值越小,表明该组标志值对总体水平所起的作用越小。
分配数列中各组的频数或频率不能为0,如果某一组的频数或频率为0,应删除这一组。
有时候,为了更简便地概括总体各单位的分布特征,还需要编制累计频数数列和累计频率数列。累计方法有向上累计和向下累计两种。
向上累计就是向变量的上限方向累计,是指将各组频数或频率由变量值较低的组向变量值较高的组累计,各累计数的意义是各组上限以下的累计频数或频率。当我们关注标志值较小的各组分布情况时,可采用向上累计方法。
向下累计就是向变量的下限方向累计,是指将各组频数或频率由变量值较高的组向变量值较低的组累计,各累计数的意义是各组下限以上的累计频数或频率。当我们关注标志值较大的各组分布情况时,可采用向下累计方法。
分析变量的分布状况,一般应采用等距数列。此时,各组的频数或频率就能很好地反映变量的分布状况。如果是不等距数列,则应采用各组的次数密度或频率密度才能正确反映变量的分布状况。次数密度和频率密度的计算公式如下:
次数密度=某组次数/该组组距;频率密度=某组频率/该组组距
次数分布的特征
社会经济现象总体的性质不同,其次数分布的特征也不同。各种社会经济现象总体的次数分布,归纳起来主要有钟型分布、U型分布、J型分布和洛伦兹分布四种类型。
钟型分布
钟型分布是正态分布的俗称,其特征是“中间高,两头低”,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少,形如古钟(见图1)。
在社会经济现象中,钟型分布多表现为对称分布。对称分布的特征是中间的变量值分布的次数最多,以标志变量中心为对称轴。两侧变量值分布的次数随着与中心变量值距离的增大而渐次减少,并且围绕中心变量值两侧呈对称分布。这种分布在统计学中称为正态分布。在社会经济现象中,许多变量的分布近似于正态分布类型。如从业人员的年收入、农作物单产、零件尺寸、学生考试成绩、社会财富分布等。正态分布在社会经济统计学中具有重要意义。这是因为,一方面。社会经济现象中大部分分布呈近似正态分布;另一方面,正态分布理论是抽样推断的基础。
U型分布
U型分布的特征与钟型分布正好相反,靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头高,中间低”的U字型分布。例如,人口死亡现象按年龄分布便是如此。由于人口总体中幼儿和老年人死亡人数较多,而中年人死亡人数较少,因此,死亡人数按年龄分组便近似地表现为U型分布,如图2所示。
J型分布
在社会经济现象中,一些统计总体分布曲线呈J型,即次数随着变量值的增加而增加。如农作物产量按土地面积分布、人口数按零售商品销售额分布、工人数按总产值分布、库存量按库存费用分布等,如图3所示。也有次数随着变量值的增加而减少的倒J型分布。如企业数按投资额分布、人口数按年龄大小分布等,如图4所示。
洛伦兹分布
洛伦兹分布曲线是美国统计学家洛伦兹(M.Lorenz)提出来的,专门用以研究社会收入分配的平等问题。
在图5中。横轴OH表示人口的累计百分比,纵轴OM表示收入的累计百分比,弧线OL为洛伦兹曲线。洛伦兹曲线的弯曲程度有着重要的意义,它反映了收入分配的不平等程度。弯曲程度越大,收入分配越不平等,反之亦然。
洛伦弦曲线与对角线之间的部分A 叫做“不平等面积”,直角三角形OHL的面积(A+B)叫做“完全不平等面积”。不平等面积与完全不平等面积之比,就是基尼系数,也称集中系数:基尼系数=。
基尼系数等于1,表示收入分配绝对不平等;基尼系数等于0,表示收入分配绝对平等。基尼系数是衡量,一个国家或地区贫富差距的标准之一。按照联合国有关组织规定:基尼系数若低于0.2表示收入平均;0.2-0.3表示比较平均;0.3=0.4表示相对合理;0.4-0.5表示收入差距较大;0.5以上表示收入差距悬殊。通常把0.4作为收入分配差距的“警戒线”。发达国家的基尼系数在0.26-0.38之间,我国2013年全国居民收入的基尼系数为0.473。
洛伦兹曲线的拓展可以运用于其他社会经济现象,研究总体各单位标志变异状况——变量分布的均匀性或分布的集中程度,因此,洛伦兹曲线又称集中曲线。如研究产品市场份额在各企业的集中度以及分析固定资产投资额在各地区的集中度等。
分配数列的编制
(一)将原始资料按其数值大小重新排列
只有把得到的原始资料按其数值大小重新排列顺序,才能看出变量分布的集中趋势和特点,为确定全距、组距和组数作准备。
(二)确定全距
确定全距前,要检查数据组两端有没有极端值。如果有极端值且个数较少,应考虑将极端值归入开口组,计算全距前,可去掉极端值。
(三)确定组距和组数
组距=全距/组数,当全距一定时。组距越大,组数就越少;组距越小,组数就越多,在实际应用中。组距一般应采用整数,最好是5或10的整倍数。
(四)确定组限
组限要根据变量的性质来确定。如果变量值相对集中,无特大或特小的极端值时,则采用闭口式:反之,如果有特大或特小的极端值时,则采用开口式,将极端蚊归入开口组中。
(五)编制变量数列
经过上述四个步骤以后,就可以把总体各单位按变量值的大小分配到各组,计算各组的次数和频率。
参考资料
最新修订时间:2022-08-25 15:53
目录
概述
统计分布的意义
参考资料