次数分布
统计学术语
分布数列(distribution series)是在统计分组的基础上,将总体的所有单位按某个标志分组归类,将各组的总体单位数汇总,并按一定的顺序排列,形成总体单位在各组的分布,又称为次数分布。分布在各组的单位数称为次数或频数,各组次数与总次数之比称为频率。次数分布可以表明总体中所有单位在各组的分布特征,并据以研究总体某一标志的平均水平及其变动规律。例如,人口按性别分组后形成的人口数在各组分布情况的数列;学生按年龄分组后形成的学生人数在各组分布情况的数列等,都是次数分布数列。次数分布数列主要由各组名称(或各组变量值)与各组单位数(次数)两部分构成。有时也可以把比重列入分布数列中。次数分布数列的形式很简单,但它是统计整理的重要表现形式,在统计研究中具有十分重要的意义。次数分布数列直观地表明了总体单位的分布特征和结构状况,在此基础上还可以进一步研究其构成、平均水平及其变动规律,它是进行统计分析的一种重要手段。
意义
统计资料进行分组之后,将总体的所有单位按组归类排列,形成了总体中各单位在各组间的分布,即称为次数分布或分配数列。
分布数列是统计资料整理的结果,是进行统计描述和统计分析的重要方式。它可以表明总体的分布特征及内部结构情况,并可据此研究总体某一标志的平均水平及其变动的规律性。
在分布数列中,分布在各组的总体单位数称为“次数”,它表明某种标志在总体各组中出现的多少。如果次数以绝对数的形式出现,则称其为“频数”,以表示;若次数以结构相对数的形式出现,则称其为“频率”,以表示,频率表明各组单位在总体单位中所占的比重。
表1就是次数分布数列的举例。
分布数列频率的总和为1,即所有的各组频数占总体单位比重的总和一定是100%。
分类
属性分布数列和变量分布数列
按分组标志的特征不同,分布数列可分为属性分布数列和变量分布数列两种。
1. 属性分布数列。按品质标志分组形成的次数分布数列,称为属性分布数列,一般叫品质数列,它由组的名称和各组的次数两要素组成。对于品质数列,如果分组标志选择合适,分组标准定得恰当,那么事物性质的差异表现将会比较明确,总体中各组的划分也就容易解决,从而能准确地反映现象总体的分布特征。
2. 变量分布数列。按数量标志分组形成的次数分布数列,称为变量分布数列,一般叫变量数列,由变量值和各组的次数两要素构成。各组次数的多少,反映了各组变量值在总体中作用的大小。
表2是品质数列,反映某地区人口的民族构成状况。表3是变量数列,反映某地区人口的年龄结构情况。
间断分布数列和连续分布数列
按连续与否,分布数列可分为间断分布数列和连续分布数列两种。
1. 间断分布数列,又称不连续分布数列。它是只能以整数而不是小数形式出现的分布数列,比如,年龄分布数列,职工人数分布数列,设备台数分布数列等。
2. 连续分布数列。它指能以小数形式表现的分布数列,比如,工资分布数列,产值分布数列,商品销售额分布数列等。
表4是间断分布数列的举例。
表5是连续分布数列的举例。
累计频数分布
分布数列本身既可反映总体的次数分布,而且在进行统计分析时,还可以在次数分布的基础上,进一步研究频数、频率的分布状况。累计频数分布,分别就频数与频率进行累计,表明总体某一标志值的特定数值以下的观察值个数和比率,概括总体各单位的分布特征。
累计频数分布有两种形式:向上累计和向下累计。
(一) 向上累计频数或比率
向上累计频数分布,是将各组次数或比率,由变量值低的组向变量值高的组逐组累计。向上累计频数,表明某组上限以下各组单位数之和是多少;向上累计频率,表明某组上限以下各组单位数之和占总体单位比重的大小。
(二) 向下累计频数或比率
向下累计频数分布,是将各组次数或比率,由变量值高的组向变量值低的组逐组累计。向下累计频数,表明某组下限以上的各组单位数之和是多少;向下累计频率,表明某组下限以上各组单位数之和占总体单位数比重的大小。
表6是累计频数分布的具体形式。
由表6得知,不及格的学生有4人,占全部学生的5.0%;70分以下的学生有18人,占全部学生的22.5%。80分以上的学生有40人,占全部学牛的50.0%;成绩优秀(90分以下)的16人,占全部学生的20.0%。
累计频数分布的特点是:第一,首组的累计频数等于首组的频数;第二,最末一组的累计频数等于总体单位总量。
累计频率分布的特点是:第一,首组的累计频率就是首组的频率;第二,最末一组的累计频率等于1(或100%)。
主要类型
各种不同的社会经济现象都有着特殊的次数分布,但以下三种比较常见。
正态分布
正态分布,又称钟形分布,其特征是“中间大、两头小”,即靠近中间的变量值分布的次数多,靠近两端的变量值分布的次数少,如图1所示。
社会经济现象中有很多都属于钟形分布。例如,人的身高及体重、学生的成绩、农作物产量、市场价格、零件公差等现象都属于正态分布。
U形分布
U形分布的特征是靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头大、中间小”的分布特征。人口按年龄分组的死亡率、机器产品按使用时间分组的失效率,其分布图均呈这种图形(见图2)。
图2的曲线表明婴幼儿和老年人的死亡率较高,中青年的死亡率较低,或者是机器刚投入使用时失效率较高,随后急剧下降,保持相当一段时间后失效率又急剧增高的事实。这种分布曲线,其中间部分占据了整个曲线的绝大部分。
J形分布
J形分布的特征是“一边小、一边大”,即大部分变量值集中在某一端分布。它有正J形曲线和反J形曲线两种。前者表明次数随变量值的增大而增多,如投资额与利润率之间的相互变动关系,如图3(a)所示;后者表明次数随变量值的增大而减少,如商品的销售量和其价格的增减变动关系,如图3(b)所示。
次数分布的类型主要取决于社会经济现象本身的性质。编制的次数分配数列和图形有时可能会因总体所处的客观条件不同而表现不同,但其形态仍应符合该现象的分布特征。
参考资料
最新修订时间:2023-10-26 19:25
目录
概述
意义
参考资料