变量数列是统计总体单位按一定的数量标志分组所构成的分配数列。如,一个企业的职工,可按年龄、工龄、工资等数量标志分组,构成变量数列。有单项式变量数列和组距式变量数列。前者按变量值大小顺序排列;后者把变量值划分为若干组列出。变量数列表明在某一数量标志上各单位的分布情况。
基本内容
单项分组:将变量的不同取值作为一组的组别,变量有多少个不同的取值就划分为多少组。
组距分组:将变量的全部取值按照其大小的顺序划分成若干个不同数值的区间。连续型变量,或取值较多的离散型变量采用组距分组。
集中趋势:指总体中各单位的次数分布从两边向中间集中的趋势,用平均指标来反映。
离散趋势:指分配数列中各标志值远离中心值(即平均数)的程度,或总体各单位变量值间的差异程度,也称离散程度或离中趋势。
分类
变量数列分为
单项式变量数列和
组距式变量数列,也可简称为单项数列和
组距数列。
1.单项变量数列
单项变量数列,是指在变量数列中的每一个组,只用一个变量值来表示所形成的数列。单项变量数列的应用受到一定的限制,一般仅适用于数列变异幅度不太大的情况;如果数列的变异范围很大,就要采用组距数列。
2.组距数列
组距数列,是指在变量数列中的每一个组,并不是由一个变量值来表示,而是由表明一定变动范围或表示一定距离的两个变量值所形成的数列。
编制过程
1.确定组数
组距分组的组数通常选取在5-20组之间;变量值变化不均匀应采用异距分组;变量值变化均匀应采用等距分组;等距分组便于比较和分析处理,实践中应尽量采用等距分组确定组距。
2.确定组距
一般用公式 计算出的值为组距的最小值,在实际分组中,为了使全部变量值都能有组可入,实际的组距只能比此值大。
3.确定组限
组限应尽量采用整数,特别是5和10的倍数。离散型变量邻组的上下限可以不用同一个数值,连续型变量邻组的上下限必须用同一个数值。
邻组的上下限为同一数值时,约定:上限不包含在本组之内,称为上限不在内原则。
4.计算各组的次数(频数)
5.编制变量数列
编制说明
关于编制变量数列,还有以下各点需要说明:
1.变量有
连续变量与非连续变量之分。所谓连续变量,就是在一个变量数列中,相邻的两个变量值都是连续不断的,如产值、产量、贸易额等,都可以用小数来表示的变量;所谓非连续变量,就是在一个变量数列中,相邻的两个变量值都是可以间断的,如职工人数、工厂数、商店数、机器台数等,这些变量都只能用整数来表示。
用连续变量来编制的
组距数列,不论是等距数列,还是异距数列,上一组的下限与相邻下一组的上限可以重合。
2.在
组距数列中,凡出现“以下”、“以上”字样的组叫
开口组,这样的变量数列就叫做开口式数列。习惯上是以相邻组的组距为组距。
3、在编制异距数列时,组数和组距应根据现象的特点来确定;而在编制等距数列时,便要经常编制组距为5或10的等距数列。这时,确定组数和组距的经验作法是:将
总体单位某一
数量标志的最大值减去最小值算出
全距,然后除以10或5,即可算出组数和组距来。例如,某外贸企业有职工300人,最高的工资为106元,最低的工资为30元,其全距为76,假如每隔10为一组,则可算出组数为8组,于是将全部职工人数分在30—40,40—50,⋯100—110 等八个组中去,便可编制出以
组距为10的等距数列。
测度分析
集中趋势的测度
测定集中趋势的意义:可以反映现象总体的客观规定性;可以对比同类现象在不同的时间、地点和条件下的一般水平;可以分析现象之间的依存关系。
平均指标的种类及计算方法
算术平均数适用于总体资料未经分组整理、尚为原始资料的情况。
调和平均数是总体各单位标志值倒数的算术平均数的倒数,又叫
倒数平均数。简单调和平均数适用于总体资料未经分组整理、尚为原始资料的情况;加权调和平均数适用于总体资料经过分组整理形成变量数列的情况。
几何平均数适用于计算现象的平均比率或平均速度。
简单几何平均数适用于总体资料未经分组整理尚为原始资料的情况;
加权几何平均数适用于总体资料经过分组整理形成变量数列的情况。
中位数是指将总体各单位标志值按大小顺序排列后,指处于数列中间位置的标志值。不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。
众数是指总体中出现次数最多的变量值,它不受极端数值的影响,用来说明总体中大多数单位所达到的一般水平。
离散趋势的测度
离散趋势用
标志变异指标来反映。变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大。
测定离散趋势的意义:用来衡量和比较平均数代表性的大小;用来反映社会经济活动过程的均衡性和节奏性;用来总体标志值分布较正态分布的偏离程度。
测定标志变异度的绝对量指标:
极差、
平均差、
标准差。
极差指所研究的数据中,最大值与最小值之差,又称全距。优点:计算方法简单、易懂;缺点:易受极端数值的影响,不能全面反映所有标志值差异大小及分布状况,准确程度差。往往应用于生产过程的质量控制中。
平均差是各个数据与其
算术平均数的离差绝对值的算术平均数。优点:不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;缺点:用绝对值的形式消除各标志值与算术平均数离差的正负值问题,不便于作数学处理和参与统计分析运算。一般情况下都是通过计算另一种标志变异指标——标准差,来反映总体内部各单位标志值的差异状况。
标准差是各个数据与其算术平均数的离差平方的算术平均数的开平方根。不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理和统计分析运算。
测定标志变异度的相对量指标:极差系数、
平均差系数、
标准差系数。
变异系数指标用来对比不同水平的同类现象,特别是不同类现象总体平均数代表性的大小。