单变量分析主要集中在单变量的描述和统计推断两个方面,在于用最简单的概括形式反映出大量样本资料所容纳的基本信息,描述样本数据中的集中或离散趋势,单变量统计推断则是从样本资料来推断总体的情况,主要包括
区间估计和统计
假设检验。
描述单变量的样本
集中趋势,常用的
统计描述方式有
均值,
众数和
中位数。
区间估计是指在一定的
置信度范围下对总体的取值区间的估计。统计假设是先对总体的某个参数做出假设,然后用
样本统计量来验证假设,从而决定对假设的接受或拒绝。
数据分析首先从单变量分析开始。单变量分析的目的是,通过对数据的整理、加工、组织和展示,并计算反应数据的
集中趋势和
离散程度的指标,对变量分布的特征和规律进行刻画和描述。不同类型的变量需要使用不同的方法和指标。
频数指的是在各个类别中分布的数据个数,而将各个类别及其相应的频数一一列出来,就是
频数分布。通常情况下,频数分布是以
频数分布表的形式出现的。
频率分布,就是在一组数据中,不同取值的频数相对于总数的比率分布情况,通常用百分比表示。与频数分布一样,频率分布也是以频率分布表的形式出现的。
所谓集中趋势分析,就是用一个代表值或典型值对一组数据的一般水平进行反映,或是对这组数据向这个代表值或典型值集中的情况进行反映。由于集中趋势分析对大量数据的共性进行了科学抽象,能够对被研究对象在具体条件下的一般水平进行说明,因而在单变量描述统计中的应用非常广泛。
离散趋势分析是指用一个特别的数值将一组数据相互之间的离散程度反映出来。离散趋势分析可以通过计算
全距、
异众比率、
标准差和
离散系数等方式来实现。
在实际的社会调查中,普查的方式使用很少,通常是使用抽样调查的方式。而单变量推论统计的目的,就是通过样本调查中所得到的数据资料,对总体的状况进行推断。可以从区间估计和假设检验两个方面进行。
区间估计是指在一定的标准差范围内设立一个
置信区间,然后联系这个区间的可信度将样本统计值推论为总体参数值。它的实质是在一定的
置信度下,用样本统计值的某个范围来“框”住总体的参数值,即以两个数值之间的间距来估计参数值。
假设检验就是先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受。