抽样框误差是因不准确或不完整的抽样框而引起的误差。从包含抽样误差的抽样框中抽取的样本有时无法正确地代表调研目标的实际情况,这就存在抽样框误差。在实践中由于设计或是资料本身等方面的原因,目标总体与抽样总体往往不一致,无法保证样本的代表性,而且由于目标总体单位数不准确,对总体进行估计时就会产生估计量偏倚,增大其方差。这种误差并不是来自抽样的随机性,而是产生于不完善的抽样框,因此称为抽样框误差。抽样框误差是一种
非抽样误差。
来源
丢失目标总体单位
丢失目标总体单位也被称为“涵盖不足”,是指抽样框没有覆盖全部目标总体单位,有些目标单位没有在抽样框中出现,因而也就没有机会被选入样本,这些单位成为丢失目标单位。对丢失的总体单位不能发现并纠正会造成调查中对总量的估计偏低。
包含非目标单位
包含非目标单位也被称为“过涵盖”,是指抽样框中包含了一些不属于研究对象的非目标总体单位。这种偏差的影响很大,但是潜在威胁却通常会小一些。因为可以在调查中辨认出非目标元素并把它们剔除。一般情况下,由于抽样框中存在非目标总体单位,
容易造成估计量的高估。
丢失目标单位和包含非目标单位共存
丢失目标单位和非目标单位共存是指在抽样框中既有丢失目标单位,也有包含非目标单位。在实际调查中,丢失目标单位不易被查觉和发现,具有较大的隐蔽性,相比之下,包含非目标单位的抽样框误差的威胁性要小些。因为在调查过程中,非目标单位容易被发现,并予以剔除。
此外,如果丢失目标单位和非目标单位数量相当,也相互抵消,估计量是否会产生偏差也难以断定。这要取决于丢失目标单位和非目标单位的数量特征是否有显著差异。
复合连接
复合连接是指抽样框单元与目标总体单元不完全一一对应,而是存在一对多、多对一或是多对多模式的现象。在前一种模式中,若进行
简单随机抽样,能保证每个目的总体单位以同等的可能性被抽中。在后两种模式中进行简单随机抽样,每个目的总体单位被抽中的概率是不同的,从而使估计量产生偏斜。例如:若某银行想了解其客户的情况进行一次抽样调查,则该行所有客户构成目的总体。选择的抽样框是银行的来往帐目,这就构成了多对一模式。若在这个框中进行抽样,则来往帐目多的客户被抽中的可能性则较大,反之来往帐目少的客户被抽中的可能性很小,而两种客户通常会有较大差异,从而造成样本的偏斜,使估计量产生偏差。
不正确的辅助信息
不正确的辅助信息误差也被称为称为“内容上的偏差”,这种误差的主要影响是降低估计的精度。许多抽样框中包含了辅助信息,可用于特殊的抽样设计和估计技术。可用这些辅助信息来进行分层抽样,对规模大小的测度用于与规模成比例的概率抽样。如果辅助信息的特征与研究的调查变量的特征高度相关,还可以用于比率估计和回归估计。但是这些辅助信息可能有错误,或者是一些抽样单位不具备辅助信息,那么就会对抽样精度产生巨大的影响。
抽样框老化
抽样框老化又被称为“抽样框过时”或“不准确的抽样框”,是指随着时间的推移,抽样总体与目标总体产生极大的偏差,即原来的抽样框不符合实际情况,必须进行更新。最典型的例子,就是随着城市建设的大规模展开,许多地区已被改造,地址发生了变化,如果仍按以前的抽样框去抽样,那么精度就会难以控制。
减少抽样框误差的方法
在抽选样本之前要对抽样框加以检查
发现可能存在的问题,进行识别、处理,并采取一定措施加以补救。
可以和普查或其他调查资料的总值或记录等相比较、分析,进而查明是否存在遗漏。可以利用客观现实的相互联系,找出平衡关系,推算是否有偏差。发现存在问题时,要及时进行补救。当一些目标总体单位对调查结论不会产生太大影响时,可重新把抽样框定义为可以得到的目标总体单位,将抽样框视为旧抽样框所能提供的总体。当抽样框不能涵盖抽样总体时,就可以采用辅助抽样框,采用此法要避免目标单位的重叠。
联接遗漏单位法
就是指把抽样样本遗漏的个体和抽样样本中某个值相联接,其联接规则必须在调查前明确规定。其前提条件是在抽样过程中能发现被遗漏的单位。
此外,对抽样框进行清查是最费力、最繁琐也是效果最好的一种方法。在临近调查前,重新独立构建抽样框的全部或部分。