抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的
总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照
随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的
概率,从而也就无法进行概率选样。
抽样框简介
好的抽样框应做到:完整而不重复。
常见的抽样框:大学学生花名册、城市黄页里的电话列表、
工商企业名录、街道派出所里居民户籍册、意向购房人信息册……。在没有现成的名单的情况下,可由调查人员自己编制。应该注意的是,在利用现有的名单作为抽样框时,要先对该名录进行检查,避免有重复、遗漏的情况发生。以提高样本对总体的代表性。
例如:要从10000名职工中抽出200名组成一个样本,则10000名职工的名册,就是抽样框。
确定抽样框,即根据研究目的和内容确定抽样总体的范同与单位。抽样框来自抽样总体,也就是采用一定的方法把总体巾的每一单位组合成一种可供选择的形式。简单的总体可直接根据其组成名单形成抽样框(林聚任、刘玉安,2008)。
本研究的抽样单位是个人,抽样总体较为简单,可直接将总体名单作为抽样框,即本研究将在12073人中抽¨j本研究的调查对象。需要说明的是,本研究的预调查与正式调查采用的是同一抽样框。在正式调查的抽样中,为保证样本的公平分布,本研究并未从该抽样框中除去曾参与预调查的受访者。
常见形态
抽样框又叫抽样构架或抽样结构,实际上,它就是指可以备选作为样本的全部抽样单位(总体单位)的顺序或编排形式。这个概念最早出现在美国的农业抽样调查中。他们认为,目标总体确定后,还是比较抽象的,应该把全部应该作为备选的单位编排成目录,使总体包括的单位的名称、地址、编号等落实在文字上。这样也可保证各单位既不遗漏,又不被重复抽取。
在实践中,抽样构架有三种形态。
1)具体的抽样结构
即抽样单位可列成表册的形态。包括目录结构、区域结构和目录区域复合结构。例中的20 000学生花名册即属目录结构。在进行整群抽样时,我们将城市居民按习惯的区段位置排列作为备选的居民群,就是区域结构。如果对抽中的居民群不进行全面调查,而是再抽选部分居民,又需要一个居民花名册,这就变成了复合结构。
2)抽象的抽样结构
即抽样单位没有表册而是开放的形态。只要符合调查条件就是抽样结构中的元素。例如,在大型零售商场对购买者或消费者进行随机访问调查时,其抽样结构就是抽象的,隐含的。
3)阶段式抽样结构
在采用分段抽榉设计时,按照抽样阶段不同,可产生不同的抽样结构。
误差分析
抽样框误差便是因不准确或不完整的抽样框而引起的误差。问题是,从包含
抽样误差的抽样框中抽取的样本有时无法正确地代表调研目标的实际情况,这就存在抽样框误差。举个例子,以电话号码薄作为抽样框,在对某地区所有住户进行的某种意向调查时,就存在着抽样框误差。
理想抽样框的标准是能够实现目标总体与
抽样总体的一致,然而在实践中由于设计或是资料本身等方面的原因,目标总体与抽样总体往往不一致,无法保证样本的代表性,而且由于目标
总体单位数不准确,对总体进行估计时就会产生
估计量偏倚,增大其
方差。这种误差并不是来自抽样的
随机性,而是产生于不完善的抽样框,因此称为抽样框误差。
抽样框误差是一种非
抽样误差。
误差来源
丢失目标总体单位也被称为“涵盖不足”,是指抽样框没有覆盖全部目标总体单位,有些目标单位没有在抽样框中出现,因而也就没有机会被选人样本,这些单位成为丢失目标单位。对丢失的总体单位不能发现并纠正会造成调查中对总量的估计偏低。
2、包含非目标单位
包含非目标单位也被称为“过涵盖”,是指抽样框中包含了一些不属于研究对象的非目标总体单位。这种偏差的影响很大,但是潜在威胁却通常会小一些。因为可以在调查中辨认出非目标元素并把它们剔除。一般情况下,由于抽样框中存在非目标总体单位,容易造成
估计量的高估。
3、丢失和包含共存
丢失目标单位和非目标单位共存是指在抽样框中既有丢失目标单位,也有包含非目标单位。在实际调查中,丢失目标单位不易被查觉和发现,具有较大的隐蔽性,相比之下,包含非目标单位的
抽样框误差的威胁性要小些。因为在调查过程中,非目标单位容易被发现,并予以剔除。此外,如果丢失目标单位和非目标单位数量相当,也相互抵消,
估计量是否会产生偏差也难以断定。这要取决于丢失目标单位和非目标单位的数量特征是否有显著差异。
4、复合连接
复合连接是指抽样框单元与目标总体单元不完全一一对应,而是存在一对多、多对一或是多对多模式的现象。在前一种模式中,若进行
简单随机抽样,能保证每个目的
总体单位以同等的可能性被抽中。在后两种模式中进行简单随机抽样,每个目的总体单位被抽中的
概率是不同的,从而使估计量产生偏斜。例如:若某银行想了解其客户的情况进行一次
抽样调查,则该行所有客户构成目的总体。选择的抽样框是银行的来往帐目,这就构成了多对一模式。若在这个框中进行抽样,则来往帐目多的客户被抽中的可能性则较大,反之来往帐目少的客户被抽中的可能性很小,而两种客户通常会有较大差异,从而造成样本的偏斜,使
估计量产生偏差。
不正确的辅助信息误差也被称为称为“内容上的偏差”,这种误差的主要影响是降低估计的精度。许多抽样框中包含了辅助信息,可用于特殊的抽样设计和估计技术。可用这些辅助信息来进行
分层抽样,对规模大小的测度用于与规模成比例的
概率抽样。如果辅助信息的特征与研究的调查变量的特征高度相关,还可以用于比率估计和回归估计。但是这些辅助信息可能有错误,或者是一些抽样单位不具备
辅助信息,那么就会对抽样精度产生巨大的影响。
6、抽样框老化
抽样框老化又被称为“抽样框过时”或“不准确的抽样框”,是指随着时间的推移,
抽样总体与目标总体产生极大的偏差,即原来的抽样框不符合实际情况,必须进行更新。最典型的例子,就是随着城市建设的大规模展开,许多地区已被改造,地址发生了变化,如果仍按以前的抽样框去抽样,那么精度就会难以控制。
减少误差
1、在抽选样本之前,要对抽样框加以检查,发现可能存在的问题,进行识别、处理,并采取一定措施加以补救。
可以和普查或其他调查资料的总值或记录等相比较、分析,进而查明是否存在遗漏。可以利用客观现实的相互联系,找出平衡关系,推算是否有偏差。发现存在问题时,要及时进行补救。当一些目标
总体单位对调查结论不会产生太大影响时,可重新把抽样框定义为可以得到的目标总体单位,将抽样框视为旧抽样框所能提供的总体。当抽样框不能涵盖
抽样总体时,就可以采用辅助抽样框,采用此法要避免目标单位的重叠。
2、联接遗漏单位法,就是指把抽样样本遗漏的个体和抽样样本中某个值相联接,其联接规则必须在调查前明确规定。其前提条件是在抽样过程中能发现被遗漏的单位。
此外,对抽样框进行清查是最费力、最繁琐也是效果最好的一种方法。在临近调查前,重新独立构建抽样框的全部或部分。
单元区别
抽样框与抽样单元是抽样的一对基本范畴。其单元满足“与实际总体的每个单元之间存在确定的对应关系,凭借这种对应关系可以找到实际总体中特定的一个或一些单元”条件的实际总体的映射总体称为抽样框,构成映射总体的单元则称为抽样单元。
换言之,包含所有抽样单元的总体称为抽样框,构成抽样框的单元称为抽样单元。
事实上,为了方便抽样的实施,必须拥有一个目录性清单,这个目录性清单中的每个目录项与实际总体的每个单元之间存在确定的对应关系,即根据一个目录项总可以找到实际总体中特定的一个或一些单元。抽样框就是这种一个目录性清单。
抽样框可能以各种形式出现:名单、手册、地图、数据包……。由于无论抽样框采取何种形式,在抽样之后,调查者必须能够根据抽样框找到具体的
抽样单元。因此,抽样框必须是有序的,即抽样单元必须编号,且根据某种顺序进行了排列;抽样框中包含的抽样单元务必要“不重不漏”,否则将出现
抽样误差。
抽样单元不仅指构成抽样框的目录项,同时还表示该目录项所对应的实际总体特定的一个或一些单元。形象地说,不仅是影子,还是影子所反映的实体。尽管抽样文献对此不置一词,但读者记住这一点仍大有裨益。为了区分抽样单元的这两种不同意义,实体抽样单元又称为样本单元或
样本点。
抽样单元不一定是组成总体的最小单位——基本单元。抽样单元可能包含一个或一些基本单元,最简单的情况是只包含一个基本单元。在
简单随机抽样中,抽样单元即为基本单元;而在
整群抽样中,群即为抽样单元,而群可能包含相当多的基本单元,比如在手机调查中我们抽中一栋居民楼,居民楼是抽样单元,而楼中的每个居民就是基本单元。