在分层抽样中,采用
分层比例抽样可以提高样本的代表性,及对总体数量指标的估计值的确定,避免出现
简单随机抽样中的集中于某些特性或遗漏掉某些特性。
它是根据某些特定的特征,将总体分为同质、不相互重叠的若干层,再从各层中独立抽取样本,是一种不等
概率抽样。
分层抽样利用
辅助信息分层,各层内应该同质,各层间差异尽可能大。这样的分层抽样能够提高样本的代表性、总体估计值的精度和
抽样方案的效率,抽样的操作、管理比较方便。但是
抽样框较复杂,费用较高,误差分析也较为复杂。此法适用于母体复杂、个体之间差异较大、数量较多的情况。
数据挖掘本质上作为一类数据分析方法,和统计学有着共同的目标:发现数据中的结构川。因而,基于数据挖掘的视角,对抽样调查数据采用一些数据挖掘的方法进行分析,是可行的。然而,将数据挖掘方法应用于抽样调查数据,有一个问题通常无法回避,那就是样本数据所对应的权数如何处理。
一般而言,数据挖掘问题常常针对总体数据,例如关于一个公司的所有职工数据,银行信用卡中心数据库的所有客户数据,一家大型超市一个季度以来的所有顾客购买记录等。在这种情形下,每一条记录都是总体数据中的一个单元,得到的观察值可以直接计算总体参数,无需进行统计推断。
但数据挖掘方法也越来越多地应用于抽样调查数据。与总体数据不同的是,抽样调查当中,每个样本单元的观测值都是有权数的,权数表示的是每个样本单元代表了总体中一定数目的单元,所以整个样本就“代表”了整个总体。样本单元的权数取决于抽样设计。
因此,谢佳斌等提出采用放回的、与样本单元权数大小成比例的再抽样方法,简称PewwR再抽样,来实现“事后‘自加权设计。实现“事后”自加权设计后的子样本可忽略掉样本权数,直接采用常规的图示方法和数据挖掘算法进行分析。随后,基于2007中国公民科学家质调查贵州省数据,通过模拟分析讨论了PPWWR再抽样子样本的样本且问题,发现max( n,5% N)(n为样本大小,N为总体单元的个数)是一个比较合适的样本量。这一结论可能为其他大型复杂抽样调查数据的数据挖掘实施问题提供借鉴。