比例抽样
从欲研究的全部样品中抽取一部分样品单位
比例抽样是抽样方法的一种,是指不考虑试样变异性的大小,都按统一的比例进行抽样。抽样又称取样。从欲研究的全部样品抽取一部分样品单位。其基本要求是要保证所抽取样品单位对全部样品具有充分的代表性。
抽样
抽样又称取样。从欲研究的全部样品中抽取一部分样品单位。其基本要求是要保证所抽取的样品单位对全部样品具有充分的代表性。抽样目的是从被抽取样品单位的分析研究结果来估计推断全部样品特性,是科学实验质量检验、社会调查普遍采用的一种经济有效的工作和研究方法
一般抽样的过程如下:
1、界定总体
界定总体就是在具体抽样前,首先对从总抽取样本的总体范围与界限作明确的界定。
2、制定抽样框
这一步骤的任务就是依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并通过对名单进行统一编号来建立起供抽样使用的抽样框。
3、决定抽样方案
4、实际抽取样本
实际抽取样本的工作就是在上述几个步骤的基础上,严格按照所选定的抽样方案,从抽样框中选取一个个抽样样单位,构成样本。
5、评估样本质量
所谓样本评估,就是对样本的质量、代表性、偏差等等进行初步的检验和衡量,其目的是防止由于样本的偏差过大而导致的失误。
简介
比例抽样是指不考虑试样变异性的大小,都按统一的比例进行抽样
分层比例抽样
在分层抽样中,采用分层比例抽样可以提高样本的代表性,及对总体数量指标的估计值的确定,避免出现简单随机抽样中的集中于某些特性或遗漏掉某些特性。
它是根据某些特定的特征,将总体分为同质、不相互重叠的若干层,再从各层中独立抽取样本,是一种不等概率抽样分层抽样利用辅助信息分层,各层内应该同质,各层间差异尽可能大。这样的分层抽样能够提高样本的代表性、总体估计值的精度和抽样方案的效率,抽样的操作、管理比较方便。但是抽样框较复杂,费用较高,误差分析也较为复杂。此法适用于母体复杂、个体之间差异较大、数量较多的情况。
基于放回比例抽样的再抽样方法
数据挖掘本质上作为一类数据分析方法,和统计学有着共同的目标:发现数据中的结构川。因而,基于数据挖掘的视角,对抽样调查数据采用一些数据挖掘的方法进行分析,是可行的。然而,将数据挖掘方法应用于抽样调查数据,有一个问题通常无法回避,那就是样本数据所对应的权数如何处理。
一般而言,数据挖掘问题常常针对总体数据,例如关于一个公司的所有职工数据,银行信用卡中心数据库的所有客户数据,一家大型超市一个季度以来的所有顾客购买记录等。在这种情形下,每一条记录都是总体数据中的一个单元,得到的观察值可以直接计算总体参数,无需进行统计推断。
但数据挖掘方法也越来越多地应用于抽样调查数据。与总体数据不同的是,抽样调查当中,每个样本单元的观测值都是有权数的,权数表示的是每个样本单元代表了总体中一定数目的单元,所以整个样本就“代表”了整个总体。样本单元的权数取决于抽样设计。
因此,谢佳斌等提出采用放回的、与样本单元权数大小成比例的再抽样方法,简称PewwR再抽样,来实现“事后‘自加权设计。实现“事后”自加权设计后的子样本可忽略掉样本权数,直接采用常规的图示方法和数据挖掘算法进行分析。随后,基于2007中国公民科学家质调查贵州省数据,通过模拟分析讨论了PPWWR再抽样子样本的样本且问题,发现max( n,5% N)(n为样本大小,N为总体单元的个数)是一个比较合适的样本量。这一结论可能为其他大型复杂抽样调查数据的数据挖掘实施问题提供借鉴。
参考资料
最新修订时间:2022-09-24 10:03
目录
概述
抽样
参考资料