随机抽样 random sampling,亦称“
纯随机抽样”、“
简单随机抽样”。
随机取样定义
随机原则是在抽取被调查单位时,每个单位都有同等被抽到的机会,被抽取的单位完全是
偶然性的。
抽样检验的基本形式,其特点是总体中每个单位被抽中的概率是相同的,完全由许多随机因素综合作用来决定,既排除了抽样时人的主观随意性,也排除了人的
主观能动性。
随机样本
随机抽得的样本,称为随机样本(random sample)。
分类
简单随机抽样
一般地,从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样,这样抽取的样本,叫做简单随机样本。
抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,记下号签上的号码,就得到一个容量为n的样本。
抽签法的优点是简单易行;缺点是,当总体的容量非常大时,费时、费力又不方便,况且,如果标号的纸片式小球搅拌得不均匀,可能导致抽样的不公平。
⒉随机数表法
用
抽签法抽取样本时,编号的过程有时可以省略(如用已有编号),但制签的过程就难以省去了,而且,制签也比较麻烦。简化抽签过程的一个有效办法就是制作一个表,其中的每个数都是用随机方法产生的,这样的表称为随机数表。于是,我们只需按一定的规则到随机数表中选取号码就可以。这种抽样方法叫随机数表法。
用随机数表法抽取样本的步骤是:
①将总体中的所有的个体编号(每个号码位数一致);
②在随机数表中任选一数作为开始;
③从选定的数开始按一定的方向读下去,得到的数码若不在编号中,则跳过,若在编号中,则取出,如果得到的号码前面已经取出,也跳过,如此继续下去,直到取满为止。
④根据选定的号码抽取样本。
系统抽样
一般地,假设要从容量为N的总体中抽取容量为n的样本,可以按下列步骤进行系统抽样:
⑴先将总体的N个个体编号,有时可直接利用个体自身所带的号码,如学号,准考证号,门牌号等;
⑵确定分段间隔k对编号进行分段,当(n是
样本容量)是整数的,取k=;
⑶在第一段用简单随机抽样确定一个个体编号m(m≤k);
⑷按照一定的规则抽取样本,通常是将m加上间隔k得到第2个个体编号(m+k),再加k得到第3个个体编号(m+2k),依次进行下去,直到获取整个样本。
注意:当不是整数时,令k=[],即先从总体中用简单随机抽样的方法剔除N—nk个个体,再将其余的编号的分成k段。
如:若用系统抽样的方法从由21个个体组成的总体中用系统抽样的方法抽一个容量为5的样本,可如下操作:
S1:将21个个体用随机方式编号;
S2:从总体中剔除一个个体(剔除方法可用随机数表法),将剩下的20个个体重新编号(分别为00,01,02,…,19),并分成5段;
S3:再从第一段00,01,02,03这4个编号中用简单随机抽样抽出一个(如03)作为起始号码;
S4:将编号为03,07,11,15,19的个体抽出,组成样本。
分层抽样
将总体中各个个体按某种特征分成若干个互相重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做
分层抽样。
当总体由有明显差别的几部分组成时,为了使抽取的样本更好地反映总体的情况,常采用分层抽样。
分层抽样的优点是,使样本具有较强的代表性,而且在各层抽样时,又可灵活地选用不同的抽样法。
● 分层抽样的步骤:
⑴将总体按一定标准进行分层;
⑵计算各层的个体数与总体的个体数的比;
⑶按各层的个体数占总体的比确定各层应抽取的
样本容量;
⑷在每一层进行抽样(可用简单随机抽样或系统抽样)。
⑴适用于总体由差异明显的几部分组成的情况;
⑵更充分地反映了总体的情况;
⑶是
等可能性抽样,每个个体被抽到的可能都是n/N。
数据的收集
在实际
统计调查时,一般先要确定调查的目的、对象,也就是统计调查要解决的问题和需要调查的总体,还要确定好调查的项目,也就是要统计的变量。
收集数据的方法通常有做试验,查阅资料和设计
调查问卷三种方法。
⒈做试验
通过设计一些合适的试验,能够直接地获得样本数据,如统计一颗骰子各点出现的频率,就可做抛掷骰子试验。
说明:
◆ 做试验时需要注意的问题:
⑴准备好试验用具;
⑵组织好观测的对象;
⑶指定专门记录的人员。
例如我们做抛掷骰子试验来统计一枚骰子各个点数出现的频率。在这个试验中骰子就是要准备的用具,而试验中得到的数据则需要有专门的人记录。
◆ 做试验的优点和缺点:
优点:做试验通常能得到可靠的数据资料。
缺点:做试验需要花费人力、物力、时间较多,有时带有破坏性。
例如测试一批灯泡的使用寿命需要花费较长的时间。判断山东省的成人平均身高是否为全国之最,需要花费大量的人力物力。要测试一批钢筋的抗拉强度则具有破坏性。
⒉查阅资料
有些数据不易直接调查到,通过查阅图书馆文献或通过搜索因特网上的相关资料等办法获得所需数据或相关数据。
说明:
◆ 查阅资料的优点和缺点:
优点:①查阅资料可以取得不容易直接调查得到的资料。如全国历次人口普查的数据可以用查资料的方法得到,但不容易直接调查行到。
②查阅资料有时可以省去大量的人力、物力,如我们要了解某县的常住人口数,可以直接查阅相关的资料,若要直接调查,起码要动用大量的人力、物力。
③查阅资料有时可以减少破坏性。如:我们想知道从某厂购买的一批钢筋的抗拉强度,只需查阅相关的资料即可,无需进行这种破坏性实验。
缺点:有些数据无法从资料中查阅,必须直接调查。如某学校高一学生对未来的设想,这一问题我们就只能直接调查,而无法从资料中查找。
问卷一般由一组有目的、有系统、有顺序的题目组成。
说明:
◆ 设计调查问卷的一般要求:
①意味着要避免一般性或不具体的问题,例如,调查消费者对某型号冰箱满意程度应包含外观、功能、价格三个方面,如果问题设计成这样:
您对某型号冰箱是否满意?
□1、满意 □2、一般 ;□3、不满意
则消费者可能对功能满意而对价格不满意而不知道怎样去选择,应将问题细化为三个方面:
这样才能了解消费者的真正想法,达到调查的目的。
②语言简单、准确、含义清楚,避免出现歧义或意思含混的句子。
所问内容的定义要明确,便于受调查者准确的回答。例如,了解家庭情况时提问“您家里有几个孩子”,对于“孩子”的界定,不同的受调查可能有不同的理解,提问时就应明确孩子的定义。
③题目不能出现引导受调查者答题倾向的话语。例如:调查问题是“人家都认为国家足球队肯定能小组出线,您的意见呢?”这种问法可能导致答卷者选择小组出线的答案。
典型例题
错解
某单位有1002人(其中有 2 人体弱多病),现从中抽取 10 人参加市运动会,试用系统抽样进行具体实施。【错解一】按系统抽样抽10人,要将1002人分成10段;而1002不是10的倍数,因此要从中先剔除2人,由于是参加运动会,对于体弱多病的2人来说,无任何意义,即便他们被抽到,也不可能去参加;所以直接剔除这两个人,再对余下的1000人分段即可。
错解原因:随机抽样无论用哪一种抽样方法,一个原则不能变:公平性。要保证总体中的每一个个体在总体中被抽到的可能性相同。显然,上述处理失掉了这个原则,由于直接剔除2个体弱多病的个体,就使这两人被抽到的可能性变为零,与公平性相悖,因此,这样处理是错的。
【错解二】将1002人进行编号,得到号码为1~1002,从这1~1002个号码中用简单随机抽样的方法,从中抽取两个号码,将这两个号码对应的人剔除;
然后把剩余的1000个号码,按从小到大的顺序分成10段,先在第一段中用简单随机抽样的方法抽取一个,譬如:a; 那么将号码100+a,200+a,… …,900+a,对应的人取出,此10人即为用系统抽样抽取参加市运动会的10人。
错解原因:表面上看“天衣无缝“,其实;这样做有可能某一段中抽取了两人,而有的段中又一人都没有,如:假若最初剔除的两个号码,不妨设为2号、5号;那么,再对剩余号码分组应该是这样的:
第一段1,3,4,6,…,102;第二段103,104,…,202;第十段903,904,…,1002;当我们从第一组中随机抽一个号码,如果此号码是“1”;按照上述的操作,就得到了10个号码分别是:1,101,201,…,901;可以看出第一段有两个“1”与“101”,而最后一段一个也没有。显然,这样处理不妥。
正确解法
S1 ;将1002人进行编号,得到号码为1~1002,从这1~1002个号码中用简单随机抽样的方法,将这两个号码对应的人剔除:
S2 ;将剩下的1000人再重新编号,得到号码为1~1000;
S3 ;再对新号码进行分段,第一段1~100;第二段101~200;…,第十段901~1000:
S4 ;在第一段用简单随机抽样一个号码,譬如:a;那么将号码:a, a+100, a+200, …,a+900对应的人取出,此10人即为用系统抽样的的方法抽出的10人。
【点评】⑴正确认识抽样过程的公平性;所谓“公平性”,是指在抽样过程中对总体中的每个个体而言,不论是哪种抽样方法,必须保证总体中的每个个体被抽取的可能性是相等的:
⑵正确认识样本的代表性,样本的代表性直接影响统计公平结果的可信度,一项统计做下来,耗费大量的人力、物力、财力,就亦成了最大的浪费。