抽样平均误差是反映
抽样误差一般水平的指标,它的实质含义是指抽样
平均数(或成数)的
标准差。即它反映了
抽样指标与总体指标的
平均离差程度。
抽样推断是在根据
随机原则从总体中抽取部分实际数据的基础上,运用数理统计方法,对总体某一现象的数量性作出具有一定可靠程度的估计判断。抽样推断具有这些特点: 它是由部分推算整体的一种认识方法;它是建立在
随机取样的基础上。它是运用概率估计的方法;抽样推断的误差可以事先计算并加以控制。
抽样推断
抽样推断的一般概念
抽样的基本概念
全及总体是我们所要研究的对象,而样本总体则是我们所要观察的对象,两者是有区别而又有联系的不同范畴。全及总体又称母体,简称总体,它是指所要认识的,具有某种共同性质的许多单位的集合体。样本总体又称
子样,简称样本,是从全及总体中随机抽取出来,代表全及总体的那部分单位的集合体。样本总体的单位数称为
样本容量,通常用
小写英文字母n来表示。随着样本容量的增大,样本对总体的
代表性越来越高,并且当样本单位数足够多时,
样本平均数愈接近
总体平均数。
如果说对于一次抽样调查,全及总体是唯一确定的,那么样本总体就不是这样,样本是不确定的,一个全及总体可能抽出很多个样本总体,样本的个数和样本的容量有关,也和抽样的方法有关。
根据全及总体各个单位的标志值或标志属性计算的,反映总体某种属性或特征的综合指示称为全及指标。常用的全及指标有
总体平均数(或总体成数)、
总体标准差(或
总体方差 )。
由样本总体各单位标志值计算出来反映
样本特征,用来估计全及指标的
综合指标称为
统计量(抽样指标)。统计量是样本变量的函数,用来估计
总体参数,因此与总体参数相对应,统计量有
样本平均数(或抽样成数)、
样本标准差(或
样本方差 )。
对于一个问题全及总体是唯一确定的,所以
全及指标也是唯一确定的,全及指标也称为参数,它是待估计的数。而统计量则是
随机变量,它的取值随样本的不同而发生变化。
样本容量是指一个样本所包含的单位数。通常将样本单位数不少于30个的样本称为大样本,不及30个的称为
小样本。
社会经济统计的抽样调查多属于大样本调查。样本个数又称样本可能数目。指从一个总体中可能抽取的样本个数。一个总体有多少样本,则
样本统计量就有多少种取值,从而形成该统计量的分布,此分布是
抽样推断的基础。
抽样误差
抽样误差是指由于
随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和
全及指标之间的
绝对离差。因此,又
称为
随机误差,它不包括登记误差,也不包括
系统性误差。
影响抽样误差的因素有:总体各单位标志值的差异程度;样本的单位数;抽样的方法;抽样调查的组织形式。
1、抽样平均误差。抽样平均误差的作用首先表现在它能够说明样本指标代表性的大小。平均误差大,说明样本指标对总体指标的代表性低;反之,则高 。
2、
抽样极限误差。抽样极限则说明样本指标对总体指标的代表性高。其次,平均误差还说明样本指标与总体指标差别的
一般范围。这个范围实际上就是抽样极限误差。
抽样平均误差的计算:
不重复抽样: 误差是指用绝对值形式表示的样本指标与总体指标偏差的可允许的最大范围。它表明被估计的总体指标有希望落在一个以样本指标为基础的可能范围。它是由抽样指标变动可允许的上限或下限与总体指标之差的绝对值求得的。
由于
总体平均数和总体成数是未知的,它要靠实测的抽样平均数成数来估计。因而抽样极限误差的实际意义是希望总体平均数落在抽样平均数的范围内,总体成数落在抽样成数的范围内。
基于理论上的要求,
抽样极限误差需要用抽样平均误差 或 为标准单位来衡量。即把
极限误差 △x或 △p相应除以 或 ,得出相对的误差程度t倍,t称为
抽样误差的概率度。
抽样估计方法
抽样估计就是利用实际调查计算的样本
指标值来估计相应的总体指标数值。抽样估计有
点估计和
区间估计两种
参数点估计的基本特点:根据总体指标的结构
形式设计样本指标作为
总体参数的
估计量,并以样本指标的实际值直接作为相应总体参数的估计值。点估计的优良标准是
无偏性、一致性和有效性。
抽样估计的
置信度是表明抽样指标和总体指标的误差不超过一定范围的概率有多大。
参数区间估计的基本特点:
根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被
估计值的上限和下限,即指出总体参数可能存在的区间范围,而不是直接给出总体参数的估计值。
总体参数区间估计根据给定的概率保证程度的要求,利用实际抽样资料,指出被估计值的上限和下限,即指出总体参数可能存在的区间范围。总体参数
区间估计必须同时具备估计值、
抽样误差范围和概率保证程度三个要素。
例1、某学校进行一次英语测验,为了解学生的考试情况,随机抽选部分学生进行调查,所得资料如下:
试以95.45%的可靠性估计该校学生
英语考试的平均成绩的范围及该校学生成绩在80分以上的学生所占的比重的范围。
解:(1)该校学生英语考试的平均成绩的范围:
σ=11.377
△x = tμx=2×1.1377=2.2754
该校学生考试的平均成绩的区间范围是:
x - △x≤X≤ x+△x
76.6-2.2754≤X≤76.6+2.2754
74.32≤X≤78.89
(2)该校学生成绩在80分以上的学生所占的比重的范围
△p=tμp=2×0.04996=0.09992
80分以上学生所占的比重的范围:
P=p±△p=0.48±0.09992
0.3801≤P≤0.5799
在95.45%概率保证程度下,该校学生成绩在80分以上的学生所占的比重的范围在38.01%—57.99%之间。
这是在简单抽样条件下进行
区间估计的例题。从上面的解法中,我们可以总结出这一类计算题的基本做法:先计算出样本指标,然后根据所给条件(
重复抽样或
不重复抽样)进行抽样平均误差的计算,
抽样极限误差的计算,最后根据样本指标和极限误差进行区间估计。
例2、从某年级学生中按
简单随机抽样方式抽取40名学生,对公共理论课的考试成绩进行检查,得知其平均分数为78.75分,样本标准差为12.13分,试以95.45%的概率保证程度推断全年级学生考试成绩的区间范围。如果其它条件不变,将
允许误差缩小一半,应抽取多少名学生?
解:n=40 x=78.56 σ=12.13 t=2
(1)
μx=12.13/sqrt(40)=1.92
△x = tμx=2×1.92=3.84
全年级学生考试成绩的区间范围是:
x - △x≤X≤ x+△x
78.56-3.84≤X≤78.56+3.84
74.91≤X≤82.59
(2)将误差缩小一半,应抽取的学生数为: (人)
n=(12.13*2/1.92)^2=160
抽样组织形式
通俗的讲
抽样误差就是指样本指标与全及总体指标之间的
绝对误差。在进行抽样检查时不可避免会产生抽样误差,因为从总体中随机抽取的样本,其结构不可能和总体完全一致。例如
样本平均数与
总体平均数之差| x − X |(注:x与X上都还有一横代表平均数,这里打不出来),样本成数与总体成数之差 | p − P | 。虽然抽样误差不可避免,但可以运用
大数定律的
数学公式加以精确地计算,确定它具体的数量界限,并可通过抽样设计加以控制。
抽样估计
抽样推断的概念和特点
抽样推断是按
随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断。
特点:它是由部分推断整体的一种认识方法;抽样推断建立在
随机取样的基础上;抽样推断运用概率估计的方法;抽样推断的误差可以事先计算并加以控制。
抽样推断的内容
参数估计:参数估计是依据所获得的样本观察资料,对所研究现象总体的水平、结构、规模等数量特征进行估计。
假设检验:假设检验是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否可信的一种
统计分析方法。
有关抽样的基本概念
1、总体和样本
N n
总体又称全及总体。指所要认识的研究对象全体。
总体单位总数用“N”表示。
样本又称
子样。是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。样本单位总数用“n”表示。
2、参数和统计量
统计量是根据样本数据计算的综合指标
成数P:总体中具有某种性质的单位数在总体全部单位数中所占的比重。
3、样本容量和样本个数
样本容量是一个样本包含的单位数。用 “n”表示。一般要求 n ≥30样本个数
样本个数是从一个全及总体中可能抽取的样本数目。
4、重复抽样和不重复抽样
例:从4个球中抽两个球
采用重复抽样和不重复抽样:
A B C D
AA AB AC AD
BA BB BC BD
CA CB CC CD
DA DB DC DD
抽样误差的含义及影响抽样误差大小的因素
由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的
绝对离差。
1、总体各单位标志值的差异程度
2、样本的单位数
4、抽样调查的组织形式
简介
定义
抽样
平均误差是抽样平均数或抽样成数的标准差,反映了抽样指标与总体指标的平均误差程度。
多数样本指标与总体指标都有误差,误差有大、有小,有正、有负,抽样平均误差就是将所有的误差综合起来,再求其平均数,所以抽样平均误差是反映
抽样误差一般水平的指标。
抽样平均数的平均误差:
重复抽样:
此公式说明,抽样平均误差与
总体标准差成正比,与
样本容量成反比。(当总体标准差未知时,可用
样本标准差代替)(教材P180例题)
通过例题可说明以下几点:
③可通过调整样本单位数来控制抽样平均误差。
例题:假定
抽样单位数增加 2 倍、0.5倍时,抽样平均误差怎样变化?
解:抽样单位数增加 2 倍,即为原来的 3 倍
即:当样本单位数增加2倍时,抽样平均误差为原来的0.577倍。抽样单位数增加 0.5倍,即为原来的 1.5倍。
即:当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165倍。
公式表明:抽样平均误差不仅与总体
变异程度、
样本容量有关,而且与
总体单位数的多少有关。
例题一:
随机抽选某校学生100人,调查他们的体重。得到他们的平均体重为58公斤,标准差为10公斤。问
抽样推断的平均误差是多少?
例题二:
某厂生产一种新型灯泡共2000只,随机抽出400只作耐用时间试验,测试结果平均使用寿命为4800小时,样本
标准差为300小时,求抽样推断的平均误差?
例题一解:
已知:n=100 x=58 σ=10
即:当根据样本学生的平均体重估计全部学生的平均体重时,抽样平均误差为1公斤。
例题二解:
已知:N=2000 n=400 σ=300 x=4800
计算结果表明:根据部分产品推断全部产品的平均使用寿命时,采用
不重复抽样比重复抽样的平均误差要小。
2.抽样成数的平均误差
重复抽样:
不重复抽样:
例题三:某校随机抽选400名学生,发现戴眼镜的学生有80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时,
抽样误差为多大?
例题四:一批食品罐头共60000桶,随机抽查300桶,发现有6桶不合格,求合格品率的抽样平均误差?
例题三解:
已知:
则:样本成数
即:根据样本资料推断全部学生中戴眼镜的学生所占的比重时,推断的平均误差为2%。
例题四解:
已知:
则:样本合格率
计算结果表明:
不重复抽样的平均误差小于重复抽样,但是“N”的数值越大,则两种方法计算的抽样平均误差就越接近。
抽样极限误差
含义:
抽样极限误差指在进行
抽样估计时,根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大
误差范围。
计算方法:它等于样本指标可允许变动的上限或下限与总体指标之差的
绝对值。
抽样误差的概率度是测量抽样估计可靠程度的一个参数。用符号“ t ”表示。公式表示:
总体参数优良估计的标准
抽样估计的
置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度(教材P191)
符号表示:P( x - X ≤Δ )
理论已经证明,在大样本的情况下,抽样
平均数的分布接近于
正态分布,分布特点是:抽样平均数以
总体平均数为中心,两边完全
对称分布,即抽样平均数的正误差与负误差的可能性是完全相等的。且抽样平均数愈接近总体平均数,出现的可能性愈大,概率愈大;反之,抽样平均数愈离开总体平均数,出现的可能性愈小,概率愈小,趋于0。
总体参数区间估计的方法
分析步骤:
1、 抽取样本,计算抽样指标。
2、根据给定的
极限误差范围估计
总体参数的
上限和下限。
3、 计算概率度
4、查表求出概率F(t),并对总体参数作出
区间估计。
(二)根据给定的概率F(t),推算
抽样极限误差的可能范围
分析步骤:
1、 抽取样本,计算样本指标。
2、 根据给定的F(t)查表求得概率度 t 。
3、根据概率度和抽样平均误差计算极限误差。
4、计算被
估计值的上、下限,对总体参数作出区间估计。
例题一:
某农场进行小麦产量抽样调查,小麦播种总面积为1万亩,采用不重复
简单随机抽样,从中抽选了100亩作为样本进行
实割实测,测得样本平均亩产400斤,方差144斤。
(1)以95.45%的可靠性推断该农场小麦平均亩产可能在多少斤之间?若概率保证程度不变,要求抽样
允许误差不超过1斤,问至少应抽多少亩作为样本?
例题一解题过程:
已知:N=10000 n=100
1、计算抽样平均误差
上下限:
即:以95.45%的可靠性估计该农场小麦平均亩产量在397.62斤至402.38斤之间.
例题二:某乡有5000农户,按
随机原则重复抽取100户调查,得平均每户年
纯收入12000元,
标准差2000元。
要求:(1)以95%的概率(t=1.96)估计全乡平均每户年纯收入的区间。
(2)以同样概率估计全乡农户年纯收入总额的区间范围。
例题二解题过程 :
例题三:从某年级学生中按
简单随机抽样方式抽取50名学生,对邓小平
理论课的
考试成绩进行检查,得知其平均分数为75.6分,样本标准差10分,试以95.45%的概率保证程度推断全年级学生考试成绩的区间范围。如果其它条件不变,将允许误差缩小一半,应抽取多少名学生?
例题三解题过程:
抽样推断是根据事先规定的要求而设计的抽样调查组织,并以所获得的这一部分实际资料为基础,进行推理演算作出结论。因此科学的抽样
调查组织,保证随机条件的实现,并取得最佳的抽样效果,首先,要保证
随机原则的实现。从理论上说,随机原则就是要保证总体每一单位都有同等的中选机会,或样本的抽选的概率是已知的。在实践上,一是要有合适的
抽样框。并必须考虑它是不是能覆盖总体的所有单位,和抽样单位与
总体单位的对应问题。二是取样的实施问题。在总体单位数很大甚至无限的情况下,在设计中要考虑将总体各单位加以分类、排队或分阶段等措施来保证总体每单位中选的机会均等。其次,要考虑
样本容量和结构问题。样本容量取决于对
抽样判断准确性、可靠性的要求,而后者又因所研究问题的性质和抽样的结果的用途不同,很难给出一个绝对的标准。样本容量的结构不同,所产生的效果也不同。
抽样设计应该善于利用评价而且有效利用由于调整样本结构而产生的效果。再次,关于抽样组织形式问题。一种科学的组织形式往往有可能以更少的样本单位数,取得更好的抽样效果。下面介绍几种常用的抽样组织形式:1.
简单随机抽样:
重复抽样条件下必要样本单位数的计算:按
随机原则直接从总体N个单位中抽取 n 个单位作为样本。2.
类型抽样:先对总体各单位按主要标志加以分组,然后再从各组中按随机的原则抽选一定单位构成样本。3.
等距抽样先按某一标志对总体各单位进行排队,然后依一定顺序和间隔来抽取样本单位的一种组织形式。4.
整群抽样将总体各单位划分成许多群,然后从其中随机抽取部分群,对中选群的所有单位进行
全面调查的抽样组织形式。