离散变量
统计学术语
变量按其数值表现是否连续,分为连续变量和离散变量。离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。如职工人数、工厂数、机器台数等。有些性质上属于连续变量的现象也按整数取值,即可以把它们当做离散变量来看待。例如年龄、评定成绩等虽属连续变量,但一般按整数计算,按离散变量来处理。离散变量的数值用计数的方法取得。
基础知识
基本介绍
为了表达上的简洁和方便,用变量表示随机事件的所有可能的结果,称为随机变量。随机变量的取值与对应的概率值之间的对应关系称为概率分布。变量就是可变的数量标志。变量值就是变量的具体表现,也就是可变数量标志的数值表现。例如,职工人数是一个变量;某工厂有工人852人,另一个工厂有工人743人,第三个工厂有工人802人,等等,这是工人这个变量的具体数值,也就是变量值。用统计符号表示,X是工人的变量,其变量值为 。必须注意变量和变量值的区别。例如,有工人30人、40人、50人、60人等四个值,要求其平均数。这时,不能说是四个“变量”的平均,因为这里只有“工人”这一个变量,并没有四个变量;所以要平均的是这个变量的四个数值,即四个变量值。
变量按其数值表现是否连续,分为连续变量和离散变量。连续变量的数值是连接不断的,相邻两值之间可作无限分割,例如,身高、体重、年龄等都是连续变量。年龄一般虽按整数计算,但如严格按出生时间起算,是可以细算到许多位小数的。连续变量的数值要用测量或计算的方法取得。离散变量的各变量值之间都是以整数断开的,如人数、工厂数、机器台数等,都只能按整数计算。离散变量的数值只能用计数的方法取得。
定义
可取值能一个个列出来的变量称为离散变量,可取值能充满一个区间的变量称为连续变量。10名患者痊愈人数 及掷币结果 是离散变量。正常人体温的测定值 是连续变量。
10名患者,服用甲药痊愈人数 ,服用乙药痊愈人数也是 ,可见,仅有随机变量的可取值无法全面反映药效,还必须考虑取每一个值的概率。
定义1: 设离散变量 。事件 的概率称X的概率函数,即
概率函数的对应值表称概率函数表。图像称概率函数图。概率函数及函数表、图。都能反映离散变量与概率的对应关系,统称离散变量的概率分布,实际问题中简称为离散总体。
复杂事件 是基本事件的并事件其概率 称为离散变量X的累积概率
定理1 若 为离散变量X的概率函数,则累积概率为概率函数之和,即
证明: 由互斥事件加法定理可证。
定理1表示,在x为横轴.p(x)为纵轴的概率函数图。累积概率 表示从 到 之间函数线的长度之和。
复杂事件 就是必然事件。从而得到。离散变量的全部函数线长度之和为1。
定义2 事件 的概率称为随机变量X的分布函数。即
由定理1可知。离散变量X的分布函数 是一种累积概率。等于 及其左边函数线长度之和。即
概率分布
离散变量的概率分布,常用的有二项分布、泊松(Poisson)分布。其余的还有两点分布、几何分布、超几何分布等概率分布。
二项分布
二项分布是基于贝努里(Bernoulli)试验的分布。贝努里试验是一种重要的概率模型。是历史上最早研究的概率论模型之一。有下面两个特点的试验称为贝努里试验。即
(1) 对立性:每次试验的结果只可能是A或;
(2) 独立重复性:每次试验的结果互不影响。且
掷币(掷正与掷反)、射击(击中与不中)、动物试验(存活与死亡)、药物疗效(有效与无效)、化验结果(阳性与阴性)等。都是在重复进行贝努里试验。
定义3 若随机变量X的概率函数为
则称X服从参数为n,p的二项分布。记为或。
泊松分布
若在大量的贝努里试验中,很小,则称这种概率模型为稀有事件概率模型。生三胞胎次数、患癌症人数、自然死亡人数、水中的大肠杆菌数、大气粉尘数、显微镜下微粒个数、放射粒子个数、大量产品中的次品数、摇奖中的一等奖等,都是稀有事件概率模型。
若随机变量X的概率函数为
则称X服从参数为的泊松分布,记为或。
实际问题中,贝努里试验在时,可认为是泊松总体,事件A出现的次数。在已知时取,在不全知时取=平均数/单元。
泊松分布的概率函数图在较小时是偏向一侧的,随着增大,概率函数图逐渐对称。
离散变量的其他分布
这里,介绍离散变量的二点分布几何分布、超几何分布。
定义4: 设离散变量X的概率函数为
则称X服从参数为的二点分布。
定义5: 设离散变量X的概率函数为
则称X服从参数为P的几何分布。
定义6: 设离散变量X的概率函数为
则称X服从超几何分布。
参考资料
最新修订时间:2023-08-19 09:13
目录
概述
基础知识
参考资料