方差
数学术语
方差是刻画随机变量在其中心位置附近散布程度的数学特征,反映了随机变量取值的离散程度,常用的符号有σ2,s2,Var(X),D(X)等。
历史
方差(variance)这个名词率先由罗纳德·费希尔(Ronald Fisher)在1918年发表的论文《孟德尔遗传假定下的亲缘之间的相关性》(《The Correlation between Relatives on the Suppositionof Mendelian Inheritance》)中提出。
到了20世纪30年代,行为科学家开始采用方差分析方法,但其普及进程相对较慢。随着二战结束后科学研究的繁荣,行为和心理科学快速发展,方差分析被使用得越来越频繁。这一时期科学界对统计显著性检验的重视也进一步推动了方差分析的应用,方差分析逐渐成为行为科学家们验证实验结果有效性和确保研究科学性的关键工具之一。
定义
方差是刻画随机变量在其中心位置附近散布程度的数学特征,反映了随机变量取值的离散程度,常用的符号有,,,等。
设为服从分布的随机变量,如果是随机变量的期望(记均值),则随机变量(或分布)的方差 为:
这个定义涵盖了连续、离散,或两者皆非的随机变量。
方差的表达式可展开如下:
即 ,方差的这个形式在计算上往往较为方便。
方差也可以视作随机变量与自身的协方差:
方差计算方法
方差一般可由定义
直接算出。根据随机变量是离散型的还是连续型的,方差的计算公式有不同的形式。
离散型随机变量
设 为离散型随机变量,且数学期望存在。
则称为 的方差。
将上式展开后可得
连续型随机变量
设为连续型随机变量,其密度函数为,且数学期望存在,则
称为的方差。
将上式展开后可得
矩生成函数计算
在概率论和统计学中,矩生成函数(Moment Generating Function,简称MGF)是一个随机变量的一个重要特征函数,用来生成其矩。对于随机变量 ,假设它的矩生成函数存在,则其矩生成函数定义为:
矩生成函数 可以在 附近的某个区间内展开成幂级数:
该展开式中各项的系数为的矩,因此矩生成函数在 处的导数可以提供随机变量的矩信息。利用矩生成函数 计在处的前几阶导数,可以得到均值 和二阶矩 ,从而计算方差。
具体步骤如下:
1.计算均值:均值可以通过矩生成函数的导数在 处求得:
2.计算二阶矩 :二阶矩可以通过矩生成函数的二阶导数在 处求得:
3.计算方差:利用方差的定义
可以得到
意义
方差用于刻画随机变量在其中心位置附近散布程度的数学特征。当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。
设随机变量有均值 。试验中,取的值不会恰好为a,而会有所偏离,而偏移的量本身也是随机的。我们要找到一个量来刻画这个偏离,就不能取的均值,因为,即正负偏离彼此抵消了。一种解决办法是取的绝对值以消除符号,再取其均值 ,作为变量取值的散布程度的数字特征,被称为的“平均绝对差”。但是,由于绝对值在数学上处理不方便,人们就考虑了另一种做法:先把平方以消去符号,然后取其均值得到,把它作为取值散布度的衡量。这个量就叫作的“方差”,即“差的平方”。
性质
方差之所以成为刻画散布度的最重要的数字特征,原因之一是它具有一些优良的数学性质。
下面给出证明。
其中, ,因此可以写成:
利用平方展开公式,我们可以得到:
根据期望的线性性质,可以将期望分开为三个部分:
当 , 相互独立时, ,则 。
常见分布的方差
离散型
X服从两点分布,则
X服从超几何分布,即 ,则
X服从二项分布,即 ,则
X服从泊松分布,即 ,则
连续型
X服从均匀分布,即 ,则 ,
X服从指数分布,即 , 则
X 服从正态分布,即 , 则
X 服从标准正态分布,即 , 则
求正态分布的数学期望&&方差
设 ,求,.
令 ,由于 ,所以 ,已知,,从而
样本方差
有偏样本方差
在许多实际情况下,总体的真实方差无法事先知道,必须以某种方式计算出来。在面对非常大的总体时,不可能计算总体中的每一个元素,因此必须从总体中抽取样本进行计算。
下面我们从总体中有放回抽取 n 个样本 ,其中 n < N ,并用该样本来估计总体的方差:
此处,表示样本均值:
由于是随机选取的,和 都是随机变量,它们的期望值可以用从总体中抽取的所有可能的容量为 n 的 的样本来估计。对于 即为:
因此,给出的是总体方差的有偏估计量,偏差为 。 被称为有偏样本方差。
无偏样本方差
为了得到无偏估计,即由样本得到的统计量的期望与总体一致,我们需要将偏差校正,得到无偏样本方差,记为:
这个校正被称为贝塞尔校正。
由于 的自由度为 ,这正好是正确的除数。一个解释如下:一共有n个样本,有n个自由度。用 去估计方差 ,自由度本应为n。但总体均值 也未知,用 去估计,用掉了一个自由度,故只剩下 个自由度。如果总体均值 已知,则可以用 去估计 ,这里分母为n,不需要改为n-1,因为此处n个自由度全保留下了。
相关定理
切比雪夫不等式
设是一个连续随机变量,其数学期望为 ,方差为。对任意常数,我们希望找到一个界限来描述随机变量的偏差,有:
这个不等式被称为切比雪夫不等式。这条不等式给出了一个偏差发生概率的上界。
证明:我们先考虑 是一个连续随机变量,假设其密度函数为,令 。根据定义,事件的概率可以表示为:
将提取出来并使用方差的定义 ,可得:
因此,对于任意随机变量,切比雪夫不等式成立,即:
切比雪夫不等式提供了一个概率的上界,用于描述随机变量的“偏差”发生的概率,并表明当方差较小时,偏差发生的概率也会相应较小。
中心极限定理
假设我们有一组独立同分布的随机变量,每个变量的期望为,方差为。那么,定义随机变量的和为:
中心极限定理告诉我们,对于足够大的,归一化后的(即去除期望值并除以标准差)将近似服从标准正态分布。
更具体地,归一化的和可以表示为:
当时, 的分布趋向于标准正态分布,即
或者更正式地表示为,对于任意实数 和 ,有
中心极限定理表明,即使原始数据的分布不是正态分布,只要满足一定的条件(独立同分布、方差有限等),其均值在经过标准化后会趋向于正态分布。
应用
金融与投资分析
方差在金融与投资分析中用于衡量资产收益波动与金融资产的风险高低,方差越大风险越高,方差越小风险越低。例如在Markowitz的均值-方差模型(MV模型)中,通过优化投资组合的方差来最小化风险,为投资者寻找期望回报和风险的平衡点。
质量检测误差控制
质量检测的误差往往会呈现出正态分布的特性。根据正态分布的理论,大多数观测值会集中在平均值μ附近,偏离平均值的幅度随着距离增加而减少。对于一个标准的正态分布,数据在平均值上下各 2倍标准差(方差的算术平方根) 的区间内覆盖了约95.45% 的样本数据。这意味着,在这一范围内的数据可以被视为正常波动范围,而超过这个范围的波动则较为少见。
如果我们考察 3倍标准差 的区间,大约 99.73% 的观测值会落在这一范围内。换句话说,落在这个区间之外的观测值的可能性非常低,仅约为0.27%。因此,和 通常被设定为质量控制图中的警戒线,标志着数据可能已经超出正常波动的范围,需要引起重视。
心理学与教育测评
在心理学或教育学中,方差可以用来衡量测试分数的分散程度,帮助评估不同学生或受试者的表现差异。分数的方差越大,说明个体之间的差异越显著。
机器学习
在机器学习模型中,方差用来评估模型的稳定性。模型的高方差(高复杂度)意味着它可能过拟合,无法很好地泛化到新数据。因此,方差有助于优化模型参数,提升模型性能。
医学研究
在临床试验中,方差用于分析不同药物或治疗方法的效果差异。通过分析实验数据的方差,研究者可以判断各组之间的差异是否具有统计学意义,从而评估治疗的有效性。
相关概念
协方差
设X,Y为两个随机变量,记
称为的协方差,记为 ,Cov是协方差(Covariance)的缩写。
协方差具有以下一些重要性质
1.如果两个随机变量和 相互独立,则它们的协方差为零,即:
但反之不一定成立,即协方差为零不意味着和 相互独立。
2.变量自身的协方差即为该变量的方差:
3.协方差是对称的,即:
4.,当且仅当和 之间有严格线性关系时等号成立。
条件方差
条件方差 (Conditional Variance) 用来描述一个随机变量在给定另一随机变量的条件下的方差。条件方差可以衡量在知道一部分信息的情况下,剩余不确定性的大小。给定随机变量和 ,条件方差的公式为:
其中:表示 在 条件下的条件期望,即给定的情况下的期望。 表示给定的条件下关于其条件期望的平方差的期望,即条件方差。
参考资料
最新修订时间:2024-12-30 18:19
目录
概述
历史
定义
参考资料