方差_数学术语 - 线报百科mbji.cn

方差

数学术语

方差是刻画随机变量在其中心位置附近散布程度的数学特征，反映了随机变量取值的离散程度，常用的符号有σ2，s2，Var(X)，D(X)等。

历史

方差（variance）这个名词率先由罗纳德·费希尔（Ronald Fisher）在1918年发表的论文《孟德尔遗传假定下的亲缘之间的相关性》(《The Correlation between Relatives on the Suppositionof Mendelian Inheritance》)中提出。

到了20世纪30年代，行为科学家开始采用方差分析方法，但其普及进程相对较慢。随着二战结束后科学研究的繁荣，行为和心理科学快速发展，方差分析被使用得越来越频繁。这一时期科学界对统计显著性检验的重视也进一步推动了方差分析的应用，方差分析逐渐成为行为科学家们验证实验结果有效性和确保研究科学性的关键工具之一。

定义

方差是刻画随机变量在其中心位置附近散布程度的数学特征，反映了随机变量取值的离散程度，常用的符号有，，，等。

设为服从分布的随机变量，如果是随机变量的期望(记均值)，则随机变量（或分布）的方差为：

这个定义涵盖了连续、离散，或两者皆非的随机变量。

方差的表达式可展开如下：

即，方差的这个形式在计算上往往较为方便。

方差也可以视作随机变量与自身的协方差：

方差计算方法

方差一般可由定义

直接算出。根据随机变量是离散型的还是连续型的，方差的计算公式有不同的形式。

离散型随机变量

设为离散型随机变量，且数学期望存在。

若

则称为的方差。

将上式展开后可得

连续型随机变量

设为连续型随机变量，其密度函数为，且数学期望存在，则

称为的方差。

将上式展开后可得

矩生成函数计算

在概率论和统计学中，矩生成函数（Moment Generating Function，简称MGF）是一个随机变量的一个重要特征函数，用来生成其矩。对于随机变量，假设它的矩生成函数存在，则其矩生成函数定义为：

矩生成函数可以在附近的某个区间内展开成幂级数：

该展开式中各项的系数为的矩，因此矩生成函数在处的导数可以提供随机变量的矩信息。利用矩生成函数计在处的前几阶导数，可以得到均值和二阶矩，从而计算方差。

具体步骤如下：

1.计算均值：均值可以通过矩生成函数的导数在处求得：

2.计算二阶矩：二阶矩可以通过矩生成函数的二阶导数在处求得：

3.计算方差：利用方差的定义

可以得到

意义

方差用于刻画随机变量在其中心位置附近散布程度的数学特征。当数据分布比较分散（即数据在平均数附近波动较大）时，各个数据与平均数的差的平方和较大，方差就较大；当数据分布比较集中时，各个数据与平均数的差的平方和较小。因此方差越大，数据的波动越大；方差越小，数据的波动就越小。

设随机变量有均值。试验中，取的值不会恰好为a，而会有所偏离，而偏移的量本身也是随机的。我们要找到一个量来刻画这个偏离，就不能取的均值，因为，即正负偏离彼此抵消了。一种解决办法是取的绝对值以消除符号，再取其均值，作为变量取值的散布程度的数字特征，被称为的“平均绝对差”。但是，由于绝对值在数学上处理不方便，人们就考虑了另一种做法：先把平方以消去符号，然后取其均值得到，把它作为取值散布度的衡量。这个量就叫作的“方差”，即“差的平方”。

性质

方差之所以成为刻画散布度的最重要的数字特征，原因之一是它具有一些优良的数学性质。

下面给出证明。

其中，，因此可以写成：

利用平方展开公式，我们可以得到：

根据期望的线性性质，可以将期望分开为三个部分：

当 , 相互独立时，，则。

常见分布的方差

离散型

X服从两点分布，则

X服从超几何分布，即，则

X服从二项分布，即，则

X服从泊松分布，即，则

连续型

X服从均匀分布，即，则，

X服从指数分布，即，则

X 服从正态分布，即，则

X 服从标准正态分布，即，则

求正态分布的数学期望&&方差

设，求，.

令，由于，所以，已知，，从而

样本方差

有偏样本方差

在许多实际情况下，总体的真实方差无法事先知道，必须以某种方式计算出来。在面对非常大的总体时，不可能计算总体中的每一个元素，因此必须从总体中抽取样本进行计算。

下面我们从总体中有放回抽取 n 个样本，其中 n < N ，并用该样本来估计总体的方差：

此处，表示样本均值：

由于是随机选取的，和都是随机变量，它们的期望值可以用从总体中抽取的所有可能的容量为 n 的的样本来估计。对于即为：

因此，给出的是总体方差的有偏估计量，偏差为。被称为有偏样本方差。

无偏样本方差

为了得到无偏估计，即由样本得到的统计量的期望与总体一致，我们需要将偏差校正，得到无偏样本方差，记为：

这个校正被称为贝塞尔校正。

由于的自由度为，这正好是正确的除数。一个解释如下：一共有n个样本，有n个自由度。用去估计方差，自由度本应为n。但总体均值也未知，用去估计，用掉了一个自由度，故只剩下个自由度。如果总体均值已知，则可以用去估计，这里分母为n，不需要改为n-1，因为此处n个自由度全保留下了。