混淆变量_与自变量 X 和因变量 Y 都相关的变量

混淆变量

与自变量 X 和因变量 Y 都相关的变量

混淆变量是指与自变量 X 和因变量 Y 都相关的变量。该变量能使 X 和 Y 之间产生虚假的相关关系。混淆变量可以出现在贝叶斯网络、多元回归等情形中。一个变量是否为混淆变量依赖于模型对因果关系的认定。消除混淆的方法有：在实验中采用控制变量法、分组实验法，或在采集完数据后借助一定的统计模型来扣除混淆变量的影响。

认识混淆变量

混淆变量是一个基于因果关系的概念，不能完全由对统计数据的相关分析得出。相关关系是一种无向关系，而因果关系则具有方向性。例如有三个变量 X、Y、Z，如果是 Z 影响 X，Z 影响 Y，则 Z 为混淆变量。X 和 Y 之间的相关性可能部分来自于二者对 Z 的共同依赖。例如 X = 服药，Y = 康复，Z = 年龄、性别等。某些疾病的发病率和康复率都和年龄、性别有关。检验药物是否有效必须考虑到这些因素的影响，最好进行分组实验。

又例如 X 和 Z 之间并无直接因果联系，但二者都对 Y 有影响。在研究 X 对 Y 的影响时，没有控制变量 Z，则也能发生自变量混淆。例如 X = 户外活动时间，Y = 发生近视，Z = 用眼习惯、室内照明、遗传、饮食因素等。在研究户外活动时间对近视发生率的影响时，如果众多其它因素 Z 无法严格做到在 X 变化时保持恒定，则应试图保持它们的条件分布恒定，即与 X 的独立性。事实上后者也非常难做到，所以需要用多元回归等方法，按照一定的统计模型将它们的影响扣除。

但如果是 X 影响 Z，Z 影响 Y，则 Z 为 X 到 Y 的因果链上的中间变量，一般认为不是混淆变量。例如 X = 总收入，Y = 恩格尔系数，Z = 总消费。伴随着收入提高，消费升级有一定必然性，才导致相对固定的食品支出占总消费的比例（即恩格尔系数）下降。如果收入 X 提高了，却不允许消费 Z 增加，反而是不符合实际情况的模型。

贝叶斯公式

公式原理

当混淆变量 Z 离散取值时，可以用分组实验法或贝叶斯公式来消除其影响。由于混淆变量 Z 的存在，给定 X 条件下 Y 发生的条件概率不一定能反映 X 本身对 Y 造成的影响，而可能是不同 X 取值下，混淆变量 Z 的分布不同造成的。一般地有条件概率

可见 X 的取值对 Z 的无条件分布 P(Z) 具有选择性，使其变为逆概公式 P(Z|X) 的结果。为了消除这种选择性对因变量 Y 造成的影响，而计算出 X 本身的效果，我们重新定义

上式把混淆变量 Z 的分布固定为其无条件分布 P(Z)，可以看作是控制变量法的概率形式。

一个案例

下面举一个 “辛普森悖论” 的例子来比较两个条件概率 P(Y|X) 和 P(Y|do X) 的区别。设有两家医院 A、B，它们的 1000 位病人的就诊康复情况如下表：

为了简化问题，我们将 Y 和 Z 都取成了二分类变量。可以计算条件概率

看起来医院 B 的病人康复率 70% 要高于医院 A 的 66%。但重新把重症 Z = 1 和轻症 Z = 0 分开计算，将得出

不论是重症还是轻症，医院 A 的康复率都明显更高。这一现象叫做 “辛普森悖论”。虽然分组康复率都是 A 高于 B，但正因为如此，重症病人更愿意去医院 A 就诊，以寻求更高的康复率，最后把医院 A 的总康复率降到反而要低于主要医治轻症病人的医院 B。如果医院 A 和医院 B 的就诊人数之比为 2:1，且不计其它医院病人，则可以计算出重症和轻症的无条件概率

以相同的重轻症比例来计算两家医院的康复率得

上面这两个数字对于比较两家医院 X = A、B 的医疗水平和病人选择医院显然更有指导意义。而原先的条件概率不区分重症和轻症，单纯地只看总康复率，则得出了误导的结论。

多元回归

当混淆变量 Z 连续取值时，可以用多元线性回归方法，计算 Z 保持恒定时 X 和 Y 的偏相关系数。主要思路是虽然没有做到 Z 保持不变，但如果 Z 对 X 和 Y 的影响都是线性的，则可以根据模型将其扣除，生成一组等效的数据点 (X', Y')，其中 X' = X – aZ，Y' = Y – bZ。扣除系数 a 和 b 以 X' 和 Y' 都同 Z 不相关为准。

设已经对变量 X、Y、Z 的方差归一化，即 var(X) = var(Y) = var(Z) = 1。于是有

同理，扣除系数 b = rYZ。于是等效数据点 X' 和 Y' 之间的相关系数为

将上式定义为 X 和 Y 的偏相关系数 rXY|Z。如果 X、Y、Z 三个变量服从多元正态分布，则偏相关系数 rXY|Z 等于变量 Z 保持不变时，X 和 Y 的条件分布的相关系数；而原始的相关系数 rXY 则为 X 和 Y 的边缘分布的相关系数。两个分布同为二元正态分布，后者为前者对不同 Z 的可能值的混合分布。

以上只讨论了一个混淆变量 Z 的情况。如果有多个变量 Z1, Z2, ..., Zp-2 的影响需要消除，可以用矩阵形式重复上述推导，或在多元正态分布的概率密度函数中令要消去的变量为常数，从而直接读出协方差矩阵的逆矩阵 Σ-1的矩阵元来计算多元偏回归系数与偏相关系数。如果因变量 Y 离散取值，例如发生或不发生，或为其它分类变量，则可以用多元 logistic回归方法处理。

参考资料

最新修订时间：2024-12-19 15:11

条目作者

小编

资深百科编辑

概述

认识混淆变量

参考资料