混淆变量是指与自变量 X 和因变量 Y 都相关的变量。该变量能使 X 和 Y 之间产生虚假的
相关关系。混淆变量可以出现在
贝叶斯网络、
多元回归等情形中。一个变量是否为混淆变量依赖于模型对
因果关系的认定。消除混淆的方法有:在实验中采用
控制变量法、分组实验法,或在采集完数据后借助一定的
统计模型来扣除混淆变量的影响。
认识混淆变量
混淆变量是一个基于
因果关系的概念,不能完全由对统计数据的
相关分析得出。相关关系是一种无向关系,而因果关系则具有方向性。例如有三个变量 X、Y、Z,如果是 Z 影响 X,Z 影响 Y,则 Z 为混淆变量。X 和 Y 之间的相关性可能部分来自于二者对 Z 的共同依赖。例如 X = 服药,Y = 康复,Z = 年龄、性别等。某些疾病的发病率和康复率都和年龄、性别有关。检验药物是否有效必须考虑到这些因素的影响,最好进行分组实验。
又例如 X 和 Z 之间并无直接因果联系,但二者都对 Y 有影响。在研究 X 对 Y 的影响时,没有控制变量 Z,则也能发生
自变量混淆。例如 X = 户外活动时间,Y = 发生近视,Z = 用眼习惯、室内照明、遗传、饮食因素等。在研究户外活动时间对近视发生率的影响时,如果众多其它因素 Z 无法严格做到在 X 变化时保持恒定,则应试图保持它们的条件分布恒定,即与 X 的
独立性。事实上后者也非常难做到,所以需要用
多元回归等方法,按照一定的统计模型将它们的影响扣除。
但如果是 X 影响 Z,Z 影响 Y,则 Z 为 X 到 Y 的因果链上的中间变量,一般认为不是混淆变量。例如 X = 总收入,Y = 恩格尔系数,Z = 总消费。伴随着收入提高,消费升级有一定必然性,才导致相对固定的食品支出占总消费的比例(即
恩格尔系数)下降。如果收入 X 提高了,却不允许消费 Z 增加,反而是不符合实际情况的模型。
贝叶斯公式
公式原理
当混淆变量 Z 离散取值时,可以用分组实验法或
贝叶斯公式来消除其影响。由于混淆变量 Z 的存在,给定 X 条件下 Y 发生的
条件概率不一定能反映 X 本身对 Y 造成的影响,而可能是不同 X 取值下,混淆变量 Z 的分布不同造成的。一般地有条件概率
可见 X 的取值对 Z 的无条件分布 P(Z) 具有选择性,使其变为逆概公式 P(Z|X) 的结果。为了消除这种选择性对因变量 Y 造成的影响,而计算出 X 本身的效果,我们重新定义
上式把混淆变量 Z 的分布固定为其无条件分布 P(Z),可以看作是
控制变量法的概率形式。
一个案例
下面举一个 “
辛普森悖论” 的例子来比较两个条件概率 P(Y|X) 和 P(Y|do X) 的区别。设有两家医院 A、B,它们的 1000 位病人的就诊康复情况如下表:
为了简化问题,我们将 Y 和 Z 都取成了二分类变量。可以计算条件概率
看起来医院 B 的病人康复率 70% 要高于医院 A 的 66%。但重新把重症 Z = 1 和轻症 Z = 0 分开计算,将得出
不论是重症还是轻症,医院 A 的康复率都明显更高。这一现象叫做 “
辛普森悖论”。虽然分组康复率都是 A 高于 B,但正因为如此,重症病人更愿意去医院 A 就诊,以寻求更高的康复率,最后把医院 A 的总康复率降到反而要低于主要医治轻症病人的医院 B。如果医院 A 和医院 B 的就诊人数之比为 2:1,且不计其它医院病人,则可以计算出重症和轻症的无条件概率
以相同的重轻症比例来计算两家医院的康复率得
上面这两个数字对于比较两家医院 X = A、B 的医疗水平和病人选择医院显然更有指导意义。而原先的条件概率不区分重症和轻症,单纯地只看总康复率,则得出了误导的结论。
多元回归
当混淆变量 Z 连续取值时,可以用
多元线性回归方法,计算 Z 保持恒定时 X 和 Y 的
偏相关系数。主要思路是虽然没有做到 Z 保持不变,但如果 Z 对 X 和 Y 的影响都是线性的,则可以根据模型将其扣除,生成一组等效的数据点 (X', Y'),其中 X' = X – aZ,Y' = Y – bZ。扣除系数 a 和 b 以 X' 和 Y' 都同 Z 不相关为准。
设已经对变量 X、Y、Z 的
方差归一化,即 var(X) = var(Y) = var(Z) = 1。于是有
同理,扣除系数 b = rYZ。于是等效数据点 X' 和 Y' 之间的
相关系数为
将上式定义为 X 和 Y 的
偏相关系数 rXY|Z。如果 X、Y、Z 三个变量服从
多元正态分布,则偏相关系数 rXY|Z 等于变量 Z 保持不变时,X 和 Y 的
条件分布的相关系数;而原始的相关系数 rXY 则为 X 和 Y 的
边缘分布的相关系数。两个分布同为二元正态分布,后者为前者对不同 Z 的可能值的混合分布。
以上只讨论了一个混淆变量 Z 的情况。如果有多个变量 Z1, Z2, ..., Zp-2 的影响需要消除,可以用矩阵形式重复上述推导,或在
多元正态分布的
概率密度函数中令要消去的变量为常数,从而直接读出
协方差矩阵的逆矩阵 Σ-1的矩阵元来计算多元
偏回归系数与
偏相关系数。如果因变量 Y 离散取值,例如发生或不发生,或为其它分类变量,则可以用多元
logistic回归方法处理。