精炼贝叶斯均衡 为博弈论相关的概念。不完全信息动态博弈的均衡称之为精炼贝叶斯均衡。有些书上或论文中也写成精炼
贝叶斯纳什均衡。
基本解释
这个概念是完全信息动态博弈的子博弈精炼纳什均衡与不完全信息静态均衡的贝叶斯(纳什)均衡的结合。具体来说,精炼贝叶斯均衡是所有参与人战略和信念的一种结合。它满足如下条件:第一,在给定每个参与人有关其他参与人类型的信念的条件下,该参与人的战略选择是最优的。第二,每个参与人关于其他参与人所属类型的信念,都是使用贝叶斯法则从所观察到的行为中获得的。
运用子博弈精炼均衡概念的逻辑,将从每一个信息集开始的博弈的剩余部分称为一个“后续博弈”(不同于子博弈,因为子博弈必须开始于单结信息集,并且不能切割信息集),
一个“合理”的均衡要求,给定每一个参与人有关其他参与人类型的后验信念,参与人的战略组合在每一个后续博弈上构成贝叶斯均衡。
假定参与人(在所有可能的情况下)根据贝叶斯法则修正先验信念,并且,每个参与人都假定其他参与人选择的是均衡战略。
假定i属于类型q的先验概率是p(q)30,并且SKp(q)=1;给定i属于q,i选择a的条件概率为p(a|q),并且SHp(a|q)=1。那么,i选择a的边缘概率(全概率)是
Prob(a)=SKp(a|q)p(q)
即参与人i选择行动a的总概率是每一种类型的i选择a的条件概率p(a|q)的加权平均,权数是他属于每种类型的先验概率p(q)。
问题是:假如我们观测到i选择了a,i属于类型q的后验概率是多少?
我们用Prob(q|a)代表这个后验概率,即给定a的情况下,i属于类型q的概率。根据条件概率或乘积概率公式,
Prob(q,a)º p(a|q)p(q)
º Prob(q|a)Prob(a)
也就是说,i属于q并选择a的联合概率,等于i属于q的先验概率乘以q类型的参与人选择a的概率,或等于i选择a的总概率乘以给定a情况下i属于q的后验概率。
因此,Prob(q|a)º p(a|q)p(q)/Prob(a)
º p(a|q)p(q)/ SKp(a|q)p(q)
这就是贝叶斯法则。精炼贝叶斯均衡假定参与人是根据贝叶斯法则修正先验概率的。
贝叶斯法则要求Prob(a) >0即参与人i必须以正的概率选择a,否则,后验概率没有定义。
如果Prob(a)=0,我们允许Prob(q|a)在[0,1]区间取任何值,只要所取的值与均衡战略相容,即均衡仍然成立。
在动态博弈中,Prob(a)=0对应的是非均衡路径上的信息集。
后验概率Prob(q|a)不仅依赖于先验概率p(q),而且依赖于参与人“认为”i是类型q并选择行动a的条件概率p(a|q)。
在精炼贝叶斯均衡中,参与人“认为”的条件概率必须是正确的。
假定有n个参与人,参与人i的类型是qiÎQi,qi是私人信息,pi(q-i|qi)是属于类型qi的参与人i认为其他n-1个参与人属于类型q-i = (qi, …, qi-1, qi+1, …, qn)的先验概率;
令Si是i的战略空间,siÎSi是依赖于类型qi的一个特定战略;a-i=(a1,…, ai-1, ai+1, …, an)是在第h个信息集上参与人i观测到的其他n-1个参与人的行动组合,它是战略组合s*-i=(s*1, …, s*i-1, s*i+1,…, s*i)的一部分(s*-i规定的行动);
pi(q-i|a-i)是在观测到a-i的情况下参与人i认为其他n-1个参与人属于类型q-i的后验概率,pi是所有后验概率的集合(即pi包括了参与人i在每一个信息集h上的后验概率);
ui(si,s-i, qi)是i的效用函数。
那么,精炼贝叶斯均衡可以定义如下:
精炼贝叶斯均衡是一个战略组合,s*(q)= (s*1(q1),…,s*n(qn))和一个后验概率组合p=(p1,…,pn),满足:
(P) 对于所有的参与人i,在每一个信息集h,
s*i(qi)Î argmax Spi(q-i|a-i)ui(si, s*-i,qi)
si q-i
(B) pi(q-i|a-i)是使用贝叶斯法则从先验概率pi(q-i|qi)、观测到的a-i和最优战略s*-i(·)得到的(在可能的情况下)。
(P)是精炼条件,意为,给定其他参与人的战略s*-i=(s*1, …, s*i-1, s*i+1,…, s*n)和参与人i的后验概率pi(q-i|a-i),每个参与人i的战略在所有从信息集h开始的后续博弈上都是最优的,或者说,所有参与人都是序贯理性的。
这个条件是子博弈精炼均衡在不完全信息动态博弈上的扩展。在完全信息动态博弈中,
子博弈精炼纳什均衡要求均衡战略在每一个子博弈上构成纳什均衡;类似地,在不完全信息动态博弈中,精炼贝叶斯均衡要求均衡战略在每一个“后续博弈”上构成贝叶斯均衡。
(B)对应的是贝叶斯法则的运用。如果参与人是多次行动的,修正概率涉及贝叶斯法则的重复运用。因为战略是一个行动规则,它本身是不可观测的,参与人i只能根据观测到的行动组合a-i修正概率,但他假定所观测到的行动是最优战略s*-i规定的行动。
限制条件“在可能的情况下”来自这样的事实,如果a-i不是均衡战略下的行动,观测到的a-i是一个零概率事件,此时,贝叶斯法则对后验概率没有定义,任何的后验概率pi(q-i|a-i)Î[0,1]都是允许的,只要它与均衡战略相容
精炼贝叶斯均衡是均衡战略和均衡信念的结合,给定信念p=(p1,…,pn),战略组合s*=(s*1,…, s*n)是最优的;给定战略s*=(s*1,…, s*n),信念p=(p1,…,pn)是使用贝叶斯法则从均衡战略和所观测到的行动得到的。
在精炼贝叶斯均衡中,后验概率依赖于均衡战略,均衡战略依赖于后验概率,如果我们不知道先行动者如何选择,我们就不可能知道后行动者应该如何选择,必须使用前向法进行贝叶斯修正。
案例分析
一个典型的案例就是成语“黔驴技穷”。
黔地的老虎从来没有见过驴子,不知道驴子到底有多大本领。老虎采取的方法是不断不断接近驴子进行试探。通过试探,修正自己对驴子的看法,从而根据试探的结果选择自己的策略。一开始,老虎见驴子没什么反映,它认为驴子本领不大;接下来老虎看见驴子大叫,又认为驴子的本领很大;然而,进一步试探的结果,老虎却发现驴子的最大本领只是踢踢而已;最后,通过不断试探,老虎得到关于驴子的准确信息,确认驴子没有什么本领,就选择了冲上去把驴子吃掉的策略。这显然是老虎的最优策略。