在
博弈论中,贝叶斯博弈是指博弈参与者对于对手的类型没有掌握
完全信息的博弈。因此,贝叶斯博弈也被称为
不完全信息(incomplete information)博弈。贝叶斯博弈的主要分析方法是由美国经济学家
约翰·海萨尼提出的 Harsanyi 变换,再用
概率论的方法使博弈参与者的期望收益最大化。
在
约翰·海萨尼 (John Harsanyi) 的研究框架下,我们可以将自然 (nature) 作为一个参与者引入到贝叶斯博弈中。自然将一个
随机变量赋予每个参与者。这个随机变量决定了该参与者的类型 (type)。这个过程类似于在
纸牌游戏中,每人先抽取一张 “身份牌”,自己能看到,但别的游戏者看不到,只能根据抽牌过程中的
概率分布和每个玩家的行为来猜测别人的身份。
贝叶斯博弈可以分为静态贝叶斯博弈和动态贝叶斯博弈,单次博弈和
重复博弈等。
静态博弈要求所有
博弈者同时采取行动,而
动态博弈中的博弈者则是按照一定顺序依次采取行动。在单次静态博弈中,其他对手的身份只能通过概率分布去推测。而在动态博弈和重复博弈中,博弈者还会面临短期收益的最大化和保密身份之间的权衡取舍。
举一个
鹰鸽博弈的例子。这里假设鹰和
鸽子与另一只鸟
同时发现食物时,并不知道对方是鹰还是鸽子,可以选择与对方争夺食物或者逃走。假设鸟群中的鹰和鸽子的数目各 50%。以下三种遭遇下,双方的
收益矩阵为:
按照 Harsanyi 变换的思路,一只鹰决定自己的夺食概率 a 时会考虑下表的四种情况。若选择夺食,对方是鹰的概率为 0.5,夺食或逃走的概率为 a 和 1-a,己方期望收益为 -2a + 2(1-a) = 2-4a。对方是鸽子的概率为 0.5,不论对方夺食还是逃走,己方收益均为 2。故己方
总收益 0.5 x (2-4a) + 0.5 x 2 = 2-2a。若选择逃走,则己方收益固定为 -1(挨饿)。
同样,
一只鸽子决定自己的夺食概率 b 时也会考虑下表的四种情况。若选择夺食,对方是鹰的概率为 0.5,己方期望收益仍为 2-4a。对方是鸽子的概率为 0.5,夺食或逃走的概率为 b 和 1-b,己方期望收益为 b + 2(1-b) = 2-b。故己方总收益 0.5 x (2-4a) + 0.5 x (2-b) = 2-2a-0.5b。若选择逃走,则己方收益固定为 0。这里假设鸽子的体力消耗比鹰小,故忽略不计。
综上,我们有鹰的期望收益 πh = a(2-2a) – (1-a) = -2a2 + 3a-1,最大值在 a = 3/4 处取到,为 πh = 1/8。鸽子的期望收益 πd = b(2-2a-0.5b) = -0.5b2 + 0.5b,最大值在 b = 1/2 处取到,为 πd = 1/8。贝叶斯博弈的均衡策略是鹰的夺食概率为 a = 3/4,鸽子的夺食概率为 b = 1/2。显然这个均衡依赖双方遭遇时的收益矩阵,以及种群中的鹰鸽数目比。在二者数目比为 1:1 时,鹰和鸽子的收益 πh = πd 相等。称鹰鸽数目比 1:1 为表 1 所设支付矩阵下的鹰和鸽子的
进化稳定策略。