囚徒困境是博弈论的
非零和博弈中具代表性的例子,用于描述在一种博弈情境下,个体之间可能面临的合作与背叛之间的冲突,反映个人最佳选择并非团体最佳选择。换句话说,行为主体面临选择的两难境地时,往往会趋向于考虑相对利己但是不利于集体最大利益的方式。
定义
囚徒困境是博弈论的非零和博弈中具代表性的例子,用于描述在一种博弈情境下,个体之间可能面临的合作与背叛之间的冲突,反映个人最佳选择并非团体最佳选择。
这一概念最早由美国数学家梅里尔·弗勒德(Merrill Flood)和美国数学家梅尔文·德雷希尔(Melvin Dresher)于1950年提出。虽然这种困境本身只是属于模型的性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。例如市场化条件下常见的关税战和广告战等,企业家在制定经营策略时更多的是衡量自身的损失最小化,而不是寻求合作以维护集体利益。囚徒困境博弈是某些人类合作和信任理论的基础。假定囚徒困境能够模拟需要信任的两人之间的交流,群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟。这从而引起了许许多多学者经久不衰的兴趣。
理论起源:经典的囚徒困境
1950年,由就职于兰德公司的梅里尔·弗勒德和梅尔文·德雷希尔拟定出相关困境的理论,后来由顾问阿尔伯特·塔克以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。参与者使用某一策略所获取的利益,如果在任何情况下都比其他策略要低,此策略称为“严格劣势”,理性的参与者绝不会选择该策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所获刑期,总比沉默要低。试设想困境中两名理性囚徒会如何作出选择:
· 若对方沉默、我背叛会让我获释,所以会选择背叛。
· 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
因此,这导致了一个困境:即使总收益最佳化的策略是合作,但由于缺乏信任和对对方行为的不确定性,合作难以实现,结果是双方都受到伤害(两人获得的总刑期大于其他情况下两人总刑期)。
重复囚徒困境(iterated prisoner’s dilemma)由此衍生出来。在这个版本中,经典博弈会在在两名或多名囚犯之间重复进行,他们有机会根据对方过去的行为来调整自己的策略,对前一轮的不合作行为进行报复。如果参与者知道博弈的次数,那么通过逆向归纳法 (backward induction),两个典型的理性玩家就会因为和在单次博弈中相同的原因反复背叛对方。在无限次或未知次数的博弈中,背叛可能会带来短期利益、也导致未来的报复和损失,因而从长期利益来看,重复囚徒困境有助于促进参与者之间的合作。
一般形式(广泛形态)
传统囚徒困境的结构可以从其最初的囚徒环境中概括出来。整理囚徒困境的基本博弈结构,可更清楚地分析囚徒困境。
实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例:
有两个参与者和一个庄家。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后,庄家翻开两个参与者卡片,根据以下规则支付利益:
1.一人背叛、一人合作:背叛者得5分(背叛诱惑),合作者0分(受骗支付)。
2.二人都合作:各得3分(合作报酬)。
3.二人都背叛:各得1分(背叛惩罚)。
T(Temptation)=背叛诱惑,R(Reward)=合作报酬,P(Punishment)=背叛惩罚,S(Suckers)=受骗支付。用支付矩阵进行表示为:
简单博弈获得的点数可以得出一些一般化的结论。
若以个人选择得分而言,可得出以下不等式:
T>R>P>S
若以整体获分而言,将得出以下不等式:
2R>T+S或2R>2P
(都合作两人共得6分、互相背叛的共得2分及单独背叛的共得5分。显然合作获分比背叛高。合作在团体而言是支配性策略。)
而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。
现实的例子
无论是人类社会生活或大自然中都可以找到类似囚徒困境的例子,将结果划成类似的收益矩阵。经济学、政治学、社会学、心理学,以及动物行为学、进化生物学等学科,都可以用囚徒困境进行分析,模拟生物面对无止境的囚徒困境博弈。
以下提供各界的一些例子:
政治学:军备竞赛
在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。
经济学:关税战
假设两个国家,在关税上两国可以有以下选择:
1. 提高关税,以保护自己的商品。(背叛)
2. 与对方达成关税协定,降低关税以利各自商品流通。(合作)
当一国因某些因素不遵守关税协定,而独自提高关税(背叛)时,另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大)
商业:广告战
商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。
两个公司互相竞争,两个公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出品质类似的广告,收入增加很少但成本增加。但若不提高广告品质,生意又会被对方夺走。
1. 此二公司可以有二选择:
2. 互相达成协议,减少广告的开支。(合作)
增加广告开支,设法提升广告的品质,压倒对方。(背叛)
若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。
自行车赛
自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒困境的研究成果解释。
例如每年都举办的环法自行车赛中有以下情况:
选手们在到终点前的路程常以“大队伍”(法语:peloton) 方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中。而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略。
通常会发生这样的情况,大家起先都不愿意向前(共同背叛),这使得全体速度很慢,而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置,以分担风的阻力(共同合作),使得全体的速度有所提升。
而这时如果前方的其中一人试图一直保持前方位置(背叛),其他选手以及大队伍就会赶上(共同背叛)。而通常的情况是,在最前面次数最多的选手(合作)通常会到最后被落后的选手赶上(背叛),因为后面的选手骑在前面选手的冲流之中,比较不费力。
相关事件
认罪减刑
囚徒困境的结论是许多国家中认罪减刑(英文:plea bargain)被禁止的原因之一。囚徒困境带来的结论是:如果有二个嫌疑人,其中一人犯罪而另外一人是无辜的,犯罪者会为了减刑坦白一切甚至冤枉清白者(单独背叛)。最糟糕的情况是,如果他们二人都被判入狱,坦白的犯罪者刑期少,坚持无罪的冤枉者刑期反而更多。
公用品悲剧
现实的博弈参与者不只一方,会有多方参与的囚徒困境。加勒特·詹姆斯·哈丁(GarrettJamesHardin)的公用品悲剧就是一例:“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”,例如渔业,公海中的鱼是属于公共的,而在本身不滥捕其他人也滥捕的思想下,渔民会没有节制的大捞特捞,结果海洋生态破坏,渔民的生计也受影响(共同背叛的结果)。但是,多方囚徒困境的提法有待商榷,因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境,没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。
理论扩展:重复的囚徒困境
罗伯特·阿克塞尔罗德(Robert Axelrod)在其著作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”( iterated prisoner’s dilemma ,IPD)[3]。
重复的囚徒困境是囚徒困境的一种变体,其中两个参与者面临多轮重复博弈的情况。在重复的囚徒困境中,参与者的决策不仅会影响当前局势的结果,还会影响未来的局势,因为他们知道他们将来还会面对类似的情境。这种情况下,参与者可以通过选择合作来建立信任和合作关系,从而实现更好的长期结果。
重复的囚徒困境有助于解决单次囚徒困境中的合作难题。通过在多轮博弈中建立信任、合作并维护合作,参与者有机会获得更好的结果。然而,重复的囚徒困境也带来了新的挑战,如何在每一轮中平衡个人利益和集体利益,以及如何应对可能的背叛和不合作行为等问题。因此,重复的囚徒困境成为了研究合作、博弈和社会互动中重要的模型之一。
简介
在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。
最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特(Anatol Rapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。这个策略只不过是在重复博弈的开头合作,然后采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%~5%)时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。
成功条件
通过分析高分策略,阿克塞尔罗德指出了这一策略获得成功的几个必要条件。
友善
最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。
报复
阿克斯洛德主张,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。
宽恕
成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。
不嫉妒
最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(“友善”的策略必然不嫉妒,也就是说“友善”的策略永远无法得到高于对手的分数)。
因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。对一次性囚徒困境博弈来说,最佳(个人利益最大化)策略是简单地背叛;正如前面解释的,无论对手的行动可能是什么,这都是真实的。但是,在重复的囚徒困境博弈中,最佳策略依赖于可能的对手的策略,和他们怎样对背叛和合作作出反应。例如,考虑这样一个人群,那里每个人每次都背叛,除了一个人是遵循以牙还牙策略。因为第一回合的损失这个人处于一种轻微的不利地位。在这样的人群中,对这个人来说最佳策略就是每次都背叛。在一个有一定数量的总背叛者而剩下的以牙还牙者的人群中,对个人来说的最佳策略依赖于这个百分比和博弈的轮数。
得到最佳策略的两种办法
1.贝叶斯纳什均衡:如果对抗策略的统计分布能被确定(例如,50%以牙还牙,50%一直合作),就能从数学上获得最佳的相对策略。
2. 已经有了人群的蒙特卡罗模拟,在这里低分个人消失了,高分个人一再被生产出来(一种获得最佳策略的天才算法)。决赛人群中的算法合成通常依赖于初赛人群中的算法合成。
尽管以牙还牙始终被认为是最可靠的基本策略,但是在重复囚徒困境的20周年纪念赛中,来英国南安普敦大学、由尼古拉斯·詹宁斯(Nicholas Jennings)领导的小组介绍了一个新的策略,并证明了它比以牙还牙更成功。这个策略依赖于很多参与程序之间的合作,为其中某个程序中获得了最高的点数。南安普敦团队提交了60个程序,这些程序都是在一个主题上的细微变体,旨在执行一系列已知的五到十个动作,以识别彼此。一旦两个南安普敦的玩家互相识别,它们将立即假定“主从”角色——一个会牺牲自己,以便另一个能够反复获胜。如果程序识别到另一个玩家不是南安普敦的参赛者,它会立刻背叛,以作为对非南安普敦玩家的破坏者。因此,南安普敦团队拥有了前三名的优秀表现,但也有许多在排名底部的彻底失败者,他们是为了团队的利益而牺牲了自己。南安普敦策略的成功表明,在复杂的博弈环境中,传统的以牙还牙策略可能需要改进和扩展,以适应更具挑战性的合作和竞争动态。
如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛,因为你的对手将没有机会惩罚你。因此,参与者都将在最后的回合背叛。这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,对手都将背叛。依此类推。为了合作以保持请求,这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的,同时对未来的预期必须是无法确定的长度。