先决条件:博弈论
在讨论博弈论中的策略时,通常会从玩家的角度提及它们。但是,当策略是从观察者的角度制定的,其主要动机是希望为每个玩家获得最佳结果时;也就是说,从社会均衡的观点出发制定战略时,结果称为帕累托最优结果。
如果一个结果不能被任何其他结果所支配的帕累托,则该结果被认为是帕累托最优的。具体来说,在选择帕累托结局时,很明显,没有任何其他结局可以证明对所有参与者都比该结局更好。除此之外,一个玩家严格选择帕累托最优结果,而不是其他任何结果。
例如,考虑将两个参与者的收益分别为(5,8)和(5,6 )的两个结果。在这里,很明显,选择任何一个结果都不会对一个玩家造成任何影响,因为他/她将以两种方式获得5的回报。但是,选择第一个结局会稍微改变一点,有利于第二个玩家,因为他/她将获得8而不是6 。因此,选择第一个结果意味着双方都将获得他们可能获得的最佳回报,这就是在这种情况下这就是帕累托最优结果的原因。
让我们考虑一些流行的两人游戏,并分析其中的帕累托最优结果:
- 协调游戏:该游戏中的场景相当于两个人从相反的方向走在人行道上。如果双方选择坚持各自的右或左,这将对双方都有利。但是,如果它们中的任何一个偏离此选择,则它们很容易发生碰撞。该游戏的收益矩阵如下:
从上面的矩阵中可以明显看出,该游戏的结果(1,1)是帕累托最优的。 - 性别之战:这可以认为是夫妻之间的一种情况。丈夫提出了参加拳击比赛的想法,而妻子出于明显的原因更喜欢购物而不是拳击。他们有不同的兴趣,但最重要的是,两个人都希望一起度过一天。这意味着妻子将与丈夫一起参加拳击比赛,最终她将得到1的回报,而丈夫则享受他的2的回报,而不是独自逛街,两人都将获得0的回报。该游戏的收益矩阵如下所示:
因此,在这种情况下,我们可以观察到(2,1)和(1,2)是帕累托最优结果。 - 配对便士游戏:两位玩家的游戏目标是不同的。两位玩家都将获得带有正面和反面两个面孔的硬币。一名玩家必须尝试使自己的一分钱与第二名玩家相匹配,而第二名玩家必须确保自己的一分钱与第一名玩家不符。因此,在几分钱匹配的情况下,玩家一获得一些正收益,而玩家二获得相等的负收益。相反,在不匹配的情况下,第二名获得正收益,而第一名获得负收益。给定的收益矩阵可以更好地说明这一点:
在此游戏中,如果玩家一个选择玩正面游戏,那么玩家2显然会以尾巴回应。再次,如果玩家2选择了尾巴,那么玩家1将会有兴趣玩尾巴以获胜,而这些选择将以循环的方式重复。因此,很明显,每个玩家的决定都直接受到对方的影响,并且没有任何玩家会选择获胜的主导策略。结果,收益矩阵中的所有结果本质上都是帕累托最优的,这在零和博弈的情况下非常普遍。 - 囚徒困境:让我们考虑两名因某种罪行而被定罪的囚犯。由于缺乏证据,囚犯仅被判处一年徒刑。现在,对两名囚犯进行了秘密交谈,如果他们背叛了另一名囚犯,他们将被释放。但是,被背叛的人现在将被判处十年有期徒刑,这是更大的负收益。另外,如果两个囚犯都背叛,那么他们两个都将被判处五年有期徒刑。
有趣的是,该游戏的结果(-1,-1),(0,-10)和(-10、0)都是帕累托最优的。结果(-5,-5)不是帕累托最优的,因为它是帕累托由结果(-1,-1)支配的。另一个有趣的发现是,(-5,-5)是游戏中唯一的非帕累托最优结果,也是每个玩家都希望发挥的主导策略,使其成为纳什均衡。这就是为什么囚犯的困境如此之难!