帕累托最优及其在博弈论中的应用

先决条件：博弈论

在讨论博弈论中的策略时，通常会从玩家的角度提及它们。然而，当策略是从观察者的角度形成的，其主要动机是希望每个玩家都获得最好的结果；也就是说，当从社会平衡的角度形成策略时，结果被称为帕累托最优结果。

如果一个结果不能被任何其他结果所支配，则称该结果是帕累托最优的。具体来说，选择帕累托结果，很明显，没有其他结果可以证明对所有参与者来说都比这个结果更好。除此之外，一个玩家严格选择帕累托最优结果而不是任何其他结果。

例如，考虑两个结果，两个参与者的收益分别为(5, 8)和(5, 6) 。在这里，很明显，选择任何一种结果对玩家来说没有任何区别，因为无论哪种方式，他/她都会获得 5 的回报。然而，选择第一个结果会稍微改变一点，有利于玩家二，因为他/她会收到8而不是6 。因此，选择第一个结果意味着两个参与者都能得到他们所能得到的最好的回报，这就是为什么在这种情况下这是帕累托最优结果。

让我们考虑几个流行的两人游戏，并分析每个游戏的帕累托最优结果：

协调游戏：这个游戏的场景相当于两个人从相反方向走在人行道上。如果双方都选择坚持各自的右翼或左翼，那将证明对双方都有利。但是，如果它们中的任何一个偏离了这个选择，它们就容易发生碰撞。该博弈的收益矩阵如下：

从上面的矩阵中，很明显结果(1, 1)是该游戏的帕累托最优。
性别之战：这可以被认为是丈夫和妻子之间的一种情况。丈夫提出去看拳击比赛的想法，妻子出于显而易见的原因更喜欢购物而不是拳击。他们有不同的兴趣，但最重要的是，他们都想一起度过这一天。这意味着妻子会和她的丈夫一起去参加拳击比赛，在那里她最终会得到一个回报，而丈夫则享受着他的两个回报，而不是一个人去购物，两个人都只会得到零回报。这个游戏的收益矩阵看起来像这样：

因此，我们可以观察到(2, 1)和(1, 2)是这种情况下的帕累托最优结果。
匹配便士游戏：两个玩家的游戏目标不同。两名玩家都获得了两个面，一个头和一个尾的硬币。玩家一必须尝试将他的一分钱与玩家二的一分钱相匹配，玩家二必须确保他/她的一分钱与玩家一不匹配。因此，在硬币匹配的情况下，玩家一获得一些正收益，玩家二获得相同的负收益。相反，在不匹配的玩家中，两名玩家获得正收益，一名玩家获得负收益。给定的收益矩阵更好地证明了这一点：

在这个游戏中，如果玩家一选择玩正面，玩家二显然会以反面回应。同样，如果玩家二选择尾巴，玩家一将有兴趣玩尾巴以赢得胜利，并且这些选择会以循环方式重复。因此，很明显，每个玩家的决定都直接受到另一个玩家的影响，并且没有任何玩家会选择获胜的优势策略。因此，收益矩阵中的所有结果本质上都是帕累托最优的，这在零和游戏中很常见。
囚徒困境：让我们考虑两个因某项罪行而被定罪的囚徒。由于证据不足，这些囚犯只被判处一年徒刑。现在这两个囚犯都被保密地谈话，如果他们背叛了对方，他们就会被释放。然而，被背叛的人现在会被判十年监禁，这是一个更大的负面回报。另外，如果两个犯人都背叛了对方，那么两人都会被判处五年有期徒刑。

非常有趣的是，结果 (-1, -1)、(0, -10) 和 (-10, 0) 都是该游戏的帕累托最优。结果 (-5, -5) 不是帕累托最优，因为它是由结果 (-1, -1) 主导的帕累托。另一个有趣的观察是， (-5, -5) 是博弈中唯一的非帕累托最优结果，也是每个玩家都希望采用的优势策略，使其成为纳什均衡。这就是为什么囚徒困境是这样的困境！

如果您希望与专家一起参加现场课程，请参阅DSA 现场工作专业课程和学生竞争性编程现场课程。