人工智能中的随机博弈
许多不可预见的外部事件会使我们处于现实生活中不可预见的境地。许多游戏,例如掷骰子,都有随机元素来反映这种不可预测性。这些被称为随机游戏。双陆棋是一款融合了技巧和运气的经典游戏。合法的走法是由每位玩家在白棋开始时掷骰子决定的,例如,在下图所示的五子棋场景中,掷出了 6–5 并且有四个备选走法。
这是一个标准的步步高姿势。游戏的目的是尽快将所有棋子从棋盘上移走。白方顺时针向25移动,黑方逆时针向0移动。除非对手的棋子很多,否则棋子可以前进到任何位置;如果只有一个对手,则被抓住,必须重新开始。白方掷出 6–5,必须在四个有效棋步之间进行选择:(5–10,5–11)、(5–11,19–24)、(5–10,10–16) 和 (5–11) ,11-16),其中符号 (5-11,11-16) 表示将一块从位置 5 移动到 11,然后将另一块从位置 11 移动到 16。
西洋双陆棋位置的随机博弈树
白方知道他或她自己的合法步,但他或她不知道黑方将如何滚动,因此不知道黑方的合法步将是什么。这意味着白方将无法在国际象棋或井字游戏中构建正常的游戏树。在西洋双陆棋中,除了 MAX 和 MIN 节点外,博弈树还必须包含机会节点。下图将机会节点描绘为圆圈。可能的掷骰子由从每个机会节点引出的分支指示;每个分支都标有滚动及其概率。掷两个骰子有 36 种不同的方法,每一种的可能性都相同,但只有 21 种不同的掷骰方式,因为 6-5 与 5-6 相同。 P (1-1) = 1/36,因为六个双打(1-1 到 6-6)中的每一个都有 1/36 的概率。其他 15 个掷骰中的每一个都有 1/18 的机会发生。
接下来的阶段是学习如何做出正确的决定。显然,我们想选择能让我们处于最佳位置的举动。另一方面,位置没有特定的最小值和最大值。相反,我们只能计算一个位置的预期值,它是机会节点的所有潜在结果的平均值。
因此,我们可以将确定性极小极大值推广到具有机会节点的游戏的期望极小极大值。终端节点、MAX 和 MIN 节点(掷骰已知)以及 MAX 和 MIN 节点(掷骰未知)都像以前一样函数。我们计算机会节点的期望值,它是所有结果的总和,由每个机会动作的概率加权。
其中 r 是可能的掷骰子(或其他随机事件),RESULT(s,r) 表示与 s 相同的状态,但另外掷骰子的结果是 r。