前置要求: 01-Search

Adversarial Search

Game Type:

目的是找到一个policy(strategy), 能够给定任意的state $S$ , 找到一个行为action $A$

Search

对抗: 红色状态是敌人的agent, 要让红色状态的state value越小越好, 蓝色状态的state value越大越好

是类似穷举的DFS

时间复杂度: $O (b^{m})$

空间复杂度: $O (bm)$

$b$ 是state, $m$ 是步数

在有限深度下搜索

Evaluation Function: 对非终止节点的state value的估计, 根据不同的特征进行判断

理想方程: 真实的minmax search的state value

对树进行采样, 控制采样的深度和次数, 对采样的结果进行统计, 可以得出原始的树的state value和distribution

第一步找到了3, 第二步中, 找到了一个2, 那么第二步的min的state value一定是一个小于2的值, 那么可以直接舍去这一个选择(要选择max的state value)

假设现在对节点n计算state value
展开n的节点的子节点. 因为是取最小, 那么展开n的子节点的过程中, n的state value一定是递减的
假设a是MIN层中最大的节点
n的state value一旦小于a的state value, 那么在向上传递的过程中, 在与a同层的位置一定会选择更大的a而不是n的state value
所以可以直接舍去n节点的后续计算

Implementation: