我有一个小问题,可能有点傻,是关于蒙特卡洛树搜索的。我基本理解了这个算法,但在查看一些实现时发现,当MCTS针对某个状态运行并返回最佳移动后,树会被丢弃。因此,对于下一个移动,我们必须从头开始在新状态上运行MCTS以获得下一个最佳位置。
我只是在想,为什么我们不保留旧树中的一些信息。旧树中似乎包含了关于状态的有价值信息,特别是考虑到最佳移动是MCTS探索最多的那个。有什么特别的原因我们不能以某种有用的方式使用这些旧信息吗?
回答:
确实,有些实现会保留这些信息。
例如,AlphaGo Zero论文中提到:
搜索树在后续时间步中被重用:对应于已执行动作的子节点成为新的根节点;这个子节点下方的子树连同其所有统计数据被保留,而树的其余部分被丢弃