我看过这个视频:https://youtu.be/v9M2Ho9I9Qo?t=49
这是关于为“围棋”创建AI的
在0:50时,他谈到将围棋的游戏状态和玩家的可能移动输入到神经网络中。
我的问题是:输入游戏状态和移动的最佳方式是什么?我知道我可以将每种可能移动后的所有游戏状态输入到神经网络中。但在视频中,他说他将移动与移动前的棋盘状态一起输入。
应该如何做呢?
回答:
我认为你需要了解基于策略的方法。在基于策略的方法中,我们试图直接学习将状态映射到动作的策略函数。(策略梯度和演员-评论家方法)