我正在从连续状态空间的离散化过渡到函数逼近。我的动作和状态空间(3D)都是连续的。我的问题主要受到由于混叠引起的错误的影响,并且在长时间训练后几乎没有收敛。我也无法弄清楚如何选择正确的离散化步长。
阅读Sutton & Barto的书帮助我理解了瓦片编码的强大之处,即通过多个偏移的瓦片覆盖来描述状态空间。对于一个连续的查询/状态,它由N个基函数描述,每个基函数对应于它所属的交叉瓦片的一个块/方块。
1) 与采用高度离散化的状态空间相比,性能有何不同?
2) 谁能指导我一个在Python中实现的瓦片编码的工作示例?我同时学习太多东西,感到非常困惑!(Q学习,离散化困境,瓦片编码,函数逼近以及处理问题本身)
似乎没有任何关于RL中连续问题的详尽Python编码教程。
回答:
正如Simon的评论所描述的,高度离散化的状态空间与使用瓦片编码的函数逼近器之间的关键区别在于,瓦片编码能够将从一个状态学到的值推广到其他相似的状态(即,瓦片可以重叠)。在高度离散化的状态空间的情况下,你需要访问所有状态(而且可能非常多)才能获得值函数(或Q函数)的良好表示。
关于第二个问题,在这个链接中,你可以找到由Rich Sutton及其实验室其他成员编写的瓦片编码实现(C,C++,Lisp和Python)。