函数逼近:瓦片编码与高度离散化的状态空间有何不同?

我正在从连续状态空间的离散化过渡到函数逼近。我的动作和状态空间(3D)都是连续的。我的问题主要受到由于混叠引起的错误的影响,并且在长时间训练后几乎没有收敛。我也无法弄清楚如何选择正确的离散化步长。

阅读Sutton & Barto的书帮助我理解了瓦片编码的强大之处,即通过多个偏移的瓦片覆盖来描述状态空间。对于一个连续的查询/状态,它由N个基函数描述,每个基函数对应于它所属的交叉瓦片的一个块/方块。

1) 与采用高度离散化的状态空间相比,性能有何不同?

2) 谁能指导我一个在Python中实现的瓦片编码的工作示例?我同时学习太多东西,感到非常困惑!(Q学习,离散化困境,瓦片编码,函数逼近以及处理问题本身)

似乎没有任何关于RL中连续问题的详尽Python编码教程。


回答:

正如Simon的评论所描述的,高度离散化的状态空间与使用瓦片编码的函数逼近器之间的关键区别在于,瓦片编码能够将从一个状态学到的值推广到其他相似的状态(即,瓦片可以重叠)。在高度离散化的状态空间的情况下,你需要访问所有状态(而且可能非常多)才能获得值函数(或Q函数)的良好表示。

关于第二个问题,在这个链接中,你可以找到由Rich Sutton及其实验室其他成员编写的瓦片编码实现(C,C++,Lisp和Python)。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注