ϵ-greedy策略

我知道Q-learning算法应该在探索和利用之间取得平衡。由于我是这个领域的新手，我想实现一个简单的探索/利用行为版本。

最佳epsilon值

我的实现使用了ϵ-greedy策略，但在决定epsilon值时我感到困惑。epsilon值应该以算法访问某个（状态，动作）对的次数为界，还是应该以执行的迭代次数为界？

我的建议：

每次遇到某个（状态，动作）对时降低epsilon值。
完成一次完整的迭代后降低epsilon值。
每次遇到状态s时降低epsilon值。

非常感谢！

回答：

虽然在许多简单情况下，εk被保持为0到1之间的固定数值，但你应该知道：通常，探索会随着时间的推移而减少，因此使用的策略最终会变成贪婪的，从而（当Qk → Q∗时）达到最优。这可以通过使εk随着k的增长而趋近于0来实现。例如，形式为εk = 1/k的ε-greedy探索计划在k → ∞时会减少到0，同时仍然满足Q-learning的第二个收敛条件，即允许对所有状态-动作对进行无限次访问（Singh等人，2000年）。

我通常的做法是：将初始alpha设置为1/k（考虑初始k为1或2），随着试验的进行，k增加，alpha会减少。这也保证了收敛性。

学技术

最佳epsilon (ϵ-greedy)值

ϵ-greedy策略

发表回复取消回复

ϵ-greedy策略

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复