Home IT技术 Q-learning中的探索与利用

Q-learning中的探索与利用

IT技术 xiaolong · 2025年4月12日 · 0 Comment

在Q-learning算法中，动作的选择取决于当前状态和Q矩阵的值。我想知道这些Q值是否只在探索步骤中更新，还是在利用步骤中也会改变。

回答：

如果你阅读Q-learning算法代码，例如来自Sutton & Barto的书：

看起来很明显，Q值总是被更新的，无论选择的动作是探索性的还是利用性的。

请注意，“使用从Q派生的策略（例如，epsilon-greedy）从状态s中选择动作a”这一行表示动作有时会是探索性的。

machine-learning q-learning reinforcement-learning

发表回复取消回复