在Q-learning算法中,动作的选择取决于当前状态和Q矩阵的值。我想知道这些Q值是否只在探索步骤中更新,还是在利用步骤中也会改变。
回答:
如果你阅读Q-learning算法代码,例如来自Sutton & Barto的书:
看起来很明显,Q值总是被更新的,无论选择的动作是探索性的还是利用性的。
请注意,“使用从Q派生的策略(例如,epsilon-greedy)从状态s中选择动作a”这一行表示动作有时会是探索性的。
在Q-learning算法中,动作的选择取决于当前状态和Q矩阵的值。我想知道这些Q值是否只在探索步骤中更新,还是在利用步骤中也会改变。
回答:
如果你阅读Q-learning算法代码,例如来自Sutton & Barto的书:
看起来很明显,Q值总是被更新的,无论选择的动作是探索性的还是利用性的。
请注意,“使用从Q派生的策略(例如,epsilon-greedy)从状态s中选择动作a”这一行表示动作有时会是探索性的。