### 使用状态-动作-状态奖励结构和状态为行、动作为列的Q矩阵的Q学习

我在R中设置了一个Q学习问题，希望能得到一些关于我解决问题方法的理论正确性的帮助。

问题结构在这个问题中，环境由10个可能的状态组成。在每个状态下，代理可以从11个潜在的动作中选择（这些动作与代理所处的状态无关）。根据代理所处的特定状态以及随后采取的动作，有一个独特的分布来过渡到下一个状态，即过渡到任何下一个状态的概率仅依赖于前一个状态以及随后采取的动作。

每个情节有9次迭代，即代理可以采取9个动作并进行9次过渡，然后开始新的情节。在每个情节中，代理将从状态1开始。

在每个情节中，代理在其9个动作之后将获得一个奖励，该奖励依赖于代理的（立即）前一个状态、（立即）前一个动作以及他们所到达的状态，即代理的奖励结构依赖于状态-动作-状态三元组（每个情节中有9个这样的三元组）。

代理的过渡概率矩阵是静态的，奖励矩阵也是如此。

我设置了两种学习算法。在第一种中，每个情节中的每次动作后都会更新Q矩阵。在第二种中，每个情节后更新Q矩阵。算法使用epsilon贪婪学习公式。

最大的问题是，在我的Q学习中，代理没有学习。随着时间的推移，它获得的奖励越来越少。我已经检查了其他可能的问题，如简单的计算错误或代码中的错误，但我认为问题在于我的Q学习问题的概念结构。

问题

我将我的Q矩阵设置为10行11列的矩阵，即所有10个状态作为行，11个动作作为列。这样做是最好的方法吗？这意味着代理正在学习一个策略，即“每当你在状态x时，执行动作y”。
鉴于我问题的这种独特结构，标准的Q更新公式是否仍然适用？即Q[cs,act]<<-Q[cs,act]+alpha*(Reward+gamma*max(Q[ns,])-Q[cs,act])，其中cs是当前状态；act是选择的动作；Reward是根据当前状态、选择的动作和将要过渡到的下一个状态给出的奖励；ns是根据最后的状态和最后的动作将要过渡到的下一个状态（注意，你是随机过渡到这个状态的）。
在R中是否有开放的AI健身房？是否有针对此类结构问题的Q学习包？

回答：

你的问题定义中存在问题。

Q(s,a) 是采取动作 a 在状态 s 中并随后遵循最优策略的预期效用。

在采取1步、2步或9步后的预期奖励是不同的。这意味着在状态 s_0 中采取动作 a_0 的奖励在第 0 步与第 9 步是不同的。

你定义的“状态”并不能保证任何奖励，是“状态+步数”的组合决定了奖励。

为了适当建模这个问题，你应该重新定义状态，将其视为“位置”+“步数”。现在你将有90个状态（10个位置*9个步数）。

学技术