Home IT技术 强化学习中的SARSA 强化学习中的SARSA IT技术 xiaolong · 2025年4月15日 · 0 Comment 我在研究无模型强化学习中的SARSA算法。具体来说,在每个状态下,你会采取一个动作a,然后观察到一个新的状态s'。 我的问题是,如果你没有状态转移概率方程P{next state | current state = s0},你如何知道下一个状态会是什么? 我的尝试:你是否只是尝试那个动作a,然后从环境中观察结果? 回答: 通常是的,你在环境中执行该动作,然后环境会告诉你下一个状态是什么。 相关文章: ### 使用状态-动作-状态奖励结构和状态为行、动作为列的Q矩阵的Q学习 PPO的梯度裁剪真的能阻止r(θ)超过1±epsilon吗? Q-learning中的收敛标准 如何将强化学习应用于连续动作空间? 使用强化学习训练神经网络 关键词关联学习算法 用于地图应用的聚类算法 强化学习的优秀实现? 线性问题和非线性问题的区别?点积和核技巧的本质 QLearning 与永不结束的回合 algorithm machine-learning reinforcement-learning