强化学习 – 智能体如何知道选择哪个动作?

我在尝试理解Q-Learning 基本的更新公式是: …

从已观察到的转换中确定马尔可夫决策过程

在马尔可夫决策过程中观察到了以下转换。尝试确定它 R …