强化学习 – 智能体如何知道选择哪个动作？

我在尝试理解Q-Learning

基本的更新公式是：

Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)]

我理解这个公式及其作用，但我的问题是：

智能体如何知道选择Q(st, at)？

我知道智能体遵循某个策略π，但你最初是如何创建这个策略的呢？

目前我有以下做法：

然而，这并没有真正解决问题，你仍然会陷入局部最小值/最大值。

所以，为了总结，我的主要问题是：

对于一个一无所知且使用无模型算法的智能体，你如何生成一个初始策略，让它知道该采取哪个动作？

回答：

那个更新公式逐步计算每个状态中每个动作的预期值。贪婪策略总是选择价值最高的动作。当你已经学会了这些值时，这是最佳策略。在学习过程中最常用的策略是ε-贪婪策略，它以1-ε的概率选择价值最高的动作，以ε的概率选择随机动作。

学技术