我想核实一下我对强化学习的理解。训练一个政策然后在之后重用这个学习到的政策有多容易/困难或常见?我目前的理解是,当我们停止训练后,如果再次开始训练,就需要从头开始,即无法利用之前学到的政策。谢谢你。
回答:
这取决于你使用的是什么具体方法,但一般来说,一旦学习方法收敛,就不需要“训练”了。例如,在Q学习中,这是一种无模型的离线策略学习方法,在算法收敛之前,智能体仍然需要采取随机行动,以确保在Q(s,a)空间中的每一个相关点都被探索过。但每一步都利用了之前情节中获得的经验,因此说每次情节都是从头开始是不正确的。