当我想实现像Q-learning这样的强化学习算法时,在普通家用电脑上我可以处理多少个状态?1千个,1百万个,还是更多?
回答:
强烈不建议处理大量状态。原因非常简单——当内存中有大量状态时,到GPU找到该状态及其对应的动作时,游戏可能已经切换到了另一个状态。
因此,解决方案是使用比简单的Q-learning更高级的技术。请参阅深度Q-learning和其他流行的强化学习变体,如A3C。它们有助于避免这个问题。
当我想实现像Q-learning这样的强化学习算法时,在普通家用电脑上我可以处理多少个状态?1千个,1百万个,还是更多?
回答:
强烈不建议处理大量状态。原因非常简单——当内存中有大量状态时,到GPU找到该状态及其对应的动作时,游戏可能已经切换到了另一个状态。
因此,解决方案是使用比简单的Q-learning更高级的技术。请参阅深度Q-learning和其他流行的强化学习变体,如A3C。它们有助于避免这个问题。