使用强化学习教机器人在达到终止状态前在网格世界中收集物品

我的问题如下。我有一个简单的网格世界: https:/…