强化学习中的Actor在初始训练期间预测相同动作

我有一个带有LSTM的强化学习Actor Critic…

将高度自治的参与者视为代理是否合理?

我来自多代理系统(使用JADE在Java中开发)的学术…