- 我正在进行一个关于强化学习(RL)与神经网络(NN)的项目
- 我需要确定将要输入到神经网络中的动作向量结构…
我有三种不同的动作(A、B和无动作),每种动作都有不同的强度(例如A100、A50、B100、B50)。我想知道将这些动作输入到神经网络中以获得最佳结果的最佳方式是什么?
1- 将A/B输入到输入1中,同时将动作强度100/50/无动作输入到输入2中
2- 将A100/A50/无动作输入到输入1中,同时将B100/B50/无动作输入到输入2中
3- 将A100/A50输入到输入1中,同时将B100/B50输入到输入2中,将无动作标志输入到输入3中
4- 还可以输入100和50,或者将它们归一化为2和1?
我需要选择一种方法的理由。
回答:
您想学习什么?输出应该是什么?输入只是使用的动作吗?如果您正在学习环境的模型,它通过概率分布表达:
P(下一状态|状态, 动作)
通常为每个动作使用一个单独的模型。这样可以简化输入和输出之间的映射。输入是状态特征的向量。输出是下一状态特征的向量。使用的动作由模型隐含表示。
状态特征可以编码为位。一个激活的位表示特征的存在。
这将学习一个确定性模型。我不知道学习下一状态的随机模型的好方法是什么。一个可能性可能是使用随机神经元。