使用神经网络进行强化学习

  • 我正在进行一个关于强化学习(RL)与神经网络(NN)的项目
  • 我需要确定将要输入到神经网络中的动作向量结构…

我有三种不同的动作(A、B和无动作),每种动作都有不同的强度(例如A100、A50、B100、B50)。我想知道将这些动作输入到神经网络中以获得最佳结果的最佳方式是什么?

1- 将A/B输入到输入1中,同时将动作强度100/50/无动作输入到输入2中

2- 将A100/A50/无动作输入到输入1中,同时将B100/B50/无动作输入到输入2中

3- 将A100/A50输入到输入1中,同时将B100/B50输入到输入2中,将无动作标志输入到输入3中

4- 还可以输入100和50,或者将它们归一化为2和1?

我需要选择一种方法的理由。


回答:

您想学习什么?输出应该是什么?输入只是使用的动作吗?如果您正在学习环境的模型,它通过概率分布表达:

P(下一状态|状态, 动作)

通常为每个动作使用一个单独的模型。这样可以简化输入和输出之间的映射。输入是状态特征的向量。输出是下一状态特征的向量。使用的动作由模型隐含表示。

状态特征可以编码为位。一个激活的位表示特征的存在。

这将学习一个确定性模型。我不知道学习下一状态的随机模型的好方法是什么。一个可能性可能是使用随机神经元。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注