使用神经网络进行强化学习

  • 我正在进行一个关于强化学习(RL)与神经网络(NN)的项目
  • 我需要确定将要输入到神经网络中的动作向量结构…

我有三种不同的动作(A、B和无动作),每种动作都有不同的强度(例如A100、A50、B100、B50)。我想知道将这些动作输入到神经网络中以获得最佳结果的最佳方式是什么?

1- 将A/B输入到输入1中,同时将动作强度100/50/无动作输入到输入2中

2- 将A100/A50/无动作输入到输入1中,同时将B100/B50/无动作输入到输入2中

3- 将A100/A50输入到输入1中,同时将B100/B50输入到输入2中,将无动作标志输入到输入3中

4- 还可以输入100和50,或者将它们归一化为2和1?

我需要选择一种方法的理由。


回答:

您想学习什么?输出应该是什么?输入只是使用的动作吗?如果您正在学习环境的模型,它通过概率分布表达:

P(下一状态|状态, 动作)

通常为每个动作使用一个单独的模型。这样可以简化输入和输出之间的映射。输入是状态特征的向量。输出是下一状态特征的向量。使用的动作由模型隐含表示。

状态特征可以编码为位。一个激活的位表示特征的存在。

这将学习一个确定性模型。我不知道学习下一状态的随机模型的好方法是什么。一个可能性可能是使用随机神经元。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注