如何为Q学习设置状态空间?

显然,这是一个非常明显且基础的问题,因为我找不到任何相关的教程,但如何为Q学习环境设置状态空间呢?

如果我理解正确,每个状态都需要与一个单一的值相关联,对吗?如果是这样,如果我有多个输入变量,我该怎么办?本质上;

stateSpace = ???

一旦我有了状态空间,我如何改变一个状态?假设它基于三个变量,V1、V2 和 V3。Q学习算法只接收这个状态的单一数字表示,对吗?我如何使用这些变量和状态空间返回一个代表状态的单一值?

如果这是一个明显的/基础的问题,我很抱歉,感谢您的时间。


回答:

我认为您可能对Q学习中涉及的参数有些困惑。以下是我们所拥有的:

奖励:当代理进入一个状态时给予的奖励。这可以是正数或负数,但应该是一个单一的数字。

状态:关于游戏状态的所有相关信息。

观察:一个包含代理被允许知道的游戏状态信息的张量。

Q值:采取某一行动的“质量”。

我们可以通过比较我们期望某一行动的质量(它在长期内如何改善我们的奖励)和我们实际在采取该行动后发现的质量来训练网络。

在每个时间点,我们都在更新状态,然后代理进行新的观察,提供新的输入值供其使用。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注