OpenAI Gym环境’CartPole-v0’和’CartPole-v1’之间的区别

我找不到关于OpenAI Gym环境’CartPole-v0’和’CartPole-v1’之间具体差别的准确描述。

这两个环境都有各自的官方网站（参见 1 和 2），尽管我在gym的GitHub仓库中只能找到一个没有版本标识的代码（参见 3）。我还通过调试器检查了加载的具体文件，但它们似乎都加载了上述相同的文件。唯一的区别似乎在于它们内部分配的max_episode_steps和reward_threshold，这些可以在下面看到。CartPole-v0的值为200/195.0，而CartPole-v1的值为500/475.0。乍一看，其余部分似乎是相同的。

import gymenv = gym.make("CartPole-v1")print(self.env.spec.max_episode_steps)print(self.env.spec.reward_threshold)

因此，如果有人能为我描述这些具体的差异，或者将我转发到一个正在做这件事的网站，我将不胜感激。非常感谢！

回答：

正如您可能已经注意到，OpenAI Gym有时会为同一个环境提供不同的版本。这些不同的版本通常共享主要的环境逻辑，但某些参数配置了不同的值。这些版本是通过称为注册表的功能进行管理的。

就CartPole环境而言，您可以在这个源代码中找到两个已注册的版本。如第50至65行所示，存在两个CartPole版本，标记为v0和v1，其区别在于参数max_episode_steps和reward_threshold：

register(    id='CartPole-v0',    entry_point='gym.envs.classic_control:CartPoleEnv',    max_episode_steps=200,    reward_threshold=195.0,)register(    id='CartPole-v1',    entry_point='gym.envs.classic_control:CartPoleEnv',    max_episode_steps=500,    reward_threshold=475.0,)

这两个参数确认了您关于CartPole-v0和CartPole-v1之间差异的猜测。

学技术

OpenAI Gym环境’CartPole-v0’和’CartPole-v1’之间的区别

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复