Ml-agents 合作推块未返回奖励

我正在使用最新的稳定版本处理合作推块环境(https://github.com/Unity-Technologi…nvironment-Examples.md#cooperative-push-block)(为了使用Python API而导出)。问题是我没有收到奖励(无论是正的还是负的),奖励始终为0。如果我导出单人推块环境,我可以正确地收到奖励。下面是我从协作示例中使用的代码 https://github.com/Unity-Technologies/ml-agents/blob/main/docs/Python-API.md

decision_steps, terminal_steps = env.get_steps(behavior_name)if tracked_agent in decision_steps:    episode_rewards += decision_steps[tracked_agent].rewardprint('REWARD', decision_steps.reward) # 始终为0# decision_steps[tracked_agent].reward 也返回0

根据文档,我应该收到负罚分(-0.0001)或正信号 +1, +2, +3。即使他们随机推动一个块,我收到的奖励仍然是0。

文档中提到奖励是以“组奖励”的形式给出的。我不知道这是否意味着需要更改上述代码。


回答:

我在Unity ml-agents GitHub问题部分收到了以下回答:

DecisionStep 还有一个与奖励字段分开的group_reward字段。合作推块代理的组奖励应该在这里。我们为协作示例没有明确指出这一点而道歉,我会对其进行更新。

https://github.com/Unity-Technologies/ml-agents/issues/5567

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注