Ml-agents 合作推块未返回奖励

我正在使用最新的稳定版本处理合作推块环境（https://github.com/Unity-Technologi…nvironment-Examples.md#cooperative-push-block）（为了使用Python API而导出）。问题是我没有收到奖励（无论是正的还是负的），奖励始终为0。如果我导出单人推块环境，我可以正确地收到奖励。下面是我从协作示例中使用的代码 https://github.com/Unity-Technologies/ml-agents/blob/main/docs/Python-API.md

decision_steps, terminal_steps = env.get_steps(behavior_name)if tracked_agent in decision_steps:    episode_rewards += decision_steps[tracked_agent].rewardprint('REWARD', decision_steps.reward) # 始终为0# decision_steps[tracked_agent].reward 也返回0

根据文档，我应该收到负罚分（-0.0001）或正信号 +1, +2, +3。即使他们随机推动一个块，我收到的奖励仍然是0。

文档中提到奖励是以“组奖励”的形式给出的。我不知道这是否意味着需要更改上述代码。

回答：

我在Unity ml-agents GitHub问题部分收到了以下回答：

DecisionStep 还有一个与奖励字段分开的group_reward字段。合作推块代理的组奖励应该在这里。我们为协作示例没有明确指出这一点而道歉，我会对其进行更新。

https://github.com/Unity-Technologies/ml-agents/issues/5567

学技术

Ml-agents 合作推块未返回奖励

发表回复取消回复

相关文章：

使用 LibSVM 计算与均值/标准差对最接近的匹配项

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复