Karpathy的代码使用策略梯度训练神经网络玩Pong游戏

我在研究Andrej Karpathy的“使用策略梯度从原始像素训练ATARI Pong神经网络代理”https://gist.github.com/karpathy/a4166c7fe253700972fcbc77e4ea32c5。我不是Python用户，所以我试图用Matlab编写这段代码。我有两个问题。

问题1：我注意到xs、hs、dlogps和drs被初始化为[],[],[],[]（第67行），并且在每个回合后重置为[],[],[],[]（第103行）。但是epx、eph、epdlogp和epr既未初始化也未重置。它们似乎会永远增长（第99-102行）。我理解正确吗？我对np.vstack的细微差别不太熟悉。

问题2：如果我有一个游戏，玩家可以选择向上、向下、向右和向左移动，我需要如何修改这段代码才能使其工作（除了明显的输出层增加到4个节点的修改之外）？

谢谢。

回答：

我认为你想象的numpy.vstack的细微差别并不存在。你链接的代码第99-102行将vstack函数的结果赋值给相关变量。这些变量的任何先前值都会被替换。

epx = np.vstack(xs)eph = np.vstack(hs)epdlogp = np.vstack(dlogps)epr = np.vstack(drs)

关于你问题的第二部分，我认为你需要尝试一下，如果不成功，再提出一个新问题，展示你尝试过的方法。

学技术

Karpathy的代码使用策略梯度训练神经网络玩Pong游戏

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复