Home IT技术神经网络在强化学习中输出界定的最佳方法

神经网络在强化学习中输出界定的最佳方法

IT技术 xiaolong · 2025年4月4日 · 0 Comment

我正在训练一个神经网络（前馈型，隐藏层使用Tanh激活函数），它接收状态作为输入，并输出动作。我遵循的是用于策略梯度强化学习的REINFORCE算法。

然而，我需要我的控制动作在一定范围内（假设是从0到5）。目前，我通过使用Sigmoid输出函数并将输出乘以5来实现这一点。尽管我的算法表现尚可，但我发现使用这种“界定方案”来处理输出存在以下缺点：

我知道对于回归（因此我猜对于强化学习也是如此）线性输出是最佳的，尽管Sigmoid函数有一部分是线性的，但我担心网络无法正确捕捉这种线性输出行为，或者捕捉得太慢（因为它的最佳表现是在分类任务上，因此会使输出极化）。

我想知道还有哪些其他替代方案，可能还有一些相关的启发式方法。

回答：

你有没有考虑过使用nn.ReLU6()？这是一个有界的修正线性单元，其输出定义为

out = min( max(x, 0), 6)

artificial-intelligence machine-learning pytorch reinforcement-learning tensorflow

发表回复取消回复