强化学习与深度强化学习的区别是什么?

深度强化学习与强化学习的区别是什么?我基本了解强化学习…

时间差学习中的双重计数

我正在研究一个时间差学习的例子(https://www…

Python中用于强化学习的仿真和可视化库?

已关闭。 此问题正在寻求对软件库、教程、工具、书籍或其…

Gradient Temporal Difference Lambda without Function Approximation

在每一种GTD(λ)的形式化描述中,似乎都将其定义为基…

强化学习 – 智能体如何知道选择哪个动作?

我在尝试理解Q-Learning 基本的更新公式是: …

这是对跳棋游戏Q-Learning实现的正确方法吗?

我正在尝试理解Q-Learning, 我当前的算法运行…

如何在每次迭代后返回控制的强化学习程序中使用Tensorflow优化器而不重新计算激活值?

编辑(1/3/16): 相关GitHub问题 我正在使…

Python 神经网络强化学习

已关闭。 此问题正在寻求关于软件库、教程、工具、书籍或…

Q-learning与时间差分与基于模型的强化学习

我在大学里上了一门名为“智能机器”的课程。我们被介绍了…

交叉熵与遗传算法的区别是什么?

我的几个实验室同事一直在尝试交叉熵强化学习。从他们那里…

使用梯度下降实现SARSA

我已经成功地使用表查找方法实现了SARSA算法(包括一…

SARSA-Lambda实现中各情节之间的资格迹重置

我在研究这个SARSA-Lambda的实现(即带有资格…

关键词关联学习算法

为了描述我的问题,我将使用一个约会网站作为例子(尽管这…

如何在强化学习的函数逼近中更新权重?

我的使用梯度下降的SARSA算法导致权重呈指数级增长。…

Q-learning 没有最终状态是否可行?

我需要用 Q-learning 解决这个问题。实际上,…

最佳epsilon (ϵ-greedy)值

ϵ-greedy策略 我知道Q-learning算法应…

强化学习

我想使用这段Q-Learning(强化学习)的代码。代…

多准则优化与强化学习

我正在研究一个系统的电源管理。我希望最小化的目标是功耗…

在Q-learning中使用Boltzman探索策略处理超过两个动作的情况

我在Q-learning中使用Boltzman探索策略…

如何摆脱“粘滞”状态?

已关闭。 此问题不符合 Stack Overflow …

将连续值映射到连续值的强化学习方法

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

强化学习用于电源管理

我正在研究一个电源管理问题,我根据事件的发生来控制计算…

使用强化学习训练神经网络

我了解前馈神经网络的基础知识,以及如何使用反向传播算法…

使用neo4j进行强化学习:在图上制作两个副本与在单个图上存储所有值的两个副本

我计划运行一个机器学习算法,该算法学习节点值和边权重。…

构建实时游戏玩家模拟器的首选机器学习技术是什么?

已关闭。 此问题是不相关主题。目前不接受回答。 想要改…