我正在尝试使用强化学习算法来玩一个简单的迷你高尔夫游戏。
- 我想向游戏引擎输入角度和力量。
- 获取球的最终位置。
- 根据最终位置计算奖励。
- 重复此过程直到成功。
我认为可以通过使用贪婪方法或函数逼近来实现这一点。我想知道这是不是可行的,并且想找到一个类似的例子。
回答:
在文献中,强化学习是最接近通用人工智能的技术,所以是的,你可以将它应用到这个迷你高尔夫游戏中。
以下将是布局:
状态: 球在场上的位置(x, y, z)
动作: 角度,力量
奖励: 球与洞的距离
根据你的场地大小,这个问题应该很容易解决。
我认为可以通过使用贪婪方法或函数逼近来实现这一点。
你肯定想至少使用ε-贪婪方法来促进早期阶段的探索。
为了简化问题,我建议先考虑一个2D,或者甚至是一个1D的情况,这样你可以熟悉这个算法。
对于1D情况,你的状态将是球在线上的位置。你的动作是施加在球上的力量。奖励可以基于球与目标点的距离来计算。
如果你愿意,我可以为你编写这个环境的代码。