零和游戏的AI适合使用什么样的适应度函数?

我正在为一个零和四人棋盘游戏开发AI。实际上这不是一个零和游戏(当玩家失去所有生命时会“死亡”,因此会有第一、第二、第三个死亡的玩家和一个幸存的玩家。然而,我告诉AI只有幸存才算赢,其它情况都算输)。经过一些研究,我决定使用极小极大算法结合启发式函数。我发现了这个问题,并决定像那个问题的提问者一样,编写一个进化算法来找到最佳权重。

然而,我的启发式函数与那个问题的提问者不同。我的函数使用9个权重,运行速度较慢,因此我不能让代理玩1000场游戏(耗时太长),也不能使用交叉方法繁殖它们(如何对9个权重进行交叉操作?)。

所以我决定自己想出一种确定适应度和繁殖的方法。这个问题仅关于适应度函数。

以下是我尝试的方法。

第一次尝试

对于随机生成的50个代理中的每个代理A,从群体中选择另外3个代理(可以重复选择但不能是A本身),让这4个代理进行一场游戏,其中A是第一玩家。再选择另外3个代理进行另一场游戏,其中A是第二玩家,依此类推。对于这4场游戏中的每一场,如果A第一个死亡,其适应度不变。如果A第二个死亡,其适应度增加1。如果第三个死亡,其适应度增加2。如果幸存,其适应度增加3。因此,我得出结论,最高的适应度可以达到12(在所有4场游戏中幸存/获胜 -> 3 + 3 + 3 + 3)。

我运行了7代,从第一代开始,最高的适应度高达10。我计算了前10个代理的平均适应度,但在这7代中,平均适应度没有丝毫增加。甚至还略有下降。

我认为这次尝试失败的原因是一些代理可能运气好,遇到了表现较差的对手。

第二次尝试

游戏设置与我的第一次尝试相同,但这次我决定不是测量每场游戏的结果,而是测量代理在死亡前进行了多少次移动。

经过7代,前10个代理的平均适应度确实有所增加,但增加的幅度不如我预期的那么大。

我认为这次尝试失败的原因是游戏是有限的,因此在死亡前可以进行的移动次数是有限的,表现最好的代理几乎达到了这个极限。没有成长的空间。另一个原因是幸存玩家的适应度与第三个死亡的玩家的适应度差异不大。

我的期望

根据我对进化算法的理解(如果有误请纠正我),平均适应度应该增加,而表现最佳个体的适应度不应随时间减少。

我的两次尝试在这两方面都失败了。由于对手是随机选择的,第一代中表现最佳的代理在下一代可能会遇到更强的对手,因此其适应度下降。

备注

在我的尝试中,代理每代玩200场游戏,每代最多需要3小时,所以我不想让它们玩太多游戏。

我该如何编写这样的适应度函数?


回答:

七代似乎不足以得到有用的结果。特别是对于游戏,我认为200代以上会更现实。你可以做一些事情:

  • 实施精英主义,以确保最佳个体(们)的存活。

  • 进化的力量源于反复的变异和交叉,因此我建议让代理每代只玩几场游戏(比如5到10场),至少在开始时如此,然后让群体进化。你甚至可能只想每代进行一场游戏。

  • 在这方面,你可以采用持续进化策略。这意味着当一个代理死亡时,他们立即接受变异,当一个代理获胜时,他们可以产生后代。或者两种情况的任意组合。关键是比赛是持续进行的,每个人都可以与其他人对抗。这在某种意义上更“有机”,因为它没有严格定义的代数,但它应该加速进程(特别是如果你能并行化评估)。

希望这对你有帮助。你引用的帖子中接受的答案对如何实现交叉有很好的建议。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注