AlphaGo Zero的棋盘评估函数使用多个时间步作为输入…为什么？

根据AlphaGo备忘单，AlphaGo Zero使用连续棋盘配置序列来编码其游戏状态。

理论上，所有必要的信息都包含在最新的状态中，但他们还是包括了之前的7个配置。

他们为什么选择引入如此多的复杂性？

他们在倾听什么？

回答：

唯一的原因是，在所有游戏中——围棋、国际象棋和将棋——都存在重复规则。这意味着，仅从当前的棋盘位置无法完全观察到游戏。换句话说，可能有两个相同的局面却有两种非常不同的评估。例如，在一个围棋局面中可能有一个获胜的走法，但在另一个相同的围棋局面中，这个走法要么是非法的，要么在可能获胜的连续走法中的下几个走法会导致非法局面。

你可以尝试只输入当前的棋盘位置，并仅在树中处理重复情况。但我认为这样做会更弱，因为在某些情况下评估函数会出错，如果那部分树枝没有被深入探索以纠正问题，就会导致视界效应。

学技术

AlphaGo Zero的棋盘评估函数使用多个时间步作为输入…为什么？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复