在一个虚构的纸牌游戏中,有两名玩家,每人被发5张牌(标准52张牌的牌组),之后通过某个任意函数决定赢家。目标是根据每位玩家手中的5张牌预测游戏的结果。训练数据可能看起来像这样:
Player A Player B WinnerAsKs5d3h2d JcJd8d7h6s 17h5d8s9sTh 2c3c4cAhAs 06d6s6h6cQd AsKsQsJsTs 0
其中,’Player’列表示5张牌的手牌,’Winner’列在玩家A赢时为1
,在玩家A输时为0
。
对于手牌的顺序应该保持无差异性,这样在训练后,输入镜像数据如:
Player A Player B2d3d6h7s9s TsTdJsQc3h
和
Player A Player BTsTdJsQc3h 2d3d6h7s9s
将会预测出相反的结果。
它还应该对手中牌的顺序无差异性,例如AsKsQsJsTs
与JsTsAsKsQs
相同,与JsQsTsAsKs
等相同。
有什么合理的方法来构建神经网络及其训练数据来解决这样的问题?
回答:
你需要一个有104个输入(玩家数 * 牌数)的网络。前52个输入对应玩家A,接下来的52个对应玩家B。将所有输入初始化为0,然后对于每位玩家拥有的每张牌,将相应的输入设为1。
对于输出层,通常有两种二元分类选项。你可以有一个输出神经元,如果这个神经元的输出大于某个阈值,则玩家A获胜,否则玩家B获胜。或者你可以有两个输出神经元,只需查看哪个输出最高。两种方法通常都有效。
对于训练数据,不再使用像”AsKs5d3h2d”这样的形式,而是需要一个独热编码,例如”0001000001000000100100000100000000011001000000001001″(假设有104个数字,其中10个为1,其余为0)。对于输出数据,你只需要一个1或0来对应谁赢了(在只有一个输出神经元的情况下)。
这将使你的网络对牌的顺序保持不变(给定手牌的所有可能顺序将创建相同的输入)。至于交换玩家A和B的手牌并得到相反的结果,这是任何训练良好的网络自然而然的结果。