我有一份网球比赛列表,包含了比赛时间、场地、场地类型、胜者/败者的排名、胜者/败者在每盘中赢得的局数等信息。我计划使用这些信息训练一个多层感知器网络(使用PyBrain),并将其映射到一个单一输出——如果第一位选手获胜则为1.0,否则为0.0。目标是预测未来的比赛(其中一些输入将是不确定的)。
每位选手由一个整数标识。共有超过100名选手。我想知道是否可以直接用这些整数来表示选手,是否应该使用小数(即除以100),或者是否应该使用二进制表示?这会重要吗?
回答:
我不是很确定选手编号的表示方式是否会产生影响。
我假设神经网络将基于时间、场地、场地类型、排名等进行训练,而非基于选手编号,因此选手ID可能会独立于算法之外。
听起来您有一个数据结构,包含了选手及其历史表现和排名,以及比赛时间表。因此,选手和时间表信息可能会作为神经网络的参数输入,但选手ID将是一个外部参数,用于控制评估过程。如果这是真的,那么具体如何实现取决于您的评估算法,而不太依赖于神经网络本身。