我需要预测2020年澳大利亚网球公开赛的冠军。我的数据集包含以下特征:地点/赛事/日期/系列/球场/场地/轮次/获胜者/失败者等。
我仅使用这些特征训练了我的模型:’胜利’、’系列’、’球场’、’场地’、’获胜者排名’、’失败者排名’、’获胜者积分’、’失败者积分’、’获胜者盘数’、’失败者盘数’、’天气’,我的模型准确率达到了0.93,但现在我需要预测获胜者的名字,而我不知道如何基于我训练的模型来做到这一点。
例如:如果我有迪米特洛夫G.对阵西蒙G.使用随机森林模型,模型必须给我其中一个作为比赛的获胜者。
我已经将球员的名字转换成了虚拟变量,但之后我就不知道该怎么做了?
能有人给我一个如何预测获胜者的想法吗?这样我就可以创建一个赛事了,请问?
回答:
为了解决这个问题,我建议创建一个自定义的目标变量。首先,将球员的名字转换成虚拟变量似乎是合理的(只需确保唯一球员的姓名组合是相同的,从而避免重复,并确保为球员姓名分配正确的虚拟编码)。
现在,创建目标变量”wins” –
- 将比赛中的两个球员名字 – P1, P2 作为模型的输入特征。
- 定义”wins”为1,如果P1获胜;定义为0,如果P2获胜。
- 使用这种设置运行你的模型。
- 当你想要创建一个赛事并预测获胜者时,输入将是你的两个球员和其他比赛特征。如果”wins”接近1,意味着你的P1获胜,并输出该球员的名字。