我正在学习机器学习,我的数据集包含7列:
home_team, away_team, home_odds, away_odds, home_score, away_score, 1_if_home_wins_else_0
为了能够将团队数据输入Tensorflow,我将每个团队转换为整数,因此前两列是整数(类似于数据库ID)。
CSV文件中有10000行数据。
示例
我修改了pima indians diabetes的代码来预测主队的获胜情况。
因此,现在它“预测”主队是否获胜(1),否则为0。
现在我想修改算法来预测具体的得分home_score
和away_score
。我知道输出会不准确,这只是学习过程的一部分。
代码
# 加载数据集dataset = loadtxt('football_data.csv', delimiter=',')# 分割成输入(X)和输出(y)变量X = dataset[:, 0:4]y = dataset[:, 6]# 定义Keras模型model = Sequential()model.add(Dense(12, input_dim=4, activation='relu'))model.add(Dense(8, activation='relu'))model.add(Dense(1, activation='sigmoid'))# 编译Keras模型model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])# 用数据集拟合Keras模型model.fit(X, y, epochs=150, batch_size=10)# 评估Keras模型_, accuracy = model.evaluate(X, y)print('准确率: %.2f' % (accuracy * 100))# 使用模型进行类别预测predictions = model.predict_classes(X)# 总结前5个案例for i in range(50): print('%s => %d (预期 %d)' % (X[i].tolist(), predictions[i], y[i]))
你知道如何做到这一点吗?
回答:
由于你现在想要预测得分,即一个连续的量(虽然是整数),这不再是一个分类问题,而是一个回归问题。
为此,你需要对现有模型进行两个更改;首先是修改最终层为
model.add(Dense(2)) # 最终层
即2个节点(与所需输出数量相同),没有激活函数(这意味着默认的linear
,即我们用于回归的激活函数)。
第二个修改应该是损失函数:
model.compile(loss='mean_squared_error', optimizer='adam')
当然,你还需要相应地修改y
数据,使每个y
包含2个元素,并使用model.predict
代替model.predict_classes
(因为现在你没有类别)。
你所要求的本质上是一个多输出回归;另见最近的讨论:如何训练一个单输入多输出的回归模型? – 实际上,使用函数式Keras API可能更好,如该讨论中所示,并且在评论中已有建议。