我是机器学习的新手。
我有一组连续的数据集。我试图使用几个特征来建模目标标签。我使用train_test_split函数来分离训练和测试数据。我使用下面的代码来训练和测试模型:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)model = Sequential()model.add(Dense(128, input_dim=X.shape[1], kernel_initializer = 'normal', activation='relu'))model.add(Dense(1, kernel_initializer = 'normal'))hist = model.fit(X_train.values, y_train.values, validation_data=(X_test.values,y_test.values), epochs=200, batch_size=64, verbose=1)
当我使用X_test和y_test作为验证数据时,我可以得到不错的结果:
https://drive.google.com/open?id=0B-9aw4q1sDcgNWt5TDhBNVZjWmc
然而,当我使用这个模型来预测另一组数据(X_real, y_real)(这些数据与X_test和y_test没有太大不同,只是它们不是由train_test_split随机选择的)时,我得到了糟糕的结果:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)model = Sequential()model.add(Dense(128, input_dim=X.shape[1], kernel_initializer = 'normal', activation='relu'))model.add(Dense(1, kernel_initializer = 'normal'))hist = model.fit(X_train.values, y_train.values, validation_data=(X_real.values,y_real.values), epochs=200, batch_size=64, verbose=1)
https://drive.google.com/open?id=0B-9aw4q1sDcgYWFZRU9EYzVKRFk
这是过拟合的问题吗?如果是,为什么我的模型在由train_test_split生成的X_test和y_test上表现良好?
回答:
看起来你的“真实数据”与你的训练和测试数据不同。你为什么一开始就有“真实”和“训练”数据呢?
我的方法是:
1: 混合你所有的数据
2: 将你的数据随机分为三组(训练、测试和验证)
3: 像你现在这样使用训练和测试数据,并优化你的分类器
4: 当它足够好时,用你的验证集来验证分类器,以确保没有发生过拟合。