为什么我的模型在使用train_test_split分割的测试数据上表现良好,而在新数据上却不然?

我是机器学习的新手。

我有一组连续的数据集。我试图使用几个特征来建模目标标签。我使用train_test_split函数来分离训练和测试数据。我使用下面的代码来训练和测试模型:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)model = Sequential()model.add(Dense(128, input_dim=X.shape[1], kernel_initializer = 'normal', activation='relu'))model.add(Dense(1, kernel_initializer = 'normal'))hist = model.fit(X_train.values, y_train.values, validation_data=(X_test.values,y_test.values), epochs=200, batch_size=64, verbose=1) 

当我使用X_test和y_test作为验证数据时,我可以得到不错的结果:

https://drive.google.com/open?id=0B-9aw4q1sDcgNWt5TDhBNVZjWmc

然而,当我使用这个模型来预测另一组数据(X_real, y_real)(这些数据与X_test和y_test没有太大不同,只是它们不是由train_test_split随机选择的)时,我得到了糟糕的结果:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)model = Sequential()model.add(Dense(128, input_dim=X.shape[1], kernel_initializer = 'normal', activation='relu'))model.add(Dense(1, kernel_initializer = 'normal'))hist = model.fit(X_train.values, y_train.values, validation_data=(X_real.values,y_real.values), epochs=200, batch_size=64, verbose=1) 

https://drive.google.com/open?id=0B-9aw4q1sDcgYWFZRU9EYzVKRFk

这是过拟合的问题吗?如果是,为什么我的模型在由train_test_split生成的X_test和y_test上表现良好?


回答:

看起来你的“真实数据”与你的训练和测试数据不同。你为什么一开始就有“真实”和“训练”数据呢?

我的方法是:

1: 混合你所有的数据

2: 将你的数据随机分为三组(训练、测试和验证)

3: 像你现在这样使用训练和测试数据,并优化你的分类器

4: 当它足够好时,用你的验证集来验证分类器,以确保没有发生过拟合。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注