为什么我的模型在使用train_test_split分割的测试数据上表现良好，而在新数据上却不然？

我是机器学习的新手。

我有一组连续的数据集。我试图使用几个特征来建模目标标签。我使用train_test_split函数来分离训练和测试数据。我使用下面的代码来训练和测试模型：

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)model = Sequential()model.add(Dense(128, input_dim=X.shape[1], kernel_initializer = 'normal', activation='relu'))model.add(Dense(1, kernel_initializer = 'normal'))hist = model.fit(X_train.values, y_train.values, validation_data=(X_test.values,y_test.values), epochs=200, batch_size=64, verbose=1)

当我使用X_test和y_test作为验证数据时，我可以得到不错的结果：

https://drive.google.com/open?id=0B-9aw4q1sDcgNWt5TDhBNVZjWmc

然而，当我使用这个模型来预测另一组数据（X_real, y_real）（这些数据与X_test和y_test没有太大不同，只是它们不是由train_test_split随机选择的）时，我得到了糟糕的结果：

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)model = Sequential()model.add(Dense(128, input_dim=X.shape[1], kernel_initializer = 'normal', activation='relu'))model.add(Dense(1, kernel_initializer = 'normal'))hist = model.fit(X_train.values, y_train.values, validation_data=(X_real.values,y_real.values), epochs=200, batch_size=64, verbose=1)

https://drive.google.com/open?id=0B-9aw4q1sDcgYWFZRU9EYzVKRFk

这是过拟合的问题吗？如果是，为什么我的模型在由train_test_split生成的X_test和y_test上表现良好？

回答：

看起来你的“真实数据”与你的训练和测试数据不同。你为什么一开始就有“真实”和“训练”数据呢？

我的方法是：

1: 混合你所有的数据

2: 将你的数据随机分为三组（训练、测试和验证）

3: 像你现在这样使用训练和测试数据，并优化你的分类器

4: 当它足够好时，用你的验证集来验证分类器，以确保没有发生过拟合。

学技术

为什么我的模型在使用train_test_split分割的测试数据上表现良好，而在新数据上却不然？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复