为什么我的模型在使用train_test_split分割的测试数据上表现良好,而在新数据上却不然?

我是机器学习的新手。

我有一组连续的数据集。我试图使用几个特征来建模目标标签。我使用train_test_split函数来分离训练和测试数据。我使用下面的代码来训练和测试模型:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)model = Sequential()model.add(Dense(128, input_dim=X.shape[1], kernel_initializer = 'normal', activation='relu'))model.add(Dense(1, kernel_initializer = 'normal'))hist = model.fit(X_train.values, y_train.values, validation_data=(X_test.values,y_test.values), epochs=200, batch_size=64, verbose=1) 

当我使用X_test和y_test作为验证数据时,我可以得到不错的结果:

https://drive.google.com/open?id=0B-9aw4q1sDcgNWt5TDhBNVZjWmc

然而,当我使用这个模型来预测另一组数据(X_real, y_real)(这些数据与X_test和y_test没有太大不同,只是它们不是由train_test_split随机选择的)时,我得到了糟糕的结果:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)model = Sequential()model.add(Dense(128, input_dim=X.shape[1], kernel_initializer = 'normal', activation='relu'))model.add(Dense(1, kernel_initializer = 'normal'))hist = model.fit(X_train.values, y_train.values, validation_data=(X_real.values,y_real.values), epochs=200, batch_size=64, verbose=1) 

https://drive.google.com/open?id=0B-9aw4q1sDcgYWFZRU9EYzVKRFk

这是过拟合的问题吗?如果是,为什么我的模型在由train_test_split生成的X_test和y_test上表现良好?


回答:

看起来你的“真实数据”与你的训练和测试数据不同。你为什么一开始就有“真实”和“训练”数据呢?

我的方法是:

1: 混合你所有的数据

2: 将你的数据随机分为三组(训练、测试和验证)

3: 像你现在这样使用训练和测试数据,并优化你的分类器

4: 当它足够好时,用你的验证集来验证分类器,以确保没有发生过拟合。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注