我为假新闻检测创建了一个Keras神经网络模型,验证准确率达到了89.1%。我使用了50,000个样本进行训练,10,000个样本用于测试,2000个样本用于验证。我已经保存了那个模型。现在我想加载那个模型,并加载新的数据,以便基于这些数据进行预测。
import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScaler, RobustScaler, Normalizer, MinMaxScalerfrom sklearn.feature_selection import RFEfrom sklearn.metrics import accuracy_scorefrom tensorflow.python.keras.models import Sequential, load_modelfrom tensorflow.python.keras.layers import Dense, Dropout, LeakyReLU, Conv2D, LSTM, Flattenfrom tensorflow.python.keras import optimizersfrom tensorflow.python.keras.regularizers import l2from tensorflow.python.keras.callbacks import EarlyStopping, ModelCheckpointimport numpy as npmy_model_1 = load_model("keras fake news acc 89.1.h5")validation_df = pd.read_csv("validation.csv")validation_features = validation_df.iloc[:,:-1]validation_results = validation_df.iloc[:,-1].tolist()scaler = StandardScaler()validation_features = scaler.transform(validation_features) #ERROR
问题是我遇到了一个错误:
NotFittedError: This StandardScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.
如果我在特征上使用fit_transform
,我不会遇到错误,但准确率只有52%,这很糟糕(因为我之前有89.1%)。
我该如何解决这个问题?我是否需要加载用于训练模型的数据,还是我可以只加载模型并传入预测数据?
当我训练模型时,我对训练数据使用了fit_transform
,对测试数据使用了transform
。我猜现在,我应该只在我的数据上使用transform
,但我得到了一个错误
回答:
在训练时使用pickle或joblib库保存缩放器对象。加载这个缩放器对象,然后对测试数据(或实时数据)应用transform函数。
你用具有不同缩放的数据训练了模型,并且试图对具有不同缩放的数据进行预测。