我正在使用 Sklearn.preprocessing 对分类数据进行预处理(独热编码)。
onehotencoder = OneHotEncoder()pre_loc_data1 = onehotencoder.fit_transform(pre_loc_data1.astype(str)).toarray()print(pre_loc_data1)X_train, X_test, y_train, y_test = train_test_split(pre_loc_data1, pre_loc_target, test_size=0.2)
这里的 X-train 是经过编码的数据。如果我将 y_train 数据提供给模型进行预测,一切正常,因为它也是编码后的数据。但我想使用单个记录作为模型的输入来进行预测,而不需要编码,比如下面这样:
(clf.predict(['Hyderabad / Secunderabad','0 Year(s) 8 Month(s)','android','java']))
如何将此类数据作为输入提供给模型进行测试?
提前感谢!
回答:
你需要对输入应用 onehotencoder
(假设 clf
是你的训练模型):
clf.predict(onehotencoder.transform([['Hyderabad / Secunderabad','0 Year(s) 8 Month(s)','android','java']]))