如何根据用户输入创建用于预测的虚拟变量（仅一条记录）？

我正在尝试创建一个用于预测航空公司延误的Web应用程序。我已经在电脑上离线训练了我的模型，现在正在尝试创建一个Flask应用来根据用户输入进行预测。为了简单起见，假设我的模型有3个分类变量：UNIQUE_CARRIER、ORIGIN和DESTINATION。在训练过程中，我使用pandas为所有3个变量创建了虚拟变量：

df = pd.concat([df, pd.get_dummies(df['UNIQUE_CARRIER'], drop_first=True, prefix="UNIQUE_CARRIER")], axis=1)df = pd.concat([df, pd.get_dummies(df['ORIGIN'], drop_first=True, prefix="ORIGIN")], axis=1)df = pd.concat([df, pd.get_dummies(df['DEST'], drop_first=True, prefix="DEST")], axis=1)df.drop(['UNIQUE_CARRIER', 'ORIGIN', 'DEST'], axis=1, inplace=True)

所以现在我的特征向量长度为297（假设我的数据中有100个不同的航空公司和100个不同的机场）。我使用pickle保存了我的模型，现在正在尝试根据用户输入进行预测。现在用户输入的形式是3个变量（出发地、目的地、航空公司）。

显然，我不能对每个用户输入使用pd.get_dummies（因为这三个字段都只有一个唯一值）。将用户输入转换为我的模型的特征向量的最有效方法是什么？

回答：

由于您使用的是pandas的虚拟变量，因此是密集向量，一个好的方法是创建一个术语:向量索引的字典，然后根据它填充一个零向量，类似于以下操作：

index_dict = dict(zip(df.columns,range(df.shape[1])))

现在当您有一个新的航班时：

new_vector = np.zeroes(297)try:    new_vector[index_dict[origin]] = 1except:    passtry:    new_vector[index_dict[destination]] = 1except:    passtry:    new_vector[index_dict[carrier]] = 1except:    pass

学技术

如何根据用户输入创建用于预测的虚拟变量（仅一条记录）？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复