如何处理像branch_id或state_id这样的数值变量?

有一些列如branch_id、state_id或country_id。这些值在每一行中并不是唯一的,像id那样。

在进行机器学习项目时,如何处理这些列呢?

我通常只是将它们转换为名义类别

train.branch_id = train.branch_id.astype('category',ordered =False)

回答:

你需要对它们进行标签编码独热编码(通常是后者)。

最简单的做法是使用pandas.get_dummies

假设你有一个如下所示的序列:

s = pd.Series(list('abca'))Output:0    a1    b2    c3    a

然后:

pd.get_dummies(s)Output:    a   b   c0   1   0   01   0   1   02   0   0   13   1   0   0

这些数据然后作为独立特征进入你的训练数据集。

然而,如果你在做回归模型,要小心这个陷阱

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注