OneHotEncoder导致标题丢失

我在使用泰坦尼克号数据集构建机器学习模型时,使用了OneHotEncoder来创建Embarked的虚拟变量,但在此过程中我的列标题丢失了。以下是数据集在处理前的样貌。

Pclass  Sex Age SibSp   Parch   Fare    Cabin   Embarked0   3   1   22.000000   1   0   7.2500  146 21   1   0   38.000000   1   0   71.2833 81  02   3   0   26.000000   0   0   7.9250  146 23   1   0   35.000000   1   0   53.1000 55  24   3   1   35.000000   0   0   8.0500  146 2... ... ... ... ... ... ... ... ...886 2   1   27.000000   0   0   13.0000 146 2887 1   0   19.000000   0   0   30.0000 30  2888 3   0   29.699118   1   2   23.4500 146 2889 1   1   26.000000   0   0   30.0000 60  0890 3   1   32.000000   0   0   7.7500  146 1

以下是使用的代码。

ct = ColumnTransformer([('encoder', OneHotEncoder(), [7])], remainder='passthrough')X = pd.DataFrame(ct.fit_transform(X))X

以下是处理后的数据集样貌。

0   1   2   3   4   5   6   7   8   9   10  11  12  13  14  15  160   1.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 3.0 1.0 22.000000   1.0 7.2500  146.01   0.0 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 38.000000   1.0 71.2833 81.02   1.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 3.0 0.0 26.000000   0.0 7.9250  146.03   1.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 1.0 0.0 35.000000   1.0 53.1000 55.04   1.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 3.0 1.0 35.000000   0.0 8.0500  146.0... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...886 1.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 2.0 1.0 27.000000   0.0 13.0000 146.0887 1.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 1.0 0.0 19.000000   0.0 30.0000 30.0888 1.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 3.0 0.0 29.699118   1.0 23.4500 146.0889 0.0 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 1.0 26.000000   0.0 30.0000 60.0890 1.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 3.0 1.0 32.000000   0.0 7.7500  146.0

回答:

你可以使用ColumnTransformerget_feature_names方法,前提是所有你的变换器都支持该方法,并且你已经在数据框上进行了训练。

ct = ColumnTransformer([('encoder', OneHotEncoder(), [7])], remainder='passthrough')X = pd.DataFrame(ct.fit_transform(X), columns=ct.get_feature_names())X

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注