将随机森林预测结果作为列添加到测试文件中

我在Python的pandas库中工作(在一个Jupyter笔记本中),我为泰坦尼克号数据集创建了一个随机森林模型。 https://www.kaggle.com/c/titanic/data

我读取了测试和训练数据,然后对其进行清理,并添加了新的列(相同的列添加到两者中)。

在拟合和重新拟合模型并尝试提升等之后,我决定使用一个模型:

 X2 = train_data[['Pclass','Sex','Age','richness']]  rfc_model_3 = RandomForestClassifier(n_estimators=200) %time cross_val_score(rfc_model_3, X2, Y_target).mean() rfc_model_3.fit(X2, Y_target)

然后我预测某人是否存活

 X_test = test_data[['Pclass','Sex','Age','richness']] predictions = rfc_model_3.predict(X_test) preds = pd.DataFrame(predictions, columns=['Survived'])

有没有办法将预测结果作为添加到测试文件中?


回答:

因为

rfc_model_3 = RandomForestClassifier(n_estimators=200)rfc_model_3.predict(X_test)

返回y : array of shape = [n_samples]见文档),你应该可以直接将模型输出添加到X_test中,而无需创建中间DataFrame

X_test['survived'] = rfc_model_3.predict(X_test)

如果你仍然想要中间结果,评论中的@EdChum的建议将很好地工作。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注