特征选择(Boruta)

我在进行信用风险建模,数据中有大量特征。我使用Boruta包进行特征选择。这个包计算成本太高,我无法在完整的训练数据集上运行。我尝试的方法是取训练数据的一个子集(比如说20-30%),然后在该子集数据上运行Boruta包以获取重要特征。但当我使用随机森林来训练数据时,我必须使用完整的数据集。我的问题是,仅在训练数据的一部分上选择特征,然后在整个训练数据上构建模型,这样做对吗?


回答:

由于这个问题属于逻辑性质,我将发表我的看法。

  1. 我认为,20%的人口的一个随机样本就足够了
  2. 更进一步的做法是,取3-4个这样的随机集合,并从所有集合中取出显著变量的交集,这将是对上述方法的改进
  3. 使用多种方法进行特征选择(xgboost,一些caret特征选择方法)-> 对每种方法使用不同的随机样本,然后取出共同的显著特征

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注