XGBoost: 与分类变量相比，最小化连续线性特征的影响

假设我有100个独立特征——其中90个是二元特征（例如0/1），10个是连续变量（例如年龄、身高、体重等）。我使用这100个特征来预测一个分类问题，样本数量足够。

当我设置一个XGBClassifier函数并进行拟合时，从gain的角度来看，最重要的10个特征总是那10个连续变量。目前我对cover或frequency不感兴趣。这10个连续变量在gain列表中占据了大约0.8到0.9的空间（sum(gain) = 1）。

我尝试调整了gamma、reg_alpha、reg_lambda、max_depth、colsample。但通过gain排序的前10个特征仍然总是那10个连续特征。

有什么建议吗？

小更新——有人问我为什么认为会发生这种情况。我认为这是因为连续变量可以在每个决策树中多次进行分割，而二元变量只能分割一次。因此，连续变量在树中的出现频率更高，从而导致更高的gain分数

回答：

是的，众所周知，树（/森林）算法（如xgboost/rpart等）在变量选择时通常会更“偏爱”连续变量而非二元分类变量，因为它可以自由选择连续变量的分割点以最大化信息增益（并且可以为同一变量在其他节点或其他树中自由选择不同的分割点）。如果这是对于那些特定变量的最优树，那么它就是最优树。参见为什么决策树/rpart更倾向于选择连续变量而不是分类变量？在姐妹网站CrossValidated上。

当你说“有什么建议”时，这取决于你到底想要什么，可能是以下几种之一：

a) 找出其他90个二元分类特征中哪些提供了最多的信息增益
b) 训练一个次优树只是为了找出哪些特征是这些特征
c) 通过将二元特征组合成n位分类特征来工程一些“复合”特征，这些特征具有更多的信息增益（同时确保从输入中移除各个二元特征）
d) 你可以研究关联规则：数据挖掘中关联规则和决策树的实际区别是什么？

如果你想探索a)…c)，建议做类似以下的事情：

排除10个连续变量的各种子集，然后查看哪些二元特征显示出最大的增益。假设这给你N个候选特征。N会远小于90，我们假设N < 20以使后续计算更有效率。
然后计算N个特征之间的成对关联或相关性度量（Spearman或Kendall）。查看相关性图。挑选那些彼此最相关的变量集群。创建结合这些个体二元特征的复合n位变量。然后重新训练树，包括复合变量，并排除个体二元变量（以避免改变输入的总方差）。
迭代排除10个连续变量的各种子集。查看你的复合变量中出现的模式。我相信一定有更正式和系统的算法来进行这种（n位分类的复合特征工程），我只是不知道它是什么。
无论如何，为了改进基于树的方法的性能，我想象最简单的办法是“在每一步，选择两个最高度相关/关联的分类特征并将它们结合”。然后重新训练树（包括新特征，排除其组成特征）并使用修订后的增益数字。
或许更稳健的方法可能是：
- 选择一个相关性/关联性的阈值T，比如从高水平开始T = 0.9或0.95
- 在每一步，合并任何绝对相关性/关联性彼此>= T的特征
- 如果在这一步没有合并，降低T的值（如T -= 0.05）或比率（如T *= 0.9）。如果仍然没有合并，继续降低T直到有合并，或者直到你达到某个终止值（如T = 0.03）
- 重新训练树，包括复合变量，排除它们的组成子变量。
- 现在返回并重新训练应该改进的树，包含所有10个连续变量，以及你的复合分类特征。
- 或者你可以提前终止复合特征选择，看看完全重新训练的树是什么样子的。

这个问题在2014年的Kaggle Allstate购买预测挑战赛中出现过，其中政策覆盖选项A,B,C,D,E,F,G都是分类变量，每个变量有2到4个值，并且彼此高度相关。（当前选项C，“C_previous”，是输入特征之一）。参见该比赛的论坛和已发布的解决方案了解更多。请注意，policy = (A,B,C,D,E,F,G)是输出。但C_previous是一个输入变量。

关于特征选择的一些来自Kaggle的一般快速且粗略的经验法则是：

丢弃任何接近常量/非常低方差的变量（因为它们几乎没有信息内容）
丢弃任何非常高基数的分类变量（基数>~训练集大小/2），（因为它们也倾向于具有低信息内容，但会导致大量的虚假过拟合并增加训练时间）。这可能包括客户ID、行ID、交易ID、序列ID和其他不应该在训练集中训练但意外出现在训练集中的变量。

学技术

XGBoost: 与分类变量相比，最小化连续线性特征的影响

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复