我在尝试使用10个同样为分类变量(所有变量的尺度为1到10)的变量来拟合一个分类变量模型(3个层次:低、中、高)。我使用随机森林运行了递归特征消除(RFE),结果显示所有变量的重要性相似(每个约10%)。我原本期待有一个主导变量,但事实并非如此。这该如何解释?我应该尝试不同的建模方法,还是这只是数据的本质?
附注:我运行了一个相关矩阵,发现所有10个特征与目标变量的相关性都很低。如果是这样的话,是否应该预期没有哪个变量在重要性上占主导地位,因为相关性水平低?
回答:
从技术上讲,是有可能所有属性具有相同的重要性。是否这种平等有意义,只能通过对特定数据集或领域的“深入了解”来回答。