我使用了几种算法训练了一个模型,包括来自scikit-learn的随机森林和LightGBM。这些模型在准确率和其他统计数据方面表现相似。
问题在于这两个算法在特征重要性方面的行为不一致。我使用了默认参数,我知道它们在计算特征重要性时使用了不同的方法,但我认为高度相关的特征应该始终对模型的预测产生最大影响。随机森林对我来说更有意义,因为高度相关的特征出现在顶部,而在LightGBM中并非如此。
有什么方法可以解释这种行为吗?使用LightGBM得到的结果是否值得信赖并可以展示?
随机森林特征重要性
LightGBM特征重要性
与目标的相关性
回答:
我遇到过类似的问题。LGBM的默认特征重要性是基于’split’计算的,当我将其改为’gain’时,图表显示的结果相似。