我正在尝试分析一组数据。这组数据包含一些连续属性,并且目标变量也是连续的。我使用了线性回归和随机森林进行分析。
我想知道的是,如何确定我的目标连续变量是否依赖于我所考虑的连续特征。
MSE值有助于比较不同模型的结果。但是,我的目标变量和特征之间是否存在关系……我该如何研究这个问题呢?
回答:
你可以研究特征之间的相关性。使用Pandas DataFrame对象的.corr()方法。这个方法会返回一个相关矩阵,你可以看到所有数值变量之间的相关性。
你可以应用到数据上的代码示例。第二行允许你查看与目标变量的相关性。
corr_matrix = df.corr() corr_matrix["TARGET"].sort_values(ascending=False)