]1
我有一个数据集,希望从中预测患者是否会患病。下图是以下步骤后的第一步:
- 对3个特征进行缩放
- 运行scikit-learn的PCA程序
- 原始数据集有25个特征,但为了我们的练习,我们被要求只使用3个特征。这3个特征随后通过PCA减少到2个
当我查看这些数据时,我的第一反应是绿点(那些不易患肾病的点)是不可分离的。
我的假设正确吗?
回答:
可能是你的PCA没有产生最佳的特征来分离你的数据。我建议使用像随机森林或XGBoost这样的方法,你可以轻松查看特征的重要性,然后使用最佳的3个特征来尝试分类数据。