使用PCA处理数据框的部分数据

我想对一个包含大量特征(32列)的数据框使用聚类算法。

其中部分特征是使用独热编码器编码的。

我想使用主成分分析(PCA)来降低维度,使机器学习过程更简单。

是否可以只对数据框的某些列使用PCA,并保持其他列不变,然后使用机器学习模型?

还是必须在聚类之前对整个数据框使用PCA?


回答:

我认为你描述的方法应该没有问题。

这样做的效果实际上是将一些对象的特征合并成更少的特征,然后再结合其他未合并的特征一起使用。我不知道这会对结果产生什么影响;最好运行一个相关性分析,看看未合并的特征是否能为PCA合并的特征增加一些东西。你可能会发现它们基本上是重复已有的内容。

由于聚类是一种探索性方法,你基本上可以做任何你想做的事。当然,最好有理由这样做,否则就变成了简单的试错法,如果你找到了结果,你将无法解释为什么会得到这样的结果。对于某些数据集,可能存在多种聚类方式,因此你应该基于你对数据的已有了解做出决定,这样才能在这些方面得到合理的解释。

随机试错聚类直到找到一个结构,这使得解释该结构的有效性变得有些困难。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注