如何降低二进制数据的维度?

我有一个包含二进制数据的数据框,我知道列之间存在依赖关系。我想移除依赖列,只保留独立列。一个示例输入如下:

Test ,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,Ptest1,0,0,0,0,0,0,0,1,1,1,1,1,0,1,1,1test2,1,1,1,0,1,1,1,1,1,1,1,1,1,0,0,1test3,1,1,1,0,1,1,1,1,1,1,1,1,1,0,0,1test4,1,1,1,1,0,0,1,1,1,1,1,1,1,0,0,1test5,1,1,1,1,0,0,1,1,1,1,1,1,1,0,0,1

在这里我们可以看到,(A,B,C,G,M), (D), (E,F), (H,I,J,K,L,P) 和 (N, O) 是具有相同值或依赖关系的列组。最终我希望得到以下列:

Test,A,D,E,H,Ntest1,0,0,0,1,1test2,1,0,1,1,0test3,1,0,1,1,0test4,1,1,0,1,0test5,1,1,0,1,0

我尝试在Python中使用PCA来实现,但没有成功。有人能指导我如何实现这一点吗?

编辑: 这是我正在使用的示例代码

import pandas as pd import numpy as np from sklearn.decomposition import PCAdf = pd.read_csv("TestInput.csv")print(df)pca = PCA()#移除标题和行名numDf = df.iloc[:,1:]print(pca.fit(numDf))T=pca.transform(numDf)print("唯一列的数量为:", T.shape[1])print(np.cumsum(pca.explained_variance_ratio_))

谢谢。


回答:

这个评论转换为答案,找到并使用drop_duplicates删除重复列。

df = df.set_index('Test')df.T.drop_duplicates(keep='first').T       A  D  E  H  NTest                test1  0  0  0  1  1test2  1  0  1  1  0test3  1  0  1  1  0test4  1  1  0  1  0test5  1  1  0  1  0

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注