我有一个包含二进制数据的数据框,我知道列之间存在依赖关系。我想移除依赖列,只保留独立列。一个示例输入如下:
Test ,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,Ptest1,0,0,0,0,0,0,0,1,1,1,1,1,0,1,1,1test2,1,1,1,0,1,1,1,1,1,1,1,1,1,0,0,1test3,1,1,1,0,1,1,1,1,1,1,1,1,1,0,0,1test4,1,1,1,1,0,0,1,1,1,1,1,1,1,0,0,1test5,1,1,1,1,0,0,1,1,1,1,1,1,1,0,0,1
在这里我们可以看到,(A,B,C,G,M), (D), (E,F), (H,I,J,K,L,P) 和 (N, O)
是具有相同值或依赖关系的列组。最终我希望得到以下列:
Test,A,D,E,H,Ntest1,0,0,0,1,1test2,1,0,1,1,0test3,1,0,1,1,0test4,1,1,0,1,0test5,1,1,0,1,0
我尝试在Python中使用PCA来实现,但没有成功。有人能指导我如何实现这一点吗?
编辑: 这是我正在使用的示例代码
import pandas as pd import numpy as np from sklearn.decomposition import PCAdf = pd.read_csv("TestInput.csv")print(df)pca = PCA()#移除标题和行名numDf = df.iloc[:,1:]print(pca.fit(numDf))T=pca.transform(numDf)print("唯一列的数量为:", T.shape[1])print(np.cumsum(pca.explained_variance_ratio_))
谢谢。
回答:
将这个评论转换为答案,找到并使用drop_duplicates
删除重复列。
df = df.set_index('Test')df.T.drop_duplicates(keep='first').T A D E H NTest test1 0 0 0 1 1test2 1 0 1 1 0test3 1 0 1 1 0test4 1 1 0 1 0test5 1 1 0 1 0