如何降低二进制数据的维度？

我有一个包含二进制数据的数据框，我知道列之间存在依赖关系。我想移除依赖列，只保留独立列。一个示例输入如下：

Test ,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,Ptest1,0,0,0,0,0,0,0,1,1,1,1,1,0,1,1,1test2,1,1,1,0,1,1,1,1,1,1,1,1,1,0,0,1test3,1,1,1,0,1,1,1,1,1,1,1,1,1,0,0,1test4,1,1,1,1,0,0,1,1,1,1,1,1,1,0,0,1test5,1,1,1,1,0,0,1,1,1,1,1,1,1,0,0,1

在这里我们可以看到，(A,B,C,G,M), (D), (E,F), (H,I,J,K,L,P) 和 (N, O) 是具有相同值或依赖关系的列组。最终我希望得到以下列：

Test,A,D,E,H,Ntest1,0,0,0,1,1test2,1,0,1,1,0test3,1,0,1,1,0test4,1,1,0,1,0test5,1,1,0,1,0

我尝试在Python中使用PCA来实现，但没有成功。有人能指导我如何实现这一点吗？

编辑： 这是我正在使用的示例代码

import pandas as pd import numpy as np from sklearn.decomposition import PCAdf = pd.read_csv("TestInput.csv")print(df)pca = PCA()#移除标题和行名numDf = df.iloc[:,1:]print(pca.fit(numDf))T=pca.transform(numDf)print("唯一列的数量为:", T.shape[1])print(np.cumsum(pca.explained_variance_ratio_))

谢谢。

回答：

将这个评论转换为答案，找到并使用drop_duplicates删除重复列。

df = df.set_index('Test')df.T.drop_duplicates(keep='first').T       A  D  E  H  NTest                test1  0  0  0  1  1test2  1  0  1  1  0test3  1  0  1  1  0test4  1  1  0  1  0test5  1  1  0  1  0

学技术

如何降低二进制数据的维度？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复