如何降低二进制数据的维度?

我有一个包含二进制数据的数据框,我知道列之间存在依赖关系。我想移除依赖列,只保留独立列。一个示例输入如下:

Test ,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,Ptest1,0,0,0,0,0,0,0,1,1,1,1,1,0,1,1,1test2,1,1,1,0,1,1,1,1,1,1,1,1,1,0,0,1test3,1,1,1,0,1,1,1,1,1,1,1,1,1,0,0,1test4,1,1,1,1,0,0,1,1,1,1,1,1,1,0,0,1test5,1,1,1,1,0,0,1,1,1,1,1,1,1,0,0,1

在这里我们可以看到,(A,B,C,G,M), (D), (E,F), (H,I,J,K,L,P) 和 (N, O) 是具有相同值或依赖关系的列组。最终我希望得到以下列:

Test,A,D,E,H,Ntest1,0,0,0,1,1test2,1,0,1,1,0test3,1,0,1,1,0test4,1,1,0,1,0test5,1,1,0,1,0

我尝试在Python中使用PCA来实现,但没有成功。有人能指导我如何实现这一点吗?

编辑: 这是我正在使用的示例代码

import pandas as pd import numpy as np from sklearn.decomposition import PCAdf = pd.read_csv("TestInput.csv")print(df)pca = PCA()#移除标题和行名numDf = df.iloc[:,1:]print(pca.fit(numDf))T=pca.transform(numDf)print("唯一列的数量为:", T.shape[1])print(np.cumsum(pca.explained_variance_ratio_))

谢谢。


回答:

这个评论转换为答案,找到并使用drop_duplicates删除重复列。

df = df.set_index('Test')df.T.drop_duplicates(keep='first').T       A  D  E  H  NTest                test1  0  0  0  1  1test2  1  0  1  1  0test3  1  0  1  1  0test4  1  1  0  1  0test5  1  1  0  1  0

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注