在Pandas中根据多个属性去除重复项

我想排除那些标题和年份都相同的实例。

     title      votes  ranking  year0    Wonderland  19      7.9    19311    Wonderland  120     7.1    19972    Wonderland  3524    7.2    19993    Wonderland  18169   6.6    20034    Wonderland  17      8.7    20105    Wonderland  6       8.5    20126    Wonderland  8       7.4    2012 

例如,在这种情况下,我只会删除第5和第6条记录。


回答:

你可以使用带有subset=参数的drop_duplicates()。如果你的数据框名为df,你可以这样做:

In [13]: df.drop_duplicates(subset=['title', 'year'])

这将返回:

Out[13]:        title  votes  ranking  year0  Wonderland     19      7.9  19311  Wonderland    120      7.1  19972  Wonderland   3524      7.2  19993  Wonderland  18169      6.6  20034  Wonderland     17      8.7  20105  Wonderland      6      8.5  2012

请注意,你会丢失索引6中包含的votes和ranking的唯一信息。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注