我需要比较400000张图像并删除相似图像。我将有大约100000个ID,每个ID对应一个文件中的多张不同大小的图像。我希望创建两个列:ID和图像,并针对每个ID删除相似图像。如果一个ID有10张图像,但只有两张是不同的,我希望该ID只保留这两张图像。我正在寻找一种在Python中简单实现此功能的方法。
回答:
输出
e5969a1b256e8cc9
ebd49312f02e862f
False
我需要比较400000张图像并删除相似图像。我将有大约100000个ID,每个ID对应一个文件中的多张不同大小的图像。我希望创建两个列:ID和图像,并针对每个ID删除相似图像。如果一个ID有10张图像,但只有两张是不同的,我希望该ID只保留这两张图像。我正在寻找一种在Python中简单实现此功能的方法。
回答:
输出
e5969a1b256e8cc9
ebd49312f02e862f
False