我有数百张需要分组的图像。这些图像中都包含名字和颜色。有什么简单的方法可以根据图像中的名字和颜色将它们分组吗?Python中有没有可用的包或者可以实现这个功能的算法?
例如,上面的图像中包含“boy”。如果我有另一张包含相同名字的相似图像,那么如何将它们分组在一起呢?
回答:
如果文本像这样清晰,你甚至可能不需要机器学习:只需使用名字作为键,将所有具有相同名字的项目分组到一个字典中。如果文本仍然清晰,但你想根据名字的词干或使用NLTK进行词形还原来分组,那么可以这样做。如果文本清晰,但你想分组的不是简单的词形变化,而是语义相关的词,可以使用主题模型或word2vec,这些工具会为每个词提供一个向量空间嵌入,然后你可以用它来执行相似性搜索。
我已经突出显示了关键术语,以帮助你自己解决问题。你遇到的问题在技术上被称为聚类。