谁能推荐一些用于内容-based图像检索的好算法?

项目:基于内容的图像检索 – 半监督(在训练时对图像进行手动标记)

描述

我的数据库中有100万张图像。训练是手动的(监督式) – 每张图像都提供了标题和标签。例如:coke.jpg标题:可乐标签:可乐,罐子

利用这些图像和标签,我需要训练系统。训练后,当我输入一张新图像(可能是数据库中已有的或完全新的),系统应该输出该图像可能所属的标签,并显示每个标签下的几张图像。系统也可能提示未找到匹配项。

问题:

1)图像指纹是什么意思?预期的图像指纹大小是多少?(这很重要,因为将有数百万张图像需要插入数据库)

2)数据库中该指纹的字段格式是什么?(这很重要,因为需要快速搜索……脚本应在1秒内搜索100万张图像的数据库)

3)我们使用哪些描述符(算法)来分析它们?

提前感谢


回答:

嗯,这个话题非常广泛,但这里是一个可能解决方案的简要概述

  1. 图像指纹是SIFT描述符的集合,这些描述符被量化以减少大小,并允许索引

  2. 构建数据库的倒排索引,以便通过量化描述符查找图像(你可以使用任何全文搜索引擎或数据库来实现这一点)

  3. 给定一张图像,查找与之共享大量共同描述符的图像

  4. 对于这些潜在候选者,你应该验证描述符的空间排列是否足够相似

一些入门文章:

Philbin, James, et al. “Object retrieval with large vocabularies and fast spatial matching.” Computer Vision and Pattern Recognition, 2007. CVPR’07. IEEE Conference on. IEEE, 2007.

Philbin, James, et al. “Lost in quantization: Improving particular object retrieval in large scale image databases.” Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2008.

Mikulík, Andrej, et al. “Learning a fine vocabulary.” Computer Vision–ECCV 2010 (2010): 1-14.

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注