我刚开始学习机器学习。我接到一个任务,需要使用机器学习的概念从图像中找出车辆的总数。我正在使用神经网络。这里是我最坏情况下的图像示例。
我需要从这张图像中找出汽车的总数。我的想法是将这张大图像切割成小块,并训练网络从这些小块中计数车辆。每块的车辆数量少于5。然后在处理新图像时,我可以使用滑动窗口来获取车辆的总数。
我想知道这个想法是否可行,或者我应该进行特征提取并用这些特征训练神经网络。如果可行,数据集和训练是否有任何条件要求?
回答:
您寻找的是称为对象检测的技术。一个起点可以是用于对象检测的深度神经网络或用于精确对象检测和分割的基于区域的卷积网络。
一个相似但更困难的任务是实例分割。我在这方面看到的最新论文之一是像素级编码和深度分层用于实例级语义标记。
实例分割可能是计算机视觉中最困难的任务。当您刚开始学习机器学习/计算机视觉时,您可能首先想要进行图像分类。如果您想朝实例分割的方向发展,那么您应该继续进行语义分割,然后是实例分割。
仅仅预测“汽车”/“无汽车”的简单滑动窗口方法将不起作用,因为图像中的汽车之间没有“无汽车”来分隔。