关于用于Mask RCNN训练的图像,我有一个小疑问。Mask RCNN是否只接受8位图像进行训练?如果它能处理16位或32位图像,这对训练有什么帮助?通常可视化是针对8位图像进行的。我在想,如果它处理16位图像,这对分类和映射有什么帮助呢?
回答:
只要保持所有输入图像的数据类型一致,并且图像强度范围“一致”,那么应该没问题。例如,如果我们偏好8位图像,你应该将16位和32位图像重新缩放到8位,即输入图像应为uint8类型,值在[0,255]之间。这种“预处理”在训练和使用大多数机器学习模型进行推理时是必要的。
在matterport/Mask_RCNN的一个示例中,输入图像的类型是uint8。
另一种方法,为什么不将图像转换为float类型,范围在[0,1]之间,从而保留16位和32位图像的像素分辨率呢?希望这对你有帮助。