我在开发用于快速RCNN的ROI池化层,并且我习惯使用TensorFlow。我发现tf.image.crop_and_resize
可以作为ROI池化层使用。
但是我尝试了很多次,都没有得到我预期的结果。或者说我得到的结果其实就是正确的吗?
这是我的代码
import cv2import tensorflow as tfimport numpy as npimport matplotlib.pyplot as plt img_path = r'F:\IMG_0016.JPG'img = cv2.imread(img_path)img = img.reshape([1,580,580,3])img = img.astype(np.float32)#img = np.concatenate([img,img],axis=0)img_ = tf.Variable(img) # img shape is [580,580,3]boxes = tf.Variable([[100,100,300,300],[0.5,0.1,0.9,0.5]])box_ind = tf.Variable([0,0])crop_size = tf.Variable([100,100])#b = tf.image.crop_and_resize(img,[[0.5,0.1,0.9,0.5]],[0],[50,50])c = tf.image.crop_and_resize(img_,boxes,box_ind,crop_size)sess = tf.Session()sess.run(tf.global_variables_initializer())a = c.eval(session=sess)plt.imshow(a[0])plt.imshow(a[1])
我提交了我的原始图像和结果:a0,a1
如果我错了,能有人教我如何使用这个函数吗?谢谢。
回答:
实际上,这里TensorFlow本身没有问题。
从tf.image.crop_and_resize
的文档中(强调是我的):
boxes: 一个类型为float32的张量。一个形状为[num_boxes, 4]的2-D张量。张量的第i行指定了box_ind[i]图像中一个框的坐标,并以归一化坐标[y1, x1, y2, x2]指定。一个归一化的y坐标值被映射到图像坐标y * (image_height – 1),因此归一化图像高度的[0, 1]区间被映射到图像高度坐标的[0, image_height – 1]。我们允许y1 > y2,在这种情况下,采样的裁剪是原始图像的上下翻转版本。宽度维度类似处理。允许[0, 1]范围之外的归一化坐标,在这种情况下,我们使用extrapolation_value来外推输入图像的值。
boxes参数需要归一化坐标。这就是为什么你使用第一组坐标[100,100,300,300]
(未归一化,且未提供外推值)时得到一个黑框,而使用第二组坐标[0.5,0.1,0.9,0.5]
时没有得到黑框的原因。
然而,matplotlib在你的第二次尝试中显示乱码的原因仅仅是因为你使用了错误的数据类型。引用matplotlib的plt.imshow
文档(强调是我的):
所有值应在浮点数的[0 .. 1]范围内或整数的[0 .. 255]范围内。超出范围的值将被裁剪到这些界限。
由于你使用了超出[0,1]
范围的浮点数,matplotlib将你的值限定为1
。这就是你得到那些彩色像素(纯红色、纯绿色或纯蓝色,或这些的混合)的原因。将你的数组转换为uint8
类型以获得有意义的图像。
plt.imshow( a[1].astype(np.uint8))
编辑:应要求,我将更深入探讨tf.image.crop_and_resize
。
[当提供非归一化坐标且没有外推值时],为什么我只得到一个空白结果?
引用文档:
允许[0, 1]范围之外的归一化坐标,在这种情况下,我们使用extrapolation_value来外推输入图像的值。
因此,允许[0,1]范围之外的归一化坐标。但它们仍然需要是归一化的!在你的例子中,[100,100,300,300]
,你提供的坐标使得红色方框出现。你的原始图像是左上角的小绿点!参数extrapolation_value
的默认值是0
,因此原始图像框架之外的值被推断为[0,0,0]
,因此是黑色的。
但如果你的用例需要另一个值,你可以提供它。像素将在每个通道上取extrapolation_value%256
的RGB值。这个选项在你需要裁剪的区域未完全包含在原始图像中时很有用。(一个可能的用例是滑动窗口,例如)。