假设我有一个机器学习系统,它已经学会了识别图像中是否包含某个对象(例如一辆汽车)。
我的问题是,当系统接收到不同尺寸的图像时该怎么办?例如,训练集可能由1000×700像素的图像组成,但现实世界并非如此统一,我们可能会遇到700×1000、700×400等不同尺寸的图像。
最初的想法可能是将图像调整到与训练集相同的尺寸,但这样做感觉不太恰当,也不是真正有用的方法。
我是不是忽略了什么显而易见的事情?另外,即使对于训练集,我也认为假设每张图像都是固定尺寸(例如1000×700像素)并不合理。
此外,如果使用滑动窗口技术,可能会遇到同样的问题,因为很难确定正确的窗口尺寸。
我认为这应该是一个相当常见的问题,因此一定有一套常见的解决方案,有什么建议吗?
回答:
是的。常见的解决方案包括:
- 调整大小并裁剪 – 将图像缩小或放大,直到两个维度都达到所需尺寸。然后将照片裁剪到常用尺寸。
- 裁剪 – 提取常用尺寸的裁剪部分,必要时进行填充。
现在…裁剪通常是通过一系列裁剪后的照片完成的:四个角和中心。在上面的方法(1)中,只会有三张图像,而不是五张。