我正在尝试使用YOLOv2训练神经网络,以识别视频游戏中的字符和对象。作为输入数据,我从不同角度截取了游戏内资产的屏幕截图。然而,这些角色模型中没有背景——只有模型本身。当然,在游戏中,角色后面会有背景。
这会让神经网络感到困惑吗?如果是的话,我是否应该继续寻找一些游戏中的样本背景图片,并随机将它们应用到输入数据中?
回答:
是的,你应该为你的模型添加游戏中的背景,否则你永远不会得到 decent 的检测质量。网络需要了解背景、对象在背景上的放置位置,甚至场景中对象的照明情况。所有这些都对最终的检测质量有贡献。
此外,你用来融合背景和图像的技术也很重要。
关于这个主题的一个好读物:Synthesizing Training Data for Object Detection in Indoor Scenes