我有一个分类任务,试图根据文档图像来判断一个“申请”是否通过。我不是在对单张图像进行分类,而是一个申请可以有一张或多张文档。数据看起来像这样:
Application_1 (PASS) - document1.jpg - document2.png Application_2 (PASS) - document1.jpg Application_3 (FAIL) - document1.jpg - document2.jpg - document3.jpg - document4.jpg
每个申请都根据文档内容有通过/未通过的标签,例如,护照本身可能通过,执照加推荐信可能通过,但仅凭执照可能不会通过。
我已经基于文档的文本建立了一个分类器,但图像内容也很重要。是否可以训练一个CNN,使其输入为任意数量的图像,而不仅仅是一张?
回答:
当然可以。一种方法是简单地将图像文件拼接成一个文件。另一种方法是调整输入层以接受所有四张文件。你需要配置你的CNN拓扑结构,以处理输入层提供的各种数据形状。
从概念上讲,这与编写一个CNN的摄入层来处理不同大小的单张图像没有什么不同。