我想使用机器学习对图像文档(如护照、驾驶执照等)进行分类。有人有相关链接或文档可以提供一些思路吗?
我的想法是先将文档转换为文本格式,然后从文本文件中提取信息。但这样我一次只能处理一个文件。我想知道如何在大规模的数百万文档中执行这个任务。
回答:
你不需要将文档转换为文本,你可以直接使用图像来完成这个任务。
要进行图像分类,你可以使用Keras库构建基础的卷积神经网络(CNN)。
https://towardsdatascience.com/building-a-convolutional-neural-network-cnn-in-keras-329fbbadc5f5
这个基础的CNN足以训练一个图像分类器。如果你想要达到最先进的准确率,我建议你使用预训练的ResNet50模型,并对其进行训练以构建图像分类器。除了准确率之外,使用预训练网络的另一个主要优势是,你需要较少的数据来训练一个稳健的图像分类器。
你唯一需要更改的是将输出类的数量从1000调整为你想要的类别数量。