Home IT技术 Tesseract似乎在进行更多OCR操作时学习字符，我如何在使用之间保存学习数据？

Tesseract似乎在进行更多OCR操作时学习字符，我如何在使用之间保存学习数据？

IT技术 xiaolong · 2025年4月6日 · 0 Comment

我有一组特定的10张图片需要进行OCR操作。这些图片都是数字；每个图片大约有20个数字。有一张特定的图片，如果我先运行它，会有一些不匹配的情况；然而，如果我先运行其他测试，然后再回到那张图片，所有字符都能匹配。

我倾向于认为Tesseract在进行更多OCR操作时学习字符，这让我非常高兴。现在的问题是，如果可能的话，我能否保存学习数据，以便Tesseract下次使用时能够识别这些数据？

回答：

您可以在Tesseract配置文件中将classify_save_adapted_templates设置为1，以保存适应后的模板，并将classify_use_pre_adapted_templates设置为1，以便下次运行Tesseract时加载这些模板。

指定这些选项行为的代码在这里：http://code.google.com/p/tesseract-ocr/source/browse/trunk/classify/classify.cpp?r=570

machine-learning ocr python-tesseract

发表回复取消回复