我正在寻找处理一批扫描的回应明信片,这些明信片上有手写的联系信息(如姓名、地址、电话、电子邮件等)。
我想知道是否有可行的开源库或软件来完成这个任务(理想情况下是Java或R)。我查看了很多资料,大多数信息都来自2009年或更早,并不令人鼓舞。
语言是英语。
有什么建议吗?
编辑:我查看了OCRopus的页面,但最新版本是2009年5月。有人有使用经验吗?或者有更新的版本吗?
回答:
首先,据我所知,没有原生的开源Java OCR SDK。有一些Java API,它们封装了对原生接口的调用,比如tesjeract (http://code.google.com/p/tesjeract/) 或 Tess4J (http://tess4j.sf.net/)。
其次,您需要明确您是寻找手写还是手印文本。如果您需要手写文本识别——我认为您将无法解决这个问题,因为其他答案中提到的原因。
然而,如果您需要ICR(智能字符识别)来识别手印文本(在调查、表格等中使用的较为清晰的字母),可能有解决方案。虽然我认为tesseract(尽管被认为是开源引擎中最好的)在这里帮不上忙,但您可以寻找更精确的SDK。
也许这个问题会有所帮助:手写扫描文档转换为.txt文件?