我正在为我的Node Express服务器添加一个新功能,允许上传司机的ELD每日日志,并从该图像/ PDF中获取驾驶时间、开始时间、结束时间、午餐等信息。
我考虑过将PDF转换为CSV/JSON/HTML,但问题在于转换后的数据是一团糟,没有标签。所以我正在考虑如何读取并创建一个类似于ELD日志上已有图表的图表。
例如,读取时可以按15分钟或若干像素进行分段。
如果分段中有线条存在,则继续并记录数据,否则检查分段中的“SB”、“D”、“ON”,然后递归调用
在上面的例子中,这位司机在早上6:45开始值班。
这些文件是以PDF格式提供的,我在提取数据并使其有用和带标签方面遇到了问题。
更新:进一步思考后,这个解决方案可能非常耗费资源,特别是如果在服务器端执行,例如,切割图像/将其保留在缓冲区中并从中读取…也许尝试从PDF解析到其他格式的垃圾数据会更好…
更新2:我可能会尝试使用Tesseractocr,这取决于它的数据输出方式。
在一个这样的页面上使用:
回答:
我想你要找的术语是OCR(光学字符识别)。这是将图像上的文本转换为可操作的实际文本的技术名称。一旦你有了这个,如果文本是标准格式的,解码文本应该很容易。Node有许多OCR库:https://www.npmjs.com/search?q=OCR 没有必要重新发明轮子,尝试构建自己的OCR系统 🙂