是否有npm包或Web API可以读取图像的特定部分?

我正在为我的Node Express服务器添加一个新功能,允许上传司机的ELD每日日志,并从该图像/ PDF中获取驾驶时间、开始时间、结束时间、午餐等信息。

示范日志

我考虑过将PDF转换为CSV/JSON/HTML,但问题在于转换后的数据是一团糟,没有标签。所以我正在考虑如何读取并创建一个类似于ELD日志上已有图表的图表。

例如,读取时可以按15分钟或若干像素进行分段。

关注区域

如果分段中有线条存在,则继续并记录数据,否则检查分段中的“SB”、“D”、“ON”,然后递归调用

分段关注区域

在上面的例子中,这位司机在早上6:45开始值班。

这些文件是以PDF格式提供的,我在提取数据并使其有用和带标签方面遇到了问题。

更新:进一步思考后,这个解决方案可能非常耗费资源,特别是如果在服务器端执行,例如,切割图像/将其保留在缓冲区中并从中读取…也许尝试从PDF解析到其他格式的垃圾数据会更好…

更新2:我可能会尝试使用Tesseractocr,这取决于它的数据输出方式。

在一个这样的页面上使用:

ELD日志示范页面2


回答:

我想你要找的术语是OCR(光学字符识别)。这是将图像上的文本转换为可操作的实际文本的技术名称。一旦你有了这个,如果文本是标准格式的,解码文本应该很容易。Node有许多OCR库:https://www.npmjs.com/search?q=OCR 没有必要重新发明轮子,尝试构建自己的OCR系统 🙂

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注