我有一个包含表格的PDF
文件,我想将其转换为表结构数据。
我的PDF
文件包含一个相当复杂的表格,这使得大多数工具都不够用。例如,我尝试使用以下工具,但它们未能很好地提取:AWS Textract
、Google AI Document
、Google Vision
、Microsoft Text Recognition
。实际上,Google AI Document
大约能正确提取70%,但这还不够好。
因此,我寻找了一种自定义训练模型的方法,以便在提取此表格时能够正确提取。我尝试了Power Apps AI Builder和Google AutoML
实体提取,但这两者都没有帮助(顺便问一下,我不清楚AutoML的用途,它是用于预测还是也可以自定义表格提取?)。
我想知道哪些工具适合我的用例,以及是否有任何(AI)工具可以用来训练这类表格,以便文本提取效果更好。
回答:
大多数文本提取器应该能够保持结构,如果渲染得足够清晰,但布局可能会有很多变化和错误。
这里它正确地识别了“rear”的拼写错误,但在第一行上未能识别“05.05.1983”。
在第二次相同的尝试中,失败的方式有所不同
3 29.06.1983 Part of Ground Floor of 05.05.1983 GM315727 2 (part of) Conavon Court 25 years from 1.3.1983 4 31.01.1984 Part of Third Floor Conavon 30.12.1983 GM335793 4 (part of) Court 25 years from 12.8.1983 5 19.04.1984 I?art of Basement Floor of 23.01.1984 GM342693 l (part of), 2 Conavon C:ourt 25 years from (part of), 3 20.01.1984 (part Of ) , 4 (part of) NOTE: The Lease also grants a right of way for the purpose only of loading and unloading and reserves a right of way in case of emergency only from the boiler house adjacent hereto 6 14.06.1984 Part of Third Floor Conavon 31.10.1983 GM347623 3 (part of) Court 25 years from 31.10.1983 7 14.06.1984 Part of the Third Floor 31.10.1983 GM347623 3 (part: of}, 4 Conavon Court 25 years from (part of) 31.10.1983 8 01.10.1984 "The Italian Stallion'' 17.08.1984 GM357142 4 (part of) Conavon Court (Basement) 25 years from 20.1.1984 NOTE: The Lease also grants a right of way for the purpose only of loading and unloading and a right of access through the security door at the reaar of the building 9 06.07.2016 3rd floor 14-16 Blackfriars 28.06.2016 4 (part of}, 5 Streec 5 years from (part of) 25/06/2016
这就是OCR的美妙之处,每次运行的通过率可能因字符而异,因此经验告诉我们使用三次估计中的最佳结果。因此,以三种不同的方式运行,并逐字符比较,保留那些一致的结果。