机器学习:文件解析和预测类文件

大家早上好,我目前正在进行一个机器学习领域的项目,目标是对一组数据进行监督分类。我的数据是一大批PDF文件,每个文件都有一个特定的类别,目标是使用这些文件作为训练数据集,以便对新文件进行类别预测。我的问题是我不知道如何构建我的训练数据集,因为分类算法必须基于每个文件的内容进行训练,而在我的训练数据框架中,我只有每个文件的类别和文件名。我该如何将每个PDF文件的内容包含在我的训练数据框架中?提前感谢您的帮助


回答:

PDF文件通常包含文本、图像、图表或其他内容,因此它们不能轻易地转换成可供机器学习算法使用的数字向量。首先,您需要从文件中提取感兴趣的信息。

在这方面,您可以尝试使用一些能够提取信息的库,看看效果如何。对于Python来说,一个好的开始可以是PyPDF2。您可以在这里找到教程这里。如果这没有达到预期效果,我的建议是尝试使用一些OCR工具,这些工具直接将PDF作为图像来提取信息。在Python中,pytesseract是最常用的之一,但并不是唯一的选择。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注