机器学习：文件解析和预测类文件

大家早上好，我目前正在进行一个机器学习领域的项目，目标是对一组数据进行监督分类。我的数据是一大批PDF文件，每个文件都有一个特定的类别，目标是使用这些文件作为训练数据集，以便对新文件进行类别预测。我的问题是我不知道如何构建我的训练数据集，因为分类算法必须基于每个文件的内容进行训练，而在我的训练数据框架中，我只有每个文件的类别和文件名。我该如何将每个PDF文件的内容包含在我的训练数据框架中？提前感谢您的帮助

回答：

PDF文件通常包含文本、图像、图表或其他内容，因此它们不能轻易地转换成可供机器学习算法使用的数字向量。首先，您需要从文件中提取感兴趣的信息。

在这方面，您可以尝试使用一些能够提取信息的库，看看效果如何。对于Python来说，一个好的开始可以是PyPDF2。您可以在这里找到教程这里。如果这没有达到预期效果，我的建议是尝试使用一些OCR工具，这些工具直接将PDF作为图像来提取信息。在Python中，pytesseract是最常用的之一，但并不是唯一的选择。

学技术

机器学习：文件解析和预测类文件

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复