Home IT技术将文本文件包拆分为多个子集，根据文件内容进行分类

将文本文件包拆分为多个子集，根据文件内容进行分类

IT技术 xiaolong · 2025年5月1日 · 0 Comment

我有很多PDF、DOC[X]、TIFF和其他文件（来自共享文件夹的扫描文件）。每个文件被转换成一包文本文件：每页一个文本文件。

每个文件包可能包含多个文档（例如三个合同）。文档类型可能不仅仅是合同。

在处理文件包时，我不知道当前包中包含什么类型的文档，并且一个包可能包含多种文档类型（合同、发票等）。

我正在寻找一些可能的编程方法来解决这个问题。

我尝试搜索过类似的问题，但没有找到任何有用的信息。

更新： 我尝试使用scikit-learn创建了一个二分类器，现在正在寻找其他解决方案。

回答：

最佳解决方案是创建一个二分类器（SGDClassifier），并在first-page和not-first-page类上进行训练。数据集中的每个项目都被修剪到100个标记（词）。

algorithm machine-learning nlp python

发表回复取消回复