Home IT技术文档内词语分类

文档内词语分类

IT技术 xiaolong · 2025年4月10日 · 0 Comment

我面临的问题是：我想读取一个文档，获取该文档的原始字符串，并对其中的信息进行分类。例如，我想识别字符串是“姓名”、“日期”还是其他有用的信息。

是否可以使用机器学习来实现这一点？我应该如何解决这个问题？

这里最困难的问题是我并不是要对文档本身进行分类，而是对文档内的字符串信息进行分类。

回答：

所以，这一切都取决于你如何看待这个问题。我认为你的问题可以被表述为一个实体提取/识别问题，你有一个文档，并希望识别文本中的特定实体（实体可能是人名、日期等）。可以研究一下条件随机场及其在命名实体识别（简称NER）中的应用，因为已经有一些现成的库和工具可以使用。

例如，可以查看StanfordNER。

machine-learning text-classification

发表回复取消回复