我面临的问题是:我想读取一个文档,获取该文档的原始字符串,并对其中的信息进行分类。例如,我想识别字符串是“姓名”、“日期”还是其他有用的信息。
是否可以使用机器学习来实现这一点?我应该如何解决这个问题?
这里最困难的问题是我并不是要对文档本身进行分类,而是对文档内的字符串信息进行分类。
回答:
所以,这一切都取决于你如何看待这个问题。我认为你的问题可以被表述为一个实体提取/识别问题,你有一个文档,并希望识别文本中的特定实体(实体可能是人名、日期等)。可以研究一下条件随机场及其在命名实体识别(简称NER)中的应用,因为已经有一些现成的库和工具可以使用。
例如,可以查看StanfordNER。