我需要将一段文本或一个词归类到特定的类别中。例如,文本’Pink Floyd’应该被归类为’音乐’,’Wikimedia’应该被归类为’技术’,而’Einstein’应该被归类为’科学’。
这该如何实现呢?我能否使用DBpedia来完成这个任务?如果不能的话,是不是需要定期对数据库进行训练呢?
回答:
这是一个文本分类问题。Manning、Raghavan和Schütze的《信息检索》书中的一章是这个领域的一个很好的介绍。我认为你不需要使用DBPedia或NER,只需要一个带有足够标记示例的小型标记训练数据集来覆盖你所有的类别即可。