我正在尝试确定我的文档集合中某一类文档最常用的关键词。假设领域是“计算机科学”(当然,包括网络、计算机体系结构等),从文本中保留这些特定领域关键词的最佳方法是什么?我尝试使用Wordnet,但不太确定如何最好地使用它来提取这些信息。
考虑到我事先并不知道所有特定领域的关键词,是否有任何知名的词汇列表可以用作白名单?或者是否有任何好的自然语言处理/机器学习技术来识别特定领域的关键词?
回答:
你需要一个庞大的文档训练集。这个集合的一个小子集(但仍然是大量的文档)应该代表给定的领域。使用nltk计算词汇统计时要考虑形态学,过滤掉停用词。好的统计方法是TF*IDF,它大致是一个词在领域子集中的出现次数除以整个集合中包含该词的文档数量。关键词是TF*IDF值最大的词。