我试图从scikit-learn中的向量中提取最高频词项。根据示例,可以针对每个类别这样做,但我希望针对类别内的每个文件这样做。
if opts.print_top10: print "top 10 keywords per class:" for i, category in enumerate(categories): top10 = np.argsort(clf.coef_[i])[-10:] print trim("%s: %s" % ( category, " ".join(feature_names[top10])))
我希望针对测试数据集中的每个文件而不是每个类别来执行此操作。我应该查看哪里?
谢谢
编辑:将“discrimitive”改为“highest frequency”(抱歉引起混淆)
回答:
你可以使用transform
的结果结合get_feature_names
来获取给定文档的词项计数。
X = vectorizer.transform(docs)terms = np.array(vectorizer.get_feature_names())terms_for_first_doc = zip(terms, X.toarray()[0])