我在进行一些文本分类任务时尝试使用sklearn.svm.SVC。尽管在使用SVM建模前进行特征选择通常是值得商榷的,因为性能通常在使用全部特征时达到峰值,但从学术角度来看,观察不同特征选择方法如何对特征进行不同排序仍然很有趣。
经过一番搜索,我发现sklearn中可用的特征选择度量非常有限,仅有Chi-2。我想知道其他常用的度量,如信息增益(IG)和贝叶斯网络评分(BNS),是否已在sklearn(或其他地方)实现,以便我可以直接在sklearn.feature_selection.SelectKBest()中作为评分函数使用?
回答:
信息增益尚未实现,但我认为@某人希望在未来的某个时候将其纳入。我对BNS不太了解。
如果你愿意,请随时贡献代码。这里是贡献指南: