最近我在研究降维方法,发现Python包”sklearn.feature_selection”似乎非常有用,但问题是SelectPercentile.fit方法并未解释它是如何计算评分函数的。
有谁知道它是如何工作的吗?
例如,如果我在”SelectPercentile”中选择”SelectFdr”,而SelectFdr方法的标准是基于每个特征的p值。那么我如何知道”SelectFdr”是如何设定假设或定义错误率的呢?
SelectFdr方法的描述是“根据估计的错误发现率选择特征。”所以它首先必须使用某种分类方法,以便计算错误发现率,我的疑问是”SelectPercentile”中使用的是什么分类方法。
回答:
你可以查看以下链接中的源代码注释:https://github.com/scikit-learn/scikit-learn/blob/ef5cb84a/sklearn/feature_selection/univariate_selection.py#L368
你可以选择评分函数作为参数。如果你没有指定函数,默认函数是ANOVA。