Home IT技术 Scikits Learn: 线性核SVM中的特征权重

Scikits Learn: 线性核SVM中的特征权重

IT技术 xiaolong · 2025年4月7日 · 0 Comment

我正在处理一个文本分类问题（情感分析）。我想知道在scikit-learn中是否有选项可以为特征添加一个“权重”（作为重要性的衡量）。我查看了文档，发现了SVC的属性”coefs”，定义如下：

    coef_   array, shape = [n_class-1, n_features]      分配给特征的权重（原始问题中的系数）。    这仅在线性核的情况下可用。coef_ 是从dual_coef_ 和 support_vectors_ 派生的只读属性

然而，这个属性似乎是只读的。

回答：

coef_向量是机器学习算法学习到的参数的视图。手动设置它们没有意义，因为它们会根据数据自动优化调节。您可以做的替代方法是：

如果您对某些类别有先验知识，认为它们比其他类别更重要，可以设置class_weight
如果您对某些样本（数据集中的行）有先验知识，认为它们比其他样本更重要，可以设置sample_weight
重新调整特征的尺度，使某些特征的方差比其他特征大，例如，如果您使用RBF核并且希望某些特征比其他特征更重要（不过，通常最好将所有特征缩放到单位方差）
如果您使用核函数并希望以这种方式编码特殊的先验知识，可以使用自定义预计算核

对于文本分类，数据是高维的，通常使用核函数只是浪费资源而几乎没有增加预测准确性，所以最后两点可能与您的问题无关。

feature-selection libsvm machine-learning scikit-learn scikits

发表回复取消回复