如何在Python scikit-learn中找到逻辑回归的正则化参数？

在scikit-learn中，C是正则化强度的倒数（链接）。我手动计算了三次训练，使用相同的参数和条件，但使用了三个不同的C值（即0.1、1.0和10.0）。我在验证集上比较了F分数，并确定了“最佳”C值。然而，有人告诉我这样做是错误的，因为我不应该使用验证集来优化C值。我应该如何选择正确的C值？如果我选择scikit-learn的默认C值（=1.0），有什么理由可以支持我的选择吗？

回答：

我应该如何选择正确的C值？

你应该拥有三部分的数据集：训练集、验证集和测试集。你在训练集上进行训练，在验证集上设置超参数，最后在测试集上进行评估。特别是当数据量较小时，你可以采用k折交叉验证的方式，首先使用CV进行训练-测试分割，然后在内部再进行一次分割，将训练数据进一步分为实际的训练集和验证集。

如果我选择scikit-learn的默认C值（=1.0），有什么理由可以支持我的选择吗？

除了对权重施加任意先验之外，没有其他理由（因此任何其他值也同样有理由）。

学技术

如何在Python scikit-learn中找到逻辑回归的正则化参数？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复