SVM Hard margin: 为什么不平衡的数据集可能会导致糟糕的结果？

我能理解为什么软间隔SVM容易受到不平衡训练集的影响：最小化优化问题中的错误可能会导致将所有训练数据分类为负类（如果|负样本| >> |正样本|）。

但是，在硬间隔SVM中，我没有松弛变量和C常数，所以我不想最小化错误，因为硬间隔SVM期望没有错误（这是问题的定义）！硬间隔SVM只是寻找支持向量并最大化类别支持超平面之间的间隔，这些超平面是由支持向量“识别”的；现在，如果在负支持向量（即负类支持超平面）“后面”有很多点或与正类点数量相同，这些点不会影响我的间隔和分离超平面；

它始终是相同的，因为它仅依赖于支持向量，而无论我增加点的数量，它们始终是相同的！为什么硬间隔SVM会受到不平衡数据集的影响，或者我的推理哪里出了错？谢谢！

回答：

对于真正的硬间隔SVM，任何数据集都有两种选择，无论其平衡情况如何：

训练数据在特征空间中是完全可分的，你会得到一个训练错误为0的模型。
训练数据在特征空间中不可分，你将一无所获（没有模型）。

此外，请注意，给定一个足够复杂的核（例如，具有非常大的gamma的RBF），你可以在任何数据集上训练硬间隔SVM。然而，结果模型通常很差，因为它完全过拟合了训练数据。

学技术

SVM Hard margin: 为什么不平衡的数据集可能会导致糟糕的结果？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复