过拟合总是坏事吗？

我目前正在参加几个机器学习竞赛，因为我想学习这个领域。

对于一个回归问题，我使用了xgboost。这是我使用的程序：

在特征工程之后，我将数据分为两组，一组是训练集，另一组是测试集，像往常一样。然后我在训练集上拟合我的xgboost，并在测试集上进行验证。以下是我得到的结果：（我还展示了当我使用训练好的算法预测提交目标时的公共集结果，度量标准是mae）。

迭代次数  训练分数  测试分数  公共分数   100        8.05      12.14     17.50150        7.10      11.96     17.30

备注：

我的问题如下：

这个说法是否正确：如果有用信息与无用信息（训练集特定信息）的学习比率大于1，那么你可以继续过拟合并仍然改进模型？

希望这不会太 confusing，我很抱歉我可能没有使用正确的词汇。我必须提到，即使有过拟合和测试与公共分数之间的巨大差异，我目前在有50人参与的排行榜上排名第二。

回答：

首先要理解什么是过拟合。

当训练分数增加（或错误减少）而测试集分数减少（或错误增加）时，你可以看到过拟合。

过拟合是指你的训练模型过于精确，无法在你试图解决的问题上进行泛化。换句话说，它对训练数据过于“拟合”，仅对训练数据有效，因此无法解决/预测不同的数据集。

在你的例子中，似乎训练和测试的错误都在减少，这意味着你没有过拟合。

过拟合总是坏事。

至于你当前的问题。如果你想运行多个交叉验证，或者手动将数据分割为多个训练和测试集，你可以这样做：

至于你的问题：

添加一张图片来描述过拟合：

在复杂度的一个点（10）上，继续训练会减少训练错误，但会增加测试错误。

学技术