交叉验证足以确保分类算法中没有过拟合吗?

我有一个数据集,其中一个类别有45个观测值,另一个类别有55个观测值。此外,我使用了4个不同的特征,这些特征是通过特征选择过滤器预先选择的,尽管这个过程的结果有些奇怪。

另一方面,我在使用Matlab的classificationLearner进行交叉验证,并从不同的分类器中获得了良好的准确率结果(75%到85%)。这能确保没有过拟合吗?还是仍然有可能发生过拟合?我怎样才能确保没有过拟合?


回答:

这真的取决于你所拥有的训练数据集。如果你可用的数据不够具有代表性,无论你使用什么训练和验证方法,你都不会得到一个好的模型。

考虑到这一点,如果你确定你的数据具有代表性(任何“重要”属性的子集的值分布与所有数据的全局集相同),那么交叉验证就足以依赖了。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注