我有一个关于数据集训练和验证的问题。
我理解训练数据标签的概念,即y_train。但我不明白为什么我们的测试/验证样本也需要有标签。我假设给测试样本打上标签,就是在将它们输入算法之前定义它们,对吗?
让我这样说吧,如果我有一组狗和猫的图片数据集,并且分别标记为1和2。那么,如果我想用一张不在训练数据集中的狗的图片来测试我的模型,为什么要给它打标签呢?如果我给它标记为1,那么我事先就告诉它这是一只狗;如果我标记为2,那么它已经是一只猫了。
我可以有一个没有标签的测试/验证数据集吗?
回答:
验证数据集用于微调模型中的参数,而测试集则用于检查准确性。没有标签,如何声称模型的正确性?这个概念在监督学习中是有效的,因此测试和验证数据集需要有标签。